Søppelpost

Her kan du stille spørsmål vedrørende problemer og oppgaver i matematikk for videregående skole og oppover på høyskolenivå. Alle som føler trangen er velkommen til å svare.

Moderatorer: Aleks855, Gustav, Nebuchadnezzar, Janhaa, DennisChristensen, Emilga

Svar
Gjest

Søppelpost, eller reklamepost ("spam-mail") er blitt et sort problem for brukere av e-post. Eva har samlet på alle e-postene hun har fått det siste året, og delt de inn i to grupper, søppelpost og normalpost. Hun har mottattt 540 stk. søppelpost og 360 stk. normalpost. Anta at forholdet mellom søppelpost (S) og normalpost (N) holder seg stabilt over tid, og at e-postene er uavhengige av hverandre.

a) Hva er sannsynligheten, P(S), for at den neste e-posten Eva mottar, er en søppelpost?
En morgen Eva sjekker e-posten er det kommet 6 nye meldinger.
b) Hva er sannsynligheten for at ingen av dem er søppelpost?
c) Hva er sannsynligheten for at minst 4 av dem er søppelpost?

Grunntanken for et spamfilter er at visse ord (W) er typiske for søppelpost. Slike ord kan være free, nude, sexy. Andre ord finst sjelden i søppelpost. Slike ord kan være sorry, shortest, example. Dersom en analyse av ordene i e-posten tyder på at det er søppelpost går han rett i søppelbøtta uten at der han. Etter å ha analysert noen tusen e-poster har en funne følgende sannsynlighet P(W), for at et bestemt ord forekommer i en tilfeldig søppelpost. I tillegg har en registrert sannsynligheten for at ordet, W, forekommer, gitt at er det er en søppelpost, P(W|S). Deler av tabellen over ulike ord ser slik ut:

W P(W) P(W|S)

guarantee 0,56 0,91
price 0,63 0,98
Same 0,50 0,13
difficult 0,26 0,03

Vi går ut i fra at forholdet mellom normalpost og søppelpost er det samme som hos Eva.

d) Finn sannsynligheten P(S|W) for at en e-post er søppelpost, gitt at han inneholder ordet gurantee.

e) Finn sannsynligheten P(S|W) for at en e-post er søppelpost, gitt at han inneholder ordet difficult.



På forhånd takk
Gjest

Jeg tror man kan løse den ved hjelp av Bayes setning, kanskje Solar vil gjøre et forsøk?
Solar Plexsus
Over-Guru
Over-Guru
Innlegg: 1685
Registrert: 03/10-2005 12:09

a) P(S)=540/(540 + 360) = 540/1000 = 0,54.

Herav følger at P(N) = 1 - P(S) = 1 - 0,54 = 0,36.

b) P(alle 6 e-postene er normalpost) = P(N)[sup]6[/sup] = 0,36[sup]6[/sup] ≈ 0,002.

c) P(minst 4 av 6 e-poster er søppelpost)
= C(6,4)*P(S)[sup]4[/sup]*P(N)[sup]2[/sup] + C(6,5)*P(S)[sup]5[/sup]*P(N) + C(6,6)*P(S)[sup]6[/sup]
= 15*0,54[sup]4[/sup]*0,36[sup]2[/sup] + 6*0,54[sup]5[/sup]*0,36 + 0,54[sup]6[/sup] ≈ 0,289.

I oppgave d) og e) anvender vi formelen P(S│W) = P(W│S)*P(S) / P(W):

d) P(S│W) = 0,91*0,54/0,56 ≈ 0,878.

e) P(S│W) = 0,03*0,54/0,26 ≈ 0,062.
Magnus
Guru
Guru
Innlegg: 2286
Registrert: 01/11-2004 23:26
Sted: Trondheim

Den oppgaven gjorde jeg en gang i tiden også husker jeg..
Gjest

Solar Plexsus skrev:a) P(S)=540/(540 + 360) = 540/1000 = 0,54.
Hmmm... 540 + 360 er da 900?
Solar Plexsus
Over-Guru
Over-Guru
Innlegg: 1685
Registrert: 03/10-2005 12:09

Signaturen "Gjest" har selvsagt rett! Det skal jo være

P(S) = 540/(540 + 360) = 540/900 = 0,6
P(N) = 1 - P(S) = 1 - 0,6 = 0,4.

I oppgavene b-e må altså P(S) og P(N) erstattes med hhv. 0,6 og 0,4. Da får vi følgende svar:

b) 0,4[sup]6[/sup] ≈ 0,004.

c) 15*0,6[sup]4[/sup]*0,4[sup]2[/sup] + 6*0,6[sup]5[/sup]*0,4 + 0,6[sup]6[/sup] ≈ 0,544.

d) 0,91*0,6/0,56 = 0,975.

e) 0,03*0,6/0,26 ≈ 0,069.
Svar