Page 1 of 1

Søppelpost

Posted: 09/02-2006 16:46
by Guest
Søppelpost, eller reklamepost ("spam-mail") er blitt et sort problem for brukere av e-post. Eva har samlet på alle e-postene hun har fått det siste året, og delt de inn i to grupper, søppelpost og normalpost. Hun har mottattt 540 stk. søppelpost og 360 stk. normalpost. Anta at forholdet mellom søppelpost (S) og normalpost (N) holder seg stabilt over tid, og at e-postene er uavhengige av hverandre.

a) Hva er sannsynligheten, P(S), for at den neste e-posten Eva mottar, er en søppelpost?
En morgen Eva sjekker e-posten er det kommet 6 nye meldinger.
b) Hva er sannsynligheten for at ingen av dem er søppelpost?
c) Hva er sannsynligheten for at minst 4 av dem er søppelpost?

Grunntanken for et spamfilter er at visse ord (W) er typiske for søppelpost. Slike ord kan være free, nude, sexy. Andre ord finst sjelden i søppelpost. Slike ord kan være sorry, shortest, example. Dersom en analyse av ordene i e-posten tyder på at det er søppelpost går han rett i søppelbøtta uten at der han. Etter å ha analysert noen tusen e-poster har en funne følgende sannsynlighet P(W), for at et bestemt ord forekommer i en tilfeldig søppelpost. I tillegg har en registrert sannsynligheten for at ordet, W, forekommer, gitt at er det er en søppelpost, P(W|S). Deler av tabellen over ulike ord ser slik ut:

W P(W) P(W|S)

guarantee 0,56 0,91
price 0,63 0,98
Same 0,50 0,13
difficult 0,26 0,03

Vi går ut i fra at forholdet mellom normalpost og søppelpost er det samme som hos Eva.

d) Finn sannsynligheten P(S|W) for at en e-post er søppelpost, gitt at han inneholder ordet gurantee.

e) Finn sannsynligheten P(S|W) for at en e-post er søppelpost, gitt at han inneholder ordet difficult.



På forhånd takk

Posted: 09/02-2006 18:41
by Guest
Jeg tror man kan løse den ved hjelp av Bayes setning, kanskje Solar vil gjøre et forsøk?

Posted: 09/02-2006 19:37
by Solar Plexsus
a) P(S)=540/(540 + 360) = 540/1000 = 0,54.

Herav følger at P(N) = 1 - P(S) = 1 - 0,54 = 0,36.

b) P(alle 6 e-postene er normalpost) = P(N)[sup]6[/sup] = 0,36[sup]6[/sup] ≈ 0,002.

c) P(minst 4 av 6 e-poster er søppelpost)
= C(6,4)*P(S)[sup]4[/sup]*P(N)[sup]2[/sup] + C(6,5)*P(S)[sup]5[/sup]*P(N) + C(6,6)*P(S)[sup]6[/sup]
= 15*0,54[sup]4[/sup]*0,36[sup]2[/sup] + 6*0,54[sup]5[/sup]*0,36 + 0,54[sup]6[/sup] ≈ 0,289.

I oppgave d) og e) anvender vi formelen P(S│W) = P(W│S)*P(S) / P(W):

d) P(S│W) = 0,91*0,54/0,56 ≈ 0,878.

e) P(S│W) = 0,03*0,54/0,26 ≈ 0,062.

Posted: 09/02-2006 19:38
by Guest
Takk, Solar

Posted: 09/02-2006 23:10
by Magnus
Den oppgaven gjorde jeg en gang i tiden også husker jeg..

Posted: 09/02-2006 23:53
by Guest
Solar Plexsus wrote:a) P(S)=540/(540 + 360) = 540/1000 = 0,54.
Hmmm... 540 + 360 er da 900?

Posted: 10/02-2006 00:23
by Solar Plexsus
Signaturen "Gjest" har selvsagt rett! Det skal jo være

P(S) = 540/(540 + 360) = 540/900 = 0,6
P(N) = 1 - P(S) = 1 - 0,6 = 0,4.

I oppgavene b-e må altså P(S) og P(N) erstattes med hhv. 0,6 og 0,4. Da får vi følgende svar:

b) 0,4[sup]6[/sup] ≈ 0,004.

c) 15*0,6[sup]4[/sup]*0,4[sup]2[/sup] + 6*0,6[sup]5[/sup]*0,4 + 0,6[sup]6[/sup] ≈ 0,544.

d) 0,91*0,6/0,56 = 0,975.

e) 0,03*0,6/0,26 ≈ 0,069.