Søppelpost
Posted: 09/02-2006 16:46
Søppelpost, eller reklamepost ("spam-mail") er blitt et sort problem for brukere av e-post. Eva har samlet på alle e-postene hun har fått det siste året, og delt de inn i to grupper, søppelpost og normalpost. Hun har mottattt 540 stk. søppelpost og 360 stk. normalpost. Anta at forholdet mellom søppelpost (S) og normalpost (N) holder seg stabilt over tid, og at e-postene er uavhengige av hverandre.
a) Hva er sannsynligheten, P(S), for at den neste e-posten Eva mottar, er en søppelpost?
En morgen Eva sjekker e-posten er det kommet 6 nye meldinger.
b) Hva er sannsynligheten for at ingen av dem er søppelpost?
c) Hva er sannsynligheten for at minst 4 av dem er søppelpost?
Grunntanken for et spamfilter er at visse ord (W) er typiske for søppelpost. Slike ord kan være free, nude, sexy. Andre ord finst sjelden i søppelpost. Slike ord kan være sorry, shortest, example. Dersom en analyse av ordene i e-posten tyder på at det er søppelpost går han rett i søppelbøtta uten at der han. Etter å ha analysert noen tusen e-poster har en funne følgende sannsynlighet P(W), for at et bestemt ord forekommer i en tilfeldig søppelpost. I tillegg har en registrert sannsynligheten for at ordet, W, forekommer, gitt at er det er en søppelpost, P(W|S). Deler av tabellen over ulike ord ser slik ut:
W P(W) P(W|S)
guarantee 0,56 0,91
price 0,63 0,98
Same 0,50 0,13
difficult 0,26 0,03
Vi går ut i fra at forholdet mellom normalpost og søppelpost er det samme som hos Eva.
d) Finn sannsynligheten P(S|W) for at en e-post er søppelpost, gitt at han inneholder ordet gurantee.
e) Finn sannsynligheten P(S|W) for at en e-post er søppelpost, gitt at han inneholder ordet difficult.
På forhånd takk
a) Hva er sannsynligheten, P(S), for at den neste e-posten Eva mottar, er en søppelpost?
En morgen Eva sjekker e-posten er det kommet 6 nye meldinger.
b) Hva er sannsynligheten for at ingen av dem er søppelpost?
c) Hva er sannsynligheten for at minst 4 av dem er søppelpost?
Grunntanken for et spamfilter er at visse ord (W) er typiske for søppelpost. Slike ord kan være free, nude, sexy. Andre ord finst sjelden i søppelpost. Slike ord kan være sorry, shortest, example. Dersom en analyse av ordene i e-posten tyder på at det er søppelpost går han rett i søppelbøtta uten at der han. Etter å ha analysert noen tusen e-poster har en funne følgende sannsynlighet P(W), for at et bestemt ord forekommer i en tilfeldig søppelpost. I tillegg har en registrert sannsynligheten for at ordet, W, forekommer, gitt at er det er en søppelpost, P(W|S). Deler av tabellen over ulike ord ser slik ut:
W P(W) P(W|S)
guarantee 0,56 0,91
price 0,63 0,98
Same 0,50 0,13
difficult 0,26 0,03
Vi går ut i fra at forholdet mellom normalpost og søppelpost er det samme som hos Eva.
d) Finn sannsynligheten P(S|W) for at en e-post er søppelpost, gitt at han inneholder ordet gurantee.
e) Finn sannsynligheten P(S|W) for at en e-post er søppelpost, gitt at han inneholder ordet difficult.
På forhånd takk