Søppelpost, eller reklamepost ("spam-mail") er blitt et sort problem for brukere av e-post. Eva har samlet på alle e-postene hun har fått det siste året, og delt de inn i to grupper, søppelpost og normalpost. Hun har mottattt 540 stk. søppelpost og 360 stk. normalpost. Anta at forholdet mellom søppelpost (S) og normalpost (N) holder seg stabilt over tid, og at e-postene er uavhengige av hverandre.
a) Hva er sannsynligheten, P(S), for at den neste e-posten Eva mottar, er en søppelpost?
En morgen Eva sjekker e-posten er det kommet 6 nye meldinger.
b) Hva er sannsynligheten for at ingen av dem er søppelpost?
c) Hva er sannsynligheten for at minst 4 av dem er søppelpost?
Grunntanken for et spamfilter er at visse ord (W) er typiske for søppelpost. Slike ord kan være free, nude, sexy. Andre ord finst sjelden i søppelpost. Slike ord kan være sorry, shortest, example. Dersom en analyse av ordene i e-posten tyder på at det er søppelpost går han rett i søppelbøtta uten at der han. Etter å ha analysert noen tusen e-poster har en funne følgende sannsynlighet P(W), for at et bestemt ord forekommer i en tilfeldig søppelpost. I tillegg har en registrert sannsynligheten for at ordet, W, forekommer, gitt at er det er en søppelpost, P(W|S). Deler av tabellen over ulike ord ser slik ut:
W P(W) P(W|S)
guarantee 0,56 0,91
price 0,63 0,98
Same 0,50 0,13
difficult 0,26 0,03
Vi går ut i fra at forholdet mellom normalpost og søppelpost er det samme som hos Eva.
d) Finn sannsynligheten P(S|W) for at en e-post er søppelpost, gitt at han inneholder ordet gurantee.
e) Finn sannsynligheten P(S|W) for at en e-post er søppelpost, gitt at han inneholder ordet difficult.
På forhånd takk
Søppelpost
Moderatorer: Aleks855, Gustav, Nebuchadnezzar, Janhaa, DennisChristensen, Emilga
Jeg tror man kan løse den ved hjelp av Bayes setning, kanskje Solar vil gjøre et forsøk?
-
- Over-Guru
- Innlegg: 1685
- Registrert: 03/10-2005 12:09
a) P(S)=540/(540 + 360) = 540/1000 = 0,54.
Herav følger at P(N) = 1 - P(S) = 1 - 0,54 = 0,36.
b) P(alle 6 e-postene er normalpost) = P(N)[sup]6[/sup] = 0,36[sup]6[/sup] ≈ 0,002.
c) P(minst 4 av 6 e-poster er søppelpost)
= C(6,4)*P(S)[sup]4[/sup]*P(N)[sup]2[/sup] + C(6,5)*P(S)[sup]5[/sup]*P(N) + C(6,6)*P(S)[sup]6[/sup]
= 15*0,54[sup]4[/sup]*0,36[sup]2[/sup] + 6*0,54[sup]5[/sup]*0,36 + 0,54[sup]6[/sup] ≈ 0,289.
I oppgave d) og e) anvender vi formelen P(S│W) = P(W│S)*P(S) / P(W):
d) P(S│W) = 0,91*0,54/0,56 ≈ 0,878.
e) P(S│W) = 0,03*0,54/0,26 ≈ 0,062.
Herav følger at P(N) = 1 - P(S) = 1 - 0,54 = 0,36.
b) P(alle 6 e-postene er normalpost) = P(N)[sup]6[/sup] = 0,36[sup]6[/sup] ≈ 0,002.
c) P(minst 4 av 6 e-poster er søppelpost)
= C(6,4)*P(S)[sup]4[/sup]*P(N)[sup]2[/sup] + C(6,5)*P(S)[sup]5[/sup]*P(N) + C(6,6)*P(S)[sup]6[/sup]
= 15*0,54[sup]4[/sup]*0,36[sup]2[/sup] + 6*0,54[sup]5[/sup]*0,36 + 0,54[sup]6[/sup] ≈ 0,289.
I oppgave d) og e) anvender vi formelen P(S│W) = P(W│S)*P(S) / P(W):
d) P(S│W) = 0,91*0,54/0,56 ≈ 0,878.
e) P(S│W) = 0,03*0,54/0,26 ≈ 0,062.
Hmmm... 540 + 360 er da 900?Solar Plexsus skrev:a) P(S)=540/(540 + 360) = 540/1000 = 0,54.
-
- Over-Guru
- Innlegg: 1685
- Registrert: 03/10-2005 12:09
Signaturen "Gjest" har selvsagt rett! Det skal jo være
P(S) = 540/(540 + 360) = 540/900 = 0,6
P(N) = 1 - P(S) = 1 - 0,6 = 0,4.
I oppgavene b-e må altså P(S) og P(N) erstattes med hhv. 0,6 og 0,4. Da får vi følgende svar:
b) 0,4[sup]6[/sup] ≈ 0,004.
c) 15*0,6[sup]4[/sup]*0,4[sup]2[/sup] + 6*0,6[sup]5[/sup]*0,4 + 0,6[sup]6[/sup] ≈ 0,544.
d) 0,91*0,6/0,56 = 0,975.
e) 0,03*0,6/0,26 ≈ 0,069.
P(S) = 540/(540 + 360) = 540/900 = 0,6
P(N) = 1 - P(S) = 1 - 0,6 = 0,4.
I oppgavene b-e må altså P(S) og P(N) erstattes med hhv. 0,6 og 0,4. Da får vi følgende svar:
b) 0,4[sup]6[/sup] ≈ 0,004.
c) 15*0,6[sup]4[/sup]*0,4[sup]2[/sup] + 6*0,6[sup]5[/sup]*0,4 + 0,6[sup]6[/sup] ≈ 0,544.
d) 0,91*0,6/0,56 = 0,975.
e) 0,03*0,6/0,26 ≈ 0,069.