Hei, jeg lurer på noe angående varians.
På matematikk.net er varians definert som "Når man deler summen av kvadratene på antall målinger får man variansen"
På wikipedia.org/wiki/Varians er varians definert som: "I praksis regnes variansen ut ved at en først regner ut gjennomsnittet av av alle observasjonene, deretter legger du sammen kvadratene av forskjellen mellom hver observasjon og dette gjennomsnittet. Denne summen deles på tallet som er én mindre enn antall observasjoner."
Hva er riktig; deler man på antall observasjoner eller (antall observasjoner - 1)?
Varians
Moderators: Aleks855, Gustav, Nebuchadnezzar, Janhaa, DennisChristensen, Emilga
Veldig godt spørsmål! Svaret er litt komplisert, men det er bra at du er nysgjerrig på slikt, så jeg gjør et forsøk.
La antall datapunkter i hele populasjonen være N. La antall målinger i et utvalg være n. Målet med å finne variansen i utvalget er å tilnærme variansen i hele populasjonen.
Den standardformelen viser at du skal dele på n, og det er jo greit.
Men ideen om å dele på n-1 i stedet, var fra en veldig lur fyr som het Bessel. Det kalles derfor Bessel's Correction.
Så la oss betrakte variansen for hele populasjonen, som har N datapunkter. Det vil være $\frac1N \sum_{i=1}^N(x_i-\mu)^2$ der $\mu$ er gjennomsnittet for hele populasjonen.
Deretter variansen for utvalget: $\frac1n \sum_{i=1}^{n} (x_i - \bar x)^2 $ der $\bar x$ er gjennomsnittet for utvalget.
Det Bessel fant ut, var at denne måten å regne ut variansen for utvalget på, var "biased", altså at den er litt ubalansert, i form av at den er veldig sannsynlig til å bli mindre enn populasjonsvariansen. Dette kan du betrakte ved å studere snittet og variansen av punkter langs ei tallinje.
Det som skjer når du deler på n-1 i stedet, er at (vha. grunnleggende brøkregning), så blir variansen hakket større (mindre nevner, større resultat). Det er med andre ord ikke noe som vil bli HELT korrekt i forhold til populasjonsvariansen, men det blir i de aller fleste tilfeller NÆRMERE populasjonsvariansen. Og siden målet med å beregne variansen for et utvalg, er å prøve å tilnærme variansen for hele populasjonen, så er det å dele på n-1 noe som gir en bedre estimator helt generelt.
Så et lite tips til sist; når du sitter på en eventuell eksamen eller prøve, bruk n-1 og påpek at du har brukt Bessel's korreksjon for å få en bedre estimator
La antall datapunkter i hele populasjonen være N. La antall målinger i et utvalg være n. Målet med å finne variansen i utvalget er å tilnærme variansen i hele populasjonen.
Den standardformelen viser at du skal dele på n, og det er jo greit.
Men ideen om å dele på n-1 i stedet, var fra en veldig lur fyr som het Bessel. Det kalles derfor Bessel's Correction.
Så la oss betrakte variansen for hele populasjonen, som har N datapunkter. Det vil være $\frac1N \sum_{i=1}^N(x_i-\mu)^2$ der $\mu$ er gjennomsnittet for hele populasjonen.
Deretter variansen for utvalget: $\frac1n \sum_{i=1}^{n} (x_i - \bar x)^2 $ der $\bar x$ er gjennomsnittet for utvalget.
Det Bessel fant ut, var at denne måten å regne ut variansen for utvalget på, var "biased", altså at den er litt ubalansert, i form av at den er veldig sannsynlig til å bli mindre enn populasjonsvariansen. Dette kan du betrakte ved å studere snittet og variansen av punkter langs ei tallinje.
Det som skjer når du deler på n-1 i stedet, er at (vha. grunnleggende brøkregning), så blir variansen hakket større (mindre nevner, større resultat). Det er med andre ord ikke noe som vil bli HELT korrekt i forhold til populasjonsvariansen, men det blir i de aller fleste tilfeller NÆRMERE populasjonsvariansen. Og siden målet med å beregne variansen for et utvalg, er å prøve å tilnærme variansen for hele populasjonen, så er det å dele på n-1 noe som gir en bedre estimator helt generelt.
Så et lite tips til sist; når du sitter på en eventuell eksamen eller prøve, bruk n-1 og påpek at du har brukt Bessel's korreksjon for å få en bedre estimator
