Statistikk og Simulering

Økt 4. Snitt og spredning

Etterarbeid

5.2. Etterarbeid

Oppgåve 5.23 Frisvold og Moe: Oppgave 5.1 - 5.5

5.2.1. Gjennomsnitt

Ta en mynt og kast den 5 ganger, mens du teller antallene mynt (1) og kron (0). Et slikt sett av observasjoner kalles for et utvalg.

Oppgåve 5.24 Tegn resultatene på et histogram.

Oppgåve 5.25 Regn ut utvalgsmiddelverdien (d.v.s., gjennomsnittet av resultatene).

Oppgåve 5.26 Verifiser at utvalgsmiddelverdien x̄ kan skrives som

x̄ = 1 n i=1nx i. (8) 

Hva betyr indeksen i?

Forventningsverdien μx til en diskret stokastisk variabel er et vektet gjennomsnitt av alle mulige utfall:

μx = i=1nx i Pr(xi). (9) 

I spesialtilfellet der alle utfallene er like sannsynlige, kan forventningsverdien regnes ut sum summen av alle utfallene, delt på antallet utfall (se oppgave 5.28).

Oppgåve 5.27 Hva er forventningsverdien for antallet ganger mynt i et enkelt kast med en mynt?

Oppgåve 5.28 Vis at forventningsverdien kan skrives som

μx = 1 n i=1nx i. (10) 

om alle utfallene i et eksperiment er like sannsynlige. Hva betyr indeksen i? Sammenlikn med oppgave 5.26.

Oppgåve 5.29 Ta en terning og slå den 15 ganger. Skriv ned resultatene.

Oppgåve 5.30 Tegn resultatnene på et histogram.

Oppgåve 5.31 Regn ut utvalgsmiddelverdien for eksperimentet.

Oppgåve 5.32 Hva er forventningsverdien for et kast med en terning? Vis utregningen.

MATLAB-koden nedenfor simulerer en rekke på 15 kast med en terning, og genererer et histogram av resultatene.

1n=15 
2x=ceil(6*rand(1,n)) 
3hist(x,1:6)

Explanation 12 Funnksjonen rand(m, n) returnerer en m × n matrise av uniformt fordelte slumptall, alle i intervallet 0, 1. Multiplikasjon med 6 gir slumptall i intervallet 0, 6. Til slutt returnerer funksjonen ceil det nærmeste større heltallet, slik at resultatene ligger i {1, 2, 3, 4, 5, 6}.

Oppgåve 5.33 Input koden i MATLAB og kjør den et antall ganger.

Om vi sampler en populasjon mange ganger, og tar gjennomsnittet av utvalgsmiddelverdiene (Eq. 3), nærmer gjennomsnittet seg populasjonsmiddelverdien (Eq. 4 / 5).

Døme 1 Vi kaster tre terninger gjentatte ganger.

  • Utfallene kan være: 1, 1, 4, 2, 3, 5, 6, 1, 4, ...
  • Utvalgsmiddelverdiene er i så fall (sjekk!) 2, 10/3, 11/3, ...
  • Gjennomsnittet av disse utvalgsmiddelverdiene er i så fall (sjekk!) 2, 8/3, 3, ...
  • Denne rekken konvergerer til slutt til forventningsverdien (sjekk!) 3.5.

Vi kaller derfor utvalgsmiddelverdien en estimator for forventningsverdien.

5.2.2. Standardavvik og varians

Oppgåve 5.34 I denne oppgaven studerer vi spredningen av statiske data. Skriv inn og kjør den følgende koden i MATLAB:

1clear 
2n=10 
3x=ceil(2*rand(1,n))-1 
4 % simulate n coin tosses 
5y=ceil(6*rand(1,n)) 
6 % simulate n dice rolls 
7t=1:n 
8plot(t,x,t,y,’LineStyle’,’none’, ’Marker’,’diamond’)

1.
Skriv resultatene av 10 kast med en mynt (hvor mynt gir resultatet 1 og kron gir 0) og 10 kast med en terning, på en tabell.
2.
For hvilket av de to eksperimentene er spredningen størst?
3.
Regn ut utvalgsmiddelverdien for begge disse eksperimentene.

For å kvantifisere spredning, må vi måle variasjonen rundt middelverdien. Vi kan prøve å ta gjennomsnittlig differanse med middelverdien:

1 n i=1n(x i x̄). (11) 
4.
Regn ut gjennomsnittlig differanse med middelverdien for de 10 kastene med mynten.
5.
Vis at svaret på den forrige oppgaven skal være lik null. Hint: Del opp summeringen i to.

Siden resultatet er lik 0, uavhengig av spredningen i resultatene, er uttrykket over ikke et godt mål for spredning.

6.
Foreslå et bedre mål for spredning i et utvalg.

Den mest logiske måten for å løse problemet over, er å ta gjennomsnittlig distanse fra utvalgsmiddelverdien:

1 n i=1n|x i x̄|. (12) 
7.
Regn ut dette uttrykket, både for de 10 kastene med mynten og for de 10 kastene med terningen. Forklar hva du finner. Gir denne metoden et godt spredningsmål?

Hovedproblemet med denne metoden er at absoluttverdien er litt upraktisk i bruk, siden funksjonen ikke er kontinuerlig deriverbar.

Av denne grunnen er standard-måten for å måle spredning litt annerledes:

s = 1 n 1 i=1n(xi x̄)2. (13) 

s kalles for (utvalgs-)standardavviket.

"Gjennomsnittlig” kvadrert avstand fra utvalgsmiddelverdien kalles for (utvalgs-)varians:

s2 = 1 n 1 i=1n(x i x̄)2. (14) 

N.B.: Grunnen til at vi dividerer på (n 1) istedenfor n er nyansert, og forklares senere. Det er altså ikke helt riktig å bruke ordet "Gjennomsnittlig”.

8.
Regn ut variansen og standardavviket for de 10 kastene med mynten, og for de 10 kastene med terningen. Er standardavviket et godt spredningsmål? Sammenlikn med resultatene fra den forrige oppgaven (hvor vi brukte absoluttverdien). Forklar forskjellen.
9.
Den følgende MATLAB-koden kan vi bruke for å regne ut variansen i eksperimentet med myntene: 1x_diff_squared = (x-mean(x)).^2 
2x_variance = sum(x_diff_squared)/(n-1)

Explanation 13 Dot-operatoren brukes i MATLAB for å anvende en operasjon (i dette tilfellet kvadrering) på hvert element i en matrise.

Om du ønsker kan du tilpasse MATLAB-koden for å verifisere resultatene dine i de forrige oppgavene.

Vi har lært hvordan en kan måle spredning i et utvalg. Men er det også mulig å predikere spredningen i et eksperiment? Svaret er ja!

Når vi kaster en mynt, vet vi at vi får resultatet 0 med sannsynlighet P(0) = 0.5 og utfall 1 med sannsynlighet P(1) = 0.5, og forventningsverdien er μ = 0.5.

10.
Hva er forventningsverdien for den kvadrerte distansen fra μ?
11.
Forklar at formelen σ2 = 1 n 1 i=1n(x i x̄)2. (15) 

gir det ønskede resultatet. σ2 kalles for (populasjons-)variansen. Kvadratroten av (populasjons-)variansen kalles for (populasjons-)standardavvik.

σ = 1 n 1 i=1n(xi x̄)2. (16) 

Hva betyr indeksen i i denne formelen?

12.
Regn ut populasjonsvariansen og -standardavvik for et kast med en terning.
13.
verifiser resultatene i MATLAB.

Om vi sampler populasjonen mange ganger, og tar gjennomsnittet av utvalgsvariansene, nærmer den gjennomsnittlige verdien populasjonsvariansen. Vi kaller derfor utvalgsvariansen for en estimator for populasjonsvariansen.

Døme 2 Vi kaster tre terninger gjentatte ganger. Resultatene kan være: {1, 1, 4}, {2, 3, 5}, {6, 1, 4}, ... Utvalgsvariansene er da (sjekk!) 3, 7/3, 19/3, ... Gjennomsnittene av utvalgsvariansene er (sjekk!) 3, 8/3, 35/9, ... Denne rekken konvergerer til slutt til populasjonsvariansen (sjekk!) 35/12.