Statistikk og Simulering

Økt 26. Hypotesetest

Demonstrasjon

19.1. Demonstrasjon

I dag skal me arbeida med statistikken,

G = y=0m1(Fy Ey)2 Ey ,

som me definerte på slutten av forrige økt. Me arbeider ut frå ein hypotese om at tala som me observerer er uniformt fordelte. Me kjem til å kalla denne hypotesen for nullhypotesen.

Fylgjande Matlab-funksjon, frå fila chi2uniform.m, reknar ut G for eit utval x.

1function [s,nu] = chi2uniform(x,m) 
2 
3x = x(:) ;              % Turn 2D matrix into vector 
4[n,foobar] = size(x) ;  % Get the length of the vector 
5h = histcounts(x,’BinMethod’,’integers’) ; % Get frequencies 
6if nargin < 2, 
7   m = length(h) ;      % Get the size of the sample space 
8end 
9nu = m - 1 ;            % Number of degrees of freedom 
10avg = n/m ;             % Expected frequency 
11 
12y = (h-avg) .^ 2 ./ avg ;  % Calculate every term of the chi2 statistic 
13s = sum(y) ;               % Add the terms to get the chi2 statistic

Dersom den underliggjande fordelinga faktisk er uniform, vil G vera χ2-fordelt (utt. kjikvadratfordelt) med ν = m 1 fridomsgradar.

Oppgåve 19.1 Plott PDF for χ2-fordelinga

1fplot( @(x)chi2pdf(x,15), [0 40] ) Det merkelege uttrykket @(x)chi2pdf(x,15) er eit lambdauttrykk og lagar ein ny funksjon med ein parameter x vha. den eksisterande funksjonen som har 2.

Oppgåve 19.2 Rekna ut G for eit utval a slumptal modulo 16 frå generatoren rng1.m (sjå forrige økt), og rekna ut χ2-statistikken med fila over.

1x = rng1(500) 
2y = mod( x, 16 ) 
3g = chi2uniform( y, 16 )
Kva verdi får du? Er dette ein sannsynleg verdi dersom slumptala er uniformt fordelte?

Oppgåve 19.3 Gjenta oppgåva over for generatoren rng2.m. Kva verdi får du for G no? Er dette ein sannsynleg verdi dersom slumptala er uniformt fordelte?

Oppgåve 19.4 Lat g1 og g2 vera observasjonane av G frå hhv. oppgåve 19.2 og 19.3. Kva er sannsyna

1.
P(G g1)?
2.
P(G g2)?

Du kan finna svaret på dette med CDF-funksjonen (cummulative density function) i Matlab.

1p1 = 1 - chi2cdf( g1, 15 ) Denne verdien kallar me p-verdien for testen. Det er sannsynet for å observera den G-verdien som me har sett, eller ein høgare verdi, føresett at nullhypotesen er sann.