Statistikk og Simulering

Veke 10. Korrelasjon og regresjon

Måndag (førelesing)

10.2. Måndag (førelesing)

  10.2.1 Regresjon
  10.2.2 Korrelasjon

Merk at notata nedanfor er meint å gje eit kort overblikk over hovedpunkta som vert gjennomgått. Det er ikkje meininga at du skal læra stoffet utan å vera til stades og lesa læreboka.

10.2.1. Regresjon

Oppgåve 10.1 Me ynskjer å forstå samanhengen mellom areal og pris på bustader. Me har observert sal av fem bustadar:

Areal 50 70 95 100 120
Pris 2 mill. 2,3 mill 3 mill 2,9 mill 3,3 mill

Kva teknikkar og modellar kan me bruka for å forklara samanhengen?

Døme 7 Me har observert to stokastiske variablar: areal, som me skriv X og pris, som me skriv Y . Observasjonane kjem i par (X,Y ), der me har observert pris og areal på den same bustaden. Då er det naturleg å plotta dei to variablane saman i (x,y)-planet.

pict

Oppgåve 10.2 (Drøfting) Sjå på plottet over. Går det an å skriva prisen som ein funksjon (omtrentleg eller eksakt) av arealet? Kva slags funksjon vil du føreslå?

Døme 8 Ein lineær funksjon er ein høveleg god tilnærming, som me ser her:

pict

Me bruker minste kvadrats metode for å finna den beste lina eksakt (sjå læreboka).

10.2.2. Korrelasjon

Døme 9 Me kan rekna ut variansen for dei to variablane som fylgjer:

x 50 70 95 100 120 Sum
x x ̄ -37 -17 8 13 33 0
(x x̄)2 1369 289 64 169 1089 2980
y 2 mill. 2,3 mill 3 mill 2,9 mill 3,3 mill
y ȳ -0,7 mill. -0,4 mill 0,3 mill 0,2 mill 0,6 mill 0
(y ȳ)2 0,49 0,16 0,09 0,04 0,36 1,14

Mao. sX2 = 2980 og sY 2 = 1,14.

Dei to variablane er openbert ikkje uavhengige og variasjonen i kvar variabel er langt mindre interessant enn samanhengen mellom dei.

Variansen er

σX2 = E((X μ X)2)

for X og

σY 2 = E((Y μ Y )2)

for Y . Utfall som er svært forskjellig frå gjennomsnittet trekk forventingsverdien (variansen) mykje opp. Utfall nær gjennomsnittet har liten innverknad.

Me kan òg studera kovariansen

σXY = E((X μX)(Y μY )).

Her ser me at utfall som er svært forskjellig frå gjennomsnittet for X berre påverkar forventingsverdien når dei opptrer saman med Y -verdiar som òg avvik frå gjennomsnittet. Kovariansen kan ha negativt forteikn dersom X plar vera stor når Y er liten og omvendt.

Døme 10 Me kan rekna ut utvalskovariansen som fylgjer:

x 50 70 95 100 120 Sum
x x ̄ -37 -17 8 13 33 0
y 2 mill. 2,3 mill 3 mill 2,9 mill 3,3 mill
y ȳ -0,7 mill. -0,4 mill 0,3 mill 0,2 mill 0,6 mill 0
(x x̄)(y ȳ) 25,9 6,8 2,4 2,6 19,8 57,5

Mao. sXY = 57,54 = 14,375.

Et problem med kovariansen som mål er at høg varians også bidreg til høg kovarians (i absoluttverdi). To variablar med høg kovarians treng difor ikkje vera svært avhengige av kvarandre. For å få eit godt mål for avhenget uavhengig av variansen, kan me normalisera og få den sokalla korrelasjonskoeffisienten:

ρ = σXY σXσY