Model statystyczny Format danych Przedziały ufności i testy

Transkrypt

Model statystyczny Format danych Przedziały ufności i testy
Wykład 13: (prosta) regresja liniowa
Model statystyczny
Format danych
Przedziały ufności i testy istotności dla
parametrów modelu
• Przypomnienie: wykłady i zadania kursu
były zaczerpnięte z podręczników:
– Statystyka dla studentów kierunków
technicznych i przyrodniczych, J. Koronacki,
J. Mielniczuk, WNT 2004, wyd. II
– Introduction to the Practice of Statistics, D.
Moore, G. McCabe, Freeman 2003, wyd. IV
– Statistics for the Life Sciences, M. Samuels, J.
Witmer, 2003, wyd. III
– H. Jasiulewicz i W. Kordecki \Rachunek
prawdopodobieństwa i statystyka matematyczna. Przykłady i zadania", wyd. II
Słownictwo:
• Zmienna odpowiedzi jest głównym
przedmiotem zainteresowania.
• Zmienne objaśniające są pomocnicze—
wyjaśniają, a czasem wręcz wpływają na
zmienną odpowiedzi.
• Interesuje nas związek tych zmiennych.
Ćwiczenie. W następujących przykładach wskaż:
• obserwowane jednostki/osobniki,
• zmienne.
Scatterplot (wykres punktowy): punkty (xi, yi).
Tu: wysokość i wiek dzieci w Kalama.
Przedyskutuj źródło zmienności zmiennej Age...
Example 1:
Średni wzrost
pewnej grupy dzieci
w miejscowości
Kalama (Egipt)
obserwowanych w
wieku 18--29
miesięcy:
Przykład 2: Średni wynik SAT z matematyki w
stanie (USA) i procent absolwentów szkoły
średniej (HS) przystępujących do SAT
1
Dodatnia czy ujemna „korelacja”?
Mamy tu .......................... korelację.
Mamy tu .......................... korelację.
Współczynnik korelacji
• Oznaczamy r. Obliczamy dla n (par) obserwacji:
r
 xi  x   y i  y 
1




n  1  s x   s y 
• Uwagi:
 -1≤r≤1.
Nie zależy od jednostek pomiaru.
Wskazuje na liniowy związek, gdy bliski ±1.
Nieodporny na obserwacje odstające.
Nie zależy od tego, która zmienna jest uważana za
zmienną odpowiedzi, a która za objaśniającą.
Prosta regresji (najmniejszych kwadratów):
Przykład 1 cd.: Prosta regresji dla danych z Kamala i
predykcja dla wieku 32 miesięcy.
• Linia prosta, która „najlepiej” opisuje przybliża
scatterplot.
• Opisuje liniową odpowiedź zmiennej y na
zmiany zmiennej objaśniająca x.
• Równanie prostej (b-nachylenie/slope, astała/intercept): y=a+bx
• Najlepsze a i b są obliczane z danych.
• Predykcja dla danej wartości zmiennej
objaśniającej:
ŷi=a+bxi
2
Wzór dla prostej regresji (najmniejszych
kwadratów)
(X-zmienna objaśniająca, Y-zmienna odpowiedzi)
Dane:
sy
sx
and
intercept
x  2 3 .5 m o n th s , y  7 9 .8 5 cm ,
s x  3 .6 0 6 m o n th s , s y  2 .3 0 2 c m ,
r= 0 .9 9 4 4
x, y, sx , s y , r. Calculate:
slope b  r
Przykład1 cd. (dane z Kamala)
a  y  bx
y  a  bx
Wartości resztowe (residuals)
• Oblicz przewidywany wzrost dla wieku 25 miesięcy. Ile
wynosi różnica względem zaobserwowanego wzrostu?
• A dla wieku 250 miesięcy??
Residual plot (wykres resztowy): Scatterplot (wykres
punktowy) reszt i zmiennej objaśniającej. Pomaga ocenić
dokładność przybliżenia przez prostą regresji.
Wartość resztowa (w/dla xi) to
(obserwowane y)-(przewidywane y):
ri = yi-ŷi
Np. dla danych z Kamala i x=25, wartość
resztowa wynosi:
Model statystyczny (prostej) regresji liniowej
yi   0  1 xi   i
• Dane: n obserwacji postaci (x1, y1), (x2,
y2), … (xn, yn).
• Odchylenia  i są z założenia niezależne o
tym samym rozkładzie ze średnią 0 i
odchyleniem standardowym .
• Parametry modelu to: 0, 1, .
3
Motywacja: dwie grupy/populacje z tym samym
odchyleniem standardowym i różnymi średnimi:
Regresja liniowa: wiele grup z tym samym
odchyleniem standardowym i średnią
zmieniającą się liniowo wraz z x.
Wzory
 (x  x)
y, s 
Myślimy o prostej regresji obliczonej dla danych
jako estymatorze prostej regresji dla populacji.
linia
równanie
nachylenie stała (intercept)
(slope)
Ogólnie
ŷabx
b
a
Dla próby
yˆ b0bx
1
b1
b0
Dane:
r
i
2
x
n, x ,
n 1
(
x

x
)(
yi  y )
 i
2
 (x  x)  ( y
i
i
2
, s 2y 
 ( y  y)
2
i
n 1
,
 y)2
Statystyki wynikowe:
Dla populacji
y 01x
1
0
b  b1  r
s2 
sy
sx
(y
SEb1 
i
a  b0  y  bx ,
,
 yˆ i ) 2
n2
s
 (x  x)
i
Przedziały ufności i testy istotności dla
nachylenia i stałej (slope oraz intercept)
 s 2y (1  r 2 )
2

yˆ i  b0  b1 yi ,
n 1
,
n2
sy 1 r 2
,
sx n  2
t
b1
r n2

SEb1
1 r2
Przykład: 92 mężczyzn w wieku 20-29 lat.
Mierzymy skin-fold thickness oraz body
density:
• Na poziomie ufności C przedział ufności dla 0:
b0  t *  SEb0
• Na poziomie C przedział ufności dla 1 to:
b1  t *  SEb1
t* znajdujemy z (tabeli) rozkładu Studenta z n-2
stopniami swobody.
ID
1
2
3
4
5
Iskin Den
1.27 1.093
1.56 1.063
1.45 1.078
1.52 1.056
1.51 1.073 …
4
Wyniki SASa:
Scatterplot i prosta najmniejszych kwadratów:
The SAS System
17:47 Thursday, July 22, 2004
5
The REG Procedure
Model: MODEL1
Dependent Variable: Den
Root MSE
Dependent Mean
Coeff Var
0.00854
1.06403
0.80252
R-Square
Adj R-Sq
0.7204
0.7173
Parameter Estimates
Variable
DF
Parameter
Estimate
Intercept
Iskin
1
1
1.16300
-0.06312
Standard
Error
t Value
Pr > |t|
0.00656
0.00414
177.30
-15.23
<.0001
<.0001
99% Confidence Limits
1.14574
-0.07403
1.18026
-0.05221
Excel, dla tych samych danych:
SPSS, dla tych samych danych:
Ćwiczenie: Znajdź
przedział ufności dla
średniej zmiany body
density na jednostkę
skinfold thickness.
Testowanie hipotezy H0: 1=0
• Statystyka:
t
b1
SEb1
To jest test Studenta z df = n – 2.
• Jeżeli 1=0, to y = 0, tj. średnia y nie zmienia
się z x w modelu liniowym. W przeciwnym razie
mówimy o “liniowym wpływie/zależnościi”
(niezerowym nachyleniu w populacji).
• Zwykle oprogramowanie podaje wartość
statystyki i (dwustronną) P-wartość. Wystarczy
zinterpretować.
5
P-wartości dla H0: 1=0
Ćwiczenie: Czy jest „liniowa zależność” pomiędzy
body density oraz skinfold thickness?
• Statystyka testowa:
t
b1
SEb1
df = n – 2.
Założenia dla regresji liniowej:
• Wartości zmiennej odpowiedzi są niezależne.
(Można wykryć ew. problemy obserwując wartości
resztowe jako funkcję numeru obserwacji/czasu.)
• Dla każdej ustalonej wartości zmiennej x, zmienna y
zachowuje się jak zmienna normalna. (Aby wykryć
problemy można narysować histogram wartości
resztowych.)
Założenia dla regresji liniowej cd.:
• Odchylenie standardowe zmiennej y jest
takie samo dla wszystkich x. (Aby wykryć
problemy można spojrzeć na wykres
resztowy.)
• Należy wyszukać/usunąć wartości
odstające i tzw. obserwacje „wpływowe”.
• Zależność pomiędzy x i y jest liniowa (a nie
krzywoliniowa; ew. problemy można wykryć
obserwując scatterplot).
Reszty i czas/numer obserwacji.
Wykres resztowy
6

Podobne dokumenty