x x yn prostu

Transkrypt

x x yn prostu
STATYSTYKA MATEMATYCZNA
WYKŁAD 6
Wnioskowanie statystyczne dla
korelacji i regresji.
1
Analiza korelacji
Założenie: zmienna losowa dwuwymiarowa (X, Y) ma
rozkład normalny o współczynniku korelacji ρ .
2
X, Y – cechy badane równocześnie.
Xi
Yi
X1
Y1
X2
Y2
..................
..................
3
Xn
Yn
Cov ( X , Y )
=
R=
S X ⋅ SY
=
1
(X i − X )(Yi − Y )
∑
n
1
1
2
2
(X i − X ) ⋅ ∑ (Yi − Y )
∑
n
n
4
Uwaga:
a)
∑ (xi − x )(yi − y ) = ∑ xi yi − nx y
b)
∑(x
i
− x) =
2
∑x
2
i
5
− n( x )
2
R=
1
X iYi − XY
∑
n
1
1
2
2
2
2
X i − (X ) ⋅
Yi − (Y )
∑
∑
n
n
6
Estymator R jest estymatorem zgodnym i asymptotycznie
nieobciążonym współczynnika korelacji ρ .
Estymator ten ma asymptotycznie rozkład normalny
 1− ρ 2
N  ρ ,
n


 , (próba musi być bardzo liczna ).

7
Uwaga.
1 1+R
 1 1+ρ
1 
U n = ln
N
ln
,
2 1-R ≈  2 1-ρ n-3  , n ≥ 20).
Jeśli ρ = 0, to
Un =
R
1-R
2
n-2
8
ma rozkład Tn–2 .
Zatem przedział ufności dla współczynnika korelacji ρ
(próba bardzo liczna) ma postać:
1 − R2
1 − R2
R − uα
; R + uα
n
n
R – współczynnik korelacji z próby,
n – liczebność próby,
1 – α – poziom ufności,
uα odczytujemy w tablicy z zależności Φ (uα) = 1 – α/2
9
Dla małych prób ( n ≥ 20 ) przedział ufności dla
współczynnika korelacji ρ ma postać:
e
2A
e
2A
−1
+1
;
e
2B
−1
e 2B + 1
,
gdzie
uα
1 1+ R
uα
1 1+ R
A = ln
−
B
=
ln
+
2 1− R
2 1− R
n −3 ,
n −3
uα odczytujemy w tablicy z zależności Φ (uα) = 1 – α/2
10
Weryfikacja hipotez dotyczących współczynnika korelacji.
Zakładamy, że cecha (X,Y) ma rozkład normalny, n ≥ 20.
Wysuwamy dwie hipotezy:
H 0 (ρ = ρ 0 ) , H1 - jedną z trzech poniższych hipotez.
Rozpatrujemy statystykę i zbiór krytyczny wg tabeli:
H1
Statystyka U
Zbiór krytyczny
K = ( −∞;− k > ∪ < k ;+∞)
ρ ≠ ρ0
ρ > ρ0
 1 1+R 1 1+ρ0 
- ln
 ln
 n-3
2
1-R
2
1-ρ
0 

ρ < ρ0
Φ (k ) = 1 − α / 2
K =< k ;+∞)
Φ (k ) = 1 − α
K = ( −∞;− k >
Φ (k ) = 1 − α
Decyzje:
Jeśli U n ∈ K to H0 odrzucamy ,
Jeśli U n ∉ K to nie ma podstaw do odrzucenia H0 .
11
Odczyt k
Przykład.
Badano zależność między wydatkami na reklamę
a wysokością sprzedaży.
Dla próby 40 elementowej otrzymano r = 0,812.
Sprawdzimy na poziomie istotności 0,05 hipotezy:
H 0 ρ = 0,85 i H 0 ρ ≠ 0,85 .
(
)
(
)
12
Rozwiązanie.
Wartość statystyki wynosi
u = -0,816.
Zbiór krytyczny ma postać
K = (−∞;−1,96 > ∪ < 1,96;+∞)
Ponieważ u ∉ K to nie ma podstaw do odrzucenia H0 .
13
B adanie istotności współczynnika korelacji
Wysuwamy dwie hipotezy:
H 0 (ρ = 0 ) (brak korelacji pomiędzy zmiennymi),
H1 – jedną z trzech poniższych hipotez.
Rozpatrujemy statystykę i zbiór krytyczny wg tabeli:
H
Statystyka U Zbiór krytyczny
Odczyt k
1
ρ ≠0
R
ρ >0
ρ <0
1− R
2
n−2
K = ( −∞;−k > ∪ < k ;+∞)
P(Tn−2 > k ) = α
K =< k ;+∞ )
P(Tn−2 > k ) = 2α
K = (−∞;− k >
P(Tn−2 > k ) = 2α
Decyzje:
Jeśli un ∈ K to H0 odrzucamy,
Jeśli un ∉ K to nie ma podstaw do odrzucenia H0.
14
Wnioskowanie dla współczynników regresji
Niech
a
y = β 0 + β1 x
będzie prostą regresji,
yˆ = b0 + b1 x
prostą regresji wyznaczoną na
podstawie próby.
15
Współczynniki b0 , b1 prostej regresji wyznaczamy
stosując metodę najmniejszych kwadratów (MNK).
Chcemy wyznaczyć minimum funkcji:
n
n
S (b0 , b1 ) = ∑ ei = ∑ ( yi − yˆ i ) 2 =
i =1
(*)
2
i =1
n
= ∑ ( yi − b0 − b1 xi ) 2
i =1
gdzie ei = yi − yˆi nazywamy resztami modelu
regresji.
n
Uwaga.
∑e
i =1
i
=0
16
MNK:
Należy wyznaczyć prostą regresji tak aby suma pól
kwadratów była minimalna.
17
Obliczając pochodne cząstkowe funkcji (*)
i przyrównując je do zera otrzymujemy układ
równań normalnych:
n
∂S
= 2 ∑ ( yi − b0 − b1 xi )( − 1) =
∂b0
i =1
n
 n

= − 2 ∑ yi − b1 ∑ xi − nb0  = 0
i =1
 i =1

n
∂S
= 2 ∑ ( yi − b0 − b1 xi )( − xi ) =
∂b1
i =1
n
n
 n

2
= − 2 ∑ yi xi − b1 ∑ xi − b0 ∑ xi  = 0
i =1
i =1
 i =1

18
Rozwiązując otrzymany układ równań otrzymamy
wzory na przybliżone wartości współczynników
b1 =
=
(x − x )( y − y )
∑
=
=
n∑ x − (∑ x )
∑(x − x )
n∑ xi yi − ∑ xi ∑ yi
i
2
2
i
2
i
i
∑ x y − nxy = s
∑ x − n(x ) s
i i
2
i
i
Y
2
r=
X
cov(X , Y )
sX2
b0 = y − b1x
19
Wariancja resztowa:
Wariancja resztowa to średnia z pól kwadratów
zbudowanych na resztach odzwierciedlająca stopień
dopasowania prostej regresji do danych
statystycznych.
Niech ei = yi − y$i , gdzie y$i = b0 + b1xi wtedy
n
se2 =
n
s =
2
e
∑y
i=1
2
i
n
2
e
∑i
i =1
n − 2 czyli
n
− b0 ∑ yi − b1 ∑ xi yi
i=1
n−2
i=1
(
nsY2 1 − r 2
s =
n−2
2
e
)
se = se2 oznacza średnie (standardowe) odchylenie
od prostej regresji.
20
Współczynnik determinacji
R2
=
=
( yˆ
∑
=
∑(y
i
− y)2
i
− y)
2
= 1−
∑e
∑(y
b0 ∑ y i + b1 ∑ xi y i − ny 2
∑y
2
i
− n( y )
2
b1 (∑ xi y i − nx y )
2
y
∑ i − n( y )
2
i
2
i
− y)
2
=
=
cov 2 ( X , Y )
2
r
=
=
S X2 S Y2
2
Uwaga: R ∈ 0, 1
21
Standardowe błędy oszacowania współczynników
prostej regresji.
s(b1 ) =
se
se
2
(
x
−
x
)
∑ i
2
x
∑i
1
s(b0 ) =
= s(b1 ) ⋅ ∑ xi2 = s(b1 ) ⋅ sX2 + ( x)2
n
n∑(xi − x)2
22
Stosujemy niekiedy zapis
Yˆ = b0 + b1 X
( ± s ( b0 ))
( ± s ( b1 ))
lub
Yˆ = b0 + b1 X ( ± se )
( ± s ( b0 ))
( ± s ( b1 ))
23
Przedziały ufności dla βi , i = 0, 1;
dla poziomu ufności 1 – α mamy:
β i ∈ bi − uα S (bi ); bi + uα S (bi )
gdzie uα odczytujemy z tablicy rozkładu Studenta:
P(Tn−2 > uα ) = α .
S(bi) – standardowe błędy współczynników prostej
regresji.
24
Weryfikacja hipotez dla βi, i = 0, 1;
dla poziomu istotności α rozpatrujemy test dla
poszczególnych parametrów βi , i = 0, 1.
Wysuwamy dwie hipotezy:
H 0 ( β i = β i0 )
, H1 – jedną z trzech poniższych
hipotez.
25
Rozpatrujemy statystykę i zbiór krytyczny wg tabeli:
Statystyka
H1
β i ≠ β i0
βi > β
0
i
β i < β i0
bi − β i0
Un =
S (bi )
Zbiór krytyczny
Odczyt k
K = ( −∞;− k > ∪ < k ;+∞)
P(Tn−2 > k ) = α
K =< k ;+∞)
P(Tn−2 > k ) = 2α
K = (−∞;− k >
P(Tn−2 > k ) = 2α
Decyzje:
Jeśli u n ∈ K to H0 odrzucamy ,
Jeśli un ∉ K to nie ma podstaw do odrzucenia H0.
26
Uwaga
Jeśli badamy istotność parametru βi to przyjmujemy
H0 ( β i = 0)
β i0 = 0 tzn.
W modelach regresji pożądane jest odrzucenie
hipotezy H 0 (β1 = 0) .
Przykład
Z populacji dla której (X, Y) ma rozkład normalny
pobrano próbę 100 elementową i obliczono, że
prosta regresji z próby ma postać:
Y = 1,35 – 0,4 X
(0,5) (0,1)
Na poziomie istotności 0,05 sprawdź istotność
współczynnika β1 .
27
Rozpatrujemy hipotezy H 0 ( β1 = 0) H 1 ( β 1 < 0)
Wartość statystyki wynosi u = – 4.,
Zbiór krytyczny ma postać K = (−∞;−1,66 > .
Ponieważ obliczona wartość statystyki należy do
zbioru krytycznego to odrzucamy hipotezę
H 0 ( β 1 = 0) , zatem wynik testu nie podważa
istotności współczynnika β 1 .
28
Prognoza punktowa to przewidywana wartość
zmiennej Y odpowiadająca wartości
xτ
y*(τ ) =b0 +b1 xτ
29
zmiennej X.
Standardowy błąd prognozy
Sτ = Se
1
1+ +
n
(xτ − x )2
n
2
(
)
x
x
−
∑ i
=
i =1
n
= Se 1 +
∑x
i =1
2
i
n
+ nxτ − 2 xτ ∑ xi
2
i =1
2
 n 
n∑ xi −  ∑ xi 
i =1
 i =1 
n
2
gdzie Se – odchylenie resztowe
30
błąd względny prognozy punktowej:
δτ =
Sτ
100%
*
yτ
31
Prognoza przedziałowa dla poz. ufności 1 – α.
y * (τ ) − uα Sτ ; y * (τ ) + uα Sτ
uα odczytujemy z tablicy rozkładu Studenta:
P(Tn−2 > uα ) = α .
32
Badanie liniowości funkcji regresji - test serii.
Badamy populację ze względu na dwie cechy X i Y.
Losujemy próbę n - elementową (xi, yi).
Na podstawie tej próby chcemy sprawdzić czy funkcja
regresji jest liniowa.
Prostym testem do weryfikacji tej własności jest test
serii.
Niech y = b0 + b1 x będzie prostą regresji wyznaczoną na
podstawie próby metodą najmniejszych kwadratów.
Elementom próby przypisujemy symbol a lub b:
a - gdy yi > b0 + b1 xi , (punkt leży nad prostą)
b - gdy yi < b0 + b1 xi (punkt leży pod prostą)
(elementów dla których zachodzi równość nie
rozpatrujemy).
Serie to podciągi złożone z jednakowych symboli.
33
Rozpatrujemy hipotezy
H0(funkcja regresji jest liniowa),
H1(funkcja regresji nie jest liniowa),
Stosujemy statystykę:
Un = liczba serii
Zbiór krytyczny:
K = (0; k>
gdzie k odczytujemy z tablicy dla poziomu istotności α i
liczb n1 oraz n2 ,
gdzie n1 - liczba symboli a, n2 - liczba symboli b,
Decyzje:
Jeśli U n ∈ K to H0 odrzucamy ,
Jeśli U n ∉ K to nie ma podstaw do odrzucenia H0 .
34
Przykład.
Badano zależność między wynikami testów z dwóch
przedmiotów przeprowadzonymi w pewnej uczelni.
Dla próby 12 wylosowanych studentów otrzymano
następujące liczby punktów:
X
16 20 22 24 33 47 55 70 77 82 90 94
Y
25 34 60 83 92 104 110 124 133 150 145 170
Prosta regresji z próby ma postać Y = 2x + 5.
Sprawdzimy na poziomie istotności 0,05 hipotezę że
zależność między tymi cechami jest liniowa.
35
Rozwiązanie.
Otrzymamy następujący ciąg symboli:
b, b, a, a, a, a, b, b, b, b, b, b
Liczba serii wynosi u = 3
Z tablic rozkładu serii odczytujemy
K = (0; 3>
Ponieważ u ∈ K to odrzucamy hipotezę H0 , zatem
możemy sądzić, że zależność między wynikami testów
nie jest liniowa.
36