x x yn prostu
Transkrypt
x x yn prostu
STATYSTYKA MATEMATYCZNA WYKŁAD 6 Wnioskowanie statystyczne dla korelacji i regresji. 1 Analiza korelacji Założenie: zmienna losowa dwuwymiarowa (X, Y) ma rozkład normalny o współczynniku korelacji ρ . 2 X, Y – cechy badane równocześnie. Xi Yi X1 Y1 X2 Y2 .................. .................. 3 Xn Yn Cov ( X , Y ) = R= S X ⋅ SY = 1 (X i − X )(Yi − Y ) ∑ n 1 1 2 2 (X i − X ) ⋅ ∑ (Yi − Y ) ∑ n n 4 Uwaga: a) ∑ (xi − x )(yi − y ) = ∑ xi yi − nx y b) ∑(x i − x) = 2 ∑x 2 i 5 − n( x ) 2 R= 1 X iYi − XY ∑ n 1 1 2 2 2 2 X i − (X ) ⋅ Yi − (Y ) ∑ ∑ n n 6 Estymator R jest estymatorem zgodnym i asymptotycznie nieobciążonym współczynnika korelacji ρ . Estymator ten ma asymptotycznie rozkład normalny 1− ρ 2 N ρ , n , (próba musi być bardzo liczna ). 7 Uwaga. 1 1+R 1 1+ρ 1 U n = ln N ln , 2 1-R ≈ 2 1-ρ n-3 , n ≥ 20). Jeśli ρ = 0, to Un = R 1-R 2 n-2 8 ma rozkład Tn–2 . Zatem przedział ufności dla współczynnika korelacji ρ (próba bardzo liczna) ma postać: 1 − R2 1 − R2 R − uα ; R + uα n n R – współczynnik korelacji z próby, n – liczebność próby, 1 – α – poziom ufności, uα odczytujemy w tablicy z zależności Φ (uα) = 1 – α/2 9 Dla małych prób ( n ≥ 20 ) przedział ufności dla współczynnika korelacji ρ ma postać: e 2A e 2A −1 +1 ; e 2B −1 e 2B + 1 , gdzie uα 1 1+ R uα 1 1+ R A = ln − B = ln + 2 1− R 2 1− R n −3 , n −3 uα odczytujemy w tablicy z zależności Φ (uα) = 1 – α/2 10 Weryfikacja hipotez dotyczących współczynnika korelacji. Zakładamy, że cecha (X,Y) ma rozkład normalny, n ≥ 20. Wysuwamy dwie hipotezy: H 0 (ρ = ρ 0 ) , H1 - jedną z trzech poniższych hipotez. Rozpatrujemy statystykę i zbiór krytyczny wg tabeli: H1 Statystyka U Zbiór krytyczny K = ( −∞;− k > ∪ < k ;+∞) ρ ≠ ρ0 ρ > ρ0 1 1+R 1 1+ρ0 - ln ln n-3 2 1-R 2 1-ρ 0 ρ < ρ0 Φ (k ) = 1 − α / 2 K =< k ;+∞) Φ (k ) = 1 − α K = ( −∞;− k > Φ (k ) = 1 − α Decyzje: Jeśli U n ∈ K to H0 odrzucamy , Jeśli U n ∉ K to nie ma podstaw do odrzucenia H0 . 11 Odczyt k Przykład. Badano zależność między wydatkami na reklamę a wysokością sprzedaży. Dla próby 40 elementowej otrzymano r = 0,812. Sprawdzimy na poziomie istotności 0,05 hipotezy: H 0 ρ = 0,85 i H 0 ρ ≠ 0,85 . ( ) ( ) 12 Rozwiązanie. Wartość statystyki wynosi u = -0,816. Zbiór krytyczny ma postać K = (−∞;−1,96 > ∪ < 1,96;+∞) Ponieważ u ∉ K to nie ma podstaw do odrzucenia H0 . 13 B adanie istotności współczynnika korelacji Wysuwamy dwie hipotezy: H 0 (ρ = 0 ) (brak korelacji pomiędzy zmiennymi), H1 – jedną z trzech poniższych hipotez. Rozpatrujemy statystykę i zbiór krytyczny wg tabeli: H Statystyka U Zbiór krytyczny Odczyt k 1 ρ ≠0 R ρ >0 ρ <0 1− R 2 n−2 K = ( −∞;−k > ∪ < k ;+∞) P(Tn−2 > k ) = α K =< k ;+∞ ) P(Tn−2 > k ) = 2α K = (−∞;− k > P(Tn−2 > k ) = 2α Decyzje: Jeśli un ∈ K to H0 odrzucamy, Jeśli un ∉ K to nie ma podstaw do odrzucenia H0. 14 Wnioskowanie dla współczynników regresji Niech a y = β 0 + β1 x będzie prostą regresji, yˆ = b0 + b1 x prostą regresji wyznaczoną na podstawie próby. 15 Współczynniki b0 , b1 prostej regresji wyznaczamy stosując metodę najmniejszych kwadratów (MNK). Chcemy wyznaczyć minimum funkcji: n n S (b0 , b1 ) = ∑ ei = ∑ ( yi − yˆ i ) 2 = i =1 (*) 2 i =1 n = ∑ ( yi − b0 − b1 xi ) 2 i =1 gdzie ei = yi − yˆi nazywamy resztami modelu regresji. n Uwaga. ∑e i =1 i =0 16 MNK: Należy wyznaczyć prostą regresji tak aby suma pól kwadratów była minimalna. 17 Obliczając pochodne cząstkowe funkcji (*) i przyrównując je do zera otrzymujemy układ równań normalnych: n ∂S = 2 ∑ ( yi − b0 − b1 xi )( − 1) = ∂b0 i =1 n n = − 2 ∑ yi − b1 ∑ xi − nb0 = 0 i =1 i =1 n ∂S = 2 ∑ ( yi − b0 − b1 xi )( − xi ) = ∂b1 i =1 n n n 2 = − 2 ∑ yi xi − b1 ∑ xi − b0 ∑ xi = 0 i =1 i =1 i =1 18 Rozwiązując otrzymany układ równań otrzymamy wzory na przybliżone wartości współczynników b1 = = (x − x )( y − y ) ∑ = = n∑ x − (∑ x ) ∑(x − x ) n∑ xi yi − ∑ xi ∑ yi i 2 2 i 2 i i ∑ x y − nxy = s ∑ x − n(x ) s i i 2 i i Y 2 r= X cov(X , Y ) sX2 b0 = y − b1x 19 Wariancja resztowa: Wariancja resztowa to średnia z pól kwadratów zbudowanych na resztach odzwierciedlająca stopień dopasowania prostej regresji do danych statystycznych. Niech ei = yi − y$i , gdzie y$i = b0 + b1xi wtedy n se2 = n s = 2 e ∑y i=1 2 i n 2 e ∑i i =1 n − 2 czyli n − b0 ∑ yi − b1 ∑ xi yi i=1 n−2 i=1 ( nsY2 1 − r 2 s = n−2 2 e ) se = se2 oznacza średnie (standardowe) odchylenie od prostej regresji. 20 Współczynnik determinacji R2 = = ( yˆ ∑ = ∑(y i − y)2 i − y) 2 = 1− ∑e ∑(y b0 ∑ y i + b1 ∑ xi y i − ny 2 ∑y 2 i − n( y ) 2 b1 (∑ xi y i − nx y ) 2 y ∑ i − n( y ) 2 i 2 i − y) 2 = = cov 2 ( X , Y ) 2 r = = S X2 S Y2 2 Uwaga: R ∈ 0, 1 21 Standardowe błędy oszacowania współczynników prostej regresji. s(b1 ) = se se 2 ( x − x ) ∑ i 2 x ∑i 1 s(b0 ) = = s(b1 ) ⋅ ∑ xi2 = s(b1 ) ⋅ sX2 + ( x)2 n n∑(xi − x)2 22 Stosujemy niekiedy zapis Yˆ = b0 + b1 X ( ± s ( b0 )) ( ± s ( b1 )) lub Yˆ = b0 + b1 X ( ± se ) ( ± s ( b0 )) ( ± s ( b1 )) 23 Przedziały ufności dla βi , i = 0, 1; dla poziomu ufności 1 – α mamy: β i ∈ bi − uα S (bi ); bi + uα S (bi ) gdzie uα odczytujemy z tablicy rozkładu Studenta: P(Tn−2 > uα ) = α . S(bi) – standardowe błędy współczynników prostej regresji. 24 Weryfikacja hipotez dla βi, i = 0, 1; dla poziomu istotności α rozpatrujemy test dla poszczególnych parametrów βi , i = 0, 1. Wysuwamy dwie hipotezy: H 0 ( β i = β i0 ) , H1 – jedną z trzech poniższych hipotez. 25 Rozpatrujemy statystykę i zbiór krytyczny wg tabeli: Statystyka H1 β i ≠ β i0 βi > β 0 i β i < β i0 bi − β i0 Un = S (bi ) Zbiór krytyczny Odczyt k K = ( −∞;− k > ∪ < k ;+∞) P(Tn−2 > k ) = α K =< k ;+∞) P(Tn−2 > k ) = 2α K = (−∞;− k > P(Tn−2 > k ) = 2α Decyzje: Jeśli u n ∈ K to H0 odrzucamy , Jeśli un ∉ K to nie ma podstaw do odrzucenia H0. 26 Uwaga Jeśli badamy istotność parametru βi to przyjmujemy H0 ( β i = 0) β i0 = 0 tzn. W modelach regresji pożądane jest odrzucenie hipotezy H 0 (β1 = 0) . Przykład Z populacji dla której (X, Y) ma rozkład normalny pobrano próbę 100 elementową i obliczono, że prosta regresji z próby ma postać: Y = 1,35 – 0,4 X (0,5) (0,1) Na poziomie istotności 0,05 sprawdź istotność współczynnika β1 . 27 Rozpatrujemy hipotezy H 0 ( β1 = 0) H 1 ( β 1 < 0) Wartość statystyki wynosi u = – 4., Zbiór krytyczny ma postać K = (−∞;−1,66 > . Ponieważ obliczona wartość statystyki należy do zbioru krytycznego to odrzucamy hipotezę H 0 ( β 1 = 0) , zatem wynik testu nie podważa istotności współczynnika β 1 . 28 Prognoza punktowa to przewidywana wartość zmiennej Y odpowiadająca wartości xτ y*(τ ) =b0 +b1 xτ 29 zmiennej X. Standardowy błąd prognozy Sτ = Se 1 1+ + n (xτ − x )2 n 2 ( ) x x − ∑ i = i =1 n = Se 1 + ∑x i =1 2 i n + nxτ − 2 xτ ∑ xi 2 i =1 2 n n∑ xi − ∑ xi i =1 i =1 n 2 gdzie Se – odchylenie resztowe 30 błąd względny prognozy punktowej: δτ = Sτ 100% * yτ 31 Prognoza przedziałowa dla poz. ufności 1 – α. y * (τ ) − uα Sτ ; y * (τ ) + uα Sτ uα odczytujemy z tablicy rozkładu Studenta: P(Tn−2 > uα ) = α . 32 Badanie liniowości funkcji regresji - test serii. Badamy populację ze względu na dwie cechy X i Y. Losujemy próbę n - elementową (xi, yi). Na podstawie tej próby chcemy sprawdzić czy funkcja regresji jest liniowa. Prostym testem do weryfikacji tej własności jest test serii. Niech y = b0 + b1 x będzie prostą regresji wyznaczoną na podstawie próby metodą najmniejszych kwadratów. Elementom próby przypisujemy symbol a lub b: a - gdy yi > b0 + b1 xi , (punkt leży nad prostą) b - gdy yi < b0 + b1 xi (punkt leży pod prostą) (elementów dla których zachodzi równość nie rozpatrujemy). Serie to podciągi złożone z jednakowych symboli. 33 Rozpatrujemy hipotezy H0(funkcja regresji jest liniowa), H1(funkcja regresji nie jest liniowa), Stosujemy statystykę: Un = liczba serii Zbiór krytyczny: K = (0; k> gdzie k odczytujemy z tablicy dla poziomu istotności α i liczb n1 oraz n2 , gdzie n1 - liczba symboli a, n2 - liczba symboli b, Decyzje: Jeśli U n ∈ K to H0 odrzucamy , Jeśli U n ∉ K to nie ma podstaw do odrzucenia H0 . 34 Przykład. Badano zależność między wynikami testów z dwóch przedmiotów przeprowadzonymi w pewnej uczelni. Dla próby 12 wylosowanych studentów otrzymano następujące liczby punktów: X 16 20 22 24 33 47 55 70 77 82 90 94 Y 25 34 60 83 92 104 110 124 133 150 145 170 Prosta regresji z próby ma postać Y = 2x + 5. Sprawdzimy na poziomie istotności 0,05 hipotezę że zależność między tymi cechami jest liniowa. 35 Rozwiązanie. Otrzymamy następujący ciąg symboli: b, b, a, a, a, a, b, b, b, b, b, b Liczba serii wynosi u = 3 Z tablic rozkładu serii odczytujemy K = (0; 3> Ponieważ u ∈ K to odrzucamy hipotezę H0 , zatem możemy sądzić, że zależność między wynikami testów nie jest liniowa. 36