W12_MPiS
Transkrypt
W12_MPiS
Metody probabilistyczne i statystyka Wykład 12 Korelacja i regresja Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki Szczecińskiej Metody probabilistyczne i statystyka Wykład 12 28. Badanie statystyczne ze względu na dwie cechy X, Y – cechy mierzalne n-elementowa próbka – n par (xi, yi), i=1,…,n diagram korelacyjny – przedstawienie graficzne próbki w układzie współrzędnych wstępne wnioski o ewentualnej zależności cech y a) y b) c) y słaba zależność hiperboliczna brak zależności silna zależność liniowa 0 x 0 x 0 x Rys.28.1. Przykłady diagramów korelacyjnych Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 12 Pomiar zależności Pojęcia wykorzystywane przy badaniu zależności Korelacja mierzy siłę (natężenie) zależności między cechami miernikiem zależności liniowej jest współczynnik korelacji ρ∈〈-1,1〉 |ρ| = 1 – zależność między cechami jest liniowa ρ = 0 – cechy są nieskorelowane Regresja określa rodzaj zależności między cechami (liniowa, krzywoliniowa) podaje zależność funkcyjną zależności, tzn. wyznaczana jest funkcja g taka, że cechę Y można aproksymować przez g(X ) funkcję regresji g wyznacza się metodą najmniejszych kwadratów, tzn. tak, aby E [ Y − g(X ) ]2 → min Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 12 Pomiar zależności (28.1) Uwagi a) Jeżeli | ρ(X,Y ) | = 1, to P ( Y = aX + b ) = 1 , ale korelacja nie precyzuje wartości parametrów a i b (poza znakiem współczynnika a) b) Jeżeli niezależne cechy X i Y mają rozkłady normalne, to wektor (X, Y ) ma dwuwymiarowy rozkład normalny c) Jeżeli wektor (X, Y ) ma dwuwymiarowy rozkład normalny, to a) cechy X i Y mają rozkłady normalne b) funkcja regresji jest liniowa Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 12 Estymacja współczynnika korelacji X, Y – dowolne zmienne losowe Współczynnik korelacji wyznaczamy ze wzoru ρ( X , Y ) = cov( X , Y ) D 2 X ⋅ D 2Y E ( ( X − EX ) ⋅ (Y − EY ) ) D 2 X ⋅ D 2Y Estymatorem zgodnym współczynnika korelacji ρ cech X i Y jest estymator R z próby R= 1 n ∑ n i =1 ( X i − X ) ⋅ (Yi − Y ) S X ⋅ SY gdzie S X2 = 1n ∑ i =1 ( X i − X ) 2 i SY2 = 1n ∑ i =1 (Yi − Y ) 2 są wariancjami z próby (28.2) Uwagi n = a) n Estymator R jest obciążony, gdyż E ( R) ≠ ρ Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 12 Estymacja współczynnika korelacji (28.2) Uwagi cd. b) Realizację r estymatora R, zwaną współczynnikiem korelacji z próbki wyznaczamy ze wzorów cov( x, y ) xy − x ⋅ y r= = , gdzie xy = sx ⋅ s y sx ⋅ s y lub r= ∑ n i =1 1 n ∑ n i =1 xi ⋅ y i ( xi − x ) ⋅ ( y i − y ) 2 2 ( x − x ) ⋅ ( y − y ) i i ∑ i=1 ∑ i=1 n n dla danych niezgrupowanych Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 12 Estymacja współczynnika korelacji (28.2) Uwagi cd. c) Dla próbek o liczności od około 30 wzwyż, buduje się tzw. tablicę korelacyjną (dwudzielną, dwudzielczą), która jest dwuwymiarowym odpowiednikiem szeregu rozdzielczego przedziałowego y1d − y1g y2d − y2g … ykd − ykg x1d − x1g n11 n12 … n1k x2d − x2g n21 n22 … n2k … … … … … xwd − xwg nw1 nw2 … nwk X Y Wówczas oszacowania parametrów występujących we wzorach oblicza się z próbki za pomocą sum ważonych, np. xy = 1 n ∑ i=1 ∑ j =1 xi y j nij , gdzie xi , y j to środki odpowiednich klas w k 0 0 0 0 Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 12 Estymacja współczynnika korelacji (28.3) Przedział ufności dla współczynnika korelacji Model 1 (dwuwymiarowy rozkład normalny, parametr nieznany, n ≥ 10) (X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym, nieznany współczynnik korelacji ρ Jeśli n ≥ 10 , to statystyka Fishera Z = 12 ln 1+ R , | R |< 1 1− R ma w przybliżeniu rozkład normalny N(m,σ), gdzie m = EZ ≈ 12 ln 1+ ρ ρ 1 + , σ≈ 1 − ρ 2(n − 1) n−3 W praktyce stosujemy zmienną 1+ ρ U = Z − 12 ln n−3 1 − ρ Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 12 Estymacja współczynnika korelacji Wtedy dla α∈(0,1) otrzymujemy 1 − α = P ( −u (1 − α2 ) < U < u (1 − α2 ) ) 1+ ρ α α 1 = P −u (1 − 2 ) < Z − 2 ln n − 3 < u (1 − 2 ) 1− ρ u (1 − α2 ) 1 1 + ρ u (1 − α2 ) =Z − < 2 ln <Z+ 1 − ρ n − 3 n − 3 Dla próbki (xi, yi), i=1,…,n otrzymujemy realizację przedziału ufności dla wartości oczekiwanej zmiennej Z na poziomie ufności 1−α: u (1 − α2 ) u (1 − α2 ) 1+ r 1 z , z , gdzie z ln − + = 2 1− r n−3 n−3 Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 12 Estymacja współczynnika korelacji Oznaczając przez z1 i z2 dolny i górny koniec przedziału, wyznaczamy granice przedziału (ρ1, ρ2) dla współczynnika korelacji ρ rozwiązując równania 1 + ρ1 1 + ρ2 1 1 ln = z i ln = z2 1 2 2 1 − ρ1 1 − ρ2 Przykład W pewnym doświadczeniu farmakologicznym bada się wpływ leku na przyrost ciśnienia tętniczego krwi Podano 10 różnych dawek xi leku i otrzymano następujące przyrosty ciśnienia krwi xi 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 yi 15 5 15 35 25 30 55 65 65 55 Na poziomie ufności 0,9 wyznaczyć przedział ufności dla współczynnika korelacji ρ Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 12 Estymacja współczynnika korelacji Model 2 (dwuwymiarowy rozkład normalny, parametr nieznany, duża próba n ≥ 100) (X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym, nieznany współczynnik korelacji ρ Jeśli n ≥ 100 , to statystyka R −ρ U= n , | R |< 1 2 1− R ma w przybliżeniu rozkład normalny N(0,1) Na poziomie ufności 1−α otrzymujemy realizację przedziału ufności dla ρ 2 2 α 1− r α 1− r , r + u (1 − 2 ) r − u (1 − 2 ) n n Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 12 Testy istotności dla współczynnika korelacji (28.4) Weryfikacja hipotezy o (braku) korelacji między dwiema cechami Model 1 (2-wymiarowy rozkład normalny, parametr nieznany, n ≥ 3) (X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym, nieznany współczynnik korelacji ρ Jeśli n ≥ 3 , to statystyka R t= n − 2 , | R |< 1 2 1− R ma rozkład Studenta z n−2 stopniami swobody przy założeniu, że prawdziwa jest hipoteza zerowa H0: ρ = 0 Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 10 Weryfikacja hipotezy dla współczynnika korelacji – model 1 Tablica 28.1. Tablica testu dla współczynnika korelacji – model 1 Hipoteza zerowa alternatywna Statystyka testowa t ( −∞; −t (1 − α2 , n − 2)〉 H1: ρ ≠ 0 ∪〈t (1 − α2 , n − 2); ∞) R H0: ρ = 0 H1: ρ < 0 H1: ρ > 0 Obszar krytyczny K 2 n−2 , 1− R | R |< 1 ( −∞; −t (1 − α, n − 2)〉 〈t (1 − α, n − 2); ∞) Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 12 Weryfikacja hipotezy dla współczynnika korelacji – model 1 Przykład Wiedząc, że w poprzednim przykładzie (przyrost ciśnienia krwi) współczynnik korelacji z próbki 10-elementowej wyniósł r = 0.9 , zweryfikować hipotezę, że cechy (dawka leku i przyrost ciśnienia krwi) są istotnie skorelowane (poziom istotności 0.01) Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 12 Testy istotności dla współczynnika korelacji Model 2 (2-wymiarowy rozkład normalny, parametr nieznany, n ≥ 100) (X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym, nieznany współczynnik korelacji ρ Jeśli n ≥ 100 , to statystyka R n , | R |< 1 1− R ma w przybliżeniu rozkład normalny N(0,1) przy założeniu, że prawdziwa jest hipoteza zerowa H0: ρ = 0 Ze względu na podobieństwo funkcji gęstości, obszary krytyczne dla hipotez alternatywnych H1: ρ ≠ 0, H1: ρ < 0, H1: ρ > 0 wyznaczamy analogicznie do modelu 1 (nie uwzględniamy oczywiści stopni swobody) U= Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 12 Testy istotności dla współczynnika korelacji Model 3 (2-wymiarowy rozkład normalny, parametr nieznany, n ≥ 10) (X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym, nieznany współczynnik korelacji ρ Jeśli n ≥ 10 , to statystyka 1 + R 1 1 + ρ0 U = 12 ln − 2 ln n − 3 , | R |< 1 1− R 1 − ρ0 ma w przybliżeniu rozkład normalny N(0,1) przy założeniu, że prawdziwa jest hipoteza zerowa H0: ρ = ρ0 Obszary krytyczne dla hipotez alternatywnych H1: ρ ≠ ρ0, H1: ρ < ρ0, H1: ρ > ρ0 wyznaczamy jak w modelu 2 Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 12 Estymacja i testy istotności dla współczynników regresji Diagram korelacyjny pozwala intuicyjnie oszacować klasę funkcji regresji (liniowa, potęgowa, wykładnicza itp.) na podstawie koncentracji punktów w bliskim otoczeniu hipotetycznych linii Funkcja regresji rzadko jest liniowa, ale jest to zależność najwygodniejsza do oszacowania i jest dobrym punktem wyjścia do dalszych badań (mimo świadomości popełnienia pewnych błędów) Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 12 Estymacja i testy istotności dla współczynników regresji Z rachunku prawdopodobieństwa wiadomo, że współczynniki liniowej funkcji regresji (II-go rodzaju) y = αx + β wyznaczamy ze wzorów cov( X , Y ) D 2Y α= = ρ( X , Y ) D2 X D2 X , β = EY − αEX Zgodnymi i nieobciążonymi estymatorami parametrów α i β z próby są odpowiednio S A = R Y , B = Y − αX SX Realizacje a i b estymatorów A i B odpowiednio wyznaczamy na podstawie próbki ze wzorów s a=r y = sx ∑ n i =1 ( xi − x )( y i − y ) ∑ n i =1 ( xi − x ) 2 , b = y − ax Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 12 Estymacja i testy istotności dla współczynników regresji (28.5) Test istotności dla współczynnika regresji liniowej α Model (dwuwymiarowy rozkład normalny, parametr nieznany, n ≥ 3) (X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym, nieznane parametry Jeśli n ≥ 3 , to statystyka A − α0 n−2 SX SY 1− R2 ma rozkład Studenta z n−2 stopniami swobody przy założeniu, że prawdziwa jest hipoteza zerowa H0: α = α0 Obszary krytyczne dla hipotez alternatywnych H1: α ≠ α0 , H1: α < α0 , H1: α > α0 wyznaczamy tak jak w tablicy 28.1 (model 1 dla współczynnika korelacji) t= Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 12 Estymacja i testy istotności dla współczynników regresji Przykład a) b) c) Badamy zależność między dawką nawozu X (w kg) a wielkością przyrostu plonu Y Dla 7 obserwacji otrzymano wyniki xi 1 2 3 4 5 6 7 yi 8 13 14 17 18 20 22 Oszacować liniową funkcję regresji pomiędzy dawką nawozu X, a wielkością przyrostu plonu Y Podać interpretację współczynnika regresji liniowej Sprawdzić testem serii liniową zależność między zmiennymi (poziom istotności 0.01) Na poziomie istotności 0.01 zweryfikować hipotezę, że współczynnik regresji w populacji jest dodatni Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 12 Dziękuję za uwagę Opracowała Joanna Banaś