Korelacja krzywoliniowa i współzaleność cech niemierzalnych
Transkrypt
Korelacja krzywoliniowa i współzaleność cech niemierzalnych
Metody probabilistyczne i statystyka Wykład 13 Korelacja krzywoliniowa i współzależność cech niemierzalnych Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki Szczecińskiej Metody probabilistyczne i statystyka Wykład 13 29. Współczynnik korelacji krzywoliniowej, stosunek korelacyjny ρ nie jest właściwym miernikiem współzależności, gdy zależność między X i Y nie jest liniowa y = g(x) – dowolna regresja 2-go rodzaju, wyznaczona na podstawie próbki (xi, yi), i=1,…,n Współczynnik zgodności n n 2 2 ˆ y − g ( x ) y − y i ) ∑ ( i ∑ i=1 ( i i ) ϕ 2yx = i =1n = n 2 2 − − y y y y ( ) ( ) ∑ i=1 i ∑ i=1 i jest miernikiem zgodności wyznaczonej linii regresji z danymi w próbce (29.1) Własności (współczynnika zgodności) a) b) c) Zgodność jest tym większa im ϕ2yx jest mniejsze ϕ2yx ≠ ϕ2xy 0 ≤ ϕ2yx ≤ 1 Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 13 Współczynnik korelacji krzywoliniowej Współczynnik korelacji krzywoliniowej to wielkość ryx = 1 − ϕ 2yx zaś r2yx nazywamy współczynnikiem determinacji (im r2yx bliższe 1, tym linia regresji lepiej dopasowana) (29.2) Własności (współczynnika korelacji krzywoliniowej) a) b) Współczynnik korelacji krzywoliniowej jest uogólnieniem współczynnika korelacji liniowej, gdyż r2yx = r2 , jeśli g(x) = ax + b Można go obliczyć dopiero po wyznaczeniu linii regresji, również dla tablic korelacyjnych Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 13 Stosunek korelacyjny Pearsona Niezależnym od regresji miernikiem współzależności cech jest stosunek korelacyjny Pearsona, wyznaczany dla tablic korelacyjnych ze wzorów 2 = e yx s 2 y/x 2 y s w = 2 ∑ i=1 ( yi − y ) ni. k ∑ j=1 ( y j 0 − y ) n. j gdzie s 2 y/x jest wariancją średnich warunkowych (mierzy zróżnicowanie między grupami, będące wynikiem zmienności cechy X ) yi = 1 ni . ∑ k j =1 0 y j nij Stosunek korelacyjny e 2 xy 2 1 n = 1 n w 2 2 y n − y i i . ∑ i=1 k 2 2 y n − y ∑ j=1 j . j 0 Tablica 29.1. Tablica korelacyjna 0 0 ni . y1 X Y … yk 0 x1 n11 … n1k n1. … … … … … xw nw1 … nwk nw. n. j n.1 … n.k n 0 określamy analogicznie Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 13 Stosunek korelacyjny Pearsona (29.3) Własności (stosunków korelacyjnych) a) b) c) d) e) 2 e yx ∈ 〈 0,1〉 2 r 2 ≤ e yx e yx = 0 ⇒ r = 0 (cechy są nieskorelowane) r = 1 ⇒ e yx = e xy = 1 (zależność liniowa) e yx ∈ (0,1) ⇒ e yx ≠ e xy 2 − r 2 określa miarę krzywoliniowości Różnica M yx = e yx związku Jeśli przyjmuje wartości bliskie zera, wnioskujemy o liniowości regresji W przeciwnym przypadku wykorzystanie r do analizy jest niepoprawne Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 13 Testy liniowości regresji (29.4) Weryfikacja hipotezy o liniowości regresji Model (2-wymiarowy rozkład normalny, parametry nieznane) (X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym, nieznany współczynnik korelacji ρ i nieznany stosunek korelacyjny E2YX Jeśli z populacji pobrano n-elementową próbkę, którą przedstawiono w tablicy korelacyjnej z w > 2 klasami dla cechy X i k klasami dla cechy Y, to statystyka M YX n − w ⋅ , | EYX |< 1 F= 2 1 − EYX w−2 ma rozkład Fishera-Snedecora z w−2 i n−w stopniami swobody przy założeniu, że prawdziwa jest hipoteza zerowa H0: MYX = 0 Obszar krytyczny dla hipotezy alternatywnej H1: MYX ≠ 0 ma dla ustalonego poziomu ufności α postać K = 〈 F(1−α, w−2, n−w), ∞) Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 13 Weryfikacja hipotezy o liniowości regresji Przykład a) b) c) Cel badania – analiza jakości produkcji w przedsiębiorstwie A Jedna z hipotez: dzienna liczba braków, produkowana przez pracownika zależy od jego stażu pracy Zbadano 100 pracowników (poziom istotności 0.01) Tablica przedstawia uzyskane wyniki o stażu pracy (cecha X w latach) i dziennej liczbie braków (cecha Y w sztukach) Określić siłę korelacji liczby braków i stażu pracy Obliczyć współczynnik korelacji liniowej Ocenić przydatność obu miar współzależności testem liniowości regresji (poziom istotności 0.05) X Y 0-4 4-8 8-12 12-16 16-20 0-2 − − 10 20 − 2-4 5 − 10 10 15 4-6 5 10 − − 5 6-8 10 − − − − Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 13 30. Badanie współzależności cech niemierzalnych Model 1 (cechy wyrażone w skali porządkowej) Jeśli wartości cech niemierzalnych wyrażone są w skali porządkowej, można nadać im rangi, tzn. ponumerować wartości od najniższej do najwyższej (lub odwrotnie) Miernikiem współzależności cech X i Y jest wówczas współczynnik korelacji rang Spearmana: n 2 6∑ i =1 ( xi − yi ) rS = 1 − n(n 2 − 1) gdzie xi i yi to rangi nadane i-tej parze wartości cech X i Y odpowiednio w próbce (30.1) Własności (współczynnika Spearmana) a) rs ∈〈−1,1〉 b) c) rs = 0 – brak związku korelacyjnego |rs| = 1 – związek funkcyjny Jest miarą siły i kierunku związku korelacyjnego Jest symetryczny Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 13 Współczynnik korelacji rang Spearmana (30.2) Przykład Tablica przedstawia informacje dotyczące zangażowania w pracę organizacji studenckich oraz ocen w nauce badanej grupy studentów IV roku WIPS Student Stopień zaangażowania Średnia ocen z III roku studiów A mniej niż przeciętny 4,5 B niski 4,0 C wysoki 2,7 D przeciętny 3,0 E bardzo wysoki 2,7 F bardzo niski 3,3 G przeciętny 3,1 Określić siłę związku pomiędzy cechami Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 13 Badanie współzależności cech niemierzalnych Model 2 (cechy wyrażone w skali nominalnej) Jeśli wartości cech niemierzalnych wyrażone są w skali nominalnej, to po utworzeniu tablicy korelacyjnej, w której w jest liczbą kategorii cechy X, zaś k jest liczbą kategorii cechy Y, można zbadać istnienie zależności testem statystycznym Jeśli liczności nij ≥ 5 , i=1,…,w , j=1,…,k , to statystyka w k χ 2 = ∑ i =1 ∑ j =1 ( nij − npij ) 2 npij ma rozkład χ2 z (w−1)(k−1) stopniami swobody przy założeniu, że prawdziwa jest hipoteza zerowa H0: X i Y są niezależne, gdzie npij są licznościami hipotetycznymi, wyznaczonymi z rozkładów brzegowych, a pij = pi.⋅p.j Obszar krytyczny dla hipotezy alternatywnej H1: X i Y są zależne ma dla ustalonego poziomu ufności α postać K = 〈 χ2 (1−α, (w−1)(k−1) ), ∞) Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 13 Badanie współzależności cech niemierzalnych Miarę siły związku między cechami wyznaczają m.in. współczynniki oparte na statystyce χ2 współczynnik zbieżności V Cramera χ2 V= , gdzie g = min{w, k} n( g − 1) współczynnik T Czuprowa χ2 T= n ( w − 1)(k − 1) (30.3) Własności a) b) c) {T, V } ⊂ 〈0,1〉 Cechy X, Y są niezależne ⇒ T = V = 0 T = V = 1 ⇔ zależność między X i Y jest funkcyjna Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 13 Badanie współzależności cech niemierzalnych (30.4) Przykład W mieście A poddano ankiecie 200 osób z wyższym wykształceniem Wyniki badania przedstawia tablica korelacyjna Czy jest zadowolony z aktualnej pracy? Wykształcenie Tak Nie Techniczne 45 25 Ekonomiczne 35 25 Humanistyczne 30 40 Czy istnieje związek między kierunkiem ukończonych studiów a zadowoleniem z aktualnej pracy ? Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 13 Dziękuję za uwagę Opracowała Joanna Banaś