Wykład 7 - Netstrefa.pl
Transkrypt
Wykład 7 - Netstrefa.pl
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. cov( X ,Y ) r= sx ⋅ s y gdzie, wartość kowariancji (cov) na podstawie próby liczymy wg następującego wzoru: 1 cov( X ,Y ) = n−1 n ∑( X i =1 i − X )( Yi − Y ) natomiast sx i sy są odchyleniami standardowymi dla zmiennych: X i Y Współczynnik korelacji liniowej przyjmuje zawsze wartości w zakresie [ -1,1]. Im większa wartość bezwzględna współczynnika, tym silniejsza jest zależność liniowa między zmiennymi. rxy = 0 oznacza brak korelacji, rxy = 1 oznacza silną korelację dodatnią, jeżeli jedna zmienna (X) rośnie to również rośnie druga zmienna (Y), rxy = -1 oznacza korelację ujemną (jeżeli zmienna X rośnie, to Y maleje i na odwrót). 14 12 r =0,007 10 8 6 4 2 0 0 1 2 3 4 5 6 Zależność nieliniowa 7 8 9 Testowanie istotności korelacji Testowanie jest tylko wtedy uzasadnione, gdy obydwie zmienne mają rozkład normalny lub zbliżony do normalnego Hipoteza zerowa: H0:ρ=0 ρ- wartość współczynnika korelacji dla całej populacji Jeżeli |remp|>rα,2,n-2 to H0 odrzucamy. rα,2,n-2 – jest wartością krytyczną współczynnika korelacji prostej Pearsona Podobnie jak w przypadku innych hipotez w programach statystycznych (wnioskowanie o istotności współzależności dwóch zmiennych odbywa się na podstawie wartości p (p<α oznacza istotna współzależność) Należy pamiętać również, że współczynnik korelacji liniowej Pearsona dobrze opisuje jedynie zależności liniowe. W przypadku, gdy zależność istnieje ale jest nieliniowa (np. punkty są położone na paraboli) wartość współczynnika korelacji może być bliska 0. Wartości krytyczne współczynnika korelacji prostej dla poziomu α równego 0,1; 0,05; 0,02 i 0,01 df – liczba stopni swobody (df=n-2) Współczynnik korelacji rang Spearmana (rs) służy do oceny współzależności między dwiema zmiennymi. W odróżnieniu od współczynnika korelacji Pearsona można przy pomocy współczynnika korelacji Spearmana oceniać zależności nieliniowe. Przy testowaniu nie jest wymagana normalność rozkładu zmiennych, tak więc możliwe jest stosowanie tego współczynnika korelacji wtedy gdy nie możemy stosować współczynnika korelacji Persona. Wartości współczynnika korelacji rang Spearmana są z zakresu [-1, 1] a ich interpretacja jest podobna jak w przypadku współczynnika korelacji Pearsona, czyli czym wartość rs jest bliższa 1 tym zależność jest silniejsza, dodatnia, czym bliższa jest -1 tym zależność silniejsza, ujemna, a jeśli wartość rs jest bliska 0 to oznacza brak zależności lub bardzo słabą zależność. r=0,64 rs=1,00 3000 2500 2000 1500 1000 500 0 0 2 4 6 8 10 12 Regresja prosta liniowa Regresja prosta jest metodą statystyczną, w której określamy zależność jednej zmiennej (Y) od drugiej (X), czyli zależność ta jest między tylko dwiema zmiennymi. Regresja prosta liniowa Regresja liniowa to metoda szacowania wartości oczekiwanej jednej zmiennej (Y) znając wartości innej zmiennej (X) na podstawie funkcji liniowej. Szukana zmienna, Y, jest nazywana zmienną zależną, zmienna X nazywa się zmienną niezależną. Model regresji prostej liniowej Y=a+bX+ei gdzie: b – współczynnik regresji a – stała regresji ei – błędy losowe o rozkładzie N(0;σe2) Stała regresji (a) jest zatem szacowaną średnią wartością zmiennej Y w przypadku gdy X=0, natomiast wartość współczynnika regresji (b) oznacza średnią zmianę wartości Y w przypadku gdy X zwiększymy o jedną jednostkę. Ujemna wartość współczynnika regresji (b) świadczy o ujemnej zależności, a dodatnia wartość wskazuje na dodatnią zależność Estymację (szacowanie wartości) współczynników równania regresji prowadzi się zwykle metodą najmniejszych kwadratów, która polega na minimalizacji następującej sumy kwadratów: n ∑ i =1 ( y i − a − bx i )2 Estymatory wartości współczynników a i b oblicza się ze wzorów: b= sxy sx2 a = y − bx R2 – współczynnik determinacji Określa stosunek zmienności wyjaśnianej przez model regresji do zmienności całkowitej. W przypadku regresji prostej liniowej R2=rxy2 Czym wartość R2 jest bliższa 100 % (czyli 1) to zależność Y od X jest silniejsza, i na odwrót gdy wartość R2 jest bliższa 0 % (czyli 0) to zależność Y od X jest słabsza. Wartość współczynnika determinacji jest równa w przypadku regresji prostej liniowej kwadratowi współczynnika korelacji prostej Pearsona (r) Testowanie hipotezy H0: β=0 (współczynnik regresji dla całej populacji jest równy 0) pozwala na ocenę, czy występuje istotna zależność Y od X. Jeśli tę hipotezę odrzucimy to uznajemy, że Y istotnie zależy od X. (powyższą hipotezę odrzucamy jeśli p<α) 8 y = 0,0439x + 0,7413 7 2 R = 0,8299 (82,99%) Y -plon (t/ha) 6 5 4 3 2 1 0 0 20 40 60 80 X -nawożenie N (kg/ha) 100 120 140 Regresja prosta nieliniowa Nie wszystkie zależności między dwiema zmiennymi są liniowe, dlatego też czasami uzasadnione jest stosowanie innego niż liniowy modelu regresji. Stosowane są w tym celu różne inne modele regresji np. zamiast funkcji liniowej można użyć: -funkcji kwadratowej - pierwiastkowej -logarytmicznej lub innych. Dobór modelu regresji dokonuje się najczęściej na podstawie wartości współczynnika determinacji (R2), większa wartość R2 oznacza lepiej dopasowany model regresji, a tym samym lepiej opisujący zmiany Y w zależności od X. Szczególnym przykładem regresji prostej jest regresja prosta wielomianowa, czyli wykorzystanie funkcji wielomianowej, w której zmienna niezależna (X) występuje w kolejnych potęgach. Najprostszym modelem regresji wielomianowej jest funkcja kwadratowa (X występuje w pierwszej i drugiej potędze) 9 8 7 Y -plon (t/ha) 6 y = -0,0001x 2 + 0,0587x + 0,4438 R2 = 0,8995 5 4 3 2 1 0 0 50 100 150 X -nawożenie N (kg/ha) 200 250 300