KORELACJE I REGRESJA LINIOWA
Transkrypt
KORELACJE I REGRESJA LINIOWA
KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem matematycznym zależności pomiędzy dwoma zmiennymi Korelacje i regresja liniowa Badamy [%] wyciek soków tkankowych z tkanki mięśniowej ryb w czasie chłodniczego przechowywania przez 2, 4, 6, 8 i 10 dni. Chcemy określić wpływ długości przechowywania na wielkość wycieku. X Zmienna niezależna Y Zmienna zależna Czas 2 4 6 8 10 Wyciek 1,7 2,2 3,2 3,6 4,5 n=5 L-ba par zmiennych XiY Korelacje i regresja liniowa 4 6 3,5 5 3 4 2,5 2 3 1,5 2 1 1 0,5 0 0 0 2 4 6 8 10 0 12 2 4 6 8 10 12 5 2,5 4,5 4 2 3,5 3 1,5 2,5 2 1 1,5 1 0,5 0,5 0 0 0 0 2 4 6 8 10 12 2 4 6 8 10 12 Korelacje i regresja liniowa 4 6 3,5 5 3 4 2,5 2 3 1,5 2 1 1 0,5 0 0 0 2 4 6 8 10 0 12 2 4 6 8 10 12 5 2,5 4,5 4 2 3,5 3 1,5 2,5 2 1 1,5 1 0,5 0,5 0 0 0 0 2 4 6 8 10 12 2 4 6 8 10 12 Korelacje i regresja liniowa 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 0 2 4 6 8 10 12 Analiza korelacji Analiza korelacji Metoda graficzna Współczynnik korelacji rang Spearmana Kowariancja Współczynnik korelacji liniowej Pearsona Analiza korelacji Analiza korelacji Metoda graficzna Współczynnik korelacji rang Spearmana Kowariancja Współczynnik korelacji liniowej Pearsona Analiza korelacji Metoda graficzna Do wykrycia zależności (korelacji) służą wykresy rozrzutu Wyniki układają się wzdłuż linii Jest zależność! Wyniki układają się w rozmytą chmurę punktów Brak zależności! Analiza korelacji Metoda graficzna Do wykrycia zależności (korelacji) służą wykresy rozrzutu Zależność wprosproporcjonalna Zależność odwrotnie proporcjonalna Analiza korelacji Analiza korelacji Metoda graficzna Współczynnik korelacji rang Spearmana Kowariancja Współczynnik korelacji liniowej Pearsona Analiza korelacji Kowariancja Liczbowa miara zależności dwóch zmiennych X i Y 1 𝑐𝑜𝑣 𝑋, 𝑌 = 𝑛 𝑛 𝑥𝑖 − 𝑥 2 𝑦𝑖 − 𝑦 1 21 1 𝑖=1 Zmienne X i Y są niezależne jeśli cov(X,Y)=0 Analiza korelacji Kowariancja Cov(X,Y) > 0 zależność wprostproporcjonalna (ze wzrostem x rośnie y) Cov(X,Y) < 0 zależność odwrotnie proporcjonalna (ze wzrostem x maleje y) Możemy ocenić kierunek zależności, ale nie możemy ocenić jej siły! Analiza korelacji Analiza korelacji Metoda graficzna Współczynnik korelacji rang Spearmana Kowariancja Współczynnik korelacji liniowej Pearsona Analiza korelacji Współczynnik korelacji liniowej Pearsona • Między zmiennymi X i Y istnieje zależność liniowa, jeżeli najlepszym przybliżeniem obserwowanego związku jest linia prosta • obliczając r Pearsona mierzymy, jak blisko linii prostej najlepiej opisującej ich związek liniowy leżą punkty Analiza korelacji Współczynnik korelacji liniowej Pearsona Dla populacji generalnej: 𝑐𝑜𝑣(𝑋, 𝑌) r𝑟 = 𝜎 𝑋 ∙ 𝜎(𝑌) Analiza korelacji Współczynnik korelacji liniowej Pearsona Dla próby: 𝑟= 𝑛 𝑖=1 𝑛 𝑖=1 𝑥𝑖 − 𝑥 ∗ 𝑦𝑖 − 𝑦 𝑥𝑖 − 𝑥 2 ∗ 𝑛 𝑖=1 𝑦𝑖 − 𝑦 2 Analiza korelacji Współczynnik korelacji liniowej Pearsona Właściwości: • r przyjmuje wartości z przedziału od -1 do +1 • Znak r wskazuje, czy zależność jest wprostproporcjonalna (dodatni r) czy odwrotnie proporcjonalna (ujemny r) • Wielkość r wskazuje, jak blisko linii prostej znajdują się punkty • X i Y można zamieniać miejscami bez wpływu na wartość r • Korelacja między X i Y niekoniecznie oznacza związek przyczynowy Analiza korelacji Współczynnik korelacji liniowej Pearsona r=1 r = -1 Idealna zależność liniowa wprostproporcjonalna Idealna zależność liniowa odwrotnie proporcjonalna Analiza korelacji Współczynnik korelacji liniowej Pearsona r = 0,90 Silna zależność liniowa wprostproporcjonalna r = -0,90 Silna zależność liniowa odwrotnie proporcjonalna Analiza korelacji Współczynnik korelacji liniowej Pearsona r=0 Brak zależności r = -0,5 Umiarkowana zależność liniowa odwrotnie proporcjonalna Analiza korelacji Współczynnik korelacji liniowej Pearsona Na podstawie wartości r oceniamy siłę zależności: |r| = 0 zmienne nieskorelowane 0 < |r| 0,3 korelacja niska 0,3 < |r| 0,5 korelacja przeciętna (średnia) 0,5 < |r| 0,7 korelacja wysoka 0,7 < |r| 0,9 korelacja bardzo wysoka 0,9 < |r| < 1 korelacja prawie pełna Analiza korelacji Współczynnik korelacji liniowej Pearsona Aby ocenić korelację pomiędzy zmiennymi należy znać: poziom istotności p współczynnika r (określa, czy korelacje jest/nie jest statystycznie istotna) wartość r (siła korelacji) znak +/- przy r (zależność wprost/odwrotnie proporcjonalna) Analiza korelacji Współczynnik korelacji liniowej Pearsona Jak ocenić czy r jest istotny? Hipoteza zerowa: H0: |r|=0 Hipoteza alternatywna: H1: |r|0 1) Korzystamy z tablic wartości krytycznych rkr(=0,05, n) 2) Wykorzystujemy funkcję testową t-studenta Analiza korelacji Współczynnik korelacji liniowej Pearsona Jak ocenić czy r jest istotny? Hipoteza zerowa: H0: |r|=0 Hipoteza alternatywna: H1: |r|0 1) Korzystamy z tablic wartości krytycznych rkr(=0,05, n) Analiza korelacji Analiza korelacji Współczynnik korelacji liniowej Pearsona Jak ocenić czy r jest istotny? Hipoteza zerowa: H0: |r|=0 Hipoteza alternatywna: H1: |r|0 1) Korzystamy z tablic wartości krytycznych rkr(=0,05, n) r<rkr - przyjmujemy hipotezę H0 r>rkr - przyjmujemy hipotezę H1 Analiza korelacji Współczynnik korelacji liniowej Pearsona Jak ocenić czy r jest istotny? Hipoteza zerowa: H0: |r|=0 Hipoteza alternatywna: H1: |r|0 2) Wykorzystujemy funkcję testową t-studenta 𝑡= 𝑟 (1 − 𝑟2 ) ∙ 𝑛−2 tkr(, f=n-2) Z tablic rozkładu t-studenta Analiza korelacji Współczynnik korelacji liniowej Pearsona Jak ocenić czy r jest istotny? Hipoteza zerowa: H0: |r|=0 Hipoteza alternatywna: H1: |r|0 2) Wykorzystujemy funkcję testową t-studenta t<tkr - przyjmujemy hipotezę H0 t>tkr - przyjmujemy hipotezę H1 Analiza korelacji Współczynnik korelacji liniowej Pearsona Stosujemy gdy: zmienne mają rozkład normalny ORAZ zależność ma charakter liniowy Analiza korelacji Współczynnik korelacji liniowej Pearsona Kiedy nie należy obliczać r: istnieje nieliniowy związek między dwoma zmiennymi (np. związek kwadratowy Analiza korelacji Współczynnik korelacji liniowej Pearsona Kiedy nie należy obliczać r: występuje jedna lub więcej wartości odstających Analiza korelacji Współczynnik korelacji liniowej Pearsona Kiedy nie należy obliczać r: dane zawierają podgrupy, dla których średnie poziomy wartości dla co najmniej jednej zmiennej są różne Analiza korelacji Analiza korelacji Metoda graficzna Współczynnik korelacji rang Spearmana Kowariancja Współczynnik korelacji liniowej Pearsona Analiza korelacji Współczynnik korelacji rang Spearmana Alternatywa dla współczynnika korelacji liniowej Pearsona. Nadaje się również do analizy zależności nieliniowych. Stosujemy, gdy: zmienne nie mają rozkładu normalnego ORAZ/LUB zależność ma charakter nieliniowy Analiza korelacji Współczynnik korelacji rang Spearmana Uporządkowanym od najmniejszej do największej wartości zmiennym nadaje się rangi i wylicza R Spearmana: 6 𝑛𝑖=1 𝐷 2 𝑅 =1− 𝑛(𝑛2 − 1) n – ilość pomiarów D - różnica rang Przyjmuje wartości od -1 do +1 interpretacja taka jaka dla r Pearsona Analiza korelacji Współczynnik korelacji rang Spearmana 6 𝑛𝑖=1 𝐷 2 𝑅 =1− 𝑛(𝑛2 − 1) X 2 5 5 8 9 10 Y 3 2 8 6 9 8 ranga X 1 2,5 2,5 4 5 6 ranga Y 2 1 4,5 3 6 4,5 D -1 1,5 -2 1 -1 1,5 suma D^2 1 2,25 4 1 1 2,25 11,5 Analiza korelacji Współczynnik korelacji rang Spearmana Jak ocenić czy R jest istotny? Hipoteza zerowa: H0: |R|=0 Hipoteza alternatywna: H1: |R|0 Korzystamy z tablic wartości krytycznych Rkr(=0,05, n) Analiza korelacji Analiza korelacji Współczynnik korelacji rang Spearmana Jak ocenić czy R jest istotny? Hipoteza zerowa: H0: |R|=0 Hipoteza alternatywna: H1: |R|0 Korzystamy z tablic wartości krytycznych Rkr(=0,05, n) R<Rkr - przyjmujemy hipotezę H0 R>Rkr - przyjmujemy hipotezę H1 Analiza korelacji Istotność różnic między wsp. korelacji Gdy wykonujemy dwie serie niezależnych pomiarów (dwie pary zmiennych X i Y), dla każdej pary możemy uzyskać różny współczynnik korelacji. Aby ocenić, czy istotnie się między sobą różnią, wykorzystujemy funkcję t-studenta. Analiza korelacji Istotność różnic między wsp. korelacji Hipoteza zerowa: H0: |r1|= |r2| Hipoteza alternatywna: H1: |r1| |r2| 1 1 + 𝑟1 (1 − 𝑟2 ) 𝑡𝑟 = 𝑙𝑛 2 1 − 𝑟1 (1 + 𝑟2 ) 𝑛1 − 3 (𝑛2 − 3) 𝑛1 + 𝑛2 − 6 tkr(=0,05, f=n1+n2-4) tr<tkr - przyjmujemy hipotezę H0 tr>tkr - przyjmujemy hipotezę H1 Analiza regresji liniowej Analiza regresji liniowej Regresja liniowa jest rozszerzeniem korelacji liniowej i pozwala na: graficzną prezentację linii prostej dopasowanej do wykresu rozrzutu określenie równania opisujące zależność dwóch zmiennych w postaci y = a + b* x zmienna zależna wyraz wolny współczynnik kierunkowy prostej zmienna niezależna Wynik testu Analiza regresji liniowej Iloraz inteligencji Analiza regresji liniowej Wynik testu y = a + b* x Iloraz inteligencji Analiza regresji liniowej W jaki sposób wyznaczana jest linia regresji liniowej? przez minimalizację sumy kwadratów odchyleń punktów doświadczalnych od linii regresji tzw. metoda najmniejszych kwadratów 2 (𝑦𝑖 − 𝑦𝑖 𝑜𝑏𝑙 ) = 𝑚𝑖𝑛 yi – wartości doświadczalne yi obl – wartości obliczone z równania regresji Analiza regresji liniowej Analiza regresji liniowej W jaki sposób wyznaczana jest linia regresji liniowej y=a+b*x ? Sprowadza się to do obliczenia współczynników a i b 𝑏= 𝑎= 𝑛 𝑥𝑖 ∙ 𝑦𝑖 − 𝑛 𝑥𝑖2 − 𝑦𝑖 − 𝑏 ∙ 𝑛 𝑥𝑖 𝑥𝑖 ∙ 𝑦𝑖 𝑥𝑖 2 =𝑦−𝑏∙𝑥 Analiza regresji liniowej y = a + b*x a i b wyznaczamy na podstawie danych empirycznych ; a i b pewnym oszacowaniem rzeczywistych wartości i b a i b obarczone są błędem! Obliczamy go na podstawie wariancji resztowej 𝜎𝑟2 = 𝑦𝑖 − 𝑦𝑖 𝑜𝑏𝑙 𝑛−2 2 Analiza regresji liniowej Dla współczynnika b: 2 𝜎𝑏 = 𝑛∙ Dla współczynnika a: 𝜎𝑎2 = 2 𝜎𝑟 𝑛∙ 𝑥𝑖2 − 2 𝜎𝑏 𝑛 ∙ 𝑥𝑖 2 𝑥𝑖 2 Analiza regresji liniowej Dokładność wyznaczenia współczynników: = a t(P, f=n-2) a b = b t(P, f=n-2) b Analiza regresji liniowej Sprawdzamy, czy a i b istotnie różnią się od 0: Hipoteza zerowa: H0: a=0 H0: b=0 Hipoteza alternatywna: H1: a0 H1: b0 𝑎−0 𝑎 𝑡𝑎 = = 𝜎𝑎 𝜎𝑎 𝑏−0 𝑏 𝑡𝑏 = = 𝜎𝑏 𝜎𝑏 tkr(, f=n-2) ta (tb) <tkr - przyjmujemy hipotezę H0 ta (tb) >tkr - przyjmujemy hipotezę H1 Analiza regresji liniowej y = a+ b*x Współczynniki a i b muszą istotnie różnić się od 0 aby były uwzględnione w równaniu. Jeśli b=0 – wartości y są stałe (równe a) Jeśli a=0 – równanie upraszcza się do y=b*x Analiza regresji liniowej Jeśli chcemy sprawdzić, czy a i b są zgodne z wartościami literaturowymi (sens fizyko-chem): Hipoteza zerowa: H0: a=a0 H0: b=b0 Hipoteza alternatywna: H1: aa0 H1: bb0 𝑎 − 𝑎0 𝑡𝑎 = 𝜎𝑎 𝑏 − 𝑏0 𝑡𝑏 = 𝜎𝑏 tkr(, f=n-2) ta (tb) <tkr - przyjmujemy hipotezę H0 ta (tb) >tkr - przyjmujemy hipotezę H1 Analiza regresji liniowej Do czego służy wyznaczone równanie? 1) Na podstawie znanych x obliczamy y 2) Na podstawie znanych y obliczamy x Analiza regresji liniowej Do czego służy wyznaczone równanie? 1) Na podstawie znanych x obliczamy y yk=a+b*xk Błąd wyznaczenia yk 𝜎𝑦𝑘 = 𝜎𝑟2 + 𝑥𝑘 − 𝑥 𝑛 2 ∙ 𝜎𝑏2 y = yk t(,f=n-2)yk Im xk jest bardziej oddalony od wartości średniej, tym większy błąd oszacowania Analiza regresji liniowej 90 80 Wynik testu 70 60 Im xk jest bardziej oddalony od wartości średniej, tym przedział ufności jest szerszy 50 40 30 20 60 80 100 x 120 IQ 140 160 180 Analiza regresji liniowej Do czego służy wyznaczone równanie? 2) Na podstawie znanych y obliczamy x xk=(yk-a)/b Błąd wyznaczenia xk 𝜎𝑥𝑘 1 𝜎𝑟2 𝑦𝑘 − 𝑦 = + 𝑏 𝑛 𝑏2 2 ∙ 𝜎𝑏2 x = xk t(,f=n-2)xk Im yk jest bardziej oddalony od wartości średniej, tym większy błąd oszacowania Analiza regresji liniowej 90 80 Wynik testu 70 60 Im yk jest bardziej oddalony od wartości średniej, tym przedział ufności jest szerszy y 50 40 30 20 60 80 100 120 IQ 140 160 180 Analiza regresji liniowej Ocena dobroci dopasowania Współczynnik korelacji liniowej Pearsona Współczynnik determinacji Współczynnik indeterminacji Analiza reszt Analiza regresji liniowej Ocena dobroci dopasowania Współczynnik korelacji liniowej Pearsona Współczynnik determinacji Współczynnik indeterminacji Analiza reszt Analiza regresji liniowej Ocena dobroci dopasowania Współczynnik korelacji liniowej Pearsona Im r bliższy 1 tym lepsza jakość modelu Analiza regresji liniowej Ocena dobroci dopasowania Współczynnik korelacji liniowej Pearsona Współczynnik determinacji Współczynnik indeterminacji Analiza reszt Analiza regresji liniowej Ocena dobroci dopasowania Współczynnik determinacji r2 – współczynnik korelacji liniowej Pearsona podniesiony do kwadratu Podawany w postaci: - ułamkowej [0,1] - procentowej 0-100% Im bliższy 1 tym lepsza jakość modelu Analiza regresji liniowej Ocena dobroci dopasowania Współczynnik korelacji liniowej Pearsona Współczynnik determinacji Współczynnik indeterminacji Analiza reszt Analiza regresji liniowej Ocena dobroci dopasowania Współczynnik indeterminacji 2 = 1- r2 – tzw. współczynnik rozbieżności Podawany w postaci: - ułamkowej [0,1] - procentowej 0-100% Im bliższy 0 tym lepsza jakość modelu Analiza regresji liniowej Ocena dobroci dopasowania Współczynnik korelacji liniowej Pearsona Współczynnik determinacji Współczynnik indeterminacji Analiza reszt Analiza regresji liniowej Ocena dobroci dopasowania Analiza reszt ei ei = yi – yi obl Reszty powinny spełniać rozkład normalny, mieć charakter losowy i nie wykazywać autokorelacji • Normalność reszt – badamy testem chi-kwadrat lub testem Kołmogorowa-Smirnowa • Losowość reszt oceniamy na wykresie Analiza regresji liniowej reszty Reszty losowo znajdują się powyżej i poniżej 0