Wybrane zagadnienia z korelacji i regresji.
Transkrypt
Wybrane zagadnienia z korelacji i regresji.
Autor: Dariusz Piwczyński 1 2006-05-15 00:11 Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Stanisza rxy = 0 0 < rxy ≤ 0,1 0,1 < rxy ≤ 0,3 0,3 ≤ rxy ≤ 0,5 0,5 ≤ rxy ≤ 0,7 0,7 ≤ rxy ≤ 0,9 0,9 ≤ rxy ≤ 1 zmienne nie są skorelowane korelacja nikła korelacja słaba korelacja przeciętna korelacja wysoka korelacja bardzo wysoka korelacja prawie pewna Skala Guillforda Przedział 0,00±0,20 ±0,20±040 ±0,40±0,70 ±0,70±0,90 ±0,90±1,00 Zależność Słaba Niska Umiarkowana Wysoka Bardzo wysoka Współczynnik Prawie nic nieznaczący Wyraźna, ale słaba Rzeczywisty Znaczny Pewny Istotność korelacji - weryfikacja hipotezy o niezależności cech. Polega ona na obliczeniu t0 i porównaniu go z ttab (ale w odniesieniu do prób mniejszych od 122 - n < 122, w przeciwnym wypadku stosujemy test z) n−2 n t 0 = rxy * z 0 = rxy * 1 − rxy2 1 − rxy2 ttab odczytujemy z tabeli testu t dla poziomu istotności 0,05 i 0,01 oraz dla liczby stopni swobody równej n-2. Jeżeli t0 > ttab to korelacja jest istotna statystycznie. Jeżeli t0 < ttab to korelacja jest nieistotna statystycznie. Istotność korelacji jest liczona po to, aby sprawdzić czy zależność jaką stwierdzono w próbie będzie miała miejsce również w populacji, z której próba ta pochodzi. Funkcje pozwalające obliczyć współczynnik korelacji i regresji: =wsp.korelacji(x2:x100;y2:y100) – współczynnik korelacji =nachylenie(x2:x100;y2:y100) –współczynnik regresji {=NACHYLENIE(znane_y ; znane_x ) Znane_y jest to tablica lub zakres komórek liczbowych zależnych punktów danych. Znane_x jest to zbiór niezależnych punktów danych.} Jak sporządzić wykres? 1. Zaznaczyć zmienne do analizy 2.Wybrać ikonę kreator wykresów z paska narzędzi (ikona, na której znajduje się wykres) 3. Zaznaczyć obszar arkusza, na którym ma się znaleźć wykres 4. Nacisnąć przycisk DALEJ 5. Wybrać typ wykresu - Punktowy 6. Wybrać format wykresu - same punkty 7. Przycisk DALEJ 8. Wpisać tytuł wykresu, osi X i Y Do wpisywanych formuł wygodnie jest wprowadzić adresy bezwzględne komórek, co umożliwia kopiowania (w prawo). Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych” Autor: Dariusz Piwczyński 2 2006-05-15 00:11 Procedury programu SAS /*Obserwujemy na wykresie charakter zależności miedzy cechami: mlkg oraz t*/ goptions reset=all; symbol i=rl v=circle; proc gplot data=krowy.mleko; plot t*mlkg; run;quit; /*Wykonujemy analizę regresji*/[1] proc reg data=krowy.mleko; model t=mlkg; run;quit; /*Tworzymy wykres rozrzutu zawierające równanie regresji oraz przedziały ufności*/ goptions reset=all; proc reg data=krowy.mleko; model b=mlkg / p clm cli alpha=0.05; id b; plot b*mlkg/ conf pred; run; quit; /*Tworzymy wykres rozrzutu zawierające równanie regresji*/ goptions reset=all; proc reg data=krowy.mleko; model b=mlkg; plot b*mlkg/pred; run; quit; /*Obliczamy wskaźnik korelacji Pearsona*/[2] proc corr data=krowy.mleko PEARSON; var mlkg b t; run; /*Korelujemy zmiennną VCM z mlkg, b i t, a obliczone wskaźniki (wartości bezwzględne) porządkowane są malejącą (opcja – rank)*/ proc corr data=krowy.mleko PEARSON rank; var mlkg b t; with VCM; run; [1] Procedura CORR 3 Zmienna mlkg b t Zmienne: mlkg b Statystyki proste t N rednia Odch. standard. Suma Minimum Maksimum 40 40 40 4888 3.16975 4.21300 1186 0.25825 0.57089 195530 126.79000 168.52000 2610 2.73000 3.24000 7280 3.82000 5.47000 Współczynniki korelacji Pearsona, N = 40 Prob > |r| przy H0: Ro=0 mlkg b t mlkg 1.00000 -0.04091 0.8021 -0.51228 0.0007** b -0.04091 0.8021 1.00000 0.54520 0.0003** t -0.51228 0.0007** 0.54520 0.0003** 1.00000 Współczynnik korelacji, to np. -0.04091, zaś liczba 0,8021 to poziom istotności, przy którym odrzucamy H0 na rzecz H1. W tym przypadku nie mamy podstaw do odrzucenia hipotezy zerowej. Zbyt duży błąd!!!!!!!!!!!! Współczynnik korelacji jest nieistotny statystycznie. Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych” Autor: Dariusz Piwczyński 3 2006-05-15 00:11 [2] The REG Procedure Model: MODEL1 Dependent Variable: t Analysis of Variance Sum of DF Squares Źródło Model [MSS] Error [ESS] Corrected Total [TSS] 3.33565 9.37499 12.71064 Root MSE Dependent Mean Coeff Var 0.49670 4.21300 11.78969 Variable 1 38 39 Intercept mlkg Sum TSS MSS ESS DF 1 1 Wartość F 3.33565 0.24671 R-Square Adj R-Sq Parameter Estimates Parameter Standard Estimate Error 5.41876 -0.00024666 Mean Square 0.33719 0.00006708 13.52 Pr > F 0.0007 0.2624 0.2430 Warto¶ć t Pr > |t| 16.07 -3.68 <.0001 0.0007 of Squares – Sumy kwadratów odchyleń – suma kwadratów odchyleń, zmienność ogólna – suma kwadratów odchyleń, zmienność międzygrupowa – suma kwadratów odchyleń, zmienność wewnątrzgrupowa Mean Square – Średni kwadrat odchyleń R-Square (współczynnik determinacji) – informacja o tym, w jakim stopniu równanie regresji wyjaśnia zmienność zmiennej zależnej. To jest inaczej kwadrat współczynnika korelacji. Przyjmuje wartość od 0 do 1 (0-100%). R 2 y ∑ = ∑y 2 p 2 Adj R-sq –dopasowany współczynnik determinacji, zawiera poprawkę na liczbę zmiennych niezależnych w równaniu regresji. Root MSE – odchylenie standardowe błędu, pierwiastek kwadratowy MSE. Służy do określania jakości modelu, im niższy Root MSE, tym lepszy model. CoeffVar = (RootMSE)/średnia arytmetyczna zmiennej Y*100 Intercept – wyraz wolny Parameter estimates – oszacowane parametry Standard error – błąd standardowy t Value – statystyka t, t=parameter/standard error Jak wygląda równanie regresji? y=5,419-0,00024x ZADANIE EXCEL: 1. Wykonaj wykres rozrzutu dla zmiennych: wzrost oraz długość stopy. Jaki charakter ma zależność między tymi zmiennymi? 2. Oblicz współczynnik korelacji pomiędzy wzrostem oraz długością stopy. Sprawdź czy jest to współczynnik istotny statystycznie. 3. Oblicz współczynniki regresji między wzrostem i stopą. Załóż, iż długość stopy jest zmienną zależną. 4. Do sporządzonego wykresu rozrzutu dołącz równanie regresji prostoliniowej. Czy jest ono dobrze dopasowane do punktów w układzie współrzędnych? 5. Wykonaj podobną analizę, jeśli chodzi o liczebności przedstawicieli z rodzaju Mechowce i Roztocze. Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych” Autor: Dariusz Piwczyński 4 2006-05-15 00:11 6. Oblicz współczynniki korelacji pomiędzy cechami biochemicznymi krwi maciorek, sprawdzi istotność rxy. Sporządzić wykresy zawierające równania liniowe regresji prostej. ZADANIE SAS: 1. Oblicz współczynniki korelacji Pearsona oraz Spearmana między liczbą kolonii różnych rodzajów bakterii i grzybów (zarówno opartych na transformowanych danych, jak i nie poddanych przekształceniom). Porównaj obliczone współczynniki korelacji. 2. Wykonaj analizę regresji w odniesieniu do Oribatida i Roztocze (zmienna zależna). 3. Oblicz wskaźniki korelacji PEARSONA między wszystkimi zmiennymi numerycznymi oraz osobno między wydajnością mleka a jego składem, uporządkuj wskaźniki korelacji za pomocą opcji „rank”. 4. Wykonaj analizę regresji, w której zmiennymi zależnymi będą cechy „składu” mleka, zaś niezależną wydajność mleka. Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych”