Wybrane zagadnienia z korelacji i regresji.

Transkrypt

Wybrane zagadnienia z korelacji i regresji.
Autor: Dariusz Piwczyński
1
2006-05-15 00:11
Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.
W statystyce stopień zależności między cechami można wyrazić wg następującej skali:
Skala Stanisza
rxy = 0
0 < rxy ≤ 0,1
0,1 < rxy ≤ 0,3
0,3 ≤ rxy ≤ 0,5
0,5 ≤ rxy ≤ 0,7
0,7 ≤ rxy ≤ 0,9
0,9 ≤ rxy ≤ 1
zmienne nie są skorelowane
korelacja nikła
korelacja słaba
korelacja przeciętna
korelacja wysoka
korelacja bardzo wysoka
korelacja prawie pewna
Skala Guillforda
Przedział
0,00±0,20
±0,20±040
±0,40±0,70
±0,70±0,90
±0,90±1,00
Zależność
Słaba
Niska
Umiarkowana
Wysoka
Bardzo wysoka
Współczynnik
Prawie nic nieznaczący
Wyraźna, ale słaba
Rzeczywisty
Znaczny
Pewny
Istotność korelacji - weryfikacja hipotezy o niezależności cech. Polega ona na obliczeniu t0
i porównaniu go z ttab (ale w odniesieniu do prób mniejszych od 122 - n < 122, w przeciwnym
wypadku stosujemy test z)
n−2
n
t 0 = rxy *
z 0 = rxy *
1 − rxy2
1 − rxy2
ttab odczytujemy z tabeli testu t dla poziomu istotności 0,05 i 0,01 oraz dla liczby stopni
swobody równej n-2.
Jeżeli t0 > ttab to korelacja jest istotna statystycznie. Jeżeli t0 < ttab to korelacja jest nieistotna
statystycznie. Istotność korelacji jest liczona po to, aby sprawdzić czy zależność jaką
stwierdzono w próbie będzie miała miejsce również w populacji, z której próba ta pochodzi.
Funkcje pozwalające obliczyć współczynnik korelacji i regresji:
=wsp.korelacji(x2:x100;y2:y100) – współczynnik korelacji
=nachylenie(x2:x100;y2:y100) –współczynnik regresji
{=NACHYLENIE(znane_y ; znane_x )
Znane_y jest to tablica lub zakres komórek liczbowych zależnych punktów danych.
Znane_x jest to zbiór niezależnych punktów danych.}
Jak sporządzić wykres?
1. Zaznaczyć zmienne do analizy
2.Wybrać ikonę kreator wykresów z paska narzędzi (ikona, na której znajduje się wykres)
3. Zaznaczyć obszar arkusza, na którym ma się znaleźć wykres
4. Nacisnąć przycisk DALEJ
5. Wybrać typ wykresu - Punktowy
6. Wybrać format wykresu - same punkty
7. Przycisk DALEJ
8. Wpisać tytuł wykresu, osi X i Y
Do wpisywanych formuł wygodnie jest wprowadzić adresy bezwzględne komórek, co
umożliwia kopiowania (w prawo).
Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych”
Autor: Dariusz Piwczyński
2
2006-05-15 00:11
Procedury programu SAS
/*Obserwujemy na wykresie charakter zależności miedzy cechami: mlkg oraz
t*/
goptions reset=all;
symbol i=rl v=circle;
proc gplot data=krowy.mleko;
plot t*mlkg;
run;quit;
/*Wykonujemy analizę regresji*/[1]
proc reg data=krowy.mleko;
model t=mlkg;
run;quit;
/*Tworzymy wykres rozrzutu zawierające równanie regresji oraz przedziały
ufności*/
goptions reset=all;
proc reg data=krowy.mleko;
model b=mlkg / p clm cli alpha=0.05;
id b;
plot b*mlkg/ conf pred;
run;
quit;
/*Tworzymy wykres rozrzutu zawierające równanie regresji*/
goptions reset=all;
proc reg data=krowy.mleko;
model b=mlkg;
plot b*mlkg/pred;
run;
quit;
/*Obliczamy wskaźnik korelacji Pearsona*/[2]
proc corr data=krowy.mleko PEARSON;
var mlkg b t;
run;
/*Korelujemy zmiennną VCM z mlkg, b i t, a obliczone wskaźniki (wartości
bezwzględne) porządkowane są malejącą (opcja – rank)*/
proc corr data=krowy.mleko PEARSON rank;
var mlkg b t;
with VCM;
run;
[1]
Procedura CORR
3
Zmienna
mlkg
b
t
Zmienne:
mlkg
b
Statystyki proste
t
N
rednia
Odch.
standard.
Suma
Minimum
Maksimum
40
40
40
4888
3.16975
4.21300
1186
0.25825
0.57089
195530
126.79000
168.52000
2610
2.73000
3.24000
7280
3.82000
5.47000
Współczynniki korelacji Pearsona, N = 40
Prob > |r| przy H0: Ro=0
mlkg
b
t
mlkg
1.00000
-0.04091
0.8021
-0.51228
0.0007**
b
-0.04091
0.8021
1.00000
0.54520
0.0003**
t
-0.51228
0.0007**
0.54520
0.0003**
1.00000
Współczynnik korelacji, to np. -0.04091, zaś liczba 0,8021 to poziom istotności, przy którym
odrzucamy H0 na rzecz H1. W tym przypadku nie mamy podstaw do odrzucenia hipotezy zerowej. Zbyt
duży błąd!!!!!!!!!!!! Współczynnik korelacji jest nieistotny statystycznie.
Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych”
Autor: Dariusz Piwczyński
3
2006-05-15 00:11
[2]
The REG Procedure
Model: MODEL1
Dependent Variable: t
Analysis of Variance
Sum of
DF
Squares
Źródło
Model
[MSS]
Error
[ESS]
Corrected Total [TSS]
3.33565
9.37499
12.71064
Root MSE
Dependent Mean
Coeff Var
0.49670
4.21300
11.78969
Variable
1
38
39
Intercept
mlkg
Sum
TSS
MSS
ESS
DF
1
1
Wartość
F
3.33565
0.24671
R-Square
Adj R-Sq
Parameter Estimates
Parameter
Standard
Estimate
Error
5.41876
-0.00024666
Mean
Square
0.33719
0.00006708
13.52
Pr > F
0.0007
0.2624
0.2430
Warto¶ć t
Pr > |t|
16.07
-3.68
<.0001
0.0007
of Squares – Sumy kwadratów odchyleń
– suma kwadratów odchyleń, zmienność ogólna
– suma kwadratów odchyleń, zmienność międzygrupowa
– suma kwadratów odchyleń, zmienność wewnątrzgrupowa
Mean Square – Średni kwadrat odchyleń
R-Square (współczynnik determinacji) – informacja o tym, w jakim stopniu równanie regresji
wyjaśnia zmienność zmiennej zależnej. To jest inaczej kwadrat współczynnika korelacji.
Przyjmuje wartość od 0 do 1 (0-100%).
R
2
y
∑
=
∑y
2
p
2
Adj R-sq –dopasowany współczynnik determinacji, zawiera poprawkę na liczbę zmiennych
niezależnych w równaniu regresji.
Root MSE – odchylenie standardowe błędu, pierwiastek kwadratowy MSE. Służy do określania
jakości modelu, im niższy Root MSE, tym lepszy model.
CoeffVar = (RootMSE)/średnia arytmetyczna zmiennej Y*100
Intercept – wyraz wolny
Parameter estimates – oszacowane parametry
Standard error – błąd standardowy
t Value – statystyka t, t=parameter/standard error
Jak wygląda równanie regresji?
y=5,419-0,00024x
ZADANIE EXCEL:
1. Wykonaj wykres rozrzutu dla zmiennych: wzrost oraz długość stopy. Jaki charakter
ma zależność między tymi zmiennymi?
2. Oblicz współczynnik korelacji pomiędzy wzrostem oraz długością stopy. Sprawdź czy
jest to współczynnik istotny statystycznie.
3. Oblicz współczynniki regresji między wzrostem i stopą. Załóż, iż długość stopy jest
zmienną zależną.
4. Do sporządzonego wykresu rozrzutu dołącz równanie regresji prostoliniowej. Czy jest
ono dobrze dopasowane do punktów w układzie współrzędnych?
5. Wykonaj podobną analizę, jeśli chodzi o liczebności przedstawicieli z rodzaju
Mechowce i Roztocze.
Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych”
Autor: Dariusz Piwczyński
4
2006-05-15 00:11
6. Oblicz współczynniki korelacji pomiędzy cechami biochemicznymi krwi maciorek,
sprawdzi istotność rxy. Sporządzić wykresy zawierające równania liniowe regresji
prostej.
ZADANIE SAS:
1. Oblicz współczynniki korelacji Pearsona oraz Spearmana między liczbą kolonii
różnych rodzajów bakterii i grzybów (zarówno opartych na transformowanych
danych, jak i nie poddanych przekształceniom). Porównaj obliczone współczynniki
korelacji.
2. Wykonaj analizę regresji w odniesieniu do Oribatida i Roztocze (zmienna zależna).
3. Oblicz wskaźniki korelacji PEARSONA między wszystkimi zmiennymi
numerycznymi oraz osobno między wydajnością mleka a jego składem, uporządkuj
wskaźniki korelacji za pomocą opcji „rank”.
4. Wykonaj analizę regresji, w której zmiennymi zależnymi będą cechy „składu” mleka,
zaś niezależną wydajność mleka.
Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych”

Podobne dokumenty