Wybrane zagadnienia z korelacji i regresji

Transkrypt

Wybrane zagadnienia z korelacji i regresji
Katedra Genetyki i Podstaw Hodowli Zwierząt
Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy
Ćwiczenie:
Wybrane zagadnienia z korelacji i regresji
W statystyce stopień zależności między cechami można wyrazić wg następującej skali:
Skala Stanisza
rxy = 0
zmienne nie są skorelowane
0 < rxy ≤ 0,1
korelacja nikła
0,1 < rxy ≤ 0,3
korelacja słaba
0,3 ≤ rxy ≤ 0,5
korelacja przeciętna
0,5 ≤ rxy ≤ 0,7
korelacja wysoka
0,7 ≤ rxy ≤ 0,9
korelacja bardzo wysoka
0,9 ≤ rxy ≤ 1
korelacja prawie pewna
Skala Guillforda
Przedział
0,00±0,20
±0,20±040
±0,40±0,70
±0,70±0,90
±0,90±1,00
Zależność
Słaba
Niska
Umiarkowana
Wysoka
Bardzo wysoka
Współczynnik
Prawie nic nieznaczący
Wyraźna, ale słaba
Rzeczywisty
Znaczny
Pewny
Istotność korelacji - weryfikacja hipotezy o niezależności cech. Polega ona na obliczeniu t 0
i porównaniu go z ttab (ale w odniesieniu do prób mniejszych od 122 - n < 122, w przeciwnym
wypadku stosujemy test z)
n− 2
n
t 0 = rxy *
z 0 = rxy *
1 − rxy2
1 − rxy2
ttab odczytujemy z tabeli testu t dla poziomu istotności 0,05 i 0,01 oraz dla liczby stopni swobody
równej n-2.
Jeżeli t0 > ttab to korelacja jest istotna statystycznie. Jeżeli t0 < ttab to korelacja jest nieistotna
statystycznie. Istotność korelacji jest liczona po to, aby sprawdzić czy zależność jaką stwierdzono
w próbie będzie miała miejsce również w populacji, z której próba ta próba pochodzi.
Funkcje pozwalające obliczyć współczynnik korelacji i regresji:
=wsp.korelacji(x2:x100;y2:y100) – współczynnik korelacji
=nachylenie(x2:x100;y2:y100) –współczynnik regresji
{=NACHYLENIE(znane_y ; znane_x )
Znane_y jest to tablica lub zakres komórek liczbowych zależnych punktów danych.
Znane_x jest to zbiór niezależnych punktów danych.}
Jak sporządzić wykres?
1. Zaznaczyć zmienne do analizy
2.Wybrać ikonę kreator wykresów z paska narzędzi (ikona, na której znajduje się wykres)
3. Zaznaczyć obszar arkusza, na którym ma się znaleźć wykres
4. Nacisnąć przycisk DALEJ
5. Wybrać typ wykresu - Punktowy
Statystyka i modelowanie w ochronie środowiska
2009-05-21 16:18:00
Strona 1
Katedra Genetyki i Podstaw Hodowli Zwierząt
Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy
6. Wybrać format wykresu – „same punkty”
7. Przycisk DALEJ
8. Wpisać tytuł wykresu, osi X i Y
Do wpisywanych formuł wygodnie jest wprowadzić adresy bezwzględne komórek, co umożliwia
kopiowania (w prawo)!
ZADANIE EXCEL:
I.
1. Wykonaj wykres rozrzutu dla zmiennych: wzrost oraz długość stopy (stopy2009.xls). Jaki
charakter ma zależność między tymi zmiennymi?
Oblicz współczynnik korelacji pomiędzy wzrostem oraz długością stopy. Sprawdź czy jest
to współczynnik statystycznie istotny.
R-Square, R2 (współczynnik determinacji) – informacja o stopniu w jakim równanie
regresji wyjaśnia zmienność zmiennej zależnej.
y 2p
∑
2
Przyjmuje wartości od 0 do 1 (0-100%). R =
∑ y2
2. Oblicz współczynniki regresji między wzrostem i stopą. Załóż, iż długość stopy jest
zmienną zależną.
3. Do sporządzonego wykresu rozrzutu dołącz równanie regresji prostoliniowej. Czy jest ono
dobrze dopasowane do punktów w układzie współrzędnych?
II.
1. Sprawdź, które z wymiarów ciała są najsilniej związane z masą ciała kretów? Skonstruuj
model regresji wielokrotnej, który zawierać będzie trzy zmienne najlepiej wyjaśniające
zmienność masy ciała kretów (S:\~\KRET.XLS). Skonstruuj również model, w którym
zostanie uwzględniona jedna zmienna zależna – najsilniej skorelowana z masą ciała.
Porównaj współczynniki determinacji obydwu modeli.
Korelacje
Statystyka i modelowanie w ochronie środowiska
2009-05-21 16:18:00
Strona 2
Katedra Genetyki i Podstaw Hodowli Zwierząt
Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy
Stwierdzono, że wszystkie obliczone współczynniki korelacji prostoliniowej między masą ciała
zwierząt a wymiarami ciała były wysoko istotne statystycznie. Bardzo wysoką zależność
zarejestrowano między długością i szerokością tułowia a masą zwierząt. Wysoką zależność
stwierdzono między szerokością dłoni a masą ciała.
Statystyka i modelowanie w ochronie środowiska
2009-05-21 16:18:00
Strona 3
Katedra Genetyki i Podstaw Hodowli Zwierząt
Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy
Statystyka → Regresja wieloraka
III.
1. Zbadaj zależność między logarytmem naturalnym z liczby kolonii różnych rodzajów
drobnoustrojów w ściekach o różnym pochodzeniu (bakterie.xls).
IV.
1. Jakiego rodzaju zależność istnieje między stężeniem pyłu a dwutlenku siarki
(babulice.xls)?
Statystyka i modelowanie w ochronie środowiska
2009-05-21 16:18:00
Strona 4