Wybrane zagadnienia z korelacji i regresji
Transkrypt
Wybrane zagadnienia z korelacji i regresji
Katedra Genetyki i Podstaw Hodowli Zwierząt Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy Ćwiczenie: Wybrane zagadnienia z korelacji i regresji W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Stanisza rxy = 0 zmienne nie są skorelowane 0 < rxy ≤ 0,1 korelacja nikła 0,1 < rxy ≤ 0,3 korelacja słaba 0,3 ≤ rxy ≤ 0,5 korelacja przeciętna 0,5 ≤ rxy ≤ 0,7 korelacja wysoka 0,7 ≤ rxy ≤ 0,9 korelacja bardzo wysoka 0,9 ≤ rxy ≤ 1 korelacja prawie pewna Skala Guillforda Przedział 0,00±0,20 ±0,20±040 ±0,40±0,70 ±0,70±0,90 ±0,90±1,00 Zależność Słaba Niska Umiarkowana Wysoka Bardzo wysoka Współczynnik Prawie nic nieznaczący Wyraźna, ale słaba Rzeczywisty Znaczny Pewny Istotność korelacji - weryfikacja hipotezy o niezależności cech. Polega ona na obliczeniu t 0 i porównaniu go z ttab (ale w odniesieniu do prób mniejszych od 122 - n < 122, w przeciwnym wypadku stosujemy test z) n− 2 n t 0 = rxy * z 0 = rxy * 1 − rxy2 1 − rxy2 ttab odczytujemy z tabeli testu t dla poziomu istotności 0,05 i 0,01 oraz dla liczby stopni swobody równej n-2. Jeżeli t0 > ttab to korelacja jest istotna statystycznie. Jeżeli t0 < ttab to korelacja jest nieistotna statystycznie. Istotność korelacji jest liczona po to, aby sprawdzić czy zależność jaką stwierdzono w próbie będzie miała miejsce również w populacji, z której próba ta próba pochodzi. Funkcje pozwalające obliczyć współczynnik korelacji i regresji: =wsp.korelacji(x2:x100;y2:y100) – współczynnik korelacji =nachylenie(x2:x100;y2:y100) –współczynnik regresji {=NACHYLENIE(znane_y ; znane_x ) Znane_y jest to tablica lub zakres komórek liczbowych zależnych punktów danych. Znane_x jest to zbiór niezależnych punktów danych.} Jak sporządzić wykres? 1. Zaznaczyć zmienne do analizy 2.Wybrać ikonę kreator wykresów z paska narzędzi (ikona, na której znajduje się wykres) 3. Zaznaczyć obszar arkusza, na którym ma się znaleźć wykres 4. Nacisnąć przycisk DALEJ 5. Wybrać typ wykresu - Punktowy Statystyka i modelowanie w ochronie środowiska 2009-05-21 16:18:00 Strona 1 Katedra Genetyki i Podstaw Hodowli Zwierząt Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy 6. Wybrać format wykresu – „same punkty” 7. Przycisk DALEJ 8. Wpisać tytuł wykresu, osi X i Y Do wpisywanych formuł wygodnie jest wprowadzić adresy bezwzględne komórek, co umożliwia kopiowania (w prawo)! ZADANIE EXCEL: I. 1. Wykonaj wykres rozrzutu dla zmiennych: wzrost oraz długość stopy (stopy2009.xls). Jaki charakter ma zależność między tymi zmiennymi? Oblicz współczynnik korelacji pomiędzy wzrostem oraz długością stopy. Sprawdź czy jest to współczynnik statystycznie istotny. R-Square, R2 (współczynnik determinacji) – informacja o stopniu w jakim równanie regresji wyjaśnia zmienność zmiennej zależnej. y 2p ∑ 2 Przyjmuje wartości od 0 do 1 (0-100%). R = ∑ y2 2. Oblicz współczynniki regresji między wzrostem i stopą. Załóż, iż długość stopy jest zmienną zależną. 3. Do sporządzonego wykresu rozrzutu dołącz równanie regresji prostoliniowej. Czy jest ono dobrze dopasowane do punktów w układzie współrzędnych? II. 1. Sprawdź, które z wymiarów ciała są najsilniej związane z masą ciała kretów? Skonstruuj model regresji wielokrotnej, który zawierać będzie trzy zmienne najlepiej wyjaśniające zmienność masy ciała kretów (S:\~\KRET.XLS). Skonstruuj również model, w którym zostanie uwzględniona jedna zmienna zależna – najsilniej skorelowana z masą ciała. Porównaj współczynniki determinacji obydwu modeli. Korelacje Statystyka i modelowanie w ochronie środowiska 2009-05-21 16:18:00 Strona 2 Katedra Genetyki i Podstaw Hodowli Zwierząt Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy Stwierdzono, że wszystkie obliczone współczynniki korelacji prostoliniowej między masą ciała zwierząt a wymiarami ciała były wysoko istotne statystycznie. Bardzo wysoką zależność zarejestrowano między długością i szerokością tułowia a masą zwierząt. Wysoką zależność stwierdzono między szerokością dłoni a masą ciała. Statystyka i modelowanie w ochronie środowiska 2009-05-21 16:18:00 Strona 3 Katedra Genetyki i Podstaw Hodowli Zwierząt Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy Statystyka → Regresja wieloraka III. 1. Zbadaj zależność między logarytmem naturalnym z liczby kolonii różnych rodzajów drobnoustrojów w ściekach o różnym pochodzeniu (bakterie.xls). IV. 1. Jakiego rodzaju zależność istnieje między stężeniem pyłu a dwutlenku siarki (babulice.xls)? Statystyka i modelowanie w ochronie środowiska 2009-05-21 16:18:00 Strona 4