Wybrane zagadnienia z korelacji i regresji cd. Korelacja rang.
Transkrypt
Wybrane zagadnienia z korelacji i regresji cd. Korelacja rang.
Autor: Dariusz Piwczyński 1 2006-05-26 09:48 Ćwiczenie: Korelacja rang. Analiza regresji Korelacja rang (kolejności) - PRZYKŁAD Ranga – lokata, kolejność. Ten typ korelacji wykorzystujemy do korelowania cech niemierzalnych oraz mierzalnych, ale gdy nas interesuje lokata w próbie. Z tego też względu, muszą istnieć dwa kryteria wg, których możemy uporządkować elementy w próbie. Współczynnik korelacji rang rs Spearmana waha się w przedziale liczbowym od –1 do +1. n 6∑ rs = 1 − di2 i= 1 2 n(n − 1) di – różnica pomiędzy lokatami uzyskanymi przez obiekt w dwóch ocenach. n- liczba elementów w próbie Skoroszyt: S:\USM_STAT\BAZY_XLS\RANG.XLS Zadanie: (Żuk, Biometria stosowana) Na wystawie zootechnicznej dwóch sędziów oceniało niezależnie od siebie, pokrój zwierząt i na podstawie tych ocen każdy z sędziów uszeregował stawkę 10 osobników od najlepszego do najgorszego. Sprawdź czy pomiędzy ocenami sędziów istnieje zależność między tymi ocenami? osobnik sędzia1 1 2 3 4 5 6 7 8 9 10 sędzia2 1 4 2 7 8 3 10 6 9 5 4 1 3 10 2 6 5 8 7 9 rs = 0,261. Istnieje pewna zależność między ocenami sędziów, lecz nie wiadomo, czy taka zależność wystąpi w populacji (czy przy ocenie dalszych zwierząt przez tych sędziów będzie występować taka zgodność jak w pierwszej ocenie?). Przeprowadzamy wnioskowanie statystyczne, weryfikujemy hipotezę o niezależności uporządkowań. Wartości krytyczne odczytujemy dla n=10 i α=0,05 i 0,01 (ale tylko do 10 obiektów). Wartość krytyczna równa się 0,64 (warkryt.xls), zatem nie można odrzucić hipotezy zerowej, iż obydwa uporządkowania są niezależne. Powyżej 10 obiektów stosujemy statystykę u. Obliczenie w SAS współczynnika korelacji rang, tj Spearmana’a sprowadza się do użycia następującego programu: proc corr data=bibliotek.tablica SPEARMAN; var cecha1 cecha2..; run; Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych” Autor: Dariusz Piwczyński 2 2006-05-26 09:48 Analiza regresji Procedury programu SAS związane z analizą korelacji i regresji /*Tworzymy wykresy rozrzutu*/ goptions reset=all; symbol i=rl v=circle; proc gplot data=owce.dysekcja; plot prmoszac*(KULMIE LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo prmLMZ); run; quit; /*Obliczamy wspolczynniki korelacji*/ proc corr data=owce.dysekcja rank; var KULMIE LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo prmLMZ ; with prmoszac; run; /*Analiza regresji, model all dla wszystkich*/ proc reg data=owce.dysekcja; model prmoszac=KULMIE LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo prmLMZ; run; quit; /*Analiza regresji - wybrane statystyki jakosci*/ proc reg data=owce.dysekcja; model prmoszac=KULMIE LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo prmLMZ / selection= rsquare adjrsq cp AIC SBC best=3; run; quit; /*Analiza regresji - dobor modelu na podstawie R-square*/ proc reg data=owce.dysekcja; model prmoszac=KULMIE LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo prmLMZ / selection= rsquare best=3;; run; quit; /*Analiza regresji - dobor modelu na podstawie Cp*/ proc reg data=owce.dysekcja; model prmoszac=KULMIE LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo prmLMZ / selection= cp best=3;; run; quit; /*best=n- prezentowane bedzie "n" najlepszych modeli*/ /*include=2 - dwie pierwsze zmiennne muszą pozostać w modelu*/ /*Metody doboru zmiennych - FORWARD*/ proc reg data=owce.dysekcja; model prmoszac=KULMIE LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo prmLMZ / selection=forward; run; quit; /*Metody doboru zmiennych - BACKWARD*/ proc reg data=owce.dysekcja; model prmoszac=KULMIE LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo prmLMZ / selection=backward; run; quit; Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych” Autor: Dariusz Piwczyński 3 2006-05-26 09:48 /*Metody doboru zmiennych - STEPWISE*/ proc reg data=owce.dysekcja; model prmoszac=KULMIE LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo prmLMZ / selection=stepwise; run; quit; /*SLENTRY=0.15 - prawdopodobieństwo, przy którym zmienna jest wstawiana do modelu*/ /*SLSTAY =0.15 - prawdopodobieństwo, przy którym zmienna jest usuwana z modelu*/ /*Badanie wspolliniowosci zmiennych*/ proc reg data=owce.dysekcja; model prmoszac=KULMIE LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo prmLMZ /vif collin; run; quit; /*Analiza regresji - obliczamy predykcje*/ proc reg data=owce.dysekcja; model prmoszac=kulmie/ p clm cli alpha=0.05; id kulmie; output out=regresja p=pred r=reszty lcl=dol ucl=gora lclm=dolsr uclm=gorasr; plot r. * p.; plot prmoszac*kulmie / conf pred; run; quit; ZADANIE EXCEL: 1. Utwórz bazę danych dotyczącą wymiarów ciała, oblicz współczynnik korelacji, wykonaj wykresy rozrzutu zawierający równanie regresji, R2. Tworząc wykresy, potraktuj zmienną „stopa” raz jako niezależna, a drugi raz jako zależną! Jakim wzrostem winna charakteryzować się osoba o stopie długości 24 cm, a jaką stopą osoba o wzroście 175 cm? ZADANIE SAS: I. Oblicz współczynniki korelacji Spearmana pomiędzy zmiennymi (Apgar, mleko, jaja, ospa, piers, nizb, nosob) umieszczonymi w skoroszycie EXCELA dziecko.xls. II. Skonstruuj najlepsze równanie regresji pozwalające z dużym prawdopodobieństwem przewidywać masę urodzeniową dziecka. III. Analiza statystyczna będzie wykonana na bazie danych dotyczącej użytkowości rzeźnej owiec rasy merynos polski, suffolk oraz mieszańcach R2 i R3 pochodzących z krzyżowania wypierającego tych ras: S:\USM_STAT\BAZY_XLS\dysekcja.sas7bdat. PRMOSZAC – oszacowana, procentowa zawartość tkanki mięśniowej w półtuszy, KULMIE – masa tkanki mięśniowej w udźcu, LATAMIE – masa tkanki mięśniowej w łacie z żebrami i mostkiem, COMBER – masa combra, POLEDWI – masa polędwiczki, TLZEB – grubość warstwy tłuszczu nad żebrami (mm), POWOKA – powierzchnia oka polędwicy(cm2), WYDRZZIM – wydajność rzeźna zimna, PRMUDO – % tkanki mięśniowej w udźcu, PRMLMZ % tkanki mięśniowej w łacie z żebrami i mostkiem. Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych” Autor: Dariusz Piwczyński 4 2006-05-26 09:48 1. Wykonaj analizę regresji, w której za zmienną zależną potraktuj „prmoszac” a za niezależną: KULMIE, LATAMIE, COMBER, POLEDWI, TLZEB, POWOKA, WYDRZZIM, PRMUDO, PRMLMZ. Zapisz otrzymane równanie regresji wielokrotnej. 2. Porównaj statystyki dobroci modelu z zależności od liczby i rodzaju uwzględnionych cech! 3. Przeprowadź dobór zmiennych do modelu metodą krokową (FORWARD)! 4. Zbadaj czy zmienne uwzględnione w modelu z punktu 1 charakteryzuje współliniowość? IV. Sprawdź czy na podstawie wymiarów ciała można skonstruować równanie regresji wielokrotnej opisującej zmienność masy ciała jagniąt w wieku 4 miesięcy. Analizę wykonaj na danych ze skoroszytu EXCELA – wymiary.xls. Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych”