Wybrane zagadnienia z korelacji i regresji cd. Korelacja rang.

Transkrypt

Wybrane zagadnienia z korelacji i regresji cd. Korelacja rang.
Autor: Dariusz Piwczyński
1
2006-05-26 09:48
Ćwiczenie: Korelacja rang. Analiza regresji
Korelacja rang (kolejności) - PRZYKŁAD
Ranga – lokata, kolejność. Ten typ korelacji wykorzystujemy do korelowania cech
niemierzalnych oraz mierzalnych, ale gdy nas interesuje lokata w próbie. Z tego też
względu, muszą istnieć dwa kryteria wg, których możemy uporządkować elementy w
próbie. Współczynnik korelacji rang rs Spearmana waha się w przedziale liczbowym od –1
do +1.
n
6∑
rs = 1 −
di2
i= 1
2
n(n − 1)
di – różnica pomiędzy lokatami uzyskanymi przez obiekt w dwóch
ocenach.
n- liczba elementów w próbie
Skoroszyt: S:\USM_STAT\BAZY_XLS\RANG.XLS
Zadanie: (Żuk, Biometria stosowana) Na wystawie zootechnicznej dwóch sędziów oceniało
niezależnie od siebie, pokrój zwierząt i na podstawie tych ocen każdy z sędziów uszeregował
stawkę 10 osobników od najlepszego do najgorszego. Sprawdź czy pomiędzy ocenami
sędziów istnieje zależność między tymi ocenami?
osobnik
sędzia1
1
2
3
4
5
6
7
8
9
10
sędzia2
1
4
2
7
8
3
10
6
9
5
4
1
3
10
2
6
5
8
7
9
rs = 0,261. Istnieje pewna zależność między ocenami sędziów, lecz nie wiadomo, czy taka
zależność wystąpi w populacji (czy przy ocenie dalszych zwierząt przez tych sędziów będzie
występować taka zgodność jak w pierwszej ocenie?). Przeprowadzamy wnioskowanie
statystyczne, weryfikujemy hipotezę o niezależności uporządkowań. Wartości krytyczne
odczytujemy dla n=10 i α=0,05 i 0,01 (ale tylko do 10 obiektów). Wartość krytyczna równa
się 0,64 (warkryt.xls), zatem nie można odrzucić hipotezy zerowej, iż obydwa
uporządkowania są niezależne. Powyżej 10 obiektów stosujemy statystykę u.
Obliczenie w SAS współczynnika korelacji rang, tj Spearmana’a sprowadza się do użycia
następującego programu:
proc corr data=bibliotek.tablica SPEARMAN;
var cecha1 cecha2..;
run;
Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych”
Autor: Dariusz Piwczyński
2
2006-05-26 09:48
Analiza regresji
Procedury programu SAS związane z analizą korelacji i regresji
/*Tworzymy wykresy rozrzutu*/
goptions reset=all;
symbol i=rl v=circle;
proc gplot data=owce.dysekcja;
plot prmoszac*(KULMIE LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo
prmLMZ);
run;
quit;
/*Obliczamy wspolczynniki korelacji*/
proc corr data=owce.dysekcja rank;
var KULMIE LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo prmLMZ ;
with prmoszac;
run;
/*Analiza regresji, model all dla wszystkich*/
proc reg data=owce.dysekcja;
model prmoszac=KULMIE LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo
prmLMZ;
run;
quit;
/*Analiza regresji - wybrane statystyki jakosci*/
proc reg data=owce.dysekcja;
model prmoszac=KULMIE LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo
prmLMZ / selection= rsquare adjrsq cp AIC SBC best=3;
run;
quit;
/*Analiza regresji - dobor modelu na podstawie R-square*/
proc reg data=owce.dysekcja;
model prmoszac=KULMIE LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo
prmLMZ / selection= rsquare best=3;;
run;
quit;
/*Analiza regresji - dobor modelu na podstawie Cp*/
proc reg data=owce.dysekcja;
model prmoszac=KULMIE LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo
prmLMZ / selection= cp best=3;;
run;
quit;
/*best=n- prezentowane bedzie "n" najlepszych modeli*/
/*include=2 - dwie pierwsze zmiennne muszą pozostać w modelu*/
/*Metody doboru zmiennych - FORWARD*/
proc reg data=owce.dysekcja;
model prmoszac=KULMIE LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo
prmLMZ / selection=forward;
run;
quit;
/*Metody doboru zmiennych - BACKWARD*/
proc reg data=owce.dysekcja;
model prmoszac=KULMIE LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo
prmLMZ / selection=backward;
run;
quit;
Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych”
Autor: Dariusz Piwczyński
3
2006-05-26 09:48
/*Metody doboru zmiennych - STEPWISE*/
proc reg data=owce.dysekcja;
model prmoszac=KULMIE LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo
prmLMZ / selection=stepwise;
run;
quit;
/*SLENTRY=0.15 - prawdopodobieństwo, przy którym zmienna jest wstawiana do
modelu*/
/*SLSTAY =0.15 - prawdopodobieństwo, przy którym zmienna jest usuwana z
modelu*/
/*Badanie wspolliniowosci zmiennych*/
proc reg data=owce.dysekcja;
model prmoszac=KULMIE LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo
prmLMZ /vif collin;
run;
quit;
/*Analiza regresji - obliczamy predykcje*/
proc reg data=owce.dysekcja;
model prmoszac=kulmie/ p clm cli alpha=0.05;
id kulmie;
output out=regresja p=pred r=reszty lcl=dol ucl=gora lclm=dolsr
uclm=gorasr;
plot r. * p.;
plot prmoszac*kulmie / conf pred;
run;
quit;
ZADANIE EXCEL:
1. Utwórz bazę danych dotyczącą wymiarów ciała, oblicz współczynnik korelacji,
wykonaj wykresy rozrzutu zawierający równanie regresji, R2. Tworząc wykresy,
potraktuj zmienną „stopa” raz jako niezależna, a drugi raz jako zależną! Jakim
wzrostem winna charakteryzować się osoba o stopie długości 24 cm, a jaką stopą
osoba o wzroście 175 cm?
ZADANIE SAS:
I.
Oblicz współczynniki korelacji Spearmana pomiędzy zmiennymi (Apgar,
mleko, jaja, ospa, piers, nizb, nosob) umieszczonymi w skoroszycie EXCELA
dziecko.xls.
II.
Skonstruuj
najlepsze
równanie
regresji
pozwalające
z
dużym
prawdopodobieństwem przewidywać masę urodzeniową dziecka.
III.
Analiza statystyczna będzie wykonana na bazie danych dotyczącej użytkowości
rzeźnej owiec rasy merynos polski, suffolk oraz mieszańcach R2 i R3
pochodzących z krzyżowania wypierającego tych ras:
S:\USM_STAT\BAZY_XLS\dysekcja.sas7bdat.
PRMOSZAC – oszacowana, procentowa zawartość tkanki mięśniowej w półtuszy,
KULMIE – masa tkanki mięśniowej w udźcu,
LATAMIE – masa tkanki mięśniowej w łacie z żebrami i mostkiem,
COMBER – masa combra,
POLEDWI – masa polędwiczki,
TLZEB – grubość warstwy tłuszczu nad żebrami (mm),
POWOKA – powierzchnia oka polędwicy(cm2),
WYDRZZIM – wydajność rzeźna zimna,
PRMUDO – % tkanki mięśniowej w udźcu,
PRMLMZ % tkanki mięśniowej w łacie z żebrami i mostkiem.
Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych”
Autor: Dariusz Piwczyński
4
2006-05-26 09:48
1. Wykonaj analizę regresji, w której za zmienną zależną potraktuj „prmoszac” a za
niezależną: KULMIE, LATAMIE, COMBER, POLEDWI, TLZEB, POWOKA, WYDRZZIM,
PRMUDO, PRMLMZ. Zapisz otrzymane równanie regresji wielokrotnej.
2. Porównaj statystyki dobroci modelu z zależności od liczby i rodzaju uwzględnionych
cech!
3. Przeprowadź dobór zmiennych do modelu metodą krokową (FORWARD)!
4. Zbadaj czy zmienne uwzględnione w modelu z punktu 1 charakteryzuje
współliniowość?
IV. Sprawdź czy na podstawie wymiarów ciała można skonstruować równanie regresji
wielokrotnej opisującej zmienność masy ciała jagniąt w wieku 4 miesięcy. Analizę
wykonaj na danych ze skoroszytu EXCELA – wymiary.xls.
Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych”

Podobne dokumenty