Wykład 4 - Netstrefa.pl
Transkrypt
Wykład 4 - Netstrefa.pl
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4 Inne układy doświadczalne 1) Układ losowanych bloków Stosujemy, gdy podejrzewamy, że może występować systematyczna zmienność między powtórzeniami np. - zmienność glebowa w przypadku doświadczeń polowych, - zmienność spowodowana wykonywaniem pomiarów lub analiz przez więcej niż jedną osobę lub więcej niż jedno urządzenie - zmienność między danymi pochodzącymi z dwóch lub więcej regionów itp. Przykładowe schematy doświadczenia jednoczynnikowego z czterema poziomami czynnika (4 obiekty: A1, A2, A3, A4) oraz trzema powtórzeniami Układ całkowicie losowy Układ losowanych bloków A1 A2 A1 A1 A2 A3 A2 A3 A4 A3 A4 A2 A3 A1 A3 A4 A1 A4 A4 A2 A4 A2 A3 A1 Obiekty rozlosowane na obszarze całego doświadczenia w sposób losowy blok 1 blok 2 blok 3 Kierunek zmienności glebowej Obiekty rozlosowane w obrębie bloków – w jednym bloku tylko raz występuje każdy obiekt Inne układy doświadczalne (ciąg dalszy) 2) Układ pasów prostopadłych (ang. split-block) Stosujemy w doświadczeniach polowych, zazwyczaj 2czynnikowych, gdzie ze względów organizacyjnych, technicznych zastosowanie poziomu czynnika jest łatwiejsze na większej powierzchni np. w pasie o znacznej długości B1 B2 B3 A1 B1 B2 B3 A2 B1 B2 B3 A3 B1 B2 B3 A4 B1 B2 B3 Przykładowy schemat doświadczenia 2-czynnikowego (czynniki A – 4 poziomy, czynnik B – 3 poziomy) w układzie pasów prostopadłych dla jednego powtórzenia. Liczba powtórzeń powinna wynosić co najmniej 2. Inne układy doświadczalne (ciąg dalszy) 3) Układ split-plot (rozszczepionych poletek) Podobnie jak układ pasów prostopadłych stosujemy w doświadczeniach polowych, zazwyczaj 2-czynnikowych lub 3czynnikowych, gdzie ze względów organizacyjnych, technicznych zastosowanie poziomu czynnika jest łatwiejsze na większej powierzchni np. w pasie o znacznej długości A1 B1 B3 B2 A2 B2 B1 B3 A3 B3 B2 B1 A4 B1 B2 B3 Przykładowy schemat doświadczenia 2-czynnikowego (czynniki A – 4 poziomy, czynnik B – 3 poziomy) w układzie split-plot dla jednego powtórzenia. Liczba powtórzeń powinna wynosić co najmniej 2. Układ całkowicie losowy oraz układ losowanych bloków są to tzw. układy niezależne, natomiast układ split-block oraz split-plot są to tzw. układy zależne. Wykonując analizę wariancji w układach zależnych powinniśmy wydzielić zmienność w obrębie bloków oraz między blokami lub podblokami. Metody sprawdzania założeń w analizie wariancji: -Sprawdzanie równości (jednorodności) wariancji testy: - Cochrana - Hartleya - Bartletta -Sprawdzanie zgodności rozkładu z rozkładem normalnym testy: - Chi-kwadrat - Shapiro-Wilksa - Kołmogorowa-Smirnova Metody sprawdzania założeń w analizie wariancji (c.d.): Niezależność obserwacji: obserwacje powinny być wzajemnie nieskorelowane, czyli nie powinna występować autokorelacja -Sprawdzanie niezależności obserwacji Test Durbina-Watsona (obserwacje powinny być ułożone w właściwym porządku, np. jeśli obserwacje pozyskiwane były przez pewien czas, wskazane jest ich ułożenie w kolejności takiej, w jakiej były pozyskiwane) Metody sprawdzania założeń w analizie wariancji (c.d.): -Analiza graficzna reszt 2,5 0,4 2,0 0,3 1,5 0,2 1,0 Oczekiwana normalna Oczekiwana normalna 0,5 0,1 0,0 -0,1 -0,2 0,5 0,0 -0,5 -1,0 -0,3 -1,5 -0,4 -2,0 -0,5 -0,5 -0,4 -0,3 -0,2 -0,1 0,0 0,1 Wartość obserwowana 0,2 0,3 0,4 0,5 Ogół grup Wykr.norm.: Wartości Efekt: Kody (Wykres reszt w obrębie podklasy) Ogół grup Wykr.odch. od norm.: Wartości Efekt: Kody (Wykres reszt w obrębie podklasy) -2,5 -0,5 -0,4 -0,3 -0,2 -0,1 0,0 0,1 Wartość obserwowana 0,2 0,3 0,4 0,5 Co robić, gdy założenia nie są spełnione? -Zastosowanie testów nieparametrycznych Test U Manna-Whitneya – tylko do porównania dwóch populacji Test Kruskala-Wallisa – jednoczynnikowa ANOVA nieparametryczna Test Friedmana – jednoczynnikowa ANOVA nieparametryczna dla powtarzanych pomiarów -Zastosowanie uogólnionych modeli liniowych (GLM) Transformacja danych: -Przekształcenie danych mających rozkład inny niż normalny do rozkładu normalnego Często stosowane przekształcenia (transformacje): - Arc sin x -Transformacja Boxa-Coxa xλ − 1 λ - logarytmowanie, potęgowanie, pierwiastkowanie itp. -Zastosowanie transformacji Arc sin x (tzw. transformacja Blissa) Stosujemy zazwyczaj dla danych mających rozkład dwumianowy wyrażonych w procentach, przyjmujących najczęściej wartości w przedziale (0-20% lub 80-100%) Transformacja Boxa-Coxa xλ − 1 λ Jest to często stosowana transformacja, w przypadku rozkładów asymetrycznych (lewostronnie lub prawostronnie skośnych lub też „uciętych” rozkładów normalnych) Logarytmowanie Stosujemy zazwyczaj w przypadku, gdy wraz ze wzrostem wartości średniej zwiększa się wariancja (a tym samym odchylenie standardowe), czyli występuje korelacja między średnią a wariancją. Stosowanie transformacji log(x) może nie być możliwe, np. w takim przypadku jeśli zmienna przyjmuje wartość 0, wtedy można zastosować transformację log(x+1) Pierwiastkowanie Stosujemy w przypadku rozkładów zbliżonych do rozkładu Poissona, tzn. w rozkładach prawostronnie skośnych, w których wartość średnia jest zbliżona do wariancji. Podobnie jak w przypadku transformacji log(x) może występować problem, jeśli zmienna przyjmuje wartość 0 (lub wartości ujemne). Można zastosować wtedy transformację x + a gdzie a jest określoną wartością np. a=0,5 Przykład zastosowania transformacji log10X Histogram: liczba bakterii Oczekiwana normalna 11 10 liczba bakterii log10(liczba bakterii) 2500 3,40 3100 3,49 6300 3,80 150 2,18 3 8000 3,90 2 4500 3,65 5900 3,77 2300 3,36 7200 3,86 800 2,90 1500 3,18 2900 3,46 15000 4,18 10500 4,02 8900 3,95 3 600 2,78 2 1500 3,18 1 35000 4,54 0 9 8 7 Liczba obs. Dane „surowe” 6 5 4 1 0 0 5000 10000 15000 20000 25000 30000 35000 X <= Granica klasy Histogram: log10(liczba bakterii) Oczekiwana normalna 8 7 6 5 Liczba obs. Dane transformowane 4 2,0 2,5 3,0 3,5 X <= Granica klasy 4,0 4,5 5,0 Problemy związane z transformacją 1) Brak możliwości transformowania niektórych rozkładów do rozkładu normalnego, np. nie da się przekształcić zmiennej skokowej do zmiennej ciągłej, tak więc w przypadku jeśli zmienna jest zmienną skokową (dyskretną), która przyjmuje niewielką liczbę wartości (np. 1, 2, 3, 4 i 5) to niemożliwe jest zastosowanie transformacji, tak aby rozkład tej zmiennej był rozkładem normalnym 2) Trudności w interpretacji wyników. Ze względu na to, że po transformacji wartości parametrów (np. wartość średnia) ulegają zmianie, to nie można wnioskować np.. O procentowej różnicy między średnimi na podstawie parametrów obliczonych na zmiennej transformowanej. Jeśli pomimo stosowania różnych transformacji założenia analizy wariancji nadal nie są spełnione, to można zamiast ANOVY zastosować testy nieparametryczne. Jedną z wad testów nieparametrycznych jest mniejsza ich moc, tzn. odrzucenie hipotezy zerowej jest zazwyczaj trudniejsze, tak więc powinniśmy je stosować tylko wtedy, gdy testy parametryczne (np.. ANOVA) nie mogą być stosowane test Kruskala-Wallisa - porównanie wielu populacji o dowolnych rozkładach Statystyką testową jest wartość K (oznaczana również jako H) Wartość K jest tym większa im jest większa różnica między rangami dla badanych grup Podobnie jak w przypadku testu U Manna-Whitneya rangi poszczególnym wartościom obserwacji są nadawane po uporządkowaniu w kolejności rosnącej wartości z wszystkich badanych prób. Jeśli odrzucimy hipotezę zerową w teście Kruskalla-Wallisa (czyli jeśli p dla testu będzie mniejsze od wartości α) to stwierdzamy, że co najmniej dwie populacje różnią się pod względem rozkładów badanej cechy. Zazwyczaj interesuje nas które populacje różnią się istotnie statystycznie. Aby odpowiedzieć na to pytanie wykonujemy porównania wielokrotne wszystkich możliwych par badanych populacji. Procedura porównań wielokrotnych w teście Kruskalla-Wallisa Obliczamy wartości średnie rang dla badanej populacji wg wzoru: Ri = Ri ni gdzie Ri jest sumą rang dla danej grupy (populacji), a ni jest liczebnością obserwacji w tej grupie Wartość krytyczną, która jest odpowiednikiem NIR obliczamy wg wzoru: Gdzie χ2 jest wartością krytyczną dla testu chi-kwadrat, k- liczba porównywanych grup, n- całkowita liczebność obserwacji, ni, nj – liczebność porównywanych grup Jeżeli wartość bezwzględna różnicy rang D = Ri − R j Jest większa od D* to stwierdzamy, że porównywane grupy różnią się istotnie statystycznie między sobą test Friedmana - porównanie wielu populacji zależnych (np. powtarzanych pomiarów na tych samych obiektach: roślinach wieloletnich, ludziach itp.) o dowolnych rozkładach Test ten może być alternatywą dla jednoczynnikowej analizy wariancji w układzie losowanych bloków, przy niespełnieniu założeń. Przykład zastosowania: Porównanie stopnia porażenia przez choroby kilku odmian jabłoni (stopień porażenia wyrażony w skali kilkustopniowej np. od 1-5). Porażenie oceniamy w kilku terminach na tych samych drzewach, które traktujemy jako powtarzane pomiary (bloki).