Wykład 4 - Netstrefa.pl

Transkrypt

STATYSTYKA I DOŚWIADCZALNICTWO
Wykład 4
Inne układy doświadczalne
1) Układ losowanych bloków
Stosujemy, gdy podejrzewamy, że może występować
systematyczna zmienność między powtórzeniami np.
- zmienność glebowa w przypadku doświadczeń polowych,
- zmienność spowodowana wykonywaniem pomiarów lub analiz
przez więcej niż jedną osobę lub więcej niż jedno urządzenie
- zmienność między danymi pochodzącymi z dwóch lub więcej
regionów itp.
Przykładowe schematy doświadczenia jednoczynnikowego z czterema poziomami
czynnika (4 obiekty: A1, A2, A3, A4) oraz trzema powtórzeniami
Układ całkowicie losowy
Układ losowanych bloków
A1
A2
A1
A1
A2
A3
A2
A3
A4
A3
A4
A2
A3
A1
A3
A4
A1
A4
A4
A2
A4
A2
A3
A1
Obiekty rozlosowane na obszarze
całego doświadczenia w sposób
losowy
blok 1
blok 2
blok 3
Kierunek zmienności glebowej
Obiekty rozlosowane w obrębie bloków – w
jednym bloku tylko raz występuje każdy obiekt
Inne układy doświadczalne (ciąg dalszy)
2) Układ pasów prostopadłych (ang. split-block)
Stosujemy w doświadczeniach polowych, zazwyczaj 2czynnikowych, gdzie ze względów organizacyjnych, technicznych
zastosowanie poziomu czynnika jest łatwiejsze na większej
powierzchni np. w pasie o znacznej długości
B1
B2
B3
A1
B1
B2
B3
A2
B1
B2
B3
A3
B1
B2
B3
A4
B1
B2
B3
Przykładowy schemat
doświadczenia 2-czynnikowego
(czynniki A – 4 poziomy, czynnik B
– 3 poziomy) w układzie pasów
prostopadłych dla jednego
powtórzenia. Liczba powtórzeń
powinna wynosić co najmniej 2.
Inne układy doświadczalne (ciąg dalszy)
3) Układ split-plot (rozszczepionych poletek)
Podobnie jak układ pasów prostopadłych stosujemy w
doświadczeniach polowych, zazwyczaj 2-czynnikowych lub 3czynnikowych, gdzie ze względów organizacyjnych, technicznych
zastosowanie poziomu czynnika jest łatwiejsze na większej
powierzchni np. w pasie o znacznej długości
A1
B1
B3
B2
A2
B2
B1
B3
A3
B3
B2
B1
A4
B1
B2
B3
Przykładowy schemat
doświadczenia 2-czynnikowego
(czynniki A – 4 poziomy, czynnik B
– 3 poziomy) w układzie split-plot
dla jednego powtórzenia. Liczba
powtórzeń powinna wynosić co
najmniej 2.
Układ całkowicie losowy oraz układ losowanych bloków są to tzw.
układy niezależne, natomiast układ split-block oraz split-plot są to
tzw. układy zależne. Wykonując analizę wariancji w układach
zależnych powinniśmy wydzielić zmienność w obrębie bloków oraz
między blokami lub podblokami.
Metody sprawdzania założeń w analizie wariancji:
-Sprawdzanie równości (jednorodności) wariancji
testy:
- Cochrana
- Hartleya
- Bartletta
-Sprawdzanie zgodności rozkładu z rozkładem normalnym
testy:
- Chi-kwadrat
- Shapiro-Wilksa
- Kołmogorowa-Smirnova
Metody sprawdzania założeń w analizie wariancji (c.d.):
Niezależność obserwacji: obserwacje powinny być wzajemnie
nieskorelowane, czyli nie powinna występować autokorelacja
-Sprawdzanie niezależności obserwacji
Test Durbina-Watsona (obserwacje powinny być ułożone w właściwym
porządku, np. jeśli obserwacje pozyskiwane były przez pewien czas,
wskazane jest ich ułożenie w kolejności takiej, w jakiej były pozyskiwane)
Metody sprawdzania założeń w analizie wariancji (c.d.):
-Analiza graficzna reszt
2,5
0,4
2,0
0,3
1,5
0,2
1,0
Oczekiwana normalna
Oczekiwana normalna
0,5
0,1
0,0
-0,1
-0,2
0,5
0,0
-0,5
-1,0
-0,3
-1,5
-0,4
-2,0
-0,5
-0,5
-0,4
-0,3
-0,2
-0,1
0,0
0,1
Wartość obserwowana
0,2
0,3
0,4
0,5
Ogół grup
Wykr.norm.: Wartości
Efekt: Kody
(Wykres reszt w obrębie podklasy)
Ogół grup
Wykr.odch. od norm.: Wartości
Efekt: Kody
(Wykres reszt w obrębie podklasy)
-2,5
-0,5
-0,4
-0,3
-0,2
-0,1
0,0
0,1
Wartość obserwowana
0,2
0,3
0,4
0,5
Co robić, gdy założenia nie są spełnione?
-Zastosowanie testów nieparametrycznych
Test U Manna-Whitneya – tylko do porównania dwóch populacji
Test Kruskala-Wallisa – jednoczynnikowa ANOVA nieparametryczna
Test Friedmana – jednoczynnikowa ANOVA nieparametryczna dla
powtarzanych pomiarów
-Zastosowanie uogólnionych modeli liniowych (GLM)
Transformacja danych:
-Przekształcenie danych mających rozkład inny niż normalny do rozkładu
normalnego
Często stosowane przekształcenia (transformacje):
- Arc sin x
-Transformacja Boxa-Coxa
xλ − 1
λ
- logarytmowanie, potęgowanie, pierwiastkowanie itp.
-Zastosowanie transformacji
Arc sin
x
(tzw. transformacja Blissa)
Stosujemy zazwyczaj dla danych mających rozkład dwumianowy wyrażonych w
procentach, przyjmujących najczęściej wartości w przedziale (0-20% lub 80-100%)
Transformacja Boxa-Coxa
xλ − 1
λ
Jest to często stosowana transformacja, w przypadku rozkładów asymetrycznych
(lewostronnie lub prawostronnie skośnych lub też „uciętych” rozkładów normalnych)
Logarytmowanie
Stosujemy zazwyczaj w przypadku, gdy wraz ze wzrostem wartości średniej zwiększa
się wariancja (a tym samym odchylenie standardowe), czyli występuje korelacja między
średnią a wariancją.
Stosowanie transformacji log(x) może nie być możliwe, np. w takim przypadku jeśli
zmienna przyjmuje wartość 0, wtedy można zastosować transformację log(x+1)
Pierwiastkowanie
Stosujemy w przypadku rozkładów zbliżonych do rozkładu Poissona, tzn. w rozkładach
prawostronnie skośnych, w których wartość średnia jest zbliżona do wariancji.
Podobnie jak w przypadku transformacji log(x) może występować problem, jeśli
zmienna przyjmuje wartość 0 (lub wartości ujemne). Można zastosować wtedy
transformację x + a
gdzie a jest określoną wartością np. a=0,5
Przykład zastosowania transformacji log10X
Histogram: liczba bakterii
Oczekiwana normalna
11
10
liczba
bakterii
log10(liczba
bakterii)
2500
3,40
3100
3,49
6300
3,80
150
2,18
3
8000
3,90
2
4500
3,65
5900
3,77
2300
3,36
7200
3,86
800
2,90
1500
3,18
2900
3,46
15000
4,18
10500
4,02
8900
3,95
3
600
2,78
2
1500
3,18
1
35000
4,54
0
9
8
7
Liczba obs.
Dane „surowe”
6
5
4
1
0
0
5000
10000
15000
20000
25000
30000
35000
X <= Granica klasy
Histogram: log10(liczba bakterii)
Oczekiwana normalna
8
7
6
5
Liczba obs.
Dane
transformowane
4
2,0
2,5
3,0
3,5
X <= Granica klasy
4,0
4,5
5,0
Problemy związane z transformacją
1)
Brak możliwości transformowania niektórych rozkładów do rozkładu
normalnego, np. nie da się przekształcić zmiennej skokowej do
zmiennej ciągłej, tak więc w przypadku jeśli zmienna jest zmienną
skokową (dyskretną), która przyjmuje niewielką liczbę wartości (np.
1, 2, 3, 4 i 5) to niemożliwe jest zastosowanie transformacji, tak aby
rozkład tej zmiennej był rozkładem normalnym
2)
Trudności w interpretacji wyników. Ze względu na to, że po
transformacji wartości parametrów (np. wartość średnia) ulegają
zmianie, to nie można wnioskować np.. O procentowej różnicy
między średnimi na podstawie parametrów obliczonych na zmiennej
transformowanej.
Jeśli pomimo stosowania różnych transformacji założenia analizy wariancji
nadal nie są spełnione, to można zamiast ANOVY zastosować testy
nieparametryczne.
Jedną z wad testów nieparametrycznych jest mniejsza ich moc, tzn.
odrzucenie hipotezy zerowej jest zazwyczaj trudniejsze, tak więc powinniśmy
je stosować tylko wtedy, gdy testy parametryczne (np.. ANOVA) nie mogą
być stosowane
test Kruskala-Wallisa - porównanie wielu populacji o dowolnych
rozkładach
Statystyką testową jest wartość K (oznaczana również jako H)
Wartość K jest tym większa im jest większa różnica między rangami dla
badanych grup
Podobnie jak w przypadku testu U Manna-Whitneya rangi poszczególnym
wartościom obserwacji są nadawane po uporządkowaniu w kolejności rosnącej
wartości z wszystkich badanych prób.
Jeśli odrzucimy hipotezę zerową w teście Kruskalla-Wallisa (czyli jeśli p dla
testu będzie mniejsze od wartości α) to stwierdzamy, że co najmniej dwie
populacje różnią się pod względem rozkładów badanej cechy.
Zazwyczaj interesuje nas które populacje różnią się istotnie statystycznie.
Aby odpowiedzieć na to pytanie wykonujemy porównania wielokrotne
wszystkich możliwych par badanych populacji.
Procedura porównań wielokrotnych w teście Kruskalla-Wallisa
Obliczamy wartości średnie rang dla badanej populacji wg wzoru:
Ri =
Ri
ni
gdzie Ri jest sumą rang dla danej grupy (populacji), a ni jest liczebnością
obserwacji w tej grupie
Wartość krytyczną, która jest odpowiednikiem NIR obliczamy wg wzoru:
Gdzie χ2 jest wartością krytyczną dla testu chi-kwadrat, k- liczba porównywanych
grup, n- całkowita liczebność obserwacji, ni, nj – liczebność porównywanych grup
Jeżeli wartość bezwzględna różnicy rang
D = Ri − R j
Jest większa od D* to stwierdzamy, że porównywane grupy różnią się istotnie
statystycznie między sobą
test Friedmana - porównanie wielu populacji zależnych (np. powtarzanych
pomiarów na tych samych obiektach: roślinach wieloletnich, ludziach itp.) o
dowolnych rozkładach
Test ten może być alternatywą dla jednoczynnikowej analizy wariancji w układzie
losowanych bloków, przy niespełnieniu założeń.
Przykład zastosowania: Porównanie stopnia porażenia przez choroby kilku odmian
jabłoni (stopień porażenia wyrażony w skali kilkustopniowej np. od 1-5).
Porażenie oceniamy w kilku terminach na tych samych drzewach, które traktujemy
jako powtarzane pomiary (bloki).

Wykład 4 - Netstrefa.pl

Transkrypt

Podobne dokumenty

Wykład 6 - Netstrefa.pl

Test t-Studenta dla grup niezależnych – uzupełnienie :)

POSTĘP TECHNICZNY W OKRESIE TRANSFORMACJI

W tym momencie brak oferty specjalnej na płyty . Zapraszamy do

Modele liniowe i mieszane na przykładzie analizy danych

Przemówienie Irene Hahn-Fuhr - Fundacja im. Heinricha Bölla

Niepewność pomiarów – podejście statystyczne

Szybka Kolej Miejska Sp. z o.o. studentów kierunków logistyka

anova - Wydział Leśny SGGW