Statystyczna analiza danych w programie STATISTICA 7.1 PL

Transkrypt

Statystyczna analiza danych w programie STATISTICA 7.1 PL
Statystyczna analiza danych w programie STATISTICA 7.1 PL
(wykład 3)
Dariusz Gozdowski
Katedra Doświadczalnictwa i Bioinformatyki
Wydział Rolnictwa i Biologii SGGW
Dwuczynnikowa analiza wariancji (2-way ANOVA)
Układ całkowicie losowy
W dwuczynnikowej analizie wariancji postępowanie jest zbliżone do
jednoczynnikowej analizy wariancji, jednak oceniamy jednocześnie
wpływ dwóch czynników doświadczalnych.
Jedną z ważnych różnic w dwuczynnikowej analizy wariancji w
stosunku do jednoczynnikowej analizy wariancji jest ocena
współdziałania dwóch czynników. Jeśli występuję współdziałanie
oznacza to, że jeden czynnik modyfikuje wpływ drugiego na badaną
zmienną.
Przykłady zastosowań 2-czynnikowej analizy wariancji:
-Porównanie skuteczności pięciu różnych leków obniżających ciśnienie
krwi w trzech różnych grupach wiekowych (zmienna zależna: ciśnienie
tętnicze krwi, czynnik A: rodzaj leku, czynnik B: grupa wiekowa np.
dzieci, młodzież, osoby dorosłe)
- Porównanie plonowania trzech odmian pszenicy przy dwóch różnych
dawkach nawożenia (zmienna zależna: plon pszenicy, czynnik A:
odmiana, czynnik B: dawka nawożenia)
- Porównanie dwóch różnych środków konserwujących i różnych
temperatur przechowywania na trwałość wędliny (zmienna zależna:
czas przydatności do spożycia, czynnik A: rodzaj środka
konserwującego, czynnik B: temperatura przechowywania)
Hipotezy zerowe:
H01: średnie dla poziomów pierwszego czynnika (A) nie różnią się istotnie
H02: średnie dla poziomów drugiego czynnika (B) nie różnią się istotnie
H03: nie występuje istotne współdziałanie czynników (A i B)
każda hipoteza zerowa ma odpowiadającą jej hipotezę alternatywną
Hipotezy alternatywne:
H11: co najmniej 2 średnie dla poziomów pierwszego czynnika (A) różnią się istotnie
H12: co najmniej 2 średnie dla poziomów drugiego czynnika (B) różnią się istotnie
H13: występuje istotne współdziałanie czynników (A i B)
Przykład współdziałania dwóch czynników
Jeśli odrzucimy co najmniej jedną hipotezę zerową, a więc przyjmiemy co najmniej
jedną hipotezę alternatywną to kontynuujemy analizę wykonując porównania
wielokrotne średnich.
Porównania wielokrotne, mają na celu porównanie:
- Średnich dla poziomów czynnika A (łącznie dla wszystkich poziomów czynnika B)
- Średnich dla poziomów czynnika B (łącznie dla wszystkich poziomów czynnika A)
- Średnich dla poziomów czynnika A (przy danym poziomie czynnika B)
- Średnich dla poziomów czynnika B (przy danym poziomie czynnika A)
- Średnich dla kombinacji czynników A i B
Porównania wielokrotne są wykonywane przy użyciu
tych samych procedur jak w przypadku
jednoczynnikowej analizy wariancji.
Test Kruskala-Wallisa – jednoczynnikowa ANOVA nieparametryczna
Stosujemy jako alternatywę dla jednoczynnikowej analizy wariancji, przy
niespełnieniu założeń o normalności rozkładu
Zakłada się jednak, że rozkłady zmiennych są podobnego kształtu (patrz
histogramy poniżej koloru zielonego) tj. nie powinno się stosować tej metody
gdy rozkład zmiennej zależnej w jednej populacji jest np. prawostronnie
asymetryczny a w drugiej populacji lewostronnie asymetryczny (patrz
histogramy poniżej koloru niebieskiego)
10
12
9
10
8
7
8
6
5
6
4
4
3
2
2
1
0
0
1
2
3
4
5
6
7
8
9
10
9
10
8
9
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
8
7
7
6
6
5
5
4
4
3
3
2
2
1
1
0
0
1
2
3
4
5
6
7
8
9
10
Hipoteza zerowa - H0: rozkłady porównywanych populacji są takie same
Analiza korelacji - współczynnik korelacji Pearsona
Cel: ocena współzależności między dwiema zmiennymi ilościowymi
Ocenia jedynie zależność liniową.
cov( X ,Y )
r=
sx ⋅ s y
gdzie, wartość kowariancji (cov) na podstawie próby liczymy wg
następującego wzoru:
1
cov( X ,Y ) =
n−1
n
∑( X
i
− X )( Yi − Y )
i =1
natomiast sx i sy są odchyleniami standardowymi dla zmiennychj X i Y
Współczynnik korelacji liniowej przyjmuje zawsze wartości w zakresie [ -1,1].
Im większa wartość bezwzględna współczynnika, tym większa jest zależność
liniowa między zmiennymi.
rxy = 0 oznacza brak korelacji,
rxy = 1 oznacza silną korelację dodatnią, jeżeli jedna zmienna (X) rośnie to
również rośnie druga zmienna (Y),
rxy = -1 oznacza korelację ujemną (jeżeli zmienna X rośnie, to Y maleje i na
odwrót).
14
12
r =0,007
10
8
6
4
2
0
0
1
2
3
4
5
6
Zależność nieliniowa
7
8
9
Testowanie istotności korelacji
Testowanie jest tylko wtedy uzasadnione, gdy obydwie zmienne mają
rozkład normalny lub zbliżony do normalnego
Hipoteza zerowa: H0:ρ=0
ρ- wartość współczynnika korelacji dla całej populacji
Jeżeli |remp|>rα,2,n-2 to H0 odrzucamy.
rα,2,n-2 – jest wartością krytyczną współczynnika korelacji prostej Pearsona
Podobnie jak w przypadku innych hipotez w programach statystycznych (w tym w
programie Statistica) wnioskowanie o istotności współzależności dwóch
zmiennych odbywa się na podstawie wartości p (p<α oznacza istotna
współzależność)
Należy pamiętać również, że współczynnik korelacji liniowej Pearsona dobrze
opisuje jedynie zależności liniowe. W przypadku, gdy zależność istnieje ale jest
nieliniowa (np. punkty są położone wokół paraboli) wartość współczynnika
korelacji może być bliska 0.
Współczynnik korelacji rang Spearmana (rs) służy do oceny
współzależności między dwiema zmiennymi. W odróżnieniu od współczynnika
korelacji Pearsona można przy pomocy współczynnika korelacji Spearmana
oceniać zależności nieliniowe. Przy testowaniu nie jest wymagana
normalność rozkładu zmiennych, tak więc możliwe jest stosowanie tego
współczynnika korelacji wtedy gdy nie możemy stosować współczynnika
korelacji Persona.
Wartości współczynnika korelacji rang Spearmana są z zakresu [-1, 1] a ich
interpretacja jest podobna jak w przypadku współczynnika korelacji Pearsona,
czyli czym wartość rs jest bliższa 1 tym zależność jest silniejsza, dodatnia,
czym bliższa jest -1 tym zależność silniejsza, ujemna, a jeśli wartość rs jest
bliska 0 to oznacza brak zależności lub bardzo słabą zależność.
r=0,64 rs=1,00
3000
2500
2000
1500
1000
500
0
0
2
4
6
8
10
12