Notacja, cd.:
Transkrypt
Notacja, cd.:
Wykład 10 Analiza wariancji (ANOVA) • Sposób analizy danych, gdy porównujemy więcej niż dwie populacje/zabiegi. • Omówimy ANOV-ę w najprostszej postaci. • Te same podstawowe założenia/ograniczenia, co przy teście Studenta: W każdej populacji badana cecha ma rozkład normalny Obserwacje są niezależne i losowe Testujemy hipotezy o średnich w populacjach: µI • Dodatkowe założenie – standardowe odchylenia badanej cechy w badanych populacjach są sobie równe (podobne) – użyjemy uśrednionego SE Dlaczego nie stosujemy wielu testów Studenta? • Wielokrotne porównania: prawdopodo-bieństwo błędu pierwszego rodzaju (odrzucenia prawdziwej hipotezy zerowej) byłoby trudne do kontrolowania. • Estymacja błędu standardowego: ANOVA wykorzystuje informację zawartą we wszystkich obserwacjach: zwykle daje większą precyzję obliczenia/mniejsze SE niż indywidualne testy Studenta dla par. • ANOVA automatycznie porównuje konfiguracje populacji większe niż pary. • Uwaga: ANOVA może być stosowana także wtedy, gdy próby nie są niezależne, np. w zrandomizowanym układzie blokowym (zasada podobna do testu Studenta dla par). Tutaj jednak omówimy tylko układy zrandomizowane zupełne (=jednoblokowe). • Cel: Testujemy hipotezy postaci: H0: µ1 = µ2 = µ3 = … = µk HA: nie wszystkie średnie są równe Notacja: k = 3 zabiegi (grupy) Zabieg 1 Zabieg 2 Zabieg 3 1 48 40 39 2 39 48 30 3 42 44 32 4 43 średnia 43 44 34 SS 42 32 46 35 • Trzy kategorie: – wewnątrz grup, – pomiędzy grupami, – łącznie. Notacja, cd.: k : # grup (prób, zabiegów), tutaj k = • W każdej - trzy wartości: SS, df, MS. SS wewnątrz pomiędzy łącznie df MS n1, n2, n3, …, nk : rozmiary grup (# obserwacji) n1 = n3 = y1 , y2, … yk = średnie w grupach y1= y3= = całkowita średnia y(wszystkich obserwacji) y= , n2 = ,y2 = , , 440 = 40 11 n* = całkowita liczba obserwacji n* = 1 • Używamy i do indeksowania grup a j do indeksowania obserwacji w każdej grupie, np: yij . • ∑ = ∑ oznacza sumę ``wewnątrz grupy’’: j • Uwzględniające wszystkie grupy * ∑ i=1 ∗ np. ∑y y1 = y1 = 1j n1 k n∗ = ∑ ni ( 48 + 39 + 42 + 43) 4 y nie jest średnią z k średnich! Można ją obliczyć jako • = (n1y1 + n2y2 + …+n3y3) / n* y ; tutaj n* = ∗ ∑∑ y ij y= n y= • UWAGA: Gdy rozmiary prób nie są równe ∑ oznacza sumę po grupach: ∗ (172 + 132 + 136 ) = 40 11 Wewnątrz grup: wypełniamy drugi rząd w tabeli Suma kwadratów wewnątrz grup (SSW): Liczymy SS dla każdej grupy SS1 = ∑ ( y1 j − y1 ) (SS2, SS3 , itd.) 2 SS1 = ..... SS2 = … = 32, SS3 = … = 46 • SSW = SS∗1+SS2+…+SSk ∗ ∑ SS = ∑∑ ( y i ij − yi ) , tutaj SSW =.... 2 • Stopnie swobody wewnątrz grup: dfw = n* - k, tutaj dfw =... • Średnia suma kwadratów wewnątrz grup: MSW = SSW / dfw , tutaj MSW =... MSW to uśredniona wariancja, np.(wykład 6): s 2 c S S1 + S S 2 = n1 + n 2 − 2 • Uśrednione odchylenie standardowe MSW , tutaj sc =... sc = Pomiędzy grupami: wypełniamy pierwszy rząd tabeli • Porównujemy średnie grupowe do całkowitej z wagą daną przez rozmiar grupy. • Suma kwadratów pomiędzy grupami (SSB) ∑n ( y ∗ SSB = i i −y ) 2 Tutaj SSB =.... 2 • Stopnie swobody pomiędzy grupami (dfb) dfb = k – 1, tutaj dfb = ... • Średnia suma kwadratów pomiędzy grupami (MSB) MSB = SSB/dfb, tutaj MSB =... Całkowite: wypełniamy trzeci rząd tabeli • Całkowita suma kwadratów (SST): ∑∑ ( y ∗ SST= ij −y ) 2 SST=82+12+22+…+82+52=348 • Uwaga: SST = SSW+SSB, tu 348 = 120 + 228 Zwykle nie trzeba liczyć SST z definicji! Tablica ANOV-y (ponownie) SS • Całkowita liczba stopni swobody (dft) dft = n* – 1 , tutaj dft = df MS Between • Uwaga: dft = dfb+dfw , tutaj 10 = 2 + 8 Within puste Total Ta tabela będzie dostępna na kolokwium i egzaminie: SS df MS SSB= dfb = k – 1 SSB/dfb dfw = n* – k SSW/dfw Test F (Fishera) • Założenia (jak w ANOV-ie): Pomiędzy ∑n (y ∗ i Wewnątrz −y i ) SSW= ∗ ∗ ∑ SS = ∑∑ ( y i Całkowite 2 ij − yi ) SST= 2 • Dane dla k ≥ 2 populacji/zabiegów są niezależne • Dane w każdej populacji mają rozkład normalny ze średnią µi (dla populacji I), oraz z tym samym odchyleniem standardowym σ dft = n* – 1 ∑∑ ( y ∗ ij −y ) 2 3 • Testujemy H0: µ1 = µ2 = µ3 = … = µk (wszystkie średnie są sobie równe) przeciwko HA: nie wszystkie średnie są sobie równe • HA jest niekierunkowa, ale obszar odrzuceń będzie jednostronny (duże dodatnie wartości statystyki) • Kroki: Obliczenie tabeli ANOV-y Testowanie Jak opisać F test Zdefinować wszystkie µ H0 podać za pomocą wzoru i słownie HA tylko słownie Statystyka testowa Fs = MSB/MSW Przy H0, Fs ma rozkład F Snedecora ze stopniami swobody (dfb, dfw) • Na slajdach podane są wartości krytyczne z książki D.S. Moore i G. P. McCabe „Introduction to the Practice of Statistics” • „numerator df” = dfb, „denominator df” = dfw. • • • • • 4 • Odrzucamy H0 , gdy zaobserwowane Fs > Fkrytyczne • Przykładowy wniosek: „Na poziomie istotności α (nie) mamy przesłanki, aby twierdzić, że grupy różnią się poziomem badanej cechy.” • H0: µ1 = µ2 = µ3 ; średni poziom serotoniny nie zależy od dawki Paxilu • HA: średni poziom serotoniny nie jest ten sam we wszystkich grupach (albo średni poziom serotoniny zależy od dawki Paxilu). • Zastosujemy F-Test • Fs = MSB / MSW przy H0 ma rozkład... • • • • Testujemy na poziomie α = 0.05. Wartość krytyczna F.05 = ... . Obserwujemy Fs =... Wniosek:... • Przykład: Losową próbę 15 zdrowych mężczyzn podzielono losowo na 3 grupy składające się z 5 mężczyzn. Przez tydzień otrzymywali oni lekarstwo Paxil w dawkach 0, 20 i 40 mg dziennie. Po tym czasie zmierzono im poziom serotoniny. • Czy Paxil wpływa na poziom serotoniny u zdrowych, młodych mężczyzn ? Niech µ1 będzie średnim poziomem serotoniny u mężczyzn przyjmujących 0 mg Paxilu. Niech µ2 będzie średnim poziomem serotoniny u mężczyzn przyjmujących 20 mg Paxilu. Niech µ3 będzie średnim poziomem serotoniny u mężczyzn przyjmujących 40 mg Paxilu. Dawka 0mg 20mg 40mg 48,62 49,85 58,60 72,52 68,59 78,28 n srednia 64,22 62,81 62,51 5 57,60 66,72 80,12 68,44 5 69,28 82,77 76,53 72,33 suma 5 75,70 SS(w) SS(b) 235,87 492,64 249,31 15,36 Tablica ANOV-y Between Within Total SS df 119,29 334,03 15 67,53 604,47 842,02 MS Na jakiej zasadzie to działa ? Dla przypomnienia: • Statystyka testu Studenta ma w liczniku różnicę między średnimi (y1-y2) • Tę dzielimy przez miarę rozrzutu tej różnicy (SEy1-y2 ) • Jeżeli (y1-y2) jest duże w porównaniu do błędu standardowego, to statystyka testu Studenta jest duża i odrzucamy H0. 5 Dla testu F: • W liczniku mamy „uśredniony kwadrat różnicy między średnimi” (MSB) • W mianowniku mamy oszacowanie zróżnicowania w obserwacji (MSW) • Jeżeli MSB jest duże w porównaniu do MSW, to statystyka testu F jest duża i odrzucamy H0. • Test F jest analogiczny do testu Studenta. Umożliwia jednoczesne porównanie dowolnej liczby średnich. • Test F można stosować również, gdy mamy tylko dwie próby. Wtedy: Statystyka testu F dla dwóch prób jest równa kwadratowi statystyki Studenta (przy (U)SE). Decyzje i p-wartości są dokładnie takie same dla obu testów. 6