na x - SGGW
Transkrypt
na x - SGGW
Zjazd 7. SGGW, dn. 28.11.10 r. Matematyka i statystyka matematyczna Tematy 1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe Anna Rajfura 1 Zagadnienia • Przykład porównania wielu obiektów w doświadczeniu • Idea analizy porównania wielu obiektów • Terminologia doświadczenia jednoczynnikowego • Metoda analizy statystycznej – analiza wariancji • Procedury porównań szczegółowych Anna Rajfura 2 Przykład Porównywano pięć odmian pszenicy ozimej O1, O2, O3, O4, O5 pod względem plonowania. Uzyskano wyniki o wysokości plonu w kg z poletka. Komentarz o powtórzeniach Anna Rajfura 3 Wyniki wysokości plonowania W tabeli zestawiono uzyskane wysokości plonowania (w kg z poletka): Odmiana Plony poletko 1 poletko 2 poletko 3 poletko 4 O1 1,47 1,41 1,40 1,43 O2 1,10 1,15 1,30 1,17 O3 1,41 1,32 1,28 1,33 O4 1,19 1,25 1,26 1,21 O5 1,20 1,35 1,25 1,28 Anna Rajfura 4 Idea porównania pięciu obiektów Cecha X – plonowanie pszenicy cecha X 1 – plonowanie pszenicy odmiany O1, cecha X 2 – plonowanie pszenicy odmiany O2, itd. Anna Rajfura 5 Idea porównania pięciu obiektów cd. Cecha X i – plonowanie pszenicy odmiany Oi, i = 1, 2, ..., 5 Modelem dla kaŜdej cechy jest zmienna losowa o rozkładzie normalnym. ZałoŜenia: 2 • X i ~ N (µ i , σ ), i = 1, 2, ..., 5 • X 1 , X 2 , ..., X 5 – niezaleŜne zmienne losowe Anna Rajfura 6 Idea porównania pięciu obiektów cd. Jak zinterpretować wysokość plonowania odmian przy połoŜeniu krzywych Gaussa w tym przypadku? X1 X2 X3 µ1 Anna Rajfura µ2 µ3 X5 X4 µ5 µ4 wartości cechy 7 Idea porównania pięciu obiektów cd. Jak zinterpretować wysokość plonowania odmian przy połoŜeniu krzywych Gaussa w tym przypadku? X1=X2 µ1= µ2 Anna Rajfura X3=X4=X5 µ3= µ4= µ5 wartości cechy 8 Zapis hipotezy zerowej Pytanie Czy badane odmiany plonują na podobnym poziomie? µ1 = µ2 = µ3= µ4 = µ5 ? Hipoteza zerowa H0: µ1 = µ2 = µ3 = µ4 = µ5 Anna Rajfura 9 Interpretacja hipotezy zerowej Hipoteza zerowa H0: µ1 = µ2 = µ3 = µ4 = µ5 Hipoteza o braku zróŜnicowania między pięcioma badanymi odmianami pod względem plonowania. Dygresja Anna Rajfura 10 Terminologia i oznaczenia W doświadczeniach czynnikowych: • Problem badany w doświadczeniu – porównanie plonowania odmian pszenicy ozimej O1, O2, ..., O5 – badanie wpływu odmiany na wysokość plonu Anna Rajfura 11 Terminologia i oznaczenia cd. • Cecha mierzona w doświadczeniu X – wielkość plonu z poletka • Badany czynnik A – odmiana Problem badany w doświadczeniu – wpływ czynnika A na wartość cechy X. Anna Rajfura 12 Uwagi 1. Czy na wysokość plonowania wpływa odmiana? czynnik A 2. Czy na wysokość plonowania wpływa odmiana oraz nawoŜenie? czynnik A czynnik B 3. Czy na wysokość plonowania wpływa odmiana, nawoŜenie oraz termin siewu? czynnik A Anna Rajfura czynnik B czynnik C 13 Uwagi cd. Ogólniej MoŜna badać wpływ jednego czynnika (A), dwóch (A, B), trzech (A, B, C) lub większej liczby czynników na wartość mierzonej cechy. Anna Rajfura 14 Terminologia cd. Czynnik – odmiana Obiekty (poziomy czynnika A) – poszczególne odmiany O1, O2, ... ; w tym doświadczeniu porównujemy 5 odmian, czyli 5 obiektów (5 poziomów czynnika A); a – liczba poziomów czynnika A, a = 5. Anna Rajfura 15 Terminologia cd. Powtórzenia – kaŜda z odmian występuje na czterech poletkach, czyli w czterech powtórzeniach; liczba powtórzeń n = 4. Anna Rajfura 16 Terminologia cd. Jednostki doświadczalne – poletka; liczba jednostek doświadczalnych N = 20; N = a·n, gdy liczba powtórzeń jest jednakowa dla kaŜdego poziomu czynnika A; N = n 1 + n 2 + ... + n a , gdy liczby powtórzeń nie są jednakowe dla poziomów czynnika A). Anna Rajfura 17 Terminologia cd. Układ doświadczalny (plan doświadczenia) – opisuje sposób rozmieszczenia jednostek doświadczalnych na powierzchni doświadczalnej. Układ całkowicie losowy - losowe przyporządkowanie obiektów do jednostek doświadczalnych. Anna Rajfura 18 Przykład cd. W celu porównania średnich wartości cechy X dla pięciu obiektów, załoŜono doświadczenie w układzie całkowicie losowym w czterech powtórzeniach. Obiekty (poziomy czynnika A) O1 O2 O3 O4 O5 Anna Rajfura Wartości cechy X powt 1 powt 2 powt 3 powt4 1,47 1,10 1,41 1,19 1,20 1,41 1,15 1,32 1,25 1,35 1,40 1,30 1,28 1,26 1,25 1,43 1,17 1,33 1,21 1,28 19 Terminologia cd. Jednokierunkowa klasyfikacja danych – wyniki pomiaru cechy uzyskane w doświadczeniu przedstawione w tabeli. Jednokierunkowa – bo doświadczenie jest jednoczynnikowe. Anna Rajfura 20 Jednokierunkowa klasyfikacja danych Poziomy czynnika A Nr powtórzenia A1 1 x11 2 x12 ... ... n x1 n A2 x21 x22 ... x2 n 2 ... M Aa xij 1 xa1 xa 2 ... xa na – wartość cechy X dla i–tego obiektu w j-tym powtórzeniu (plon dla i–tej odmiany na j-tym poletku); i=1, 2, ..., a; j=1, 2, ..., n. Anna Rajfura 21 Przykład cd. Pytania 1. Czy wszystkie badane odmiany plonują na podobnym poziomie? 2. Jeśli nie wszystkie, to które odmiany plonują podobnie? Anna Rajfura 22 Sformułowanie problemu i analiza Cecha X badana w a populacjach: X 1 , X 2 , ..., X a a > 2 ZałoŜenia X i ~ N (µ i , σ 2 ), i = 1, 2, ..., a X 1 , X 2 , ..., X a – cechy (zmienne losowe) niezaleŜne Anna Rajfura 23 Sformułowanie problemu i analiza cd. Hipoteza H0: µ 1 = µ 2 = ... = µ a poziom istotności α (w przykładzie α = 0,05); metoda weryfikacji – analiza wariancji (jednoczynnikowa analizy wariancji); test statystyczny F Anna Rajfura 24 Tabela analizy wariancji (ANOVA TABLE) Źródła zmienności cechy X Source Sumy kwadratów Stopnie swobody Średni kwadrat Sum of Squares SS Df (degrees of freedom) Mean Square MS Czynnik A (odmiana) Between groups DfA = a - 1 MS A = SS A Df A SSE DfE = N - a MS E = SS E Df E SST N-1 SSA Błąd losowy Within groups Całkowita Total F kryt =F F emp F-Ratio wartość p p-value MS A MS E α , a - 1, N - a Wzory na sumy kwadratów Anna Rajfura 25 Zestawienia obliczeń Poziomy czynnika A (odmiany) A1 A2 Nr powtórzenia (nr poletka) 1 2 x11 x12 x21 x22 M Aa ... ... ... n x1 = x1 n 1 x2 = x2 n 2 n1 1 n1 ∑ j =1 x1 j n2 1 n2 ∑ j =1 x2 j ... xa1 xa 2 ... xi = n1i ∑ xij , j =1 xa = xa na ni i-ta średnia obiektowa średnie obiektowe średnia ogólna x= a 1 N na 1 na ∑x j =1 a j ni ∑∑ x i =1 j =1 ij SSA = ... , SST = ..., SSE = ..., Anna Rajfura 26 Tabela ANOVA dla przykładu Stopnie Sumy Źródła zmienności kwadratów swobody cechy X SS Df Czynnik A (odmiana) 0,149 4 Błąd losowy 0,049 15 Całkowita 0,198 19 Anna Rajfura Średni kwadrat MS F emp 0 ,149 0 ,0373 = 11,27 = 0 ,0372 0 0033 , 4 wartość p 0,0002 0 ,049 = 0,0033 15 27 Wartości krytyczne rozkładu F–Snedecora X ~ Fν1, ν2 - X zmienna losowa o rozkładzie F- Snedecora z liczbami stopni swobody (ν1, ν2) poziom istotności α =0,05, Fα, ν1, ν2 - wartość krytyczna - liczba taka, Ŝe P(X > Fα, ν1, ν2 ) = α v1 v2 1 2 3 1 161,446 199,499 215,707 2 18,513 19,000 19,164 : 9 5,117 4,256 3,863 10 4,965 4,103 3,708 11 4,844 3,982 3,587 12 4,747 3,885 3,490 13 4,667 3,806 3,411 14 4,600 3,739 3,344 15 4,543 3,682 3,287 4 5 6 7 8 9 10 11 12 13 14 15 224,583 230,160 233,988 236,767 238,884 240,543 241,882 242,981 243,905 244,690 245,363 245,949 19,247 19,296 19,329 19,353 19,371 19,385 19,396 19,405 19,412 19,419 19,424 19,429 3,633 3,478 3,357 3,259 3,179 3,112 3,482 3,326 3,204 3,106 3,025 2,958 3,374 3,217 3,095 2,996 2,915 2,848 3,293 3,135 3,012 2,913 2,832 2,764 3,230 3,072 2,948 2,849 2,767 2,699 3,179 3,020 2,896 2,796 2,714 2,646 3,137 2,978 2,854 2,753 2,671 2,602 3,102 2,943 2,818 2,717 2,635 2,565 3,073 2,913 2,788 2,687 2,604 2,534 3,048 2,887 2,761 2,660 2,577 2,507 3,025 2,865 2,739 2,637 2,554 2,484 3,006 2,845 2,719 2,617 2,533 2,463 3,056 2,901 2,790 2,707 2,641 2,588 2,544 2,507 2,475 2,448 2,424 2,403 W przykładzie: F kryt = F α , a-1, N-a = F Femp = 11,27 Anna Rajfura 0,05 , 4, 15 = 3,056 28 Wnioskowanie Wnioskowanie 1 Jeśli F emp > F kryt, to H0 odrzucamy, w przeciwnym przypadku H0 nie moŜna odrzucić. Wnioskowanie 2 Jeśli wartość p < α, to H0 odrzucamy, w przeciwnym przypadku H0 nie moŜna odrzucić. Anna Rajfura 29 Wnioskowanie w przykładzie Femp = 11,27 F kryt =F Femp > F Anna Rajfura 0,05 , 4, 15 = 3,056 , więc H0 odrzucamy kryt 30 Terminologia cd. Gdy odrzucimy hipotezę H 0 , to mówimy: stwierdzono statystycznie istotny wpływ czynnika A na badaną cechę albo: czynnik A wpływa istotnie róŜnicująco na badaną cechę. Anna Rajfura 31 Terminologia cd. Gdy nie odrzucimy hipotezy H 0 , to mówimy: nie stwierdzono statystycznie istotnego wpływu czynnika A na badaną cechę albo: czynnik A nie wpływa istotnie róŜnicująco na badaną cechę. Anna Rajfura 32 Wniosek merytoryczny W przykładzie stwierdzono statystycznie istotne zróŜnicowanie odmian pszenicy ze względu na wysokość plonu. Po odrzuceniu hipotezy zerowej stosuje się porównania szczegółowe. Anna Rajfura 33 Wyniki z pakietu statystycznego ANOVA Table Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Between groups 0,14927 4 0,0373175 11,51 0,0002 Within groups 0,04865 15 0,00324333 ----------------------------------------------------------------------------Total (Corr.) 0,19792 19 Means and 95,0 Percent Tukey HSD Intervals 1,5 Plony 1,4 1,3 1,2 1,1 1 2 3 4 5 odmiany Anna Rajfura 34 Porównania szczegółowe - idea X1 X2 X3 µ1 µ2 µ3 X1 = X2 = X 5 µ1 = µ2 = µ5 Anna Rajfura X5 X4 µ5 µ4 wartości cechy X3 = X4 µ3 = µ4 wartości cechy 35 Obliczenia Means and 95,0 Percent LSD Intervals 1,5 plon 1,4 1,3 1,2 1,1 O1 O2 O3 O4 O5 odmiana Obliczenia na tablicy Anna Rajfura 36 Wartości krytyczne rozkładu Studenta X ~ tν - X zmienna losowa o rozkładzie t-Studenta z liczbą stopni swobody v, α - poziom istotności, t α , ν - wartość krytyczna - liczba taka, Ŝe P(|X| > t α , ν ) = α ν \ α 0,400 0,300 0,200 0,100 0,050 0,025 0,025 0,010 0,005 0,001 1 1,3764 1,9626 3,0777 6,3137 12,7062 25,4519 25,4519 63,6559 127,3211 636,5776 2 1,0607 1,3862 1,8856 2,9200 4,3027 6,2054 6,2054 9,9250 14,0892 31,5998 : 13 0,8702 1,0795 1,3502 1,7709 2,1604 2,5326 2,5326 3,0123 3,3725 4,2209 14 0,8681 1,0763 1,3450 1,7613 2,1448 2,5096 2,5096 2,9768 3,3257 4,1403 15 0,8662 1,0735 1,3406 1,7531 16 0,8647 1,0711 1,3368 1,7459 17 0,8633 1,0690 1,3334 1,7396 18 0,8620 1,0672 1,3304 1,7341 Anna Rajfura 2,1315 2,4899 2,1199 2,1098 2,1009 2,4899 2,9467 3,2860 4,0728 2,4729 2,4729 2,9208 3,2520 2,4581 2,4581 2,8982 3,2224 2,4450 2,4450 2,8784 3,1966 4,0149 3,9651 3,9217 37 Wyniki z pakietu statystycznego Multiple Range Tests for plon by odmiana -------------------------------------------------------------------------------Method: 95,0 percent LSD odmiana Count Mean Homogeneous Groups -------------------------------------------------------------------------------O2 4 1,18 X O4 4 1,2275 XX O5 4 1,27 XX O3 4 1,335 X O1 4 1,4275 X Anna Rajfura 38 Procedury porównań szczegółowych Procedury te słuŜą do wydzielania grup jednorodnych, czyli grup obiektów nie róŜniących się między sobą. • procedura Studenta • procedura Tukeya • Newmana-Keulsa Anna Rajfura 39 Procedura Studenta NIR - Najmniejsza Istotna RóŜnica (LSD, ang . Least Significant Difference) Procedura oparta na teście t-Studenta NIR = tα , Df E ⋅ sr tα , Df E , sr = 2⋅MS E n , -wartość kryt. rozkładu Studenta, sr -standardowy błąd róŜnicy średnich obiektowych, MSE -średni kwadrat dla błędu z tab. ANOVA Anna Rajfura 40 NIR Studenta w przykładzie MS E = 0,0033; n = 4, to s r = 0,0406; Df E = 15, t α, DfE = t 0,05, 15 = 2,1315 NIR = 2,1315 0,0406 = 0,087 Anna Rajfura 41 Procedura Tukeya NIR = qα , Df E ,a⋅ s x T , sx = MS E n , gdzie: qα ,Df E ,a - wartość krytyczna studentyzowanego rozstępu; a – liczba średnich w całym doświadczeniu; sx - standardowy błąd średniej obiektowej z próby. Anna Rajfura 42 NIR Tukeya w przykładzie Df E = 15, a = 5, to q α, DfE, a = q 0,05, 15, 5 = 4,367; s = 0, 0287 x MS E = 0,0033, n = 4, to ; T NIR = 4,367 0,0287 = 0,125. Obliczenia Anna Rajfura 43 Wyniki z pakietu statystycznego Multiple Range Tests for plon by odmiana -------------------------------------------------------------------------------Method: 95,0 percent Tukey HSD odmiana Count Mean Homogeneous Groups -------------------------------------------------------------------------------O2 4 1,18 X O4 4 1,2275 XX O5 4 1,27 XX O3 4 1,335 XX O1 4 1,4275 X -------------------------------------------------------------------------------- Anna Rajfura 44 Wyniki z pakietu statystycznego Means and 95,0 Percent Tukey HSD Intervals 1,5 Plony 1,4 1,3 1,2 1,1 1 2 3 4 5 odmiany Anna Rajfura 45 Procedura Newmana-Keulsa* NIR NK = qα , Df E ,k ⋅ sx , sx = MS E n , gdzie: qα ,DfE ,k - wartość krytyczna studentyzowanego rozstępu; k – liczba średnich w grupie, sx - standardowy błąd średniej obiektowej z próby. Anna Rajfura 46 NIR-y Newmana-Keulsa w przykładzie* W przykładzie: s x = 0,0287 , q α, Df E = 15; DfE , 2 = q 0,05, 15, 2 = 3,014, to NIR NK2 = 3,014 0,0287 = 0,087; q α, DfE , 3 = q 0,05, 15, 3 = 3,674, to NIR NK3 = 3,674 0,0287 = 0,105; q α, DfE, 4 = q 0,05, 15, 4 = 4,076, to NIR NK4 = 4,076 0,0287 = 0,117 Anna Rajfura 47 Wyniki z pakietu statystycznego* Multiple Range Tests for plon by odmiana -------------------------------------------------------------------------------Method: 95,0 percent Student-Newman-Keuls odmiana Count Mean Homogeneous Groups -------------------------------------------------------------------------------O2 4 1,18 X O4 4 1,2275 X O5 4 1,27 XX O3 4 1,335 X O1 4 1,4275 X -------------------------------------------------------------------------------- Anna Rajfura 48 Procedura Duncana* NIR = t D D α , Df E , k ⋅ sr , sr = 2⋅MS E n , gdzie: sr - standardowy błąd róŜnicy średnich obiektowych, D α , Df E , k t - wartość krytyczna wielokrotnego testu Duncana; k – liczba średnich w grupie Anna Rajfura 49