1 Testy statystyczne 2 Rodzaje testów
Transkrypt
1 Testy statystyczne 2 Rodzaje testów
1 Testy statystyczne Podczas sprawdzania hipotez statystycznych moga¾wystapić ¾ dwa rodzaje b÷ edów. ¾ Prawdopodobieństwo b÷ edu ¾ polegajacego ¾ na odrzuceniu hipotezy zerowej (H0 ), gdy jest ona prawdziwa, czyli tzw. b÷edu ¾ I rodzaju określa sie¾ zazwyczaj przez ; natomiast p-stwo pope÷ nienia b÷edu ¾ II rodzaju polegajacego ¾ na przyjeciu ¾ hipotezy zerowej, gdy jest ona fa÷ szywa określa sie¾ symbolem : Przedstawimy teraz ogólny schemat przebiegu procedury wery…kacyjnej: Sformu÷ owanie hipotezy zerowej i alternatywnej + Wybór statystyki testowej + Określenie poziomu istotności + Wyznaczenie obszaru krytycznego testu + Obliczenie statystyki na podstawie próby + Nie odrzucać H0 + Wnioskujemy, z·e H0 moz·e być prawdziwa 2 (= Podjecie ¾ decyzji =) Odrzucić H0 + Wnioskujemy, z·e H1 jest prawdziwa Rodzaje testów Testy parametryczne najcześciej ¾ wery…kuja¾ sady ¾ o takich parametrach populacji, jak średnia arytmetyczna, wskaźnik struktury i wariancja. Testy te sa¾ konstruowane przy za÷ oz·eniu znajomości dystrybuanty w populacji generalnej. Wiekszość ¾ z nich zak÷ ada, z·e rozk÷ad badanej cechy w populacji jest rozk÷adem normalnym. Testy nieparametryczne nie wymuszaja¾z·adnych za÷ oz·eń dotyczacych ¾ postaci badanych zmiennych w populacji, w zwiazku ¾ z tym czesto ¾ sa¾ określane mianem testów niezwiazanych ¾ z rozk÷ adem. S÷uz·a¾one do wery…kacji róz·norodnych hipotez dotyczacych, ¾ m. in. zgodności rozk÷adu cechy w populacji z określonym rozk÷ adem teoretycznym, zgodności rozk÷adów w dwóch populacjach, a takz·e chociaz·by losowości wyboru próby. W szczególnych przypadkach dla ma÷ych prób i rozk÷ adów nienormalnych zastepuj ¾ a¾ testy parametryczne. Schemat rozwaz·anych w dalszej w cześci ¾ testów przedstawia sie¾ nastepuj ¾ aco: ¾ 1 1) testy s÷ uz·ace ¾ do wery…kacji w÷asności populacji jednowymiarowych Testy porównujace ¾ oceny parametrów ze wzorcem =) Testy parametryczne - test dla średniej - test dla poporcji - test dla wariancji Testy nieparametryczne Testy oceniajace ¾ zgodność rozk÷ adu empirycznego z teoretycznym =) test zgodności 2 test zgodności Ko÷mogorowa test serii (= 2) test s÷ uz·ace ¾ do porównywania w÷ asności dwóch populacji Testy porównujace ¾ oceny parametrów z dwóch prób + Testy parametryczne: - testy dla dwóch średnich - testy dla dwóch proporcji - testy dla dwóch wariancji Testy oceniajace ¾ zgodność dwóch rozk÷ adów empirycznych + Testy nieparametryczne - test Ko÷mogorowa-Smirnowa - test jednorodności 2 - test mediany - test serii - test znaków 2.1 Testy dla populacji jednowymiarowej Poniz·ej przedstawimy przeglad ¾ najwaz·niejszych testów stosowanych do wery…kacji hipotez o w÷ asnościach populacji jednowymiarowej. 2 Testy oceniajace ¾ losowość próby 2.1.1 Testy dla średniej W testach dla średniej wery…kacji poddaje sie¾ hipoteze¾ zerowa¾ postaci H0 : = 0 wobec hipotezy alternatywnej, która przyjmuje jedna¾ z trzech postaci H1 : 6= lub 0 > 0 lub < 0 Statystyka testowa zalez·y od trzech czynników: - rozk÷ adu cechy w populacji - znajomości odchylenia standardowego w populacji - liczebności próby Test I. W teście tym zak÷adamy, z·e badana cecha ma rozk÷ad normalny o nieznanej średniej, jednakz·e znanym odchyleniu, tzn. X N ( ; ), nieznane, znane, ponadto liczebność próby jest bez znaczenia. Jako statystyk¾ e testowa¾ stosujemy wówczas statystyk¾ e Z= X 0 p = 0p X n: n Decyzje¾ o odrzuceniu H0 podejmujemy w zalez·ności od tego czy obliczona wartość statystyki testowej Z nalez·y do przedzia÷u krytycznego. Przedzia÷krytyczny jest zalez·ny od postaci hipotezy alternatywnej. Ogólnie przy określaniu przedzia÷ u dla średniej moz·emy posi÷kować sie¾ nastepuj ¾ acymi ¾ wskazówkami. Hipoteza alternatywna H0 : 6= 0 H0 : > 0 H0 : < 0 gdzie z jest kwantylem rzedu ¾ 1 Obszar krytyczny W = 1; z 2 [ z 2 ; 1 W = [z ; 1) W = ( 1; z ] (1) standardowego rozk÷ adu normalnego. Test II. W teście tym zak÷ada sie¾ rozk÷ad populacji jest dowolny o nieznanej średniej oraz nieznanym odchyleniu, jednakz·e liczebność próby przekracza 30. W tym przypadku jako statystyk¾ e testowa¾ stosuje sie¾ statystyk¾ e Z= X S 0p n; gdzie S jest odchyleniem obliczanym z próby. W tym teście obszary krytyczne pokrywaja¾ sie¾ z tymi wystepuj ¾ acymi ¾ w teście I. Test III. W tym przypadku zak÷adamy, z·e badana cecha ma rozk÷ad normalny o nieznanych parametrach oraz ; natomiast liczebność próby nie przekracza 30. Stosujemy wówczas statystyk¾ e testowa¾ T = X 0 S 3 p n 1: Obszar krytyczny równiez· jest uzalez·niony od postaci hipotezy alternatywnej i jest zbliz·ony do danych zawartych we wzorach (1), nalez·y jednak zastapić ¾ z przez t ;n 1 ; gdzie t ;n 1 jest kwantylem rzedu ¾ 1 rozk÷adu t Studenta o n 1 stopniach swobody. 2.1.2 Test dla proporcji Test dla proporcji s÷ uz·y do wery…kacji hipotezy o udziale w ca÷ej populacji jednostek posiadajacych ¾ wyróz·niony wariant danej cechy, co jest określane mianem frakcji, proporcji lub wskaźnika struktury. Zak÷ada sie, ¾ z·e populacja ma rozk÷ ad dwumianowy z parametrem p oraz próba jest liczna n > 50: Wery…kacji poddaje sie¾ nastepuj ¾ ace ¾ hipotezy H 0 : p = p0 H1 : p 6= p0 ; lub p > p0 ; lub p < p0 : Jako statystyk¾ e testowa¾ stosuje sie¾ statystyk¾ e k p0 n Z= p p0 q0 ; n gdzie k- liczba elementów wyróz·nionych w próbie, p0 + q0 = 1: Jako obszarów krytycznych uz·ywa sie¾ obszarów ze wzorów (1). 2.1.3 Test dla wariancji W teście tym zak÷ ada sie, ¾ z·e rozwaz·ana cecha ma rozk÷ad normalny. Wyróz·nia sie¾ ponadto dwa przypadki w zalez·ności od liczebności próby. W przypadku próby nie przekraczajacej ¾ 30 elementów do wery…kacji hipotez H0 : H1 : 2 6= 2 0; lub 2 = 2 0 2 > 2 0; (2) lub 2 < 2 0 (3) stosuje sie¾ statystyk¾ e 2 = nS 2 2 0 (n = 1) Sb2 2 0 ; gdzie Sb2 jest wariancja¾ nieobcia¾z·ona¾ z próby. Dla powyz·szej statystyki obszary krytyczne równiez· uzalez·nione sa¾od postaci hipotezy (3) i przyjmuja¾ nastepuj ¾ ac ¾ a¾ postać Hipoteza alternatywna H0 : 2 6= 20 H0 : 2 > 20 H0 : 2 < 20 Obszar krytyczny W = 0; 2 1 [ 2 2 ; 1 W = 2;1 W = 0; 2 4 Dobór poszczególnych przypadków precyzuja¾ poniz·sze rysunki Nalez·y w tym miejscu jeszcze zaznaczyć, z·e rozk÷ad 2 wraz ze wzrostem liczby stopni swobody zbiega do rozk÷ adu normalnego, w zwiazku ¾ z tym przy e duz·ej próbie ( n 30 ) korzysta sie¾ z przekszta÷cenia statystyki 2 w statystyk¾ Z za pomoca¾ wzoru p p p p Z= 2 2 2 1= 2 2 2n 3: Statystyka ta ma asymptotycznie rozk÷ ad normalny N (0; 1) a przedzia÷y krytyczne pokrywaja¾ sie¾ z tymi ze wzorów (1). 5 2.2 2.2.1 Testy nieparametryczne dla wnioskowania o w÷ asnościach populacji jednowymiarowej. Test serii Test losowości próby, zwany równiez· testem serii Stevensa, jest przydatny w sytuacjach, gdy odnotowane wyniki eksperymentu chcemy uogólnić na wiek¾ sza¾ liczbe¾ przypadków, jednakz·e przed zastosowaniem procedur wnioskowania musimy sie¾ upewnić, czy zebrane informacje spe÷niaja¾ postulat losowości próby. W zwiazku ¾ z tym dokonujemy wery…kacji nastepuj ¾ acych ¾ hipotez: H0 : dobór jednostek do próby jest losowy H1 : dobór jednostek do próby nie jest losowy Wartość statystyki z próby wyznaczamy w nastepuj ¾ acy ¾ sposób: 1. Kolejno zapisane n obserwacji zmiennej losowej ciag÷ ¾ ej tworzy ciag ¾ podstawowy; 2. Obserwacje porzadkujemy ¾ i wyznaczamy mediane; ¾ 3. W ciagu ¾ podstawowym oznaczamy wartości literami A i B zgodnie z poniz·sza¾ zasada: ¾ xi < M e ! A xi > M e ! B xi = M e ! pomijamy 4. Dla nowego ciagu ¾ liter A i B zliczamy liczbe¾ serii k, która jest wartościa¾ statystyki otrzymana¾ z próby. Obszarem krytycznym jest zbiór spe÷niajacy ¾ relacje P (k k1 ) = 2 oraz P (k k2 ) = 2 ; gdzie k1 2 ; nA ; nB oraz k2 1 2 ; nA ; nB odczytujemy ze stosownych tablic. 2.2.2 Testy zgodności Testy te s÷ uz·a¾do wery…kacji hipotez odnoszacych ¾ sie¾ do postaci rozk÷ adu badanej cechy w populacji. Ich budowa opiera sie¾ na ocenie zgodności rozk÷adu empirycznego, otrzymanego z próby losowej, z rozk÷ adem teoretycznym o określonej postaci. Omówimy najcześciej ¾ stosowane testy: test zgodności 2 oraz test zgodności Ko÷ mogorowa-Smirnowa. Test zgodności 2 Test ten opiera sie¾ na statystyce, która ma graniczny rozk÷ ad 2 :Test ten moz·e być stosowany zarówno dla zmiennych skokowych, jak i ciag÷ ¾ ych. Wymaga on aby próba losowa by÷a duz·a a wyniki pogrupowane w szereg rozdzielczy. Test ten buduje sie¾ w nastepuj ¾ acy ¾ sposób: 1. Z populacji o nieznanej dystrybuancie F losowana jest duz·a n elementowa próba prosta. Wyniki próby zostaja¾ pogrupowane w szereg rozdzielczy o k przedzia÷ ach, tak aby ni 8: Szereg ten przedstawia rozk÷ad empiryczny badanej zmiennej. 6 2. Na podstawie szeregu rozdzielczego estymuje sie¾ p-stwa pi za÷oz·onego teoretycznego rozk÷ adu. W przypadku zmiennej losowej ciag÷ ¾ ej pi = P (xi0 X < xi1 ) = F (xi1 ) F (xi0 ) : 3. Dla kaz·dej klasy oblicza sie¾ liczebności teoretyczne n bi = npi : 4. Oblicza sie¾ wartość statystyki 2 = k X (ni i=1 2 n bi ) n bi 5. Porównuje sie¾ wartość obliczonego 2 z hipoteze¾ H0 mówiac ¾ a¾ o zgodności rozk÷adów. 2 : i jez·eli 2 2 to odrzucamy Test zgodności Ko÷ mogorowa-Smirnowa Test ten jest przeznaczony dla zmiennych losowych typu ciag÷ ¾ ego i duz·ych prób. Jego budowa sprowadza sie¾ do nastepuj ¾ acych ¾ punktów. 1. Z populacji o nieznanej ciag÷ ¾ ej dystrybuancie wybieramy n-elementowa¾ duz·a¾ próbe¾ losowa¾ i tworzymy szereg rozdzielczy o prawych końcach xi ; i = 1; 2; :::; k; 2. Dla kaz·dego xj obliczmy wartości dystrybuanty empirycznej; 3. Analizujemy bezwzgledne ¾ róz·nice dystrybuanty empirycznej i teoretycznej D = sup jFn (x) F0 (x)j i obliczamy wartość statystyki p = D n: Statystyka przy za÷ oz·eniu prawdziwości hipotezy zerowej ma rozk÷ad graniczny Ko÷ mogorowa. 4. Jez·eli to odrzucamy H0 , co oznacza, z·e badany rozk÷ad jest inny niz· za÷ oz·ony, przy czy jest odczytywana z tablic rozk÷ adu Ko÷mogorowa. 2.3 2.3.1 Testy parametryczne dla porównywania w÷ asności dwóch populacji Testy dla dwóch średnich. W tej grupie testów zak÷ ada sie, ¾ z·e pobrano n1 elementowa¾ próbe¾ z populacji o nieznanej średniej 1 oraz n2 elementowa¾ próbe¾ z rozk÷adu o średniej 2 :Hipoteza zerowa przyjmuje postać H0 : 1 = 2 wobec hipotezy alternatywnej, która podobnie jak w przypadku jednowymiarowym moz·e przyjać ¾ jedna¾ z trzech postaci H1 : 1 6= 2 lub 1 7 > 2 lub 1 < 2: Konstrukcja statystyki testowej zalez·y od nastepuj ¾ acych ¾ czynników: 1. Czy znamy wariancje w populacjach? 2. Czy rozk÷ ady badanej zmiennej w populacjach sa¾ normalne? 3. Czy moz·na wnioskować, z·e wariancje w próbach sa¾ jednakowe? 4. Czy próby sa¾ duz·e, czy tez· ma÷ e? Test I. Zak÷ adamy, z·e próby pochodza¾ z populacji o rozk÷adach normalnych N ( 1 ; 1 ) oraz N ( 2 ; 2 ), przy czym wariancje 21 , 22 sa¾ znane. Wówczas zmienna losowa róz·nicy średnich X 1 X 2 ma rozk÷ad normalny z parametrami E X1 X2 = D2 X 1 X2 = 1 2 1 n1 2 + 2 2 n2 : Wyznaczamy wartość statystyki testowej X1 X2 : Z=q 2 2 1 2 n1 + n2 Obszar krytyczny pokrywa sie¾ z przypadkami omówionymi we wzorach (1). Test II. Test ten jest stosowany, gdy badane sa¾ dwie du· ze próby o nieznanych wariancjach, ale zak÷adamy, z·e nie sa¾ one równe 21 6= 22 : W takim przypadku do wery…kacji hipotezy H0 : 1 = 2 stosuje sie¾ statystyk¾ e X1 X2 Z=q 2 S22 S1 n1 + n 2 i dalej postepujemy ¾ jak w teście I. Test III. Jez·eli populacje maja¾ rozk÷ady normalne N ( 1 ; ) oraz N ( 2 ; ) o nieznanych, ale równych wariancjach to wówczas prawdziwe sa¾ nastepuj ¾ ace ¾ w÷ asności E X1 X2 = 1 2 D2 X 1 oraz estymator wariancji 2 X2 = 2 1 1 + n1 n2 zadany jest wzorem S2 = n1 S12 + n2 S22 : n1 + n2 2 Gdy próby sa¾ ma÷ e to do wery…kacji hipotez stosujemy statystyk¾ e T =r X1 X2 n1 S12 +n2 S22 1 n1 +n2 2 n1 8 + 1 n2 o rozk÷ adzie t-Studenta z = n1 + n2 2 stopniami swobody. Test IV. W odróz·nieniu od testu III zak÷adamy, z·e próby sa¾ duz·e. W takim przypadku jako statystyki testowej uz·ywamy statystyki X1 X2 p Z=p n1 n2 : n1 S12 + n2 S22 Statystyki tej moz·na równiez· uz·ywać w przypadku, gdy populacje nie maja¾ rozk÷ adu normalnego. Test V. Rozwaz·my dwie ma÷e próby z populacji o rozk÷adach normalnych i róz·nych (nieznanych) wariancjach. W takim przypadku do wery…kacji hipotez stosuje sie¾ statystyk¾ e X1 X2 t= q 2 S1 S22 n 1 1 + n2 1 natomiast liczbe¾ stopni swobody ustala sie¾ ze wzoru 2 3 6 =6 6 6 6 S12 n1 1 2 S1 n1 1 + 2 n1 +1 + S22 n2 1 2 2 S2 n2 1 2 n2 +1 gdzie dxe oznacza zaokraglenie ¾ w góre. ¾ 2.3.2 7 27 7; 7 7 Testy dla dwóch proporcji Rozwaz·my dwie populacje o rozk÷adach dwumianowych z nieznanymi parametrami p1 , p2 : Z populacji tych pobrano niezalez·nie dwie próby proste o liczebnościach n1 , n2 100: Dla wybranych prób ustalono wskaźniki (frakcje) p1 = k1 k2 oraz p2 = : n1 n2 Na podstawie dostepnych ¾ danych chcemy zwery…kować hipoteze¾ o równości wskaźników struktury H 0 : p1 = p2 H1 : p1 6= p2 lub p1 > p2 lub p1 < p2 Dowodzi sie, ¾ z·e zmienna losowa bed ¾ aca ¾ róz·nica¾ dwóch wskaźników struktury ad asymptotycznie normalny z (p1 p2 ) gdy n1 ! 1 i n2 ! 1 na rozk÷ parametrami E (p1 p2 ) = p1 p2 D2 (p1 p2 ) = p1 (1 p1 ) p2 (1 p2 ) + : n1 n2 9 Nalez·y w tym miejscu zauwaz·yć, z·e jez·eli hipoteza zerowa jest prawdziwa, czyli p1 = p2 = p to wartość oczekiwana wynosi zero zaś wariancja D2 (p1 p2 ) = p (1 p) p (1 p) + = p (1 n1 n2 1 1 + n1 n2 p) : Dla duz·ych prób wartość p ustala sie¾ z nastepuj ¾ acego ¾ wzoru p= k1 + k2 : n1 + n2 Statystyka¾ testowa¾ s÷ uz·ac ¾ a¾ wery…kacji hipotez jest wówczas p1 Z=r p (1 p2 1 n1 p) : + 1 n2 Jak ÷ atwo zauwaz·yć ma ona asymptotycznie rozk÷ad N (0; 1) ;w zwiazku ¾ z tym obszar krytyczny ustala sie¾ na podstawie wzorów (1). 2.3.3 Test dla dwóch wariancji Test ten stosuje sie¾ do porównania rozproszenia badanej cechy w dwóch populacjach. Szczególne znaczenie tego testu wynika z faktu, z·e we wnioskowaniu statystycznym czesto ¾ mamy do czynienia z za÷ oz·eniem dotyczacym ¾ równości wariancji zmiennych losowych. Na przyk÷ad, postać statystyki testowej przy wnioskowaniu o średnich w dwóch populacjach jest uzalez·niona miedzy ¾ innymi od tego, czy moz·emy za÷ oz·yć, z·e wariancje sa¾ równe 21 = 22 ; czy tez· róz·nia¾ sie¾ one miedzy ¾ soba¾ 21 6= 22 : Zak÷ adamy, z·e mamy do czynienia z dwiema populacjami o rozk÷ adach normalnych N ( 1 ; 1 ) oraz N ( 2 ; 2 ), przy czym parametry rozk÷ adów nie sa¾ znane. Hipoteza zerowa zak÷ada, z·e wariancja w badanych populacjach sa¾ jednakowe. Hipoteza alternatywna zaprzecza temu za÷oz·eniu. H0 : H1 : 2 1 6= 2 2 lub 2 1 = 2 2; 2 1 > 2 2 lub 2 1 < 2 2: Z populacji zosta÷ y pobrane niezalez·ne dwie próby proste o liczebnościach odpowiednio n1 i n2 : Przy wery…kacji hipotezy zerowej korzysta sie¾ ze statystyki F-Snedecora. Zmienna¾ losowa¾ o rozk÷ adzie F-Snedecora de…niuje sie¾ jako iloraz dwóch niezalez·nych zmiennych losowych U i V o rozk÷adach 2 z liczba¾ stopni swobody 1 i 2 = n2 1 odpowiednio 1 = n1 F = U V : : v1 v2 Jez·eli jako niezalez·ne zmienne losowe przyjmie sie¾ statystyki z prób U= (n1 10 1) Sb12 V = 1) Sb22 (n2 ; które maja¾ rozk÷ ad 2 ;oraz za÷ oz·y sie¾ równość wariancji w populacjach 2 2 = ;to wówczas statystyka F przybiera postać 2 F = 2 1 = Sb12 : Sb2 2 Przy za÷ oz·eniu prawdziwości hipotezy zerowej statystyka ta ma rozk÷ad F-Snedecora z liczba¾ stopni swobody 1 = n1 1 i 2 = n2 1: Wartość statystyki z próby porównuje sie¾ z wartościa¾ krytyczna¾ testu, odczytywana¾ z tablic F-Snedecora. Obszar krytyczny uzalez·niony jest oczywiście od postaci hipotezy alternatywnej. Wyboru obszaru krytycznego dokonujemy zgodnie z poniz·szymi rysunkami (4) 11 Przy badaniu równości dwóch wariancji moz·na zastosować równiez· bardziej ogólne testy s÷ uz·ace ¾ do badania równości kilku wariancji. Przyk÷adami tego typu testów sa¾ test Bartletta, test Levena, czy tez· test Hartleya. 2.3.4 Test Bartletta W teście tym testujemy hipotezy 2 1 H0 : 2 1 H1 :s 2 2 = 2 2 = 2 k = ::: = (5) 2 k = ::: = W teście tym liczebności poszczególnych k prób moga¾ być róz·ne, jako statystyk¾ e testowa¾ stosuje sie¾ statystyk¾ e 2 k P k) ln s2p (N = 1+ k P 1 3(k 1) 1) ln s2i (Ni i=1 i=1 ; 1 1 Ni 1 N k gdzie Ni dla i = 1; 2; :::; k oznacza liczebności poszczególnych prób, N = k P Ni ; i=1 s2i oznacza wariancje¾ z i-tej próby, k X (Ni s2p = 1) s2i : N k i=1 Obszar krytyczny wynosi 2 1 W = 2.3.5 ;k 1 ; 1 : Test Levena Test ten jest innym przyk÷ adem testu s÷uz·acego ¾ do wery…kacji hipotez (5) i jest alternatywa¾ dla testu Bartletta. Jako statystyk¾ e testowa¾ stosuje sie¾ statystyk¾ e (N k) k P Ni Z i 2 i=1 W = (k 1) ; Ni k P P Zij i=1 j=1 gdzie Zij = Xij Z X i lub Zij = jXij Zi = M eXi j ; Ni P Zij j=1 Nj 12 ; Zi 2 Z= k P Zi i=1 : k Obszarem krytycznym tego testu jest W = (F 2.3.6 ;k 1;N k ; 1) : Test Hartleya Test ten jest stosowany do wery…kacji hipotez (5) w przypadku równolicznych prób. Jako statystyk¾ e testowa¾ rozwaz·a sie¾ statystyk¾ e F = s2max ; s2min gdzie s2max = max s21 ; s22 ; :::; s2k ; s2min = min s21 ; s22 ; :::; s2k : Obszarem krytycznym testu jest przedzia÷wyznaczany zgodnie z rysunkiem (4). 2.4 Testy nieparametryczne dla porównania w÷ asności dwóch populacji Porównujac ¾ ze soba¾dwie populacje, moz·emy oceniać zgodność rozk÷adów badanej cechy w tych populacjach. Wnioskujac ¾ na podstawie prób niezalez·nych wykorzystujemy testy nieparametryczne zwane równiez· testami jednorodności. W testach tych nie wystepuj ¾ a¾ zazwyczaj za÷oz·enia dotyczace ¾ postaci rozk÷adu, z ma÷ ym wyjatkiem ¾ polegajacym ¾ na tym, z·e w wiekszości ¾ testów zak÷ada sie¾ ciag÷ ¾ ość badanej cechy. Testy jednorodności s÷uz·a¾ do wery…kacji hipotezy zak÷ adajacej ¾ zgodność rozk÷ adów, co zapisujemy H0 : F1 (x) = F2 (x) (6) H1 : F1 (x) 6= F2 (x) : Podstawa¾ budowy statystyk w testach jednorodności sa¾ dwie próby niezalez·ne, spośród wielu dostepnych ¾ w literaturze testów ograniczymy sie¾ tylko do wybranych, a mianowicie: testu 2 ; testu Ko÷ mogorowa-Smirnowa, testu Smirnowa, testu serii oraz testu mediany. Pierwsza dwa sa¾stosowane dla duz·ych prób, pozosta÷ e zaś dla prób ma÷o licznych. 2.4.1 Test jednorodności 2 Jest to chyba najbardziej uniwersalny test jednorodności, poniewaz· moz·e być stosowany zarówno dla cech ilościowych jak i jakościowych. Wery…kujac ¾ hipoteze¾ (6) postepujemy ¾ nastepuj ¾ aco: ¾ 13 1. Wyniki dwóch niezalez·nych prób prostych grupujemy w jednakowe przedzia÷ y klasowe, tak aby liczebność kaz·dego przedzia÷ u by÷a niemniejsza od 5 (ni 5): 2. Obliczamy wartość statystyki testowej określonej wzorem " k # 2 n21i n21 (n1 + n2 ) X 2 ; = n1 n2 n + n2i n1 + n2 i=1 1i gdzie n1 liczebność pierwszej próby; n2 liczebność drugiej próby; n1i liczebność kolejnych przedzia÷ów w pierwszej próbie n2i liczebność kolejnych przedzia÷ów w drugiej próbie. Przy za÷ oz·eniu prawdziwości hipotezy H0 statystyka ta ma rozk÷ad 2 z v = k 1 stopniami swobody. 3. Obszar krytyczny testu jest prawostronny, bowiem duz·e wartości statystyki sa¾ powodowane duz·ymi róz·nicami pomiedzy ¾ obiema próbami. Wartość kry2 , to odrzucamy tyczna¾ odczytuje sie¾ w tablic rozk÷adu 2 : Jez·eli 2 hipoteze¾ zerowa, ¾ zak÷ adajac ¾ a¾ zgodność rozk÷adów w badanych populacjach; róz·nice pomiedzy ¾ nimi sa¾ statystycznie istotne, czyli pochodza¾ z populacji o róz·nych rozk÷ adach. 2.4.2 Test Ko÷ mogorowa-Smirnowa Test ten jest stosowany do wery…kacji hipotezy o zgodności rozk÷adów dwóch zmiennych losowych. Zak÷ ada sie¾ przy tym, z·e obie zmienne losowe maja¾ ciag÷ ¾ e dystrybuanty F1 oraz F2 odpowiednio. Dodatkowo zak÷ ada sie, ¾ z·e próby proste pobrano niezalez·nie od siebie oraz liczebności tych prób n1 , n2 sa¾ duz·e. Wery…kacja hipotezy o zgodności rozk÷ adów sprowadza sie¾ do nastepuj ¾ acej ¾ procedury: 1. Wyniki dwóch duz·ych prób o liczebnościach n1 oraz n2 grupujemy w szeregi rozdzielcze przedzia÷ owe, wskazane jest przy tym, aby poszczególne klasy by÷ y stosunkowo waskie. ¾ 2. Dla kaz·dego przedzia÷ u obliczamy wartości empiryczne dystrybuant F1 oraz F2 jako iloraz liczebności skumulowanych oraz liczebności odpowiedniej próby, w prawych końcach przedzia÷ ów, tj F1 (xk ) = k P n1i i=1 n1 ; F2 (xk ) = k P n2i i=1 n2 : 3. Obliczamy bezwzgledne ¾ róz·nice dystrybuant i wyznaczamy ich suprememu D = sup jF1 (xk ) F2 (xk )j ; 1 k n a nastepnie ¾ na tej podstawie wyznaczamy wartość statystyki p = D n; 14 n2 gdzie n = nn11+n : 2 Przy za÷ oz·eniu zgodności rozk÷adów statystyka ma asymptotyczny rozk÷ad -Ko÷ mogorowa. 4. Dla danego poziomu istotności wyznaczamy obszar krytyczny testu, wartość krytyczna¾wyznaczamy w taki sposób, aby spe÷niona by÷ a relacja P ( : Obszar krytyczny jest prawostronny, stad ¾ tez· hipoteze¾ zerowa¾odrzucamy jeśli : Nalez·y w tym miejscu zauwaz·yć, z·e test ten moz·na równiez· zastosować w przypadku ma÷ ych prób. Jednakz·e w tym przypadku procedura postepowania ¾ jest nieco odmienna. 1. Porzadkujemy ¾ wyniki próby rosnaco ¾ . 2. Dla kolejnych wyników kaz·dej próby liczymy liczebności skumulowane i obliczamy wartości dystrybuant empirycznych. 3. Wyznaczamy wartość statystyki D jak w przypadku duz·ych prób i dalej postepujemy ¾ analogicznie jak w przypadku duz·ych prób. 2.4.3 Test serii Walda-Wolfowitza Test Walda-Wolfowitza jest jednym z wielu testów opartych na teorii serii. Stosujemy go wtedy, gdy o zgodności dowolnych rozk÷adów badanej cechy wnioskujemy na podstawie ma÷ ych prób, o liczebnościach n1 20 oraz n2 20: Korzystanie z tego testu sprowadza sie¾ do nastepuj ¾ acej ¾ procedury. 1. Wyniki obu prób porzadkujemy ¾ w niemalejacy ¾ sposób. W otrzymanym ciagu ¾ przyporzadkowujemy ¾ litere¾ A wynikom pochodzacym ¾ z pierwszej próby, zaś litere¾ B wynikom drugiej próby. 2. Wyznaczmy liczbe¾ serii k. W tym przypadku serie¾ stanowia¾ elementy pochodzace ¾ z danej próby. 3. W rozk÷ adzie liczby serii wyznaczamy obszar krytyczny testu, który jest w tym przypadku lewostronny. Po÷ oz·enie obszaru krtytycznego wynika z faktu, z·e jez·eli próby pochodza¾ z zupe÷nie róz·nych populacji, to wyniki zazwyczaj róz·nia¾ sie¾ miedzy ¾ soba¾ w sposób znaczacy ¾ i serii bedzie ¾ wtedy niewiele. Im bardziej zbliz·one do siebie wyniki obu prób, tym bardziej zostana¾ one "wymieszane" i serii bedzie ¾ wiecej. ¾ 4. Jez·eli wyznaczona na podstawie prób liczba serii jest nie wieksza ¾ od wartości krytycznej k k ; odrzucamy hipoteze¾ zerowa, ¾ czyli stwierdzamy, z·e próby pochodza¾ z populacji, w których rozk÷ady badanej cechy róz·nia¾ sie¾ statystycznie istotnie. Jez·eli n1 i n2 > 20; to rozk÷ad liczby serii z prób jest w przybliz·eniu normalny i wery…kacja hipotezy o zgodności dystrybuant opiera sie¾ na statystyce Z; która ma rozk÷ ad asymptotyczny N (0; 1) Z= jK EKj K 15 ; )= gdzie EK = 2 K = 2n1 n2 + 1; n 1 + n2 2n1 n2 (2n1 n2 2 n1 (n1 + n2 ) (n1 + n2 16 n2 ) 1) :