1 Testy statystyczne 2 Rodzaje testów

Transkrypt

1 Testy statystyczne 2 Rodzaje testów
1
Testy statystyczne
Podczas sprawdzania hipotez statystycznych moga¾wystapić
¾ dwa rodzaje b÷
edów.
¾
Prawdopodobieństwo b÷
edu
¾ polegajacego
¾
na odrzuceniu hipotezy zerowej (H0 ),
gdy jest ona prawdziwa, czyli tzw. b÷edu
¾ I rodzaju określa sie¾ zazwyczaj przez
; natomiast p-stwo pope÷
nienia b÷edu
¾ II rodzaju polegajacego
¾
na przyjeciu
¾
hipotezy zerowej, gdy jest ona fa÷
szywa określa sie¾ symbolem :
Przedstawimy teraz ogólny schemat przebiegu procedury wery…kacyjnej:
Sformu÷
owanie hipotezy zerowej i alternatywnej
+
Wybór statystyki testowej
+
Określenie poziomu istotności
+
Wyznaczenie obszaru krytycznego testu
+
Obliczenie statystyki na podstawie próby
+
Nie odrzucać H0
+
Wnioskujemy, z·e H0
moz·e być prawdziwa
2
(= Podjecie
¾ decyzji
=)
Odrzucić H0
+
Wnioskujemy, z·e H1
jest prawdziwa
Rodzaje testów
Testy parametryczne najcześciej
¾
wery…kuja¾ sady
¾ o takich parametrach populacji, jak średnia arytmetyczna, wskaźnik struktury i wariancja. Testy te sa¾
konstruowane przy za÷
oz·eniu znajomości dystrybuanty w populacji generalnej.
Wiekszość
¾
z nich zak÷
ada, z·e rozk÷ad badanej cechy w populacji jest rozk÷adem
normalnym.
Testy nieparametryczne nie wymuszaja¾z·adnych za÷
oz·eń dotyczacych
¾
postaci
badanych zmiennych w populacji, w zwiazku
¾
z tym czesto
¾
sa¾ określane mianem testów niezwiazanych
¾
z rozk÷
adem. S÷uz·a¾one do wery…kacji róz·norodnych
hipotez dotyczacych,
¾
m. in. zgodności rozk÷adu cechy w populacji z określonym
rozk÷
adem teoretycznym, zgodności rozk÷adów w dwóch populacjach, a takz·e
chociaz·by losowości wyboru próby. W szczególnych przypadkach dla ma÷ych
prób i rozk÷
adów nienormalnych zastepuj
¾ a¾ testy parametryczne.
Schemat rozwaz·anych w dalszej w cześci
¾ testów przedstawia sie¾ nastepuj
¾ aco:
¾
1
1) testy s÷
uz·ace
¾ do wery…kacji w÷asności populacji jednowymiarowych
Testy porównujace
¾ oceny parametrów ze wzorcem
=)
Testy parametryczne
- test dla średniej
- test dla poporcji
- test dla wariancji
Testy
nieparametryczne
Testy oceniajace
¾
zgodność rozk÷
adu
empirycznego z
teoretycznym
=)
test zgodności 2
test zgodności Ko÷mogorowa
test serii
(=
2) test s÷
uz·ace
¾ do porównywania w÷
asności dwóch populacji
Testy porównujace
¾ oceny parametrów z dwóch prób
+
Testy parametryczne:
- testy dla dwóch średnich
- testy dla dwóch proporcji
- testy dla dwóch wariancji
Testy oceniajace
¾ zgodność dwóch rozk÷
adów empirycznych
+
Testy nieparametryczne
- test Ko÷mogorowa-Smirnowa
- test jednorodności 2
- test mediany
- test serii
- test znaków
2.1
Testy dla populacji jednowymiarowej
Poniz·ej przedstawimy przeglad
¾ najwaz·niejszych testów stosowanych do wery…kacji hipotez o w÷
asnościach populacji jednowymiarowej.
2
Testy oceniajace
¾
losowość próby
2.1.1
Testy dla średniej
W testach dla średniej wery…kacji poddaje sie¾ hipoteze¾ zerowa¾ postaci
H0 :
=
0
wobec hipotezy alternatywnej, która przyjmuje jedna¾ z trzech postaci
H1 :
6=
lub
0
>
0
lub
<
0
Statystyka testowa zalez·y od trzech czynników:
- rozk÷
adu cechy w populacji
- znajomości odchylenia standardowego w populacji
- liczebności próby
Test I. W teście tym zak÷adamy, z·e badana cecha ma rozk÷ad normalny o
nieznanej średniej, jednakz·e znanym odchyleniu, tzn. X N ( ; ),
nieznane,
znane, ponadto liczebność próby jest bez znaczenia. Jako statystyk¾
e testowa¾
stosujemy wówczas statystyk¾
e
Z=
X
0
p
=
0p
X
n:
n
Decyzje¾ o odrzuceniu H0 podejmujemy w zalez·ności od tego czy obliczona
wartość statystyki testowej Z nalez·y do przedzia÷u krytycznego. Przedzia÷krytyczny jest zalez·ny od postaci hipotezy alternatywnej. Ogólnie przy określaniu
przedzia÷
u dla średniej moz·emy posi÷kować sie¾ nastepuj
¾ acymi
¾
wskazówkami.
Hipoteza alternatywna
H0 : 6= 0
H0 : > 0
H0 : < 0
gdzie z jest kwantylem rzedu
¾ 1
Obszar krytyczny
W =
1; z 2 [ z 2 ; 1
W = [z ; 1)
W = ( 1; z ]
(1)
standardowego rozk÷
adu normalnego.
Test II. W teście tym zak÷ada sie¾ rozk÷ad populacji jest dowolny o nieznanej
średniej oraz nieznanym odchyleniu, jednakz·e liczebność próby przekracza 30.
W tym przypadku jako statystyk¾
e testowa¾ stosuje sie¾ statystyk¾
e
Z=
X
S
0p
n;
gdzie S jest odchyleniem obliczanym z próby. W tym teście obszary krytyczne
pokrywaja¾ sie¾ z tymi wystepuj
¾ acymi
¾
w teście I.
Test III. W tym przypadku zak÷adamy, z·e badana cecha ma rozk÷ad normalny o nieznanych parametrach
oraz ; natomiast liczebność próby nie
przekracza 30. Stosujemy wówczas statystyk¾
e testowa¾
T =
X
0
S
3
p
n
1:
Obszar krytyczny równiez· jest uzalez·niony od postaci hipotezy alternatywnej i
jest zbliz·ony do danych zawartych we wzorach (1), nalez·y jednak zastapić
¾ z
przez t ;n 1 ; gdzie t ;n 1 jest kwantylem rzedu
¾ 1
rozk÷adu t Studenta o
n 1 stopniach swobody.
2.1.2
Test dla proporcji
Test dla proporcji s÷
uz·y do wery…kacji hipotezy o udziale w ca÷ej populacji jednostek posiadajacych
¾
wyróz·niony wariant danej cechy, co jest określane mianem
frakcji, proporcji lub wskaźnika struktury. Zak÷ada sie,
¾ z·e populacja ma rozk÷
ad
dwumianowy z parametrem p oraz próba jest liczna n > 50: Wery…kacji poddaje
sie¾ nastepuj
¾ ace
¾ hipotezy
H 0 : p = p0
H1 : p 6= p0 ; lub p > p0 ; lub p < p0 :
Jako statystyk¾
e testowa¾ stosuje sie¾ statystyk¾
e
k
p0
n
Z= p
p0 q0 ;
n
gdzie k- liczba elementów wyróz·nionych w próbie, p0 + q0 = 1: Jako obszarów
krytycznych uz·ywa sie¾ obszarów ze wzorów (1).
2.1.3
Test dla wariancji
W teście tym zak÷
ada sie,
¾ z·e rozwaz·ana cecha ma rozk÷ad normalny. Wyróz·nia
sie¾ ponadto dwa przypadki w zalez·ności od liczebności próby. W przypadku
próby nie przekraczajacej
¾ 30 elementów do wery…kacji hipotez
H0 :
H1 :
2
6=
2
0;
lub
2
=
2
0
2
>
2
0;
(2)
lub
2
<
2
0
(3)
stosuje sie¾ statystyk¾
e
2
=
nS 2
2
0
(n
=
1) Sb2
2
0
;
gdzie Sb2 jest wariancja¾ nieobcia¾z·ona¾ z próby.
Dla powyz·szej statystyki obszary krytyczne równiez· uzalez·nione sa¾od postaci
hipotezy (3) i przyjmuja¾ nastepuj
¾ ac
¾ a¾ postać
Hipoteza alternatywna
H0 : 2 6= 20
H0 : 2 > 20
H0 : 2 < 20
Obszar krytyczny
W = 0; 2 1 [ 2 2 ; 1
W = 2;1
W = 0; 2
4
Dobór poszczególnych przypadków precyzuja¾ poniz·sze rysunki
Nalez·y w tym miejscu jeszcze zaznaczyć, z·e rozk÷ad 2 wraz ze wzrostem
liczby stopni swobody zbiega do rozk÷
adu normalnego, w zwiazku
¾
z tym przy
e
duz·ej próbie ( n 30 ) korzysta sie¾ z przekszta÷cenia statystyki 2 w statystyk¾
Z za pomoca¾ wzoru
p
p
p
p
Z= 2 2
2
1= 2 2
2n 3:
Statystyka ta ma asymptotycznie rozk÷
ad normalny N (0; 1) a przedzia÷y krytyczne pokrywaja¾ sie¾ z tymi ze wzorów (1).
5
2.2
2.2.1
Testy nieparametryczne dla wnioskowania o w÷
asnościach populacji jednowymiarowej.
Test serii
Test losowości próby, zwany równiez· testem serii Stevensa, jest przydatny w
sytuacjach, gdy odnotowane wyniki eksperymentu chcemy uogólnić na wiek¾
sza¾ liczbe¾ przypadków, jednakz·e przed zastosowaniem procedur wnioskowania
musimy sie¾ upewnić, czy zebrane informacje spe÷niaja¾ postulat losowości próby.
W zwiazku
¾
z tym dokonujemy wery…kacji nastepuj
¾ acych
¾
hipotez:
H0 : dobór jednostek do próby jest losowy
H1 : dobór jednostek do próby nie jest losowy
Wartość statystyki z próby wyznaczamy w nastepuj
¾ acy
¾ sposób:
1. Kolejno zapisane n obserwacji zmiennej losowej ciag÷
¾ ej tworzy ciag
¾ podstawowy;
2. Obserwacje porzadkujemy
¾
i wyznaczamy mediane;
¾
3. W ciagu
¾ podstawowym oznaczamy wartości literami A i B zgodnie z
poniz·sza¾ zasada:
¾
xi < M e ! A
xi > M e ! B
xi = M e ! pomijamy
4. Dla nowego ciagu
¾ liter A i B zliczamy liczbe¾ serii k, która jest wartościa¾
statystyki otrzymana¾ z próby.
Obszarem krytycznym jest zbiór spe÷niajacy
¾ relacje P (k k1 ) = 2 oraz
P (k k2 ) = 2 ; gdzie k1 2 ; nA ; nB oraz k2 1 2 ; nA ; nB odczytujemy ze
stosownych tablic.
2.2.2
Testy zgodności
Testy te s÷
uz·a¾do wery…kacji hipotez odnoszacych
¾
sie¾ do postaci rozk÷
adu badanej
cechy w populacji. Ich budowa opiera sie¾ na ocenie zgodności rozk÷adu empirycznego, otrzymanego z próby losowej, z rozk÷
adem teoretycznym o określonej
postaci. Omówimy najcześciej
¾
stosowane testy: test zgodności 2 oraz test zgodności Ko÷
mogorowa-Smirnowa.
Test zgodności 2 Test ten opiera sie¾ na statystyce, która ma graniczny
rozk÷
ad 2 :Test ten moz·e być stosowany zarówno dla zmiennych skokowych, jak
i ciag÷
¾ ych. Wymaga on aby próba losowa by÷a duz·a a wyniki pogrupowane w
szereg rozdzielczy. Test ten buduje sie¾ w nastepuj
¾ acy
¾ sposób:
1. Z populacji o nieznanej dystrybuancie F losowana jest duz·a n elementowa próba prosta. Wyniki próby zostaja¾ pogrupowane w szereg rozdzielczy
o k przedzia÷
ach, tak aby ni
8: Szereg ten przedstawia rozk÷ad empiryczny
badanej zmiennej.
6
2. Na podstawie szeregu rozdzielczego estymuje sie¾ p-stwa pi za÷oz·onego teoretycznego rozk÷
adu. W przypadku zmiennej losowej ciag÷
¾ ej pi = P (xi0 X < xi1 ) =
F (xi1 ) F (xi0 ) :
3. Dla kaz·dej klasy oblicza sie¾ liczebności teoretyczne n
bi = npi :
4. Oblicza sie¾ wartość statystyki
2
=
k
X
(ni
i=1
2
n
bi )
n
bi
5. Porównuje sie¾ wartość obliczonego 2 z
hipoteze¾ H0 mówiac
¾ a¾ o zgodności rozk÷adów.
2
:
i jez·eli
2
2
to odrzucamy
Test zgodności Ko÷
mogorowa-Smirnowa Test ten jest przeznaczony dla
zmiennych losowych typu ciag÷
¾ ego i duz·ych prób. Jego budowa sprowadza sie¾
do nastepuj
¾ acych
¾
punktów.
1. Z populacji o nieznanej ciag÷
¾ ej dystrybuancie wybieramy n-elementowa¾
duz·a¾ próbe¾ losowa¾ i tworzymy szereg rozdzielczy o prawych końcach xi ; i =
1; 2; :::; k;
2. Dla kaz·dego xj obliczmy wartości dystrybuanty empirycznej;
3. Analizujemy bezwzgledne
¾
róz·nice dystrybuanty empirycznej i teoretycznej
D = sup jFn (x)
F0 (x)j
i obliczamy wartość statystyki
p
= D n:
Statystyka przy za÷
oz·eniu prawdziwości hipotezy zerowej ma rozk÷ad graniczny
Ko÷
mogorowa.
4. Jez·eli
to odrzucamy H0 , co oznacza, z·e badany rozk÷ad jest inny
niz· za÷
oz·ony, przy czy
jest odczytywana z tablic rozk÷
adu
Ko÷mogorowa.
2.3
2.3.1
Testy parametryczne dla porównywania w÷
asności dwóch
populacji
Testy dla dwóch średnich.
W tej grupie testów zak÷
ada sie,
¾ z·e pobrano n1 elementowa¾ próbe¾ z populacji o nieznanej średniej 1 oraz n2 elementowa¾ próbe¾ z rozk÷adu o średniej
2 :Hipoteza zerowa przyjmuje postać
H0 :
1
=
2
wobec hipotezy alternatywnej, która podobnie jak w przypadku jednowymiarowym moz·e przyjać
¾ jedna¾ z trzech postaci
H1 :
1
6=
2
lub
1
7
>
2
lub
1
<
2:
Konstrukcja statystyki testowej zalez·y od nastepuj
¾ acych
¾
czynników:
1. Czy znamy wariancje w populacjach?
2. Czy rozk÷
ady badanej zmiennej w populacjach sa¾ normalne?
3. Czy moz·na wnioskować, z·e wariancje w próbach sa¾ jednakowe?
4. Czy próby sa¾ duz·e, czy tez· ma÷
e?
Test I. Zak÷
adamy, z·e próby pochodza¾ z populacji o rozk÷adach normalnych
N ( 1 ; 1 ) oraz N ( 2 ; 2 ), przy czym wariancje 21 , 22 sa¾ znane. Wówczas
zmienna losowa róz·nicy średnich X 1 X 2 ma rozk÷ad normalny z parametrami
E X1
X2 =
D2 X 1
X2 =
1
2
1
n1
2
+
2
2
n2
:
Wyznaczamy wartość statystyki testowej
X1 X2
:
Z=q 2
2
1
2
n1 + n2
Obszar krytyczny pokrywa sie¾ z przypadkami omówionymi we wzorach (1).
Test II. Test ten jest stosowany, gdy badane sa¾ dwie du·
ze próby o nieznanych wariancjach, ale zak÷adamy, z·e nie sa¾ one równe 21 6= 22 : W takim
przypadku do wery…kacji hipotezy H0 : 1 = 2 stosuje sie¾ statystyk¾
e
X1 X2
Z=q 2
S22
S1
n1 + n 2
i dalej postepujemy
¾
jak w teście I.
Test III. Jez·eli populacje maja¾ rozk÷ady normalne N ( 1 ; ) oraz N ( 2 ; )
o nieznanych, ale równych wariancjach to wówczas prawdziwe sa¾ nastepuj
¾ ace
¾
w÷
asności
E X1 X2 = 1
2
D2 X 1
oraz estymator wariancji
2
X2 =
2
1
1
+
n1
n2
zadany jest wzorem
S2 =
n1 S12 + n2 S22
:
n1 + n2 2
Gdy próby sa¾ ma÷
e to do wery…kacji hipotez stosujemy statystyk¾
e
T =r
X1
X2
n1 S12 +n2 S22
1
n1 +n2 2
n1
8
+
1
n2
o rozk÷
adzie t-Studenta z
= n1 + n2
2 stopniami swobody.
Test IV. W odróz·nieniu od testu III zak÷adamy, z·e próby sa¾ duz·e. W takim
przypadku jako statystyki testowej uz·ywamy statystyki
X1 X2 p
Z=p
n1 n2 :
n1 S12 + n2 S22
Statystyki tej moz·na równiez· uz·ywać w przypadku, gdy populacje nie maja¾
rozk÷
adu normalnego.
Test V. Rozwaz·my dwie ma÷e próby z populacji o rozk÷adach normalnych i
róz·nych (nieznanych) wariancjach. W takim przypadku do wery…kacji hipotez
stosuje sie¾ statystyk¾
e
X1 X2
t= q 2
S1
S22
n 1 1 + n2 1
natomiast liczbe¾ stopni swobody ustala sie¾ ze wzoru
2
3
6
=6
6
6
6
S12
n1 1
2
S1
n1 1
+
2
n1 +1
+
S22
n2 1
2
2
S2
n2 1
2
n2 +1
gdzie dxe oznacza zaokraglenie
¾
w góre.
¾
2.3.2
7
27
7;
7
7
Testy dla dwóch proporcji
Rozwaz·my dwie populacje o rozk÷adach dwumianowych z nieznanymi parametrami p1 , p2 : Z populacji tych pobrano niezalez·nie dwie próby proste o liczebnościach n1 , n2 100: Dla wybranych prób ustalono wskaźniki (frakcje)
p1 =
k1
k2
oraz p2 =
:
n1
n2
Na podstawie dostepnych
¾
danych chcemy zwery…kować hipoteze¾ o równości
wskaźników struktury
H 0 : p1 = p2
H1 : p1 6= p2 lub p1 > p2 lub p1 < p2
Dowodzi sie,
¾ z·e zmienna losowa bed
¾ aca
¾ róz·nica¾ dwóch wskaźników struktury
ad asymptotycznie normalny z
(p1 p2 ) gdy n1 ! 1 i n2 ! 1 na rozk÷
parametrami
E (p1 p2 ) = p1 p2
D2 (p1
p2 ) =
p1 (1 p1 ) p2 (1 p2 )
+
:
n1
n2
9
Nalez·y w tym miejscu zauwaz·yć, z·e jez·eli hipoteza zerowa jest prawdziwa, czyli
p1 = p2 = p to wartość oczekiwana wynosi zero zaś wariancja
D2 (p1
p2 ) =
p (1 p) p (1 p)
+
= p (1
n1
n2
1
1
+
n1
n2
p)
:
Dla duz·ych prób wartość p ustala sie¾ z nastepuj
¾ acego
¾
wzoru
p=
k1 + k2
:
n1 + n2
Statystyka¾ testowa¾ s÷
uz·ac
¾ a¾ wery…kacji hipotez jest wówczas
p1
Z=r
p (1
p2
1
n1
p)
:
+
1
n2
Jak ÷
atwo zauwaz·yć ma ona asymptotycznie rozk÷ad N (0; 1) ;w zwiazku
¾
z tym
obszar krytyczny ustala sie¾ na podstawie wzorów (1).
2.3.3
Test dla dwóch wariancji
Test ten stosuje sie¾ do porównania rozproszenia badanej cechy w dwóch populacjach. Szczególne znaczenie tego testu wynika z faktu, z·e we wnioskowaniu
statystycznym czesto
¾
mamy do czynienia z za÷
oz·eniem dotyczacym
¾
równości
wariancji zmiennych losowych. Na przyk÷ad, postać statystyki testowej przy
wnioskowaniu o średnich w dwóch populacjach jest uzalez·niona miedzy
¾
innymi
od tego, czy moz·emy za÷
oz·yć, z·e wariancje sa¾ równe 21 = 22 ; czy tez· róz·nia¾ sie¾
one miedzy
¾
soba¾ 21 6= 22 :
Zak÷
adamy, z·e mamy do czynienia z dwiema populacjami o rozk÷
adach normalnych N ( 1 ; 1 ) oraz N ( 2 ; 2 ), przy czym parametry rozk÷
adów nie sa¾
znane. Hipoteza zerowa zak÷ada, z·e wariancja w badanych populacjach sa¾ jednakowe. Hipoteza alternatywna zaprzecza temu za÷oz·eniu.
H0 :
H1 :
2
1
6=
2
2
lub
2
1
=
2
2;
2
1
>
2
2
lub
2
1
<
2
2:
Z populacji zosta÷
y pobrane niezalez·ne dwie próby proste o liczebnościach odpowiednio n1 i n2 : Przy wery…kacji hipotezy zerowej korzysta sie¾ ze statystyki F-Snedecora.
Zmienna¾ losowa¾ o rozk÷
adzie F-Snedecora de…niuje sie¾ jako iloraz dwóch niezalez·nych zmiennych losowych U i V o rozk÷adach 2 z liczba¾ stopni swobody
1 i 2 = n2 1 odpowiednio
1 = n1
F =
U V
: :
v1 v2
Jez·eli jako niezalez·ne zmienne losowe przyjmie sie¾ statystyki z prób
U=
(n1
10
1) Sb12
V =
1) Sb22
(n2
;
które maja¾ rozk÷
ad 2 ;oraz za÷
oz·y sie¾ równość wariancji w populacjach
2
2
=
;to
wówczas
statystyka
F
przybiera postać
2
F =
2
1
=
Sb12
:
Sb2
2
Przy za÷
oz·eniu prawdziwości hipotezy zerowej statystyka ta ma rozk÷ad F-Snedecora
z liczba¾ stopni swobody 1 = n1 1 i 2 = n2 1:
Wartość statystyki z próby porównuje sie¾ z wartościa¾ krytyczna¾ testu, odczytywana¾ z tablic F-Snedecora. Obszar krytyczny uzalez·niony jest oczywiście
od postaci hipotezy alternatywnej. Wyboru obszaru krytycznego dokonujemy
zgodnie z poniz·szymi rysunkami
(4)
11
Przy badaniu równości dwóch wariancji moz·na zastosować równiez· bardziej
ogólne testy s÷
uz·ace
¾ do badania równości kilku wariancji. Przyk÷adami tego
typu testów sa¾ test Bartletta, test Levena, czy tez· test Hartleya.
2.3.4
Test Bartletta
W teście tym testujemy hipotezy
2
1
H0 :
2
1
H1 :s
2
2
=
2
2
=
2
k
= ::: =
(5)
2
k
= ::: =
W teście tym liczebności poszczególnych k prób moga¾ być róz·ne, jako statystyk¾
e
testowa¾ stosuje sie¾ statystyk¾
e
2
k
P
k) ln s2p
(N
=
1+
k
P
1
3(k 1)
1) ln s2i
(Ni
i=1
i=1
;
1
1
Ni 1
N k
gdzie Ni dla i = 1; 2; :::; k oznacza liczebności poszczególnych prób, N =
k
P
Ni ;
i=1
s2i oznacza wariancje¾ z i-tej próby,
k
X
(Ni
s2p =
1) s2i
:
N k
i=1
Obszar krytyczny wynosi
2
1
W =
2.3.5
;k 1 ; 1
:
Test Levena
Test ten jest innym przyk÷
adem testu s÷uz·acego
¾
do wery…kacji hipotez (5) i jest
alternatywa¾ dla testu Bartletta. Jako statystyk¾
e testowa¾ stosuje sie¾ statystyk¾
e
(N
k)
k
P
Ni Z i
2
i=1
W =
(k
1)
;
Ni
k P
P
Zij
i=1 j=1
gdzie Zij = Xij
Z
X i lub Zij = jXij
Zi =
M eXi j ;
Ni
P
Zij
j=1
Nj
12
;
Zi
2
Z=
k
P
Zi
i=1
:
k
Obszarem krytycznym tego testu jest
W = (F
2.3.6
;k 1;N
k ; 1) :
Test Hartleya
Test ten jest stosowany do wery…kacji hipotez (5) w przypadku równolicznych
prób. Jako statystyk¾
e testowa¾ rozwaz·a sie¾ statystyk¾
e
F =
s2max
;
s2min
gdzie
s2max = max s21 ; s22 ; :::; s2k ;
s2min = min s21 ; s22 ; :::; s2k :
Obszarem krytycznym testu jest przedzia÷wyznaczany zgodnie z rysunkiem (4).
2.4
Testy nieparametryczne dla porównania w÷
asności dwóch
populacji
Porównujac
¾ ze soba¾dwie populacje, moz·emy oceniać zgodność rozk÷adów badanej
cechy w tych populacjach. Wnioskujac
¾ na podstawie prób niezalez·nych wykorzystujemy testy nieparametryczne zwane równiez· testami jednorodności. W
testach tych nie wystepuj
¾ a¾ zazwyczaj za÷oz·enia dotyczace
¾ postaci rozk÷adu,
z ma÷
ym wyjatkiem
¾
polegajacym
¾
na tym, z·e w wiekszości
¾
testów zak÷ada sie¾
ciag÷
¾ ość badanej cechy. Testy jednorodności s÷uz·a¾ do wery…kacji hipotezy zak÷
adajacej
¾ zgodność rozk÷
adów, co zapisujemy
H0 : F1 (x) = F2 (x)
(6)
H1 : F1 (x) 6= F2 (x) :
Podstawa¾ budowy statystyk w testach jednorodności sa¾ dwie próby niezalez·ne, spośród wielu dostepnych
¾
w literaturze testów ograniczymy sie¾ tylko
do wybranych, a mianowicie: testu 2 ; testu Ko÷
mogorowa-Smirnowa, testu
Smirnowa, testu serii oraz testu mediany. Pierwsza dwa sa¾stosowane dla duz·ych
prób, pozosta÷
e zaś dla prób ma÷o licznych.
2.4.1
Test jednorodności
2
Jest to chyba najbardziej uniwersalny test jednorodności, poniewaz· moz·e być
stosowany zarówno dla cech ilościowych jak i jakościowych. Wery…kujac
¾ hipoteze¾
(6) postepujemy
¾
nastepuj
¾ aco:
¾
13
1. Wyniki dwóch niezalez·nych prób prostych grupujemy w jednakowe przedzia÷
y klasowe, tak aby liczebność kaz·dego przedzia÷
u by÷a niemniejsza od 5 (ni
5):
2. Obliczamy wartość statystyki testowej określonej wzorem
" k
#
2
n21i
n21
(n1 + n2 ) X
2
;
=
n1 n2
n + n2i
n1 + n2
i=1 1i
gdzie
n1 liczebność pierwszej próby;
n2 liczebność drugiej próby;
n1i liczebność kolejnych przedzia÷ów w pierwszej próbie
n2i liczebność kolejnych przedzia÷ów w drugiej próbie.
Przy za÷
oz·eniu prawdziwości hipotezy H0 statystyka ta ma rozk÷ad 2 z
v = k 1 stopniami swobody.
3. Obszar krytyczny testu jest prawostronny, bowiem duz·e wartości statystyki
sa¾ powodowane duz·ymi róz·nicami pomiedzy
¾
obiema próbami. Wartość kry2
, to odrzucamy
tyczna¾ odczytuje sie¾ w tablic rozk÷adu 2 : Jez·eli 2
hipoteze¾ zerowa,
¾ zak÷
adajac
¾ a¾ zgodność rozk÷adów w badanych populacjach;
róz·nice pomiedzy
¾
nimi sa¾ statystycznie istotne, czyli pochodza¾ z populacji o
róz·nych rozk÷
adach.
2.4.2
Test Ko÷
mogorowa-Smirnowa
Test ten jest stosowany do wery…kacji hipotezy o zgodności rozk÷adów dwóch
zmiennych losowych. Zak÷
ada sie¾ przy tym, z·e obie zmienne losowe maja¾ ciag÷
¾ e
dystrybuanty F1 oraz F2 odpowiednio. Dodatkowo zak÷
ada sie,
¾ z·e próby proste
pobrano niezalez·nie od siebie oraz liczebności tych prób n1 , n2 sa¾ duz·e. Wery…kacja hipotezy o zgodności rozk÷
adów sprowadza sie¾ do nastepuj
¾ acej
¾ procedury:
1. Wyniki dwóch duz·ych prób o liczebnościach n1 oraz n2 grupujemy w
szeregi rozdzielcze przedzia÷
owe, wskazane jest przy tym, aby poszczególne klasy
by÷
y stosunkowo waskie.
¾
2. Dla kaz·dego przedzia÷
u obliczamy wartości empiryczne dystrybuant F1 oraz
F2 jako iloraz liczebności skumulowanych oraz liczebności odpowiedniej próby,
w prawych końcach przedzia÷
ów, tj
F1 (xk ) =
k
P
n1i
i=1
n1
; F2 (xk ) =
k
P
n2i
i=1
n2
:
3. Obliczamy bezwzgledne
¾
róz·nice dystrybuant i wyznaczamy ich suprememu
D = sup jF1 (xk )
F2 (xk )j ;
1 k n
a nastepnie
¾
na tej podstawie wyznaczamy wartość statystyki
p
= D n;
14
n2
gdzie n = nn11+n
:
2
Przy za÷
oz·eniu zgodności rozk÷adów statystyka ma asymptotyczny rozk÷ad
-Ko÷
mogorowa.
4. Dla danego poziomu istotności
wyznaczamy obszar krytyczny testu,
wartość krytyczna¾wyznaczamy w taki sposób, aby spe÷niona by÷
a relacja P (
: Obszar krytyczny jest prawostronny, stad
¾ tez· hipoteze¾ zerowa¾odrzucamy jeśli
:
Nalez·y w tym miejscu zauwaz·yć, z·e test ten moz·na równiez· zastosować w
przypadku ma÷
ych prób. Jednakz·e w tym przypadku procedura postepowania
¾
jest nieco odmienna.
1. Porzadkujemy
¾
wyniki próby rosnaco
¾ .
2. Dla kolejnych wyników kaz·dej próby liczymy liczebności skumulowane i
obliczamy wartości dystrybuant empirycznych.
3. Wyznaczamy wartość statystyki D jak w przypadku duz·ych prób i dalej
postepujemy
¾
analogicznie jak w przypadku duz·ych prób.
2.4.3
Test serii Walda-Wolfowitza
Test Walda-Wolfowitza jest jednym z wielu testów opartych na teorii serii. Stosujemy go wtedy, gdy o zgodności dowolnych rozk÷adów badanej cechy wnioskujemy na podstawie ma÷
ych prób, o liczebnościach n1
20 oraz n2
20: Korzystanie z tego testu sprowadza sie¾ do nastepuj
¾ acej
¾ procedury.
1. Wyniki obu prób porzadkujemy
¾
w niemalejacy
¾ sposób. W otrzymanym
ciagu
¾ przyporzadkowujemy
¾
litere¾ A wynikom pochodzacym
¾
z pierwszej próby,
zaś litere¾ B wynikom drugiej próby.
2. Wyznaczmy liczbe¾ serii k. W tym przypadku serie¾ stanowia¾ elementy
pochodzace
¾ z danej próby.
3. W rozk÷
adzie liczby serii wyznaczamy obszar krytyczny testu, który jest w
tym przypadku lewostronny. Po÷
oz·enie obszaru krtytycznego wynika z faktu, z·e
jez·eli próby pochodza¾ z zupe÷nie róz·nych populacji, to wyniki zazwyczaj róz·nia¾
sie¾ miedzy
¾
soba¾ w sposób znaczacy
¾ i serii bedzie
¾
wtedy niewiele. Im bardziej
zbliz·one do siebie wyniki obu prób, tym bardziej zostana¾ one "wymieszane" i
serii bedzie
¾
wiecej.
¾
4. Jez·eli wyznaczona na podstawie prób liczba serii jest nie wieksza
¾
od
wartości krytycznej k
k ; odrzucamy hipoteze¾ zerowa,
¾ czyli stwierdzamy,
z·e próby pochodza¾ z populacji, w których rozk÷ady badanej cechy róz·nia¾ sie¾
statystycznie istotnie.
Jez·eli n1 i n2 > 20; to rozk÷ad liczby serii z prób jest w przybliz·eniu normalny
i wery…kacja hipotezy o zgodności dystrybuant opiera sie¾ na statystyce Z; która
ma rozk÷
ad asymptotyczny N (0; 1)
Z=
jK
EKj
K
15
;
)=
gdzie
EK =
2
K
=
2n1 n2
+ 1;
n 1 + n2
2n1 n2 (2n1 n2
2
n1
(n1 + n2 ) (n1 + n2
16
n2 )
1)
: