Statystyka i eksploracja danych

Transkrypt

Statystyka i eksploracja danych
Statystyka i eksploracja danych
Testy statystyczne — teoria
przygotowanie: dr A. Goroncy, dr J. Karłowska-Pik
Niech X1 , . . . , Xn będzie próbą losową prostą z rozkładu Pθ , θ ∈ Θ oraz niech α ∈ (0, 1) będzie
poziomem istotności (najczęściej 0,1, 0,05, czy 0,01).
Oznaczenia:
Φ — dystrybuanta rozkładu N(0, 1),
t1−α = Φ−1 (1 − α),
Ft(n−1) — dystrybuanta rozkładu t-Studenta z n − 1 stopniami swobody,
n−1
−1
z1−α
= Ft(n−1)
(1 − α),
ni , nij — liczebności empiryczne (zaobserwowane),
n0i , n0ij — liczebności teoretyczne,
Fχ2 (k−1) — dystrybuanta rozkładu χ2 z k − 1 stopniami swobody,
k−1
u1−α
= Fχ−1
2 (k−1) (1 − α),
Jeżeli statystyka testowa należy do obszaru krytycznego, to hipotezę zerową odrzucamy i przyjmujemy hipotezę alternatywną. Jeżeli statystyka testowa nie należy do obszaru krytycznego, to nie
ma podstaw do odrzucenia hipotezy zerowej.
W programie PASW Statistics zadeklarowany poziom istotności należy porównać z istotnością
wyliczaną przez program (tzw. p-wartość). Jest to minimalny próg odrzucenia bądź nie hipotezy
zerowej. W związku z tym hipotezę zerową odrzucamy, gdy p-wartość jest mniejsza niż deklarowany
przez nas poziom istotności, a nie mamy podstaw do odrzucenia, gdy jest większa.
1. Test Studenta dla jednej średniej.
Hipoteza zerowa: Średnia wartość zmiennej jest równa określonej wartości a0 (a = a0 ).
Hipoteza alternatywna 1.: Średnia wartość zmiennej jest różna od określonej wartości a0
(a 6= a0 ).
Hipoteza alternatywna 2.: Średnia wartość zmiennej jest mniejsza od określonej wartości a0
(a < a0 ).
Hipoteza alternatywna 3.: Średnia wartość zmiennej jest większa od określonej wartości a0
(a > a0 ).
a) X ma rozkład normalny o znanej wariancji σ 2 .
√ x̄ − a0
Statystyka testowa:
Tn = n
.
σ
Obszar krytyczny 1.: K = (−∞, −t1−α/2 ) ∪ (t1−α/2 , +∞),
Obszar krytyczny 2.: K = (−∞, −t1−α ),
Obszar krytyczny 3.: K = (t1−α , +∞).
b) X ma rozkład normalny o nieznanej wariancji σ 2 .
√ x̄ − a0
Statystyka testowa:
Tn = n
.
s
n−1
n−1
Obszar krytyczny 1.: K = (−∞, −z1−α/2
) ∪ (z1−α/2
, +∞) dla n ¬ 30,
K = (−∞, −t1−α/2 ) ∪ (t1−α/2 , +∞) dla n > 30,
n−1
Obszar krytyczny 2.: K = (−∞, −z1−α
) dla n ¬ 30,
K = (−∞, −t1−α ) dla n > 30,
n−1
Obszar krytyczny 3.: K = (z1−α
, +∞) dla n ¬ 30,
K = (t1−α , +∞) dla n > 30.
1
c) X ma rozkład dowolny, istnieje D 2 X, n > 30.
√ x̄ − a0
√ x̄ − a0
√ x̄ − a0
lub Tn = n
, lub Tn = n
,
Statystyka testowa:
Tn = n
σ0
s
ŝ
gdzie σ0 jest odchyleniem standardowym rozkładu przy założeniu
prawdziwości hipotezy zerowej, o ile wariancja rozważanego
rozkładu jest funkcją jego wartości oczekiwanej (np. w rozkładzie
”0-1”, dwumianowym, Poissona, geometrycznym itp.).
Obszar krytyczny 1.: K = (−∞, −t1−α/2 ) ∪ (t1−α/2 , +∞),
Obszar krytyczny 2.: K = (−∞, −t1−α ),
Obszar krytyczny 3.: K = (t1−α , +∞).
2. Test dla dwóch średnich i prób niezależnych
Hipoteza zerowa: Średnie wartości zmiennej są takie same w dwóch różnych populacjach
(a1 = a2 ).
Hipoteza alternatywna 1.: Średnie wartości zmiennej są różne w badanych populacjach
(a1 6= a2 ).
Hipoteza alternatywna 2.: Średnia wartość zmiennej w pierwszej populacji jest mniejsza od
średniej wartości zmiennej w drugiej populacji (a1 < a2 ).
Hipoteza alternatywna 3.: Średnia wartość zmiennej w pierwszej populacji jest większa od
średniej wartości zmiennej w drugiej populacji (a1 > a2 ).
a) X ma w obu populacjach rozkład normalny o znanych wariancjach σ12 i σ22 .
x¯1 − x¯2
Statystyka testowa:
Tn = s 2
.
σ1 σ22
+
n1 n2
Obszar krytyczny 1.: K = (−∞, −t1−α/2 ) ∪ (t1−α/2 , +∞),
Obszar krytyczny 2.: K = (−∞, −t1−α ),
Obszar krytyczny 3.: K = (t1−α , +∞).
b) X ma w obu populacjach rozkład normalny o nieznanych, ale równych wariancjach σ12 i σ22 .
x¯1 − x¯2
Statystyka testowa:
Tn = s
.
2
(n1 − 1)s1 + (n2 − 1)s22 n1 + n2
·
n1 + n2 − 2
n1 n2
n1 +n2 −2
n1 +n2 −2
Obszar krytyczny 1.: K = (−∞, −z1−α/2 ) ∪ (z1−α/2 , +∞),
n1 +n2 −2
Obszar krytyczny 2.: K = (−∞, −z1−α
),
n1 +n2 −2
Obszar krytyczny 3.: K = (z1−α
, +∞).
c) X ma w obu populacjach rozkład normalny o nieznanych wariancjach σ12 i σ22 .
x¯1 − x¯2
Statystyka testowa:
Cn = s 2
(statystyka Cochrana i Coxa).
s1
s22
+
n1 n2
1 ,n2
1 ,n2
Obszar krytyczny 1.: K = (−∞, −cn1−α/2
) ∪ (cn1−α/2
, +∞),
1 ,n2
Obszar krytyczny 2.: K = (−∞, −cn1−α
),
1 ,n2
Obszar krytyczny 3.: K = (cn1−α
, +∞),
2
gdzie
1 ,n2
cn1−α
≈
s21 n1 −1 s22 n2 −1
z
+ z1−α :
n1 1−α
n2
!
s2
s21
+ 2 .
n1 n2
!
d) X ma w obu populacjach rozkład o nieznanych wariancjach σ12 i σ22 , próby mają liczebności
większe bądź równe 100.
x¯1 − x¯2
Statystyka testowa:
Tn = s 2
.
s22
s1
+
n1 n2
Obszar krytyczny 1.: K = (−∞, −t1−α/2 ) ∪ (t1−α/2 , +∞),
Obszar krytyczny 2.: K = (−∞, −t1−α ),
Obszar krytyczny 3.: K = (t1−α , +∞).
3. Test dla dwóch średnich i prób zależnych
Hipoteza zerowa: Dwie zmienne zależne (o rozkładach normalnych) mają jednakowe średnie
(inaczej: różnica D = X − Y odpowiadających sobie wartości zmiennych ma średnią równą 0).
Hipoteza alternatywna 1.: Zmienne zależne mają różne średnie (inaczej: różnica D = X − Y
odpowiadających sobie wartości zmiennych ma średnią różną od 0).
Hipoteza alternatywna 2.: Pierwsza ze zmiennych ma średnią mniejszą niż druga (inaczej:
różnica D = X − Y odpowiadających sobie wartości zmiennych ma średnią ujemną).
Hipoteza alternatywna 3.: Pierwsza ze zmiennych ma średnią większą niż druga (inaczej:
różnica D = X − Y odpowiadających sobie wartości zmiennych ma średnią dodatnią).
d¯ √
Statystyka testowa:
Tn =
n.
sd
n−1
n−1
Obszar krytyczny 1.: K = (−∞, −z1−α/2
) ∪ (z1−α/2
, +∞) dla n ¬ 30,
K = (−∞, −t1−α/2 ) ∪ (t1−α/2 , +∞) dla n > 30,
n−1
Obszar krytyczny 2.: K = (−∞, −z1−α
) dla n ¬ 30,
K = (−∞, −t1−α ) dla n > 30,
n−1
Obszar krytyczny 3.: K = (z1−α
, +∞) dla n ¬ 30,
K = (t1−α , +∞) dla n > 30.
4. Test chi-kwadrat zgodności
Założenia testu: Zmienna ma rozkład dyskretny, przyjmuje tylko wartości l1 , . . . , lk z prawdopodobieństwami odpowiednio p01 , . . . , p0k , które nie są znane.
Hipoteza zerowa: Zmienna ma rozkład dyskretny z określonymi prawdopodobieństwami p01 , . . . , p0k .
Hipoteza alternatywna: Zmienna ma rozkład z innymi prawdopodobieństwami niż zadane.
Statystyka testowa: χ2 =
Pk
i=1
(ni − n0i )2 Pk (ni − np0i )2
= i=1
.
n0i
np0i
k−1
Obszar krytyczny: K = (u1−α
, +∞).
Uwagi:
• Jeżeli rozkład teoretyczny zależy od d nieznanych parametrów, to parametry te wyznaczamy
metodą największej wiarogodności, a liczbę stopni swobody zmniejszamy o d.
• Przybliżenie rozkładem chi-kwadrat uznajemy za dopuszczalne, gdy np0i ­ 5, i = 1, . . . , k,
a za dobre, gdy np0i ­ 10, i = 1, . . . , k. Jeśli liczba kategorii jest duża (> 6), to zgadzamy się
stosować przybliżenie rozkładem chi-kwadrat także wtedy, gdy dla jednej lub dwóch kategorii
3
1 ¬ np0i < 5. Mało liczne kategorie można również łączyć z kategoriami sąsiednimi, redukując
wówczas odpowiednio liczbę stopni swobody.
• W przypadku zmiennej o rozkładzie z ciągłą dystrybuantą dane grupujemy w k (10k ¬ n)
klas. Prawdopodobieństwa teoretyczne wyliczamy z dystrybuanty. Klasy staramy się dobrać
tak, aby prawdopodobieństwa znalezienia się w klasie były równe 1/k, a liczebności teoretyczne były co najmniej równe 5. Testujemy wówczas hipotezę zerową: Zmienna ma rozkład
o podanej dystrybuancie.
5. Test Kołmogorowa
Hipoteza zerowa: Zmienna ma rozkład o zadanej dystrybuancie F .
Hipoteza alternatywna: Zmienna ma rozkład o innej niż zadana dystrybuancie.
Wymagania testu: Ciągłość dystrybuanty.
a) n ¬ 100
Statystyka testu: Dn = max{Dn+ , Dn− },
i
i − 1 +
−
gdzie Dn = max1¬i¬n − F (x(i) ), Dn = max1¬i¬n F (x(i) ) −
.
n
n Obszar krytyczny: (dn (1−α), 1] (odczytujemy z tablic Kołmogorowa -Smirnowa, jest to taka
wartość, dla której P (Dn ­ dn (1 − α)) = α).
b) n > 100.
√
√
√
√
+
−
n
+
0,
12
+
0,
11/
n)Dn ),
Statystyka testu: nDn = n max{D
,
D
}
(czasem
(
n
n
i
i
−
1
.
gdzie Dn+ = max1¬i¬n − F (x(i) ), Dn− = max1¬i¬n F (x(i) ) −
n
n Obszar krytyczny: (λ1−α , +∞), gdzie λ1−α jest kwantylem rzędu 1 − α granicznego rozkładu
Kołmogorowa.
Uwaga: W przypadku danych zgrupowanych w klasy bierzemy pod uwagę prawy koniec każdej
z klas i zamiast podanych statystyk wyznaczamy wartość maksymalną statystyki |Fn (xi ) − F (xi )|,
gdzie Fn jest dystrybuantą empiryczną.
6. Test chi-kwadrat niezależności
Założenia testu: Cechy X, Y są jakościowe (nominalne lub o wartościach uporządkowanych).
Hipoteza zerowa: X, Y są zmiennymi niezależnymi.
Hipoteza alternatywna: X, Y są zależne.
Statystyka testowa: χ2 =
(nij − n0ij )2
, gdzie
n0ij
j=1 i=1
k P
r
P
r — liczba kategorii zmiennej X (liczba wierszy w tablicy kontyngencji),
k — liczba kategorii zmiennej Y (liczba kolumn w tablicy kontyngencji),
nij — liczba wystąpień w próbie par obserwacji (xi , yj ),
n0ij
=
n=
k
P
j=1
nij ·
r X
k
X
n
r
P
i=1
nij
,
nij .
i=1 j=1
(r−1)(k−1)
Obszar krytyczny: K = (u1−α
Uwagi:
, +∞).
4
• Podobnie jak w teście chi-kwadrat zgodności, przybliżenie statystyki testowej rozkładem chikwadrat stosujemy, gdy liczebności teoretyczne prób w wierszach (kolumnach) są stosunkowo
duże (n0ij ­ 5).
• Gdy tablica kontyngencji ma rozmiar 2 × 2 i liczebności próby w wierszach (kolumnach)
są zbyt małe, można oprzeć się na tzw. dokładnym teście Fishera (którego tu nie będziemy
omawiać).
• W przypadku pary cech o uporządkowanych kategoriach test niezależności może okazać się
zwodniczy. Może wówczas zajść potrzeba wprowadzenia odpowiedniej miary zależności między cechami (tego nie będziemy tu omawiać).
7. Test znakowanych rang Wilcoxona
Model: Dysponujemy ciągiem par obserwacji: (X1 , Y1), . . . , (Xn , Yn ). Można sobie wyobrazić, że
pary te reprezentują obserwacje „przed kuracją” i „po kuracji”.
Założenia: Pary zmiennych losowych są niezależne, natomiast Xi , Yi mogą być zależne.
Definiujemy niezależne różnice Zi = Yi −Xi , i = 1 . . . , n. Każda zmienna Zi , i = 1, . . . , n pochodzi
z tego samego rozkładu ciągłego o dystrybuancie Fi , symetrycznego względem wspólnej mediany
θ (może być ona interpretowana jako „efekt kuracji”), tzn.
∀t∈R
Fi (θ + t) + Fi (θ − t) = 1,
i = 1, . . . , n.
Hipoteza zerowa: θ = 0 (brak „efektu kuracji”, tzn. każdy rozkład Fi , i = 1, . . . , n jest symetryczny względem 0, czyli ∀t∈R Fi (t) = 1 − Fi (−t), i = 1, . . . , n).
Hipoteza alternatywna 1: θ 6= 0 (jest jakiś „efekt kuracji”).
Hipoteza alternatywna 2: θ > 0 („efekt kuracji” jest dodatni).
Hipoteza alternatywna 3: θ < 0 („efekt kuracji” jest ujemny).
Statystyka testowa: Jest to statystyka znakowanych rang Wilcoxona, czyli suma rang wartości
bezwzględnych różnic odpowiadających różnicom dodatnim:
T+ =
X
Zi >0
r(|Zi|),
gdzie
r(|Zi|) — ranga |Zi |, i = 1, . . . , n, (r(Xi ) = j ∈ {1, . . . , n} ⇐⇒ Xi = Xj:n ).
h
n(n + 1)
− w1−α/2 ∪ w1−α/2 , ∞ ,
Obszar krytyczny 1: K = −∞,
2
#
Obszar krytyczny 2: K = [w1−α , +∞).
n(n + 1)
Obszar krytyczny 3: K = −∞,
− w1−α .
2
#
gdzie wa jest kwantylem rozkładu statystyki znakowanych rang Wilcoxona (przy założeniu prawdziwości hipotezy zerowej) rzędu a (w tablicach).
Uwagi:
• Test znakowanych rang Wilcoxona jest nieparametryczną alternatywą dla testu t-Studenta
w przypadku dwóch próbek dających się połączyć w pary. Różnica między tymi testami jest
taka, że test t-Studenta testuje równość średnich arytmetycznych, a test Wilcoxona testuje
5
mediany. Test Wilcoxona nie wymaga założeń dotyczących rozkładu próby, może być więc
używany, gdy założenia testu t-Studenta nie są spełnione.
• W praktyce (w wyniku zaokrąglania) mogą pojawić się tzw. węzły, czyli grupy obserwacji
o jednakowej wartości bezwzględnej. Postępowanie w przypadku, gdy
(a) n < 25
- odrzucamy wszystkie Zi takie, że Zi = 0 i odpowiednio zmniejszamy n,
- uśredniamy rangi dla pozostałych węzłów (mogą być one niecałkowite),
- stosujemy test dokładny ze zmodyfikowanymi rangami;
(b) n ­ 25
- odrzucamy wszystkie Zi takie, że Zi = 0 i odpowiednio zmniejszamy n,
- uśredniamy rangi dla pozostałych węzłów (mogą być one niecałkowite),
- stosujemy test asymptotyczny ze modyfikowaną statystyką testową T ∗ :
T + − n(n+1)
∗
4
∗
˜
T =T = s
,
N
1 P 2
(tj − 1)tj
n(n + 1)(2n + 1)/24 − 2
j=1
gdzie:
N — liczba grup węzłów (również jednoelementowych),
tj — liczba węzłów w j-tej grupie, j = 1, . . . , N.
• Test asymptotyczny. Jeżeli n jest duże (w praktyce dla n ­ 25), używa się statystyki testowej
postaci
T + − n(n+1)
∗
4
T =q
,
n(n + 1)(2n + 1)/24
i wówczas obszary krytyczne są postaci:
i
h
Obszar krytyczny 1: K = −∞, −t1−α/2 ∪ t1−α/2 , ∞ .
Obszar krytyczny 2: K = [t1−α , +∞).
Obszar krytyczny 3: K = (−∞, −t1−α ].
6