Statystyka i eksploracja danych
Transkrypt
Statystyka i eksploracja danych
Statystyka i eksploracja danych Testy statystyczne — teoria przygotowanie: dr A. Goroncy, dr J. Karłowska-Pik Niech X1 , . . . , Xn będzie próbą losową prostą z rozkładu Pθ , θ ∈ Θ oraz niech α ∈ (0, 1) będzie poziomem istotności (najczęściej 0,1, 0,05, czy 0,01). Oznaczenia: Φ — dystrybuanta rozkładu N(0, 1), t1−α = Φ−1 (1 − α), Ft(n−1) — dystrybuanta rozkładu t-Studenta z n − 1 stopniami swobody, n−1 −1 z1−α = Ft(n−1) (1 − α), ni , nij — liczebności empiryczne (zaobserwowane), n0i , n0ij — liczebności teoretyczne, Fχ2 (k−1) — dystrybuanta rozkładu χ2 z k − 1 stopniami swobody, k−1 u1−α = Fχ−1 2 (k−1) (1 − α), Jeżeli statystyka testowa należy do obszaru krytycznego, to hipotezę zerową odrzucamy i przyjmujemy hipotezę alternatywną. Jeżeli statystyka testowa nie należy do obszaru krytycznego, to nie ma podstaw do odrzucenia hipotezy zerowej. W programie PASW Statistics zadeklarowany poziom istotności należy porównać z istotnością wyliczaną przez program (tzw. p-wartość). Jest to minimalny próg odrzucenia bądź nie hipotezy zerowej. W związku z tym hipotezę zerową odrzucamy, gdy p-wartość jest mniejsza niż deklarowany przez nas poziom istotności, a nie mamy podstaw do odrzucenia, gdy jest większa. 1. Test Studenta dla jednej średniej. Hipoteza zerowa: Średnia wartość zmiennej jest równa określonej wartości a0 (a = a0 ). Hipoteza alternatywna 1.: Średnia wartość zmiennej jest różna od określonej wartości a0 (a 6= a0 ). Hipoteza alternatywna 2.: Średnia wartość zmiennej jest mniejsza od określonej wartości a0 (a < a0 ). Hipoteza alternatywna 3.: Średnia wartość zmiennej jest większa od określonej wartości a0 (a > a0 ). a) X ma rozkład normalny o znanej wariancji σ 2 . √ x̄ − a0 Statystyka testowa: Tn = n . σ Obszar krytyczny 1.: K = (−∞, −t1−α/2 ) ∪ (t1−α/2 , +∞), Obszar krytyczny 2.: K = (−∞, −t1−α ), Obszar krytyczny 3.: K = (t1−α , +∞). b) X ma rozkład normalny o nieznanej wariancji σ 2 . √ x̄ − a0 Statystyka testowa: Tn = n . s n−1 n−1 Obszar krytyczny 1.: K = (−∞, −z1−α/2 ) ∪ (z1−α/2 , +∞) dla n ¬ 30, K = (−∞, −t1−α/2 ) ∪ (t1−α/2 , +∞) dla n > 30, n−1 Obszar krytyczny 2.: K = (−∞, −z1−α ) dla n ¬ 30, K = (−∞, −t1−α ) dla n > 30, n−1 Obszar krytyczny 3.: K = (z1−α , +∞) dla n ¬ 30, K = (t1−α , +∞) dla n > 30. 1 c) X ma rozkład dowolny, istnieje D 2 X, n > 30. √ x̄ − a0 √ x̄ − a0 √ x̄ − a0 lub Tn = n , lub Tn = n , Statystyka testowa: Tn = n σ0 s ŝ gdzie σ0 jest odchyleniem standardowym rozkładu przy założeniu prawdziwości hipotezy zerowej, o ile wariancja rozważanego rozkładu jest funkcją jego wartości oczekiwanej (np. w rozkładzie ”0-1”, dwumianowym, Poissona, geometrycznym itp.). Obszar krytyczny 1.: K = (−∞, −t1−α/2 ) ∪ (t1−α/2 , +∞), Obszar krytyczny 2.: K = (−∞, −t1−α ), Obszar krytyczny 3.: K = (t1−α , +∞). 2. Test dla dwóch średnich i prób niezależnych Hipoteza zerowa: Średnie wartości zmiennej są takie same w dwóch różnych populacjach (a1 = a2 ). Hipoteza alternatywna 1.: Średnie wartości zmiennej są różne w badanych populacjach (a1 6= a2 ). Hipoteza alternatywna 2.: Średnia wartość zmiennej w pierwszej populacji jest mniejsza od średniej wartości zmiennej w drugiej populacji (a1 < a2 ). Hipoteza alternatywna 3.: Średnia wartość zmiennej w pierwszej populacji jest większa od średniej wartości zmiennej w drugiej populacji (a1 > a2 ). a) X ma w obu populacjach rozkład normalny o znanych wariancjach σ12 i σ22 . x¯1 − x¯2 Statystyka testowa: Tn = s 2 . σ1 σ22 + n1 n2 Obszar krytyczny 1.: K = (−∞, −t1−α/2 ) ∪ (t1−α/2 , +∞), Obszar krytyczny 2.: K = (−∞, −t1−α ), Obszar krytyczny 3.: K = (t1−α , +∞). b) X ma w obu populacjach rozkład normalny o nieznanych, ale równych wariancjach σ12 i σ22 . x¯1 − x¯2 Statystyka testowa: Tn = s . 2 (n1 − 1)s1 + (n2 − 1)s22 n1 + n2 · n1 + n2 − 2 n1 n2 n1 +n2 −2 n1 +n2 −2 Obszar krytyczny 1.: K = (−∞, −z1−α/2 ) ∪ (z1−α/2 , +∞), n1 +n2 −2 Obszar krytyczny 2.: K = (−∞, −z1−α ), n1 +n2 −2 Obszar krytyczny 3.: K = (z1−α , +∞). c) X ma w obu populacjach rozkład normalny o nieznanych wariancjach σ12 i σ22 . x¯1 − x¯2 Statystyka testowa: Cn = s 2 (statystyka Cochrana i Coxa). s1 s22 + n1 n2 1 ,n2 1 ,n2 Obszar krytyczny 1.: K = (−∞, −cn1−α/2 ) ∪ (cn1−α/2 , +∞), 1 ,n2 Obszar krytyczny 2.: K = (−∞, −cn1−α ), 1 ,n2 Obszar krytyczny 3.: K = (cn1−α , +∞), 2 gdzie 1 ,n2 cn1−α ≈ s21 n1 −1 s22 n2 −1 z + z1−α : n1 1−α n2 ! s2 s21 + 2 . n1 n2 ! d) X ma w obu populacjach rozkład o nieznanych wariancjach σ12 i σ22 , próby mają liczebności większe bądź równe 100. x¯1 − x¯2 Statystyka testowa: Tn = s 2 . s22 s1 + n1 n2 Obszar krytyczny 1.: K = (−∞, −t1−α/2 ) ∪ (t1−α/2 , +∞), Obszar krytyczny 2.: K = (−∞, −t1−α ), Obszar krytyczny 3.: K = (t1−α , +∞). 3. Test dla dwóch średnich i prób zależnych Hipoteza zerowa: Dwie zmienne zależne (o rozkładach normalnych) mają jednakowe średnie (inaczej: różnica D = X − Y odpowiadających sobie wartości zmiennych ma średnią równą 0). Hipoteza alternatywna 1.: Zmienne zależne mają różne średnie (inaczej: różnica D = X − Y odpowiadających sobie wartości zmiennych ma średnią różną od 0). Hipoteza alternatywna 2.: Pierwsza ze zmiennych ma średnią mniejszą niż druga (inaczej: różnica D = X − Y odpowiadających sobie wartości zmiennych ma średnią ujemną). Hipoteza alternatywna 3.: Pierwsza ze zmiennych ma średnią większą niż druga (inaczej: różnica D = X − Y odpowiadających sobie wartości zmiennych ma średnią dodatnią). d¯ √ Statystyka testowa: Tn = n. sd n−1 n−1 Obszar krytyczny 1.: K = (−∞, −z1−α/2 ) ∪ (z1−α/2 , +∞) dla n ¬ 30, K = (−∞, −t1−α/2 ) ∪ (t1−α/2 , +∞) dla n > 30, n−1 Obszar krytyczny 2.: K = (−∞, −z1−α ) dla n ¬ 30, K = (−∞, −t1−α ) dla n > 30, n−1 Obszar krytyczny 3.: K = (z1−α , +∞) dla n ¬ 30, K = (t1−α , +∞) dla n > 30. 4. Test chi-kwadrat zgodności Założenia testu: Zmienna ma rozkład dyskretny, przyjmuje tylko wartości l1 , . . . , lk z prawdopodobieństwami odpowiednio p01 , . . . , p0k , które nie są znane. Hipoteza zerowa: Zmienna ma rozkład dyskretny z określonymi prawdopodobieństwami p01 , . . . , p0k . Hipoteza alternatywna: Zmienna ma rozkład z innymi prawdopodobieństwami niż zadane. Statystyka testowa: χ2 = Pk i=1 (ni − n0i )2 Pk (ni − np0i )2 = i=1 . n0i np0i k−1 Obszar krytyczny: K = (u1−α , +∞). Uwagi: • Jeżeli rozkład teoretyczny zależy od d nieznanych parametrów, to parametry te wyznaczamy metodą największej wiarogodności, a liczbę stopni swobody zmniejszamy o d. • Przybliżenie rozkładem chi-kwadrat uznajemy za dopuszczalne, gdy np0i 5, i = 1, . . . , k, a za dobre, gdy np0i 10, i = 1, . . . , k. Jeśli liczba kategorii jest duża (> 6), to zgadzamy się stosować przybliżenie rozkładem chi-kwadrat także wtedy, gdy dla jednej lub dwóch kategorii 3 1 ¬ np0i < 5. Mało liczne kategorie można również łączyć z kategoriami sąsiednimi, redukując wówczas odpowiednio liczbę stopni swobody. • W przypadku zmiennej o rozkładzie z ciągłą dystrybuantą dane grupujemy w k (10k ¬ n) klas. Prawdopodobieństwa teoretyczne wyliczamy z dystrybuanty. Klasy staramy się dobrać tak, aby prawdopodobieństwa znalezienia się w klasie były równe 1/k, a liczebności teoretyczne były co najmniej równe 5. Testujemy wówczas hipotezę zerową: Zmienna ma rozkład o podanej dystrybuancie. 5. Test Kołmogorowa Hipoteza zerowa: Zmienna ma rozkład o zadanej dystrybuancie F . Hipoteza alternatywna: Zmienna ma rozkład o innej niż zadana dystrybuancie. Wymagania testu: Ciągłość dystrybuanty. a) n ¬ 100 Statystyka testu: Dn = max{Dn+ , Dn− }, i i − 1 + − gdzie Dn = max1¬i¬n − F (x(i) ), Dn = max1¬i¬n F (x(i) ) − . n n Obszar krytyczny: (dn (1−α), 1] (odczytujemy z tablic Kołmogorowa -Smirnowa, jest to taka wartość, dla której P (Dn dn (1 − α)) = α). b) n > 100. √ √ √ √ + − n + 0, 12 + 0, 11/ n)Dn ), Statystyka testu: nDn = n max{D , D } (czasem ( n n i i − 1 . gdzie Dn+ = max1¬i¬n − F (x(i) ), Dn− = max1¬i¬n F (x(i) ) − n n Obszar krytyczny: (λ1−α , +∞), gdzie λ1−α jest kwantylem rzędu 1 − α granicznego rozkładu Kołmogorowa. Uwaga: W przypadku danych zgrupowanych w klasy bierzemy pod uwagę prawy koniec każdej z klas i zamiast podanych statystyk wyznaczamy wartość maksymalną statystyki |Fn (xi ) − F (xi )|, gdzie Fn jest dystrybuantą empiryczną. 6. Test chi-kwadrat niezależności Założenia testu: Cechy X, Y są jakościowe (nominalne lub o wartościach uporządkowanych). Hipoteza zerowa: X, Y są zmiennymi niezależnymi. Hipoteza alternatywna: X, Y są zależne. Statystyka testowa: χ2 = (nij − n0ij )2 , gdzie n0ij j=1 i=1 k P r P r — liczba kategorii zmiennej X (liczba wierszy w tablicy kontyngencji), k — liczba kategorii zmiennej Y (liczba kolumn w tablicy kontyngencji), nij — liczba wystąpień w próbie par obserwacji (xi , yj ), n0ij = n= k P j=1 nij · r X k X n r P i=1 nij , nij . i=1 j=1 (r−1)(k−1) Obszar krytyczny: K = (u1−α Uwagi: , +∞). 4 • Podobnie jak w teście chi-kwadrat zgodności, przybliżenie statystyki testowej rozkładem chikwadrat stosujemy, gdy liczebności teoretyczne prób w wierszach (kolumnach) są stosunkowo duże (n0ij 5). • Gdy tablica kontyngencji ma rozmiar 2 × 2 i liczebności próby w wierszach (kolumnach) są zbyt małe, można oprzeć się na tzw. dokładnym teście Fishera (którego tu nie będziemy omawiać). • W przypadku pary cech o uporządkowanych kategoriach test niezależności może okazać się zwodniczy. Może wówczas zajść potrzeba wprowadzenia odpowiedniej miary zależności między cechami (tego nie będziemy tu omawiać). 7. Test znakowanych rang Wilcoxona Model: Dysponujemy ciągiem par obserwacji: (X1 , Y1), . . . , (Xn , Yn ). Można sobie wyobrazić, że pary te reprezentują obserwacje „przed kuracją” i „po kuracji”. Założenia: Pary zmiennych losowych są niezależne, natomiast Xi , Yi mogą być zależne. Definiujemy niezależne różnice Zi = Yi −Xi , i = 1 . . . , n. Każda zmienna Zi , i = 1, . . . , n pochodzi z tego samego rozkładu ciągłego o dystrybuancie Fi , symetrycznego względem wspólnej mediany θ (może być ona interpretowana jako „efekt kuracji”), tzn. ∀t∈R Fi (θ + t) + Fi (θ − t) = 1, i = 1, . . . , n. Hipoteza zerowa: θ = 0 (brak „efektu kuracji”, tzn. każdy rozkład Fi , i = 1, . . . , n jest symetryczny względem 0, czyli ∀t∈R Fi (t) = 1 − Fi (−t), i = 1, . . . , n). Hipoteza alternatywna 1: θ 6= 0 (jest jakiś „efekt kuracji”). Hipoteza alternatywna 2: θ > 0 („efekt kuracji” jest dodatni). Hipoteza alternatywna 3: θ < 0 („efekt kuracji” jest ujemny). Statystyka testowa: Jest to statystyka znakowanych rang Wilcoxona, czyli suma rang wartości bezwzględnych różnic odpowiadających różnicom dodatnim: T+ = X Zi >0 r(|Zi|), gdzie r(|Zi|) — ranga |Zi |, i = 1, . . . , n, (r(Xi ) = j ∈ {1, . . . , n} ⇐⇒ Xi = Xj:n ). h n(n + 1) − w1−α/2 ∪ w1−α/2 , ∞ , Obszar krytyczny 1: K = −∞, 2 # Obszar krytyczny 2: K = [w1−α , +∞). n(n + 1) Obszar krytyczny 3: K = −∞, − w1−α . 2 # gdzie wa jest kwantylem rozkładu statystyki znakowanych rang Wilcoxona (przy założeniu prawdziwości hipotezy zerowej) rzędu a (w tablicach). Uwagi: • Test znakowanych rang Wilcoxona jest nieparametryczną alternatywą dla testu t-Studenta w przypadku dwóch próbek dających się połączyć w pary. Różnica między tymi testami jest taka, że test t-Studenta testuje równość średnich arytmetycznych, a test Wilcoxona testuje 5 mediany. Test Wilcoxona nie wymaga założeń dotyczących rozkładu próby, może być więc używany, gdy założenia testu t-Studenta nie są spełnione. • W praktyce (w wyniku zaokrąglania) mogą pojawić się tzw. węzły, czyli grupy obserwacji o jednakowej wartości bezwzględnej. Postępowanie w przypadku, gdy (a) n < 25 - odrzucamy wszystkie Zi takie, że Zi = 0 i odpowiednio zmniejszamy n, - uśredniamy rangi dla pozostałych węzłów (mogą być one niecałkowite), - stosujemy test dokładny ze zmodyfikowanymi rangami; (b) n 25 - odrzucamy wszystkie Zi takie, że Zi = 0 i odpowiednio zmniejszamy n, - uśredniamy rangi dla pozostałych węzłów (mogą być one niecałkowite), - stosujemy test asymptotyczny ze modyfikowaną statystyką testową T ∗ : T + − n(n+1) ∗ 4 ∗ ˜ T =T = s , N 1 P 2 (tj − 1)tj n(n + 1)(2n + 1)/24 − 2 j=1 gdzie: N — liczba grup węzłów (również jednoelementowych), tj — liczba węzłów w j-tej grupie, j = 1, . . . , N. • Test asymptotyczny. Jeżeli n jest duże (w praktyce dla n 25), używa się statystyki testowej postaci T + − n(n+1) ∗ 4 T =q , n(n + 1)(2n + 1)/24 i wówczas obszary krytyczne są postaci: i h Obszar krytyczny 1: K = −∞, −t1−α/2 ∪ t1−α/2 , ∞ . Obszar krytyczny 2: K = [t1−α , +∞). Obszar krytyczny 3: K = (−∞, −t1−α ]. 6