Test chi-kwadrat zgodności rozkładów.
Transkrypt
Test chi-kwadrat zgodności rozkładów.
2 Test χ zgodności rozkładów 1 Test χ zgodności rozkładów 2 Poprawność wielu schematów wnioskowania statystycznego zależy od tego, czy założona postać rozkładu prawdopodobieństwa, któremu podlegają wyniki eksperymentu, odpowiada rzeczywistości. Zgodność dwóch rozkładów, na przykład założonego i doświadczalnego, 2 można sprawdzić przy pomocy testu χ . χ 2 jest nazwą zmiennej losowej o następującym rozkładzie gęstości prawdopodobieństwa xν 2 −1 ⋅ e − x 2 p χ ( x;ν ) = Γ(ν 2) ⋅ 2ν 2 gdzie Γ(a ) jest funkcją gamma, a ν jest liczbą stopni swobody rozkładu χ 2. Funkcja gamma jest uogólnieniem silni. Dla potrzeb rozkładu χ należy znać wartości Γ(a ) dla naturalnych i połówkowych wartości argumentu 2 Γ(a) = (a − 1)Γ(a − 1) Γ(1) = 1, Γ(n) = (n − 1)! Γ( 12 ) = π Na przykład Γ( 52 ) = 32 ⋅ Γ( 32 ) = 32 ⋅ 12 ⋅ Γ( 12 ) = 32 ⋅ 12 ⋅ π ≈ 1,329... W statystyce dowodzi się, że jeżeli niezależne zmienne xi mają rozkłady prawdopodobieństwa normalne N (0,1) , to zmienna n χ = ∑ xi2 2 i =1 ma rozkład p χ ( χ ; n) . 2 2 Test χ zgodności rozkładów 2 Testowanie zgodności wartości doświadczalnych z założoną postacią rozkładu prawdopodobieństwa wygląda następująco. Z danych konstruujemy histogram (szereg rozdzielczy), zawierający m przedziałów o końcach a0 , a1 , a 2 ,...a m . Liczebności kolejnych przedziałów wynoszą m ni i ∑n i =1 i = n , gdzie n jest całkowitą liczbą wartości. Oczekiwana liczba wartości w i − tym przedziale histogramu wynosi nPi , gdzie Pi = P(x ∈ (ai −1 , ai ) = ai ∫ p( x)dx ai −1 (ni − nPi ) 2 2 Zmienna ∑ ma (asymptotycznie przy n → ∞ ) rozkład χ nPi i =1 o ν = n − 1 stopniach swobody. Jeżeli rozkład p (x) ma r parametrów, m których estymatory wyznaczamy z analizowanego zestawu wartości, to liczba stopni swobody zmniejsza się do ν = n − r − 1. Wartości dystrybuanty rozkładu χ można znaleźć w tablicach lub korzystając z odpowiednich pakietów programów statystycznych (w tym również z arkusza kalkulacyjnego Excel). 2 Wartość oczekiwana rozkładu χ jest równa liczbie stopni swobody 2 E(χ 2 ) = ν a wariancja ( V ( χ 2 ) = 2ν , σ ( χ 2 ) = 2ν ) 2 Test χ zgodności rozkładów 3 Przykład Wyniki 100 pomiarów grupujemy w szereg rozdzielczy i tworzymy histogram (na rysunku słupki rysowane ciągłą linią). Szare słupki pokazują wartości oczekiwane histogramu, obliczone dla rozkładu normalnego N (20,00; 0,50) (założony rozkład populacji, z której pochodzą wyniki). Wysokości skrajnych słupków obliczone są dla przedziałów otwartych, w ten sposób pola obu histogramów są jednakowe i równe liczbie wszystkich wyników. 16 12 8 4 0 18.0 19.0 20.0 21.0 22.0 2 Test χ zgodności rozkładów 4 Przykład analizy χ2 danych doświadczalnych Wartość środkowa przedziału 18,7 * 18,9 19,1 19,3 19,5 19,7 19,9 20,1 20,3 20,5 20,7 20,9 21,1 21,3 * Częstość obserwowana hj 1 3 4 7 13 14 11 12 16 11 4 1 1 2 Dla populacji μ = 20,00 σ = 0,50 yj σj (yj-hj)/σj 0,82 1,46 3,20 6,03 9,68 13,27 15,54 15,54 13,27 9,68 6,03 3,20 1,46 0,82 0,91 1,21 1,79 2,46 3,11 3,64 3,94 3,94 3,64 3,11 2,46 1,79 1,21 0,91 -0,20 -1,28 -0,44 -0,40 -1,07 -0,20 1,15 0,90 -0,75 -0,42 0,83 1,23 0,38 -1,30 χ 02 ν χν2 P ( χ 2 ≥ χ 02 ;ν ) Dla próby μ' = 19,94 σ' = 0,53 yj' σj' (yj'-hj)/σj' 1,26 1,50 2,08 2,70 3,26 3,67 3,86 3,78 3,45 2,94 2,33 1,72 1,19 0,94 0,47 -0,50 0,16 0,11 -0,72 -0,14 1,01 0,60 -1,19 -0,81 0,61 1,14 0,35 -1,19 10,13 13 χ 02 7,72 11 0,78 χν2 P ( χ 2 ≥ χ 02 ;ν ) 0,68 1,59 2,24 4,34 7,29 10,64 13,50 14,89 14,28 11,90 8,62 5,43 2,97 1,41 0,88 ν 0,70 0,74 W praktyce należy zadbać o to, żeby wszystkie przedziały były odpowiednio liczne, to znaczy nie zawierały mniej niż 5-10 wartości. Przedziały histogramu nie muszą być jednakowej szerokości. W powyższym przykładzie skrajne przykłady powinny być połączone w większe. Wartości χ obliczone w tym przykładzie są trochę mniejsze od oczekiwanych (odpowiednio 13 i 11). Dyspersje tych wartości są jednak względnie duże (odpowiednio 5,1 i 4,7) i dlatego odpowiednie prawdopodobieństwa są dość bliskie 50%. Bardzo małe wartości prawdopodobieństwa (np., poniżej 3%) oznaczałyby zbyt duże różnice między rozkładami i mogłyby być podstawą do odrzucenia hipotezy o postaci rozkładu. W przypadku bardzo dużych wartości prawdopodobieństwa (bliskich 100%), co oznaczałoby bardzo dobrą zgodność wyników z zakładanym rozkładem, można podejrzewać brak losowości wyników. 2