Test chi-kwadrat zgodności rozkładów.

Transkrypt

Test chi-kwadrat zgodności rozkładów.
2
Test χ zgodności rozkładów
1
Test χ zgodności rozkładów
2
Poprawność wielu schematów wnioskowania statystycznego zależy od
tego, czy założona postać rozkładu prawdopodobieństwa, któremu
podlegają wyniki eksperymentu, odpowiada rzeczywistości.
Zgodność dwóch rozkładów, na przykład założonego i doświadczalnego,
2
można sprawdzić przy pomocy testu χ .
χ 2 jest nazwą zmiennej losowej o następującym rozkładzie gęstości
prawdopodobieństwa
xν 2 −1 ⋅ e − x 2
p χ ( x;ν ) =
Γ(ν 2) ⋅ 2ν 2
gdzie Γ(a ) jest funkcją gamma, a ν jest liczbą stopni swobody rozkładu
χ 2.
Funkcja gamma jest uogólnieniem silni. Dla potrzeb rozkładu χ należy
znać wartości Γ(a ) dla naturalnych i połówkowych wartości argumentu
2
Γ(a) = (a − 1)Γ(a − 1)
Γ(1) = 1, Γ(n) = (n − 1)!
Γ( 12 ) = π
Na przykład
Γ( 52 ) = 32 ⋅ Γ( 32 ) = 32 ⋅ 12 ⋅ Γ( 12 ) = 32 ⋅ 12 ⋅ π ≈ 1,329...
W statystyce dowodzi się, że jeżeli niezależne zmienne xi mają rozkłady
prawdopodobieństwa normalne N (0,1) , to zmienna
n
χ = ∑ xi2
2
i =1
ma rozkład p χ ( χ ; n) .
2
2
Test χ zgodności rozkładów
2
Testowanie zgodności wartości doświadczalnych z założoną postacią
rozkładu prawdopodobieństwa wygląda następująco. Z danych
konstruujemy histogram (szereg rozdzielczy), zawierający m
przedziałów o końcach a0 , a1 , a 2 ,...a m . Liczebności kolejnych
przedziałów wynoszą
m
ni i
∑n
i =1
i
= n , gdzie n jest całkowitą liczbą wartości.
Oczekiwana liczba wartości w i − tym przedziale histogramu wynosi nPi ,
gdzie
Pi = P(x ∈ (ai −1 , ai ) =
ai
∫ p( x)dx
ai −1
(ni − nPi ) 2
2
Zmienna ∑
ma (asymptotycznie przy n → ∞ ) rozkład χ
nPi
i =1
o ν = n − 1 stopniach swobody. Jeżeli rozkład p (x) ma r parametrów,
m
których estymatory wyznaczamy z analizowanego zestawu wartości, to
liczba stopni swobody zmniejsza się do ν = n − r − 1.
Wartości dystrybuanty rozkładu χ można znaleźć w tablicach lub
korzystając z odpowiednich pakietów programów statystycznych (w tym
również z arkusza kalkulacyjnego Excel).
2
Wartość oczekiwana rozkładu χ jest równa liczbie stopni swobody
2
E(χ 2 ) = ν
a wariancja
(
V ( χ 2 ) = 2ν , σ ( χ 2 ) = 2ν
)
2
Test χ zgodności rozkładów
3
Przykład
Wyniki 100 pomiarów grupujemy w szereg rozdzielczy i tworzymy
histogram (na rysunku słupki rysowane ciągłą linią). Szare słupki
pokazują wartości oczekiwane histogramu, obliczone dla rozkładu
normalnego N (20,00; 0,50) (założony rozkład populacji, z której
pochodzą wyniki). Wysokości skrajnych słupków obliczone są dla
przedziałów otwartych, w ten sposób pola obu histogramów są
jednakowe i równe liczbie wszystkich wyników.
16
12
8
4
0
18.0
19.0
20.0
21.0
22.0
2
Test χ zgodności rozkładów
4
Przykład analizy χ2 danych doświadczalnych
Wartość
środkowa
przedziału
18,7 *
18,9
19,1
19,3
19,5
19,7
19,9
20,1
20,3
20,5
20,7
20,9
21,1
21,3 *
Częstość
obserwowana
hj
1
3
4
7
13
14
11
12
16
11
4
1
1
2
Dla populacji
μ = 20,00 σ = 0,50
yj
σj
(yj-hj)/σj
0,82
1,46
3,20
6,03
9,68
13,27
15,54
15,54
13,27
9,68
6,03
3,20
1,46
0,82
0,91
1,21
1,79
2,46
3,11
3,64
3,94
3,94
3,64
3,11
2,46
1,79
1,21
0,91
-0,20
-1,28
-0,44
-0,40
-1,07
-0,20
1,15
0,90
-0,75
-0,42
0,83
1,23
0,38
-1,30
χ 02
ν
χν2
P ( χ 2 ≥ χ 02 ;ν )
Dla próby
μ' = 19,94 σ' = 0,53
yj'
σj'
(yj'-hj)/σj'
1,26
1,50
2,08
2,70
3,26
3,67
3,86
3,78
3,45
2,94
2,33
1,72
1,19
0,94
0,47
-0,50
0,16
0,11
-0,72
-0,14
1,01
0,60
-1,19
-0,81
0,61
1,14
0,35
-1,19
10,13
13
χ 02
7,72
11
0,78
χν2
P ( χ 2 ≥ χ 02 ;ν )
0,68
1,59
2,24
4,34
7,29
10,64
13,50
14,89
14,28
11,90
8,62
5,43
2,97
1,41
0,88
ν
0,70
0,74
W praktyce należy zadbać o to, żeby wszystkie przedziały były
odpowiednio liczne, to znaczy nie zawierały mniej niż 5-10 wartości.
Przedziały histogramu nie muszą być jednakowej szerokości.
W powyższym przykładzie skrajne przykłady powinny być połączone w
większe.
Wartości χ obliczone w tym przykładzie są trochę mniejsze od
oczekiwanych (odpowiednio 13 i 11). Dyspersje tych wartości są jednak
względnie duże (odpowiednio 5,1 i 4,7) i dlatego odpowiednie
prawdopodobieństwa są dość bliskie 50%. Bardzo małe wartości
prawdopodobieństwa (np., poniżej 3%) oznaczałyby zbyt duże różnice
między rozkładami i mogłyby być podstawą do odrzucenia hipotezy o
postaci rozkładu.
W przypadku bardzo dużych wartości prawdopodobieństwa (bliskich
100%), co oznaczałoby bardzo dobrą zgodność wyników z zakładanym
rozkładem, można podejrzewać brak losowości wyników.
2

Podobne dokumenty