Test serii Walda

Transkrypt

Test serii Walda
Wnioskowanie_Statystyczne_-_wykład
Test serii Walda-Wolfowitza
Serią nazywamy ciąg jednakowych elementów. W poniższym przykładzie mamy sześć serii (po trzy
serie zer i jedynek):
.
Nie jest to oczywiście jedyna kombinacja kolejności pięciu zer i jedynek, dająca w wyniku sześć serii.
Ponieważ każda pojedyncza kombinacja jest jednakowo prawdopodobna (jeśli jest wynikiem
niezależnych losowań), to prawdopodobieństwo uzyskania danej liczby serii będzie tym większe, im
więcej różnych kombinacji będzie dawać w wyniku tę liczbę serii. Sformułujmy więc problem
ogólnie:
Mamy
elementów, w tym
rozłożyć, aby uzyskać serii?
zer i
jedynek. Na ile sposobów możemy je
Na przedstawiony powyżej przykład, zawierający pięć jedynek i pięć zer, możemy patrzeć jak na
przypisanie liczbom od jeden do dziesięciu (pozycje w ciągu) zera lub jedynki:
1001001110
1 2 3 4 5 6 7 8 9 10
Inaczej mówiąc, konkretny ciąg
zer i jedynek wyznaczony jest przez wylosowanie spośród liczb od
jednego do
tych liczb, którym mają być przypisane jedynki (pozostałym będą przypisane zera —
lub odwrotnie). Czyli wszystkich możliwych ciągów
zer i
jedynek będzie tyle, na ile sposobów
można wylosować
elenentów spośród . Policzmy: pozycję (czyli numer, wypisany w dolnym
rzędzie powyższej tabeli) pierwszego elementu losujemy spośród
możliwości, drugiego — spośród
pozostałych możliwości (jedna pozycja jest już zajęta), i tak dalej, aż pozycję ostatniego z
elementów losujemy spośród
pozostałych możliwości. Liczba możliwych wyników będzie
iloczynem tych wszystkich liczb, czyli wyniesie
Skoro wszystkie jedynki są jednakowe i
nie rozróżniamy wyników różniących się ich kolejnością, to wynik ten musimy podzielić przez liczbę
różnych ustawień kolejności elementów (liczbę permutacji) zbioru -elementowego. Wyniesie ona
, czyli
dostajemy:
Ostatecznie jako liczbę różnych ustawień
zer i
jedynek
Jest to znany z rozdziału o rozkładzie dwumianowym symbol Newtona
zgadzają się z sytuacją, w ktorej "wybierać" możemy albo
zer albo
Pozostaje policzyć, ile z tych możliwości (przy ustalonych liczbach
ciąg wyników, w którym będzie dokładnie serii?
. Jego własności symetrii
jedynek:
jedynek i
zer) wygeneruje
1. Jeśli liczba serii jest parzysta, to będziemy mieć tyle samo serii jedynek i zer (po
). Aby
rozmieścić
jedynek w
seriach musimy wyznaczyć
punktów podziału na serie; w
powyższym przykładzie będą to (kropki) 1.1.111. — było 6 serii, więc mamy 2 punkty podziału.
Inaczej losujemy spośród
możliwych punktów podziału
podziałów, jak wynika z
liczby serii . Daje to
możliwości. W miejsca podziału (oznaczone kropkami)
wstawiamy serie zer; analogicznie możemy to zrobić na
możliwości (w przykładzie:
00.00.0). Liczbę tę należy pomnożyć przez dwa ze względu na możliwość zamiany miejscami
zer i jedynek. Prawdopodobieństwo danej liczby serii dostaniemy — zgodnie z klasyczną
definicją prawdopodobieństwa — dzieląc liczbę wszystkich tych kombinacji
jedynek i
zer,
które generują dokładnie serii, przez liczbę wszystkich możliwych kombinacji:
2. Jeśli liczba serii
jeden więcej.
jest nieparzysta, to którychś serii — zer lub jedynek — będzie dokładnie o
1. jeśli więcej jest serii jedynek, mamy
jedynek dzielimy na
podziału spośród
serii zer i
serii jedynek.
serii, czyli wyznaczamy
możliwych — daje to
dzielimy na
serii, co daje
wielkości określa liczbę możliwości dających
punktów
możliwości. Z kolei
zer
możliwości. Iloczyn tych dwóch
serii, jeśli więcej jest serii jedynek:
2. jeśli więcej jest serii zer, to na drodze analogicznego rozumowania dostajemy
Prawdopodobieństwo dla przypadku nieparzystej liczby serii będzie sumą tych dwóch wielkości
podzieloną, jak w przypadku parzystego , przez liczbę wszystkich możliwości:
Pozostaje jeszcze rozważyć sytuację, w której liczba serii jest nieparzysta, jak w punkcie 2., ale
mniej liczne elementy rozłożone są wyłącznie w serie jednoelementowe, na przykład 001010010100,
czyli liczba serii wynosi
, gdzie jest liczbą mniej licznych elementów (w tym przykładzie
jedynek). Wtedy znika jeden ze składników sumy z licznika powyższego równania, gdyż zachodzić
może wyłącznie przypadek 2.1 lub 2.2.
Ostatecznie dostajemy następujący wzór na prawdopodobieństwo wystąpienia
której drogą niezależnych losowań wylosowano
zer i
jedynek:
gdzie
i
serii w próbie, w
.
Wzór ten określa rozkład statystyki, będącej liczbą serii w próbie złożonej z dowolnych dwóch
rodzajów elementów (oznaczanych powyżej jako i 1). Dzięki niemu możemy wreszcie skonstruować
kompletny test hipotezy mówiącej, że dany ciąg jest wynikiem niezależnych losowań. Przypomnijmy
dane z przykładu o nieuczciwym ankieterze:
1101101000101001011101101111010110010101001010100011101
W ciągu tym występuje 25 zer i 30 jedynek, układających się w 37 serii. Na podstawie wzoru (5)
możemy obliczyć rozkład prawdopodobieństwa wylosowania ciągu 25 zer i 30 jedynek, w którym
będzie serii. Możliwe wartości będą w tym przypadku zawierać się między 2 (jedna seria zer i
jedna jedynek) a 51 (ponieważ mniej jest zer, największa liczba serii odpowiada przypadkowi, w
którym wszystkie zera układają się w serie jednoelementowe). Rozkład prawdopodobieństwa dla
tego przypadku przedstawia rysunek %i 1.
Rozkład prawdopodobieństw
losowaniu 30 zer i 25 jedynek.
liczby serii
w niezależnym
Załączony program oblicza według wzoru (5) rozkład prawdpodobieństwa oraz poziom istotności dla
hipotezy mówiącej, że wpisany ciąg jest wynikiem niezależnych losowań. Pozwala on na "zabawę w
oszukiwanie": możemy próbować wpisać taki ciąg dwóch symboli, który przejdzie test na
niezależność losowań. Okazuje się, że najczęściej wpisujemy ciągi, w których występuje za dużo serii,
czyli wpisujemy za krótkie serie jednakowych elementów.
Zastosowania testów opartych na tej statystyce nie ograniczają się do analizy ciągów zer i jedynek
(lub innych dwóch elementów). Poniżej przedstawiamy jeszcze dwa testy korzystające ze statystyki
(5).
Testowanie, czy próba jest wynikiem niezależnych losowań
Podobny problem — pytanie, czy elementy próby są wynikiem niezależnych losowań — występuje np.
przy testowaniu generatorów liczb losowych (będących kluczowym elementem metod opisywanych w
pierwszej części książki). Jednak w tej sytuacji mamy do czynienia z ciągiem dowolnych liczb, a nie
dwóch symboli.
Pomysł jest prosty: ciąg wyników wyrażających się dowolnymi liczbami możemy zamienić na ciąg zer
i jedynek, wybierając próg
i przypisując wynikom większym od
jedynkę, a mniejszym — zero.
Jeśli chcemy mieć tyle samo zer i jedynek, jako
możemy wziąć medianę próby. Do takiej serii
możemy już z powodzeniem stosować opisany w poprzednim rozdziale test oparty na statystyce (5)
— oczywiście zachowując kolejność elementów w próbie.
Test zgodności rozkładów w dwóch populacjach
Mamy dwie próby. Hipoteza zerowa mówi, że zostały wylosowane z tego samego rozkładu. Ciąg zer i
jedynek tworzymy w następujący sposób:
Elementy obu prób ustawiamy w jeden ciąg w kolejności od najmniejszej do największej[1].
Elementom pierwszej próby przypisujemy jedynki, a drugiej — zera.
Jeśli obie próby losowano z tej samej populacji, to ilość serii w tak określonym ciągu podlega
statystyce (5), czyli ponownie możemy stosować test Walda-Wolfowitza.
1. ↑ Jeśli wartości losowane są z rozkładów ciągłych, to wystąpienie jednakowych wartości jest
teoretycznie niemożliwe. W praktyce wartości zapisujemy ze skończoną dokładnością; zwykle
przyjmuje się, że jednakowe wartości można pominąć.