Test serii Walda
Transkrypt
Test serii Walda
Wnioskowanie_Statystyczne_-_wykład Test serii Walda-Wolfowitza Serią nazywamy ciąg jednakowych elementów. W poniższym przykładzie mamy sześć serii (po trzy serie zer i jedynek): . Nie jest to oczywiście jedyna kombinacja kolejności pięciu zer i jedynek, dająca w wyniku sześć serii. Ponieważ każda pojedyncza kombinacja jest jednakowo prawdopodobna (jeśli jest wynikiem niezależnych losowań), to prawdopodobieństwo uzyskania danej liczby serii będzie tym większe, im więcej różnych kombinacji będzie dawać w wyniku tę liczbę serii. Sformułujmy więc problem ogólnie: Mamy elementów, w tym rozłożyć, aby uzyskać serii? zer i jedynek. Na ile sposobów możemy je Na przedstawiony powyżej przykład, zawierający pięć jedynek i pięć zer, możemy patrzeć jak na przypisanie liczbom od jeden do dziesięciu (pozycje w ciągu) zera lub jedynki: 1001001110 1 2 3 4 5 6 7 8 9 10 Inaczej mówiąc, konkretny ciąg zer i jedynek wyznaczony jest przez wylosowanie spośród liczb od jednego do tych liczb, którym mają być przypisane jedynki (pozostałym będą przypisane zera — lub odwrotnie). Czyli wszystkich możliwych ciągów zer i jedynek będzie tyle, na ile sposobów można wylosować elenentów spośród . Policzmy: pozycję (czyli numer, wypisany w dolnym rzędzie powyższej tabeli) pierwszego elementu losujemy spośród możliwości, drugiego — spośród pozostałych możliwości (jedna pozycja jest już zajęta), i tak dalej, aż pozycję ostatniego z elementów losujemy spośród pozostałych możliwości. Liczba możliwych wyników będzie iloczynem tych wszystkich liczb, czyli wyniesie Skoro wszystkie jedynki są jednakowe i nie rozróżniamy wyników różniących się ich kolejnością, to wynik ten musimy podzielić przez liczbę różnych ustawień kolejności elementów (liczbę permutacji) zbioru -elementowego. Wyniesie ona , czyli dostajemy: Ostatecznie jako liczbę różnych ustawień zer i jedynek Jest to znany z rozdziału o rozkładzie dwumianowym symbol Newtona zgadzają się z sytuacją, w ktorej "wybierać" możemy albo zer albo Pozostaje policzyć, ile z tych możliwości (przy ustalonych liczbach ciąg wyników, w którym będzie dokładnie serii? . Jego własności symetrii jedynek: jedynek i zer) wygeneruje 1. Jeśli liczba serii jest parzysta, to będziemy mieć tyle samo serii jedynek i zer (po ). Aby rozmieścić jedynek w seriach musimy wyznaczyć punktów podziału na serie; w powyższym przykładzie będą to (kropki) 1.1.111. — było 6 serii, więc mamy 2 punkty podziału. Inaczej losujemy spośród możliwych punktów podziału podziałów, jak wynika z liczby serii . Daje to możliwości. W miejsca podziału (oznaczone kropkami) wstawiamy serie zer; analogicznie możemy to zrobić na możliwości (w przykładzie: 00.00.0). Liczbę tę należy pomnożyć przez dwa ze względu na możliwość zamiany miejscami zer i jedynek. Prawdopodobieństwo danej liczby serii dostaniemy — zgodnie z klasyczną definicją prawdopodobieństwa — dzieląc liczbę wszystkich tych kombinacji jedynek i zer, które generują dokładnie serii, przez liczbę wszystkich możliwych kombinacji: 2. Jeśli liczba serii jeden więcej. jest nieparzysta, to którychś serii — zer lub jedynek — będzie dokładnie o 1. jeśli więcej jest serii jedynek, mamy jedynek dzielimy na podziału spośród serii zer i serii jedynek. serii, czyli wyznaczamy możliwych — daje to dzielimy na serii, co daje wielkości określa liczbę możliwości dających punktów możliwości. Z kolei zer możliwości. Iloczyn tych dwóch serii, jeśli więcej jest serii jedynek: 2. jeśli więcej jest serii zer, to na drodze analogicznego rozumowania dostajemy Prawdopodobieństwo dla przypadku nieparzystej liczby serii będzie sumą tych dwóch wielkości podzieloną, jak w przypadku parzystego , przez liczbę wszystkich możliwości: Pozostaje jeszcze rozważyć sytuację, w której liczba serii jest nieparzysta, jak w punkcie 2., ale mniej liczne elementy rozłożone są wyłącznie w serie jednoelementowe, na przykład 001010010100, czyli liczba serii wynosi , gdzie jest liczbą mniej licznych elementów (w tym przykładzie jedynek). Wtedy znika jeden ze składników sumy z licznika powyższego równania, gdyż zachodzić może wyłącznie przypadek 2.1 lub 2.2. Ostatecznie dostajemy następujący wzór na prawdopodobieństwo wystąpienia której drogą niezależnych losowań wylosowano zer i jedynek: gdzie i serii w próbie, w . Wzór ten określa rozkład statystyki, będącej liczbą serii w próbie złożonej z dowolnych dwóch rodzajów elementów (oznaczanych powyżej jako i 1). Dzięki niemu możemy wreszcie skonstruować kompletny test hipotezy mówiącej, że dany ciąg jest wynikiem niezależnych losowań. Przypomnijmy dane z przykładu o nieuczciwym ankieterze: 1101101000101001011101101111010110010101001010100011101 W ciągu tym występuje 25 zer i 30 jedynek, układających się w 37 serii. Na podstawie wzoru (5) możemy obliczyć rozkład prawdopodobieństwa wylosowania ciągu 25 zer i 30 jedynek, w którym będzie serii. Możliwe wartości będą w tym przypadku zawierać się między 2 (jedna seria zer i jedna jedynek) a 51 (ponieważ mniej jest zer, największa liczba serii odpowiada przypadkowi, w którym wszystkie zera układają się w serie jednoelementowe). Rozkład prawdopodobieństwa dla tego przypadku przedstawia rysunek %i 1. Rozkład prawdopodobieństw losowaniu 30 zer i 25 jedynek. liczby serii w niezależnym Załączony program oblicza według wzoru (5) rozkład prawdpodobieństwa oraz poziom istotności dla hipotezy mówiącej, że wpisany ciąg jest wynikiem niezależnych losowań. Pozwala on na "zabawę w oszukiwanie": możemy próbować wpisać taki ciąg dwóch symboli, który przejdzie test na niezależność losowań. Okazuje się, że najczęściej wpisujemy ciągi, w których występuje za dużo serii, czyli wpisujemy za krótkie serie jednakowych elementów. Zastosowania testów opartych na tej statystyce nie ograniczają się do analizy ciągów zer i jedynek (lub innych dwóch elementów). Poniżej przedstawiamy jeszcze dwa testy korzystające ze statystyki (5). Testowanie, czy próba jest wynikiem niezależnych losowań Podobny problem — pytanie, czy elementy próby są wynikiem niezależnych losowań — występuje np. przy testowaniu generatorów liczb losowych (będących kluczowym elementem metod opisywanych w pierwszej części książki). Jednak w tej sytuacji mamy do czynienia z ciągiem dowolnych liczb, a nie dwóch symboli. Pomysł jest prosty: ciąg wyników wyrażających się dowolnymi liczbami możemy zamienić na ciąg zer i jedynek, wybierając próg i przypisując wynikom większym od jedynkę, a mniejszym — zero. Jeśli chcemy mieć tyle samo zer i jedynek, jako możemy wziąć medianę próby. Do takiej serii możemy już z powodzeniem stosować opisany w poprzednim rozdziale test oparty na statystyce (5) — oczywiście zachowując kolejność elementów w próbie. Test zgodności rozkładów w dwóch populacjach Mamy dwie próby. Hipoteza zerowa mówi, że zostały wylosowane z tego samego rozkładu. Ciąg zer i jedynek tworzymy w następujący sposób: Elementy obu prób ustawiamy w jeden ciąg w kolejności od najmniejszej do największej[1]. Elementom pierwszej próby przypisujemy jedynki, a drugiej — zera. Jeśli obie próby losowano z tej samej populacji, to ilość serii w tak określonym ciągu podlega statystyce (5), czyli ponownie możemy stosować test Walda-Wolfowitza. 1. ↑ Jeśli wartości losowane są z rozkładów ciągłych, to wystąpienie jednakowych wartości jest teoretycznie niemożliwe. W praktyce wartości zapisujemy ze skończoną dokładnością; zwykle przyjmuje się, że jednakowe wartości można pominąć.