Zapisz jako PDF
Transkrypt
Zapisz jako PDF
Spis treści 1 Rozkład 1.1 Za dokładnie? 2 Test Pearsona 2.1 Test niezależności kolumn i wierszy w tabelach 2.1.1 Przykład Rozkład Próbując doprowadzić problem z poprzedniego rozdziału do rozkładu normalnego, doszliśmy do rozkładu Studenta. W tym rozdziale postąpimy odwrotnie: najpierw wprowadzimy nowy rozkład prawdopodobieństwa, a potem znajdziemy dla niego ciekawe zastosowania. Rozważmy sumę kwadratów zmiennych z rozkładu Gaussa. Oznaczmy jako niezależne zmienne losowe z rozkładu normalnego o zerowej średniej i jednostkowej wariancji Suma będzie podlegać[1] rozkładowi gdzie o gęstości prawdopodobieństwa danej następującym równaniem: oznacza liczbę stopni swobody, a funkcję Eulera.[2] W przypadku, gdy zmienne w sumie (1) są niezależne, , czyli liczba stopni swobody jest równa liczbie składników w sumie (1). W praktyce, jak zobaczymy w poniższych przykładach, do statystyki dochodzimy zwykle estymując potrzebne parametry z próby. Wtedy liczba stopni swobody jest równa liczbie elementów próby pomniejszonej o ilość więzów, czyli estymowanych z niej parametrów, wykorzystanych do obliczenia statystyki (1). Wartość oczekiwana rozkładu jest równa liczbie stopni swobody , a wariancja jest równa Również kształt rozkładu zależy od : rysunek %i 1 przedstawia wykresy . dla kilku wartości . Rozkład dla różnych liczb stopni swobody . Pozioma linia o szerokości dwóch odchyleń standardowych wycentrowana na wartości oczekiwanej każdego z rozkładów. Za dokładnie? Wróćmy raz jeszcze do przykładu z rozdziału Weryfikacja hipotez statystycznych. Tym razem skoncentrujemy się na rozrzucie wyników: Studenci wykonują ćwiczenie za pomocą znanego układu doświadczalnego, dla którego prawidłowo przeprowadzane pomiary dają wyniki z rozkładu normalnego o odchyleniu standardowym . Jakie jest prawdopodobieństwo, że seria wyników: 9,78, 9,81, 9,83, 9,86 i 9,79 pochodzi z pomiarów przeprowadzanych na tym zestawie? Przyjrzyjmy się tym danym w kontekście znanej wariancji. Lewy wykres na rysunku %i 2 przedstawia te liczby oraz ich średnią (linia przerywana) z zaznaczonym przedziałem odchylenie standardowe. Przedział ten bywa zwany potocznie "korytarzem błędu", tak jak odchylenie standardowe bywa czasami nazywane "błędem". Czy słusznie? Jeśli interpretować odchylenie standardowe jako "błąd", wszystko wydaje się w najlepszym porządku: wszystkie pomiary leżą "w granicach błędu". Ale czym tak naprawdę jest odchylenie standardowe? Definicja wariancji dana wzorem w rozdziale o momentach nie wyjaśnia dokładnie, jaka część zmiennych powinna się znaleźć w odległości mniejszej niż jej pierwiastek (czyli odchylenie standardowe) od wartości oczekiwanej.[3] Jednak w przypadku, gdy znamy (lub co najmniej zakładamy) postać rozkładu, możemy już te wielkości dokładnie obliczyć. Z zależności podanej w rozdziale o rozkładzie Gaussa wynika, że średnio ok. 36% przypadków losowanych z rozkładu Gaussa przyjmuje wartości oddalone o więcej niż jedno odchylenie standardowe od wartości średniej. A tu wszystkie pięć wypada bliżej... Trochę podejrzane, ale to jeszcze nie dowód, gdyż 36% powinniśmy otrzymać jako średnią wartość dopiero w odpowiednio długiej serii. Spróbujmy więc poszukać innej miary wiarygodności dla tego przypadku. Lewy wykres: pięć wyników pomiarów (kółka), dla których zaznaczono (jednakowe dla wszystkich) odchylenie standardowe (0,1). Linia przerywana narysowana w wartości średniej, linie kropkowane zaznaczają przedział średnia odchylenie standardowe (według hipotezy wynoszące 0,1). Prawy wykres: rozkład prawdopodobieństwa dla czterech stopni swobody i wartość według równania (3) dla przypadku przedstawionego na lewym wykresie. Skoro mamy się koncentrować na wariancji, usuńmy z hipotezy wartość oczekiwaną — rozrzut lepiej liczyć względem wartości średniej próby. Można udowodnić, [4] że wielkość gdzie , podlega rozkładowi o stopniach swobody. Rozkład ten przedstawiony jest w prawej części rysunku %i 2. Zaznaczono na nim również (przerywaną linią pionową) wartość statystyki , obliczoną dla dyskutowanego przypadku. Okazuje się, że wartość ta jest podejrzanie mała! Prawdopodobieństwo uzyskania tak niewielkiej (lub jeszcze mniejszej) wartości nie przekracza 2%, więc nawet test dwustronny na poziomie istotności 5% odrzuciłby hipotezę mówiącą, że zmienne pochodzą z rozkładu normalnego o odchyleniu standardowym równym 0,1! Można to zjawisko uznać za model "naciągania" wyników — czujemy się lepiej, gdy przedstawiamy wyniki bliskie wartości uznawanej za prawidłową. Oczywiście jest to nieuczciwa praktyka, którą — jak widać — można wykryć, jeżeli dysponujemy informacją o wariancji. Co ciekawe, "wpadki" tego typu zdarzają się nawet w raportach z badań naukowych — w tym przypadku przyczyną bywa raczej (poza niezrozumieniem statystyki) tendencja do ostrożnego zawyżania oceny błędów. Częściej spotykamy się z sytuacją, w której rozrzut jest "za duży" w stosunku do hipotezy o wariancji, jak na rysunku %i 3. Jeśli odchylenia od wartości średniej będą duże w stosunku do wariancji, otrzymamy dużą wartość statystyki . W świetle rozkładu dla odpowiedniej liczby stopni swobody, taka wartość powinna sugerować odrzucenie hipotezy mówiącej, że zmienne pochodzą z rozkładu normalnego o wariancji . W danych z rysunku %i 2 zmieniliśmy pierwszą i ostatnią liczbę, otrzymując serię: 10,1, 9,8, 9,83, 9,86 i 9,63. Tym razem rozrzut okazuje się "za duży" jak na hipotezę o pochodzeniu tych danych z rozkładu normalnego o wariancji 0,1. Test Pearsona Zdecydowana większość klasycznych testów opiera się na założeniu, że zmienne pochodzą z populacji o rozkładzie normalnym. Stosując taki test przyjmujemy za to założenie odpowiedzialność — jeśli nie było ono spełnione, wynik testu może okazać się nieprawdziwy. Ale jak to sprawdzić, jeśli jedyną informacją o populacji jest próba złożona z elementów? Dobrym zwyczajem jest oglądanie histogramów analizowanych danych. Na rysunku w rozdziale o Centralnym Twierdzeniu Granicznym używaliśmy histogramów i wykresu dopasowanych do nich funkcji Gaussa jako praktycznych argumentów za Centralnym Twierdzeniem Granicznym. Jak oceniamy "wzrokowo" podobieństwo histogramu do krzywej? W każdym z przedziałów histogramu porównujemy ilość przypadków zliczonych z danych (np. na górnym wykresie rys. %i 4 określają je szerokie jasne słupki) z wykresem dopasowanej funkcji, określającej hipotezę o rozkładzie. Ilość przypadków określona przez hipotezę o rozkładzie wynosi , gdzie jest całką rozkładu w granicach -tego przedziału histogramu (wartości te reprezentują na górnym wykresie rys. 4 wąskie szare słupki). Jeśli ilość danych w -tym binie[5] histogramu oznaczymy jako , to wygodną miarą rozbieżności danych od hipotetycznego rozkładu może być suma kwadratów każdym binie, czyli . Wyrazy tej sumy warto podzielić przez wartość oczekiwaną w , dzięki czemu zaproponowana przez Pearsona w roku 1900 statystyka dla i odpowiednio dużych przypadków w każdym z przedziałów ilości zliczeń w binach, podlega[6] rozkładowi . Za "odpowiednio duże" ilości przyjmuje się zwykle przynajmniej pięć. Dla mniejszych nie będzie dobrym przybliżeniem rozkładu powyższej statystyki. Górny wykres: histogram 200 wartości (jasne, szerokie słupki); wąskie (ciemniejsze) słupki przedstawiają wartości oczekiwane , gdzie są całkami dopasowanej krzywej (rozkładu Gaussa) w odpowiednim przedziale. Dolny wykres: rozkład statystyki dla 12 stopni swobody (15 binów minus więzy: wyznaczone z danych , wartością oraz ) z zaznaczoną dla danych z lewego wykresu. Ponieważ , hipotezę o pochodzeniu danych z rozkładu normalnego możemy przyjąć na poziomie istotności nawet 48% (test dwustronny). Test niezależności kolumn i wierszy w tabelach Test Pearsona można wykorzystać do analizy tabel, w których, podobnie jak w binach histogramu, znajdują się zliczenia przypadków. Tabele takie zwane są w języku angielskim contingency tables ; słownik Międzynarodowego Instytutu Statystyki[7] podaje jako polskie tłumaczenie "tablica kontyngencyjna" lub "tablica wielodzielcza". Przykład klasa I II III razem uratowanych 203 118 178 499 zaginionych 122 167 528 817 razem 325 285 706 1316 Figure 5: Powyższa tabela sumuje liczby ofiar słynnej katastrofy statku pasażerskiego Titanic (zob. http://www.encyclopedia-titanica.org) w zależności od klasy, którą podróżowali pasażerowie. Czy wykupienie biletu w pierwszej zamiast trzeciej klasie zwiększało szanse przeżycia? Okazuje się, że wśród uratowanych było więcej pasażerów III klasy (178), niż pasażerów II klasy (118). Ale być może wynika to po prostu z faktu, że trzecią klasą podróżowało w ogóle więcej pasażerów (706) niż drugą (285)? Trzeba te proporcje wziąć pod uwagę. Załóżmy, że szansa przeżycia nie miała nic wspólnego z tym, którą klasą podróżował pasażer. W takim przypadku szanse przeżycia byłyby jednakowe dla wszystkich pasażerów niezależnie od klasy i ocenić je można jako stosunek ilości uratowanych (499) do wszystkich pasażerów (1316), czyli ok. 38%[8] W tej sytuacji spośród pasażerów III klasy powinno ocaleć 38% z 706, czyli prawie prawie 268[9], z drugiej klasy 38% z 285 czyli około 108, wreszcie z pierwszej klasy — 38% z 325, czyli około123 pasażerów. Przewidywane ilości zaginionych możemy obliczyć z analogicznych proporcji — w każdej klasie powinno zginąć średnio 817/1316 czyli ok. 62% pasażerów. W ten sposób możemy stworzyć tabelę: klasa I II III razem uratowanych 123 108 268 499 zaginionych 202 177 438 817 razem 325 285 706 1316 Figure 6: Wartości oczekiwane dla tabeli z tabeli 6 5 (zaokrąglone do liczb całkowitych) w świetle hipotezy o niezależności kolumn i wierszy. Zwróćmy uwagę, że obliczone w ten sposób wartości oczekiwane dają takie same wartości brzegowe (czyli sumy po wierszach i kolumnach) jak dane oryginalne. W ogólnym przypadku dla tabeli o wymiarach : abb def i wartości brzegowych: a b b (a+b+c) d e f (d+e+f) (a+d) (b+e) (c+f) (a+b+c+d+e+f) hipotezę o niezależności kolumn i wierszy wyrażać będą wartości oczekiwane przedstawione w tabeli %i 7. (a+b+c) (d+e+f) (a+d) (b+e) (c+f) (a+b+c+d+e+f) Figure 7: Wartości oczekiwane dla hipotezy o niezależności kolumn i wierszy tabeli . Ale wróćmy do pytania postawionego w przykładzie %i 5. Porównując dane z tego przykładu z tabelą %i 6 widzimy, że w klasach pierwszej i drugiej ocalało więcej pasażerów, niż wynikałoby to z hipotezy o niezależności szans przeżycia od klasy. Czy są to różnice statystycznie istotne, czy mogą wynikać z przypadku? Trzeba oczywiście wrócić do Schematu Weryfikacji Hipotez Statystycznych. Wartości oczekiwane w świetle hipotezy zerowej opisuje tabela %i 6, a za statystykę testową posłuży Analogicznie do równania %i 4 obliczymy ją jako: gdzie pochodzić będą bezpośrednio z tabeli %i 5, a stopni swobody dla testu tabeli o wymiarach dla tabeli o wymiarach z tabeli %i 6. Liczba wynosi ilość stopni swobody dla testu Pearsona. . W ogólnym przypadku [10] wynosi . Według wzoru (5) sumować będziemy następujące wartości:[11] Suma tych wartości wynosi ponad 133. Prawdopodobieństwo przypadkowego uzyskania tak wielkiego dla dwóch stopni swobody jest bardzo bliskie zera, więc zależność szans na przeżycie w tej katastrofie od tego, którą klasą podróżował pasażer, możemy uznać za istotną. 1. ↑ Dowód tego faktu można znaleźć np. w książce "Probabilistyka. Rachunek Prawdopodobieństwa. Statystyka matematyczna. Procesy stochastyczne" Agnieszki i Edmunda Plucińskich. 2. ↑ ; dla 3. ↑ Oszacowanie w ogólnym przypadku podaje nierówność Czebyszewa: Dowód: jednak dla jednego odchylenia standardowego nierówność ta nie niesie żadnej informacji. 4. ↑ Dowód można znaleźć np. w książce Siegmunda Brandta "Analiza danych. Metody statystyczne i obliczeniowe". 5. ↑ W literaturze polskojęzycznej bin określa się również jako "przedział stałych wartości histogramu". 6. ↑ Dowód tego faktu można znaleźć np. w książce Romana Nowaka "Statystyka dla Fizyków". Argumentacją (nie zastępującą dowodu) będzie spostrzeżenie, że znajdujące się w mianowniku jest równe wartości oczekiwanej rozkładu Poissona dla prawdopodobieństwa . Ze wzoru w rozdziale o rozkładzie Poissona wynika, że wariancja tego rozkładu wynosi , więc podstawiając 7. 8. 9. 10. 11. wzór %i 4 można wyrazić w postaci: Przekształcenie daje zmienne z rozkładu o zerowej średniej i jednostkowej wariancji; udowodnienie, że jest to rozkład Gaussa, wymaga zastosowania przybliżeń, uzasadnionych dla "odpowiednio dużych" . ↑ International Statistical Institute (ISI), http://www.cbs.nl/isi. ↑ dokładnie 37,9..., w tekście przytaczamy wartości bardziej zaokrąglone niż w faktycznych obliczeniach. ↑ Dokładniej 267,5. Nie oznacza to bynajmniej, że jeden pasażer powinien ocaleć ,,połowicznie, tylko że 267 i 268 są liczbami najbliższymi najbardziej prawdopodobnej. ↑ Zgodnie z przypisem z rozdziału o rozkładzie Studenta będzie to liczba niezależnych zmiennych pomniejszona o liczbę obliczonych z nich parametrów — w tym wypadku sumy wierszy i kolumn (z pominięciem całkowitej sumy, którą można z nich obliczyć). ↑ W poniższej tabeli zamieszczono wartości oczekiwane zaokrąglone do liczb całkowitych; w obliczeniach wykorzystujemy dokładne wartości liczbami całkowitymi. , które nie muszą wyrażać się