Zapisz jako PDF

Transkrypt

Zapisz jako PDF
Spis treści
1 Rozkład
1.1 Za dokładnie?
2 Test Pearsona
2.1 Test niezależności kolumn i wierszy w tabelach
2.1.1 Przykład
Rozkład
Próbując doprowadzić problem z poprzedniego rozdziału do rozkładu normalnego, doszliśmy do
rozkładu Studenta. W tym rozdziale postąpimy odwrotnie: najpierw wprowadzimy nowy rozkład
prawdopodobieństwa, a potem znajdziemy dla niego ciekawe zastosowania.
Rozważmy sumę kwadratów zmiennych z rozkładu Gaussa. Oznaczmy jako
niezależne zmienne
losowe z rozkładu normalnego o zerowej średniej
i jednostkowej wariancji
Suma
będzie podlegać[1] rozkładowi
gdzie
o gęstości prawdopodobieństwa danej następującym równaniem:
oznacza liczbę stopni swobody, a
funkcję Eulera.[2]
W przypadku, gdy zmienne w sumie (1) są niezależne,
, czyli liczba stopni swobody jest równa
liczbie składników w sumie (1). W praktyce, jak zobaczymy w poniższych przykładach, do statystyki
dochodzimy zwykle estymując potrzebne parametry z próby. Wtedy liczba stopni swobody jest
równa liczbie elementów próby pomniejszonej o ilość więzów, czyli estymowanych z niej
parametrów, wykorzystanych do obliczenia statystyki (1).
Wartość oczekiwana rozkładu
jest równa liczbie stopni swobody , a wariancja jest równa
Również kształt rozkładu zależy od : rysunek %i 1 przedstawia wykresy
.
dla kilku wartości .
Rozkład
dla różnych liczb stopni swobody . Pozioma linia o
szerokości dwóch odchyleń standardowych wycentrowana na
wartości oczekiwanej każdego z rozkładów.
Za dokładnie?
Wróćmy raz jeszcze do przykładu z rozdziału Weryfikacja hipotez statystycznych. Tym razem
skoncentrujemy się na rozrzucie wyników:
Studenci wykonują ćwiczenie za pomocą znanego układu
doświadczalnego, dla którego prawidłowo przeprowadzane pomiary dają
wyniki z rozkładu normalnego o odchyleniu standardowym
. Jakie jest prawdopodobieństwo, że seria
wyników: 9,78, 9,81, 9,83, 9,86 i 9,79 pochodzi z pomiarów
przeprowadzanych na tym zestawie?
Przyjrzyjmy się tym danym w kontekście znanej wariancji. Lewy wykres na rysunku %i 2 przedstawia
te liczby oraz ich średnią (linia przerywana) z zaznaczonym przedziałem odchylenie standardowe.
Przedział ten bywa zwany potocznie "korytarzem błędu", tak jak odchylenie standardowe bywa
czasami nazywane "błędem". Czy słusznie?
Jeśli interpretować odchylenie standardowe jako "błąd", wszystko wydaje się w najlepszym porządku:
wszystkie pomiary leżą "w granicach błędu". Ale czym tak naprawdę jest odchylenie standardowe?
Definicja wariancji dana wzorem w rozdziale o momentach nie wyjaśnia dokładnie, jaka część
zmiennych powinna się znaleźć w odległości mniejszej niż jej pierwiastek (czyli odchylenie
standardowe) od wartości oczekiwanej.[3] Jednak w przypadku, gdy znamy (lub co najmniej
zakładamy) postać rozkładu, możemy już te wielkości dokładnie obliczyć. Z zależności podanej w
rozdziale o rozkładzie Gaussa wynika, że średnio ok. 36% przypadków losowanych z rozkładu Gaussa
przyjmuje wartości oddalone o więcej niż jedno odchylenie standardowe od wartości średniej. A tu
wszystkie pięć wypada bliżej... Trochę podejrzane, ale to jeszcze nie dowód, gdyż 36% powinniśmy
otrzymać jako średnią wartość dopiero w odpowiednio długiej serii. Spróbujmy więc poszukać innej
miary wiarygodności dla tego przypadku.
Lewy wykres: pięć wyników pomiarów (kółka), dla których
zaznaczono (jednakowe dla wszystkich) odchylenie standardowe
(0,1). Linia przerywana narysowana w wartości średniej, linie
kropkowane zaznaczają przedział średnia odchylenie standardowe
(według hipotezy wynoszące 0,1). Prawy wykres: rozkład
prawdopodobieństwa
dla czterech stopni swobody i wartość
według równania (3) dla przypadku przedstawionego na lewym
wykresie.
Skoro mamy się koncentrować na wariancji, usuńmy z hipotezy wartość oczekiwaną — rozrzut lepiej
liczyć względem wartości średniej próby. Można udowodnić, [4] że wielkość
gdzie
, podlega rozkładowi
o
stopniach swobody.
Rozkład ten przedstawiony jest w prawej części rysunku %i 2. Zaznaczono na nim również
(przerywaną linią pionową) wartość statystyki , obliczoną dla dyskutowanego przypadku. Okazuje
się, że wartość ta jest podejrzanie mała! Prawdopodobieństwo uzyskania tak niewielkiej (lub jeszcze
mniejszej) wartości
nie przekracza 2%, więc nawet test dwustronny na poziomie istotności 5%
odrzuciłby hipotezę mówiącą, że zmienne pochodzą z rozkładu normalnego o odchyleniu
standardowym równym 0,1!
Można to zjawisko uznać za model "naciągania" wyników — czujemy się lepiej, gdy przedstawiamy
wyniki bliskie wartości uznawanej za prawidłową. Oczywiście jest to nieuczciwa praktyka, którą —
jak widać — można wykryć, jeżeli dysponujemy informacją o wariancji. Co ciekawe, "wpadki" tego
typu zdarzają się nawet w raportach z badań naukowych — w tym przypadku przyczyną bywa raczej
(poza niezrozumieniem statystyki) tendencja do ostrożnego zawyżania oceny błędów.
Częściej spotykamy się z sytuacją, w której rozrzut jest "za duży" w stosunku do hipotezy o wariancji,
jak na rysunku %i 3. Jeśli odchylenia od wartości średniej będą duże w stosunku do wariancji,
otrzymamy dużą wartość statystyki . W świetle rozkładu
dla odpowiedniej liczby stopni
swobody, taka wartość powinna sugerować odrzucenie hipotezy mówiącej, że zmienne pochodzą z
rozkładu normalnego o wariancji .
W danych z rysunku %i 2 zmieniliśmy pierwszą i ostatnią liczbę,
otrzymując serię: 10,1, 9,8, 9,83, 9,86 i 9,63. Tym razem rozrzut
okazuje się "za duży" jak na hipotezę o pochodzeniu tych danych z
rozkładu normalnego o wariancji 0,1.
Test
Pearsona
Zdecydowana większość klasycznych testów opiera się na założeniu, że zmienne pochodzą z
populacji o rozkładzie normalnym. Stosując taki test przyjmujemy za to założenie odpowiedzialność
— jeśli nie było ono spełnione, wynik testu może okazać się nieprawdziwy.
Ale jak to sprawdzić, jeśli jedyną informacją o populacji jest próba złożona z
elementów? Dobrym
zwyczajem jest oglądanie histogramów analizowanych danych. Na rysunku w rozdziale o Centralnym
Twierdzeniu Granicznym używaliśmy histogramów i wykresu dopasowanych do nich funkcji Gaussa
jako praktycznych argumentów za Centralnym Twierdzeniem Granicznym. Jak oceniamy "wzrokowo"
podobieństwo histogramu do krzywej?
W każdym z przedziałów histogramu porównujemy ilość przypadków zliczonych z danych (np. na
górnym wykresie rys. %i 4 określają je szerokie jasne słupki) z wykresem dopasowanej funkcji,
określającej hipotezę o rozkładzie. Ilość przypadków określona przez hipotezę o rozkładzie wynosi
, gdzie jest całką rozkładu w granicach -tego przedziału histogramu (wartości te reprezentują
na górnym wykresie rys. 4 wąskie szare słupki). Jeśli ilość danych w -tym binie[5] histogramu
oznaczymy jako , to wygodną miarą rozbieżności danych od hipotetycznego rozkładu może być
suma kwadratów
każdym binie, czyli
. Wyrazy tej sumy warto podzielić przez wartość oczekiwaną w
, dzięki czemu zaproponowana przez Pearsona w roku 1900 statystyka
dla
i odpowiednio dużych
przypadków w każdym z przedziałów
ilości zliczeń w binach,
podlega[6] rozkładowi . Za "odpowiednio duże" ilości
przyjmuje się zwykle przynajmniej pięć. Dla mniejszych
nie będzie dobrym przybliżeniem rozkładu powyższej statystyki.
Górny wykres: histogram 200 wartości (jasne,
szerokie słupki); wąskie (ciemniejsze) słupki
przedstawiają wartości oczekiwane
, gdzie są
całkami dopasowanej krzywej (rozkładu Gaussa) w
odpowiednim przedziale. Dolny wykres: rozkład
statystyki
dla 12 stopni
swobody (15 binów minus więzy: wyznaczone z
danych ,
wartością
oraz
) z zaznaczoną
dla danych z lewego wykresu.
Ponieważ
, hipotezę o
pochodzeniu danych z rozkładu normalnego możemy
przyjąć na poziomie istotności nawet 48% (test
dwustronny).
Test niezależności kolumn i wierszy w tabelach
Test
Pearsona można wykorzystać do analizy tabel, w których, podobnie jak w binach histogramu,
znajdują się zliczenia przypadków. Tabele takie zwane są w języku angielskim contingency tables ;
słownik Międzynarodowego Instytutu Statystyki[7] podaje jako polskie tłumaczenie "tablica
kontyngencyjna" lub "tablica wielodzielcza".
Przykład
klasa
I
II III razem
uratowanych 203 118 178 499
zaginionych 122 167 528 817
razem
325 285 706 1316
Figure 5: Powyższa tabela sumuje liczby ofiar słynnej katastrofy statku pasażerskiego Titanic (zob.
http://www.encyclopedia-titanica.org) w zależności od klasy, którą podróżowali pasażerowie. Czy
wykupienie biletu w pierwszej zamiast trzeciej klasie zwiększało szanse przeżycia?
Okazuje się, że wśród uratowanych było więcej pasażerów III klasy (178), niż pasażerów II klasy
(118). Ale być może wynika to po prostu z faktu, że trzecią klasą podróżowało w ogóle więcej
pasażerów (706) niż drugą (285)? Trzeba te proporcje wziąć pod uwagę.
Załóżmy, że szansa przeżycia nie miała nic wspólnego z tym, którą klasą podróżował pasażer. W
takim przypadku szanse przeżycia byłyby jednakowe dla wszystkich pasażerów niezależnie od klasy i
ocenić je można jako stosunek ilości uratowanych (499) do wszystkich pasażerów (1316), czyli ok.
38%[8] W tej sytuacji spośród pasażerów III klasy powinno ocaleć 38% z 706, czyli prawie prawie
268[9], z drugiej klasy 38% z 285 czyli około 108, wreszcie z pierwszej klasy — 38% z 325, czyli
około123 pasażerów. Przewidywane ilości zaginionych możemy obliczyć z analogicznych proporcji —
w każdej klasie powinno zginąć średnio 817/1316 czyli ok. 62% pasażerów. W ten sposób możemy
stworzyć tabelę:
klasa
I
II III razem
uratowanych 123 108 268 499
zaginionych 202 177 438 817
razem
325 285 706 1316
Figure 6: Wartości oczekiwane dla tabeli z tabeli 6 5 (zaokrąglone do liczb całkowitych) w świetle
hipotezy o niezależności kolumn i wierszy.
Zwróćmy uwagę, że obliczone w ten sposób wartości oczekiwane dają takie same wartości brzegowe
(czyli sumy po wierszach i kolumnach) jak dane oryginalne. W ogólnym przypadku dla tabeli o
wymiarach
:
abb
def
i wartości brzegowych:
a
b
b
(a+b+c)
d
e
f
(d+e+f)
(a+d) (b+e) (c+f) (a+b+c+d+e+f)
hipotezę o niezależności kolumn i wierszy wyrażać będą wartości oczekiwane przedstawione w
tabeli %i 7.
(a+b+c)
(d+e+f)
(a+d)
(b+e)
(c+f)
(a+b+c+d+e+f)
Figure 7: Wartości oczekiwane dla hipotezy o niezależności kolumn i wierszy tabeli
.
Ale wróćmy do pytania postawionego w przykładzie %i 5. Porównując dane z tego przykładu z
tabelą %i 6 widzimy, że w klasach pierwszej i drugiej ocalało więcej pasażerów, niż wynikałoby to z
hipotezy o niezależności szans przeżycia od klasy. Czy są to różnice statystycznie istotne, czy mogą
wynikać z przypadku?
Trzeba oczywiście wrócić do Schematu Weryfikacji Hipotez Statystycznych. Wartości oczekiwane w
świetle hipotezy zerowej opisuje tabela %i 6, a za statystykę testową posłuży
Analogicznie do równania %i 4 obliczymy ją jako:
gdzie
pochodzić będą bezpośrednio z tabeli %i 5, a
stopni swobody dla testu tabeli o wymiarach
dla tabeli o wymiarach
z tabeli %i 6. Liczba
wynosi
ilość stopni swobody dla testu
Pearsona.
. W ogólnym przypadku
[10]
wynosi
.
Według wzoru (5) sumować będziemy następujące wartości:[11]
Suma tych wartości wynosi ponad 133. Prawdopodobieństwo przypadkowego uzyskania tak
wielkiego
dla dwóch stopni swobody jest bardzo bliskie zera, więc zależność szans na przeżycie w
tej katastrofie od tego, którą klasą podróżował pasażer, możemy uznać za istotną.
1. ↑ Dowód tego faktu można znaleźć np. w książce "Probabilistyka. Rachunek
Prawdopodobieństwa. Statystyka matematyczna. Procesy stochastyczne" Agnieszki i Edmunda
Plucińskich.
2. ↑
;
dla
3. ↑ Oszacowanie w ogólnym przypadku podaje nierówność Czebyszewa:
Dowód:
jednak
dla jednego odchylenia standardowego nierówność ta nie niesie żadnej informacji.
4. ↑ Dowód można znaleźć np. w książce Siegmunda Brandta "Analiza danych. Metody
statystyczne i obliczeniowe".
5. ↑ W literaturze polskojęzycznej bin określa się również jako "przedział stałych wartości
histogramu".
6. ↑ Dowód tego faktu można znaleźć np. w książce Romana Nowaka "Statystyka dla Fizyków".
Argumentacją (nie zastępującą dowodu) będzie spostrzeżenie, że znajdujące się w mianowniku
jest równe wartości oczekiwanej rozkładu Poissona dla prawdopodobieństwa . Ze wzoru
w rozdziale o rozkładzie Poissona wynika, że wariancja tego rozkładu wynosi
, więc
podstawiając
7.
8.
9.
10.
11.
wzór %i 4 można wyrazić w postaci:
Przekształcenie
daje zmienne z rozkładu o
zerowej średniej i jednostkowej wariancji; udowodnienie, że jest to rozkład Gaussa, wymaga
zastosowania przybliżeń, uzasadnionych dla "odpowiednio dużych"
.
↑ International Statistical Institute (ISI), http://www.cbs.nl/isi.
↑ dokładnie 37,9..., w tekście przytaczamy wartości bardziej zaokrąglone niż w faktycznych
obliczeniach.
↑ Dokładniej 267,5. Nie oznacza to bynajmniej, że jeden pasażer powinien ocaleć
,,połowicznie, tylko że 267 i 268 są liczbami najbliższymi najbardziej prawdopodobnej.
↑ Zgodnie z przypisem z rozdziału o rozkładzie Studenta będzie to liczba niezależnych
zmiennych pomniejszona o liczbę obliczonych z nich parametrów — w tym wypadku sumy
wierszy i kolumn (z pominięciem całkowitej sumy, którą można z nich obliczyć).
↑ W poniższej tabeli zamieszczono wartości oczekiwane zaokrąglone do liczb całkowitych; w
obliczeniach wykorzystujemy dokładne wartości
liczbami całkowitymi.
, które nie muszą wyrażać się

Podobne dokumenty