Spis treści Weryfikacja hipotez statystycznych

Transkrypt

Spis treści Weryfikacja hipotez statystycznych
Wnioskowanie_Statystyczne_-_wykład
Spis treści
1 Weryfikacja hipotez statystycznych
1.1 Przykład
2 Test : rozkład normalny, znane i
2.1 Poziom istotności i moc testu
2.2 Wielokrotne porównania i poprawka Bonferroniego
3 Schemat Weryfikacji Hipotez Statystycznych raz jeszcze
Weryfikacja hipotez statystycznych
Przykład
W ramach ćwiczeń studenci mierzą przyspieszenie ziemskie za pomocą znanego układu
doświadczalnego. Jak ocenić, czy przedstawiona przez studenta wartość (np.
prawidłowego pomiaru?
) jest wynikiem
W poprawnie zaprojektowanym doświadczeniu źródłem rozrzutu wyników powinny być tylko błędy
przypadkowe,[1] czyli dające jednakowe szanse odchylenia "na plus", jak i "na minus". Jeśli takich
błędów jest dużo i żaden nie dominuje nad innymi to zwykle możemy uznać — na podstawie
Centralnego Twierdzenia Granicznego — że wyniki będą podlegać rozkładowi Gaussa.[2] Wartością
oczekiwaną tego rozkładu będzie "prawdziwa" wartość przyspieszenia ziemskiego, czyli
.
Możemy oceniać, że wyniki bliskie
pochodzą z prawidłowo przeprowadzonych doświadczeń,
a liczby odległe od tej wartości są wynikiem grubych błędów metodycznych. Ale jak bliskie i jak
odległe? Ogólnie nie ma sensu stwierdzenie typu "jeśli wynik odbiega od wartości tablicowej o więcej
niż dwa, to świadczy o błędzie". Bo jeśliby np. ten sam wynik podawać w innych jednostkach, to
różnica tego samego wyniku i wyrażonej odpowiednio wartości tablicowej mogłaby wynieść np.
zamiast
.
W takim razie może wartość względna? Jeśliby różnicę (odchylenie od wartości tablicowej, czyli
oczekiwanej) podzielić przez wartość oczekiwaną, to zamiast
lub
otrzymalibyśmy w
każdym z przypadków tę samą różnicę względną — około 20%. To już lepiej, ale wciąż nie bierzemy
pod uwagę faktycznego rozrzutu: studenci wykonujący doświadczenia na dokładniejszym zestawie
będą osiągali znacznie mniejsze błędy procentowe, a nam chodzi o ocenę poprawności wykonania
doświadczenia, a nie jakości zestawu pomiarowego.
No właśnie, jakość zestawu pomiarowego powinniśmy zbadać oddzielnie! W tym przypadku
opisującym ją parametrem będzie rozrzut (odchylenie standardowe) wyników uzyskiwanych w
prawidłowo przeprowadzanych pomiarach. Możemy go ocenić na przykład na podstawie serii
wyników uzyskanych przez doświadczonych asystentów, używając estymatora wariancji z próby.
Musimy przyjąć założenie, że będą oni wykonywać doświadczenie prawidłowo i rozrzut wyników
będzie odzwierciedlał tylko dokładność aparatury i inne nieuniknione źródła błędów, a nie grube
błędy metodologiczne, które to właśnie za pomocą tej procedury chcemy wykryć u studentów.
Teraz wreszcie możemy przystąpić do formułowania hipotezy. Ustalamy, że wyniki wyrażamy w .
Załóżmy, że określone według powyższej procedury odchylenie standardowe wynosi 0,1, a ocenić
musimy studenta, który na przyspieszenie ziemskie otrzymał wynik 10. Hipoteza określająca, że
wykonywał on doświadczenie prawidłowo, będzie równoważna stwierdzeniu:
liczbę 10 wylosowano z rozkładu normalnego o średniej
standardowym
i odchyleniu
Rozkład wyników pomiarów
przyspieszenia ziemskiego pod
wpływem gaussowskich błędów
o jednostkowej wariancji (
).
Test : rozkład normalny, znane
i
Jako miarę wyrażającą, na ile uzyskany wynik "pasuje" do postawionej hipotezy, możemy przyjąć jego
odchylenie od wartości oczekiwanej, podzielone — dla uwzględnienia rozrzutu statystycznego —
przez odchylenie standardowe (pierwiastek wariancji). Jeśli zmienna losowa pochodzi z rozkładu
Gaussa o średniej i wariancji , to jej przekształcenie
daje zmienną
ze "standardowego" rozkładu Gaussa o
i
.[3]
Dla zmiennej znane są już dokładnie prawdopodobieństwa odchyleń od wartości oczekiwanej —
przypomnijmy rysunek i zależności:
Rysunek z rozdziału o rozkładzie Gaussa —
standardowy rozkład Gaussa (
).
Teraz możemy już określić — wedle ogólnie przyjętej terminologii — podstawowe elementy testu,
który będziemy wykonywać:
Hipoteza zerowa zakłada, że pomiar wykonywano poprawnie.
Statystyką testową — czyli miarą badanego efektu — będzie różnica uzyskanego wyniku i jego
wartości tablicowej ("prawdziwej", znanej skądinąd), podzielona przez wariancję wyników
uzyskiwanych w świetle hipotezy zerowej, czyli przy prawidłowym wykonywaniu eksperymentów:
Rozkładem statystyki testowej ( ) w świetle hipotezy zerowej będzie standardowy rozkład
normalny o wartości oczekiwanej równej zeru i jednostkowej wariancji.
Poziom istotności
zasługuje na osobny rozdział.
Poziom istotności i moc testu
Nad znaczeniem tych pojęć musimy się jeszcze chwilę zastanowić, bowiem konieczność wyboru
poziomu istotności testu jest najmniej eleganckim (najczęściej arbitralnym), lecz niestety koniecznym
elementem weryfikacji hipotez. Dlaczego koniecznym?
Przyjrzyjmy się rysunkowi 1. Największe są prawdopodobieństwa uzyskania wyników w pobliżu 9,81,
powiedzmy między 9,6 a 10,1. Jednak według wzoru na rozkład Gaussa istnieje również niezerowe
prawdopodobieństwo uzyskania wielkości bardzo dużej, na przykład większej niż 20.[4] Biorąc to
dosłownie, powinniśmy zaliczać ćwiczenie studentom przynoszącym dowolne wyniki, ale nie jest to
sprawiedliwe w stosunku do tych, którzy pracowicie przygotowali prawidłowy eksperyment zamiast
podać w wyniku np. swój numer buta[5] (podejrzenie tego typu będziemy dalej określać mianem
hipotezy alternatywnej).
Niestety okazuje się, że aby dokonać sprawiedliwej oceny, musimy z góry założyć pewien
kontrolowany poziom dopuszczalnej niesprawiedliwości. Jeśli uznamy, że w jednym przypadku na
dwadzieścia możemy skrzywdzić studenta, który pomimo prawidłowego wykonania doświadczenia
uzyskał odległy od wartości tablicowej wynik, to będziemy mogli dokładnie ustalić granice akceptacji
wyników jako "wylosowanych z populacji eksperymentów przeprowadzonych prawidłowo". Jak to
zrobić?
Przyjęcie poziomu istotności testu na poziomie 5% oznacza, że będziemy odrzucać różnice większe,
niż mogłyby wystąpić co najwyżej w pięciu procentach losowań. Można to przetłumaczyć na
konkretne wartości statystyki — w tym przypadku z równania (1). Trzeba po prostu znaleźć taką
wartość
, aby prawdopodobieństwo wylosowania wartości większej niż
wyniosło
5%. Jeśli
jest rozkładem statystyki testowej, to wartość
spełnia równanie
Rozkład gaussowskich błędów pomiarów o
jednostkowej wariancji (
).
Zaznaczone obszary odrzucenia hipotezy
zerowej (obszary krytyczne) na poziomie
istotności 5% (a) — test jednostronny (pole
obszaru zacieniowanego wynosi 0,05
jednostkowego pola pod krzywą), (b) —
dwustronny (suma pól obszarów
zacieniowanych wynosi 0,05).
Na rysunku 2 będzie to odpowiadać polu pod wykresem gęstości prawdopodobieństwa na prawo od
.
Zaraz, ale dlaczego tylko na prawo? Przecież równie nieprawdopodobne powinny być bardzo małe
wartości wyników pomiaru, czyli silnie ujemne wartości statystyki. Z problemem tym zetknęliśmy się
już w rozdziale o testach permutacyjnych — wyjściem jest podzielenie pola odpowiadającego
poziomowi istotności przez dwa (rys. 2b). Dzięki temu otrzymujemy jednoznaczny dla danego
poziomu istotności obszar akceptacji, czyli przedział wartości statystyki, dla których będziemy
przyjmować hipotezę zerową.
Wiemy już, że w około jednym przypadku na dwadzieścia (5%) pozwalamy sobie skrzywdzić studenta,
czyli odrzucić prawdziwą hipotezę o prawidłowym wykonywaniu eksperymentu. A co dzięki temu
zyskujemy? Im większy poziom istotności, tym większa moc testu, czyli prawdopodobieństwo
odrzucenia hipotezy fałszywej.[6]
Wróćmy do podejrzenia, że zamiast wyników pomiarów niektórzy studenci podawali liczby luźno
związane z numerem buta podzielonym np. przez 4 ("hipoteza alternatywna"); rozkład tych liczb
mógłby wyglądać na przykład tak jak linia przerywana na rysunku %i 3. Wtedy też mogą trafić się
wartości bliskie 9,81, czyli leżące w "obszarze akceptacji", który przyjęliśmy dla testu. Jednak im
większy poziom istotności, tym mniejszy obszar akceptacji, a wtedy również mniejsze
prawdopodobieństwo przyjęcia hipotezy fałszywej.[7]
Na górnym wykresie rysunku rys. 3 zacieniowano pole odpowiadające prawdopodobieństwu
przyjęcia którejś z możliwych hipotez alternatywnych (np. mówiącej o ¼ numeru buta). Moc testu to
prawdopodobieństwo odrzucenia hipotezy alternatywnej, zaznaczone na dolnym wykresie
rysunku %i 3.
Linią przerywaną jest oznaczony rozkład
jednej z możliwych hipotez alternatywnych
dla testu według rys. %i 2(b). Na górnym
wykresie zacieniowany obszar odpowiada
prawdopodobieństwu błędnej akceptacji
hipotezy alternatywnej. Na dolnym
zacieniowany obszar odpowiada
prawdopodobieństwu odrzucenia hipotezy
alternatywnej, czyli mocy testu względem
tej hipotezy alternatywnej. Linia ciągła —
statystyka testowa z rysunku %i 2 (obszary
krytyczne dla testu dwustronnego).
Jak widać, moc testu (dla danej hipotezy zerowej i poziomu istotności) zależy od hipotezy
alternatywnej, dla której przykładowy rozkład prawdopodobieństwa na rysunku %i 3 oznaczono linią
przerywaną. Niestety, zwykle nie znamy rozkładów prawdopodobieństwa wszystkich możliwych
hipotez alternatywnych, i dokładne określenie mocy testu w ich świetle nie jest możliwe. Ogólnie
warto zauważyć, że:
im większy poziom istotności, tym mniejszy obszar akceptacji (czyli przedział wartości
statystyki, dla których akceptujemy hipotezę zerową),
im mniejszy obszar akceptacji (na rysunku %i 3 między — 1,96 a 1,96), tym mniejsze
prawdopodobieństwo akceptacji dla każdej hipotezy alternatywnej[8] i tym większa moc testu.
Ergo: im większy poziom istotności, tym większa moc testu.
Wielokrotne porównania i poprawka Bonferroniego
Czego należy oczekiwać, gdy ten sam eksperyment powtórzymy 20 razy, za każdym razem badając
istotność wyników na poziomie 5%?
Schemat Weryfikacji Hipotez Statystycznych raz jeszcze
Rozwiązawszy napotkane problemy, możemy raz jeszcze powrócić do Schematu Weryfikacji Hipotez
Statystycznych, który wykorzystywaliśmy już w podrozdziałach terminologia przy weryfikacji hipotez
statystycznych, poziom istotności testu i testy permutacyjne dla większych liczebności w rozdziale o
testach permutacyjnych. Wypiszemy go od początku w zastosowaniu do przykładu.
1. Jako hipotezę zerową przyjmujemy, że mamy do czynienia z wynikiem prawidłowo
przeprowadzonego pomiaru.
2. Jako statystykę testową przyjmujemy różnicę wyniku i wartości oczekiwanej rozkładu
określonego przez hipotezę zerową (w tym przypadku 10—9,81), podzieloną przez odchylenie
standardowe wyników wyznaczone dla warunków odpowiadających hipotezie zerowej
(poprawne wykonywanie pomiarów).
3. Za rozkład statystyki testowej w świetle hipotezy zerowej przyjmujemy standardowy
rozkład normalny o wartości oczekiwanej 0 i jednostkowej wariancji.
4. Ustalamy poziom istotności testu — na przykład 5%, akceptując tym samym możliwość
odrzucenia hipotezy prawdziwej w jednym przypadku na dwadzieścia.
5. Znajdujemy wartości statystyki
wyznaczające obszar akceptacji hipotezy zerowej.
Dla testu dwustronnego będą one wyznaczone przez związki
. W tym
przypadku będą to liczby — 1,96 i 1,96, co oznacza, że hipotezę zerową będziemy przyjmować
dla wartości statystyki testowej pomiędzy tymi dwoma wielkościami.
6. Obliczamy wartość statystyki testowej dla badanej zmiennej losowej, która w tym przypadku
jest różnicą otrzymanej wartości (10) i wartości tablicowej podzieloną przez odchylenie
standardowe: (10 - 9,81)/0,1 = 1,9.
7. Otrzymana wartość leży w obszarze akceptacji, więc hipotezę zerową przyjmujemy.
I tak to wygląda w teorii, jednak po wykonaniu takiej procedury (szczególnie, jeśli wynik byłby "nie
po naszej myśli") możemy się zastanawiać: a gdybyśmy tak wybrali większy poziom istotności, może
hipoteza zostałaby odrzucona?
Oczywiście nie warto "próbować" — możemy od razu obliczyć największy poziom istotności, na
którym można przyjąć hipotezę zerową dla wartości zmiennej losowej
będącej wynikiem
doświadczenia. Będzie on określony wzorem:
gdzie
oznacza rozkład prawdopodobieństwa według hipotezy zerowej, a czynnik 2 wynika ze
stosowania testu dwustronnego. Dla wartości 1,9 występującej w omawianym przykładzie
dostaniemy
Jak widać, w tym przypadku test na poziomie istotności większym niż 5,8% dałby odpowiedź
negatywną. Programy do obliczeń statystycznych podają zwykle w wyniku tę właśnie wielkość ,
określającą największy poziom istotności, na którym możemy zaakceptować badaną hipotezę. Coraz
częściej wartość tę podajemy również jako wynik procedury weryfikacji hipotezy: wszak na poziomie
istotności 5% odrzucimy zarówno hipotezę dającą
, jak i
, ale w drugim
przypadku wątpliwości będą znacznie mniejsze.
1. ↑ W odróżnieniu od błędów systematycznych. Typowym przykładem błędu systematycznego
jest np. błąd paralaksy. Może on wystąpić, gdy przy odczycie tradycyjnego wskaźnika "z boku"
widzimy wskazówkę na tle przesuniętej podziałki. W ten sposób pasażer może widzieć (z boku)
na tradycyjnym prędkościomierzu wartość trochę mniejszą niż kierowca, patrzący na
wskazówkę prostopadle. Efekt ten może być bardzo mały (zależny od odległości wskazówki od
skali), ale odczytywana z miejsca pasażera prędkość będzie zawsze (systematycznie)
przesunięta w stronę mniejszych wartości. Jeśli dysponujemy tylko wynikami odczytów
pasażera (bez informacji o warunkach odczytu itp.), oszacowanie tego błędu z pomocą samej
statystyki nie jest możliwe.
2. ↑ UWAGA: przyjmujemy w tym miejscu odpowiedzialność za takie założenie. Jeśli analizowane
dane go nie spełniają, to cała dalsza procedura będzie dawać błędne wyniki, włącznie z blędną
decyzją ostateczną o przyjęciu bądź odrzuceniu hipotezy. Bezkrytyczne (czy wręcz "milczące")
przyjmowanie, że dane pochodzą z rozkładu Gaussa, bywa przyczyną ogromnej ilości błędów
metodologicznych w praktycznych zastosowaniach statystyki.
3. ↑ Tradycja przeskalowywania zmiennych do rozkładu o "standardowych" parametrach
wywodzi się z czasów, gdy komputery nie rozwiązywały za nas dowolnych całek oznaczonych, i
ich wartości trzeba było odczytywać z tablic, które tworzono właśnie dla rozkładów o
standardowych parametrach.
4. ↑ Warto zwrócić uwagę, że niezerowe jest również prawdopodobieństwo uzyskania ujemnej
wartości przyspieszenia ziemskiego, co byłoby już raczej wynikiem niefizycznym.
Uwzględnienie podobnych warunków (zwanych więzami) możliwe jest w ramach
Bayesowskiego podejścia do statystyki.
5. ↑ Lub dowolne inne liczby, nie będące wynikiem poprawnie przeprowadzanego eksperymentu.
6. ↑ To znaczy hipotezy zerowej w przypadku, gdy jest ona fałszywa, a prawdziwa jest hipoteza
alternatywna. Moc testu możemy dokładnie określić tylko dla konkretnej hipotezy
alternatywnej.
7. ↑ Czyli hipotezy zerowej, w przypadku, gdy jest ona fałszywa, a prawdziwa jest któraś z
hipotez alternatywnych.
8. ↑ Niestety, również dla hipotezy zerowej...