Angielska wikipedia
Transkrypt
Angielska wikipedia
PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na przykładzie testu t) 6. Testy nieparametryczne 7. Korelacja liniowa i rangowa 8. Regresja prosta 9. Analiza wariancji Testy parametryczne weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (głównie: cechy ilościowe o rozkładzie normalnym) hipotezy dotyczące średniej: test t (duże próby – test średniej standaryzowanej, z) hipotezy dotyczące wariancji: test F w analizie wariancji i analizie regresji Testy parametryczne - test t ROZKŁAD t Studenta Kształt zależy od liczby stopni swobody, nie zależy od wariancji Stosuje się go w analizach statystycznych, jeśli próby są małe (rozrzut danych nie oddaje prawdziwej zmienności cechy) Ten rozkład prawdopodobieństwa odkrył i opracował angielski statystyk William Sealy Gosset grafika - Wikipedia Testy parametryczne - test t William Sealy Gosset (1876 – 1937) – angielski statystyk. Publikował pod pseudonimem Student (stąd nazwa: rozkład t Studenta) Pracował w browarach Guinnessa w Dublinie i w Londynie (m.in. nad kontrolą jakości piwa i surowców do jego produkcji) Stąd: rozważania nad statystyką i szacowaniem nieznanych parametrów (nie był z wykształcenia matematykiem, ale miał genialną intuicję) Wniósł wielki wkład w rozwój metod statystycznych (estymacji, testowania hipotez statystycznych) i doświadczalnictwa źródło - Wikipedia Testy parametryczne - test t ROZKŁAD t Studenta k 1 k 1 2 2 2 x 1 f x k k k 2 Test oparty na statystyce, która ma rozkład t Studenta nazywamy testem t grafika - Wikipedia Testy parametryczne - test t Kiedy i jak stosujemy test t Test parametryczny (wnioskowanie o średniej) Analiza cech ilościowych ciągłych Niewielka liczebność prób Próby z populacji o rozkładzie normalnym Porównywane próby mają podobne wariancje Testy parametryczne - test t Kiedy i jak stosujemy test t 1. Hipotezy o średniej z pojedynczej próby 2. Porównanie średnich z dwóch prób niezależnych 3. Porównanie średnich z dwóch prób sparowanych 4. Porównanie średnich z kilku prób – test Duncana Testy parametryczne - test t POJEDYNCZA PRÓBA Test t – pojedyncza próba Przykład: Płeć HCT k 0,49 Podstawowa morfologia krwi k 0,37 k 0,44 HCT – hematokryt (udział erytrocytów we krwi) k 0,47 k 0,51 średnia wartość HCT wynosi 0,47 k 0,38 k 0,39 k 0,51 k 0,41 k 0,38 k 0,44 k 0,36 … m 0,46 m 0,51 m 0,44 W próbie: x 0,425 s 0,06 n 36 Test t – pojedyncza próba Etapy testu: 1. Określenie hipotez H0 i H1 H0: średnia wartość HCT w populacji wynosi 0,47 HA: średnia wartość HCT w populacji różni się od 0,47 H0: = 0,47 HA: ≠ 0,47 (test dwustronny) 2. Ustalenie poziomu istotności MAX = 0,05 3. Wybór statystyki??? (z poprzedniego wykładu) Testowanie hipotez Jedna próba, nieznana wariancja Statystyka gdzie: x t n s s – standardowe odchylenie w próbie danych ma rozkład t – Studenta o k = n – 1 stopniach swobody Stopnie swobody to liczba zmiennych niezależnych użytych przy obliczaniu statystyki; jest to prawidłowe statystycznie wyrażona liczebność próby Test t – pojedyncza próba 3. Wybór i określenie rozkładu statystyki testowej Statystyka x t n s ma rozkład t – Studenta o k = n -1 stopniach swobody Mamy n = 36, więc k = 35 Test t – pojedyncza próba 4. Obliczenie wartości testu 0,425 0,47 t 36 4,5 0,06 t 4,5 5. Obliczenie wartości t (lub odczyt t) T 0,000072 ( t0,05;35 = 2,030108 ) 6. Decyzja t < max H0 H1 (|t| > t) Odp.: Średnia wartość HCT w populacji różni się od 0,47 Test t – pojedyncza próba Przykład z poprzedniego wykładu Próba A H0: 1 = 235 max= 0,05 n 16 s 32 x 229 t x s n t = 0,75 T = 0,23 Wniosek? DWIE NIEZALEŻNE PRÓBY Test t – dwie próby niezalezne Płeć HCT Podstawowa morfologia krwi k 0,49 k 0,37 HCT – hematokryt (udział erytrocytów we krwi) k 0,44 k 0,47 określono średnie wartości osobno dla kobiet i mężczyzn k 0,51 k 0,38 k 0,39 k 0,51 k 0,41 k 0,38 k 0,44 k 0,36 … m 0,46 m 0,51 m 0,44 W próbach: xK 0,40 (s 0,04) xM 0,44 (s 0,08) nK nM 18 Test t – dwie próby niezalezne 1. Określenie hipotez H0 i H1 H0: średnia wartość HCT kobiet jest taka sama jak mężczyzn HA: średnie wartości HCT kobiet i mężczyzn są różne H0: K = M HA: K ≠ M (test dwustronny) 2. Ustalenie poziomu istotności MAX = 0,05 3. Wybór statystyki testowej??? (z poprzedniego wykładu) Testowanie hipotez Dwie próby, nieznana wariancja Statystyka t gdzie sD x1 x 2 sD s12 s22 n1 n2 oraz s1, n1 – stand. odchylenie i liczebność w pierwszej próbie; s2, n2 – stand. odchylenie i liczebność w drugiej próbie ma rozkład t – Studenta o k = n1+ n2 – 2 stopniach swobody Test t – dwie próby niezalezne 3. Wybór i określenie rozkładu statystyki testowej Statystyka x1 x 2 t sD x1 x 2 s 12 s 22 n1 n2 ma rozkład t – Studenta o k = n1 + n2 - 2 st. swobody W przykładzie mamy k = 18 + 18 – 2 = 34 Test t – dwie próby niezależne 4. Obliczenie wartości statystyki testowej t x K xM 2 K 2 M s s n K nM 0,40 0,44 t 1,895 0,0016 0,0064 18 18 t 1,895 Test t – dwie próby niezależne 5. Obliczenie wartości t t 0,0666 ( t0,05;34 = 2,032244 ) 6. Decyzja t > max H0 H1 Nie ma podstaw do odrzucenia hipotezy zerowej A gdyby test był jednostronny? H0: K = M H1: K < M t 0,0333 Decyzja ? Testowanie hipotez Przykład z poprzedniego wykładu Próba A n 16 s 32 x 229 213 245 Próba B H0: 1 = 2 max= 0,05 x1 x 2 t sD t = 1,67 T = 0,1029 Wniosek? n 25 s 45 x 249 231 267 DWIE SPAROWANE PRÓBY (pary skorelowane) Test t – pary skorelowane Oko lewe Oko prawe 20,0 14,3 13,9 13,8 18,3 15,8 21,1 33,4 20,1 20,3 24,4 19,9 20,2 14,3 11,6 11,4 28,8 25,1 18,5 24,1 1. Badano odruch źreniczny (czas trwania pełnego cyklu reakcji na pojedynczy błysk światła, w milisekundach) 2. Badanie w obu oczach u 10 osób Test t – pary skorelowane 1. Określenie hipotez H0 i H1 H0: długość trwania reakcji jest taka sama w obu oczach HA: długość trwania reakcji jest różna w obu oczach H0: L = P HA: L ≠ P (test dwustronny) 2. Ustalenie poziomu istotności MAX = 0,05 Test t – pary skorelowane 3. Wybór i określenie rozkładu statystyki testowej Średnia arytmetyczna różnic (Di ) w parach obserwacji D t SD N x 1i D SD x 2i i 1 D i i 1 N Błąd standardowy średniej N Standardowe odchylenie różnic S Di N N D i S Di N D i 1 N 1 2 Tak określona statystyka ma rozkład t - Studenta o k = N - 1 stopniach swobody (N – liczba par) Test t – pary skorelowane 4. Obliczenie wartości statystyki N x x 2i 1i D i 1 N 4 ,5 0, 45 10 N D S Di SD i D 2 i 1 N 1 S Di N 5,6589 10 288 .21 5,6589 10 1 1,7895 D 0, 45 t 0, 25 S D 1,7895 Test t – pary skorelowane 5. Obliczenie wartości t t 0,8082 ( t0,05;9 = 2,262157) 6. Decyzja t > max H0 H1 Odp.: odruch źreniczny trwa tyle samo w obu oczach. KILKA PRÓB - TEST DUNCANA Test t – kilka prób (test Duncana) 1. Badanie frekwencji na zajęciach ze statystyki 2. Podział na 4 grupy w zależności od „atrakcyjności” (ocena na podstawie ankiety w skali od 2 do 5) wykładowcy poziom atrakcyjności 2 3 4 5 15 20 10 30 10 13 24 22 12 10 29 29 10 22 12 20 ... ... ... ... średnia 11.13 17.88 20.25 24.38 Przykład z wykladu J. Szydy 2010 Test t – kilka prób (test Duncana) 1. Próby uszeregowane od najniższej do najwyższej średniej 2. Sekwencja kilku testów t dla niezależnych prób 3. Zmodyfikowany poziom istotności MAX MAX* = 1 - (1 - MAX)n-1 4. W ten sam sposób obliczamy t: max pojed. testu t 2 3 liczba porównań * = 1 - (1 – 0,00000096)4-1 = 0,0000029 4 5 H0: 2 = 3 = 4 = 5 H1: 2 ≠ 3 ≠ 4 ≠ 5 Przykład z wykladu J. Szydy 2010 Test t – kilka prób (test Duncana) 1. Próby uszeregowane od najniższej do najwyższej średniej 2. Sekwencja kilku testów t dla niezależnych prób 3. Zmodyfikowany poziom istotności MAX 4. Zmodyfikowane obliczanie t: 2 3 4 * = 1 - (1 – 0,0002)3-1 = 0,0004 * = 1 - (1 – 0,0048)3-1 = 0,0097 5 H0: 2 = 3 = 4 H0: 3 = 4 = 5 H1: 2 ≠ 3 ≠ 4 H1: 3 ≠ 4 ≠ 5 Przykład z wykladu J. Szydy 2010 Test t – kilka prób (test Duncana) 1. Próby uszeregowane od najniższej do najwyższej średniej 2. Sekwencja kilku testów t dla niezależnych prób 3. Zmodyfikowany poziom błędu istotności MAX 4. Zmodyfikowane obliczanie t: 2 3 4 * = 1 - (1 - 0.0036)2-1 = 0.0036 * = 1 - (1 - 0.0625)2-1 = 0.0625 5 H0: 2 = 3 H1: 2 ≠ 3 H0: 4 = 5 H1: 4 ≠ 5 Przykład z wykladu J. Szydy 2010 Test t – kilka prób (test Duncana) 1. Próby uszeregowane od najniższej do najwyższej średniej 2. Sekwencja kilku testów t dla niezależnych prób 3. Zmodyfikowany poziom błędu istotności MAX 4. Zmodyfikowane obliczanie t: 2 3 4 * = 1 - (1 – 0,2722)2-1 = 0,2722 5 H0: 3 = 4 H1: 3 ≠ 4 Przykład z wykladu J. Szydy 2010 Test t – kilka prób (test Duncana) 2 3 A 4 A 5 B B 1. Atrakcyjność wykładowcy wpływa na frekwencję 2. Frekwencja na zajęciach nie różni się istotnie (=0,05) w grupach „3” i „4” oraz „4” i „5” Przykład z wykladu J. Szydy 2010 Testy parametryczne - test t Kiedy i jak stosujemy test t Test parametryczny (wnioskowanie o średniej) Analiza cech ilościowych ciągłych Niewielka liczebność prób Próby z populacji o rozkładzie normalnym Porównywane próby mają podobne wariancje Testy parametryczne - test t Kiedy i jak stosujemy test t 1. Hipotezy o średniej z pojedynczej próby 2. Porównanie średnich z dwóch prób niezależnych 3. Porównanie średnich z dwóch prób sparowanych 4. Porównanie średnich z kilku prób – test Duncana