PODSTAWY STATYSTYKI
Transkrypt
PODSTAWY STATYSTYKI
PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na przykładzie testu t) 6. Testy nieparametryczne (na przykładzie testu 2) 7. Korelacja liniowa i rangowa 8. Regresja prosta 9. Analiza wariancji Testy parametryczne - powtórzenie weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę) hipotezy dotyczące średniej: test t hipotezy dotyczące wariancji: test F w analizie wariancji i analizie regresji Testy nieparametryczne Statystyka nieparametryczna: zbiór metod nie wymagających znajomości rozkładu populacji, z której pobrana jest próba. Testy nieparametryczne sprawdzające sądy co do rozkładu na podstawie częstości obserwacji o różnym poziomie lub charakterze (test 2, test McNemara) wykorzystujące tzw. rangowanie (ranking) obserwacji o nieznanych rozkładach (m.in. test UManna-Whitneya, Wilcoxona, Kołmogorowa– Smirnowa, test Kruskala-Wallisa) Testy nieparametryczne – test 2 • Test 2 – test oparty na statystyce o rozkładzie 2 • Rozkład 2 odkrył i opracował Ronald A. Fisher (1890-1962), genetyk i statystyk brytyjski • Ronald Fisher stworzył też m.in. statystyczną metodę największej wiarygodności (ang. maximum likelihood), analizę wariancji (ANOVA). info i grafika - wikipedia Testy nieparametryczne – test 2 Rozkład chi kwadrat (zapisywany też jako 2) to rozkład zmiennej losowej, która jest sumą k kwadratów niezależnych zmiennych losowych o standaryzowanym rozkładzie normalnym (k to liczba stopni swobody) f x x k 2 k 1 2 k 2 2 e x 2 • Skośny • Kształt zależny od liczby stopni swobody grafika - wikipedia Testy nieparametryczne – test 2 Test oparty na rozkładzie 2 - test 2. Test uniwersalny, ma bardzo szerokie zastosowanie: → jako test parametryczny → przede wszystkim – do weryfikacji hipotez dotyczących rozkładów (najpowszechniejszy test nieparametryczny w statystyce) Populacja i próba Populacja Próba pobieranie wnioskowanie Rozkład teoretyczny Przykłady: jednostajny dwumianowy normalny Rozkład empiryczny Wartości cechy w próbie i ich częstości Populacja i próba Przykład 1: plenność pewnej rasy świń Rozkład teoretyczny pokazuje prawdopodobieństwa 0,10 0,09 0,08 0,07 0,06 0,05 jest symetryczny 0,04 0,03 0,02 0,01 0,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 pokazuje częstości Rozkład empiryczny może być skośny 0,16 mogą być braki wartości 0,14 0,12 0,10 0,08 ale: 0,06 0,04 PRZYPOMINA TEORETYCZNY (im większa próba tym bardziej) 0,02 0,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Populacja i próba Przykład 2: zawartość tłuszczu w mleku Rozkład teoretyczny – rozkład normalny POPULACJA: 0,5 rozkład przedstawia prawdopodobieństwa 0,4 0,3 jest symetryczny 0,2 PRÓBA: 0,1 x 0 Rozkład empiryczny konstruuje się szereg rozdzielczy (klasy wartości) rozkład przedstawia częstości wartości w klasach 0,25 może być skośny 0,2 mogą być braki wartości 0,15 0,1 0,05 0 1 2 3 4 5 6 7 8 9 10 ale: PRZYPOMINA TEORETYCZNY (im większa próba tym bardziej) Populacja i próba Populacja Próba Rozkład teoretyczny Rozkład empiryczny CZY SĄ PODOBNE? Test 2 Testy nieparametryczne – test 2 Test 2 1. Główne zastosowanie: testowanie hipotez dotyczących rozkładów 2. Obserwacje podzielone są na klasy, według przyjętych kryteriów; liczba klas określa liczbę stopni swobody 3. Danymi są liczebności klas (liczby obserwacji w poszczególnych klasach) – rzeczywiste (obserwowane) i teoretyczne (oczekiwane) 4. Nie należy stosować testu 2 gdy oczekiwana liczebność klas jest mała (powinna wynosić co najmniej 10 elementów, a dla 1 stopnia swobody co najmniej 5; istnieją też matematyczne poprawki na małe klasy) Testy nieparametryczne – test 2 Test 2 – podstawowe zastosowania I. Test zgodności (podział populacji wg jednego kryterium) II. Test niezależności (podział populacji wg dwóch kryteriów) III. Test McNemara Testy nieparametryczne – test 2 Testowanie zgodności rozkładu próby z rozkładem oczekiwanym (podział według jednego kryterium) Testy nieparametryczne – test 2 Dzikie krokusy mają trzy kolory kwiatów: białe, żółte i fioletowe Na losowo wybranym stanowisku w Tatrach kwitło 17 krokusów Kolor Białe Liczba 4 Żółte Fioletowe 8 5 Czy rozkład kolorów w naturze jest równomierny? Testy nieparametryczne – test 2 1. Określenie hipotez H0 i HA H0: częstości kolorów są jednakowe HA: częstości kolorów są różne H0: nB = nŻ = nF HA: nB ≠ nŻ ≠ nF 2. Ustalenie poziomu istotności MAX = 0,05 Testy nieparametryczne – test 2 3. Wybór i określenie rozkładu statystyki testowej 2 ( n N ) i 2 i Ni i 1 k gdzie, dla i-tej klasy: ni – jej liczebność w próbie Ni – teoretyczna liczebność klasy Tak określona statystyka ma rozkład 2 o k -1 stopniach swobody (k – liczba klas) Testy nieparametryczne – test 2 k 2 i 1 liczebność klasy (określony kolor) zaobserwowana w próbie ni N i 2 Ni liczebność klasy oczekiwana dla prawdziwej H0 Jeśli H0 jest prawdziwa to ni = Ni , a wtedy wartość 2 0 A kiedy ni ≠ Ni to 2 >> 0 i wtedy odrzucamy H0 I przyjmujemy HA Testy nieparametryczne – test 2 k 2 i 1 liczebność klasy (określony kolor) zaobserwowana w próbie Gdyby rozkład kolorów był równomierny, powinniśmy mieć trzy równoliczne klasy: ni N i 2 Ni liczebność klasy oczekiwana dla prawdziwej H0 (teoretyczna) k n i Ni i 1 k 485 5,7 3 Testy nieparametryczne – test 2 4. Obliczenie wartości statystyki testowej 2 k 2 i 1 ni N i Ni nB N B 2 NB nŻ N Ż 2 NŻ 4 5,7 2 8 5,7 2 5 5,7 2 5,7 5,7 5,7 2 nF N F NF 1,53 liczba stopni swobody: k - 1 = 2 5. Obliczenie wartości t: t 0,47 6. Decyzja: t > max H0 Częstości kolorów są jednakowe HA Testy nieparametryczne – test 2 Testowanie niezależności rozkładów dwóch cech (dwóch kryteriów podziału populacji) Testy nieparametryczne – test 2 Ankieter spytał 562 osoby o to, jak najchętniej spędziłyby najbliższego sylwestra; można było wybrać jedną z czterech odpowiedzi: Wybór Płeć Zabawa Książka TV lub komputer mężczyzna 43 4 196 7 kobieta 92 17 195 8 Sen Testy nieparametryczne – test 2 1. Określenie hipotez H0 i HA H0: płeć nie wpływa na preferencje sylwestrowe (oba kryteria są niezależne) HA: płeć wpływa na sposób spędzania sylwestra (kryteria są zależne) H0: nMi = nKi dla i = 1…4 2. Ustalenie poziomu istotności MAX = 0,05 HA: nMi ≠ nKi Testy nieparametryczne – test 2 3. Wybór i określenie rozkładu statystyki testowej k m 2 i 1 j 1 n ij N ij 2 N ij 2 2 nM 1 N M 1 nK 4 N K 4 NM1 NK 4 ma rozkład 2 o (n - 1)(m - 1) stopniach swobody; n – liczba klas według pierwszego kryterium, m – liczba klas według drugiego kryterium podziału. Testy nieparametryczne – test 2 k m 2 n ij N ij Oczekiwana liczebność klasy: 2 N ij i 1 j 1 książ ka TV lub komp k n n sen i 1 N j 1 N i. N suma j 1 N zabawa książka 135*250 562 21*250 562 ? zabawa ksiązka TV lub komp sen mężczy zna 60,5 9,34 173,93 6,67 kobieta 74,95 11,66 217,07 8,33 43 4 196 7 250 kobieta 92 17 195 8 312 mężczy zna suma 135 21 391 15 562 kobieta Np.: n11 = 43, a N11? Obliczamy z proporcji: 135 ~ 562 i 1 .j TV lub komp mężczy zna N11 ~ 250 m n n .j i. N ij zaba wa m k sen Testy nieparametryczne – test 2 4. Obliczenie wartości statystyki testowej 2 2 43 60,05 60,05 2 92 74,95 74,95 2 4 9,34 9,34 2 17 11,66 11,66 2 2 2 2 196 173,93 195 217,07 7 6,67 8 8,33 173,93 217,07 6,67 8,33 19,30 liczba stopni swobody: (k - 1)(m - 1) = 3 5. Obliczenie wartości t: 0,0002 t 6. Decyzja: t < max H0 H1 Wybór sposobu spędzania sylwestra zależy od płci Testy nieparametryczne – test 2 Test McNemara (szczególny przypadek testu 2) Testy nieparametryczne – test McNemara Zbadano obecność pewnej bakterii w organizmie 200 pacjentów (wynik był dodatni lub ujemny) Badanie powtórzono po 2-tygodniowym podawaniu pewnego leku wszystkim pacjentom Czy lek działa na bakterię? Po leczeniu Przed leczeniem Plus (+) Minus (-) Plus (+) 40 70 Minus (-) 10 80 Testy nieparametryczne – test McNemara 1. Określenie hipotez H0 i HA H0: lek nie wpływa na obecność bakterii (oba kryteria są niezależne) HA: lek wpływa na obecność bakterii (oba kryteria są zależne) H0: n12 = n21 HA: n12 ≠ n21 2. Ustalenie poziomu istotności MAX = 0,05 Testy nieparametryczne – test McNemara 3. Wybór i określenie rozkładu statystyki testowej 2 n 12 n21 n12 n21 2 ~ 12 4. Obliczenie wartości statystyki: • 1 stopień swobody • obserwacje w parach 2 2 70 10 70 10 45 5. Obliczenie wartości t: t 0,00000000002 6. Decyzja: t < max Ten lek działa na bakterie H0 H1 Testy nieparametryczne – test 2 Test 2 – podstawowe zastosowania I. Test zgodności (podział populacji wg jednego kryterium) II. Test niezależności (podział populacji wg dwóch kryteriów) III. Test McNemara Inne testy nieparametryczne Testy nieparametryczne: 1. Brak założeń dotyczących rozkładu zmiennej 2. Skala pomiaru zmiennej: nominalna (jakościowa: jest-nie ma, taki-śmaki-owaki, itd.), porządkowa (kolejność, bonitacja itp.); nie musi być ciągła 3. Często: wykorzystanie metod rangowych (rankingu obserwacji zamiast wartości przyjmowanych przez zmienną), wykorzystanie częstości (liczebności klas obserwacji) 4. Zalety: odporność na obserwacje odstające, prostota obliczeń (nie zawsze!) 5. Wady: utrata informacji (o wartościach cechy, różnicach między nimi itp.) przez zastosowanie rang Inne testy nieparametryczne Testy nieparametryczne takie jak: test U Manna-Whitneya test Wilcoxona test Kołmogorowa–Smirnowa test Kruskala-Wallisa będzie można poznać w przyszłości, na bardziej zaawansowanych kursach statystyki