Elementarne metody statystyczne 4
Transkrypt
Elementarne metody statystyczne 4
Elementarne metody statystyczne 4 Testy nieparametryczne Testy dla dwóch niezależnych prób Przy pomocy tych testów weryfikujemy hipotezę zerową o tym, że dwie analizowane próby pochodzą z jednej i tej samej populacji. Najważniejsze z takich testów to test serii WaldaWolfowitza, test U Manna-Whitneya i test Kołmogorowa-Smirnowa. Pierwsze dwa z tych testów oparte są na liczbie serii. Statystyka testowa w teście Kołmogorowa-Smirnowa jest natomiast następująca: Dn1 ,n2 = max |Fn1 (x) − Fn2 (x)|, gdzie Fn1 (x) i Fn2 (x) oznaczają odpowiednio dystrybuanty empiryczne dla pierwszej i drugiej próby (n1 i n2 oznaczają odpowiednio liczebności tych prób). Testy dla dwóch zależnych prób Testy te są stosowane w sytuacji, gdy dysponujemy dwiema zależnymi próbami, np. wartościami pewnej cechy u tej samej osoby. W testowanej hipotezie zerowej przyjmujemy, że pomiędzy próbami nie ma istotnych różnic. Najważniejsze testy w tej grupie to test znaków oraz test kolejności par Wilcoxona. W pierwszym z tych testów, porównując wyniki obu prób, nadajemy im znak ”+”, jeśli wartość cechy jest większa w próbie pierwszej oraz znak ”-”, jeśli w danej parze większa wartość cechy wystąpiła w próbie drugiej. Wartości identyczne pomijamy. O odrzuceniu hipotezy zerowej decyduje w tym teście zbyt duża różnica pomiędzy liczbą znaków ”+”, a liczbą znaków ”-”. W teście Wilcoxona dodatkowo różnice porządkujemy w szereg wariacyjny, nadając im rangi. Następnie osobno sumujemy rangi różnic dodatnich i ujemnych. Mniejsza z tych sum stanowi wartość statystyki testowej testu Wilcoxona. Testy normalności rozkładu Testy te służą do weryfikacji hipotezy o tym, że rozkład cechy w badanej próbie odpowiada rozkładowi normalnemu. Najważniejsze testy w tej grupie to test W Shapiro-Wilka, test Kołmogorowa (stosowany wyłącznie przy założeniu ciągłości dystrybuanty badanej cechy) oraz test Lillieforsa. Test Shapiro-Wilka uchodzi za najlepszy test normalności. Oparty jest on na tzw. quasi-rozstępach tzn. wielkościach X(n−i+1) − X(i) obliczanych dla szeregu wariacyjnego. Pozostałe dwa testy bazują na pojęciu dystrybuanty empirycznej. Testy losowości próby Testy te służą do weryfikacji hipotezy o tym, że próba została wybrana w sposób losowy. Jeden z podstawowych testów losowości to test medianowy. Przeprowadza się go w następujący sposób. Porządkujemy próbę losową cechy X według kolejności pobierania elementów. Z tak uporządkowanej próby obliczamy medianę M e. Każdemu wynikowi xi przyporządkowujemy etykietę a, jeśli xi < M e, albo b, jeśli xi > M e. Wartości xi = M e odrzucamy. Otrzymujemy n−elementowy ciąg złożony z symboli a i/lub b. W ciągu tym wyznaczamy liczbę serii, tzn. podciągów złożonych wyłącznie z elementów oznaczonych jednym z dwóch symboli (a lub b). Liczba serii stanowi wartość statystyki K, która w przypadku dużej próby podlega rozkładowi a nb −1) , normalnemu z wartością oczekiwaną E(K) = 2nna nb + 1 oraz wariancją D2 (K) = 2na nnb2(2n (n−1) gdzie na i nb oznaczają ilości wyników oznaczonych symbolami a i b odpowiednio. Statystyka 1 testowa jest standaryzowaną statystyką K tzn. U= K − E(K) ∼ N (0, 1). D(K) Obustronny obszar krytyczny ma postać: (−∞, −u1− α2 ) ∪ (u1− α2 , ∞). 1. Dysponujemy następującymi grupami danych, obrazujących stężenie pewnej substancji we krwi osób pracujących przy produkcji w zakładach chemicznych: Grupa A : 12.3, 13.5, 11.9, 18.0, 14.6, 15.0, 13.0, 21.0, 12.4, 13.5, 13.6, Grupa B : 14.3, 16.7, 16.5, 14.0, 19.0, 21.3, 18.9, 16.7. Wykorzystując testy Walda-Wolfowitza, Manna-Whitneya i Kołmogorowa-Smirnowa zweryfikuj hipotezę o pochodzeniu obu grup pomiarów z tej samej populacji. 2. Badaniu statystycznemu poddano wysokości sadzonek pewnej rośliny. Wyniki zebrano w dwóch grupach (dane w cm): I :13, 14, 14, 15, 16, 16, 17, 17, 17, 17, 18, 19, 20, 20, 21, 24, 25, 26, 27, 28, 30, 31, 31, 32, 34, 35, 35, II :14, 16, 16, 17, 18, 21, 22, 24, 25, 25, 25, 26, 28, 29, 30, 32, 32, 34, 35, 36, 37, 38, 39, 40, 41, 41, 42. Wykorzystując testy dla prób niezależnych zweryfikuj hipotezę o tym, że dane w obu grupach otrzymano z jednej i tej samej populacji. 3. Zmierzono wartość ciśnienia tętniczego skurczowego krwi (mm Hg) u 12 losowo wybranych osób w wieku 50 lat - w stanie spoczynku oraz po tym samym umiarkowanym wysiłku fizycznym. Otrzymano następujące wyniki: Osoba Przed wysiłkiem Po wysiłku 1 2 120 123 120 125 3 134 140 4 5 135 130 141 135 6 7 128 110 129 110 8 105 110 9 10 125 145 132 158 11 12 110 108 112 110 Wykorzystaj testy znaków i Wilcoxona do weryfikacji hipotezy o braku wpływu wysiłku na wartość ciśnienia tętniczego krwi w badanej grupie wiekowej. 4. Zmierzono liczbę kolizji drogowych, jakie zdarzyły się w ciągu miesiąca na 30 losowo wybranych odcinkach dróg wiosną i jesienią. Wyniki były następujące: Wiosna: 3, 4, 1, 0, 0, 1, 4, 5, 8, 12, 7, 0, 2, 3, 5, 0, 0, 1, 3, 2, 4, 5, 2, 3, 2, 5, 7, 0, 2, 3, Jesień (odpowiednio): 4, 4, 2, 2, 2, 1, 3, 4, 14, 12, 3, 2, 7, 6, 6, 2, 2, 3, 1, 2, 4, 5, 2, 4, 4, 6, 10, 8, 2, 5. Zweryfikuj hipotezę o tym, że pora roku nie ma wpływu na liczbę kolizji samochodowych, wykorzystując testy znaków i Wilcoxona. 5. Mamy następujące dane dotyczące przebiegu opon samochodowych pewnego typu, wycofanych już z eksploatacji (dane w tys. km): 23.4; 32.8, 40.5, 42.5, 34.6, 30.0, 67.0, 65.2, 54.1, 23.0, 21.0, 23.0, 27.0, 50.6, 65.7, 43.4, 32.4, 33.4, 45.6, 40.5, 23.3, 21.2, 25.5, 26.6, 27.0, 28.8, 27.6, 28.7, 29.0, 30.7. Zweryfikuj hipotezę o normalności rozkładu przebiegu opon za pomocą różnych testów. 6. Wiek 200 losowo wybranych pracowników pewnego sektora produkcji jest następujący: 2 Wiek Liczba pracowników 20-30 52 30-40 40-50 65 54 50-60 25 60-70 4 Za pomocą różnych testów zweryfikuj hipotezę o normalności rozkładu wieku pracowników tego sektora. 7. Kontroli poddano wagę torebek z cukrem (w kg) produkowanych w pewnym zakładzie cukrowniczym. Kolejno wylosowane do próby torebki cukru dały następujące wyniki: 0.98, 0.97, 1.01, 1.00, 0.96, 0.97, 0.95, 1.05, 1.03, 0.90, 0.96, 0.91, 1.08, 0.92, 0.89, 0.97, 1.00, 1.02, 0.97, 1.01. Na poziomie istotności α = 0.1 zweryfikuj hipotezę o losowym doborze elementów do próby. 8. Uporządkowana w kolejności uzyskiwania danych próba losowa 30 czytelników korzystających z pewnej biblioteki dała następujące rezultaty dotyczące wieku tych osób (w latach): 51, 56, 60, 43, 23, 16, 16, 54, 66, 70, 40, 35, 21, 34, 28, 59, 40, 39, 20, 17, 18, 23, 54, 60, 76, 32, 21, 20, 35, 30. Na poziomie istotności α = 0.05 zweryfikuj hipotezę dotyczącą losowości próby. 3