Elementarne metody statystyczne 4

Transkrypt

Elementarne metody statystyczne 4
Elementarne metody statystyczne 4
Testy nieparametryczne
Testy dla dwóch niezależnych prób
Przy pomocy tych testów weryfikujemy hipotezę zerową o tym, że dwie analizowane próby
pochodzą z jednej i tej samej populacji. Najważniejsze z takich testów to test serii WaldaWolfowitza, test U Manna-Whitneya i test Kołmogorowa-Smirnowa. Pierwsze dwa z tych testów
oparte są na liczbie serii. Statystyka testowa w teście Kołmogorowa-Smirnowa jest natomiast
następująca:
Dn1 ,n2 = max |Fn1 (x) − Fn2 (x)|,
gdzie Fn1 (x) i Fn2 (x) oznaczają odpowiednio dystrybuanty empiryczne dla pierwszej i drugiej
próby (n1 i n2 oznaczają odpowiednio liczebności tych prób).
Testy dla dwóch zależnych prób
Testy te są stosowane w sytuacji, gdy dysponujemy dwiema zależnymi próbami, np. wartościami pewnej cechy u tej samej osoby. W testowanej hipotezie zerowej przyjmujemy, że
pomiędzy próbami nie ma istotnych różnic. Najważniejsze testy w tej grupie to test znaków
oraz test kolejności par Wilcoxona. W pierwszym z tych testów, porównując wyniki obu prób,
nadajemy im znak ”+”, jeśli wartość cechy jest większa w próbie pierwszej oraz znak ”-”, jeśli w
danej parze większa wartość cechy wystąpiła w próbie drugiej. Wartości identyczne pomijamy.
O odrzuceniu hipotezy zerowej decyduje w tym teście zbyt duża różnica pomiędzy liczbą znaków ”+”, a liczbą znaków ”-”. W teście Wilcoxona dodatkowo różnice porządkujemy w szereg
wariacyjny, nadając im rangi. Następnie osobno sumujemy rangi różnic dodatnich i ujemnych.
Mniejsza z tych sum stanowi wartość statystyki testowej testu Wilcoxona.
Testy normalności rozkładu
Testy te służą do weryfikacji hipotezy o tym, że rozkład cechy w badanej próbie odpowiada
rozkładowi normalnemu. Najważniejsze testy w tej grupie to test W Shapiro-Wilka, test Kołmogorowa (stosowany wyłącznie przy założeniu ciągłości dystrybuanty badanej cechy) oraz test
Lillieforsa. Test Shapiro-Wilka uchodzi za najlepszy test normalności. Oparty jest on na tzw.
quasi-rozstępach tzn. wielkościach X(n−i+1) − X(i) obliczanych dla szeregu wariacyjnego. Pozostałe dwa testy bazują na pojęciu dystrybuanty empirycznej.
Testy losowości próby
Testy te służą do weryfikacji hipotezy o tym, że próba została wybrana w sposób losowy.
Jeden z podstawowych testów losowości to test medianowy. Przeprowadza się go w następujący
sposób. Porządkujemy próbę losową cechy X według kolejności pobierania elementów. Z tak
uporządkowanej próby obliczamy medianę M e. Każdemu wynikowi xi przyporządkowujemy
etykietę a, jeśli xi < M e, albo b, jeśli xi > M e. Wartości xi = M e odrzucamy. Otrzymujemy
n−elementowy ciąg złożony z symboli a i/lub b. W ciągu tym wyznaczamy liczbę serii, tzn.
podciągów złożonych wyłącznie z elementów oznaczonych jednym z dwóch symboli (a lub b).
Liczba serii stanowi wartość statystyki K, która w przypadku dużej próby podlega rozkładowi
a nb −1)
,
normalnemu z wartością oczekiwaną E(K) = 2nna nb + 1 oraz wariancją D2 (K) = 2na nnb2(2n
(n−1)
gdzie na i nb oznaczają ilości wyników oznaczonych symbolami a i b odpowiednio. Statystyka
1
testowa jest standaryzowaną statystyką K tzn.
U=
K − E(K)
∼ N (0, 1).
D(K)
Obustronny obszar krytyczny ma postać:
(−∞, −u1− α2 ) ∪ (u1− α2 , ∞).
1. Dysponujemy następującymi grupami danych, obrazujących stężenie pewnej substancji we
krwi osób pracujących przy produkcji w zakładach chemicznych:
Grupa A : 12.3, 13.5, 11.9, 18.0, 14.6, 15.0, 13.0, 21.0, 12.4, 13.5, 13.6,
Grupa B : 14.3, 16.7, 16.5, 14.0, 19.0, 21.3, 18.9, 16.7.
Wykorzystując testy Walda-Wolfowitza, Manna-Whitneya i Kołmogorowa-Smirnowa zweryfikuj
hipotezę o pochodzeniu obu grup pomiarów z tej samej populacji.
2. Badaniu statystycznemu poddano wysokości sadzonek pewnej rośliny. Wyniki zebrano w
dwóch grupach (dane w cm):
I :13, 14, 14, 15, 16, 16, 17, 17, 17, 17, 18, 19, 20, 20, 21, 24, 25, 26, 27, 28, 30, 31, 31, 32, 34, 35, 35,
II :14, 16, 16, 17, 18, 21, 22, 24, 25, 25, 25, 26, 28, 29, 30, 32, 32, 34, 35, 36, 37, 38, 39, 40, 41, 41, 42.
Wykorzystując testy dla prób niezależnych zweryfikuj hipotezę o tym, że dane w obu grupach
otrzymano z jednej i tej samej populacji.
3. Zmierzono wartość ciśnienia tętniczego skurczowego krwi (mm Hg) u 12 losowo wybranych
osób w wieku 50 lat - w stanie spoczynku oraz po tym samym umiarkowanym wysiłku fizycznym.
Otrzymano następujące wyniki:
Osoba
Przed wysiłkiem
Po wysiłku
1
2
120 123
120 125
3
134
140
4
5
135 130
141 135
6
7
128 110
129 110
8
105
110
9
10
125 145
132 158
11 12
110 108
112 110
Wykorzystaj testy znaków i Wilcoxona do weryfikacji hipotezy o braku wpływu wysiłku na
wartość ciśnienia tętniczego krwi w badanej grupie wiekowej.
4. Zmierzono liczbę kolizji drogowych, jakie zdarzyły się w ciągu miesiąca na 30 losowo wybranych odcinkach dróg wiosną i jesienią. Wyniki były następujące:
Wiosna: 3, 4, 1, 0, 0, 1, 4, 5, 8, 12, 7, 0, 2, 3, 5, 0, 0, 1, 3, 2, 4, 5, 2, 3, 2, 5, 7, 0, 2, 3,
Jesień (odpowiednio): 4, 4, 2, 2, 2, 1, 3, 4, 14, 12, 3, 2, 7, 6, 6, 2, 2, 3, 1, 2, 4, 5, 2, 4, 4, 6, 10, 8, 2, 5.
Zweryfikuj hipotezę o tym, że pora roku nie ma wpływu na liczbę kolizji samochodowych, wykorzystując testy znaków i Wilcoxona.
5. Mamy następujące dane dotyczące przebiegu opon samochodowych pewnego typu, wycofanych już z eksploatacji (dane w tys. km):
23.4; 32.8, 40.5, 42.5, 34.6, 30.0, 67.0, 65.2, 54.1, 23.0, 21.0, 23.0, 27.0, 50.6, 65.7,
43.4, 32.4, 33.4, 45.6, 40.5, 23.3, 21.2, 25.5, 26.6, 27.0, 28.8, 27.6, 28.7, 29.0, 30.7.
Zweryfikuj hipotezę o normalności rozkładu przebiegu opon za pomocą różnych testów.
6. Wiek 200 losowo wybranych pracowników pewnego sektora produkcji jest następujący:
2
Wiek
Liczba pracowników
20-30
52
30-40 40-50
65
54
50-60
25
60-70
4
Za pomocą różnych testów zweryfikuj hipotezę o normalności rozkładu wieku pracowników tego
sektora.
7. Kontroli poddano wagę torebek z cukrem (w kg) produkowanych w pewnym zakładzie cukrowniczym. Kolejno wylosowane do próby torebki cukru dały następujące wyniki:
0.98, 0.97, 1.01, 1.00, 0.96, 0.97, 0.95, 1.05, 1.03, 0.90,
0.96, 0.91, 1.08, 0.92, 0.89, 0.97, 1.00, 1.02, 0.97, 1.01.
Na poziomie istotności α = 0.1 zweryfikuj hipotezę o losowym doborze elementów do próby.
8. Uporządkowana w kolejności uzyskiwania danych próba losowa 30 czytelników korzystających z pewnej biblioteki dała następujące rezultaty dotyczące wieku tych osób (w latach):
51, 56, 60, 43, 23, 16, 16, 54, 66, 70, 40, 35, 21, 34, 28,
59, 40, 39, 20, 17, 18, 23, 54, 60, 76, 32, 21, 20, 35, 30.
Na poziomie istotności α = 0.05 zweryfikuj hipotezę dotyczącą losowości próby.
3