Elementarne metody statystyczne 1

Transkrypt

Elementarne metody statystyczne 1
Elementarne metody statystyczne 1
Podstawowe informacje o testach statystycznych. Testy istotności i przedziały ufności dla wskaźnika struktury
Testy statystyczne
Jeżeli H0 jest testowaną hipotezą, H1 hipotezą alternatywną, T (X) - statystyką testową (pewną
funkcją próby losowej X = (X1 , ..., Xn )), zaś K oznacza zbiór krytyczny, wtedy prawdopodobieństwa błędów I i II rodzaju, odpowiednio α i β, definiujemy następująco:
α = P{T (X) ∈ K | H0 prawdziwa},
β = P{T (X) ∈
/ K | H1 prawdziwa}.
Wartość α nazywamy poziomem istotności testu. Testując hipotezę H0 : θ = θ0 , definiujemy
funkcję M (θ, K) = P{T (X) ∈ K | θ}. Funkcję tę nazywamy mocą testu.
1. Weryfikację hipotezy H0 : p = 0.2 o wadliwości p pewnego towaru przeprowadzamy za
pomocą następującego testu: jeżeli w próbie 5-elementowej zaobserwujemy więcej niż jedną
sztukę wadliwą, odrzucamy H0 na korzyść alternatywy H1 : p = 0.3. Znajdź α, β oraz moc
tego testu. Jak zmienią się te wielkości, jeżeli H1 : p = 0.5 i H0 odrzucać będziemy dopiero
przy przy 3 sztukach wadliwych ?
2. Testujemy hipotezę H0 : p = 0.5 wobec alternatywy H1 : p = 0.2, gdzie p oznacza nieznaną
frakcję błędnych wskazań pewnego przyrządu pomiarowego. Test jest następujący: jeśli w próbie losowej 10-elementowej zaobserwujemy liczbę błędnych wskazań poniżej 4, odrzucamy H0
na korzyść H1 . Oblicz α, β oraz moc testu. Zaproponuj modyfikację testu (bez zmiany hipotez)
tak, by zwiększyć jego moc.
Test istotności dla jednej populacji (mała próba)
Badana cecha ma w populacji rozkład zerojedynkowy z nieznanym parametrem p (parametr p
oznacza prawdopodobieństwo wystąpienia elementu wyróżnionego w populacji). Do weryfikacji
hipotezy H0 : p = p0 wobec alternatywy
a) H1 : p 6= p0 , b) H1? : p < p0 , c) H1?? : p > p0 służy statystyka
s
U = 2 arc sin
√
k
√
− 2 arc sin p0 n ∼ (przybliżony) N (0, 1),
n
gdzie n oznacza liczebność próby, a k - liczbę elementów wyróżnionych w próbie. Zbiory krytyczne w przypadku kolejnych hipotez alternatywnych są następujące:
a) K = (−∞, −u1− α2 ]∪[u1− α2 , ∞), b) K ? = (−∞, −u1−α ), c) K ?? = (u1−α , ∞), gdzie Φ(u1− α2 ) =
1 − α2 , Φ(u1−α ) = 1 − α.
Test istotności dla jednej populacji (duża próba)
Gdy liczebność próby n ­ 100, wówczas statystyką testową jest
k
U = qn
− p0
p0 (1−p0 )
n
∼ (przybliżony) N (0, 1),
przy czym przybliżenie jest wystarczająco dokładne, gdy np0 ­ 50. Hipotezy alternatywne i
zbiory krytyczne jak w przypadku testu dla małej próby.
1
3. Badaniu statystycznemu poddano powierzchnię mieszkań w pewnej wyodrębnionej okolicy.
Do próby wylosowano 15 mieszkań i otrzymano następujące wyniki (w m3 ):
75, 2; 46, 5; 38, 0; 56, 5; 56, 5; 42, 4; 80, 3; 62, 8; 62, 8; 45, 7; 89, 0; 39, 8; 45, 7; 45, 7; 84, 0.
Czy na poziomie istotności α = 0.05 można uważać, że procent mieszkań w tej okolicy o
powierzchni powyżej 60 m3 jest istotnie wyższy niż 30 ? Jaki będzie wynik testu, gdy poziom
istotności wyniesie odpowiednio 0.01 i 0.1 ?
4. Celem badania statystycznego było określenie częstości występowania pewnego typu objawów
niepożądanych u pacjentów przyjmujących określony lek. Do próby losowej wylosowano 30
pacjentów, którym podano lek A, a następnie zebrano wywiad, otrzymując wyniki (1 oznacza
pojawienie się niepożądanych objawów, a 0 ich brak:
0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1.
Na poziomie istotności α = 0.01 (0.05, 0.1) zweryfikuj hipotezę o jednakowej częstości występowania i niewystępowania objawów niepożądanych u ogółu pacjentów leczonych lekiem A.
5. Spośród 20 wylosowanych do próby mężczyzn aż 16 pozytywnie ocenia pracę burmistrza.
Wśród 15 ankietowanych kobiet procent poparcia dla burmistrza wynosi 60%. Przyjmując
α = 0.01 sprawdź, czy można uważać, że poparcie dla burmistrza miasta nie przekracza 85%
wśród mężczyzn i 62% u kobiet ?
6. W ciągu 200 dni obserwowano liczbę awarii instalacji wodno-kanalizacyjnej w pewnym mieście i otrzymano następujące wyniki:
Liczba awarii 0 1
Liczba dni
30 82
2 3
38 21
4 5
20 7
6
2
Czy można uważać, że mniej niż 50% dni to takie, w których rejestruje się przynajmniej 2
awarie? Przyjąć poziom istotności α = 0.1. Jaki będzie wynik testu, jeśli hipotezę alternatywną
sformułujemy następująco: procent dni z co najmniej dwukrotną awarią sieci jest różny od 50%?
7. Struktura wieku pracowników pewnej branży w Polsce, uzyskana na podstawie próby losowej,
jest następująca:
Wiek w latach
Liczba pracowników
25-35 35-45
125
185
45-55
48
55-65
42
Niech p oznacza nieznaną frakcję pracowników tej branży poniżej 45 roku życia. Na poziomie
istotności α = 0.05 zweryfikuj hipotezę H0 : p = 0.7 wobec alternatywy H1?? : p > 0.7.
8. 250 respondentów, losowo wybranych 150 kobiet i 100 mężczyzn, zapytano o znajomość
pewnej ważnej historycznej daty. Jej znajomość cechowała 85 kobiet i 65 mężczyzn. Przyjmując α = 0.01 zweryfikuj hipotezę, że w każdej grupie znajomość tej daty w populacji generalnej
jest wyższa niż 50%.
Test istotności dla dwóch populacji (mała próba)
Badana cecha ma w dwóch populacjach rozkłady zerojedynkowe z nieznanymi parametrami p1
i p2 odpowiednio. Do weryfikacji hipotezy H0 : p1 = p2 wobec alternatywy
a) H1 : p1 6= p2 , b) H1? : p1 < p2 , c) H1?? : p1 > p2 wykorzystujemy statystykę
U = 2 arc sin
s
k1
− 2 arc sin
n1
s
k2
n2
s
2
n1 n2
∼ (przybliżony) N (0, 1),
n1 + n2
gdzie n1 i n2 oznaczają liczebności prób z obu populacji, a k1 i k2 - liczby elementów wyróżnionych w obu próbach. Zbiory krytyczne w przypadku kolejnych hipotez alternatywnych są
identyczne, jak w przypadku testu dla pojedynczej populacji.
Test istotności dla dwóch populacji (duża próba)
Gdy liczebności obu prób są duże (n1 ­ 100, n2 ­ 100), wówczas statystyką testową jest
k1
n1
U=r
k1 +k2
n1 +n2
−
1−
k2
n2
k1 +k2
n1 +n2
∼ (przybliżony) N (0, 1),
:n
n2
. Hipotezy alternatywne i zbiory krytyczne przyjmujemy jak w przypadku testu
gdzie n = nn11+n
2
dla małej próby.
9. Dwie trzydziestoosobowe grupy chorych poddano leczeniu dwoma lekami: pierwszą lekiem
A, a drugą lekiem B. Wyraźna poprawa stanu zdrowia po kuracji wystąpiła u 13 osób w grupie
pierwszej i 20 osób w grupie drugiej. Na poziomie istotności α = 0.05 zweryfikować przypuszczenie, że lek B jest skuteczniejszy od leku A.
10. Stopy zwrotu akcji dwóch spółek giełdowych A i B w momencie zamknięcia dziesięciu
losowo wybranych notowań w ciągu roku były następujące:
A : 1.02, 1.04, 0.98, 0.96, 1.01, 1.05, 1.12, 1.13, 0.86, 0.86,
B : 1.07, 1.06, 1.03, 0.99, 0.90, 1.04, 1.06, 1.01, 1.01, 1.05.
Zweryfikować hipotezę, że obie spółki z jednakową częstością notowały stopę zwrotu powyżej
1.00. Przyjąć poziomy istotności 0.01 i 0.1.
11. Badaniu statystycznemu poddano częstość występowania braków w produkcji pewnych elementów w dwóch różnych zakładach A i B. W obu zakładach wylosowano do próby po 60
elementów i stwierdzono wśród nich 3 elementy wybrakowane w produkcji zakładu A i 5 elementów wybrakowanych w produkcji zakładu B. Na poziomie istotności α = 0.01 zweryfikować
hipotezę, że produkcja zakładu B jest gorsza pod względem liczby elementów wybrakowanych
niż produkcja zakładu A.
12. W pewnym roku na egzaminie wstępnym z matematyki na wyższą uczelnię spośród 620
absolwentów techników 263 nie rozwiązało pewnego zadania, a w gronie 1435 absolwentów liceów ogólnokształcących zadania tego nie rozwiązało 545 osób. Na poziomie istotności α = 0.01
zweryfikować hipotezę o jednakowym stopniu opanowania tej partii materiału, której dotyczyło
zadanie u absolwentów obu typów szkół.
13. Wysunięto hipotezę, że studenci studiów stacjonarnych lepiej zdają egzaminy niż studenci
studiów niestacjonarnych. Z pierwszej grupy wylosowano do próby 150 osób, a z drugiej 250. Za
kryterium oceny przyjęto procent studentów, którzy zaliczyli sesję egzaminacyjną w pierwszym
podejściu. Spośród studentów studiów stacjonarnych było to 107 osób, a spośród studentów
studiów niestacjonarnych - 121 osób. Na poziomie istotności α = 0.1 zweryfikować wysuniętą
hipotezę.
14. Badanie laboratoryjne stężenia we krwi pewnej substancji w dwóch grupach zawodowych
dało następujące wyniki:
Grupa A
Stężenie substancji
Liczba pracowników
1.0-1.5
34
3
1.5-2.0
48
2.0-2.5 2.5-3.0
101
17
Grupa B
Stężenie substancji
Liczba pracowników
1.0-1.5
28
1.5-2.0
69
2.0-2.5
84
2.5-3.0
.
19
Na poziomie istotności α = 0.05 zweryfikować hipotezę, że procent osób w grupie zawodowej
A ze stężeniem substancji na poziomie 1.5 lub wyższym jest istotnie mniejszy niż w grupie
zawodowej B.
Przedział ufności dla procentu (mała próba)
Badana cecha ma w populacji rozkład zerojedynkowy z nieznanym parametrem p (parametr p
oznacza prawdopodobieństwo wystąpienia elementu wyróżnionego w populacji). Niech n oznacza liczebność próby losowej, a k liczbę elementów wyróżnionych w próbie. Przedział ufności
dla p na poziomie ufności 1 − α ma postać:


(k + 1)F[2(k+1),2(n−k),1− α2 ]
k
,
p∈
,
k + (n − k + 1)F[2(n−k+1),2k,1− α2 ] n − k + (k + 1)F[2(k+1),2(n−k),1− α2 ]
gdzie 1 ¬ k ¬ n. Jeżeli k = 0, wówczas dolną granicą przedziału jest 0, a jeżeli k = n, to górną
granicą przedziału jest 1. Oznaczenie F(a,b,α) oznacza kwantyl rzędu α rozkładu F Snedecora z
(a, b) stopniami swobody.
Przedział ufności (duża próba)
Gdy liczebność próby jest duża (n ­ 100), wówczas przedział ufności dla prawdopodobieństwa
p na poziomie ufności 1 − α wygląda następujuąco:

p∈
k
− u1− α2
n
v u
uk 1− k
tn
k
n
,
n
n
v 
u
uk 1− k
tn
n 
+ u1− α
.
2
n
Minimalną liczebność próby potrzebną do oszacowania parametru p z błędem maksymalnym
nie przekraczającym d > 0 obliczamy następująco:
nmin =
u2
p(1
1− α
2
− p) d2
+ 1,
jeśli znamy spodziewaną (szacowaną) wartość parametru p. Jeśli nie znamy p, przyjmujemy za
iloczyn p(1 − p) największą jego wartość tj. 14 . Wówczas mamy
nmin =
u2
1− α
2
4d2
+ 1.
15. W 10 losowo wybranych próbkach laboratoryjnych zaobserwowano 3, w których obecne
były pewne przeciwciała. na poziomie ufności 1 − α = 0.90 zbudować przedział ufności dla
frakcji próbek, w których stwierdza się obecność przeciwciał w populacji generalnej.
16. Na 12 losowo wybranych samochodów zgłoszonych do okresowego przeglądu rejestracyjnego w ani jednym nie stwierdzono usterek w układzie kierowniczym. Na poziomie ufności 0.95
zbudować przedział ufności dla odsetka pojazdów zgłaszających się do przeglądu, w których
występują usterki układu kierowniczego.
17. Na poziomie ufności 1 − α = 0.99 zbudować przedział ufności dla odsetka palących studentów w pewnym mieście. W próbie losowej 450 studentów zaobserwowano 123 osoby palące.
18. Zbadano dostępność sieci internetowej w gospodarstwach domowych pewnego miasta. W
4
próbie losowej liczącej 320 gospodarstw znalazło się 215 posiadających dostęp do Internetu we
własnym domu. Na poziomie istotności 0.95 zbudować przedział ufności dla procentu gospodarstw domowych w tym mieście, w których jest dostęp do sieci internetowej. Jak zmienią się
granice przedziału ufności jeśli poziom ufności przyjmiemy na poziomach 0.90 i 0.99 ?
19. Ile elementów należy wylosować do próby, aby oszacować procent towaru z uszkodzonym
opakowaniem z błędem maksymalnym równym 5%, jeżeli przypuszcza się, że procent ten wynosi w populacji 10 ? Przyjąć poziom ufności 1 − α = 0.95.
20. Ilu mieszkańców pewnego miasta należy wylosować niezależnie do próby, aby z błędem
maksymalnym równym 3% oszacować spodziewane poparcie dla kandydata na prezydenta, jeżeli przypuszcza się, że jest ono rzędu 45% ? Przyjąć 1 − α = 0.99.
21. Ile osób należy wylosować do próby, by oszacować frakcję osób z grupą krwi B Rh+ z
błędem maksymalnym nie przekraczającym 5%, jeśli poziom ufności wynosi 0.90 ?
5