Statystyka matematyczna - Wyższa Szkoła Handlowa

Transkrypt

Statystyka matematyczna
dla kierunku Zarządzanie
na studiach drugiego stopnia
Wojciech Kordecki
Wyższa Szkoła Handlowa we Wrocławiu
Wrocław 2013
Recenzenci:
prof. dr hab. Tadeusz Galanc
dr hab. Jerzy Wawrzynek
Materiał wyłącznie do użytku edukacyjnego.
Reprodukcja do użytku komercyjnego jest zabroniona.
Skład komputerowy w systemie LATEX wykonał autor
c
⃝Wyższa
Szkoła Handlowa we Wrocławiu, 2013
ISBN: 978–83–92382–6–2
Wydanie I
Wyższa Szkoła Handlowa we Wrocławiu
ul. Ostrowskiego 22
53-238 Wrocław
Spis treści
Wstęp
4
1. Podstawy rachunku prawdopodobieństwa
1.1. Zdarzenia i prawdopodobieństwo . . . .
1.2. Zmienne losowe . . . . . . . . . . . . . .
1.3. Parametry zmiennych losowych . . . .
1.4. Zadania . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
8
11
14
2. Rozkłady zmiennych losowych
2.1. Rozkłady dyskretne . . . . . .
2.2. Rozkłady typu ciągłego . . . .
2.3. Populacja, próba i statystyki .
2.4. Twierdzenia graniczne . . . .
2.5. Zadania . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
17
17
18
20
22
23
3. Estymacja
3.1. Zasady estymacji parametrów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2. Szczególne przypadki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
25
26
30
4. Testowanie hipotez
4.1. Zasady testowanie hipotez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2. Szczególne przypadki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
32
33
37
A. Elementy statystyki opisowej
A.1. Opracowanie materiału statystycznego . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.2. Parametry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
38
41
Odpowiedzi
Odpowiedzi
Odpowiedzi
Odpowiedzi
Odpowiedzi
46
46
49
52
54
do
do
do
do
wykładu
wykładu
wykładu
wykładu
1
2
3
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Tablice statystyczne
57
Literatura
60
Skorowidz
61
3
Wstęp
Przedmiot Statystyka matematyczna jest wykładany w Wyższej Szkole Handlowej we Wrocławiu
na studiach drugiego stopnia na kierunku Zarządzanie. Przedstawiony materiał podzielony jest
na cztery wykłady. Taki bowiem układ – cztery trzygodzinne wykłady, przewidziany jest w programie studiów niestacjonarnych w Wyższej Szkole Handlowej we Wrocławiu. Niemniej, zakres
materiału jest nieco szerszy od programu obowiązującego na tych studiach, może być więc wykorzystany również na studiach stacjonarnych drugiego stopnia na kierunku Zarządzanie lub na
innych kierunkach mających podobne programy ze statystyki.
Materiały do tego wykładu mają charakter pomocniczy i ich celem jest ułatwienie słuchaczom
samodzielnego studiowania literatury. Podstawowym źródłem na którym te materiały są oparte, są
podręczniki S. Ostasiewicz, Z. Rusnak i U. Siedleckiej [8] oraz J. Wawrzynka [10]. Przeznaczone
dla studentów kierunków technicznych skrypty H. Jasiulewicz i W. Kordeckiego [3, 6] mogą być
uzupełniającym źródłem wiadomości. Chętnym do znacznego poszerzenia wiedzy polecam książki
J. Jakubowskiego i R. Sztencla [2] oraz S. M. Kota, J. Jakubowskiego i A. Sokołowskiego [7]. Obszerna
monografia A. D. Aczela [1] poświęcona jest zastosowaniu statystyki w zarządzaniu.
Podręcznikiem do przedmiotu Statystyka opisowa wykładanego na studiach pierwszego stopnia
jest skrypt [9] pod red. M. Rymarczyka. Najważniejsze wiadomości są skrótowo przedstawione w dodatku A. Nie mogą one jednak zastąpić podręcznika. Brakujące wiadomości z matematyki można
uzupełnić korzystając na przykład ze skryptu [5] lub standardowych podręczników z matematyki dla
szkół wyższych.
4
Wykład 1
Podstawy rachunku
prawdopodobieństwa
1.1. Zdarzenia i prawdopodobieństwo
Niech ω będzie wynikiem doświadczenia, którego nie jesteśmy w stanie przewidzieć (na przykład
liczbą oczek przy rzucie kostką). Zbiór wszystkich możliwych wyników doświadczeń nazywamy
przestrzenią zdarzeń elementarnych Ω, a poszczególne wyniki ω ∈ Ω nazywamy zdarzeniami
elementarnymi.
Przykład 1.1.1. Rzut monetą: przestrzenią zdarzeń elementarnych jest Ω = {O, R} gdzie O – zdarzenie
polegające na wyrzuceniu orła, a R – zdarzenie polegające na wyrzuceniu reszki.
Podzbiory przestrzeni zdarzeń elementarnych1 nazywamy zdarzeniami losowymi . Zwyczajowo
oznacza się je dużymi literami z początku alfabetu: A, B, C, · · · ⊆ Ω.
Działania na zdarzeniach:
• A ∪ B – suma zdarzeń (zajdzie zdarzenie A lub zdarzenie B),
• A ∩ B – iloczyn zdarzeń (zajdzie zdarzenie A i zdarzenie B),
• A \ B – różnica zdarzeń (zajdzie zdarzenie A, ale nie zajdzie zdarzenie B),
• A = Ω \ A – zdarzenie przeciwne do A, (nie zajdzie zdarzenie A).
Zdarzenie A = Ω nazywa się zdarzeniem pewnym, a zdarzenie A = ∅ – zdarzeniem niemożliwym. Jeżeli A ∩ B = ∅, to zdarzenia A i B są rozłączne, czyli wykluczające się. Zdarzenia losowe
{A1 , A2 , . . . } są parami rozłączne, gdy dla każdej pary i ̸= j zachodzi Ai ∩ Aj = ∅.
Przykład 1.1.2. Rzut kostką do gry: Ω = {ω1 , . . . , ω6 }, gdzie ωi jest zdarzeniem elementarnym polegającym
na wyrzuceniu i oczek. Przykładem zdarzenia losowego jest zbiór A zdarzeń elementarnych odpowiadających wyrzuceniu parzystej liczby oczek: A = {ω2 , ω4 , ω6 }, zbiór B zdarzeń elementarnych odpowiadających
wyrzuceniu nieparzystej liczby oczek: B = {ω1 , ω3 , ω5 } oraz zbiór C odpowiadający wyrzuceniu mniej niż
czterech oczek: C = {ω1 , ω2 , ω3 }. Wtedy
• A ∪ B = Ω,
• A ∩ B = ∅,
1
Nie wszystkie podzbiory, ale ścisła definicja wykracza poza zakres tego skryptu.
5
6
WYKŁAD 1. PODSTAWY RACHUNKU PRAWDOPODOBIEŃSTWA
• A ∪ C = {ω1 , ω2 , ω3 , ω4 , ω6 },
• A ∩ C = {ω2 },
• A \ C = {ω4 , ω6 },
• A = B,
• C = {ω4 , ω5 , ω6 }.
Zauważmy, że {ω5 } = A ∪ B.
Na zbiorze zdarzeń losowych określa się funkcję P o własnościach:
(a) dla każdego zdarzenia A jest 0 ≤ P(A) ≤ 1,
(b) P(Ω) = 1, P(∅) = 0,
(c) P(A1 ∪ A2 ∪ . . . ) = P(A1 ) + P(A2 ) + . . . dla zdarzeń parami rozłącznych.
Taka funkcja nazywa się prawdopodobieństwem.
Z własności (a) – (c) można wyprowadzić dalsze pożyteczne własności:
(d) P(A) = 1 − P(A),
(e) jeśli B ⊆ A to P(A \ B) = P(A) − P(B),
(f) dla dowolnych (niekoniecznie wykluczających) się zdarzeń A i B:
P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
Niech A1 , A2 , . . . , An będą zdarzeniami parami rozłącznymi i równoprawdopodobnymi, takimi że
A1 ∪ A2 ∪ · · · ∪ An = Ω. Przykładem takich zdarzeń mogą być zdarzenia losowe jednoelementowe
A1 = {ω1 }, . . . , An = {ωn },
gdy Ω = {ω1 , ω2 , . . . , ωn }. Wtedy P(Ai ) = 1/n, a każde inne zdarzenie A, które jest sumą k takich
rozłącznych zdarzeń, ma prawdopodobieństwo
P(A) =
k
.
n
(1.1.1)
Zdarzenia Ai wchodzące do zdarzenia A, tzn. takie, że Ai ⊆ A nazywamy zdarzeniami sprzyjającymi
zdarzeniu A. Wzór (1.1.1) mówi wtedy, że prawdopodobieństwo zdarzenia A jest stosunkiem liczby
zdarzeń sprzyjających zdarzeniu A do liczby wszystkich zdarzeń Ai . Wzór (1.1.1) nazywa się często
klasyczną definicją prawdopodobieństwa. Należy jednak pamiętać, że wzór (1.1.1) jest prawdziwy
tylko dla zdarzeń Ai równoprawdopodobnych!
Przykład 1.1.3. Obliczyć prawdopodobieństwo wygrania „czwórki” w totolotka. Losowanych jest 6 numerów
spośród 49 numerów. Jest
( )
49
n=
= 13983816
6
takich możliwości. Niech A4 oznacza zdarzenie polegające na wylosowaniu „czwórki”. Jest
( )( )
6 43
k=
= 15 · 903 = 13545
4
2
takich zdarzeń. Stąd
k
645
P (A4 ) = =
=
n
665896
(6)(43)
4
(49)2
6
= 0.0009686 < 0.001.
1.1. ZDARZENIA I PRAWDOPODOBIEŃSTWO
7
Oznaczając przez A5 i A6 wylosowanie „piątki ” i „szóstki”, otrzymujemy w ten sam sposób
(6)(43)
P (A5 ) =
5
(49)1
= 1.845 · 10−5 < 0.0001,
6
(6)(43)
P (A6 ) =
6
(49)0
= 7.151 · 10−8 < 0.0000001.
6
Ponieważ zdarzenia A4 , A5 i A6 są parami rozłączne, to prawdopodobieństwo wylosowania co najmniej
„czwórki” wynosi P (A4 ) + P (A5 ) + P (A6 ) i jest mniejsze od 0.001.
Prawdopodobieństwo warunkowe zdarzenia A, jeśli wiadomo, że zaszło zdarzenie B (pod warunkiem zdarzenia B), oznaczamy symbolem P(A|B) i obliczamy następująco:
P(A|B) =
P(A ∩ B)
,
P(B)
(1.1.2)
o ile P(B) > 0. Zwróćmy uwagę, że prawdopodobieństwa: bezwarunkowe P (A) i warunkowe P (A|B)
są prawdopodobieństwami tego samego zdarzenia A. Prawdopodobieństwa te mogą być różne, gdyż
fakt zajścia zdarzenia B może być dodatkową informacją o zdarzeniu A i jego znajomość może
zmienić prawdopodobieństwo tego zdarzenia. Z tego powodu zdarzenie B nazywane jest często
przyczyną, a zdarzenie A – skutkiem.
Ze wzoru (1.1.2) wynika często używany wzór
P (A ∩ B) = P (A|B) P (B) = P (B|A) P (A) .
Jest on pożyteczny w sytuacji gdy znamy prawdopodobieństwo przyczyny, tzn. znamy P (B) i znamy
prawdopodobieństwo z jakim przyczyna B wywołuje skutek A, tzn. znamy P (A|B).
Zdarzenia A i B określamy jako niezależne, gdy
P (A ∩ B) = P (A) P (B) .
(1.1.3)
Porównując wzory (1.1.2) i (1.1.3), otrzymujemy wniosek, że jeśli zdarzenia A i B są niezależne, to
P (A|B) = P (A) i P (B|A) = P (B), czyli jeśli A i B są niezależne, to prawdopodobieństwo warunkowe
jest równe prawdopodobieństwu bezwarunkowemu.
Załóżmy, że zdarzenie A może zajść, jeśli zajdzie jedno z wykluczających się zdarzeń B1 , B2 , . . . , Bn ,
tzn. gdy dla dowolnej pary i ̸= j jest Bi ∩ Bj = ∅ oraz załóżmy, że B1 ∪ B2 ∪ · · · ∪ Bn = Ω. Wtedy
prawdziwe są dwa wzory:
P (A) = P (A|B1 ) P (B1 ) + P (A|B2 ) P (B2 ) + · · · + P (A|Bn ) P (Bn ) ,
(1.1.4)
P (A|Bi ) P (Bi )
,
(1.1.5)
P (A)
gdzie P(A) we wzorze (1.1.5) można obliczyć ze wzoru (1.1.4). Wzór (1.1.4) nosi nazwę wzoru na
prawdopodobieństwo całkowite, a wzór (1.1.5) – wzoru Bayesa.
P (Bi |A) =
Przykład 1.1.4. Dla zdarzeń określonych w przykładzie 1.1.2 mamy
P (A) =
Ponieważ
P (A ∩ B) =
to
P (A|B) =
1
,
6
3
1
= .
6
2
P (B) =
3
1
= ,
6
2
P (A ∩ B)
1
1
= < P (A) = .
P (B)
3
2
8
1.2. Zmienne losowe
Zmienną losową X jest funkcja2 określona na przestrzeni zdarzeń elementarnych Ω o wartościach
w zbiorze liczb rzeczywistych R, tzn.
X : Ω → R.
Zwyczajowo zmienne losowe oznacza się dużymi literami z końca alfabetu: X, Y , . . . , a ich wartości
małymi x, y, . . . , tzn. piszemy x = X (ω), y = Y (ω) itd. Wartość x zmiennej losowej X (ω) nazywamy
realizacją zmiennej losowej.
Przykład 1.2.1. Przy rzucie monetą (przykład 1.1.1) można określić zmienne losowe X i Y w następujący
sposób: X(O) = −1, X(R) = 1 oraz Y (R) = −1, Y (O) = 1.
Taka para zmiennych losowych jest modelem matematycznym dwuosobowej gry o następujących regułach:
• gracz A rzuca monetą,
• gdy wypadnie orzełek, gracz A płaci graczowi B złotówkę,
• gdy wypadnie reszka, gracz B płaci graczowi A złotówkę.
Zmienna losowa X jest więc zyskiem lub stratą gracza A, a zmienna losowa Y jest więc zyskiem lub stratą
gracza B. Między tymi zmiennymi zachodzi czysto deterministyczny związek X = −Y .
Przykład 1.2.2. Zmienną losową może być liczba oczek przy rzucie jedną kostką do gry (przykład 1.1.2):
X (ωi ) = i. Zmienna losowa może też wskazywać, czy wyrzucono np. „szóstkę”, czy też inną liczbę oczek:
Y (ω6 ) = 1 oraz Y (ωi ) = 0 dla i = 1, . . . , 5.
Zmienne losowe wyznaczają zdarzenia, np. {ω : X(ω) < x} oznacza „zbiór tych zdarzeń elementarnych, dla których wartość zmiennej losowej X jest mniejsza od liczby x”. Zwykle zamiast kompletnego wzoru {ω : X(ω) < x} stosuje się skrócony zapis {X < x}.
Dystrybuantą zmiennej losowej X nazywamy funkcję o argumentach i wartościach rzeczywistych
określoną wzorem
F (x) = P({ω : X (ω) < x}) = P (X < x)
(1.2.1)
dla każdego x. Oznacza to również, że
P (a ≤ X < b) = F (b) − F (a) .
(1.2.2)
Z definicji (1.2.1) wynika, że
a) 0 ≤ F (x) ≤ 1,
b) F (−∞) = lim F (x) = 0, F (∞) = lim F (x) = 1,
x→−∞
x→∞
c) F (x) jest funkcją niemalejącą.
Mówimy, że znamy rozkład zmiennej losowej, jeżeli znamy jej dystrybuantę lub inne równoważne (dalej omówione) charakterystyki. Wśród zmiennych losowych wyróżnia się zmienne losowe
skokowe (dyskretne) i zmienne losowe typu ciągłego.
Zmienne losowe skokowe przybierają tylko skończoną liczbę wartości albo ich wartości dają się
ustawić w ciąg. Dystrybuanta zmiennej losowej skokowej jest przedziałami stała, a na granicach
przedziałów ma skoki. Dla zmiennych losowych skokowych zamiast dystrybuanty wystarczy tylko
znać prawdopodobieństwa P(X = xi ) = pi , gdzie xi są (ustawionymi w ciąg) wartościami, które
zmienna losowa X przyjmuje, a pi są wartościami skoków dystrybuanty w punktach xi . Prawdopodobieństwa pk mają następujące własności:
2
Nie każda funkcja, ale ścisła definicja wykracza poza zakres tego skryptu.
1.2. ZMIENNE LOSOWE
9
a) pk > 0 dla każdego k,
∑
b) p1 + p2 + · · · = pk = 1
k
Zmienna losowa typu ciągłego ma ciągłą dystrybuantę, którą ponadto można przedstawić w postaci
∫x
F (x) =
f (t) dt .
(1.2.3)
−∞
Funkcję f(x) ze wzoru (1.2.3) nazywa się gęstością. W tych punktach, w których dystrybuanta ma
pochodną, gęstość wyraża się wzorem
f(x) = F ′ (x) =
dF(x)
.
dx
(1.2.4)
Z definicji gęstości wynika, że ma ona własności:
a) f (x) ≥ 0,
∫∞
b)
f (x) dx = 1.
−∞
Własność b) geometrycznie oznacza, że pole pod wykresem gęstości jest równe jeden.
Za pomocą gęstości zmiennej losowej typu ciągłego obliczamy P (a < X < b):
∫b
P (a < X < b) = F (b) − F (a) =
f (x) dx.
a
Dla zmiennej losowej X typu ciągłego, P (X = x0 ) = 0 dla dowolnej ustalonej liczby x0 . Wtedy też
P (X < x) = P (X ≤ x).
Przykład 1.2.3. Określmy gęstość wzorem
{
2 (1 − x) dla 0 < x < 1,
f (x) =
0
dla pozostałych x.
Wykres gęstości jest przedstawiony na rys. 1.1. Oczywiście f (x) ≥ 0. Jak widać na wykresie, spełniony jest
również warunek b), gdyż obszar pod wykresem tworzy trójkąt o polu równym 1. Dystrybuanta dla 0 < x < 1
jest określona wzorem
x
∫x
(
)
2
F (x) = P (X < x) = 2 (1 − t) dt = − (1 − t) = − (1 − x)2 − 1 = x (2 − x) .
0
0
F (x) = 0 dla x < 0 oraz F (x) = 1 dla x > 1. Wykres F (x) jest przedstawiony na rys. 1.1.
Para zmiennych losowych X i Y ma rozkład dwuwymiarowy. Dystrybuanta tej pary nazywa się
dystrybuantą łączną i wyraża się wzorem
F (x, y) = P (X < x, Y < y) .
Dystrybuanty zmiennych losowych X i Y
FX (x) = P (X < x) ,
FY (y) = P (Y < y)
(1.2.5)
10
2
6f (x)
6F (x)
1
1
0
-x
1
0
1
-x
Rysunek 1.1: Gęstość i dystrybuanta zmiennej losowej z przykładu 1.2.3
noszą nazwę dystrybuant brzegowych.
Zmienne losowe X i Y są niezależne, gdy
P ({ω : X < x} ∩ {ω : Y < y}) = P ({ω : X < x}) P ({ω : Y < y}) ,
czyli gdy dystrybuanta łączna jest iloczynem dystrybuant brzegowych:
F (x, y) = FX (x) FY (y) .
(1.2.6)
Rozkład dwuwymiarowy jest dyskretny, gdy obie zmienne losowe X i Y są dyskretne. Przyjmiemy
oznaczenia
)
(
pij = P X = xi , Y = yj ,
pi· = P (X = xi ) ,
)
(
p·j = P Y = yj .
Prawdopodobieństwa pi· i p·j obliczamy ze wzorów:
∑
pi· = P (X = xi ) =
pij ,
(1.2.7)
j
(
)
∑
p·j = P Y = yj =
pij .
(1.2.8)
i
Przykład 1.2.4. Rzucamy dwiema kostkami do gry. Niech X będzie liczbą oczek na pierwszej kostce, Z na
drugiej, a Y większym z tych wyników, czyli Y = max{X, Z}. Rozkład dwuwymiarowy zmiennej (X, Y ), czyli
prawdopodobieństwa pij , można przedstawić w postaci macierzy
1
2
3
4
5
6








1
2
3
4
5
6
1/36
0
0
0
0
0
1/36
2/36
0
0
0
0
1/36
1/36
3/36
0
0
0
1/36
1/36
1/36
4/36
0
0
1/36
1/36
1/36
1/36
5/36
0
1/36
1/36
1/36
1/36
1/36
6/36




.



Sposób otrzymania tej macierzy objaśnimy na przykładzie. Wynik (2, 4) otrzymamy wtedy, gdy na pierwszej
kostce wypadną dwa oczka, a na drugiej cztery. Prawdopodobieństwo tego wynosi (drugi wiersz, czwarta
1.3. PARAMETRY ZMIENNYCH LOSOWYCH
11
kolumna) (1/6)(1/6) = 1/36. Wynik (4, 2) jest niemożliwy, a wynik (2, 2) otrzymamy wtedy, gdy na pierwszej
kostce będą dwa oczka, a na drugiej jedno lub dwa oczka. Prawdopodobieństwo tego wynosi (drugi wiersz,
druga kolumna) (1/6)(2/6) = 2/36. Korzystając ze wzoru (1.2.7), otrzymujemy pi· = 1/6, (co jest oczywiste, bo
X jest liczbą oczek na pierwszej kostce), a ze wzoru (1.2.8) otrzymujemy p·j = (2j − 1)/36. Widać, że relacja
(1.2.6) nie jest spełniona, więc zmienne losowe X i Y nie są niezależne.
Rozkład dwuwymiarowy typu ciągłego posiada gęstość łączną (analogicznie do wzoru (1.2.4)):
f (x, y) =
∂2 F (x, y)
.
∂x∂y
(1.2.9)
Gęstości fX (x) i fY (y) zmiennych losowych są gęstościami brzegowymi. Zmienne losowe typu
ciągłego są niezależne, gdy
f (x, y) = fX (x) fY (y) .
(1.2.10)
1.3. Parametry zmiennych losowych
Kwantylem rzędu p, p ∈ (0, 1), rozkładu zmiennej losowej X nazywamy liczbę ξp spełniającą
nierówności
P(X ≤ ξp ) ≥ p ,
(1.3.1)
P(X ≥ ξp ) ≥ 1 − p .
Nierówności (1.3.1) nie wyznaczają kwantyli jednoznacznie. Gdy dystrybuanta F (x) jest ciągła, to
kwantyl ξp jest rozwiązaniem równania F(x) = p. Rozwiązanie to też nie musi być jednoznaczne.
Mediana oznaczana symbolem Me jest kwantylem rzędu p = 1/2, czyli Me = ξ1/2 . Kwantyle rzędów
p = 1/4 i p = 3/4 nazywa się kwartylami rzędu 1 i 3 i oznacza się je symbolami Q1 i Q3 , czyli
Q1 = ξ1/4 i Q3 = ξ3/4 . Mediana jest kwartylem rzędu 2: Q2 = ξ2/4 = Me. Do wskaźników rozrzutu
zmiennej losowej zalicza się odchylenie ćwiartkowe Q = (ξ3/4 − ξ1/4 ) /2 = (Q3 − Q1 ) /2.
Wartość oczekiwana EX zmiennej losowej X (zwana również średnią teoretyczną) jest określona
osobno dla zmiennych skokowych, a osobno dla zmiennych typu ciągłego. Dla zmiennych skokowych jest to liczba określona wzorem3
∑
EX = x1 p1 + x2 p2 + · · · =
xk pk ,
(1.3.2)
k
a dla zmiennych losowych typu ciągłego – wzorem4
∫∞
xf(x) dx .
EX =
(1.3.3)
−∞
Gdy chcemy obliczyć wartości oczekiwane potęg zmiennych losowych, to wzory (1.3.2) i (1.3.3)
przybierają postać odpowiednio
∑
EX n = x1n p1 + x2n p2 + · · · =
xkn pk
(1.3.4)
k
3
4
Dla istnienia wartości oczekiwanej trzeba założyć bezwzględną zbieżność szeregu (1.3.2).
Dla istnienia wartości oczekiwanej trzeba założyć bezwzględną zbieżność całki (1.3.3).
12
oraz
∫∞
n
x n f(x) dx .
EX =
(1.3.5)
−∞
Ważnym parametrem zmiennej losowej X jest wariancja teoretyczna D2 X określona wzorem
D2 X = E(X − EX)2 = EX 2 − (EX)2
(1.3.6)
oraz odchylenie standardowe σ określone wzorem
√
σ = D2 X.
Odchylenie standardowe nazywane jest również dyspersją.
Uwaga. Wariancja D2 X jest również często oznaczana przez V(X) lub Var(X).
Przykład 1.3.1. Niech zmienne losowe X i Y będą takie, jak w przykładzie 1.2.1. Ponieważ P (X = −1) =
P (Y = −1) = 1/2 oraz P (X = 1) = P (Y = 1) = 1/2, zmienne X i Y mają ten sam rozkład, mimo że są różne:
X = −Y . Wobec tego mają te same parametry, wartość oczekiwaną określoną wzorem (1.3.2) i wariancję
określoną wzorem (1.3.6), gdzie EX 2 obliczamy ze wzoru (1.3.4).
EX = EY = 0,
D2 X = D2 Y = 1.
Medianą Me = ξ1/2 jest dowolna liczba −1 ≤ ξ1/2 ≤ 1. Można więc przyjąć ξ1/2 = 0, ale można też przyjąć
ξ1/2 = −1 lub ξ1/2 = 1. Widać, że w tym przypadku mediana nie jest pożytecznym parametrem.
Przykład 1.3.2. Niech zmienna losowa X będzie taka jak w przykładzie 1.2.2. Ponieważ P (X = i) = 1/6 dla
i = 1, 2, . . . , 6, to korzystając z tych samych wzorów co w przykładzie 1.3.1 i w ten sam sposób, otrzymujemy
1
21
7
= = 3.5,
(1 + 2 + · · · + 6) =
6
6
2
(
)
1
91
EX 2 =
12 + 22 + · · · + 62 = ,
6
6
( )2
91
7
35
D2 X = EX 2 − (EX)2 =
−
=
≈ 2.92,
6
2
12
√
√
35
≈ 1.71.
σ = D2 X =
12
EX =
Medianą może być dowolna liczba 3 ≤ ξ1/2 ≤ 4, a więc w szczególności można przyjąć ξ1/2 = EX = 3.5.
Pozostałe kwartyle odchylenie i ćwiartkowe są wyznaczone jednoznacznie ze wzoru (1.3.1) dla p = 1/4 i
p = 3/4.
Q1 = 2, bo P (X ≤ 2) = 1/3 ≥ 1/4, P (X ≥ 2) = 5/6 ≥ 3/4,
Q3 = 5, bo P (X ≤ 5) = 5/6 ≥ 3/4, P (X ≥ 5) = 1/3 ≥ 1/4,
Q = (Q3 − Q1 ) /2 = 1.5 < σ.
Wartość oczekiwana i wariancja mają następujące własności:
E(aX) = aEX,
(1.3.7)
E(X + Y ) = EX + EY ,
(1.3.8)
2
2
2
D (aX) = a D X,
(1.3.9)
(1.3.10)
1.3. PARAMETRY ZMIENNYCH LOSOWYCH
13
Dla niezależnych X, Y :
D2 (X + Y ) = D2 X + D2 Y .
(1.3.11)
Jeśli zmienne losowe X i Y nie są niezależne, to równość (1.3.11) może nie zachodzić.
Kowariancja jest określona wzorem
C (X, Y ) = E ((X − EX) (Y − EY )) = E (XY ) − (EX) (EY ) .
(1.3.12)
Jeśli zmienne losowe X i Y są niezależne, to C (X, Y ) = 0. Nie zachodzi wynikanie w drugą stronę:
jeśli C (X, Y ) = 0, to X i Y nie muszą być niezależne. Wariancję sumy zmiennych losowych X i Y ,
które nie muszą być niezależne oblicza się ze wzoru:
D2 (X + Y ) = D2 X + D2 Y + 2C (X, Y ) .
(1.3.13)
Przykład 1.3.3. Rozważmy zmienne losowe X i Y z przykładu 1.2.4. Oczywiście EX = 3.5 i D2 X ≈ 2.92 tak, jak
w przykładzie 1.3.2. Obliczamy tylko parametry zmiennej losowej Y . Ponieważ kolejne prawdopodobieństwa
P (Y = i) są następujące: 1/36, 3/36, 5/36, 7/36, 9/36, 11/36, to Me = 5, gdyż
25
1
1+3+5+7+9
=
> ,
36
36
2
9 + 11
20
1
=
>
36
36
2
i żadna inna liczba nie spełnia warunków (1.3.1) dla p = 1/2. Obliczamy wartość oczekiwaną:
EY =
1
161
≈ 4.47.
(1 · 1 + 2 · 3 + 3 · 5 + 4 · 7 + 5 · 9 + 6 · 11) =
36
36
Następnie obliczymy
EY 2 =
) 791
1 (
1 · 1 + 22 · 3 + 32 · 5 + 42 · 7 + 52 · 9 + 62 · 11 =
,
36
36
skąd otrzymujemy wariancję i odchylenie standardowe:
791
D Y = EY − (EY ) =
−
36
√
σ = D2 Y ≈ 1.40.
2
2
(
2
161
36
)2
=
2555
≈ 1.97,
1296
Widać, że EY > EX, co jest oczywiste, gdyż zawsze Y ≥ X. Wartości Y są też bardziej skupione wokół swojej
wartości oczekiwanej, więc D2 Y < D2 X. Łatwo otrzymujemy
E (X + Y ) = EX + EY =
287
7 161
+
=
≈ 7.97.
2
36
36
Ponieważ X i Y nie są niezależne, to nie można skorzystać ze wzoru (1.3.11).
Współczynnik korelacji jest określony wzorem
ρ = ρ(X, Y ) = √
C(X, Y )
√
.
D2 X D2 Y
(1.3.14)
Współczynnik korelacji ma kilka charakterystycznych, sformułowanych poniżej własności.
a) |ρ| ≤ 1,
b) jeżeli X i Y są niezależne, to ρ(X, Y ) = 0,
c) |ρ| = 1 wtedy i tylko wtedy, gdy istnieją stałe a ̸= 0 i b takie, że
P(Y = aX + b) = 1 .
(1.3.15)
14
Jeżeli współczynnik korelacji zmiennych losowych X i Y jest równy zeru, to mówimy, że są one
nieskorelowane. Jeżeli zmienne losowe są niezależne, to są nieskorelowane, ale nie na odwrót.
(
)
2
Wyrażenie E (Y − (αX + β)) osiąga najmniejszą wartość, gdy współczynniki α i β są określone
wzorami
σ2
σ2
α = ρ , β = m01 − ρ m10 ,
σ1
σ1
gdzie σ12 = D2 X, σ22 = D2 Y , m10 = EX oraz m01 = EY .
Prostą o równaniu
σ2
(x − m10 )
σ1
nazywa się prostą regresji, a współczynniki α i β nazywają się współczynnikami regresji.
y − m01 = ρ
Przykład 1.3.4. Obliczmy kowariancję i współczynnik korelacji dla zmiennych losowych X i Y z przykładu 1.2.4. W przykładzie 1.3.3 obliczano wartości oczekiwane i wariancje zmiennych losowych X i Y . Pozostaje
do obliczenia jeszcze E (XY ). Zauważmy, że


1/36 dla i < j,
pij = i/36 dla i = j,


0
dla i > j.
Stąd
6
∑
E (XY ) =
i=1
(
i2
∑ 1
i
+
ij
36
36
j<i
)
= 1 + 2 + 33 + 43 + 53 + 63 /36
+ 1 · (2 + 3 + 4 + 5 + 6) /36
3
3
+ 2 · (3 + 4 + 5 + 6) /36
+ 3 · (4 + 5 + 6) /36
+ 4 · (5 + 6) /36
+ 5 · 6/36
154
=
.
9
Stąd i ze wzoru (1.3.12) otrzymujemy
C (XY ) =
154 7 161
35
−
=
≈ 1.46.
9
2 36
24
Współczynnik korelacji otrzymujemy podstawiając obliczone parametry do wzoru (1.3.14):
√
35/24
27
√
≈ 0.6082.
ρ= √
=
73
35/12 2555/1296
1.4. Zadania
1. Rzucamy trzema monetami. Jakie jest prawdopodobieństwo, że wyrzucimy co najmniej dwie
reszki?
2. Jest n + m losów, spośród których n wygrywa. Kupiono k losów. Obliczyć prawdopodobieństwo,
że wśród nich jest s (s ≤ n) losów wygrywających.
1.4. ZADANIA
15
3. Na kartce egzaminacyjnej jest pięć pytań i trzy możliwe odpowiedzi na każde z nich, z których
dokładnie jedna jest poprawna. Należy wybrać poprawną odpowiedź na każde pytanie. Ile wynosi
prawdopodobieństwo otrzymania czterech poprawnych odpowiedzi, jeżeli egzaminowany zgaduje
odpowiedzi?
4. Wytwórca czekoladek zaplanował ich promocję za pomocą małych bombonierek nazwanych
Premium, w których znajdowało się pięć nieróżniących się wyglądem czekoladek. Trzy z nich
miały smak wiśniowy, a dwie – nijaki. Wobec powodzenia akcji, wytwórca wprowadził do obrotu
bombonierki Super Premium, nieróżniące się wyglądem od bombonierek Premium, ale mające
jedną czekoladkę o smaku wiśniowych i cztery o smaku nijakim. Obecnie w handlu znajduje się
20% bombonierek Premium i 80% bombonierek Super Premium. Jakie jest prawdopodobieństwo,
że poczęstowana przez nas koleżanka wyjmie z promocyjnej bombonierki czekoladkę o smaku
wiśniowym?
5. Czekoladka z promocyjnej bombonierki z zadania 4 okazała się czekoladką o smaku wiśniowym.
Jakie jest prawdopodobieństwo, że znajdowała się w bombonierce Super Premium?
6. Wiemy, że 95% produkcji jest dobrej jakości, a pozostałe 5% jest złej jakości. Kontrola przepuszcza
przedmioty dobrej jakości z prawdopodobieństwem 0.98, a przedmioty złej jakości z prawdopodobieństwem 0.05. Obliczyć prawdopodobieństwo tego, że przedmiot przepuszczony przez kontrolę
będzie dobrej jakości.
7. 70% klientów drogerii wybiera tani proszek do prania XYZ, a pozostali klienci wybierają droższy
proszek do prania innej wiodącej marki. Wiadomo, że proszek XYZ usuwa plamy w 20% przypadków,
a proszek innej wiodącej marki – w 95%. Jakie jest prawdopodobieństwo, że proszek kupiony przez
losowo wybranego klienta usunie plamę?
8. W urnie są dwie białe i trzy czerwone litery X oraz trzy białe i dwie czerwone litery Y. Określamy
zdarzenia: A – wylosowano literę czerwoną, B – wylosowano literę Y . Czy zdarzenia A i B są
niezależne?
9. Zmienna losowa X przyjmuje cztery wartości z prawdopodobieństwami określonymi w tabeli:
Wartość
Prawdopodobieństwo
1.0
0.4
1.5
0.3
2.0
0.2
2.5
0.1
Wyznaczyć medianę. Obliczyć wartość oczekiwaną i wariancję.
10. Zmienna losowa X przyjmuje pięć wartości z prawdopodobieństwami określonymi w tabeli:
Wartość
Prawdopodobieństwo
1.0
0.2
1.5
0.2
2.0
p
2.5
q
3.0
0.1
Wyznaczyć wartości p i q tak, aby Me = 2.5, a następnie tak, aby Me = 2.0. W obu przypadkach
obliczyć wartość oczekiwaną i wariancję.
11. Sprzedawca tanich, niemarkowych t-shirtów ma pięciu dostawców. Kupując produkt od i-tego
dostawcy, ponosi w porównaniu z kupnem produktu markowego zysk (lub stratę, czyli zysk ujemny)
si . Procentowy udział dostawców i zyski podane są w tabeli.
Dostawca
Udział procentowy
Zysk
A
40%
−0.1
B
15%
2.3
C
20%
3.1
D
5%
−1.1
E
20%
3.8
16
Wszystkie t-shirty są wymieszane i mają taką samą cenę. Obliczyć średni zysk ze sprzedaży 100
t-shirtów i określić jego średnie odchylenie.
12. Zmienne X i Y są niezależne oraz EX = 1.2, EY = 2.5, D2 X = D2 Y = 0.5. Określamy zmienną
losową Z wzorem Z = 0.5 X + 0.3 Y . Korzystając z własności wartości oczekiwanej i wariancji sumy
niezależnych zmiennych losowych, obliczyć EZ oraz D2 Z.
13. Prawdopodobieństwo wylosowania głównej nagrody wartości 1000 zł w promocji pewnego towaru wynosi 0.0001, prawdopodobieństwo wygrania nagrody pocieszenia wartości 3 zł wynosi 0.2.
Warunkiem wzięcia udziału w jednokrotnym losowaniu nagrody jest zakup jednej sztuki towaru
za cenę 25 zł o rzeczywistej wartości 22 zł. Niech X będzie zyskiem lub stratą powstałą w wyniku
zakupu 5 sztuk tego towaru, wliczając w to ewentualny zysk z losowania nagrody. Obliczyć EX i
zakładając, że zakupy są niezależne, obliczyć D2 X oraz odchylenie standardowe.
14. Prawdopodobieństwo wygrania w jednej grze w automacie do gry wynosi 0.15. Ile trzeba wykupić gier aby prawdopodobieństwo wygrania choć raz w serii wykupionych gier, przekroczyło
poziom 0.3?
15. Rzucamy trzema monetami. Niech Zi = 1 gdy wyrzucimy reszkę na i-tej monecie oraz Zi = 0
w przeciwnym przypadku, i = 1, 2, 3. Określamy X = Z1 + Z2 (suma reszek na dwóch pierwszych
monetach) i Y = Z2 + Z3 (suma reszek na monecie drugiej i trzeciej). Znaleźć prawdopodobieństwa
pij = P (X = m, Y = n), P (X = m), P (Y = n), EX, EY , D2 X, D2 Y , C (X, Y ) i ρ (X, Y ).
Wykład 2
Rozkłady zmiennych losowych
2.1. Rozkłady dyskretne
Rozkład dwupunktowy
Zmienna losowa X ma rozkład dwupunktowy, gdy z prawdopodobieństwem 1 przyjmuje tylko dwie
wartości, tzn. jeśli P(X = x1 ) = p i P(X = x2 ) = q, to p + q = 1. Łatwo policzyć, że EX = x1 p + x2 q,
co w przypadku p = q = 1/2 daje m = (x1 + x2 )/2, czyli średnią arytmetyczną, natomiast wariancja
D2 X = (x2 − x1 )2 pq.
Szczególnym przypadkiem rozkładu dwupunktowego jest rozkład zero–jedynkowy, gdy x1 = 0 i
x2 = 1. Wtedy EX = p oraz D2 X = pq.
Rozkład dwumianowy
Dokonujemy n niezależnych doświadczeń, a w każdym z nich możemy otrzymać tylko dwa wyniki
– sukces lub porażkę. Prawdopodobieństwo sukcesu w każdym doświadczeniu jest takie samo i jest
równe p, więc prawdopodobieństwo porażki jest równe q = 1 − p.
Prawdopodobieństwo, że odniesiemy sukces w ustalonych k doświadczeniach spośród wszystkich n
wykonanych, jest równe pk . Prawdopodobieństwo, że w pozostałych n − k doświadczeniach odnien−k
siemy
( ) porażkę, jest równe (1 − p) . W n doświadczeniach można k miejsc na sukces wybrać na
n
sposobów. Stąd oznaczając przez X liczbę sukcesów w n doświadczeniach, otrzymujemy
k
( )
n k
P(X = k) = pk =
p (1 − p)n−k ,
k
gdzie k = 0, 1, . . . , n.
Jest to rozkład dwumianowy. Łatwo policzyć, że gdy q = 1 − p, to
n ( )
∑
n
k=0
k
pk q n−k = (p + q)n = 1n = 1
oraz wszystkie pk > 0, (k = 0, 1, . . . , n).
17
18
WYKŁAD 2. ROZKŁADY ZMIENNYCH LOSOWYCH
Jeżeli Xi , i = 1, 2, . . . , n są niezależnymi zmiennymi losowymi o takich samych rozkładach zerojedynkowych, to zmienna losowa X = X1 +X2 +· · ·+X2 ma rozkład dwumianowy. Ponieważ EXi = p
i D2 X = pq, to rozkład dwumianowy ma wartość oczekiwaną EX = np i wariancję D2 X = npq.
Rozkład Poissona
Zmienna losowa X ma rozkład Poissona, gdy
pk = P (X = k) = e−λ
λk
,
k!
gdzie k = 0, 1, . . . , natomiast λ > 0. Parametry: EX = λ, D2 X = λ.
Rozkład Poissona ma ścisły związek z rozkładem dwumianowym. Związek ten pokażemy w paragrafie 2.4 na str. 23.
2.2. Rozkłady typu ciągłego
Rozkład jednostajny
Niech zmienna losowa X ma gęstość
{
f (x) =
1
b−a
0
dla x ∈ [a, b],
dla x ∈/ [a, b].
Jest to rozkład jednostajny na odcinku [a, b]. Parametry: EX = (a + b) /2, D2 X = (b − a)2 /12.
Rozkład wykładniczy
Niech zmienna losowa X ma gęstość
{
λe−λx
f (x) =
0
dla λ > 0. Wtedy
{
1 − e−λx
F (x) =
0
dla x ≥ 0,
dla x < 0,
dla x ≥ 0,
dla x < 0.
Jest to rozkład wykładniczy. Parametry: EX = 1/λ, D2 X = 1/λ 2
Rozkład normalny
Wśród rozkładów typu ciągłego jednym z najważniejszych jest rozkład normalny o parametrach
m i σ. Fakt, że zmienna losowa X ma taki właśnie rozkład oznacza się przez X ∼ N(m, σ), gdzie
EX = m, D2 X = σ 2 . Ma to miejsce wtedy, gdy zmienna losowa
Y=
X−m
σ
(2.2.1)
2.2. ROZKŁADY TYPU CIĄGŁEGO
19
ma rozkład N (0, 1), czyli ma gęstość wyrażającą się wzorem
2
1
f (x) = √ e−x /2 .
2π
(2.2.2)
Zmienna losowa X ∼ N (m, σ) ma gęstość
2
1
− (x−m)
f (x) = √ e 2σ 2 .
σ 2π
(2.2.3)
f (x)
6
−3
−2
−1
0
1
2
3
-x
Rysunek 2.1: Gęstość rozkładu normalnego N (0, 1).
Gęstość rozkładu normalnego N(0, 1) przedstawiona jest na rys. 2.1. Dystrybuanta zmiennej losowej
X o rozkładzie normalnym N (0, 1) jest oznaczana przez Φ (x) = P (X < x), a jej wartości są podane
w tablicach rozkładu normalnego. Do korzystania z nich przydatna jest znajomość następujących
zależności:
a) P (X > x) = 1 − Φ (x),
b) Φ (x) = 1 − Φ (−x),
c) P (|X| > x) = 2 (1 − Φ (x)).
Aby zaś obliczyć P(X < x), gdy X ∼ N(m, σ), należy skorzystać z zależności
(
)
(x − m)
X−m
x−m
P(X < x) = P
<
=Φ
.
σ
σ
σ
Spotykane często tablice rozkładu normalnego podają zamiast wartości dystrybuanty Φ(x) (takie
tablice są na str. 57), wartości funkcji Φ(x) − 0.5, czyli wartości P (0 < X < x) (takie tablice są w
[8, 9, 10]).
Rozkład normalny dwuwymiarowy (X, Y ) ma gęstość postaci
(
f(x, y) =
2πσ1 σ2
1
√
1 − ρ2
exp
1
−
2(1 − ρ2 )
(
(x − m1 )2
σ12
(x − m1 )(y − m2 )2 (y − m2 )2
−2ρ
+
σ1 σ2
σ22
))
. (2.2.4)
Parametr ρ występujący we wzorze (2.2.4) jest współczynnikiem korelacji zmiennych losowych X i
Y , natomiast parametry m1 , m2 , σ1 i σ są odpowiednio wartościami oczekiwanymi i odchyleniami
20
standardowymi zmiennych losowych X i Y . Z porównania wzorów (2.2.4) i (2.2.3) widać, że gęstość
dwuwymiarowego rozkładu normalnego jest iloczynem gęstości normalnych jednowymiarowych
wtedy i tylko wtedy, gdy ρ = 0.
Wynika stąd, że jeśli zmienne losowe X i Y mają dwuwymiarowy rozkład normalny, to są niezależne
wtedy i tylko wtedy, gdy są nieskorelowane. Jest to szczególna cecha rozkładu normalnego (por.
uwagę na str. 14).
2.3. Populacja, próba i statystyki
Cecha ilościowa w populacji generalnej jest zmienną losową – oznaczmy ją symbolem X. Wybieramy (losujemy) n-elementową część populacji generalnej, której elementy mają cechy X1 , X2 , . . . , Xn .
Tak otrzymany ciąg zmiennych losowych nazywamy próbą losową lub próbą statystyczną. Zakładać
będziemy dalej zawsze, że zmienne losowe Xi są niezależne o takiej samej dystrybuancie (o takim
samym rozkładzie), co cecha X. Próbę taką będziemy nazywać próbą prostą.
Statystyka Tn = Tn (X1 , X2 , . . . , Xn ) jest funkcją zmiennych losowych (X1 , X2 , . . . , Xn ). Poniżej podanych jest kilka najważniejszych statystyk.
1. Średnia empiryczna:
n
1∑
X=
Xi .
n
(2.3.1)
i=1
2. Wariancja empiryczna:
n
S2 =
n
)2
1 ∑(
1∑ 2
2
Xi − X =
Xi − X ,
n
n
i=1
(2.3.2)
i=1
czyli wariancja empiryczna, to średnia z kwadratów minus kwadrat średniej.
3. Odchylenie standardowe empiryczne:
√
S=
S2.
(2.3.3)
Zauważmy, że powyżej podane statystyki są zmiennymi losowymi (oznaczamy je dużymi literami),
natomiast ich zaobserwowane wartości oznaczamy małymi literami.
Zaobserwowana wartość średniej empirycznej wyraża się wzorem
x=
x1 + · · · + xn
,
n
(2.3.4)
lub dla danych pogrupowanych wzorem przybliżonym
◦
x=
◦
n1 x 1 + · · · + nk x k
.
n
(2.3.5)
Zaobserwowana wartość wariancji empirycznej
n
s2 =
1∑
(xi − x)2
n
i=1
(2.3.6)
2.3. POPULACJA, PRÓBA I STATYSTYKI
21
lub dla danych pogrupowanych wzorem przybliżonym
)2
1 ∑ (◦
s =
x i − x ni .
n
k
2
(2.3.7)
i=1
◦
Występująca we wzorach (2.3.5) i (2.3.7) liczba x i jest środkiem, a liczba ni jest liczebnością i-tego
przedziału klasowego. Zaobserwowaną wartością statystyki (2.3.1) jest więc liczba określona wzorem
(2.3.4), a wartością (2.3.2) jest liczba określona wzorem (2.3.6).
Wartość oczekiwana EX określona wzorem (1.3.2) lub (1.3.3) jest teoretycznym odpowiednikiem
średniej empirycznej x określonej wzorem (2.3.4), natomiast wariancja D2 X określona wzorem
(1.3.6) jest teoretycznym odpowiednikiem wariancji empirycznej s2 określonej wzorem (2.3.6).
Wariancję empiryczną określa się też nieco innym wzorem (S 2 „z daszkiem”):
n
n
i=1
i=1
)2
1 ∑(
1 ∑ 2
n
2
Ŝ =
Xi − X =
Xi −
X .
n−1
n−1
n−1
2
(2.3.8)
n
jest bliskie jedynki, a więc s2 i ŝ2 różnią się nieznacznie.
n−1
Ważne są następujące własności:
Jeśli n jest duże, to
EX = EX,
EŜ 2 = D2 X.
Oznacza to, że przeciętna wartość średniej empirycznej z próby jest równa średniej teoretycznej
(patrz str. 11) cechy w populacji generalnej, a przeciętna wartość wariancji empirycznej „z daszkiem”
z próby jest równa wariancji teoretycznej cechy w populacji generalnej. Wynika stąd, że statystyki
określone wzorami (2.3.1) – (2.3.8) mogą służyć do oszacowania odpowiednich parametrów teoretycznych.
Ogólnie: statystyki służące do szacowania nieznanych parametrów rozkładu cechy w populacji generalnej na podstawie próby, nazywa się estymatorami. O estymatorach będzie mowa w wykładzie 3.
Dla porównania tych estymatorów z prawdziwymi wartościami parametrów służą statystyki:
X − EX √
n,
σ
X − EX √
t=
n − 1,
S
nS 2
χ2 = 2 .
σ
U=
(2.3.9)
(2.3.10)
(2.3.11)
Wzoru (2.3.9) używamy, gdy znane jest σ, a wzoru (2.3.10), gdy σ jest nieznane.
Dalej potrzebne będzie jeszcze pojęcie rozkładu chi-kwadrat Pearsona. Zmienna losowa o tym
rozkładzie tradycyjnie oznaczana jest symbolem χ 2 . Zmienna losowa χ 2 ma rozkład chi-kwadrat
o n stopniach swobody, gdy jest sumą kwadratów niezależnych zmiennych losowych o rozkładzie
normalnym N(0, 1), tzn.
χ 2 = X12 + X22 + · · · + Xn2 ,
gdzie Xi są niezależne i mają rozkłady normalne N(0, 1). Wtedy Eχ 2 = n oraz D2 χ 2 = 2n. Tablice
rozkładu chi-kwadrat ułożone są tak, że dla danych n i α, 0 < α < 1 podawane są wartości liczb χα2
takie, że
(
)
P χ 2 > χα2 = α.
22
Wartości te są podawane(dla n ≤ )30 (str. 59). Dla większych n rozkład chi-kwadrat jest zbliżony do
√
rozkładu normalnego N n, 2n .
Przy pomocy rozkładu chi-kwadrat i rozkładu normalnego N(0, 1) definiuje się rozkład t-Studenta.
Zmienna losowa o tym rozkładzie tradycyjnie oznaczana jest symbolem t lub T. Zmienna losowa
t ma rozkład Studenta o n stopniach swobody, gdy wyraża się wzorem
t=√
X
χ 2 /n
,
gdzie X ma rozkład N(0, 1), a χ 2 ma rozkład chi-kwadrat o n stopniach swobody oraz X i χ 2 są
niezależne.
Tablice rozkładu Studenta ułożone są tak, że dla danych n i α, 0 < α < 1 podawane są wartości
liczb tα takie, że
P (|t| > tα ) = α.
Wartości te są podawane dla n ≤ 30 (str. 58). Dla większych n rozkład Studenta jest zbliżony do
rozkładu normalnego N (0, 1).
Założymy teraz, że cecha w populacji generalnej ma rozkład normalny N(m, σ). W tym przypadku
rozkłady statystyk określonych wzorami (2.3.1) i (2.3.9) – (2.3.11) są następujące.
√
a) Statystyka X ma rozkład normalny N(m, σ/ n).
b) Statystyka U określona wzorem (2.3.9) ma rozkład normalny N(0, 1).
c) Statystyka t określona wzorem (2.3.10) ma rozkład Studenta o n − 1 stopniach swobody.
d) Statystyka χ 2 określona wzorem (2.3.11) ma rozkład chi-kwadrat o n − 1 stopniach swobody.
Statystyką związaną z rozkładem dwuwymiarowym jest empiryczny współczynnik korelacji R określony wzorem
n
∑
(Xi − X)(Yi − Y )
i=1
R= √
.
(2.3.12)
n
n
∑
∑
(Xi − X)2 (Yi − Y )2
i=1
i=1
2.4. Twierdzenia graniczne
Dla dużych i bardzo dużych prób, wyznaczenie dokładnych rozkładów statystyk może być trudne.
Można wtedy skorzystać z twierdzeń granicznych. Podamy tutaj trzy ważne twierdzenia.
Prawo wielkich liczb
Jeżeli X1 , X2 , . . . , Xn są niezależnymi zmiennymi losowymi o tym samym rozkładzie, EXi = m,
D2 Xi = σ 2 , to
(
)
P lim X = m = 1.
n→∞
Oznacza to, że dla dużych prób średnia empiryczna (2.3.4) jest z dobrą dokładnością równa w
przybliżeniu średniej teoretycznej EX określonej wzorami (1.3.2) lub (1.3.3).
Przykład 2.4.1. Rzucając bardzo wiele razy monetą, stosunek liczby wyrzuconych reszek do liczby wszystkich
rzutów, będzie w przybliżeniu równy 1/2.
2.5. ZADANIA
23
Centralne Twierdzenie Graniczne
Jeżeli X1 , X2 , . . . , Xn są niezależnymi zmiennymi losowymi o tym samym rozkładzie, EXi = m,
D2 Xi = σ 2 , to
(
)
X1 + X2 + · · · + Xn − nm
√
lim P
< x = Φ(x),
n→∞
σ n
gdzie Φ(x) jest dystrybuantą rozkładu normalnego N(0, 1).
Konsekwencją centralnego twierdzenia granicznego jest to, że dla dużych prób rozkłady statystyk
(2.3.9) i (2.3.10) mają rozkład w przybliżeniu normalny N(0, 1) nawet wtedy, gdy rozkład cechy
X nie jest normalny. Wystarczy tylko, by istniała skończona wariancja, tzn. D2 X < ∞. Również
własność, że zmienne losowe o rozkładzie chi-kwadrat i rozkładzie t-Studenta mają dla n > 30
rozkład zbliżony do normalnego jest konsekwencją Centralnego Twierdzenia Granicznego.
Twierdzenie Poissona
Prostym, ale użytecznym twierdzeniem granicznym jest twierdzenie Poissona. Załóżmy w nim, że
zmienne losowe Xn o rozkładzie dwumianowym mają prawdopodobieństwo p malejące wraz z
n → ∞ w taki sposób, że λ = pn jest stałe. Wtedy
P (Xn = k) → e−λ
λk
.
k!
Oznacza to, że rozkład dwumianowy dla dostatecznie dużych n i małych p można przybliżyć rozkładem Poissona. W praktyce przyjmuje się, że n powinno być równe około 100 lub większe, natomiast
p takie, że 0.1 < λ < 10.
Przykład 2.4.2. Załóżmy, że prawdopodobieństwo sukcesu w jednym doświadczeniu wynosi p. Niech X
będzie liczbą sukcesów w n niezależnych doświadczeniach.
a) Jeśli n = 10 i p = 0.2, to
( )
10
P (X = 2) =
0.22 0.88 ≈ 45 · 0.04 · 0.1677 ≈ 0.3020.
2
b) Jeśli n = 100 i p = 0.02, to λ = 2 (wartość oczekiwana EX = 2 jest taka sama jak w poprzednim
przypadku). Korzystamy z tw. Poissona i otrzymujemy
P (X = 2) = e−2
22
≈ 0.2707.
2!
√
√
c) Jeśli n = 100 i p = 0.2, m = p = 0.2 (teraz EX = 20), σ = pq = 0.16 = 0.4. Korzystamy z
Centralnego Twierdzenia Granicznego i otrzymujemy
)
(
X − 20
< 0.5 ≈ Φ (0.5) = 0.6915.
P (X < 22) = P
4
2.5. Zadania
1. Liczba samochodów przejeżdżających w nocy przez punkt pomiarowy na drodze w ciągu jednej minuty, ma rozkład Poissona z parametrem λ = 1.2. Obliczyć prawdopodobieństwo, że liczba
samochodów przejeżdżających przez ten punkt w ciągu minuty, będzie większa niż trzy.
2. Zmienna losowa X ma rozkład normalny N (0, 1). Korzystając z tablic, wyznaczyć P (X < 1.3),
P (X > 2.1), P (X < −0.9), P (|X| ≤ 1.34).
24
3. Zmienna losowa X ma rozkład normalny N (0.3, 0.12). Korzystając z tablic, wyznaczyć P (X > 0.13),
P (X < 1.34), P (X ≥ 0.1), P (|X| > 1.51).
4. Uzasadnić korzystając z tablic, że jeśli zmienna losowa X ma rozkład normalny N (m, σ), to
P (|X − m| > 3σ) < 0.01.
5. Zmienna losowa X ma rozkład wykładniczy ze średnią EX = 2.41. Wyznaczyć medianę, kwartyle
i odchylenie ćwiartkowe.
6. Zmienna losowa X ma rozkład wykładniczy ze średnią EX = 1.5. Niech Y = 1.4 X + 0.45.
Wyznaczyć P (Y > 0.05) oraz P (Y < 0.59).
7. Wiadomo, że cecha X ma rozkład jednostajny na przedziale [1, 3]. Dokonano n = 10 niezależnych
obserwacji. Obliczyć dla takiej próby statystycznej EX, EŜ 2 oraz ES 2 .
8. Autobus z Wyższej Szkoły Handlowej na ul. Ostrowskiego do naszego domu jeździ co 30 minut,
ale rozkładu jazdy nie znamy. Czekamy na autobus w padającym deszczu przez czas T. Nasze
straty S z tego powodu rosną z kwadratem czasu czekania wg wzoru S = αT 2 , gdzie α jest pewną
stałą. Obliczyć średnią stratę, odchylenie standardowe, medianę, kwartyle i odchylenie ćwiartkowe.
Porównać średnią z medianą oraz odchylenie standardowe z odchyleniem ćwiartkowym.
9. Zmienna losowa t ma rozkład t-Studenta o k stopniach swobody. Korzystając z tablic, wyznaczyć
wartość tα dla danego α, gdy
a) P (|t| > tα ) = α,
b) P (t > tα ) = α,
c) P (t < tα ) = α,
dla k = 5, k = 11, oraz α = 0.1, α = 0.05.
10. Zmienna losowa χ 2 ma rozkład chi-kwadrat o k stopniach swobody. Korzystając z tablic, wyznaczyć wartość χα2 dla danego α, gdy
(
)
a) P χ 2 > χα2 = α,
(
)
b) P χ 2 < χα2 = α,
dla k = 5, k = 11, oraz α = 0.1, α = 0.05. Powtórzyć obliczenia dla k = 41, k = 50
11. Prawdopodobieństwo wyprodukowania jednej sztuki wyrobu drugiego gatunku wynosi 0.3. Jakie
jest prawdopodobieństwo, że w partii 100 sztuk wyrobów znajdzie się mniej niż 30 sztuk drugiego
gatunku? Jakie jest prawdopodobieństwo, że liczba wyrobów drugiego gatunku będzie większa od
10? Jakie jest prawdopodobieństwo, że liczba wyrobów drugiego gatunku jest zawarta pomiędzy 10
a 30?
12. Tygodniowe wypłaty z pewnego funduszu są niezależnymi zmiennymi losowymi o rozkładzie
1
wykładniczym z tym samym parametrem λ = 1000
zł . Obliczyć prawdopodobieństwo, że łączna
wypłata z tego funduszu w okresie roku, tzn. 52 tygodni, przekroczy 70 000 zł.
13. Rzucamy 100 razy parą kostek do gry. Niech X oznacza liczbę rzutów, w których szóstka wypadnie
na obu kostkach. Obliczyć EX, D2 X oraz P (X ≤ k) dla k = 0, 1, 2.
Wykład 3
Estymacja
3.1. Zasady estymacji parametrów
Szacowanie nieznanego parametru na podstawie próby statystycznej1 za pomocą jednej liczby nazywamy estymacją punktową. Zmienna losowa Tn będąca funkcją próby (X1 , X2 , . . . , Xn )
Tn = Tn (X1 , X2 , . . . , Xn )
szacująca nieznany parametr θ nazywa się estymatorem parametru θ.
Znane ze statystyki opisowej parametry empiryczne – mediana i kwartyle empiryczne, średnia
empiryczna i wariancja empiryczna, są estymatorami punktowymi odpowiednich parametrów teoretycznych, omówionych w wykładzie 1. Estymator Tn pewnego parametru θ jest
a) nieobciążony, gdy ETn = θ,
b) asymptotycznie nieobciążony, gdy lim ETn = θ,
n→∞
c) zgodny, gdy lim P (Tn = θ) = 1.
n→∞
Statystyki X i
są estymatorami nieobciążonymi i zgodnymi parametrów EX i D2 X, natomiast S 2
jest estymatorem asymptotycznie nieobciążonym i zgodnym parametru D2 X.
Ŝ 2
Idea estymacji przedziałowej polega na tym, aby zamiast szacowania nieznanego parametru θ za
pomocą jednej liczby, znaleźć przedział zwany przedziałem ufności, w którym nieznany parametr
znajdzie się z zadowalającym nas prawdopodobieństwem, bliskim 1. Bliskość jedynki określa się
liczbą 1 − α i nazywa poziomem ufności. Inaczej mówiąc, wyznaczamy takie dwa estymatory Tn′ i
Tn′′ , aby
(
)
P Tn′ < θ < Tn′′ = 1 − α,
(3.1.1)
czyli wyznaczamy przedział o losowych końcach, w którym nieznana nam wartość parametru θ
znajdzie się z prawdopodobieństwem 1 − α. Dla danej realizacji przedział ufności ma więc postać
( ′
) (
)
Tn (x1 , x2 , . . . , xn ) , Tn′′ (x1 , x2 , . . . , xn ) = θ ′ , θ ′′ .
(3.1.2)
Sens wyznaczenia przedziału (θ ′ , θ ′′ ) określonego wzorem (3.1.2) jest następujący: po podstawieniu
zaobserwowanego ciągu danych (x1 , x2 , . . . , xn ) do wzorów określających θ ′ = Tn′ (x1 , x2 , . . . , xn )
oraz θ ′′ = Tn′′ (x1 , x2 , . . . , xn ), prawdziwa wartość parametru θ powinna się znaleźć w tym przedziale średnio w (1 − α) 100% przeprowadzonych obserwacji (doświadczeń). Średnio tylko w α100%
obserwacji nasze oszacowanie nie będzie prawdziwe.
1
Zawsze zakładamy, że to próba prosta (patrz str. 20).
25
26
WYKŁAD 3. ESTYMACJA
Łatwo jest zauważyć, że im mniejsze α, tym dłuższy jest przedział ufności. Zazwyczaj α przybiera
jedną z wartości 0.1, 0.05, 0.01, przy czym wartość α = 0.05 jest najczęściej używana – mówimy
wtedy o 95 procentowym przedziale ufności.
W następnych punktach
omówimy szerzej trzy typowe przypadki: przedziały ufności dla parametrów
√
2
m = EX i σ = D X, wskaźnika struktury p, a także współczynnika korelacji ρ.
3.2. Szczególne przypadki
Przedziały ufności dla średniej
Rozpatrywane są trzy przypadki, przy czym dla każdego z nich przedział ufności jest symetryczny
względem średniej empirycznej X określonej wzorem (2.3.1).
Przypadek I. Populacja generalna ma rozkład N(m, σ), odchylenie standardowe jest znane. Nieznany jest parametr m, dla którego szukamy przedziału ufności. Dla próby o liczebności n przedział
ufności wygląda następująco:
(
)
σ
σ
P X − uα √ < m < X + uα √
= 1−α,
(3.2.1)
n
n
gdzie uα jest takie, że P(|U| > uα ) = α oraz U ∼ N(0, 1). Wtedy dla otrzymanych już danych, czyli
dla ustalonej realizacji, przedział ufności ma postać
)
(
( ′ ′′ )
σ
σ
√
√
, x + uα
,
(3.2.2)
m , m = x − uα
n
n
Przykład 3.2.1. Cecha X ma rozkład normalny o nieznanej wartości oczekiwanej i znanym odchyleniu
standardowym σ = 0.1. Oszacować m na poziomie ufności 1 − α = 0.95 na podstawie pięcioelementowej
próby prostej: 1.2, 1.3, 1.1, 1.1, 1.3.
Najpierw średnia:
1.2 + 1.3 + 1.1 + 1.1 + 1.2
6
= = 1.2.
5
5
Ponieważ P (|U| > uα ) = 2 (1 − Φ (uα )) = α, więc Φ (uα ) = 1 − α/2 = 0.975. Stąd odczytujemy z tablicy
rozkładu normalnego uα = 1.96. Podstawiamy obliczone wielkości do wzoru (3.2.2) i otrzymujemy przedział
ufności (po zaokrągleniu) (1.11, 1.29). Analogiczne obliczenia dają dla poziomu ufności 1 − α = 0.9 węższy
przedział (1.13, 1.27), gdyż wtedy uα = 1.64. Przyjęcie z kolei poziomu ufności 1 − α = 0.99 daje szerszy
przedział (1.09, 1.31), gdyż wtedy uα = 2.57.
x=
Przypadek II. Populacja generalna ma rozkład N (m, σ), odchylenie standardowe jest nieznane.
Nieznany jest też parametr m, dla którego szukamy przedziału ufności. Dla próby o liczebności n,
przedział ufności wygląda następująco:
(
)
S
S
P X − tα √
< m < X + tα √
= 1 − α,
(3.2.3)
n−1
n−1
gdzie tα jest takie,
√ że P (|t| > tα ) = α oraz t ma rozkład t-Studenta o n − 1 stopniach swobody.
Statystyka S = S 2 określona jest wzorem (2.3.3). Wtedy
)
(
( ′ ′′ )
s
s
, x + tα √
,
(3.2.4)
m , m = x − tα √
n−1
n−1
3.2. SZCZEGÓLNE PRZYPADKI
27
√
lub równoważnie przy pomocy statystyki Ŝ = Ŝ 2
(
)
Ŝ
Ŝ
P X − tα √ < m < X + tα √
= 1−α.
n
n
Wtedy
(
′
m ,m
′′
)
(
=
ŝ
ŝ
x − tα √ , x + tα √
n
n
(3.2.5)
)
.
(3.2.6)
Tablice rozkładu t-Studenta podają wartości tylko dla liczby stopni swobody do trzydziestu. Dla
większej liczby stopni swobody statystyka (2.3.10) ma rozkład w przybliżeniu normalny (patrz str. 22).
Takie też tablice należy stosować lub od razu przejść do przypadku III.
Ponieważ we wzorach (3.2.1), (3.2.3) i (3.2.5) znamy dokładne rozkłady statystyk, to można je stosować
nawet przy małych próbach.
Przykład 3.2.2. Dane, cel i poziom ufności jak w przykładzie 3.2.1, ale teraz przypuśćmy, że nie znamy
odchylenia standardowego, jednak wiemy, że X ∼ N (m, σ). Ze wzoru (2.3.6) obliczamy
s2 =
1.22 + 1.32 + 1.12 + 1.12 + 1.22
− 1.22 = 0.008,
5
skąd s = 0.089. Z tablic rozkładu t-Studenta odczytujemy dla α = 0.05 i czterech stopni swobody, tα = 2.7764.
Po podstawieniu do wzoru (3.2.4) otrzymujemy przedział ufności (po zaokrągleniu) (1.08, 1.32).
Zwróćmy uwagę, że otrzymany w tym przykładzie przedział ufności jest szerszy, czyli oszacowanie jest mniej
dokładne niż oszacowanie otrzymane w przykładzie 3.2.1. Jest to zrozumiałe, gdyż teraz mamy mniej informacji – nie jest znane σ.
Przypadek III. Rozkład dowolny, ale n musi być duże (co najmniej kilkadziesiąt) oraz istnieje
wariancja σ 2 = D2 X < ∞, która może być nieznana. Wtedy przedziały ufności wyznaczane są ze
wzoru (3.2.1), przy czym zamiast σ można podstawić S lub Ŝ (dla dużego n różnica między S i Ŝ
jest nieznaczna), gdy σ nie jest znane.
Przedziały ufności dla wariancji
Przedział ufności dla wariancji nie zależy od wartości oczekiwanej m = EX. Stąd tylko dwa rozważane przypadki.
Przypadek I. Populacja generalna ma rozkład normalny. Nieznany jest parametr σ, dla którego
szukamy przedziału ufności. Próba jest mała (n < 30). Dla próby o liczebności n, przedział ufności
wygląda następująco:
( 2
)
nS
nS 2
2
P
<σ <
= 1 − α,
(3.2.7)
c2
c1
gdzie c1 < c2 spełniają równania
(
)
(
)
P χ 2 < c1 = P χ 2 > c2 = α/2
dla zmiennej losowej χ 2 o rozkładzie chi-kwadrat o n − 1 stopniach swobody. Wtedy
(
) ( ns2 ns2 )
′2 ′′2
σ ,σ
=
,
.
c2 c1
(3.2.8)
(3.2.9)
28
Równoważnie przedział ufności można określić wzorem
(
)
2
−
1)
Ŝ
(n − 1) Ŝ 2
(n
< σ2 <
P
= 1−α.
c2
c1
Wtedy
(
(
)
σ ′2 , σ ′′2 =
(n − 1) Ŝ 2
(n − 1) Ŝ 2
< σ2 <
c2
c1
(3.2.10)
)
,
(3.2.11)
gdzie c1 i c2 są takie same jak poprzednio.
Zwróćmy uwagę, że przedział ufności otrzymany ze wzorów (3.2.9) lub (3.2.11) nie jest symetryczny
względem s2 . Założenie, że próba jest mała ma charakter czysto rachunkowy – dla n > 30 rozkład
chi-kwadrat jest na tyle zbliżony do normalnego, że tablice zawierają na ogół wartości tylko do
n = 30.
Przykład 3.2.3. Oszacujmy σ 2 na poziomie ufności 0.9 dla danych jak w przykładzie 3.2.1. Wartość statystyki
s2 została obliczona w przykładzie 3.2.2: s2 = 0.008. Z tablicy rozkładu chi-kwadrat odczytujemy bezpośrednio
(
)
(patrz (wzór (3.2.8))
parametr c2 (= 9.4877) dla α/2 = 0.05. Parametr c1 odczytujemy z zależności P χ 2 < c1 =
)
1 − P χ 2 > c1 = 0.05, czyli P χ 2 > c1 = 0.95, więc c1 = 0.7107. Przedział ufności (0.0042, 0.0536).
Przypadek II. Populacja generalna ma rozkład normalny lub zbliżony do normalnego i próba jest
duża, n ≥ 30. Przedział ufności dla odchylenia standardowego wyraża się wzorem



P
S
S

uα < σ <
uα  ≈ 1 − α ,
1+ √
1− √
2n
2n
gdzie uα jest takie, że P (|U| > uα ) = α oraz U ∼ N (0, 1). Wtedy


( ′ ′′ ) 
s
s

σ ,σ = 
uα ,
uα 
1+ √
1− √
2n
2n
(3.2.12)
(3.2.13)
Przedziały ufności dla wskaźnika struktury
Załóżmy, że w populacji znajdują się elementy dwóch rodzajów, oznaczone jako 0 i 1, przy czym
elementy oznaczone jako 1 stanowią p · 100% populacji. Parametr p jest wskaźnikiem struktury
(procentu). Z populacji pobieramy próbę n elementową, w której M oznacza liczbę elementów
oznaczonych jako 1. M jest oczywiście zmienną losową. Przedział ufności dla p jest postaci
√ (
√ (

)
)
M
m
M
M
1
−
1
−
M
M
n
n 
P  − uα n
<p<
+ uα n
≈ 1 − α,
(3.2.14)
n
n
n
n
gdzie uα jest takie, że P(|U| > uα ) = α oraz U ∼ N(0, 1). Próba musi mieć dostatecznie dużą liczbę
elementów – co najmniej 100. Dla pobranej próby, więc dla ustalonego już m, mamy
√ (
√ (

)
)
m
m
m
m
( ′ ′′ )
1− n m
1− n
m
.
p , p =  − uα n
,
+ uα n
(3.2.15)
n
n
n
n
29
Przykład 3.2.4. Spośród 100 wylosowanych elementów, 80 było klasy I, a 20 klasy II. Na poziomie ufności
1 − α = 0.95 oszacować procent elementów klasy I w całej populacji.
Podstawiamy we wzorze (3.2.15), n = 100 i m = 80 obliczamy:
√ (
) √
m
m
0.8 · 0.2
n 1− n
=
= 0.04.
n
100
Ponieważ (patrz przykład 3.2.1) uα = 1.96, to podstawiając otrzymane wartości do wzoru (3.2.15), otrzymujemy
przedział ufności dla procentu (w zaokrągleniu do całych procentów) elementów klasy I:
(80% − 1.96 · 4%, 80% + 1.96 · 4%) = (72%, 88%) .
Przedział ufności dla współczynnika korelacji
Przedział ufności dla współczynnika korelacji podamy tylko przy szczególnych założeniach, a mianowicie, że rozkład łączny wektora X i Y jest normalny lub zbliżony do normalnego oraz próba
jest duża (n – kilkaset). Przedział ufności dany jest tu wzorem
)
(
1 − R2
1 − R2
< ρ < R + uα √
= 1−α,
(3.2.16)
P R − uα √
n
n
gdzie P (|U| < uα ) = 1−α dla U ∼ N (0, 1). Statystyka R wyraża się wzorem (2.3.12). Wtedy przedział
ufności dla współczynnika korelacji ρ jest postaci:
(
)
( ′ ′′ )
1 − r2
1 − r2
√
√
ρ , ρ = r − uα
< ρ < +uα
,
(3.2.17)
n
n
gdzie (por. str. 43)
n
∑
r=√
(xi − x)(yi − y)
i=1
n
∑
2
(xi − x)
i=1
n
∑
.
(3.2.18)
2
(yi − y)
i=1
Jeśli próba jest liczna i dane są podzielone na klasy w tablicę wielodzielczą, to wtedy
k ∑
l
∑
r=√
◦
◦
◦
nij (x i − x)(y j − y)
i=1 j=1
,
k
∑
l
∑
◦
ni· (x i − x)2
n·j (y j − y)2
i=1
j=1
(3.2.19)
◦
◦
gdzie x i , y j są środkami odpowiednich klas, nij jest liczbą danych, które ze względu na cechę X są
w klasie o numerze i, a ze względu na cechę Y , są w klasie o numerze j. ni· jest liczbą wszystkich
danych, które ze względu na cechę X są w klasie o numerze i, a n·j jest liczbą wszystkich danych,
które ze względu na cechę Y są w klasie o numerze j.
Przykład 3.2.5. Przypuśćmy, że empiryczny współczynnik korelacji między dwiema cechami, obliczony z
próby 100 elementowej, wynosi r = 0.3. Interpretację, czy zależność między tymi cechami można uznać
za dużą czy też małą przeprowadzimy korzystając z tabeli A.2 na str. 44. Wartość r = 0.3 według tej tabeli
oznacza zależność niską. Przedział ufności dla współczynnika korelacji na poziomie ufności 1 − α = 0.95
(jak poprzednio uα = 1.96) jest zgodnie ze wzorem (3.2.17) postaci:
)
(
1 − 0.09
1 − 0.09
, 0.3 + 1.96
≈ (0.12, 0.48) .
0.3 − 1.96
10
10
30
Jest to przedział szerszy niż przedział podany w tabeli A.2 dla zależności niskiej. Oznacza to, że prawdziwy
współczynnik korelacji może mieć wartość oznaczającą zarówno zależność umiarkowaną, jak i brak zależności. Jeśli jednak ta sama wartość r = 0.3 była otrzymana z próby 400 elementowej, to analogicznie obliczony
przedział ufności będzie miał postać (0.21, 0.39). Oznacza to w tym przypadku, że z prawdopodobieństwem
nie mniejszym od 0.95, zależność można zinterpretować jako niską – zależność jest, ale mniejsza niż umiarkowana.
3.3. Zadania
1. Niech cecha X ma rozkład normalny z parametrami m = 3.2, σ = 0.3 oraz U, t, χ 2 wyrażają się wzorami (2.3.9)–(2.3.11) dla próby 22 elementowej. Wyznaczyć dla tych statystyk liczby x
takie, że P (U < x) =( 0.1, P (U
) > x) = (0.8, P (|U|
) > x) = 0.01, P (t < x) = 0.05, P (U > x) = 0.9,
P (|U| > x) = 0.02, P χ 2 < x = 0.1, P χ 2 > x = 0.8.
2. Dla danych −0.01, 0.19, 0.09, −0.18, 0.40, oszacować na poziomie ufności 0.9 wartość oczekiwaną.
Wiadomo, że rozkład cechy w populacji jest normalny. Wariancja jest znana, σ 2 = 0.04.
3. Z próby 5-elementowej w populacji o rozkładzie normalnym obliczono s2 = 0.04. Wyznaczyć
przedział ufności dla σ na poziomie ufności 0.9.
4. Załóżmy, że zużycie paliwa w samochodzie (w litrach na 100 km) ma rozkład normalny. Zbadano
zużycie paliwa w 8 wylosowanych samochodach tej samej marki i tego samego typu, otrzymując
następujące wyniki:
Nr
Zużycie
1
5.2
2
5.1
3
5.3
4
5.4
5
5.0
6
4.9
7
5.1
8
5.0
Znaleźć przedział ufności na poziomie 1 − α = 0.95, a następnie 1 − α = 0.99 i 1 − α = 0.9 dla
średniego zużycia paliwa i dla wariancji.
5. W wyniku 50 obserwacji automatu dozującego płyn do jednolitrowych butelek otrzymano następujące wyniki (w mililitrach):
996,
1000,
1020,
1005,
993,
985,
1008,
993,
1010,
991,
989,
982,
1017,
1009,
1011,
1002,
1010,
1006,
996,
1001,
1020,
994,
1020,
983,
992,
998,
1020,
983,
996,
1002,
998,
998,
990,
1011,
990,
982,
1008,
1000,
986,
1011,
997,
987,
1001,
1019,
1002,
980,
1009,
998,
1010,
1007.
Znaleźć przedział ufności na poziomie 0.95 dla średniego napełnienia butelek i dla wariancji.
6. Oceny z kolokwium ukształtowały się następująco:
2.0,
2.0,
5.0,
4.5,
3.0,
5.0,
4.5,
2.0,
3.5,
2.0,
3.5,
4.5,
3.5,
2.0,
4.5,
2.0,
4.0,
4.0,
3.0,
4.5,
3.5,
2.0,
3.5,
5.0,
4.0,
4.0,
4.0,
2.0,
4.0,
2.0.
Wyznaczyć przedział ufności dla średniej ocen w grupie. Przyjąć poziom ufności 0.99.
7. Trwałość wyrobu wg zapewnień producenta powinna wynosić co najmniej 50 godzin pracy.
Zbadano 200 sztuk wyrobu i w 10 przypadkach zanotowano czas pracy krótszy niż deklarowany.
3.3. ZADANIA
31
Oszacować na poziomie ufności 0.9 przedział dla wskaźnika struktury wyrobów nie spełniających
deklarowanego parametru trwałości.
8. W celu zbadania zależności między stażem pracownika a procentem braków w wykonywanych
przez niego elementów, zbadano 100 pracowników pewnej dużej firmy. Oznaczono przez X staż pracy
liczony w latach od 1 do 4 i procent braków, w czterech przedziałach co 2%. Otrzymano wyniki nij
podane w tabeli, gdzie nij oznacza liczbę pracowników, którzy wytwarzają procent braków w i-tym
przedziale (wiersze) i mających staż pracy j lat (kolumny).
0
2
4
6
–
–
–
–
2
4
6
8
1
0
0
4
20
2
0
3
8
15
3
16
6
4
0
4
20
4
0
0
Oszacować na poziomie ufności 0.9 współczynnik korelacji między stażem pracy a procentem braków.
Wykład 4
Testowanie hipotez
4.1. Zasady testowanie hipotez
Test statystyczny ma za zadanie weryfikację pewnej hipotezy, na podstawie danych statystycznych.
Testy parametryczne służą do weryfikacji hipotez o wartościach parametrów w rozkładach badanych cech. Testy nieparametryczne będą sprawdzać prawdziwość hipotez, w których nie są, bądź
nie muszą być, sprecyzowane wartości parametrów rozkładów populacji, np. hipotez o normalnym
rozkładzie populacji lub że dwie cechy w populacji są niezależne. Testowanie hipotez statystycznych
ma (w każdym razie w zakresie tego wykładu) charakterystyczną postać – hipoteza ma postać równości θ = θ0 , gdzie θ jest prawdziwą, a nam nieznaną wartością parametru rozkładu, natomiast θ0
jest hipotetyczną wartością tego parametru. Oznacza to, że taka równość jest sprawdzaną (weryfikowaną) hipotezą, którą należy odrzucić i w zamian przyjąć inną (np. θ ̸= θ0 ) albo postanowić, że
nie ma podstaw do jej odrzucenia. To postanowienie nie oznacza przyjęcia hipotezy, może jednak
oznaczać konieczność przeprowadzenia dalszych badań.
Kiedy jesteśmy skłonni hipotezę odrzucić? Intuicyjnie zrobimy to wtedy, gdyby jej przyjęcie oznaczałoby, że zaszło zdarzenie bardzo mało prawdopodobne, na przykład zdarzenie, którego prawdopodobieństwo byłoby mniejsze od α = 0.05, czyli takie, które zdarzałoby się średnio rzadziej niż 5
razy na 100.
Rozumowanie to sprecyzujemy następująco. Niech θ będzie parametrem w pewnym rozkładzie o
dystrybuancie Fθ (x). Niech
H0 : θ = θ0 przeciw H1 : θ ̸= θ0
oznacza, że stawiamy hipotezę H0 : θ = θ0 zwaną hipotezą zerową, którą możemy odrzucić na
korzyść hipotezy H1 : θ ̸= θ0 zwanej hipotezą alternatywną. Innymi możliwościami są:
H0 : θ = θ0 przeciw H1 : θ < θ0 ,
H0 : θ = θ0 przeciw H1 : θ > θ0 .
Z rozkładem Fθ (x) i parametrem θ wiążemy statystykę
Z = Z (X1 , X2 , . . . , Xn ) ,
której rozkład dokładny lub przybliżony jest znany przy założeniu prawdziwości hipotezy H0 . Następnie wyznaczamy obszar Q ⊂ (−∞, ∞) służący do weryfikacji hipotezy H0 w ten sposób, aby
przy założeniu prawdziwości H0 była spełniona równość
P(Z ∈ Q) = α .
32
(4.1.1)
33
Wtedy odrzucamy H0 i przyjmujemy H1 , o ile istotnie zdarzy się, że
z = Z (ω) = z (x1 , x2 , . . . , xn ) ∈ Q,
czyli, gdy zajdzie zdarzenie mało prawdopodobne. W praktyce statystycznej przyjmuje się zwykle,
że α = 0.05, czasem α = 0.01 lub ewentualnie α = 0.1.
Obszar Q nazywa się obszarem krytycznym, a liczbę α nazywa się poziomem istotności. Hipotezę
zerową odrzucamy na korzyść alternatywnej, gdy wartość z statystyki Z znajdzie się w obszarze
krytycznym. Może się oczywiście zdarzyć, że z ∈ Q, mimo że hipoteza H0 jest prawdziwa. Zdarzy
się to jednak z małym prawdopodobieństwem α. Popełniamy wtedy błąd polegający na odrzuceniu
hipotezy prawdziwej, zwany błędem pierwszego rodzaju. Przyjęcie fałszywej hipotezy H0 stanowi
błąd drugiego rodzaju. W przyjętej tutaj procedurze nie ma jednak przyjmowania H0 , co najwyżej
postanawia się, że nie ma podstaw do jej przyjęcia. Taką procedurę postępowania przyjęto, gdyż nie
precyzuje się tu prawdopodobieństwa popełnienia błędu drugiego rodzaju. W następnych trzech
punktach omówimy przykłady testów statystycznych, gdzie nieznanymi parametrami będą wartość
oczekiwana, wariancja, wskaźnik struktury i współczynnik korelacji.
4.2. Szczególne przypadki
Testy dla średnich
Podobnie jak dla przedziałów ufności, rozpatrujemy trzy przypadki: rozkład normalny ze znaną
wariancją, rozkład normalny z nieznaną wariancją, rozkład dowolny ze skończoną wariancją i duża
próba. We wszystkich przypadkach n oznacza liczebność próby.
Przypadek I. Populacja generalna ma rozkład N(m, σ), odchylenie standardowe jest znane. Nieznany jest parametr m, dla którego stawiamy hipotezę H0 : m = m0 , przeciwko jednej z hipotez:
H1 : m ̸= m0 ,
H1 : m > m0 ,
H1 : m < m0 .
Statystyka służąca do weryfikacji hipotezy H0 dana jest wzorem
U=
X − m0 √
n,
σ
(4.2.1)
która przy założeniu prawdziwości hipotezy H0 ma rozkład N(0, 1).
W przypadku hipotezy alternatywnej H1 : m ̸= m0 , obszar krytyczny dla poziomu istotności α
ma postać Q = (−∞, −uα ) ∪ (uα , ∞), gdzie uα wyznaczone jest z zależności P (|U| > uα ) = α. Dla
hipotezy alternatywnej H1 : m < m0 obszar krytyczny jest lewostronny i ma postać Q = (−∞, −uα ),
gdzie uα wyznaczone jest z zależności P (U > uα ) = α, a dla H1 : m > m0 obszar krytyczny jest
prawostronny i ma postać Q = (uα , ∞), gdzie uα znów wyznaczone jest z zależności P (U > uα ) = α.
Przykład 4.2.1. Weźmy dane z przykładu 3.2.1. Przyjmijmy też, że σ = 0.1. Postawmy hipotezę H0 : m = 1.12
najpierw przeciw hipotezie H1 : m > 1.12, a potem przeciw hipotezie H1 : m ̸= 1.12, na poziomie istotności
α = 0.05.
Dla hipotezy H1 : m > 1.12, parametr uα wyznaczamy z równania Φ (uα ) = 0.95, więc uα = 1.64. Ze
wzoru (4.2.1) otrzymujemy
u=
x − m0 √
1.2 − 1.12 √
n=
5 ≈ 1.79 > uα = 1.64,
σ
0.1
34
WYKŁAD 4. TESTOWANIE HIPOTEZ
więc odrzucamy hipotezę H0 na korzyść H1 , czyli m jest istotnie większe od 1.12 – wartość statystyki u
znalazła się w obszarze krytycznym (uα , ∞).
Spytajmy teraz, czy m jest istotnie różne od 1.12. Parametr uα wyznaczamy z równania Φ (uα ) = 0.975, więc
uα = 1.96 i tym razem |u| ≈ 1.79 < uα = 1.96, czyli m nie jest istotnie różne od 1.12 – wartość statystyki u
nie znalazła się w obszarze krytycznym (−∞, uα ) ∪ (uα , ∞).
Przypadek II. Populacja generalna ma rozkład N(m, σ), odchylenie standardowe jest nieznane.
Hipoteza zerowa i hipotezy alternatywne są takie same, jak w poprzednim przypadku. Ponieważ σ
nie jest znane, więc statystyka służąca do weryfikacji hipotezy dana jest wzorem
t=
X − m0 √
X − m0 √
n−1=
n,
S
Ŝ
(4.2.2)
która przy założeniu prawdziwości hipotezy H0 ma rozkład t-Studenta o n − 1 stopniach swobody.
W przypadku hipotezy alternatywnej H1 : m ̸= m0 , obszar krytyczny dla poziomu istotności α ma
postać Q = (−∞, −tα ) ∪ (tα , ∞), gdzie tα wyznaczone jest z zależności P(|t| > tα ) = α. Dla hipotezy
alternatywnej H1 : m < m0 , obszar krytyczny jest lewostronny i ma postać Q = (−∞, −tα ), gdzie tα
wyznaczone jest z zależności P(t > tα ) = α, a dla H1 : m > m0 , obszar krytyczny jest prawostronny
i ma postać Q = (tα , ∞), gdzie tα , gdzie znów uα wyznaczone jest z zależności P(U > uα ) = α.
Jeżeli dostępne tablice statystyczne podają tylko wartość tα dla dwustronnego obszaru krytycznego
dla danych α i n (tak jest w tablicy na str. 58), to przy jednostronnych (lewo lub prawostronnych)
obszarach krytycznych trzeba skorzystać z zależności
2 P(t > tα ) = 2 P (t < −tα ) = P(|t| > tα ),
(4.2.3)
tzn. odczytać tα dla podwojonej wartości α.
Tablice rozkładu t-Studenta podają wartości tylko dla liczby stopni swobody do trzydziestu. Dla
większej liczby stopni swobody statystyka (4.2.2) ma rozkład w przybliżeniu normalny (patrz str. 22).
Ponieważ zmienna losowa t jest oznaczana, zgodnie z tradycją małą literą, to dla odróżnienia
zmiennej losowej t od jej wartości t (ω) będziemy wartość statystyki t (ω) oznaczać przez tobs (jako
wartość obserwowaną).
Przykład 4.2.2. Dane, cel i poziom istotności jak w przykładzie 4.2.1, ale teraz przypuśćmy, że nie znamy
odchylenia standardowego, jednak wiemy, że X ∼ N (m, σ). Z przykładu 3.2.2 wiemy, że s = 0.089. Obliczamy
tobs =
x − m0 √
1.2 − 1.12 √
n−1=
5 − 1 ≈ 1.8.
s
0.089
Dla hipotezy alternatywnej H1 : m > 1.12 odczytujemy tα = 2.1318 z tablic dla czterech stopni swobody,
korzystając ze wzoru (4.2.3) dla α = 0.05, a więc tobs < tα i nie ma podstaw do odrzucenia hipotezy o równości
m = 1.12. Nie ma więc podstaw do przyjęcia, że m > 1.12. Dla hipotezy alternatywnej H1 : m ̸= 1.12 jest
tα = 2.7764, więc tym bardziej nie ma podstaw do odrzucenia hipotezy o równości m = 1.12 i przyjęcia, że
m ̸= 1.12.
Zwróćmy uwagę, że znając σ, odrzuciliśmy w przykładzie 4.2.1 hipotezę o równości m = 1.12 na korzyść
hipotezy m > 1.12. Nie znając σ, a jedynie obliczając oszacowanie s, nie można było z powodu gorszej
informacji o populacji (nieznane σ) hipotezy o równości odrzucić.
Przypadek III. Populacja generalna ma rozkład dowolny o skończonej wariancji, parametr σ
może, ale nie musi być znany, natomiast próba jest duża (n co najmniej kilkadziesiąt). Wzory takie
same jak w przypadku I lub II, przy czym σ jest zastąpione przez s lub ŝ. W praktyce (przynajmniej
ekonomicznej) założenie, że wariancja jest skończona, jest zawsze spełnione.
35
Testy dla wariancji
Przy testowaniu hipotezy dla wariancji H0 : σ 2 = σ02 będziemy brać pod uwagę tylko jedną hipotezę
alternatywną H1 : σ 2 > σ02 . Do testowania takiej hipotezy używana jest statystyka
χ2 =
nS 2
(n − 1)Ŝ 2
=
.
σ02
σ02
(4.2.4)
Jeśli cecha w populacji generalnej ma rozkład normalny, to statystyka (4.2.4), obliczona z próby
n-elementowej, ma rozkład chi-kwadrat o n − 1 stopniach swobody. Z tablic odczytujemy wartość
χα2 taką, że P(χ 2 > χα2 ) = α.
Ponieważ zmienna losowa χ 2 jest oznaczana, zgodnie z tradycją, grecką literą chi, to wartość sta2
2
. Jeżeli χobs
> χα2 , to odrzucamy hipotezę, że σ 2 = σ02 i
tystyki χ 2 (ω) będziemy oznaczać przez χobs
2
2
przyjmujemy hipotezę alternatywną σ > σ0 .
Tablice rozkładu chi-kwadrat podają wartości tylko dla liczby stopni swobody do trzydziestu.
( √ Dla
)
większej liczby stopni swobody statystyka (4.2.2) ma rozkład w przybliżeniu normalny N n, 2n
(
) √
(patrz strona 22), czyli χ 2 − n / 2n ma rozkład N (0, 1).
Przykład 4.2.3. Powróćmy do danych z przykładu 4.2.1, w którym przyjęliśmy σ = 0.1. Z przykładu 3.2.2
mamy s = 0.089. Postawmy zatem na poziomie istotności α = 0.05 hipotezę H0 : σ = 0.08 przeciw hipotezie
alternatywnej H1 : σ > 0.08. Ze wzoru (4.2.4) obliczamy
2
χobs
=
ns2
5 · 0.008
=
= 6.25.
2
0.082
σ0
Z tablic rozkładu chi-kwadrat dla czterech stopni swobody i α = 0.05 odczytujemy χα2 = 9.4877, więc nie
ma podstaw do odrzucenia hipotezy, że σ = 0.08. W świetle tych rozważań przyjęcie σ = 0.1 wydaje się
wątpliwe, ale trzeba podkreślić, że jedynym uprawnionym wnioskiem jest, że nie ma podstaw do odrzucenia
hipotezy σ = 0.08, ale nie znaczy to, że σ = 0.08. Z przykładu 3.2.3 znamy przedział ufności dla σ 2 równy
(0.0034, 0.0450), więc wartość σ 2 = 0.01 nie jest nieprawdopodobna.
Testy dla wskaźnika struktury
W sytuacji opisanej na str. 28 chcemy zweryfikować hipotezę zerową
H0 : p = p0 .
Hipoteza alternatywna może przyjmować jedną z następujących postaci:
H1 : p ̸= p0 ,
H1 : p < p 0 ,
H1 : p > p0 .
Statystyka służąca do weryfikacji hipotezy H0 dana jest wzorem
U=
m
− p0
n
√
p0 q0
n
,
q 0 = 1 − p0 ,
(4.2.5)
która przy prawdziwości H0 ma w przybliżeniu rozkład normalny N (0, 1).
W przypadku hipotezy alternatywnej H1 : p ̸= m0 obszar krytyczny dla poziomu istotności α ma
postać Q = (−∞, −uα ) ∪ (uα , ∞), gdzie uα wyznaczone jest z zależności P(|U| > uα ) = α. Dla
hipotezy alternatywnej H1 : p < p0 obszar krytyczny jest lewostronny i ma postać Q = (−∞, −uα ),
a dla H1 : p > p0 obszar krytyczny jest prawostronny i ma postać Q = (uα , ∞), gdzie uα wyznaczone
jest z zależności P(U > uα ) = α.
36
WYKŁAD 4. TESTOWANIE HIPOTEZ
Przykład 4.2.4. Czy należy przyjąć, że z danych z przykładu 3.2.4 wynika, że na poziomie istotności α = 0.05,
procent elementów klasy II jest większy niż 15%? Hipotezy są przy tak postawionym pytaniu, następujące:
H0 : p = 0.15, H1 : p > 0.15.
Obliczamy wartość statystyki (4.2.5)
0.2 − 0.15
u= √
≈ 1.4.
0.15·0.85
100
Ponieważ uα = 1.64, to u < uα i nie ma podstaw do odrzucenia hipotezy, że jest 15% elementów klasy II.
Nie można więc twierdzić (na poziomie istotności α = 0.05), że elementów klasy II jest więcej niż 15%.
Spytajmy teraz, czy na tym samym poziomie istotności procent elementów klasy II jest większy niż 10%?
Obliczamy ponownie
0.2 − 0.1
u= √
≈ 3.33,
0.1·0.9
100
więc elementów klasy II jest istotnie więcej niż 10%.
Testy dla współczynnika korelacji
Testy dla współczynnika korelacji podamy dla dwóch przypadków. W obu przypadkach zakłada się,
że dwuwymiarowy rozkład cech (X, Y ) jest normalny o gęstości (2.2.4), natomiast próba nie musi
być duża. W tych przypadkach estymator R określony wzorem (2.3.12) występujący w statystykach
służących do testowania hipotez oblicza się ze wzoru (3.2.18) lub (3.2.19).
W pierwszym przypadku będziemy testować hipotezę H0 : ρ = 0, która dla rozkładu normalnego
jest równoważna hipotezie, że zmienne X i Y są niezależne. Hipotezą alternatywną jest H1 : ρ ̸= 0.
Statystyka służąca do tego celu jest następująca:
t=√
r
1 − r2
√
n − 2.
(4.2.6)
Statystyka ta ma, przy założeniu prawdziwości hipotezy H0 , rozkład t-Studenta o n − 2 stopniach
swobody. Obszar krytyczny jest dwustronny przy tak przyjętej hipotezie alternatywnej. Jeżeli przyjmiemy hipotezę alternatywną H1 : ρ > 0 lub H1 : ρ < 0, to obszar krytyczny będzie odpowiednio
prawostronny lub lewostronny.
W drugim teście hipotezą zerową jest H0 : ρ = ρ0 przeciwko jednej z hipotez alternatywnych
H1 : ρ ̸= ρ0 , H1 : ρ > ρ0 lub H1 : ρ < ρ0 . Zgodnie z przyjętą postacią hipotezy alternatywnej
określamy obszar krytyczny, natomiast odpowiednia do tego statystyka jest określona następująco:
(
(
)
)
√
1+R
1 + ρ0
ρ0
U = 1.1513 log
− log
−
n − 3,
(4.2.7)
1−R
1 − ρ0
2(n − 1)
gdzie log x jest logarytmem dziesiętnym z liczby x. Przy założeniu prawdziwości hipotezy zerowej
statystyka (4.2.7) ma rozkład asymptotycznie normalny N(0, 1), przy n → ∞.
Przykład 4.2.5. Empiryczny współczynnik korelacji otrzymany z próby 100 elementowej o rozkładzie normalnym (patrz przykład 3.2.5) wynosi r = 0.3. Czy na poziomie istotności α = 0.05 należy odrzucić hipotezę,
że ρ = 0? Hipotezami są tu: H0 : ρ = 0 przeciw hipotezie alternatywnej H1 : ρ ̸= 0.
Obliczamy ze wzoru (4.2.6)
0.3 √
98 ≈ 3.11.
1 − 0.32
Ponieważ dla 98 stopni swobody można przyjąć zamiast rozkładu t-Studenta rozkład normalny, to uα = 1.96
(bo obszar krytyczny jest dwustronny), więc hipotezę o braku korelacji należy odrzucić.
t=
4.3. ZADANIA
37
Czy należy też odrzucić hipotezę, że nie ma zależności w tym sensie, że (patrz tabela A.2 na str. 44) 0 ≤ |r| <
0.2? Stawiamy hipotezę H0 : ρ = 0.2 przeciw hipotezie H1 : ρ ≥ 0.2. W tym celu obliczamy wartość statystyki
U ze wzoru (4.2.7):
)
)
(
(
√
1 + 0.3
1 + 0.2
0.2
u = 1.1513 log
− log
−
100 − 3 ≈ 1.04.
1 − 0.3
1 − 0.2
2 (100 − 1)
Ponieważ teraz uα = 1.64 (bo obszar krytyczny jest jednostronny), więc nie ma podstaw do odrzucenia
hipotezy H0 , czyli nie ma podstaw do przyjęcia, że zależność, nawet niska (w sensie tabeli A.2), jednak
istnieje.
4.3. Zadania
1. Z populacji o rozkładzie normalnym N(m, 0.2) pobrano próbę 4-elementową: 1.14, 1.06, 1.13, 1.17.
Na poziomie istotności α = 0.05 zweryfikować hipotezę, że m = 1.05. Sformułować odpowiednie
hipotezy alternatywne.
2. Z populacji o rozkładzie normalnym N(m, σ) pobrano próbę 3-elementową: 13, 11, 12. Na poziomie
istotności 0.01 zweryfikować hipotezę, że m = 13. Sformułować odpowiednie hipotezy alternatywne.
3. Z próby 5-elementowej w populacji o rozkładzie normalnym obliczono s2 = 0.04. Czy na poziomie
istotności α = 0.01 można twierdzić, że σ 2 = 0.03?
4. Dla danych z zadania 4 na str. 30 zweryfikować hipotezę, że podawane w katalogu średnie zużycie
paliwa 5 litrów na 100 km, w rzeczywistości jest wyższe. Przyjąć poziom istotności 0.05. Założyć, że
rozkład zużycia paliwa jest normalny.
5. Czy dla danych z zadania 5 na str. 30 można uznać, że firma nalewająca płyn nie oszukuje
klientów? Postawić i zweryfikować odpowiednią hipotezę.
6. Czy dla danych z zadania 6 na str. 30 można twierdzić, że taka grupa jest kiepska, tzn., że jej
średni poziom wiedzy wykazany na kolokwium jest mniejszy niż 3.5? Sformułować odpowiednią
hipotezę. Przyjąć poziom istotności α = 0.05.
7. Dla danych z zadania 7 na str. 30 zweryfikować na poziomie istotności α = 0.05 deklarację
producenta, że procent wyrobów nie spełniających wymagań trwałości jest mniejszy od 3.
8. W wybranych sześciu miesiącach wydatki na reklamę i zysk (wszystko w tysiącach złotych)
przedstawiony jest w tabeli. Zakładamy, że rozkład łączny obu cech jest normalny.
Wydatki
Zysk
1
40
3
20
4
80
8
90
6
60
9
70
Czy można twierdzić, że poziom wydatków na reklamę nie ma wpływu na zysk? Przyjąć poziomy
istotności 0.1 i 0.05.
9. Empiryczny współczynnik korelacji r między cechami X i Y otrzymany z próby 120 elementowej
jest równy 0.58. Czy należy twierdzić, współczynnik korelacji między X i Y jest większy od 0.5?
Dodatek A
Elementy statystyki opisowej
A.1. Opracowanie materiału statystycznego
Zbiorowość statystyczna (populacja generalna) jest zbiorem wszystkich elementów, których cechy
badamy. Niech cechą tą będzie X. Próba statystyczna jest zbiorem cech elementów wybranych z
populacji generalnej, które mogły być poddane bezpośredniej obserwacji.
Cechy statystyczne można podzielić na:
• ilościowe (mierzalne), które z kolei dzielą się na:
– skokowe
– ciągłe
• jakościowe (niemierzalne).
Mając daną próbę, trzeba ją przedstawić w postaci dogodnej do dalszego opracowywania. Jeżeli cecha
jest ilościowa, to pierwszym etapem jest utworzenie szeregu statystycznego z zaobserwowanych
wartości cechy X.
• Szereg szczegółowy. Dane są uporządkowane rosnąco:
x1 ≤ x2 ≤ · · · ≤ xn
lub malejąco
x1 ≥ x2 ≥ · · · ≥ xn ,
gdzie n jest liczebnością próby.
• Szereg rozdzielczy. Zbiór możliwych wartości obserwacji dzielimy na rozłączne przedziały
klasowe, (klasy): A1 = [a0 , a1 ), A2 = [a1 , a2 ), . . . , Ak = [ak−1 , ak ), gdzie k jest liczbą klas.
Przedziały klasowe mogą być różnej długości. Przez ni będziemy oznaczać liczbę danych
należących do i-tej klasy. Wskaźnik struktury określa się wzorem
ni
ωi =
.
n
Oczywiście
k
∑
ω1 + ω2 + · · · + ωk =
ωi = 1.
i=1
38
A.1. OPRACOWANIE MATERIAŁU STATYSTYCZNEGO
39
• Szereg rozdzielczy skumulowany.
(sk)
ni
i
∑
= n1 + n2 + · · · + ni =
nj .
j=1
Skumulowany wskaźnik struktury:
(sk)
(sk)
ωi
n
= i .
n
Liczba klas k jest albo dana z góry, albo należy ją ustalić w zależności od liczebności próby n. Liczbę
tę można wyznaczyć na różne sposoby. Dwa z nich to wzory:
√
k ≈ n,
k ≈ 1 + 3.322 log n,
gdzie log n jest logarytmem dziesiętnym z n. Inny sposób określania liczby klas podaje tabela A.1.
Tabela A.1: Liczba klas w zależności od liczebności próby
Liczebność próby n
40 – 60
60 – 100
100 – 200
200 – 500
Liczba klas k
6–8
7 – 10
9 – 12
11 – 17
Rozpiętość przedziałów klasowych hi = ai − ai−1 nie musi być taka sama. Określamy
(n)
fi
(ω)
fi
ni
– gęstość liczebności,
hi
ωi
=
– gęstość częstości,
hi
=
gdzie i = 1, 2, . . . , k. Dla klas równej długości
h≈
xmax − xmin
R
= ,
k
k
gdzie R – rozstęp, zaś h przyjmujemy z nadmiarem, tzn. tak, aby kh ≥ R.
(ω)
Histogram (por. rys. A.1)– rysujemy słupki (prostokąty) o podstawie hi = ai − ai−1 , wysokości fi ,
(ω)
a zatem o polu Pi = hi fi . Łatwo obliczyć (proszę sprawdzić), że
P1 + P2 + · · · + Pk = 1.
Podobnie rysuje się histogram skumulowany, ale z tą różnicą, że słupki mają wysokości kolejno
(ω)
(ω)
(sk)
(ω)
(sk)
F1 = ω1 , F2 = ω1 + ω2 = ω2 , . . . , Fk = ω1 + · · · + ωk = ωk
= 1.
Histogram skumulowany nosi też nazwę (częściej używaną) dystrybuanty empirycznej. Histogram
skumulowany odpowiadający histogramowi z rysunku A.1 przedstawiono na rysunku A.2.
40
DODATEK A. ELEMENTY STATYSTYKI OPISOWEJ
6
(ω)
f2
(ω)
f3
P2
(ω)
f4
P3
(ω)
f1
P4
P1
a0
|
{z
h1
-
a1
}|
{z
h2
a2
}|
{z
h3
a3
}|
{z
h4
a4
}
Rysunek A.1: Przykład histogramu, k = 4
6
1
(ω)
F3
(ω)
F2
(ω)
F1
-
a0
|
{z
h1
a1
}|
{z
h2
a2
}|
{z
h3
a3
}|
{z
h4
a4
}
Rysunek A.2: Przykład histogramu skumulowanego, k = 4
Zauważmy, że
◦
xi =
ai + ai−1
2
(◦
)
(ω)
jest środkiem przedziału (ai−1 , ai ). Łącząc ze sobą punkty o współrzędnych x i , fi , otrzymujemy
(◦
)
(ω)
diagram częstości (rys. A.3), a łącząc ze sobą punkty o współrzędnych x i , Fi , otrzymujemy
diagram częstości skumulowanej (rys. A.4).
Diagramy częstości i częstości skumulowanej są wygładzoną postacią histogramu i histogramu skumulowanego. Diagram częstości jest empirycznym odpowiednikiem gęstości (por. str. 9, wzór (1.2.3)),
a diagram częstości skumulowanej jest empirycznym odpowiednikiem dystrybuanty (por. str. 8,
wzór (1.2.1)).
A.2. PARAMETRY
41
6
(ω)
f2
(ω)
f3
P2
(ω)
f4
P3
(ω)
f1
P4
P1
a0
|
{z
h1
-
a1
}|
a2
}|
{z
h2
{z
h3
a3
}|
{z
h4
a4
}
Rysunek A.3: Przykład diagramu częstości, k = 4
6
1
(ω)
F3
(ω)
F2
(ω)
F1
-
a0
|
{z
h1
a1
}|
a2
}|
{z
h2
{z
h3
a3
}|
{z
h4
a4
}
Rysunek A.4: Przykład diagramu częstości skumulowanej, k = 4
A.2. Parametry
Miary położenia dzielimy na klasyczne i pozycyjne. Przykładem klasycznej miary położenia jest
średnia empiryczna, przykładami pozycyjnych miar położenia są dalej zdefiniowane wartość modalna i kwartyle.
Średnia empiryczna jest średnią arytmetyczną i jest określona wzorem
x1 + · · · + xn
x=
.
(A.2.1)
n
Gdy dane są pogrupowane, czyli gdy znany jest tylko szereg rozdzielczy, to średnia arytmetyczna
wyraża się wzorem przybliżonym
◦
◦
ni x 1 + · · · + nk x k
◦
◦
= x 1 ω1 + · · · + x k ωk .
(A.2.2)
n
Należy zwrócić uwagę, że w mianowniku wzoru (A.2.2) znajduje się liczba danych n, a nie liczba
przedziałów k. Ze względu na to, że dane są pogrupowane, wzór (A.2.2) jest tylko przybliżeniem
wzoru (A.2.1).
x=
42
Wartość modalna Mo jest określona jako wartość cechy pojawiającej się najczęściej. W praktyce
jest ona najbardziej użyteczna, gdy dane są pogrupowane. Jej wartość leży w pobliżu maksimum
diagramu częstości, gdy ma on tylko jedno maksimum.
Dla każdego zbioru danych można zawsze znaleźć taki punkt, że co najmniej połowa danych jest od
niego niewiększa, a co najmniej połowa jest niemniejsza. Punkt taki nazywa się medianą i oznacza
się symbolem Me. Podobnie można znaleźć punkt taki, że co najmniej jedna czwarta danych jest od
niego niewiększa, a co najmniej trzy czwarte jest niemniejszych. Punkt taki nazywa się kwartylem
Q1 . Kwartylem Q2 jest mediana, a kwartyl Q3 określa się tak jak Q1 , zamieniając ze sobą słowa
„niewiększy” i „niemniejszy”. Dla szeregu szczegółowego medianę określa się wzorem

x(n+1)/2
gdy n jest nieparzyste,
Me = xn/2 + xn/2+1
(A.2.3)

gdy n jest parzyste.
2
Dla szeregów rozdzielczych podaje się albo tylko przedział, w którym leży mediana, albo dodatkowo
przybliża się jej wartość wzorem
n
2
Me = x0m +
−
m−1
∑
ni
i=1
nm
hm ,
gdzie m jest numerem przedziału, w którym leży mediana, x0m jest dolną granicą tego przedziału,
a hm – jego rozpiętością. Podobnie określa się kwartyle.
Miary zmienności można podzielić tak samo jak miary położenia, na klasyczne i pozycyjne. Miarą
klasyczną jest wariancja empiryczna określona wzorem
n
1∑
s =
(xi − x)2
n
2
(A.2.4)
i=1
lub dla danych pogrupowanych wzorem
)2
1 ∑ (◦
x i − x ni .
s =
n
k
2
(A.2.5)
i=1
Inne (równoważne, ale wygodniejsze) wzory:
n
s2 =
1∑ 2
xi − x 2
n
i=1
lub dla danych pogrupowanych
k
s2 =
1 ∑ ◦2
x i ni − x 2 .
n
i=1
Odchylenie standardowe empiryczne jest pierwiastkiem z wariancji:
√
s = s2 .
Podobną, ale rzadziej stosowaną miarą zmienności jest odchylenie przeciętne określone wzorami
n
d=
1∑
|xi − x| ,
n
i=1
A.2. PARAMETRY
43
lub dla danych pogrupowanych
k
d=
1∑ ◦
|x i − x|ni .
n
i=1
Miarą pozycyjną jest odchylenie ćwiartkowe, określone wzorem
Q=
Q3 − Q1
.
2
W zależności od przyjętej miary zmienności cechy typowy obszar zmienności xtyp określa się
jednym ze wzorów:
x − s <xtyp < x + s ,
x − d <xtyp < x + d ,
Me − Q <xtyp < Me + Q .
Z miarami zmienności związane są współczynniki zmienności
d
s
,
Vd = ,
x
x
Q
Q3 − Q1
VQ =
, VQ1 ,Q3 =
.
Me
Q3 + Q1
Vs =
Miarami asymetrii są: wskaźnik skośności x − Mo oraz współczynniki skośności
x − Mo
,
s
x − Mo
Ad =
,
d
Q3 + Q1 − 2Me
.
AQ =
2Q
As =
Miary zależności liniowej
Mamy zebrane pary danych
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
niepogrupowane lub pogrupowane w tablice. Jeżeli wartości cechy X są podzielone na s przedziałów,
a wartości cechy Y na r przedziałów, to nij jest liczbą danych, których wartość cechy X wpada do
przedziału o numerze i-tym, a wartość cechy Y wpada do przedziału o numerze j-tym. Tablice,
których elementami są liczby nij noszą nazwę tablic wielodzielczych.
Kowariancja empiryczna między cechami X i Y jest określona wzorem
n
cxy =
1∑
(xi − x)(yi − y),
n
(A.2.6)
i=1
gdy obserwacje są niepogrupowane oraz wzorem
r
cxy =
s
1 ∑∑ ◦
◦
(x i − x)(y i − y)nij ,
n
i=1 j=1
(A.2.7)
44
gdy obserwacje są pogrupowane. Empiryczny współczynnik korelacji jest określony wzorem
rxy =
cxy
,
sx sy
(A.2.8)
√
√
gdzie sx = sx2 i sy = sy2 są odchyleniami standardowymi (patrz wzory (A.2.4) i (A.2.5)). Wiadomo,
że zawsze −1 ≤ rxy ≤ 1, a ponadto gdy rxy = 1 lub rxy = −1, to istnieje deterministyczna
zależność liniowa między cechami. Gdy rxy = 0, to brak jest jakiejkolwiek zależności liniowej
między cechami, choć może być zależność nieliniowa. Wartość bezwzględna współczynnika korelacji
charakteryzuje stopień zależności liniowej między cechami. Można przyjąć następującą klasyfikację
stopnia zależności:
Tabela
|rxy |
< 0.2
0.2 − 0.4
0.4 − 0.7
0.7 − 0.9
> 0.9
A.2: Stopnie zależności
Zależność liniowa
brak zależności
zależność niska
zależność umiarkowana
zależność znacząca
zależność bardzo silna
◦
◦
Wstępną metodą oceny stopnia zależności jest narysowanie punktów (xi , yi ) (lub (x i , y i ) dla danych
pogrupowanych) w układzie współrzędnych, a następnie dokonanie subiektywnej oceny, czy punkty
układają się wzdłuż pewnej prostej.
Proste regresji dają najlepsze liniowe przybliżenie jednej cechy przez drugą. Jeśli tymi cechami są
X i Y , to równanie
ŷ = ay x + by
(A.2.9)
przybliża wartości y wartościami ŷ. Oznacza to, że jeśli mamy pary danych (xi , yi ), to równanie
(A.2.9) daje nam przybliżoną wartość cechy Y , gdy znamy tylko wartości cechy X, a więc daje nam
pary (xi , ŷi ) dla wszystkich wartości xi . Analogiczna sytuacja ma miejsce, gdy znamy wartości cechy
Y , a nie znamy wartości cechy Z.
x̂ = ax y + bx .
(A.2.10)
Proste regresji mają własność taką, że wartości
n
∑
(yi − ŷi )2 =
i=1
n
∑
i=1
(xi − x̂i )2 =
n
∑
(yi − ay xi − by )2
i=1
n
∑
(xi − ax yi − bx )2
i=1
są najmniejsze. Dzieje się tak wtedy, gdy parametry ay , by , ax oraz bx wyznaczone są ze wzorów
ay =
cxy
,
sx2
b y = y − ay x
dla prostej regresji określonej równaniem (A.2.9) oraz
ax =
cxy
,
sy2
A.2. PARAMETRY
45
b x = x − ax y
dla prostej regresji określonej równaniem (A.2.10). Parametry ay i ax nazywają się empirycznymi
współczynnikami regresji.
Uwaga. Dla tego samego zbioru danych, proste regresji (A.2.9) i (A.2.10) zwykle się różnią, choć
najczęściej nieznacznie.
Odpowiedzi
Odpowiedzi do wykładu 1
1. Prawdopodobieństwo
( )2
( )3
( )3
1
1
1
1
1
3
=4
= .
+
2
2
2
2
2
(n+m)
2. Oczywiście s ≤ k. k losów można wybrać spośród wszystkich
n
+
m
losów
na
sposobów.
k
(n )
Spośród n losów wygrywających,(s losów
można
wybrać
na
sposobów,
a
pozostałe
k
−s
kupione
s
)
m
losy można wybrać z m losów na k−s
sposobów. Prawdopodobieństwo, że wśród kupionych k losów
jest dokładnie s wygrywających, jest więc równe
( )(
)
n
m
s
k−s
(
) .
n+m
k
3. Prawdopodobieństwo wybrania poprawnej odpowiedzi wynosi 1/3. Egzaminowany zgaduje odpowiedzi, czyli (to zakładamy) odpowiedzi są losowane niezależnie. Wobec tego, prawdopodobieństwo
zgadnięcia dokładnie czterech odpowiedzi wynosi
( ) ( )4
5
1
2
.
3
3
4
4. Oznaczmy zdarzenia:
A – kupiono bombonierkę Premium,
B – kupiono bombonierkę Super Premium,
W – wybrano czekoladkę o smaku wiśniowym.
Ze wzoru na prawdopodobieństwo całkowite:
P (W ) = P (W |A) P (A) + P (W |B) P (B) =
3
1
0.2 + 0.8 = 0.28.
5
5
5. Przy oznaczeniach z zad. 4, ze wzoru Bayesa:
P (B) =
0.8
P (B ∩ W )
P (W |B) P (B)
=
= 5 ≈ 0.57.
P (W )
P (W )
0.28
6. Oznaczmy zdarzenia: A – zdarzenie polegające na tym, że przedmiot jest dobrej jakości, B –
przedmiot oceniono jako dobrej jakości. Szukamy P (A|B).
46
ODPOWIEDZI DO WYKŁADU 1
47
Dane:
( )
P (A) = 0.95, stąd P A = 0.05,
P (B|A) = 0.98,
(
)
P B|A = 0.05.
Ze wzoru na prawdopodobieństwo całkowite (1.1.4) otrzymujemy
(
) ( )
P (B) = P (B|A) P (A) + P B|A P A = 0.98 · 0.95 + 0.05 · 0.05 = 0.9335.
Ze wzoru Bayesa (1.1.5) otrzymujemy
P (A|B) =
P (B|A) P (A)
0.98 · 0.95
=
= 0.9973.
P (B)
0.9335
7. Oznaczmy zdarzenia: A – zdarzenie polegające na tym, że kupiono proszek XYZ, B – proszek
usunął plamę. Szukamy P (B).
Dane:
( )
P (A) = 0.7, stąd P A = 0.3,
P (B|A) = 0.2,
(
)
P B|A = 0.95.
Ze wzoru na prawdopodobieństwo całkowite (1.1.4) otrzymujemy
(
) ( )
P (B) = P (B|A) P (A) + P B|A P A = 0.2 · 0.7 + 0.95 · 0.3 = 0.425.
8. W urnie jest po pięć liter czerwonych i białych oraz po pięć liter X i Y. Stąd P (A) = P (B) = 1/2.
Zdarzenie A ∩ B jest wybraniem czerwonej litery Y, więc P (A ∩ B) = 1/5. Ponieważ
P (A) P (B) =
1
1
̸= P (A ∩ B) = ,
4
5
to (patrz definicja (1.1.3) na str. 7) zdarzenia A i B nie są niezależne.
9. Mediana Me jest kwantylem rzędu p = 0.5, więc ze wzoru (1.3.1) otrzymujemy Me = 1.5, gdyż
0.4 + 0.3 ≥ 0.5, 0.3 + 0.2 + 0.1 ≥ 0.5.
Wartość oczekiwaną wyznaczamy ze wzoru (1.3.2):
EX = 1.0 · 0.4 + 1.5 · 0.3 + 2.0 · 0.2 + 2.5 · 0.1 = 1.5..
Wariancję obliczamy ze wzoru (1.3.6):
D2 X = (1.0 − 1.5)2 · 0.4 + (1.5 − 1.5)2 · 0.3 + (2.0 − 1.5)2 · 0.2 + (2.5 − 1.5)2 · 0.1 = 0.25.
10. Z własności prawdopodobieństw pk dla zmiennej losowej skokowej (str. 8, pkt. b) wynika, że
p + q = 0.5. Jeśli Me = 2.0, to 0.1 ≤ p ≤ 0.5. Jeśli zaś Me = 2.5, to 0.4 ≤ q ≤ 0.5.
EX = 0.8 + 2p + 2.5q, EX 2 = 1.55 + 4p + 6.25q. Stąd D2 X = 1.55 + 4p + 6.25q − (0.8 + 2p + 2.5q)2 .
11. Oznaczmy zysk przez Z.
EZ = 0.4 · (−0.1) + 0.15 · 2.3 + 0.2 · 3.1 + 0.05 · (−1.1) + 0.2 · 3.8 = 1.63,
48
ODPOWIEDZI
D2 Z = 0.4 · (−0.1)2 + 0.15 · 2.32 + 0.2 · 3.12 + 0.05 · (−1.1)2 + 0.2 · 3.82 − 1.632 = 3.0111,
√
skąd σ = D2 Z ≈ 1.74.
12.
EZ = 0.5 EX + 0.3 EY = 0.5 · 1.2 + 0.3 · 2.5 = 0.5 · 1.2 + 0.3 · 2.5 = 1.35,
Ponieważ X i Y są niezależne, to
D2 Z = 0.52 D2 X + 0.32 D2 Y = 0.52 · 0.5 + 0.32 · 0.5 = 0.17.
13. Jeśli Yi jest zyskiem powstałym z wylosowania nagrody w wyniku zakupu jednej sztuki towaru,
x jest wartością nagrody, to rozkład zmiennej losowej Yi jest podany w tabeli
x
P (Yi = x)
1000
0.0001
3
0.2
0
0.7999
Wtedy
EYi = 0.0001 · 1000 + 0.2 · 3 = 0.1 + 0.6 = 0.7,
D2 Yi = 0.0001 · 10002 + 0.2 · 32 = 180.
Na każdej sztuce kupionego towaru ponosimy zawsze stratę 22 − 25 = 3 i możemy mieć zysk z
wylosowanej nagrody. Stąd EX = 5 (0.7 √
− 3) = −11.5. Ponieważ wariancja stałej jest zawsze równa
zeru, to D2 X = 5 · 180 = 900, czyli σ = 900 = 30.
14. Niech A oznacza zdarzenie takie, że nie wygramy ani razu, więc A oznacza zdarzenie takie,
że wygramy choć raz. Ponieważ prawdopodobieństwo wygrania w jednej grze wynosi p = 0.15, to
prawdopodobieństwo przegrania w jednej grze wynosi q =( 1−p
) = 0.85. Ponieważ gry są niezależne,
co musimy założyć przy nieoszukującym automacie, to P A = q n = 0.85n .
Liczba gier n musi być taka, że P (A) ≥ 0.3, więc rozwiązujemy nierówność
0.85n ≥ 0.3,
czyli kolejno
n ln 0.85 ≥ ln 0.3,
ln 0.3
≈ 7.4.
n≥
ln 0.85
Stąd n ≥ 8.
15. Zmienne losowe X i Y przyjmują wartości m, n = 0, 1, 2. Zauważmy, że nie mogą równocześnie
zajść zdarzenia {X = 2, Y = 0} oraz {X = 0, Y = 2}, natomiast wszystkie pozostałe układy są
możliwe, przy czym zdarzenie {X = 1, Y = 1} zajdzie, gdy albo Z1 = 1, Z2 = 0, Z3 = 1, albo
Z1 = 0, Z2 = 1, Z3 = 0. Stąd macierz prawdopodobieństw pmn jest następująca.


1/8 1/8 0
1/8 1/4 1/8
0 1/8 1/8
Postępując tak jak w przykładzie 1.2.4, otrzymujemy prawdopodobieństwa P (X = 0) = P (X = 2) =
P (Y = 0) = P (Y = 2) = 1/4 oraz P (X = 1) = P (y = 1) = 1/2. Stąd EX = EY = 1 oraz D2 X =
D2 Y = 1/2.
49
Najpierw musimy obliczyć
EXY = 1 ·
2
+2·
8
(
1 1
+
8 8
)
+4·
1
10
=
.
8
8
Podstawiając obliczone wartości do wzoru (1.3.12), otrzymujemy
1
C (X, Y ) = E (XY ) − (EX) (EY ) = .
4
Współczynnik korelacji otrzymujemy ze wzoru (1.3.14)
C(X, Y )
√
ρ=√
= 1/2.
D2 X D2 Y
1. Niech X oznacza liczbę samochodów. Wtedy
P (X > 3) = 1 − e
−1.2
3
∑
1.2k
k=0
k!
(
=1−e
−1.2
1.22 1.23
1 + 1.2 +
+
2
6
)
= 0.0338.
2. Bezpośrednio z tablic otrzymujemy P (X < 1.3) = Φ (1.3) = 0.9032. Z zależności na str. 19 i z
tablic otrzymujemy:
P (X > 2.1) = 1 − Φ (2.1) = 0.0179,
P (X < −0.9) = Φ (−0.9) = 1 − Φ (0.9) = 0.1841,
P (|X| ≤ 1.34) = P (−1.34 ≤ X ≤ 1.34) = Φ (1.34) − (1 − Φ (1.34)) = 2Φ (1.34) − 1 = 0.8198.
X − 0.3
∼ N (0, 1). Dlatego postępując tak jak w zad. 2, otrzymujemy:
0.12
(
)
X − 0.3
0.13 − 0.3
>
≈ Φ (−1.42) 1 − Φ (1.42) = 0.0778,
P
0.12
0.12
(
)
X − 0.3
1.34 − 0.3
P
<
≈ Φ (8.67) ≈ 1,
0.12
0.12
(
)
X − 0.3
0.1 − 0.3
P
≥
= Φ (−1.67) = 1 − Φ (1.67) = 0.0475,
0.12
0.12
P (|X| > 1.51) = P (X > 1.51) + P (X < −1.51)
)
(
)
(
1.51 − 0.3
X − 0.3
−1.51 − 0.3
X − 0.3
>
+P
<
=P
0.12
0.12
0.12
0.12
≈ 1 − Φ (10) + Φ (−15) ≈ 1 − 1 + 0 = 0.
3. Ponieważ X ∼ N (0.3, 0.12) to
4. Jeśli X ma rozkład normalny N (m, σ), to zmienna losowa Y = (X − m) /σ ma rozkład normalny
N (0, 1). Obliczamy
(
)
|X − m|
P (|X − m| > 3σ) = P
> 3 = P (|Y | > 3) = 2 (1 − Φ (3)) = 2 · 0.0013 = 0.0026 < 0.01.
σ
50
ODPOWIEDZI
5. Dystrybuanta F (x) zmiennej losowej o rozkładzie wykładniczym o średniej 1/λ = 2.41:
F (x) = 1 − ex/2.41
Kwantyle ξp rzędu p są więc rozwiązaniami równania
F (x) = 1 − e−x/2.41 = p,
czyli
x = −2.41 ln (1 − p) .
Stąd mediana i kwartyle:
Me = −2.41 ln 0.5 = 1.67,
Q1 = −2.41 ln 0.75 = 0.69,
Q3 = −2.41 ln 0.25 = 3.34.
Odchylenie ćwiartkowe Q = Q3 − Q1 = 2.65.
6. Ponieważ dla zmiennej losowej X o rozkładzie wykładniczym zawsze jest P (X ≥ 0) = 1, to
P (Y ≥ 0.45) = 1, a więc również P (Y ≥ 0.05) = 1.
Obliczamy dalej
(
)
0.59 − 0.45
P (Y < 0.59) = P (1.4X + 0.45 < 0.59) = P X <
≈ 0.095.
1.4
7. Ponieważ (patrz str. 21) EX = EX oraz EŜ 2 = D2 X, to dla rozkładu jednostajnego na odcinku
[1, 3] mamy (patrz str. 18) EX = 2 oraz EŜ 2 = 1/3. Stąd i z porównania wzorów (2.3.2) i (2.3.8)
otrzymujemy też ES 2 = 0.3.
8. Zmienna losowa T ma rozkład jednostajny na odcinku [0, 30] i gęstość
{
1
dla x ∈ [0, 30],
f (x) = 30
0 dla x ∈/ [0, 30].
Wartość oczekiwana ze wzoru (1.3.4):
∫30
αx 2
ES =
α x 3 30
1
dx =
= 300α.
30
30 3 0
0
Ponieważ z tego samego wzoru
∫30
2
αx 4
ES =
α x 5 30
1
dx =
= 162000α,
30
30 5 0
0
to D2 S = ES 2 − (ES)2 = 72000. Stąd σ ≈ 268.
Wyznaczamy parametry pozycyjne. Najpierw obliczymy dystrybuantę F (x) zmiennej losowej T:
∫x
F (x) =
0
x
1
dx = .
30
30
51
Teraz obliczymy dystrybuantę G (x) zmiennej losowej S:
√ )
√
(
(
)
x
1 x
2
G (x) = P (S < x) = P αT < x = P T <
=
α
30 α
dla 0 ≤ x ≤ α900. Medianę wyznaczamy z równania G (x) = 0.5, skąd Me = 225α. Kwartyle Q1 i Q3
wyznaczamy odpowiednio z równań G (x) = 0.25 i G (x) = 0.75, skąd Q1 = 56.25α, Q3 = 506.25α i
odchylenie ćwiartkowe Q = 450α. Porównujemy parametry: EX < Me, σ < Q.
9. Wartości tα :
a)
α
k
5
11
0.1
2.0150
1.7959
0.05
2.5706
2.2010
0.1
1.1459
1.3634
0.05
2.0150
1.7959
0.1
-1.1459
-1.3634
0.05
-2.0150
-1.7959
b)
α
k
5
11
c)
α
k
5
11
10. Wartości χα2 :
a)
α
k
5
11
0.1
9.2364
17.2750
0.05
11.0705
19.6751
b)
α
k
5
11
0.1
1.6103
5.5778
0.05
1.1455
4.5748
Dla k > 30 korzystamy z Centralnego Twierdzenia
( √ ) Granicznego. Wtedy dla dużych k zmienna
2
losowa χα ma w przybliżeniu rozkład N k, 2k . W tym przypadku ma w przybliżeniu rozkład
N (41, 9.06) i N (50, 10). Z tablic rozkładu normalnego otrzymujemy wartości χα2 :
a)
α
k
41
50
0.1
48.39
58.16
0.05
55.85
66.4
0.1
29.41
37.2
0.05
26.15
33.6
b)
α
k
41
50
11. Korzystamy z Centralnego Twierdzenia Granicznego (str. 23). Oznaczmy
{
1, gdy i-ta sztuka jest drugiego gatunku,
Xi =
0, gdy i-ta sztuka jest innego (np. pierwszego) gatunku.
52
ODPOWIEDZI
Wtedy P (Xi = 1) = p = 0.3, m = EXi = p = 0.3, D2 X = p (1 − p) = 0.21, σ ≈ 0.46, n = 100 oraz
X = X1 + · · · + X100 jest liczbą sztuk drugiego gatunku.
(
)
X − 30
30 − 30
P (X < 30) = P
<
≈ Φ (0) = 0.5.
10σ
10σ
(
)
(
)
X − 30
X − 30
10 − 30
−20
P (X > 10) = P
≈P
≈ Φ (−4.36) ≈ 0.
<
<
10σ
10σ
10σ
10 · 0.46
Stąd też P (10 < X < 30) ≈ Φ (0) − Φ (−4.36) ≈ 0.5.
12. Oznaczmy
przez Wi tygodniową wypłatę z funduszu. Dla rozkładu wykładniczego m = EWi =
√
σ = D2 Wi = 1/λ = 1000. Niech W = W1 + · · · + W52 . Z Centralnego Twierdzenia Granicznego
otrzymujemy
(
)
W − 52 · 1000
70 000 − 52 · 1000
P (W > 70 000) = P
>
52 · 1000
52 · 1000
(
)
70 000 − 52 · 1000
≈Φ
≈ Φ (0.35) ≈ 0.6368.
52 · 1000
13. Prawdopodobieństwo wyrzucenia dwóch szóstek wynosi p = 1/36. Stąd EX = 100/36 ≈ 2.7778
oraz D2 x = 100 (1 − 1/36) /36 ≈ 2.7006. Ponieważ n = 100 jest liczbą dużą, p jest małe, a λ = pn ≈
2.7778 jest wielkością umiarkowaną, to stosujemy twierdzenie Poissona, skąd
P (X = k) = e−2.7778
2.7778k
.
k!
Podstawiając k = 0, 1, 2 otrzymujemy
2.77780
≈ 0.0622,
0!
(
)
2.77780 2.77781
P (X ≤ 1) = e−2.7778
+
≈ 0.2349,
0!
1!
(
)
k
2.77781
2.77782
−2.7778 2.7778
P (X ≤ 2) = e
+
++
≈ 0.4748.
k!
1!
2!
P (X ≤ 0) = e−2.7778
1.
P (U < x) = 0.1
P (U > x) = 0.8
P (|U| > x) = 0.01
P (t < x) = 0.05
P (U > x) = 0.9
P (|U|
( 2 > x)) = 0.02
P (χ < x ) = 0.1
P χ 2 > x = 0.8
x
x
x
x
x
x
x
x
= −1.28
= −0.84
= 2.57
= −1.7207
= −1.28
= 2.33
= 13.2396
= 15.4446
53
2. Obliczamy x = −0.01+0.19+0.09−0.18+0.40
= 0.098. Stąd przedział ufności dla EX jest postaci
5
(
) (
)
σ
σ
0.2
0.2
x − uα √ , x + uα √
= 0.098 − 1.64 √ , 0.098 + 1.64 √
≈ (0.008557, 0.1874) ,
n
n
5
5
gdzie Φ (uα ) = 0.95, więc z tablic rozkładu normalnego uα ≈ 1.64.
3. Przedział ufności dla σ 2 = D2 X jest postaci
( 2
) (
)
ns ns 2
0.2
0.2
,
=
,
≈ (0.0211, 0.2814) ,
c2 c1
9.4877 0.7107
więc przedział ufności dla σ jest postaci
(√
)
√
0.2
0.2
,
≈ (0.1452, 0.5305) .
9.4877
0.7107
Liczby c1 i c2( odczytujemy
z tablic( rozkładu
)
) chi-kwadrat dla czterech stopni swobody, korzystając
ze wzorów P χ 2 > c1 = 0.95 i P χ 2 > c2 = 0.05.
4. Obliczamy
∑8
x=
oraz
i=1 xi
8
=
41
= 5.125
8
∑8
2
2
i=1 xi
− x 2 ≈ 0.0244,
8
skąd s ≈ 0.1561. Dla 1 − α = 0.95, czyli α = 0.05, wyznaczamy tα z tablic rozkładu t-Studenta dla
siedmiu stopni swobody: tα = 2.3646. Przedział ufności jest postaci
(
) (
)
s
s
0.1561
0.1561
x − tα √
, x + tα √
= 5.125 − 2.3646 √ , 5.125 + 2.3646 √
,
n−1
n−1
7
7
s =
czyli po obliczeniach przedział ufności jest w przybliżeniu następujący: (4.98, 5.26).
Dla 1 − α = 0.99 mamy tα = 3.4995. Przedział ufności jest wtedy następujący: (4.92, 5.33), czyli jest
większy (oszacowanie mniej dokładne), ale mamy większą pewność, że jest prawdziwe.
Dla 1 − α = 0.9 mamy tα = 1.8946. Przedział ufności jest wtedy następujący: (5.02, 5.24), czyli jest
mniejszy, (oszacowanie bardziej dokładne), ale mamy mniejszą pewność, że jest prawdziwe.
5. Ponieważ próba jest duża: n = 50, to zamiast σ używamy s i korzystamy z modelu III dla wartości
oczekiwanej i modelu II dla wariancji. Obliczamy x = 1000.32 i s2 = 124.2176, Φ (uα ) = 0.975,
uα = 1.96.
Przedział ufności dla wartości oczekiwanej
(
)
124.2176
124.2176
1000.32 − 1.96 √
, 1000.32 + 1.96 √
≈ (966, 1035) ,
50
50
dla odchylenia standardowego
(
dla wariancji
((
124.2176 124.2176
,
1, 196
0.804
124.2176
1, 196
)
≈ (104, 154) .
)2 (
))
124.2176 2
,
≈ (10787, 23870) .
0.804
54
ODPOWIEDZI
6. Przyjmiemy, że próba jest duża i skorzystamy z modelu III dla wartości oczekiwanej. Obliczamy
ocenę średnią x = 3.433 i empiryczne odchylenie standardowe s = 1.1288. Odczytujemy dla
α = 0.99 z tablic rozkładu normalnego wartość uα = 2.58. Stąd przedział ufności jest postaci
(
)
√
√
1.1288
1.1288
3.433 − 2.58 √
, 3.433 + 2.58 √
≈ (2.93, 3.93) .
30
30
7. Podstawiając do wzoru (3.2.15) n = 200, m = 10, uα = 1.64 otrzymujemy przedział ufności
(0.0247, 0.0753).
8. Sumując liczby pracowników w kolumnach, otrzymujemy tabelę:
Staż pracy
Liczba pracowników
1
24
2
26
3
27
4
24
Sumując liczby pracowników w wierszach, otrzymujemy tabelę:
Procent braków
Liczba pracowników
0–2
36
2–4
13
4–6
16
6–8
35
Z tych tabel obliczamy ze wzoru (2.3.7): x = 4 i y = 2.5. Do celów obliczeniowych, zamiast wzoru
(3.2.19) wygodniej jest użyć wzorów (A.2.7) i (A.2.8). Wyznaczamy więc sx2 = 6.68 i sy = 6.25. Ze
wzoru (A.2.7) wyznaczamy cxy = −2.42, skąd ze wzoru (A.2.8) otrzymujemy r = 0.851. Dla α = 0.1
mamy uα = 1.64, więc zgodnie ze wzorem (3.2.17) otrzymujemy
)
(
1 − 0.8512
1 − 0.8512
, 0.851 + 1.64 √
= (0.823, 0.879)
0.851 − 1.64 √
100
100
Według tabeli A.2 na str. 44 oznacza to zależność znaczącą – im dłuższy staż pracy, tym procent
braków znacząco mniejszy.
1. Ponieważ rozkład jest normalny i znane jest σ, to stosujemy model I. Stawiamy hipotezę H0 :
m = 1.05 przeciw hipotezie H1 : m ̸= 1.125. Obliczamy x = (1.14 + 1.06 + 1.13 + 1.17) /4 = 1.125.
Następnie obliczamy wartość statystyki testowej, która ma rozkład normalny N (0, 1).
x − m0 √
x − 1.125 √
u=
n=
4 = 0.75.
s
0.2
Obszar krytyczny: Q = (−∞, −uα ) ∪ (uα , ∞). Wartość uα dla takiego obszaru krytycznego wyznaczamy z zależności Φ (uα ) = 1 − α/2 otrzymujemy uα = 1.96, więc |u| < uα i nie ma podstaw do
odrzucenia H0 .
Ponieważ x > m0 , to można też postawić hipotezę alternatywną H : m > 1.05. W tym przypadku
obszar krytyczny jest postaci (uα , ∞), gdzie uα dla takiego obszaru krytycznego wyznaczamy z
zależności Φ (uα ) = 1 − α i otrzymujemy uα = 1.64, więc również u < uα i nie ma podstaw do
odrzucenia H0 .
2. Ponieważ rozkład jest normalny i nieznane jest σ, to stosujemy model II. Stawiamy hipotezę
√
H0 : m = 13 przeciw hipotezie H1 : m ̸= 13 Obliczamy kolejno x = 12, s2 = 2/3 i s = 2/3.
Statystyka testowa ma rozkład t-Studenta o n − 1 = 2 stopniach swobody, a jej wartość wynosi
√
x − m0 √
t=
n − 1 = − 3.
s
55
Z tablic wartości krytycznych rozkładu t-Studenta
odczytujemy dla α = 0.01 i dwóch stopni swobody
√
wartość tα = 9.9248. Oczywiście |t| = 3 > tα , więc nie ma podstaw do odrzucenia hipotezy o
równości. Gdyby sformułować hipotezę alternatywną H1 < 13, to również hipotezy o równości nie
odrzucimy, bo w tym przypadku tα = 6.9646 i dalej mamy |t| < tα . Powodem jest bardzo mała,
zaledwie trzyelementowa próba.
3. Ponieważ rozkład jest normalny i mała próba, to stosujemy model I. Stawiamy hipotezę H0 :
σ 2 = 0.03 przeciw hipotezie H1 : σ 2 > 0.03. Statystyka testowa ma rozkład chi-kwadrat o n − 1 = 4
stopniach swobody, a jej wartość wynosi
χ2 =
20
ns2
=
.
σ0
3
Z tablic rozkładu chi-kwadrat dla α = 0.05 i czterech stopni swobody odczytujemy χα2 = 9.4877
Oczywiście χ 2 < χα2 , więc nie ma podstaw do odrzucenia hipotezy o równości.
4. Formułujemy hipotezy:
H0 : m = m0 ,
H1 : m > m0 ,
gdzie m0 = 5 jest hipotetycznym średnim zużyciem paliwa. Obliczamy x = 5.125 i s ≈ 0.1561.
Wartość statystyki testowej
t=
x − m0 √
1.125 − 5 √
n−1=
7 = 2.12.
s
0.1561
Z tablic rozkładu t-Studenta z zależności P (|t| > tα ) = 2α odczytujemy tα = 1.8946, więc t > tα .
Oznacza to, że średnie zużycie paliwa jest istotnie większe od podawanej średniej.
H0 : m = m0 ,
H1 : m < m0 ,
gdzie m0 = 3.5 jest hipotetyczną średnią oceną. Oznaczmy przez xi ocenę o numerze i. Obliczamy
30
∑
xi = x1 + x2 + · · · + x30 = 103.
i=1
Stąd
∑30
x=
i=1 xi
30
=
103
= 3.43.
30
Następnie obliczamy
30
∑
2
xi2 = x1 + x22 + · · · + x30
=.
i=1
Stąd
∑30
2
2
i=1 xi
− x 2 ≈ 1.1288.
30
Wyznaczamy uα ze wzoru Φ (uα ) = 1 − α. Dla α = 0.05 jest to uα = 1.64
s =
56
ODPOWIEDZI
Obliczamy wartość statystyki
u=
x − m0 √
3.43 − 3.5 √
n= √
30 ≈ −0.36.
s
1.1288
Ponieważ u < −uα , czyli otrzymana średnia x jest istotnie mniejsza od m0 = 3.5, to odrzucamy
hipotezę o równości i przyjmujemy hipotezę, że średnia grupy jest niższa od 3.5.
H0 : m = m0 ,
H1 : m < m0 ,
gdzie m = 1000 jest hipotetycznym średnim napełnieniem. Przyjmiemy też poziom istotności
α = 0.05. Ponieważ po zaokrągleniu x = 1000.32 i s = 11.15, to obliczając wartość statystyki
u=
x − m0 √
n = 0.5 > 0
s
i wartość uα = −1.64 < 0, otrzymujemy, że u > uα , czyli nie odrzucamy hipotezy H0 , czyli nie
odrzucamy hipotezy, że firma nie oszukuje klientów. Po takim wyniku można sformułować pytanie,
czy firma nie ponosi strat, bo automat nalewa istotnie więcej niż powinien? W tym celu formułujemy
hipotezy:
H0 : m = m0 ,
H1 : m > m0 ,
Postępując jak poprzednio, otrzymujemy uα = 1.64 oraz u < uα , czyli nie odrzucamy hipotezy, że
automat nie powoduje strat firmy.
7. Stawiamy hipotezę H0 , że p = p0 = 0.03, przeciw hipotezie H1 , że p > p0 . Ze wzoru (4.2.5)
wyznaczamy u = 1.6580. Ponieważ uα = 1.64, to u > uα , więc należy odrzucić hipotezę H0 , czyli
przyjąć, że deklaracja producenta jest fałszywa.
8. Niech xi będzie wydatkiem na reklamę, a yi – zyskiem w i-tym miesiącu. Podstawiając te dane do
wzoru (3.2.18) otrzymujemy, że r = 0.6766. Stąd podstawiając r i n = 6 do wzoru (4.2.6) obliczamy
t = 1.8378. Ponieważ dla n − 2 = 4 stopni swobody i poziomu istotności α = 0.1 jest tα = 2.1318,
to t < tα , więc nie ma podstaw do odrzucenia hipotezy, że ρ = 0. Nie odrzucamy więc hipotezy
o braku związku między zyskiem a wydatkami na reklamę. Dla poziomu istotności α = 0.05 jest
tα = 2.7764, więc tym bardziej hipotezy nie odrzucamy.
9. Aby zweryfikować hipotezę, że ρ > 0.5, obliczamy wartość statystyki ze wzoru (4.2.7), otrzymując
u = 1.2013. Ponieważ uα = 1.28 dla α = 0.1, to nie ma podstaw do odrzucenia hipotezy, że ρ = 0.5
i przyjęcia ρ > 0. Tym bardziej nie ma takich podstaw przy α = 0.05.
Tablice statystyczne
1. Wartości dystrybuanty rozkładu normalnego
x
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
3.5
3.6
0
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159
0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9554
0.9641
0.9713
0.9772
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981
0.9987
0.9990
0.9993
0.9995
0.9997
0.9998
0.9998
1
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7611
0.7910
0.8186
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719
0.9778
0.9826
0.9864
0.9896
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982
0.9987
0.9991
0.9993
0.9995
0.9997
0.9998
0.9998
2
0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212
0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9982
0.9987
0.9991
0.9994
0.9995
0.9997
0.9998
0.9999
3
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238
0.8485
0.8708
0.8907
0.9082
0.9236
0.9370
0.9484
0.9582
0.9664
0.9732
0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9983
0.9988
0.9991
0.9994
0.9996
0.9997
0.9998
0.9999
4
0.5160
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7703
0.7995
0.8264
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9977
0.9984
0.9988
0.9992
0.9994
0.9996
0.9997
0.9998
0.9999
57
5
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289
0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9599
0.9678
0.9744
0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984
0.9989
0.9992
0.9994
0.9996
0.9997
0.9998
0.9999
6
0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750
0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9979
0.9985
0.9989
0.9992
0.9994
0.9996
0.9997
0.9998
0.9999
7
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.8340
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9756
0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9979
0.9985
0.9989
0.9992
0.9995
0.9996
0.9997
0.9998
0.9999
8
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7517
0.7823
0.8106
0.8365
0.8599
0.8810
0.8997
0.9162
0.9306
0.9429
0.9535
0.9625
0.9699
0.9761
0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986
0.9990
0.9993
0.9995
0.9996
0.9997
0.9998
0.9999
9
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
0.8621
0.8830
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
0.9990
0.9993
0.9995
0.9997
0.9998
0.9998
0.9999
α
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
n
0.90
0.1584
0.1421
0.1366
0.1338
0.1322
0.1311
0.1303
0.1297
0.1293
0.1289
0.1286
0.1283
0.1281
0.1280
0.1278
0.1277
0.1276
0.1274
0.1274
0.1273
0.1272
0.1271
0.1271
0.1270
0.1269
0.1269
0.1268
0.1268
0.1268
0.1267
0.80
0.3249
0.2887
0.2767
0.2707
0.2672
0.2648
0.2632
0.2619
0.2610
0.2602
0.2596
0.2590
0.2586
0.2582
0.2579
0.2576
0.2573
0.2571
0.2569
0.2567
0.2566
0.2564
0.2563
0.2562
0.2561
0.2560
0.2559
0.2558
0.2557
0.2556
0.70
0.5095
0.4447
0.4242
0.4142
0.4082
0.4043
0.4015
0.3995
0.3979
0.3966
0.3956
0.3947
0.3940
0.3933
0.3928
0.3923
0.3919
0.3915
0.3912
0.3909
0.3906
0.3904
0.3902
0.3900
0.3898
0.3896
0.3894
0.3893
0.3892
0.3890
0.60
0.7265
0.6172
0.5844
0.5686
0.5594
0.5534
0.5491
0.5459
0.5435
0.5415
0.5399
0.5386
0.5375
0.5366
0.5357
0.5350
0.5344
0.5338
0.5333
0.5329
0.5325
0.5321
0.5317
0.5314
0.5312
0.5309
0.5306
0.5304
0.5302
0.5300
0.50
1.0000
0.8165
0.7649
0.7407
0.7267
0.7176
0.7111
0.7064
0.7027
0.6998
0.6974
0.6955
0.6938
0.6924
0.6912
0.6901
0.6892
0.6884
0.6876
0.6870
0.6864
0.6858
0.6853
0.6848
0.6844
0.6840
0.6837
0.6834
0.6830
0.6828
0.40
1.3764
1.0607
0.9785
0.9410
0.9195
0.9057
0.8960
0.8889
0.8834
0.8791
0.8755
0.8726
0.8702
0.8681
0.8662
0.8647
0.8633
0.8620
0.8610
0.8600
0.8591
0.8583
0.8575
0.8569
0.8562
0.8557
0.8551
0.8546
0.8542
0.8538
0.30
1.9626
1.3862
1.2498
1.1896
1.1558
1.1342
1.1192
1.1081
1.0997
1.0931
1.0877
1.0832
1.0795
1.0763
1.0735
1.0711
1.0690
1.0672
1.0655
1.0640
1.0627
1.0614
1.0603
1.0593
1.0584
1.0575
1.0567
1.0560
1.0553
1.0547
0.20
3.0777
1.8856
1.6377
1.5332
1.4759
1.4398
1.4149
1.3968
1.3830
1.3722
1.3634
1.3562
1.3502
1.3450
1.3406
1.3368
1.3334
1.3304
1.3277
1.3253
1.3232
1.3212
1.3195
1.3178
1.3163
1.3150
1.3137
1.3125
1.3114
1.3104
0.10
0.05
0.02
0.01
0.001
6.3138 12.7062 31.8205 63.6567 636.6192
2.9200 4.3027 6.9646 9.9248 31.5991
2.3534 3.1824 4.5407 5.8409 12.9240
2.1318 2.7764 3.7469 4.6041
8.6103
2.0150 2.5706 3.3649 4.0321
6.8688
1.9432 2.4469 3.1427 3.7074
5.9588
1.8946 2.3646 2.9980 3.4995
5.4079
1.8595 2.3060 2.8965 3.3554
5.0413
1.8331 2.2622 2.8214 3.2498
4.7809
1.8125 2.2281 2.7638 3.1693
4.5869
1.7959 2.2010 2.7181 3.1058
4.4370
1.7823 2.1788 2.6810 3.0545
4.3178
1.7709 2.1604 2.6503 3.0123
4.2208
1.7613 2.1448 2.6245 2.9768
4.1405
1.7531 2.1314 2.6025 2.9467
4.0728
1.7459 2.1199 2.5835 2.9208
4.0150
1.7396 2.1098 2.5669 2.8982
3.9651
1.7341 2.1009 2.5524 2.8784
3.9216
1.7291 2.0930 2.5395 2.8609
3.8834
1.7247 2.0860 2.5280 2.8453
3.8495
1.7207 2.0796 2.5176 2.8314
3.8193
1.7171 2.0739 2.5083 2.8188
3.7921
1.7139 2.0687 2.4999 2.8073
3.7676
1.7109 2.0639 2.4922 2.7969
3.7454
1.7081 2.0595 2.4851 2.7874
3.7251
1.7056 2.0555 2.4786 2.7787
3.7066
1.7033 2.0518 2.4727 2.7707
3.6896
1.7011 2.0484 2.4671 2.7633
3.6739
1.6991 2.0452 2.4620 2.7564
3.6594
1.6973 2.0423 2.4573 2.7500
3.6460
58
TABLICE STATYSTYCZNE
2. Wartości krytyczne rozkładu t–Studenta
α
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
n
0.99
0.0002
0.0201
0.1148
0.2971
0.5543
0.8721
1.2390
1.6465
2.0879
2.5582
3.0535
3.5706
4.1069
4.6604
5.2293
5.8122
6.4078
7.0149
7.6327
8.2604
8.8972
9.5425
10.1957
10.8564
11.5240
12.1981
12.8785
13.5647
14.2565
14.9535
0.98
0.0006
0.0404
0.1848
0.4294
0.7519
1.1344
1.5643
2.0325
2.5324
3.0591
3.6087
4.1783
4.7654
5.3682
5.9849
6.6142
7.2550
7.9062
8.5670
9.2367
9.9146
10.6000
11.2926
11.9918
12.6973
13.4086
14.1254
14.8475
15.5745
16.3062
0.95
0.0039
0.1026
0.3518
0.7107
1.1455
1.6354
2.1673
2.7326
3.3251
3.9403
4.5748
5.2260
5.8919
6.5706
7.2609
7.9616
8.6718
9.3905
10.1170
10.8508
11.5913
12.3380
13.0905
13.8484
14.6114
15.3792
16.1514
16.9279
17.7084
18.4927
0.90
0.0158
0.2107
0.5844
1.0636
1.6103
2.2041
2.8331
3.4895
4.1682
4.8652
5.5778
6.3038
7.0415
7.7895
8.5468
9.3122
10.0852
10.8649
11.6509
12.4426
13.2396
14.0415
14.8480
15.6587
16.4734
17.2919
18.1139
18.9392
19.7677
20.5992
0.80
0.0642
0.4463
1.0052
1.6488
2.3425
3.0701
3.8223
4.5936
5.3801
6.1791
6.9887
7.8073
8.6339
9.4673
10.3070
11.1521
12.0023
12.8570
13.7158
14.5784
15.4446
16.3140
17.1865
18.0618
18.9398
19.8202
20.7030
21.5880
22.4751
23.3641
0.70
0.1485
0.7133
1.4237
2.1947
2.9999
3.8276
4.6713
5.5274
6.3933
7.2672
8.1479
9.0343
9.9257
10.8215
11.7212
12.6243
13.5307
14.4399
15.3517
16.2659
17.1823
18.1007
19.0211
19.9432
20.8670
21.7924
22.7192
23.6475
24.5770
25.5078
0.60
0.2750
1.0217
1.8692
2.7528
3.6555
4.5702
5.4932
6.4226
7.3570
8.2955
9.2373
10.1820
11.1291
12.0785
13.0297
13.9827
14.9373
15.8932
16.8504
17.8088
18.7683
19.7288
20.6902
21.6525
22.6156
23.5794
24.5440
25.5093
26.4751
27.4416
0.50
0.4549
1.3863
2.3660
3.3567
4.3515
5.3481
6.3458
7.3441
8.3428
9.3418
10.3410
11.3403
12.3398
13.3393
14.3389
15.3385
16.3382
17.3379
18.3377
19.3374
20.3372
21.3370
22.3369
23.3367
24.3366
25.3365
26.3363
27.3362
28.3361
29.3360
0.40
0.7083
1.8326
2.9462
4.0446
5.1319
6.2108
7.2832
8.3505
9.4136
10.4732
11.5298
12.5838
13.6356
14.6853
15.7332
16.7795
17.8244
18.8679
19.9102
20.9514
21.9915
23.0307
24.0689
25.1063
26.1430
27.1789
28.2141
29.2486
30.2825
31.3159
0.30
1.0742
2.4079
3.6649
4.8784
6.0644
7.2311
8.3834
9.5245
10.6564
11.7807
12.8987
14.0111
15.1187
16.2221
17.3217
18.4179
19.5110
20.6014
21.6891
22.7745
23.8578
24.9390
26.0184
27.0960
28.1719
29.2463
30.3193
31.3909
32.4612
33.5302
0.20
1.6424
3.2189
4.6416
5.9886
7.2893
8.5581
9.8032
11.0301
12.2421
13.4420
14.6314
15.8120
16.9848
18.1508
19.3107
20.4651
21.6146
22.7595
23.9004
25.0375
26.1711
27.3015
28.4288
29.5533
30.6752
31.7946
32.9117
34.0266
35.1394
36.2502
0.10
2.7055
4.6052
6.2514
7.7794
9.2364
10.6446
12.0170
13.3616
14.6837
15.9872
17.2750
18.5493
19.8119
21.0641
22.3071
23.5418
24.7690
25.9894
27.2036
28.4120
29.6151
30.8133
32.0069
33.1962
34.3816
35.5632
36.7412
37.9159
39.0875
40.2560
0.05
3.8415
5.9915
7.8147
9.4877
11.0705
12.5916
14.0671
15.5073
16.9190
18.3070
19.6751
21.0261
22.3620
23.6848
24.9958
26.2962
27.5871
28.8693
30.1435
31.4104
32.6706
33.9244
35.1725
36.4150
37.6525
38.8851
40.1133
41.3371
42.5570
43.7730
0.02
5.4119
7.8240
9.8374
11.6678
13.3882
15.0332
16.6224
18.1682
19.6790
21.1608
22.6179
24.0540
25.4715
26.8728
28.2595
29.6332
30.9950
32.3462
33.6874
35.0196
36.3434
37.6595
38.9683
40.2704
41.5661
42.8558
44.1400
45.4188
46.6927
47.9618
0.01
6.6349
9.2103
11.3449
13.2767
15.0863
16.8119
18.4753
20.0902
21.6660
23.2093
24.7250
26.2170
27.6883
29.1412
30.5779
31.9999
33.4087
34.8053
36.1909
37.5662
38.9322
40.2894
41.6384
42.9798
44.3141
45.6417
46.9629
48.2782
49.5879
50.8922
0.001
10.8276
13.8155
16.2662
18.4668
20.5150
22.4577
24.3219
26.1245
27.8772
29.5883
31.2641
32.9095
34.5282
36.1233
37.6973
39.2524
40.7902
42.3124
43.8202
45.3147
46.7970
48.2679
49.7282
51.1786
52.6197
54.0520
55.4760
56.8923
58.3012
59.7031
TABLICE STATYSTYCZNE
3. Wartości krytyczne rozkładu chi–kwadrat
59
Literatura
[1] A. D. Aczel, Statystyka w zarządzaniu. PWN, Warszawa 2000.
[2] J. Jakubowski, R. Sztencel. Rachunek prawdopodobieństwa dla (prawie) każdego. Script, Warszawa 2006.
[3] H. Jasiulewicz, W. Kordecki. Rachunek prawdopodobieństwa i statystyka matematyczna. Przykłady i zadania. GiS, Wrocław 2010.
[4] J. Jóźwiak, J. Podgórski. Statystyka od podstaw. PWE, Warszawa 2000.
[5] W. Kordecki. Matematyka dla studentów kierunku Zarządzanie. GiS, Wrocław 2009.
[6] W. Kordecki. Rachunek prawdopodobieństwa i statystyka matematyczna. Definicje, twierdzenia wzory. GiS, Wrocław 2010.
[7] S. M. Kot, J. Jakubowski, A. Sokołowski, Statystyka. Difin, Warszawa 2007.
[8] S. Ostasiewicz, Z. Rusnak, U. Siedlecka. Statystyka: elementy teorii i zadania. Wydaw. AE,
Wrocław 2001.
[9] M. E. Rymarczyk, (red.). Elementy statystyki. I-BiS, Wrocław 2006.
[10] J. Wawrzynek. Metody opisu i wnioskowania statystycznego. Wydaw. AE, Wrocław 2007.
60
Skorowidz
cecha statystyczna, 38
centralne twierdzenie graniczne, 23
diagram częstości, 40
dystrybuanta, 8
brzegowa, 10
empiryczna, 39
łączna, 9
rozkładu normalnego, 19
estymacja, 25
estymator, 21, 25
gęstość, 9
brzegowa, 11
łączna, 11
rozkładu normalnego, 19
hipoteza, 32
histogram, 39
iloczyn zdarzeń, 5
kowariancja, 13
empiryczna, 43
kwantyl, 11
kwartyl, 11, 42
liczba klas, 39
mediana, 11, 42
miara
asymetrii, 43
położenia, 41
zależności liniowej, 43
zmienności, 42
obszar krytyczny, 33
odchylenie
ćwiartkowe, 11, 43
przeciętne, 42
odchylenie standardowe
empiryczne, 20, 42
teoretyczne, 12
populacja generalna, 38
poziom ufności, 25
prawdopodobieństwo, 6
klasyczna definicja, 6
warunkowe, 7
prawo wielkich liczb, 22
prosta regresji, 14, 44
próba
statystyczna, 20, 38
prosta, 20
przedział
klasowy, 21, 38
ufności, 25
dla średniej, 26
dla wariancji, 27
dla wskaźnika struktury, 28
dla współczynnika korelacji, 29
przyczyna, 7
realizacja zmiennej losowej, 8
rozkład
t-Studenta, 22
chi-kwadrat Pearsona, 21
dwumianowy, 17
dwupunktowy, 17
dwuwymiarowy, 9
jednostajny, 18
normalny, 18, 19
dwuwymiarowy, 19
Poissona, 18
wykładniczy, 18
zero–jedynkowy, 17
rozkłady statystyk, 22
różnica zdarzeń, 5
skutek, 7
statystyka, 20
suma zdarzeń, 5
szereg
rozdzielczy, 38
skumulowany, 39
szczegółowy, 38
średnia
arytmetyczna, 41
empiryczna, 20, 41
teoretyczna, 11
tablice
rozkładu
61
62
t-Studenta, 22, 58
chi-kwadrat, 21, 59
normalnego, 19, 57
wielodzielcze, 43
test, 32
dla średnich, 33
dla wariancji, 35
dla wskaźnika struktury, 35
dla współczynnika korelacji, 36
twierdzenie Poissona, 23
typowy obszar zmienności, 43
wariancja
empiryczna, 20, 42
teoretyczna, 12
wartość
modalna, 42
oczekiwana, 11
wskaźnik
skośności, 43
struktury, 28, 38
skumulowany, 39
współczynnik
korelacji, 13, 44
empiryczny, 22
SKOROWIDZ
skośności, 43
zmienności, 43
współczynniki regresji, 14
empiryczny, 45
wzór
Bayesa, 7
na prawdopodobieństwo całkowite, 7
zbiorowość statystyczna, 38
zdarzenia
elementarne, 5
losowe, 5
niemożliwe, 5
niezależne, 7
pewne, 5
przeciwne, 5
sprzyjające, 6
wykluczające się, 5
zmienna losowa, 8
skokowa, 8
typu ciągłego, 9
zmienne losowe
nieskorelowane, 14
niezależne, 10

Statystyka matematyczna - Wyższa Szkoła Handlowa

Transkrypt

Podobne dokumenty

Cecha niezależna

Próbne II kolokwium z Rachunku Prawdopodobieństwa i Statystyki

ĆWICZENIE 3 TESTOWANIE HIPOTEZ I ESTYMACJA

Biostatystyka - lista zadań nr 6 Zadanie 1. Wyznaczyć 90% przedział

Estymacja przedziałowa 1. Przedziały ufności dla średniej (a

estymacja_hipotezy

Przedziały ufności dla wariancji i odchylenia standardowego. Model

Bootstrapowe przedziały ufności

Zestawienie ośmiu najważniejszych przedziałów ufności

łatwe - E-SGH