konspekt 2.0

Transkrypt

konspekt 2.0
1
Prawdopodobieństwo
Bardzo często podejmujemy decyzję, nie wiedząc, co się stanie w przyszłości:
1. Czy zainwestować pieniądze na giełdzie?
2. Czy ubezpieczyć laptop przed uszkodzeniami mechanicznymi?
3. Czy wykupić wycieczkę do Sharm el-Sheikh?
4. Czy otworzyć pizzerię na terenie campusu?
Każdej z tych decyzji towarzyszy niepewność, inaczej mówiąc losowość. Na
giełdzie może nastąpić krach, a w czasie naszego pobytu Sharm el-Sheikh
może dojść do zamachu terrostycznego, itd. Z oczywistych powodów chcielibyśmy wiedzieć, czy dojdzie do takich zdarzeń. Rachunek prawdopodobieństwa umożliwia oszacowywanie szans wystąpienia tego typu zdarzeń,
zwanych zdarzeniami losowymi. Za jego pomocą możemy, na przykład,
obliczyć jakie są szanse tego, że
1. skreślimy szóstkę w totolotku,
2. dożyjemy do osiemdemdziesiątki;
3. kobieta, u której test ciążowy dał wynik pozytywny, faktycznie spodziewa się dziecka;
Początki rachunku prawdopodobieństwa:
1. 1663 rok - wydano napisaną ponad 100 lat wcześniej książkę, w której Girolamo Cardano przeanalizował szanse wygranej w niektórych
grach hazardowych (w szczególności w grze w kości).
2. 1812 rok - Pierre Simon de Laplace sformułował klasyczną definicję
prawdopodobieństwa.
3. 1930 - Andrey Kolmogorov sformalizował matematyczne aspekty rachunku prawdopodobieństwa, a w szczególności podał aksjomaty, które
powinno spełniać prawdopodobieństwo.
Zastosowania rachunku prawdopodobieństwa:
1. Analiza gier hazardowych - Texas hold’em, oczko, kości;
2. Genetyka - prawa Mendla (teoria dziedziczności);
3. Informatyka - badanie złożoności obliczeniowej algorytmów;
4. Metody numeryczne - konstrukcja algorytmów stochastycznych, za
pomocą których znajduje się największą (najmniejszą) wartość funkcji
na ustalonym zbiorze.
5. Ubezpieczenia - szacowanie liczby wypadków komunikających, które
wydarzą się w ustalonym okresie w przyszłości.
1
1.1
Przestrzeń zdarzeń elementarnych
Definicja 1. Doświadczenie losowe to takie doświadczenie, którego wyniku
nie da się przewidzieć, a które można wielokrotnie powtarzać w tych samych
warunkach (rzut monetą, rzut kostką, gry hazardowe, totolotek).
Definicja 2. Przestrzeń zdarzeń elementarnych to zbiór Ω zawierający wszystkie możliwe wyniki doświadczenia. Każdy podzbiór A ∈ Ω nazywamy zdarzeniem losowym. Zdarzenie elementarne, to zdarzenie losowe, którego nie da
się przedstawić w postaci sumy prostszych zdarzeń.
Podsumowanie: Zbiór Ω zawiera wszystkie możliwe wyniki doświadczenia losowego. Wykluczają się one wzajemnie, zaś w każdym doświadczeniu
realizuje się dokładnie jeden wynik, czyli zdarzenie elementarne.
Przykłady:
1. Rzucamy jeden raz kostką. Mamy sześć możliwych wyników. Ω =
{1, 2, 3, 4, 5, 6}.
(a) Zdarzenie A = {4} -wypadła 4 jest elementarne, bo nie można go
przedstawić jako sumy dwóch prostszych zdarzeń.
(b) Zdarzenie B = {2, 4, 6} -wypadła liczba parzysta nie jest elementarne, bo można je przedstawić w postaci sumy trzech zdarzeń
elementarnych C = {2; }, D = {4},E = {6}.
2. Rzucamy dwa razy monetą. Mamy cztery możliwe wyniki:
Ω = {(O, O), (O, R), (R, O), (R, R)}.
3. Gramy w totolotka tak długo, aż trafimy szóstkę. Interesuje nas to,
za którym razem to się stanie. Możliwych wyników jest teraz nieskończenie wiele, bo przed pojawieniem się pierwszej szóstki, może być
dowolnie wiele zakładów, w których skreślimy inny układ. Oczywiście,
Ω = {1, 2, . . .}
4. Mierzymy czas jaki mija od dnia zakupu nowego auta do chwili pierwszej awarii. Ponieważ samochód może się zepsuć w dowolnym momencie, Ω = [0, ∞).
1.1.1
Statystyczna regularność
Rozważmy najprostsze doświadczenie losowe jakim jest rzut symetryczną monetą. Przed jego wykonaniem nie jesteśmy w stanie przewidzieć, czy wypadnie orzeł, czy też reszka. Przebiegiem tego prostego doświadczenia losowego
rządzi jednak pewna prawidłowość, której efektem jest następujący fakt: jeśli
wielokrotnie rzucimy monetą, to w około połowie rzutów pojawi się orzeł.
Statystyczna regularność: Wraz ze wzrostem liczby powtórzeń doświadczenia losowego, stabilizuje się częstość pojawiania się każdego z możliwych wyników tego doświadczenia.
2
Ta statystyczna regularność, znana hazardzistom od setek lat, oznacza, że
jesteśmy w stanie przewidzieć, jaki będzie średni wynik uzyskany w dużej
liczbie powtórzeń tego samego doświadczenia losowego.
Przykłady:
1. W 12000 rzutów symetryczną kostką każdy z sześciu możliwych wyników pojawi się około 2000 razy.
2. W 1000 rzutów parą symetrycznych monet każdy z czterech możliwych
wyników (O, O), (O, R), (R, O), (R, R) pojawi się około 250 razy.
3. Jeśli 370 razy zagramy w ruletkę, za każdym razem obstawiając jedną z
37 liczb znajdujących się na kole (niekoniecznie tę samą), to wygramy
około 10 razy.
1.2
1.2.1
Przypomnienie podstawowych faktów o zbiorach
Pojęcie zbioru
1. Intuicyjnie, zbiór to pojemnik, który może mieścić dowolne obiekty
zwane elementami zbioru, np.
(a) zbiór wszystkich studentów UJW,
(b) zbiór tych mieszkańców Wrocławia, którzy są zwolennikami PiS,
(c) zbiór liczb całkowitych.
2. Zbiory oznaczamy zwykle wielkimi literami: A, B, C,... a elementy
zbiorów małymi: a, b, c, ....
3. Zdanie „a jest elementem zbioru A” zapisujemy a ∈ A, a zdanie „a nie
jest elementem zbioru A” zapisujemy a ∈
/ A.
4. Zbiór nie zawierający żadnego elementu nazywamy zbiorem pustym
i oznaczamy ∅.
5. Zbiór możemy określić na dwa sposoby:
• wymieniając wszystkie jego elementy. Na przykład: np.
A = {1, 2, 3},
• podając własność charakterystyczną dla wszystkich elementów zbioru,
odróżniającą ją od elementów spoza zbioru. Na przykład:
B = {x ∈ R : x < 4 i x > 0},
co czytamy: „B jest zbiorem tych liczb rzeczywistych x, że x jest
mniejsze od 4 i x jest większe od 0.
6. Mówimy, że zbiór A jest podzbiorem zbioru B, co zapisujemy A ⊂ B,
jeśli każdy element A jest jednocześnie elementem B.
Przykład: Dla A = {1, 2, 3}, B = {1, 2, 3, 4, 5} i C = {2, 3, 5} A jest
podzbiorem B, ale nie jest podzbiorem C.
Uwaga: Jeśli A ⊂ B i B ⊂ A, to A = B. Jeśli A ⊂ B i B ⊂ C, to
A ⊂ C.
3
1.2.2
Działania na zbiorach
Niech A i B będą dwoma podzbiorami pewnego zbioru Ω.
1. Suma zbiorów A i B (zapis symboliczny A ∪ B) to zbiór wszystkich
elementów, które należą do zbioru A lub należą do zbioru B lub należą
do A i B.
2. Iloczyn zbiorów A i B (zapis symboliczny A ∩ B) to zbiór wszystkich
elementów, które należą do zbioru A i jednocześnie należą do zbioru B.
Inne nazwy iloczynu to część wspólna, przekrój. Jeśli A ∩ B = ∅, to
mówimy, że zbiory A i B są rozłączne.
3. Różnica zbiorów A i B (zapis symboliczny A\B) to zbiór zawierający
te elementy zbioru A, które nie należą do zbioru B.
4. Dopełnienie zbioru A do zbioru Ω (zapis symboliczny Ac , A0 . A) to
zbiór zawierający te elementy zbioru Ω, które nie należą do A.
Rysunek 1: Suma zbiorów A i B.
4
Rysunek 2: Iloczyn i różnica zbiorów A i B.
Przykład: Dla A = {1, 2, 3} i B = {3, 4, 5, 6} i Ω = {1, 2, 3, 4, 5, 6, 7, 8, 9}
mamy A ∪ B = {1, 2, 3, 4, 5, 6}, A ∩ B = {3}, A \ B = {1, 2}, A =
{4, 5, 6, 7, 8, 9}.
5
Rysunek 3: Dopełnienie zbioru A.
1.3
Prawdopodobieństwo
Niech A będzie ustalonym podzbiorem zbioru Ω. Jeśli doświadczenie losowe
zakończy się wynikiem ω i ω ∈ A, to mówimy, że zaszło zdarzenie A. Gdy
zaś ω ∈
/ A, to mówimy, że nie zaszło zdarzenie A.
Definicja 3. Dla dowolnego A ⊂ Ω, prawdopodobieństwo zdarzenia losowego A to liczba P (A), która podaje jakie są szanse tego, że zajdzie zdarzenie
A.
Przykłady:
1. Jakie są szanse wygranej w pojedynczej partii ruletki?
2. Jakie są szanse, że w trzech rzutach monetą wypadną trzy reszki?
3. Jakie są szanse skreślenie szóstki w totolotku?
4. Jakie są szanse, że mężczyna mający 50 lat dożyje do osiemdziesiątki?
1.3.1
Interpretacja częstościowa prawdopodobieństwa
Niech nA oznacza liczbę zajść zdarzenia A w n niezależnych powtórzeniach
pewnego doświadczenia losowego. Wówczas
liczba zajść A w n doświadczeniach
nA
= lim
n→∞
n→∞ n
n
P (A) = lim
nA
Uwaga: Liczbę
nazywamy częstością pojawiania się zdarzenia A w n
n
doświadczeniach.
Wnioski:
6
1. Postać prawdopodobieństwa P zależy od doświadczenia losowego.
2. 0 ≤ P (A) ≤ 1 dla każdego A ⊂ Ω.
3. P (∅) = 0 i P (Ω) = 1, tzn. prawdopodobieństwa zdarzenia niemożliwego i zdarzenia pewnego są równe 0 i 1.
4. Gdy liczba niezależnych powtórzeń eksperymentu dąży do nieskończoności, to względna częstość występowania zdarzenia A dąży do P (A).
Jest to tzw. prawo wielkich liczb.
nA
5. Dla ustalonego (dużego) n, P (A) ≈
.
n
Przykład: Jeśli w 10000 rzutów monetą 5044 razy wypadnie orzeł, to
za oszacowanie prawdopodobieństwa wyrzucenia orła w pojedynczym
5044
rzucie monetą przyjmiemy liczbę
= 0.5044.
10000
Problem: Nigdy nie wyznaczymy w ten sposób dokładnej wartości P (A),
jako że liczba powtórzeń doświadczenia zawsze będzie skończona.
1.3.2
Klasyczna definicja prawdopodobieństwa
W praktyce prawdopodobieństwo często ustalamy jako częstość/proporcję
grupy posiadającą interesującą nas własność.
Przykład: Na 45-ciu studentów, 15-tu dostało 5.0 z egzaminu. Jakie jest
prawdopodobieństwo tego, że losując studenta z tej grupy trafimy na takiego,
.
który dostał 5.0 z egzaminu? Odp. P (A) = 15
45
Kiedy tak można obliczać prawdopodobieństwo?
Definicja 4. (Laplace) Jeśli zbiór Ω jest skończony, a wszystkie zdarzenia
elementarne są jednakowo prawdopodobne to dla dowolnego zdarzenia A ⊂ Ω
P (A) =
|A|
.
|Ω|
Przykłady:
1. W urnie są cztery kule niebieskie i pięć czerwonych. Szanse wylosowa4
nia niebieskiej:
9
2. W rzucie dwoma kostkami szanse uzyskania sumy oczek równej 7 wyno6
szą , bo jest 36 jednakowo prawdopodobnych zdarzeń elementarnych,
36
a sumie 7 sprzyja 6 spośród nich: {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}.
3. Prawdopodobieństwo trafienia szóstki w Totolotku:
p=
1
=
49
6
1
= 7.15112 × 10−8 ,
13983816
bo jest 49
= 13983816 jednakowo prawdopodobnych sposobów wybra6
nia 6 liczb spośród 49, a tylko jeden z nich sprzyja skreśleniu szóstki.
7
1.4
Aksjomaty prawdopodobieństwa
Zazwyczaj zbiór Ω nie jest skończony, a nawet jeśli jest, to zdarzenia elementarne nie są jednakowo prawdopodobne. Jakie warunki powinno spełniać
prawdopodobieństwo?
Andrey Kolmogorov: Ponieważ prawdopodobieństwo ma służyć do oceny
szans zajścia rozmaitych zdarzeń losowych, powinno spełniać te same reguły
co częstość występowania zdarzenia przy powtarzaniu doświadczenia. I stąd
poniższe trzy aksjomaty:
1. Aksjomaty prawdopodobieństwa: Prawdopodobieństwo Pr to dowolna funkcja określona na podzbiorach zbioru Ω spełniająca warunki
(a) Pr(A) ∈ [0, 1] dla dowolnego zdarzenia A,
(b) Pr(Ω) = 1,
(c) Pr(∪∞
i=1 Ai ) =
rzeń A1 , . . ..
P
i
Pr(Ai ) dla dowolnych parami rozłącznych zda-
2. Własności prawdopodobieństwa wynikające z aksjomatów
(a) Pr(∅) = 0;
(b) Pr(Ac ) = 1 − Pr(A);
(c) Jeśli A ⊂ B, to Pr(A) ≤ Pr(B);
(d) Pr(A ∪ B) = Pr(A) + Pr(B) − Pr(A ∩ B);
(e) Pr(A ∪ B) ≤ Pr(A) + Pr(B).
1.5
Przykłady przestrzeni probabilistycznych
1. Ω = {ω1 , ω2 , . . . , ωn }; p1 , . . . , pn nieujemne liczby o sumie 1. Przyjmujemy, że pi = Pr({ωi }), 1 ≤ i ≤ n. Wówczas
X
pi .
Pr(A) =
{i : ωi ∈A}
(a) Tak wygląda opis wszystkich możliwych prawdopodobieństw dla
skończonego zbioru Ω.
(b) To, jakie wartości mają liczby p1 , p2 , . . . , pn , zależy od analizowanego doświadczenia losowego.
Szczególny przypadek: Jeśli wszystkie zdarzenia elementarne jed|A|
1
nakowo prawdopodobne, czyli p1 = p2 = . . . = pn = , to P (A) =
.
n
|Ω|
2. Ω = {ω1 , ω2 , . . .}; p1 , p2 , . . . nieujemne liczby o sumie 1. Przyjmujemy,
że pi = Pr({ωi }), i ≥. Wówczas
X
Pr(A) =
pi .
{i : ωi ∈A}
8
(a) Tak wygląda opis wszystkich możliwych prawdopodobieństw dla
przeliczalnego nieskończonego zbioru Ω.
(b) To, jakie wartości mają liczby p1 , p2 , . . ., zależy od analizowanego
doświadczenia losowego.
Przykład: Rzucamy symetryczną monetą tak długo, aż wypadnie
reszka. Wówczas Ω = {ω1 , ω2 , . . .}, przy czym dla każdego k = 1, 2, . . .,
zdarzenie elementarne ωk oznacza, że reszka wypadła po raz pierwszy
1
w k-tym rzucie. W tym modelu pk = Pr({ωk }) = k , bo w k rzutach
2
monetą jest 2k możliwych wyników, a tylko jeden z nich sprzyja wynikowi ωk = OO, . . . , OR (najpierw k − 1 razy wypada orzeł, a potem
pojawia się reszka.
3. Ω - zbiór nieprzeliczalny, a więc zawiera jakiś przedział liczbowy. Jedna
z możliwościR zdefiniowania prawdopodobieństwa: f - nieujemna funkcja, taka że Ω f (x)dx = 1. Wówczas:
Z
Pr(A) =
f (x)dx.
A
Szczególny przypadek: prawdopodobieństwo geometryczne:
długość(A)
długość(Ω)
pole(A)
(b) Ω ⊂ R2 , na przykład prostokąt: Pr(A) =
;
pole(Ω)
(a) Ω ⊂ R, na przykład odcinek: Pr(A) =
(c) Ω ⊂ R3 , na przykład prostopadłościan: Pr(A) =
objętość(A)
;
objętość(Ω)
Przykład: Patyk o długość 1 łamiemy losowo w dwóch miejscach.
jakie jest prawdopodobieństwo, że z tak powstałych kawałków można
zbudować trójkąt.
Rozwiązanie: Niech x, y oznaczają miejsce pierwszego i drugiego złamania. Oczywiście, Ω = {(x, y) ∈ [0, 1] × [0, 1] : 0 < x < y < 1}.
By rozwiązać to zadanie przyjmijmy następujący rozsądny model: dla
każdego podzbioru A ∈ Ω
Pr(punkt (x, y) ∈ A jest proporcjonalne do pola zbioru A).
Trzy kawałki patyka mają długości: x, y − x,1 − y. Jeśłi można z nich
zbudować trójkąt to x < y−x+1−y, y−x < x+1−y i 1−y < x+y−x,
czyli 0 < x < 1/2, 1/2 < y < 1 i y < x + 1/2. Pole tego obszaru jest
równe 1/8, a pole Ω to 1/2. Wobec tego:
Pr(z trzech kawałków patyka powstanie trójkąt) =
9
1/8
1
= .
1/2
4
1.5.1
Podstawowe wzory kombinatoryczne
Do obliczania prawdopodobieństw w modelach, w których wszystkie zdarzenia elementarne są jednakowo prawdopodobne, przydają się poniższe wzory.
1. Kombinacją k-elementową zbioru n-elementowego nazywamy nieuporządkowany k-elementowy podzbiór wyjściowego zbioru n-elementowego.
Innymi słowy: ze zbioru n-elementowego wybieramy k elementów i nie
dbamy o ich kolejność.
(a) Jeżeli nie dopuszczamy powtórzeń (tak jak w Lotto), to liczba
takich kombinacji bez powtórzeń wynosi
n
n!
, k = 0, 1, . . . , n;
=
k!(n − k)!
k
Uwaga: 0! = 1.
(b) Gdy dopuszczamy możliwość powtórzeń, to liczba takich kombinacji z powtórzeniami wynosi
n+k−1
, k = 0, 1, . . .
k
2. Wariacją k-elementową zbioru n-elementowego nazwamy uporządkowany ciąg k-elementowy złożony z elementów wyjściowego zbioru nelementowego.
Innymi słowy: ze zbioru n-elementowego wybieramy k-elementów, jednak kolejność wyboru ma znaczenie.
(a) Jeżeli nie dopuszczamy powtórzeń to liczba takich wariacji bez
powtórzeń wynosi
n!
= n(n − 1) · . . . · (n − k + 1), k = 0, 1, . . . , n;
(n − k)!
Gdy k = n, to mamy do czynienia z permutacją zbioru n-elementowego
i liczba takich permutacji wynosi n!.
(b) Gdy dopuszczamy powtórzenia, to liczba takich wariacji z powtórzeniami wynosi
nk , k = 0, 1, . . .
Przykład: Kombinacje i wariacje 2-elementowe dla zbioru {1, 2, 3}.
1. kombinacje bez powtórzeń: {1, 2}, {1, 3}, {2, 3},
2. kombinacje z powtórzeniami: {1, 2}, {1, 3}, {2, 3}, {1, 1}, {2, 2}, {3, 3},
3. wariacje bez powtórzeń: (1, 2), (2, 1), (1, 3), (3, 1), (2, 3), (3, 2),
4. wariacje z powtórzeniami: (1, 2), (2, 1), (1, 3), (3, 1), (2, 3), (3, 2), (1, 1), (2, 2), (3, 3).
10
2
Prawdopodobieństwo warunkowe
Często obliczamy prawdopodobieństwo zdarzenia A wiedząc, że zaszło pewne
inne zdarzenie B. Tak wyznaczone prawdopodobieństwo oznaczamy symbolem P (A|B) i nazywamy prawdopodobieństwem warunkowym zdarzenia A pod
warunkiem zajścia zdarzenia B.
Przykłady:
1. Szanse dożycia do następnego roku zależą od wieku, płci, trybu życia,
przebytych chorób.
2. Szanse, że kierowca będzie miał stłuczkę w następnym roku zależą od
jego wieku, rejonu zamieszkania, doświadczenia.
Zajście zdarzenia B może, ale nie musi zmienić prawdopodobieństwo
pojawienia się zdarzenia A.
1. W pierwszej urnie same kule białe,a w drugiej same czarne. Rzucamy
monetą. Jesli wypadnie orzeł wyciagamy dwie kule z pierwszej urny,
a jeśli wypadnie reszka dwie kule z drugiej urny. A - druga z wyciągniętych kul jest biała, B- pierwsza z wyciągniętych kul jest biała.
Wówczas Pr(A) = 1/2, ale Pr(A|B) = 1.
2. Rzucamy dwa razy symetryczną monetą. A - orzeł w drugim rzucie, A
- orzeł w pierwszym rzucie. Wówczas Pr(A) = Pr(A|B) = 1/2.
Jak obliczać Pr(A|B)? Jeśli wiemy, że zaszło zdarzenie B, to ograniczamy
się do zdarzeń elementarnych sprzyjających A i zawartych w B. Intuicja
podopowiada, że dla prawdopodobieństwa klasycznego Pr(A|B) jest równe
liczbie zdarzeń elementarnych sprzyjających A i zawartych w B, podzielonej
przez liczbę wszystkich zdarzeń elementarnych zawartych w B, czyli
Pr(A|B) =
Pr(A ∩ B)
|A ∩ B|
=
.
|B|
Pr(B)
To prowadzi do definicji w ogólnym przypadku:
Definicja 5. Prawdopodobieństwo warunkowe zdarzenia A pod warunkiem,
ze zaszło zdarzenie B, gdzie Pr(B) > 0, dane jest wzorem
Pr(A|B) =
Pr(A ∩ B)
.
Pr(B)
Dla B takiego, że Pr(B) = 0, można przyjąć Pr(A|B) = 0.
Examples:
1. String złożony z czterech bitów jest generowany losowo w taki sposób, że każda z 16 możliwości jest jednakowo prawdopodobna. Jakie
jest prawdopodobieństwo tego, że ten string zawiera co najmniej dwa
kolejne 0, jeśli wiadomo, że pierwszy bit jest równy 0?
11
Rozwiązanie: Niech A oznacza zdarzenie, że string długości 4 zawiera
co najmniej dwa kolejne 0, a B - w stringu długości 4 pierwszym bitem
jest 0. Oczywiście, A∩B = {0000, 0001, 0010, 0011, 0100}, Pr(A∩B) =
5/16, Pr(B) = 8/16 i
5/16
Pr(A|B) =
.
8/16
2. Jakie jest prawdopodobieństwo, że w rodzinie z dwójką dzieci są dwaj
chłopcy, jeśli wiadomo, że starsze dziecko jest chłopcem?
Natychmiastową konsekwencją definicji prawdopodobienstwa warunkowego
jest poniższe twierdzenie o mnożeniu, które mówi jak obliczyć prawdopodobieństwo danego zdarzenia, gdy znamy prawdopodobieństwa warunkowe.
Twierdzenie 1. Jeśli zdarzenia losowe A1 , . . . , An spełniają warunek Pr(A1 ∩
. . . ∩ An−1 ) > 0 to
Pr(A1 ∩ . . . ∩ An ) = Pr(A1 ) Pr(A2 |A1 ) · . . . · Pr(An |A1 ∩ . . . ∩ An−1 ).
12
Przykład. Spośród dorosłych użykowników internetu, czyli takich, którzy mają co najmniej 18 lat ,
czatuje 47% osób w wieku 18-29 lat, 21% w wieku 30-49 lat i 7% w wieku powyżej 50 lat. Pierwsza
grupa wiekowa stanowi 29% dorosłych użytkowników internetu, druga 47%, a trzecia 24%. Jakie jest
prawdopodobieństwo zdarzenia C={losowo wybrany dorosły użytkownik internetu korzysta z
czatów}? Odpowiemy na to pytanie wykorzystując twierdzenie o mnożeniu. Zdefiniujmy zdarzenie
A1 = { losowo wybrany dorosły użytkownik internetu pochodzi z pierwszej grupy wiekowej}.
Analogicznie zdefiniujmy zdarzenia A2 i A3 . Wówczas: P(A1 )=0.29, P(A2 )=0.47, P(A3 )=0.24, a P(C|A1
)=0.47, P(C|A2 )=0.21, P(C|A3 )=0.07 . Obliczamy kolejno:
Prawdopodobieństwo tego, że losowo wybrana osoba czatuje i pochodzi z pierwszej grupy wiekowej
jest równe P(A1 i C)= P(A1 ) P(C|A1 )=0.29*0.47=0.1363,
prawdopodobieństwo tego, że losowo wybrana osoba czatuje i pochodzi z drugiej grupy wiekowej
jest równe P(A2 i C)= P(A2 ) P(C|A2 )=0.47*0.21=0.0987,
prawdopodobieństwo tego, że losowo wybrana osoba czatuje i pochodzi z trzeciej grupy wiekowej
jest równe P(A3 i C)= P(A3 ) P(C|A3 )=0.24*0.07=0.0168.
Prawdopodobieństwo tego, że losowo wybrany dorosły użytkownik internetu korzysta z czatów jest
więc równe
P(C)= P(A1 ) P(C|A1 )+ P(A2 ) P(C|A2 )+ P(A3 ) P(C|A3 )=0.1363+0.0987+0.0168=0.2518.
Te obliczenia ilustruje poniższy rysunek. Można z niego także odczytać, jakie jest
prawdopodobieństwo, że losowo wybrany dorosły użytkownik internetu nie korzysta z czatów:
P(CC)= P(A1 ) P(CC|A1 )+ P(A2 ) P(CC |A2 )+ P(A3 ) P(CC |A3 )=0.1537+0.3713+0.2232=0.7482.
Przykład: 2% populacji zarażone jest wirusem HIV, czyli Pr(Hiv+) = 0.02,
a test do wykrywania obecności wirusa ma następujące własności:
1. Jeżeli osoba poddana testowi ma HIV, to prawdopodobieństwo, że test
wykryje tę chorobę wynosi 0.997 (prawdziwy dodatni wynik testu, czułość), czyli Pr(+|Hiv+) = 0.997.
2. Gdy osoba poddana testowi nie ma HIV, to prawdopodobieństwo właściwej diagnozy wynosi 0.985 (prawdziwy ujemny wynik testu, specyficzność), czyli Pr(−|Hiv−) = 0.985.
Wówczas prawdopodobieństwo, że osoba poddana testowi jest chora i test to
wykryje jest równe Pr(+ ∩ Hiv+) = Pr(Hiv+) Pr(+|Hiv+)
14
Przypisując prawdopodobieństwa kolejnym gałęziom i wykorzystując
powyższe twierdzenie o mnożeniu, możemy wyznaczyć
prawdopodobieństwa otrzymania wyników: Prawdziwy+, Fałszywy-,
Fałszywy+ i Prawdziwy-. Następnie, po dodaniu do siebie
prawdopodobieństw otrzymania wyników Prawdziwy+ i Fałszywy+,
obliczamy Pr(+), tzn. prawdopodobieństwo, że test da wynik dodatni.
2.1
Wzór na prawdopodobieństwo całkowite
Definicja 6. Partycją przestrzeni Ω nazywamy dowolną rodzinę parami rozłącznych zbiorów B1 , . . . , Bn o sumie Ω.
Twierdzenie 2. Jeśłi B1 , . . . , Bn jest partycją na zdarzenia o dodatnim
prawdopodobieństwie, to dla dowolnego zdarzenia A
Pr(A) =
n
X
Pr(A|Bi ) Pr(Bi ).
i=1
Przykład: Jakie jest prawdopodobieństwo, że u losowo wybranej osoby test
da wynik dodatni? Ze wzoru na prawdopodobieństwo całkowite
Pr(+) = Pr(+|Hiv+) Pr |Hiv+) + Pr(+|Hiv−) Pr |Hiv−)
= 0.997 · 0.02 + (1 − 0.985) · (1 − 0.02) = 0.03464.
2.1.1
Wzór Bayesa
Często znamy wynik doświadczenia losowego, a pytamy o jego przebieg,
Twierdzenie 3. Jeśłi B1 , . . . , Bn jest partycją na zdarzenia o dodatnim
prawdopodobieństwie i Pr(A) > 0, to dla każdego 1 ≤ i ≤ n,
Pr(A|Bi ) Pr(Bi )
Pr(A|Bi ) Pr(Bi )
=
Pr(Bi |A) = Pn
Pr(A)
j=1 Pr(A|Bj ) Pr(Bj )
Przykład: U losowo wybranej osoby test dał wynik dodatni? Jakie jest
prawdopodobieństwo, że ma ona Hiv?
Pr(+|Hiv+) · Pr(Hiv+)
Pr(+|Hiv+) Pr |Hiv+) + Pr(+|Hiv−) Pr |Hiv−)
Pr(+|Hiv+) · Pr(Hiv+)
0.997 · 0.02
=
= 0.575635.
=
Pr(+)
0.03464
Pr(Hiv + |+) =
Wpływ rozkładu a priori: A jakie będzie to prawdopodobieństwo, gdy
przyjmiemy, że nie 2% lecz 30% populacji jest zarażona wirusem HIV?
16
3
Niezależność zdarzeń
Intuicje: Prawdopodobieństwo warunkowe Pr(A|B) jest zazwyczaj różne
od Pr(A). Tak się dzieje, gdyż zajście zdarzenia B zazwyczaj dostarcza nam
dodatkowej informacji o tym, czy zdarzenie A zajdzie, czy też nie. Jeśli
wiedza o tym, że zaszło B nie ma wpływu na prawdopodobieństwo zajścia
zdarzenia A, a więc gdy Pr(A|B) = Pr(A), to mówimy, że zdarzenia A i B
są niezależne.
Formalna definicja jednego z najważniejszych pojęć rachunku prawdopodobieństwa ma postać:
Definicja 7. Zdarzenia A i B są niezależne, gdy
Pr(A ∩ B) = Pr(A) Pr(B).
Przykłady:
1. Rzucamy dwa razy symetryczną monetą. A - orzeł w drugim rzucie, B
- orzeł w pierwszym rzucie. Wówczas A i B są niezależne.
2. Wybieramy losowo jedną rodzinę spośród rodzin mających n dzieci.
Niech zdarzenie A polega na tym, że w rodzinie jest co najwyżej jedna
dziewczynka, a B - w rodzinie są dziewczynki i chłopcy. Zdarzenia A i
B są niezależne jedynie dla n = 3.
Uwaga: Zakładamy, że szanse urodzenia chłopca i dziewczynki są takie
same.
3.0.2
Niezależność większej liczby zdarzeń
Definicja 8. Zdarzenia A1 , . . . , An nazywamy niezależnymi, gdy dla każdego
1 ≤ k ≤ n i dla każdych 1 ≤ i1 < . . . < ik ≤ n zachodzi
Pr(Ai1 ∩ · · · ∩ Aik ) = Pr(Ai1 ) · . . . · Pr(Aik ).
Przykład: Rzucamy n razy symetryczną monetą. Ak = {orzeł w k-tym rzucie}.
Wowczas A1 , . . . , An są niezależne.
Twierdzenie 4. Jeśli A1 , . . . , An są niezależne, to niezależne są również
B1 , . . . , Bn , gdzie Bi = Ai albo Bi = Ai .
3.0.3
Schemat Bernoulliego
Definicja 9. Schemat Bernoulliego to skończony ciąg niezależnych powtórzeń tego samego doświadczenia losowego o dwu możliwych wynikach, nazywanych umownie sukcesem i porażką. Poszczególne doświadczenia to próby
Bernoulliego.
Przykłady:
1. n-krotny rzut monetą; za sukces można przyjąć wypadnięcie orła,
17
2. n-krotne wypełnienie kuponu totolotka; za sukces można przyjąć trafienie szóstki.
Twierdzenie 5. Prawdopodobieństwo pojawienia się dokładnie k sukcesów w
schemacie Bernoulliego n prób, z prawdopodobieństwem sukcesu w pojedynczej próbie równym p, wynosi
n k
p (1 − p)n−k , k = 0, . . . , n.
k
Przykład: Moneta jest fałszywa i prawdopodobieństwo wyrzucenia orła jest
równe 2/3. Jakie jest prawdopodobieństwo, że w 7 rzutach tą monetą cztery
razy pojawi się orzeł?
Rozwiązanie: W tym przykładzie n = 7, k = 4, p = 2/3, więc
560
7
7! 24
=
≈ 0.256.
Pr(4 sukcesy w 7 doświadczeniach) =
(2/3)4 (1/3)3 =
7
4!3! 3
2187
4
18
4
Zmienne losowe
4.1
Pojęcia wstępne
Definicja 10. Zmienna losowa to funkcja, która przypisuje jakąś wartość
liczbową każdemu z możliwych wyników doświadczenia losowego.
Przykłady:
1. X = czas przeżycia po przeszczepie serca. Zbiór możliwych wartości
[0, ∞).
2. X = wygrana gracza, który grając w ruletkę stawia 1 zł na którąś z 37
liczb
−1, jeśli nie wypadnie obstawiona liczba,
X=
35, jeśli wypadnie obstawiona liczba.
3. Trzykrotny rzut monetą. Osiem możliwych wyników: OOO,ORO,
. . . ,RRR. Niech X = liczba wyrzuconych orłów. Wówczas
X(OOO) = 3, . . . , X(RRR) = 0.
Rodzaje zmiennych losowych:
1. Dyskretna: - zbiór S przyjmowanych przez nią wartości jest skończony albo przeliczalny, np. wynik rzutu kostką, numer rzutu monetą,
w którym po raz pierwszy wypadł orzeł.
2. Ciągła: - zbiór jej wartości zawiera przedział liczbowy, np. temperatura, waga, czy też wzrost losowo wybranego optometrysty.
4.2
Rozkład zmiennej losowej
Rozkład: Dla każdego zbioru A ⊂ R musimy obliczyć Pr(X ∈ A), czyli
prawdopodobieństwo tego, że zmienna losowa X przyjmie wartość należącą
do zbioru A.
1. Aby opisać rozkład dyskretnej zmiennej losowej wystarczy wskazać
zbiór przyjmowanych przez nią wartości i podać prawdopodobieństwa z
jakimi te wartości są przyjmowane (funkcja prawdopodobieństwa),
Przykład: Zmienna losowa X = liczba orłów w trzech rzutach symetryczną monetą przyjmuje wartości 0, 1, 2, 3 z prawdopodobieństwami
1/8, 3/8, 3/8, 1/8.
2. Chcąc opisać rozkład ciągłej zmiennej losowej wystarczy wskazać gęstość jej rozkładu, czyli nieujemną funkcję f , taką że
Z b
Pr(a ≤ X ≤ b) =
f (x)dx dla wszystkich − ∞ ≤ a ≤ b ≤ ∞.
a
Interpretacja: Pr(a ≤ X ≤ b) = to pole wykresu pod krzywą.
Uwaga: Z własności całki wynika, że
19
(a) Pr(a ≤ X ≤ b) = . . . = Pr(a < X < b) =
Rb
a
f (x)dx,
(b) Pr(X = a) = 0.
Rysunek 4: Pr(1 < X < 3) = pole zaznaczonego obszaru
Twierdzenie 6. Funkcja f jest gęstością rozkładu pewnej ciągłej zmiennej losowej wtedy i tylko wtedy, gdy
(a) f (x) ≥ 0 dla każdego x ∈ R,
R
(b) R f (x) dx = 1.
4.2.1
Dystrybuanta zmiennej losowej:
Inny sposób opisu rozkładu zmiennej losowej: dystrybuanta, czyli funkcja
F : R → [0, 1], której wartość w każdym punkcie x ∈ R jest określona wzorem
 x
 R f (s) ds,
jeśli X ma rozkład ciągły o gęstości f ,
F (x) = Pr(X ≤ x) = −∞
P

jeśli X ma rozkład dyskretny.
{t≤x} Pr(X = t),
Twierdzenie 7. Funkcja F jest gęstością rozkładu pewnej zmiennej losowej
wtedy i tylko wtedy, gdy
1. F jest niemalejąca.
2. limx→−∞ F (x) = 0, limx→∞ F (x) = 1
3. F jest prawostronnie ciągła.
20
Rysunek 5: Dystrybuanta rozkładu dwumianowego B(2, 1/2)
Rysunek 6: Dystrybuanta rozkładu wykładniczego
Dystrybuanta a gęstość (funkcją prawd.). Dla każdego x ∈ R,
1. Pr(X = x) = Pr(X ≤ x) − Pr(X < x) = F (x) − F (x− ).
0
2. f (x) = F (x) o ile f jest ciągła w punkcie x.
4.3
Parametry opisujące rozkład zmiennej losowej
Rozkład zmiennej losowej możemy też opisywać za pomocą
1. wskaźników położenia: średnia, mediana;
2. wskaźników rozproszenia: wariancja, odchylenie standarowe, kwartyle, rozstęp międzykwartylowy.
21
4.3.1
Wartość oczekiwana
Definicja 11. Wartość oczekiwana (średnia) zmiennej losowej X to parametr oznaczany symbolem E(X) lub µX , określony wzorem
 ∞
 R xf (x) dx,
jeśli X ma rozkład ciągły o gęstości f ,
E(X) = −∞
P

jeśli X ma rozkład dyskretny.
{xi ∈S} xi Pr(X = xi ),
Przykłady:
1. Rozkład B(1, p): E(X) = 0 · (1 − p) + 1 · p = p.
2. Wygrana w ruletce: E(X) = −1 · 36/37 + 35 · 1/37 = −1/37
Z b
1
x2 b
a+b
3. Rozkład U (a, b): E(X) =
x dx =
|a =
.
b−a
2
a b−a
Uwagi:
1. Analogia między środkiem masy a wartością oczekiwaną:
R∞
xf (x) dx
−∞
to środek ciężkości pręta umieszczonego na osi 0x, którego gęstość masy
w punkcie x wynosi f (x), x ∈ R.
2. E(X) nie zawsze istnieje.
Interpretacja: E(X) to w pewnym sensie średnia wartość przyjmowana
przez zmienną losową.
Przykład: W 600 rzutach symetryczną kostką, każdy z możliwych wyników
powinien pojawić się około 100 razy. Oczekujemy więc, że średni wynik
będzie równy
100 × 1 + 100 × 2 + 100 × 3 + 100 × 4 + 100 × 5 + 100 × 6
600
Czyli
1×
X
1
1
7
+ ... + 6 × =
xi Pr(X = xi ) = E(X) = .
6
6
2
{xi ∈S}
Własności: Jeśli istnieją E(X) i E(Y ) to dla dowolnych stałych a, b
1. Jeśli X przyjmuje tylko jedną wartość c, to E(X) = c.
2. E(aX + b) = aE(X) + b;
3. E(X + Y ) = E(Y ) + E(Y ).
4. Jeśłi X i Y są niezależne, to E(XY ) = E(X)E(Y ).
Definicja 12. Zmienne X i Y są niezależne, jeśli dla dowolnych A, B ⊂ R,
Pr(X ∈ A, Y ∈ B) = Pr(X ∈ A) Pr(Y ∈ B).
22
Intuicje: Jeśli X i Y są niezależne, to wiedza o tym, jaką wartość przyjęła
jedna z tych zmiennych nie wpływa na prawdopodobieństwo z jakim druga
z tych zmiennych przyjmuje swoje wartości.
Przykłady: (wykorzystanie liniowości wartości oczekiwanej)
1. Oczekiwana liczba oczek w rzucie dwoma kostkami.
Rozwiązanie: E(X + Y ) = E(X) + E(Y ) =
7
2
+
7
2
= 7.
2. Roztargniony szatniarz losowo zwraca płaszcz każdemu z n klientów.
Jaka jest oczekiwana liczba prawidłowo zwróconych płaszczy?
Rozwiązanie: X liczba osób, które otrzymała swoje płaszcze. X =
X1 + . . . + Xn , gdzie Xi = 1, gdy i-ta osoba dostała swój płaszcz
i Xi = 0 w przeciwnym razie. Pr(Xi = 1) = 1/n, więc E(X) =
E(X1 ) + . . . + E(Xn ) = n · n1 = 1.
Twierdzenie 8. (Reguła leniwego statystyka) Niech g będzie ustaloną funkcją. Wartość oczekiwaną zmiennej losowej Y = g(X) można obliczyć ze
wzoru
 R∞


g(x)f (x) dx,
jeśli X ma rozkład ciągły o gęstości f ,
E(Y ) = E[g(X)] = −∞
P

g(xi ) Pr(X = xi ), jeśli X ma rozkład dyskretny.

{xi ∈S}
Wniosek: jeśli znamy rozkład X, to nie musimy wyznaczać rozkładu g(X),
by obliczyć E[g(X)].
4.3.2
Wariancja zmiennej losowej
Wartość oczekiwana jest miarą położenia, charakteryzującą rozkład zmiennej
losowej. Niestety, nie opisuje ona w pełni tego rozkładu.
Przykład: Pr(X = 0) = 1, Pr(Y = −1) = Pr(Y = 1) = 1/2. Wówczas
E(X) = E(Y ) = 0, ale zmienne te mają różne rozproszenia wokół swoich
wartości oczekiwanych, bo X jest zawsze równa E(X) = 0, podczas gdy Y
zawsze różni się od E(Y ) = 0 o 1.
Definicja 13. Wariancja zmiennej losowej X to parametr oznaczany sym2
bolem Var(X) lub σX
, który mierzy rozproszenie X względem jej wartości
oczekiwanej (moment bezwładności):
 R∞


(x − µX )2 f (x) dx,
jeśli X ma rozkład ciągły ,
2
−∞
Var(X) = E[(X−µX ) ] =
P

(xi − µX )2 Pr(X = xi ), jeśli X ma rozkład dyskretny.

{xi ∈S}
Uwaga:
p
Var(X) to odchylenie standardowe zmiennej losowej X.
Przykłady:
1. Dla zmiennych z poprzedniego przykładu: Var(X) = 0, Var(Y ) = 1.
23
2. Rozkład B(1, p).
3. Rozkład U (0, 1).
Własności: Jeśli istnieją Var(X) to dla dowolnych stałych a, b
1. Var(X) ≥ 0, przy czym Var(X) = 0 ⇐⇒ Pr(X = c) = 1 dla pewnego
c ∈ R.
2. Var(X) = E(X 2 ) − [E(X)]2 .
3. Var(aX + b) = a2 Var(X), w szczególności Var(X) = Var(−X).
4. Var(X + Y ) = Var(X) + Var(Y ), o ile X i Y są niezależne i istnieje
Var(Y ).
4.3.3
Kwantyle rozkładu
Interesuje nas to, w jakim punkcie xp dystrybuanta F osiąga wartość ustaloną
wartość p z przedziału (0, 1). .
Definicja 14. Kwantyl rzędu p to taki punkt xp , taki że
def
xp = F −1 (p) = inf{x : F (x) ≥ p}
Uwaga:
1. F (x−
p ) ≤ p ≤ F (xp ).
2. Dla rozkładu ciągłego, xp to punkt na osi 0x, taki że pole pod gęstością
na lewo od niego jest równe p, a pole na prawo równe 1 − p, czyli
F (xp ) = p. Uwaga: (xp , p) to punkt przecięcia wykresów funkcji y = p
i y = F (x)).
3. x 1 , x 1 , x 3 to pierwszy kwartyl, mediana i trzeci kwartyl.
4
2
4
4. Rozstęp międzykwartylowy: IQR = x 3 − x 1 .
4
4.4
4
Symetria rozkładu:
1. Mówimy, że ciągła zmienna losowa X ma rozkład symetryczny, jeśli
jej gęstość jest symetryczna względem pewnej wartości x0 , tzn, gdy
f (x − x0 ) = f (−(x − x0 )), x ∈ R. Wówczas,
(a) x0 = E(X),
(b) mediana jest równa średniej, tzn. x1/2 = E(X).
2. Jeśli X nie ma rozkładu symetrycznego, to ma rozkład skośny
(a) prawoskośny (długie prawe ogony ), gdy x1/2 < E(X);
(b) lewoskośny (długie lewe ogony ), gdy x1/2 > E(X);
24
Rysunek 7: Gęstość rozkładu prawoskośnego χ23 , którego medianą jest x1/2 =
2.36597, a średnią µ = 3.
4.5
4.5.1
Dyskretne zmienne losowe
Rozkład Bernoulliego
Definicja 15. Zmienna losowa X ma rozkład Bernoulliego z parametrem
D
p ∈ (0, 1), co oznaczamy X = B(1, p), jeśli przyjmuje wartości 0 i 1 z prawdopodobieństwami Pr(X = 1) = p i Pr(X = 0) = 1 − p.
1. Średnia i wariancja: E(X) = p, and Var(X) = p(1 − p).
2. Eksperyment, którego wynik opisujemy za pomocą takiej zmiennej:
jednokrotny rzut monetą, przy którym orzeł wypada z prawdopodobieństwem p; wówczas X = 1, gdy wypadł orzeł i X = 0, gdy wypadła
reszka.
4.5.2
Rozkład dwumianowy
Definicja 16. Zmienna losowa X ma rozkład dwumianowy z parametrami
D
(n, p), co oznaczamy X = B(n, p), jeśli przyjmuje wartości 0, 1, . . . , n z prawdopodobieństwami
n k
Pr(X = k) =
p (1 − p)n−k , k = 0, . . . , n.
k
1. Eksperyment, którego wynik opisujemy za pomocą takiej zmiennej: n
-krotny rzut monetą, przy którym orzeł wypada z prawdopodobieństwem p; X = liczba wyrzuconych orłów.
2. Taka zmienna opisuje liczbę sukcesów w n doświadczeniach ze schematu
Bernoulliego z prawdopodobieństwem sukcesu p. Jej możliwe wartości
to 0, 1, . . . , n.
3. Średnia i wariancja: E(X) = np, and Var(X) = np(1 − p).
25
D
4. Związek z B(1, p): X = B(n, p) jest sumą n niezależnych zmiennych losowych X1 , . . . , Xn o tym samym rozkładzie B(1, p), Xi = 1,
gdy pojawił się sukces w i- tym doświadczeniu (a 0, gdy pojawiła się
porażka).
4.5.3
Rozkład geometryczny
Definicja 17. Zmienna losowa X ma rozkład geometryczny z parametrem
D
p, co oznaczamy X = Geo(p), jeśli przyjmuje wartości 1, 2, . . . z prawdopodobieństwami
Pr(X = k) = (1 − p)k−1 p, k = 1, 2, . . . .
1. Charakterystyczny eksperyment: rzucamy monetą tak długo aż wypadnie orzeł; X = liczba wykonanych rzutów; możliwe wartości X to
x = 1, 2, . . ..
2. Średnia i wariancja: E(X) = 1/p, and Var(X) = (1 − p)/p2 .
3. X zlicza liczbę niezależnych powtórzeń doświadczenia ze schematu Bernoulliego B(1, p), potrzebnych do tego, by pojawił się pierwszy sukces.
4.5.4
Rozkład Poissona
Definicja 18. Zmienna losowa X ma rozkład Poissona z parametrem λ > 0,
D
co oznaczamy X = P (λ), jeśli przyjmuje wartości 0, 1, 2, . . . z prawdopodobieństwami
λk
exp (−λ), k = 0, 1, 2, . . . .
Pr(X = k) =
k!
1. Średnia i wariancja: E(X) = λ, and Var(X) = λ.
2. Liczba szkód komunikacyjnych w ustalonym okresie czasu można dobrze modelować za pomocą rozkładu Poisssona z odpowiednio dobranym parametrem λ.
4.6
4.6.1
Ciągłe zmienne losowe
Rozkład jednostajny
Definicja 19. Zmienna losowa X ma rozkład jednostajny na przedziale (a, b),
D
co oznaczamy X = U (a, b), jeśli gęstość i dystrybunta mają postać:

(
0,
x < a,

 x−
0,
x∈
/ [a, b],
a
1
, a ≤ x ≤ b,
f (x) =
F (x) =
, x ∈ [a, b].

b−a

b−a
1,
x > b.
1. Średnia i wariancja: E(X) =
a+b
(b − a)2
, Var(X) =
.
2
12
26
Rysunek 8: Gęstość rozkładu jednostajnego U (1, 3)
Rysunek 9: Dystrybuanta rozkładu jednostajnego U (1, 3)
4.6.2
Rozkład wykładniczy
Definicja 20. Zmienna losowa X ma rozkład wykładniczy z parametrem
D
λ > 0, co oznaczamy X = Exp(λ), jeśli gęstość i dystrybunta mają postać:
0,
x < 0,
0,
x < 0,
f (x) =
F (x) =
λe−λx , x ≥ 0.
1 − e−λx , x ≥ 0.
27
Rysunek 10: Gęstość rozkładu wykładniczego Exp(1)
Rysunek 11: Dystrybuanta rozkładu wykładniczego Exp(1)
1. Średnia i wariancja: E(X) =
2. Brak pamięci:
Pr(X ≤ s).
1
1
, Var(X) = 2 .
λ
λ
Dla dowolnych s, t > 0 Pr(X ≤ t + s|X > t) =
3. Rozkład wykładniczy wykorzystuje się w teorii niezawodności do modelowania czasu pracy urządzeń. Przykładowo, żywotność procesora może
być modelowana za pomocą rozkładu wykładniczego o średniej 40000
godzin. Brak pamięci oznacza, że procesor się nie zużywa (starzeje),
więc bez względu na to jak długo już działał, prawdopodobieństwo, iż
nie ulegnie awarii przez następne 1000 godzin, jest takie same jak dla
nowego procesora.
28
4.6.3
Rozkład normalny
Definicja 21. Zmienna losowa X ma rozkład normalny z wartością oczeD
kiwaną µ i wariancją σ 2 , co oznaczamy X = N (µ, σ 2 ), jeśli jej gęstość ma
postać:
(x−µ)2
1
e− 2σ2 , x ∈ R.
f (x) = √
2πσ
Rysunek 12: Gęstość rozkładu normalnego N (1, 1)
29
Rysunek 13: Dystrybuanta rozkładu normalnego N (1, 1)
1. Rozkład normalny jest bardzo często używany do modelowania rozkładów wielu rzeczywistych cech.
Przykłady takich cech:
(a)
(b)
(c)
(d)
błąd pomiarowy,
wzrost, wydajność,
temperatura ciała,
zawartość różnych składników we krwi.
2. Jeśli wielokrotnie powtarzamy ten sam eksperyment losowy, za każdym
razem mierząc wartość tej samej cechy, to zmienna losowa X, będąca
średnią (sumą) uzyskanych wyników ma rozkład zbliżony do normalnego. W szczególności, jeśli wielkokrotnie zmierzymy pewną wielkość
fizyczną (rezystancję, pojemność, lepkość, itp.), a za wynik przyjmiemy
średnią ze wszystkich pomiarów, to, przy pewnych dodatkowych warunkach, tak otrzymana wielkość będzie miała rozkład zbliżony do normalnego.
3. Gęstość rozkładu normalnego ma kształt dzwonu, którego osią symetrii
jest prosta x = µ.
(a) zmiana µ powoduje przesunięcie wykresu gęstości wzdłuż osi 0x;
(b) zmiana σ 2 powoduje zmianę kształtu wykresu gęstości f : im większe σ tym wykres jest bardziej spłaszczony i ma cięższe “ogony”.
30
Rysunek 14: Gęstości rozkładów normalnych N (0, 1) i N (1, 1)
Rysunek 15: Gęstości rozkładów normalnych N (0, 1) i N (1, (1/2)2 )
4. Zmienna losowa o rozkładzie N (m, σ 2 ) może przyjąć każdą wartość z
przedziału (−∞, ∞), ale najbardziej prawdopodobne (najczęściej
pojawiające się) są wartości bliskie µ. Potwierdzeniem tego faktu jest
Reguła 3σ: Jeśli X ma rozkład N (µ, σ 2 ), to
(a) Pr(µ − σ < X < µ + σ) = 0.680;
(b) Pr(µ − 2σ < X < µ + 2σ) = 0.956;
(c) Pr(µ − 3σ < X < µ + 3σ) = 0.997.
31
5. Standardowy rozkład normalny to rozkład normalny o średniej 0 i wariancji 1. Zmienną losową o takim rozkładzie, gęstość jej rozkładu oraz
wariancję oznaczamy symbolami Z, φ oraz Φ. Oczywiście,
x2
1
φ(x) = √ e− 2 ,
2π
x ∈ R.
6. Wartości dystrybuanty rozkładu N (0, 1) można wyznaczyć jedynie nuRx
φ(s) ds.
merycznie, bo nie da się obliczyć całki
−∞
7. Tablice rozkładu N (0, 1). Dla z ∈ [0; 3.49) wyznaczono wartości
Φ(z), czyli dystrybuanty rozkładu N (0, 1). Wartości tej dystrybuanty
dla pozostałych z szacuje się korzystając z tego, że
(a) 1 ≥ Φ(z) ≥ Φ(3.49) = 0.9998 dla wszystkich z ≥ 3.49.
(b) Φ(−z) = 1 − Φ(z) dla z ∈ R.
8. Chcąc znaleźć prawdopodobieństwa dla zmiennej o dowolnym rozkładzie normalnym wykorzystujemy następujący:
D
D
Fakt: Jeśli X = N (µ, σ 2 ) to cX + d = N (µ + d, c2 σ 2 ) dla dowolnych
liczb c, d ∈ R,. W szczególności
Z=
X −µ D
= N (0, 1).
σ
Z ostatniej równości wynika, że dla dowolnych −∞ ≤ a ≤ b ≤ ∞
b−µ
a−µ
(a) Pr(a < X < b) = Φ
−Φ
,
σ
σ
a−µ
,
(b) Pr(X < a) = Φ
σ
b−µ
(c) Pr(X > b) = 1 − Φ
.
σ
D
Przykład:
Jeśli X = N (1, 22 ) to Pr(−1 < X < 5) = Φ 5−1
−
2
−1−1
Φ 2
= Φ(2) − Φ(−1) = Φ(2) − (1 − Φ(1)) = Φ(2) + Φ(1) − 1 =
0.9772 + 0.8413 − 1.
9. Dla każdego α ∈ (0, 1) symbolem zα oznaczamy kwantyl rzędu 1 − α
rozkładu N (0, 1), to znaczy liczbę zα , taką że dla zmiennej losowej Z
mającej rozkład N (0, 1) zachodzi równość
Pr(Z ≤ zα ) = Φ(zα ) = 1 − α.
W szczególności: z0.05 = 1.65, z0.025 = 1.95, z0.01 = 2.33.
33
Tables
•
T-3
Probability
Table entry for z is the
area under the
standard normal curve
to the left of z.
z
TABLE A
Standard normal probabilities (continued)
z
.00
.01
.02
.03
.04
.05
.06
.07
.08
.09
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
.5000
.5398
.5793
.6179
.6554
.6915
.7257
.7580
.7881
.8159
.8413
.8643
.8849
.9032
.9192
.9332
.9452
.9554
.9641
.9713
.9772
.9821
.9861
.9893
.9918
.9938
.9953
.9965
.9974
.9981
.9987
.9990
.9993
.9995
.9997
.5040
.5438
.5832
.6217
.6591
.6950
.7291
.7611
.7910
.8186
.8438
.8665
.8869
.9049
.9207
.9345
.9463
.9564
.9649
.9719
.9778
.9826
.9864
.9896
.9920
.9940
.9955
.9966
.9975
.9982
.9987
.9991
.9993
.9995
.9997
.5080
.5478
.5871
.6255
.6628
.6985
.7324
.7642
.7939
.8212
.8461
.8686
.8888
.9066
.9222
.9357
.9474
.9573
.9656
.9726
.9783
.9830
.9868
.9898
.9922
.9941
.9956
.9967
.9976
.9982
.9987
.9991
.9994
.9995
.9997
.5120
.5517
.5910
.6293
.6664
.7019
.7357
.7673
.7967
.8238
.8485
.8708
.8907
.9082
.9236
.9370
.9484
.9582
.9664
.9732
.9788
.9834
.9871
.9901
.9925
.9943
.9957
.9968
.9977
.9983
.9988
.9991
.9994
.9996
.9997
.5160
.5557
.5948
.6331
.6700
.7054
.7389
.7704
.7995
.8264
.8508
.8729
.8925
.9099
.9251
.9382
.9495
.9591
.9671
.9738
.9793
.9838
.9875
.9904
.9927
.9945
.9959
.9969
.9977
.9984
.9988
.9992
.9994
.9996
.9997
.5199
.5596
.5987
.6368
.6736
.7088
.7422
.7734
.8023
.8289
.8531
.8749
.8944
.9115
.9265
.9394
.9505
.9599
.9678
.9744
.9798
.9842
.9878
.9906
.9929
.9946
.9960
.9970
.9978
.9984
.9989
.9992
.9994
.9996
.9997
.5239
.5636
.6026
.6406
.6772
.7123
.7454
.7764
.8051
.8315
.8554
.8770
.8962
.9131
.9279
.9406
.9515
.9608
.9686
.9750
.9803
.9846
.9881
.9909
.9931
.9948
.9961
.9971
.9979
.9985
.9989
.9992
.9994
.9996
.9997
.5279
.5675
.6064
.6443
.6808
.7157
.7486
.7794
.8078
.8340
.8577
.8790
.8980
.9147
.9292
.9418
.9525
.9616
.9693
.9756
.9808
.9850
.9884
.9911
.9932
.9949
.9962
.9972
.9979
.9985
.9989
.9992
.9995
.9996
.9997
.5319
.5714
.6103
.6480
.6844
.7190
.7517
.7823
.8106
.8365
.8599
.8810
.8997
.9162
.9306
.9429
.9535
.9625
.9699
.9761
.9812
.9854
.9887
.9913
.9934
.9951
.9963
.9973
.9980
.9986
.9990
.9993
.9995
.9996
.9997
.5359
.5753
.6141
.6517
.6879
.7224
.7549
.7852
.8133
.8389
.8621
.8830
.9015
.9177
.9319
.9441
.9545
.9633
.9706
.9767
.9817
.9857
.9890
.9916
.9936
.9952
.9964
.9974
.9981
.9986
.9990
.9993
.9995
.9997
.9998
4.6.4
Rozkład chi-kwadrat
Definicja 22. Jeśli zmienne losowe Z1 , . . . , Zv są niezależne i mają ten sam
rozkład N (0, 1), to zmienna losowa X = Z12 +. . .+Zv2 ma rozkład chi-kwadrat
D
z v stopniami swobody, co oznaczamy X = χ2v .
1. Zmienne losowe o rozkładzie chi-kwadrat tworzą rodzinę rozkładów indeksowaną jednym parametrem v - liczbą stopni swobody (v > 0).
Zmienna losowa o rozkładzie χ2v jest ciągła, przyjmuje wszystkie wartości dodatnie (i tylko takie), a najczęściej te bliskie v.
2. Gęstość rozkładu χ2v jest prawoskośna. Jej postać pomijamy, gdyż jest
skomplikowana.
3. Dla każdego α ∈ (0, 1) symbolem χ2v,α oznaczamy kwantyl rzędu 1 − α
rozkładu chi-kwadrat z v stopniami swobody, to znaczy liczbę χ2v,α , taką
że dla zmiennej losowej X mającej rozkład χ2v zachodzi równość
Pr(X ≥ χ2v,α ) = α.
4. Kwantyle χ2v,α można wyznaczyć jedynie numerycznie. Ich wartości,
dla niektórych v i α, można odczytać z tablic rozładu chi-kwadrat.
35
Rysunek 16: Gęstości rozkładów χ22 , χ23 i χ25
36
T-20
•
Tables
Probability p
Table entry for p is the
critical value (χ 2 )∗ with
probability p lying to its
right.
( χ 2)*
TABLE F
χ 2 distribution critical values
Tail probability p
df
.25
.20
.15
.10
.05
.025
.02
.01
.005
.0025
.001
.0005
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
80
100
1.32
2.77
4.11
5.39
6.63
7.84
9.04
10.22
11.39
12.55
13.70
14.85
15.98
17.12
18.25
19.37
20.49
21.60
22.72
23.83
24.93
26.04
27.14
28.24
29.34
30.43
31.53
32.62
33.71
34.80
45.62
56.33
66.98
88.13
109.1
1.64
3.22
4.64
5.99
7.29
8.56
9.80
11.03
12.24
13.44
14.63
15.81
16.98
18.15
19.31
20.47
21.61
22.76
23.90
25.04
26.17
27.30
28.43
29.55
30.68
31.79
32.91
34.03
35.14
36.25
47.27
58.16
68.97
90.41
111.7
2.07
3.79
5.32
6.74
8.12
9.45
10.75
12.03
13.29
14.53
15.77
16.99
18.20
19.41
20.60
21.79
22.98
24.16
25.33
26.50
27.66
28.82
29.98
31.13
32.28
33.43
34.57
35.71
36.85
37.99
49.24
60.35
71.34
93.11
114.7
2.71
4.61
6.25
7.78
9.24
10.64
12.02
13.36
14.68
15.99
17.28
18.55
19.81
21.06
22.31
23.54
24.77
25.99
27.20
28.41
29.62
30.81
32.01
33.20
34.38
35.56
36.74
37.92
39.09
40.26
51.81
63.17
74.40
96.58
118.5
3.84
5.99
7.81
9.49
11.07
12.59
14.07
15.51
16.92
18.31
19.68
21.03
22.36
23.68
25.00
26.30
27.59
28.87
30.14
31.41
32.67
33.92
35.17
36.42
37.65
38.89
40.11
41.34
42.56
43.77
55.76
67.50
79.08
101.9
124.3
5.02
7.38
9.35
11.14
12.83
14.45
16.01
17.53
19.02
20.48
21.92
23.34
24.74
26.12
27.49
28.85
30.19
31.53
32.85
34.17
35.48
36.78
38.08
39.36
40.65
41.92
43.19
44.46
45.72
46.98
59.34
71.42
83.30
106.6
129.6
5.41
7.82
9.84
11.67
13.39
15.03
16.62
18.17
19.68
21.16
22.62
24.05
25.47
26.87
28.26
29.63
31.00
32.35
33.69
35.02
36.34
37.66
38.97
40.27
41.57
42.86
44.14
45.42
46.69
47.96
60.44
72.61
84.58
108.1
131.1
6.63
9.21
11.34
13.28
15.09
16.81
18.48
20.09
21.67
23.21
24.72
26.22
27.69
29.14
30.58
32.00
33.41
34.81
36.19
37.57
38.93
40.29
41.64
42.98
44.31
45.64
46.96
48.28
49.59
50.89
63.69
76.15
88.38
112.3
135.8
7.88
10.60
12.84
14.86
16.75
18.55
20.28
21.95
23.59
25.19
26.76
28.30
29.82
31.32
32.80
34.27
35.72
37.16
38.58
40.00
41.40
42.80
44.18
45.56
46.93
48.29
49.64
50.99
52.34
53.67
66.77
79.49
91.95
116.3
140.2
9.14
11.98
14.32
16.42
18.39
20.25
22.04
23.77
25.46
27.11
28.73
30.32
31.88
33.43
34.95
36.46
37.95
39.42
40.88
42.34
43.78
45.20
46.62
48.03
49.44
50.83
52.22
53.59
54.97
56.33
69.70
82.66
95.34
120.1
144.3
10.83
13.82
16.27
18.47
20.51
22.46
24.32
26.12
27.88
29.59
31.26
32.91
34.53
36.12
37.70
39.25
40.79
42.31
43.82
45.31
46.80
48.27
49.73
51.18
52.62
54.05
55.48
56.89
58.30
59.70
73.40
86.66
99.61
124.8
149.4
12.12
15.20
17.73
20.00
22.11
24.10
26.02
27.87
29.67
31.42
33.14
34.82
36.48
38.11
39.72
41.31
42.88
44.43
45.97
47.50
49.01
50.51
52.00
53.48
54.95
56.41
57.86
59.30
60.73
62.16
76.09
89.56
102.7
128.3
153.2
4.6.5
Rozkład t-Studenta
Definicja 23. Jeśli zmienne losowe Z o rozkładzie N (0, 1) i Y o rozkładzie
Z
χ2v są niezależne, to zmienna losowa T = p
ma rozkład t-studenta z v
Y /v
D
stopniami swobody, co oznaczamy T = tv
1. Zmienne losowe o rozkładzie t-Studenta tworzą rodzinę rozkładów symetrycznych, indeksowaną jednym parametrem v - liczbą stopni swobody (v > 0). Zmienna losowa o rozkładzie tv jest ciągła, przyjmuje
wszystkie wartości z przedziału (−∞, ∞), ale najczęściej te bliskie zera.
2. Gęstość rozkładu tv jest symetryczna. Jej postać pomijamy, gdyż jest
skomplikowana.
3. Dla każdego α ∈ (0, 1) symbolem tv,α oznaczamy kwantyl rzędu 1 − α
rozkładu t-Studenta z v stopniami swobody, to znaczy liczbę tv,α , taką
że dla zmiennej losowej T mającej rozkład tv zachodzi równość
Pr(T ≥ tv,α ) = α.
4. Kwantyle tv,α można wyznaczyć jedynie numerycznie. Ich wartości, dla
niektórych v i α, można odczytać z tablic rozładu t-Studenta.
38
Rysunek 17: Gęstości rozkładów t2 , t3 i t5
39
Tables
Table entry for p and C is
the critical value t ∗ with
probability p lying to its
right and probability C lying
between −t ∗ and t ∗ .
•
T-11
Probability p
t*
TABLE D
t distribution critical values
Upper-tail probability p
df
.25
.20
.15
.10
.05
.025
.02
.01
.005
.0025
.001
.0005
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
80
100
1000
z∗
1.000
0.816
0.765
0.741
0.727
0.718
0.711
0.706
0.703
0.700
0.697
0.695
0.694
0.692
0.691
0.690
0.689
0.688
0.688
0.687
0.686
0.686
0.685
0.685
0.684
0.684
0.684
0.683
0.683
0.683
0.681
0.679
0.679
0.678
0.677
0.675
0.674
1.376
1.061
0.978
0.941
0.920
0.906
0.896
0.889
0.883
0.879
0.876
0.873
0.870
0.868
0.866
0.865
0.863
0.862
0.861
0.860
0.859
0.858
0.858
0.857
0.856
0.856
0.855
0.855
0.854
0.854
0.851
0.849
0.848
0.846
0.845
0.842
0.841
1.963
1.386
1.250
1.190
1.156
1.134
1.119
1.108
1.100
1.093
1.088
1.083
1.079
1.076
1.074
1.071
1.069
1.067
1.066
1.064
1.063
1.061
1.060
1.059
1.058
1.058
1.057
1.056
1.055
1.055
1.050
1.047
1.045
1.043
1.042
1.037
1.036
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.303
1.299
1.296
1.292
1.290
1.282
1.282
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
1.684
1.676
1.671
1.664
1.660
1.646
1.645
12.71
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.021
2.009
2.000
1.990
1.984
1.962
1.960
15.89
4.849
3.482
2.999
2.757
2.612
2.517
2.449
2.398
2.359
2.328
2.303
2.282
2.264
2.249
2.235
2.224
2.214
2.205
2.197
2.189
2.183
2.177
2.172
2.167
2.162
2.158
2.154
2.150
2.147
2.123
2.109
2.099
2.088
2.081
2.056
2.054
31.82
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
2.528
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.457
2.423
2.403
2.390
2.374
2.364
2.330
2.326
63.66
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
2.704
2.678
2.660
2.639
2.626
2.581
2.576
127.3
14.09
7.453
5.598
4.773
4.317
4.029
3.833
3.690
3.581
3.497
3.428
3.372
3.326
3.286
3.252
3.222
3.197
3.174
3.153
3.135
3.119
3.104
3.091
3.078
3.067
3.057
3.047
3.038
3.030
2.971
2.937
2.915
2.887
2.871
2.813
2.807
318.3
22.33
10.21
7.173
5.893
5.208
4.785
4.501
4.297
4.144
4.025
3.930
3.852
3.787
3.733
3.686
3.646
3.611
3.579
3.552
3.527
3.505
3.485
3.467
3.450
3.435
3.421
3.408
3.396
3.385
3.307
3.261
3.232
3.195
3.174
3.098
3.091
636.6
31.60
12.92
8.610
6.869
5.959
5.408
5.041
4.781
4.587
4.437
4.318
4.221
4.140
4.073
4.015
3.965
3.922
3.883
3.850
3.819
3.792
3.768
3.745
3.725
3.707
3.690
3.674
3.659
3.646
3.551
3.496
3.460
3.416
3.390
3.300
3.291
50%
60%
70%
80%
90%
95%
96%
98%
99%
99.5%
99.8%
99.9%
Confidence level C
5
Statystyka
Statystyka jest nauką o wnioskowaniu. Jej celem jest uogólnianie informacji zawartych w danych.
Przykład: Jak przewidzieć wyniki wyborów parlamentarnych, znając jedynie preferencje wyborcze niewielkiej grupy potencjalnych wyborców?
Czym zajmuje się statystyka?
1. Zbieranie danych: spis powszechny, sondaże przedwyborcze, ankiety,
eksperymenty fizyczne.
2. Analizowanie danych: opracowywanie, wizualizacja, konstrukcja modeli statystycznych.
3. Interpretowanie danych, czyli wyciąganie wniosków: co jest i co będzie.
Dawniej celem statystyki było zbieranie i analizowanie danych dla rządu.
Spis ludności to najstarsza i zarazem najdroższa z metod zbierania danych
Ten, który przeprowadzono w 2010 roku w USA, kosztował około 14 mld $,
czyli 45 $ na osobę.
5.1
Cel statystyki matematycznej
Definicja 24. Populacja generalna to zbiór dowolnych elementów (osób,
przedmiotów, urządzeń, zdarzeń) posiadających wspólną, interesującą nas cechę.
Przykłady populacji i cech:
1. populacja: wszyscy Polacy mające czynne prawo wyborcze, cecha: preferencje polityczne;
2. populacja: wszyscy mężczyżni mający co najmniej 20 lat, cechy: wzrost,
waga, poziom cholestoerolu, cisnienie tętnicze;
3. populacja: wszyscy pracownicy wyższych uczelni. cecha: zarobki.
Cel wnioskowania statystycznego: sformułowanie wniosków o rozkładzie
cechy w populacji, a w szczególności o jego parametrach.
Przykłady:
1. jaki procent Polaków ma astygmatyzm,
2. jakie są średnie zarobki pracowników wyższych uczelni,
3. czy otyłość sprzyja nadciśnieniu?
Definicja 25. Rozkład cechy: wskazujemy zbiór wszystkich możliwych
wartości tej cechy i podajemy jak często każda z tych wartości się pojawia.
Definicja 26. Próba to dowolny podzbiór populacji, zazwyczaj znacznie
mniej liczny niż ona.
41
Jak przebiega wnioskowanie statystyczne? Mierzymy wartości interesującej nas cechy Y dla każdego z elementów próby, wyznaczamy rozkład tej
cechy w próbie i na tej podstawie formułujemy wnioski o jej rozkładzie w
populacji.
Dlaczego ograniczamy się do próby?
• Populacja jest zazwyczaj bardzo liczna, więc niemożliwe jest przeanalizowanie wszystkich możliwych pomiarów (jaki procent Chińczyków ma
dostęp do internetu).
• Pomiary są kosztowne.
• Pomiary są czasochłonne (przeżywalność po skomplikowanym zabiegu
chirurgicznym).
• Przeprowadzenie pomiaru jest związane ze zniszczeniem mierzonego
obiektu (testy zderzeniowe).
5.1.1
Reprezentatywność próby
Aby wnioskowanie było sensowne, próba musi być reprezentatywna, tzn.
rozkład cechy w próbie nie powinien się zbytnio różnić od rozkładu cechy w
populacji.
1. Reprezentatywność próby można sobie zapewnić wybierając ją w
sposób losowy, na przykład za pomocą losowania prostego, przy
którym każdy z elementów populacji ma takie same szanse, by trafić
do próby. Dwa sposoby losowania prostego:
(a) Losowanie proste bez zwracania.
(b) Losowanie proste ze zwracaniem.
Model takiego losowania: wyciągamy z kapelusza (bez zwracania
albo ze zwracaniem) wrzucone do niego kartki z numerami kolejnych
elementów populacji. Próbę tworzą te obiekty populacji, których numery znalazły się na wylosowanych kartkach.
Praktyczniejszy schemat losowania:
(a) losowanie warstwowe: najpierw populację dzieli się na podpopulacje, zwane warstwami, a następnie z poszczególnych warstw pobiera się elementy do próby za pomocą losowania prostego. Celem podziału badanej populacji na warstwy i jest wyodrębnienie w zróżnicowanej zbiorowości możliwe jednorodnych grup jednostek. Poszczególne warstwy powinny być silnie zróżnicowane
między sobą i homogeniczne (jednorodne) wewnątrz. Warstwowania dokonujemy tak, aby otrzymane warstwy były rozłączne i
aby każda jednostka populacji należała do jednej i tylko jednej
warstwy.
2. Dlaczego wystarczy ograniczać się do próby losowej? Dzięki stabilizacji częstości (wniosek z MPWL). Obserwując dużą liczbę zdarzeń
losowych tego samego typu zauważamy regularność:
42
liczba wyrzuconych orłów
(a) liczba wyrzuconych reszek → 1, gdy moneta jest symetryczna;
(b) frakcja urodzonych chłopców → 0.51;
3. Nielosowy dobór próby może powodować jej obciążenie, czyli faworyzowania pewnej szczególnej części populacji.
Przykłady błędnego doboru próby:
• Sondaż dotyczący stosunku Polaków do wprowadzenia euro w roku
2011, przeprowadzony wśród członków klubu parlamentarnego PIS.
• Sondaż dotyczący stosunku Polaków do dopuszczalności zabiegu
przerywania ciązy przeprowadzony wśród słuchaczy Radia Maryja,
• Prognozy wyborcze dotyczące wyników wyborów prezydenckich w
USA przeprowadzone w roku 1936 przez „Literary Digest”. (Sondaż, przeprowadzony wśród ponad 2 mln respondentów, przewidywał miażdżącą wygraną gubernatora Landona. W rzeczywistości prezydentem został Roosvelt. Na czym polegał błędny dobór
próby: sondaż przeprowadzono telefonicznie, ograniczając się więc
do specyficcznej grupy wyborców).
5.1.2
Zastosowania statystyki matematycznej:
Wnioskowanie statystyczne wykorzystuje się w takich dziedzinach jak medycyna, genetyka, epidemiologia, finanse, bankowość, ekonomia, marketing,
kontrola jakości.
5.1.3
Trzy główne zadania statystyki matematycznej:
1. Estymacja punktowa lub przedziałowa: Jaki procent Polaków popiera program 500+?
2. Testowanie hipotez statystycznych: Czy to prawda, że ponad 80%
Polaków to zwolennicy programu 500+?
3. Analiza korelacji: Czy sympatie polityczne wpływają na postrzeganie programu 500+?
43
5.2
Wstępna analiza danych
Interesująca nas cecha Y może być ilościowa albo jakościowa.
1. Zmienna ilościowa: jej wartościami są liczby (waga, wzrost, ciśnienie).
(a) ciągła: (zbiór możliwych wartości zawiera przedział) wzrost, waga,
stężenie,
(b) dyskretna: (zbiór możliwych wartości jest przeliczalny) liczba
punktów z egzaminu, liczba bramek, które Barcelona zdobędzie w
sezonie 2015/2016.
2. Zmienna jakościowa: jej wartościami nie są liczby lecz kategorie
(generowane przez płeć, kolor oczu, grupę krwi).
(a) porządkowa: kategorie można w naturalny sposób uporządkować: odpowiedzi na pytania w ankiecie: nigdy, rzadko, czasami,
często, zawsze; poglądy polityczne: konserwatywne, umiarkowane,
liberalne.
(b) nieporządkowa: kategorii nie można sensownie uporządkować:
płeć, rasa, zawód.
Oczywiście, próba może zawierać dane obu typów (np. dla każdego z n losowo
wybranych pacjentów mierzymy ciśnienie tętnicze i poziom cholesterolu oraz
określamy jego płeć i wykształcenie).
5.3
Opis rozkładu elementów próby
Załóżmy, że z populacji Ω została wybrana w sposób reprezentatywny
próba s rozmiaru n. Niech x1 , . . . , xn oznaczają wartości cechy Y , niekoniecznie liczbowe, zmierzone dla kolejnych elementów próby. Gdy n jest
duże (genetyka, cyklotron, zderzacz hadronów, transakcje w dużych sieciach
sklepowych), konieczne jest wstępne opracowanie danych, by ułatwić wnioskowanie statystyczne.
Ponieważ próba może zawierać wszystkie elementy populacji, poniżej opisane
metody charakteryzują również rozkład cechy w populacji.
Dwa warunki, które ułatwiają analizę danych:
1. Najpierw analizujemy każdą ze zmiennych z osobna, a potem badamy
wzajemne relacje między tymi zmiennymi.
2. Analizę każdej ze zmiennych zaczynamy wykonania od rysunków (histogramy, box-ploty, wykresy słupkowe), a potem wyznaczamy różne
charakterystki liczbowe (średnią, medianę, wariancję,kwartyle).
44
5.3.1
Analiza danych jakościowych
Rozkład – podaje liczbę lub procent osobników w danej kategorii.
1. wykres kołowy: Prosty sposób prezentacji danych, których wartości
dają w sumie pewną całość
(a) skład wyznaniowy ludności Warszawy na początku XX wieku :
katolicy 60%, Żydzi 32%, Inne wyznania 8%).
2. wykresy słupkowe: Prosty sposób prezentacji danych, których wartości mogą, ale nie muszą dawać w sumie pewną całość
(a) dochody osobiste w różnych regionach USA w 1983 (Północny
Wschód 300 mld $, Środkowy Wschód 320 mld, Południe 400
mld.);
(b) procent użytkowników, którzy stwierdzają, że na ich życie duży
wpływ mają: telefony komorkowe, laptopy, ipady.
Rysunek 18: Skład wyznaniowy ludności Warszawy na początku XX
wieku
45
Rysunek 19: Skład wyznaniowy ludności Warszawy na początku XX
wieku
5.3.2
Analiza danych ilościowych:
Rozkład – interesuje nas to jakie wartości przyjmuje cecha ilościowa i jak
często każda z tych wartości jest przyjmowana. W szczególności interesuje
nas kształt, środek, rozrzut rozkładu cechy.
1. Kształt:
(a) Ile jest punktów szczytowych (mod) ?
(b) Czy rozkład jest symetryczny, czy też skośny.
2. Środek: punkt centralny.
3. Rozrzut: odstęp między największymi i najmniejszymi wartościami.
4. Identyfikacja obserwacji odstających (nie pasujących do reszty).
EDA dla danych ilościowych:
Zaobserwowane w próbie wartości cechy jakościowej: x1 , . . . , xn .
• Statystyki porządkowe: Ustawiamy wartości próby x1 , . . . , xn od
najmniejszej do największej otrzymujemy zwane statystykami pozycyjnymi (porządkowymi) x(1) ≤ . . . ≤ x(n) .
• Rozkład cechy w próbie: Niech y1 < y2 . . . < yk oznaczają różne,
uporządkowane rosnąco, wartości próby x1 , . . . , xn i niech ni będzie
liczbą powtórzeń wartości yi w próbie, i = 1, . . . , k. Wówczas ciąg
(y1 , n1 ), . . . , (yk , nk ) nazywamy rozkładem cechy w próbie x1 , . . . , xn .
Pokazuje on jakie wartości przyjmuje cecha w próbie i jak często.
46
• Rozkład częstości cechy w próbie: Jeśli w definicji rozkładu zamiast wartości ni podamy częstość występowania wartości yi , to jest
ni /n, to otrzymamy ciąg (y1 , n1 /n), . . . , (yk , nk /n) nazywamy rozkładem częstości cechy w próbie x1 , . . . , xn .
Przykład 1. Wyniki 25 rzutów kostką:
1, 2, 2, 3, 6, 6, 2, 5, 4, 3, 5, 6, 1, 3, 2, 2, 2, 2, 6, 5, 4, 3, 4, 5, 6.
1. statystyki pozycyjne to odpowiadające tej próbie:
1, 1, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6,
2. rozkład i rozkład częstości dla tej próby:
Wartość (liczba oczek)
Liczność
Częstość
1
2
3
4
5
6
2
7
4
3
4
5
0.08 0.28 0.16 0.12 0.16 0.20
• Szereg rozdzielczy: Jeśli liczba różnych obserwacji w próbie jest
duża, to rozkład częstości jest niezbyt czytelny. Dlatego najpierw grupujemy dane. W tym celu wybieramy liczbę k ∈ N i liczby a1 <
a2 < . . . ak+1 , takie że a1 < x(1) i ak+1 > x(n) . Tworzymy przedziały
I1 = [a1 , a2 ), I2 = [a2 , a3 ), . . . , Ik = [ak , ak+1 ), zwane klasami i obliczamy n1 , . . . , nk - liczby obserwacji z próby wpadających do przedziałów I1 , . . . , Ik . Obliczamy również kolejne częstości.
Przykład: Wydatki (w setkach zł) 1000 losowo wybranych klientów
Tesco:
Wydatki
Liczność
Częstość
[0,1) [1,2) [2,3) [3,4) [4,5) [5,6) [6,7) [7,8) [8,9)
406
216
119
111
47
33
32
18
8
0.406 0.216 0.119 0.111 0.047 0.033 0.032 0.018 0.008
• Histogram: Sporządzenie histogramu polega na naniesieniu na poziomej osi układu współrzędnych rozpatrywanych przedziałów i zbudowaniu nad nimi przylegających do siebie słupków. Wysokość hj słupka
nad przedziałem Ij jest tak dobrana, by pole tego słupka było wprost
proporcjonalne do nj . Przykładowo:
hj =
nj
,
n(aj+1 − aj )
j = 1, . . . , k.
1. zazwyczaj wysokości słupków dobieramy tak, by suma pól prostokątów była równa 1;
2. Jeśli przedziały klasowe mają te same długości, wysokości słupków
są wprost proporcjonalne do liczby obserwacji z odpowiadających
im klas.
47
3. Nie istnieje jedyny właściwy sposób rysowania histogramu, ale
należy uwzględnić następujące zasady:
√
(a) liczba klas: k ∼ n
(b) końce przedziałów klasowych powinny być “wygodnymi” liczbami ( [2, 3) a nie [1.99, 3.01) ).
(c) jeśli to możliwe, tworzymy przedziały tej samej długości.
Rysunek 20: Wydatki 1000 losowo wybranych klientów Tesco
Histogram jest sugestywnym środkiem syntezy obserwacji zawartej w
próbie, ponieważ jest opisem graficznym. Analizując histogram należy
zwrócić uwagę na ogólną prawidłowość z jaką układają się dane i uderzające odstępstwa od tej prawidłowości.
Prawidłowość można ocenić
1. wyznaczając środek i rozproszenie histogramu,
2. opisując kształt histogramu, to znaczy, czy jest on symetryczny,
czy też skośny (prawoskośny, gdy ma długie prawe ogony, a średnia
jest większa od mediany, albo lewoskośny),
3. identyfikując obserwacje odstające, tzn. wartości skrajne, duże
lub małe.
48
Rysunek 21: Histogram dla rozkładu symetrycznego
Rysunek 22: Histogram dla rozkładu prawoskośnego
• Wykres łodyga-liście Jeśli liczba obserwacji w próbie nie jest zbyt
duża, to zamiast histogramu możemy zrobić wykres łodyga-liście. W
tym celu:
– Każdą obserwację dzielimy na dwie części: łodygę i liść. Liśćiem
jest ostatnia (położona najbardziej na prawo) z cyfr tworzących
tę liczbę. Pozostałe cyfry to łodyga.
– Uporządkowane malejąco łodygi wypisujemy w pionowej kolumnie, tak by najmniejsza z nich znalazła się na górze. Na prawo od
tej kolumny rysujemy pionową linię.
– Uporządkowane rosnąco liście, odpowiadające ustalonej łodydze,
wypisujemy w poziomym wierszu, na prawo od tej łodygi.
Zaleta: Nie tracimy informacji wynikającej z grupowania danych.
49
Przykład:
Łodyga
1
2
3
4
5
Liście
26
569
8
1
008
Wykres łodyga liście dla próby 5.0, 1.2, 2.5, 4.1, 1.6, 3.8, 5.0, 2.6, 2.9, 5.8
Wskaźniki sumaryczne: Próbę należy również scharakteryzować za pomocą kilku wskaźników liczbowych umożliwiających odpowiedź na pytania:
• gdzie leży „środek” próby?
• jak duże jest rozproszenie cechy w próbie wokół owego środka?
Wskaźniki określające środek próby nazywamy wskaźnikami położenia. Wskaźniki określające rozproszenie próby wokół środka nazywamy wskaźnikami rozproszenia.
Wskaźniki położenia
1. Wartość średnią w próbie x1 , . . . , xn , oznaczaną x, otrzymujemy
dodająć do siebie wartości x1 , . . . , xn i dzieląc otrzymany wynik przez
n (liczbę obserwacji), tzn.
x=
x1 + x1 + . . . + xn
.
n
Uwaga: x jest estymatorem (oszacowaniem) średniej w populacji.
2. Medianą w próbie x1 , . . . , xn jest „środek” próby, tzn. liczba M , taka
że połowa wartości próby jest większa niż M a druga połowa jest mniejsza niż M . Aby znaleźć medianę
• Ustawiamy obserwacje od najmniejszej do największej otrzymując
wartości x(1) ≤ . . . ≤ x(n) .
• Jeśli n jest nieparzyste, to mediana jest środkową obserwacją wśród
x(1) , . . . , x(n) .
• Jeśli n jest parzyste, to mediana jest równa średniej arytmetycznej
z dwóch środkowych obserwacji spośród x(1) , . . . , x(n) .
To oznacza, że
(
M=
x((n+1)/2) ,
gdy n jest nieparzyste,
x(n/2) + x(n/2+1)
, gdy n jest parzyste.
2
Przykłady:
50
(a) Dla próby 6, 2, 1, 8, 4 statystykami porządkowymi są 1, 2, 4, 6, 8.
Ponieważ n = 5 jest liczbą nieparzystą, medianą jest środkowa,
czyli trzecia statystyka porządkowa: M = x(3) = 4.
(b) Dla próby 7, 2, 1, 8 statystykami porządkowymi są 1, 2, 7, 8. Ponieważ n = 4 jest liczbą parzystą, medianą jest średnia z dwóch
“środkowych” statystyk porządkowych: czyli średnia z drugiej i
x(2) + x(3)
2+7
=
= 3, 5.
trzeciej statystyki porządkowej: M =
2
2
Uwaga: Mediana w próbie jest estymatorem mediany w populacji,
Średnia a mediana
1. Mediana dzieli powierzchnię histogramu na połowę, a średnia to środek
ciężkości histogramu;
2. Mediana jest odporna na obserwacje odstające, a średnia nie;
3. Jeżeli histogram jest prawoskośny (długie prawe ogony), to średnia jest
zwykle większa niż mediana.
4. Obie te miary położenia są jednakowo ważne;
5. Mediana zawsze jest dobra miarą położenia, a średnia jest nią jedynie
wtedy, gdy rozkład cechy jest symetryczny;
6. Średnia jest częściej wykorzystywana do testowania i estymacji (o czym
później).
Wskaźniki rozproszenia Analiza danych, przeprowadzana jedynie na podstawie miar położenia, może prowadzić do błędnych wniosków. Przykładowo,
z równości median zarobków w dwóch grupach pracowników, nie wynika, że
zarobki w tych grupach mają ten sam rozkład. W pierwszej grupie wszyscy
mogą bowiem zarabiać tyle samo, podczas gdy w drugiej mogą być tacy, co
zarabiają dużo i tacy ,co zarabiają mało. Analizując dane trzeba więc także
uwzględnić ich rozproszenie.
Przykład: Dwie próby −10, 0, 10 i 0, 0, 0, 0 mają te same średnie 0 i te same
mediany 0, ale pierwsza z nich jest znacznie bardziej rozproszona.
1. Pierwszy i trzeci kwartyl w próbie x1 , . . . , xn .
• Pierwszy kwartyl Q1 to mediana z tych obserwacji z próby,
które są położone na lewo od mediany M w uporządkowanej próbie
x(1) ≤ . . . ≤ x(n) .
• Trzeci kwartyl Q3 to mediana z tych obserwacji z próby, które
są położone na prawo od mediany M w uporządkowanej próbie
x(1) ≤ . . . ≤ x(n) .
Uwaga:
(a) Q1 i Q3 to estymatory pierwszego i trzeciego kwartyla w populacji.
(b) Q1, M, Q3 dzielą próbę na cztery, mniej wiecej równoliczne, części.
51
2. Rozstęp międzykwartylowy w próbie IQR = Q3 − Q1.
IQR jest lepszą miarą rozproszenia w próbie niż xn − x1 , bo obie eksremalne st. poz. mogą być obserwacjami odstającymi.
Uwaga: IQR = Q3 − Q1 jest estymatorem rozstępu międzykwartylowego w populacji pierwszego i trzeciego kwartyl w populacji.
3. kwantyl rzędu p, gdzie p ∈ (0, 1):
x
bp = inf{x : Fbn (x) ≥ p} =
X([np])
gdy np ∈ N,
X([np]+1) gdy np ∈
/ N.
Inne podejście, odpowiadające podanej powyżej defincji mediany:
( X
([np]) + X([np]+1)
gdy np ∈ N,
x
bp =
2
X([np]+1)
gdy np ∈
/ N.
Uwaga: x
bp jest estymatorem kwantyla rzędu p w populacji
4. Wariancja w próbie x1 , . . . , xn , oznaczaną symbolem s2 , otrzymujemy
dodając do siebie kwadraty odchyleń kolejnych obserwacji od średniej
x i dzieląc otrzymany wynik przez n − 1, tzn.
s2 =
(x1 − x)2 + (x2 − x)2 + . . . + (xn − x)2
.
n−1
Uwaga: s2 jest estymatorem wariancji w populacji.
5. Odchylenie standardowe w próbie x1 , . . . , xn , oznaczane symbolem
s, to dodatni pierwiastek z wariancji w próbie, tzn.
r
(x1 − x)2 + (x2 − x)2 + . . . + (xn − x)2
s=
.
n−1
Uwaga:
(a) s mierzy rozproszenie próby wokół średniej próbkowej, więc używa
się tego parametru, gdy za wskaźnik położenia przyjmuje się x;
(b) s ≥ 0, przy czym s = 0 wtedy i tylko wtedy, gdy wszystkie wartości w próbie są takie same. s i s2 rośną wraz z rozproszeniem.
(c) s jest lepsze od s2 , bo wyraża się w tych samych jednostkach co
wartości w próbie.
(d) IQR jest odporne na obserwacje odstające, a s2 nie jest (nawet
jedna obserwacja odstająca drastycznie zwiększa s2 ).
(e) IQR zawsze jest dobrą miarą rozproszenia, a s2 jest nią jedynie
wtedy, gdy rozkład cechy jest symetryczny;
Znając medianę i kwartyle możemy sporządzić jeszcze jeden rysunek ułatwiający wnioskowanie o próbie. Jest nim
52
• Wykres pudełkowy: Bardzo przydatnym, graficznym środkiem wstępnej analizy danych, jest wykres pudełkowy. Można z niego odczytać pięć wielkości charakteryzujących próbę: najmniejszą obserwację,
pierwszy kwartyl Q1 , medianę M , trzeci kwartyl Q3 , największą obserwację.
– Skala na osi pionowej odpowiada wartościom obserwacji. Dolna
podstawa ramki to pierwszy kwartyl, górna to trzeci kwartyl. Długosć pionowego boku ramki to oczywiście IQR. Poziomy odcinek
wewnątrz ramki to mediana. Odcinek wychodzący z górnej podstawy ramki kończy się poziomą linią (wąsem) wyznaczającą największą obserwację. Podobnie konstruuje się dolny wąs.
• Zmodyfikowany box-plot: Odcinek wychodzący z górnej podstawy
ramki kończy się poziomą linią (wąsem) wyznaczającą największą obserwację mniejszą lub równą Q3 + 1.5 × IQR. Analogicznie dla dolnego
wąsa. Obserwacje odstające, czyli te spoza przedziału [Q3 − 1.5 ×
IQR, Q3 + 1.5 × IQR], są nanoszone indywidualnie.
1. Za pomocą box-plotów dobrze porównuje się rozkłady tej samej
cechy w kilku próbach (np. zarobki mężczyzn i kobiet).
2. Ponieważ (x, s) nie są odporne na obserwacje odstające i mogą
prowadzić do błędnych wniosków, gdy rozkład cechy nie jest symetryczny, do analizy zawsze należy dołączyć box-plot.
Rysunek 23: Box-plot dla próby rozmiaru n = 100 z rozkładu normalnego
N (0, 1).
53
Rysunek 24: Box-ploty dla trzech prób rozmiaru n = 100 z rozkładów normalnych N (0, 1), N (1, 22 ) i N (1, 32 )
Rysunek 25: Zmodyfikowany box-plot dla próby rozmiaru n = 50 z rozkładu
chi-kwadrat z jednym stopniem swobody.
• Wykres przebiegu. Czasami dane ilościowe z próby są pomiarami
pewnej wielkości, zbieranymi w następujących po sobie momentach
czasowych. Wówczas dobrym pomysłem na ich wizualizację jest sporządzenie ich wykresu w funkcji czasu. Dane tego typu noszą nazwę
szeregu czasowego, a odpowiadający im wykres jest zwany wykresem
przebiegu. Analizując taki wykres można stwierdzić czy istnieje
– zależność między wartościami obserwowanymi w sąsiednich momentach czasowych,
– ogólna tendencja wzrostowa albo spadkowa (trend),
– zmienność sezonowa (kształt wycinka wykresu pojawiający się w
kolejnych przedziałach czasowych).
54
Rysunek 26: Notowania akcji firmy Microsoft od stycznia 2008. roku
do marca 2016. roku.
5.3.3
Podsumowanie
Przeprowadzając wstępną analizę danych
1. Wyznaczamy wskaźniki liczbowe charakteryzujące środek i rozproszenie
próby, czyli średnią i wariancję w próbie lub medianę i kwartyle w
próbie.
2. Rysujemy box-plot, gdyż ułatwia on przeanalizowanie położenia i rozproszenia próby.
3. Rysujemy histogram by ocenić kształt, środek, rozrzut rozkładu cechy.
Za jego pomocą
(a) znajdujemy punkty szczytowe, czyli najczęściej powtarzające się
wartości (modę) (dla nich słupki histogramu są najwyższe),
(b) oceniamy czy rozkład jest symetryczny, czy też skośny.
(c) znajdujemy środek - punkt centralny
(d) wyznaczamy rozrzut, czyli odstęp między największymi i najmniejszymi wartościami.
(e) identyfikujemy obserwacje odstające (niepasujące do pozostałych
obserwacji).
4. Jeśli histogram jest symetryczny, środek i rozrzut rozkładu oceniamy
za pomocą średniej i wariancji. W przeciwnym razie podajemy też
medianę i kwartyle.
5. Jeśli w próbie są obserwacje odstające, środek i rozrzut rozkładu oceniamy za pomocą mediany i kwartyli, bo średnia i wariancja nie są
odporne na takie obserwacje.
55
Przykład: Roczne dochody (w dolarach) 15 losowo wybranych pracownic
banku JPMorgan to 16015, 17516, 19312, 16555, 18206, 20788, 12641, 16904,
15953, 17124, 19338, 18405, 17813, 19090, 17274.
Dla tej próby statystyki porządkowe mają postać:
12641, 15953, 16015, 16555, 16904, 17124, 17274, 17516, 17813, 18206, 18405,
19090, 19312, 19338, 20788,
a podstawowe miary położenia i rozproszenia są równe
16015 + . . . + 17274
= 17529.
1. x =
15
(16015 − 17529)2 + . . . + (17274 − 17529)2
2
2. s =
= 3.6466 · 106 .
15 − 1
3. M = 17516, bo n = 15, więc medianą jest środkowa, czyli ósma obserwacja w uporządkowanej rosnąco próbie.
4. Q1 = 16555, bo w uporządkowanej rosnąco próbie, na lewo od mediany
M jest 7 obserwacji, a środkową z nich jest czwarta z nich, czyli 16555.
5. Q3 = 19090, bo w uporządkowanej rosnąco próbie, na lewo od mediany
M jest 7 obserwacji, a środkową z nich jest czwarta z nich, czyli 19090.
6. IQR = Q3 − Q1 = 19090 − 16555 = 2535.
Rysunek 27: Box-plot dla danych o zarobkach w banku JPMorgan
56
Rysunek 28: Zmodyfikowany box-plot dla danych o zarobkach w
banku JPMorgan
5.4
Zgodność z rozkładem normalnym
Znaczna część procedur statystycznych wymaga założenia, że próba pochodzi z populacji o rozkładzie normalnym. Założenie to można (nieformalnie)
sprawdzać wykonując pewne proste (orientacyjne) obliczenia lub rysując wykres kwantyl-kwantyl.
Przypuśćmy, że x1 , . . . , xn jest próbą z jakiegoś rozkładu normalnego.
1. Wykorzystanie reguły 3σ:. Jeśłi X ma rozkład N (µ, σ 2 ), to Pr(µ −
kσ < X < µ + kσ) jest równe 0.68 dla k = 1, 0.95 dla k = 2 i 0.997 dla
k = 3.
Wniosek: Procent obserwacji xi w próbie, które różnią się od x o
mniej ks, czyli spełniają warunek {i : x − ks ≤ xi ≤ x + ks}, powinien
niewiele odbiegać od 68% dla k = 1, 95% dla k = 2 i 99.7% dla k = 3.
Przykład: Dla próby −2.37979, −1.87642, −1.519, −0.999667, −0.764925,
−0.59832, −0.505564, −0.497541, −0.43403, −0.324577, −0.25595, −0.117293,
−0.100622, 0.0396668, 0.108463, 0.34123, 0.740786, 0.897707, 1.47149, 2.29434
(a) n = 20, x = −0.224001, s2 = 1.17003,
(b) 14/20 = 70% obserwacji jest w przedziale x ± 1s;
(c) 19/20 = 95% obserwacji jest w przedziale x ± 2s;
(d) 20/20 = 100% obserwacji jest w przedziale x ± 3s;
(e) Można uznać, że próba pochodzi z rozkładu normalnego.
2. Histogram: powinien swoim kształtem przypominać gęstość rozkładu
normalnego.
57
Rysunek 29: Histogram sugeruje, że próba pochodzi z rozkładu normalnego
Rysunek 30: Histogram sugeruje, że próba nie pochodzi z rozkładu normalnego
3. Punkty na wykresach kwantylowych powinny układać się wzdłuż linii
prostej.
i
−1
(a) QQPlot tworzą punkty Φ
, x(i) , i = 1, . . . , n.
n
x(i) − x
i
(b) P-P plot tworzą punkty
,Φ
, i = 1, . . . , n.
n
s
58
Rysunek 31: Wykres kwantylowy dla próby rozmiaru n = 100 z rozkładu
normalnego
Rysunek 32: Wykres kwantylowy dla próby rozmiaru n = 100 z rozkładu
wykładniczego
5.5
Własności średniej z próby
Niech X1 , . . . , Xn będzie losową próbą prostą z populacji (rozkładu) o średniej
µ i skończonej wariancji σ 2 < ∞ i niech X i S 2 oznaczają średnią i wariancję
w próbie, tzn.
X=
X1 + . . . Xn
,
n
S2 =
(X1 − X)2 + (X2 − X)2 + . . . + (Xn − X)2
.
n−1
Przykłady:
1. Rzut symetryczną monetą. x1 , . . . , xn wyniki kolejnych rzutów (x1 = 1,
liczba wyrzuconych orłów
gdy w i-tym rzucie wypadł orzeł), x =
.
liczba wykonanych rzutów
2. Rzut monetą, która niekoniecznie jest symetryczna, a orzeł wypada z
liczba wyrzuconych orłów
.
prawdopodobieństwem p, x =
liczba wykonanych rzutów
3. Rzut kostką xi - wynik i-tego rzutu, x =
59
suma wyrzuconych oczek
liczba wykonanych rzutów
Własności średniej
1. Nieobciążoność Zmienna losowa X ma
√ wartość oczekiwaną µ i wariancję σ 2 /n (odchylenie standardowe σ/ n). Położenie rozkładu średpojedynczej obserwacji, ale
niej X pokrywa się się położeniem rozkładu
√
rozproszenie rozkładu średniej X jest n razy mniejsze od rozproszenia
rozkładu pojedynczej obserwacji.
2. Jeśli dodatkowo wiadomo, że zmienne X1 , . . . , Xn są niezależne i mają
ten sam rozkład N (µ, σ 2 ), to statystyka
√
n(X − µ)
ma standardowy rozkład normalny N (0, 1).
(a)
σ
√
n(X − µ)
(b)
ma rozkład t-Studenta z n − 1 stopniami swobody.
S
(n − 1)S 2
(c)
ma rozkład chi-Studenta z n − 1 stopniami swobody.
σ2
3. Prawo wielkich liczb:
X1 + . . . Xn
→ µ.
n
Wniosek: Dla każdej liczby ε > 0, nawet dowolnie małej, prawdopodobieństwo
Pr X należy do przedziału [µ − ε, µ + ε]
jest bliskie 1 dla dużych liczności próby. Dokładniej, to prawdopodobieństwo dąży do 1, gdy n dąży do ∞.
Prawo wielkich liczb uzasadnia użycie średniej próbkowej x jako
oszacowania średniej w populacji µ. Wprawdzie x rzadko jest równe
µ i zmienia się z próby na próbę, ale gdy n rośnie, to wartości przyjmowane przez x coraz mniej różnią się od µ.
Prawo wielkich liczb jest podstawą takich przedsięwzięć businesowych jak kasyna czy też firmy ubezpieczeniowe. Gracz nie jest w stanie przewidzieć swojej wygranej w kilku partiach ruletki. W kasynie
rozgrywane są jednak tysiące partii, więc zarząd tej firmy, w przeciwieństwie do gracza, może przewidzieć jaka będzie średnia wygrana
kasyna. Z prawa wielkich liczby wynika, że będzie ona bliska wartości
oczekiwanej wygranej kasyna w pojedynczej partii, a ta jest większa
od zera. Jeśli gracz trafi, to za każdą postawioną złotówkę dostanie 35
zł, w przeciwnym razie straci postawione pieniądze. Ponieważ prawdopodobieństwo trafienia jest równe 1/37, średnia wygrana kasyna w
pojedynczej partii wynosi 1/37 kwoty postawionej przez gracza.
4. Centralne twierdzenie graniczne: Gdy próba X1 , . . . , Xn pochodzi
z rozkładu normalnego, średnia próbkowa x ma rozkład normalny. A
60
jaki jest jej rozkład, gdy próba nie pochodzi z rozkładu normalnego?
Okazuje się, że gdy n rośnie to rozkład x coraz bardziej zaczyna przypominać rozkład normalny. Ta prawidłowość zachodzi bez względu
na to jaki jest rozkład cechy X w populacji.
Wniosek: Wielokrotnie, powiedzmy M razy, pobieramy próbę rozmiaru n i obliczamy odpowiadającą jej średnią próbkową x. Histogram
dla tak wyznaczonych M średnich próbkowych x1 , . . . , xM przypomina swoim kształtem gęstość rozkładu normalnego (dzwon).
Twierdzenie 9 (CTG). Niech X1 , . . . , Xn będzie losową próbą prostą
z rozkładu o średniej µ i wariancji σ 2 ∈ (0, ∞). Wówczas, dla dużych
n, powiedzmy n ≥ 25,
√
n(X − µ)
(a)
ma rozkład zbliżony do standardowego rozkładu norσ
malnego N (0, 1)
(b) średnia X ma rozkład zbliżony do N (µ, σ 2 /n).
Rysunek 33: Histogram dla M=10000 średnich próbkowych rozmiaru n =
2500 z rozkładu B(1, 0.4)
Rysunek 34: Histogram dla M=10000 średnich próbkowych rozmiaru n =
2500 z rozkładu B(1, 0.5)
61
Wniosek: CTG możemy wykorzystać do obliczania prawdopodobieństw
zdarzeń generowanych przez X: dla dowolnych a ≤ b
√
n(X − µ)
Pr a ≤
≤ b ≈ Φ(b) − Φ(a).
σ
Dokładność tej aproksymacji zależy od rozkładu cechy X w populacji
(maleje wraz ze wzrostem skośności tego rozkładu).
62
6
Wnioskowanie statystyczne
Model: Niech θ będzie parametrem charakteryzującym rozkład interesującej nas cechy (zmiennej losowej) X w populacji, np. jego wartością oczekiwaną, wariancją, medianą, itp. Wartość tego parametru chcemy oszacować
znając wartości x1 , . . . , xn cechy X, zmierzone dla kolejnych elementów próby
(czyli przyjęte przez próbę prostą losową X1 , . . . , Xn z tego rozkładu).
Definicja 27. Próbą prostą losową o liczebności n nazywamy ciąg niezależnych zmiennych losowych X1 , . . . , Xn , takich że każda z nich ma ten sam
rozkład co X.
Zmienna X1 odpowiada potencjalnej wartości cechy X dla elementu populacji wybranego jako pierwszy, X2 dla drugiego elementu, itd. Zauważmy,
że Xi możemy traktować jako zmienną losową tylko przed faktycznym wylosowaniem elementu próby. Po wylosowaniu możemy mówić jedynie o konkretnej wartości zmiennej losowej dla wybranego elementu. Wartości x1 , . . . , xn
przyjęte przez zmienne X1 , . . . , Xn będziemy nazywać realizacją próby.
Definicja 28. Statystyką opartą na próbie losowej X1 , . . . , Xn nazywamy
każdą funkcję T (X1 , . . . , Xn ) tej próby. Funkcja ta jest „zwykłą” zmienną
losową, a odrębna nazwa statystyka ma podkreślać to, że wykorzystujemy tę
funkcję do wyciągania wniosków o nieznanym parametrze rozkładu.
Przykłady: T (x1 , . . . , xn ) = x, T (x1 , . . . , xn ) = s2 , T (x1 , . . . , xn ) = x(1) .
Zadaniem statystyki matematycznej jest podanie metod umożliwiających wyciąganie wniosków o całej populacji na podstawie dokładnego przebadania próby prostej los. X1 , . . . , Xn , będącej niewielką częścią tej populacji.
Wnioskowanie statystyczne zajmuje się więc następującym zagadnieniem:
Jak związać informację z próby z informacją o całej populacji i jak ocenić
wiarogodność tego powiązania?
We wnioskowaniu statystycznym, dotyczącym nieznanego parametru θ ∈ Θ,
charakteryzującego rozkład cechy w populacji, wyróżniamy trzy podejścia:
1. Estymacja punktowa lub przedziałowa: Jaki procent Polaków popiera program 500+?
2. Testowanie hipotez statystycznych: Czy to prawda, że ponad 80%
Polaków to zwolennicy programu 500+?
3. Analiza korelacji: Czy sympatie polityczne wpływają na postrzeganie programu 500+?
63
6.1
Estymacja punktowa
Estymacja punktowa polega na wykorzystaniu informacji zawartej w
próbie losowej X1 , . . . , Xn do oszacowaniu parametru θ za pomocą pewnej
statystyki θbn = T (X1 , . . . , Xn ) zwanej estymatorem.
Podstawowe fakty
1. θ (zazwyczaj) jest liczbą, ale nieznaną,
2. estymator θbn zależy od danych (tzn. od realizacji x1 , . . . , xn próby
losowej X1 , . . . , Xn ) więc jest zmienną losową,
3. dla każdej realizacji x1 , . . . , xn próby losowej X1 , . . . , Xn , za wartość
nieznanego parametru θ przyjmujemy liczbę θbn = T (x1 , . . . , xn ).
Przykłady estymatorów.
1. Estymatorem średniej µ w populacji, czyli parametru µ = E(X), jest
średnia próbkowa µ
bn = x.
Przykład: Estymatorem średnich zarobków w populacji mężczyzn jest
średnia zarobków w próbie wybranej z tej populacji.
2. Estymatorem wariancji σ 2 w populacji, czyli parametru σ 2 = Var(X),
jest wariancja próbkowa: σ
bn2 = s2 .
Przykład: Estymatorem wariancji zarobków w populacji mężczyzn
jest wariancja zarobków w próbie wybranej z tej populacji.
3. Estymatorem proporcji p w populacji, czyli względnej częstości (inaczej
frakcji) występowania w populacji obiektów z pewnej klasy, jest frakcja
pbn takich obiektów w próbie.
Przykład: Estymatorem frakcji mężczyzn z nadciśnieniem w populacji
wszystkich mężczyzn jest frakcja mężczyzn z nadciśnieniem w próbie
wybranej z tej populacji.
4. Estymatorem różnicy średnich dwóch populacji jest różnica dwóch średnich próbkowych.
Przykład: Jeśli µK i µM oznaczają nieznane średnie zarobki w populacji kobiet i w populacji mężczyzn, a µ
bK i µ
bM są średnimi zarobkami
w próbach wybranych z obu tych populacji, to estymatorem µK − µM
jest µ
bK − µ
bM .
5. Estymatorem różnicy frakcji w dwóch populacjach jest różnica dwóch
frakcji próbkowych
Przykład: Jeśli pK i pM są nieznanymi frakcjami osób z nadciśnieniem
w populacji kobiet i w populacji mężczyzn, a pbK i pbM są frakcjami takich
osób w próbach wybranych z tych populacji, to estymatorem pK − pM
jest pbK − pbM .
64
Estymować możemy nie tylko parametry liczbowe, ale także gęstość rozkładu i dystrybuantę rozkładu.
1. gęstość estymujemy np. za pomocą histogramu,
2. dystrybuantę estymujemy za pomocą dystrybuanty empirycznej:
Fbn (x)
def
=
=
liczba elementów próby, które są nie większe niż x
n
#{j : xj ≤ x}
, x ∈ R.
n
Rysunek 35: Porównanie gęstości rozkładu N (0, 1) z histogramem dla próby
rozmiaru n = 10000 z tego rozkładu.
Rysunek 36: Porównanie gęstości rozkładu χ23 z histogramem dla próby rozmiaru n = 10000 z tego rozkładu
65
Rysunek 37: Porównanie dystrybuanty rozkładu N (0, 1) z dystrybuantą empiryczną dla próby rozmiaru n = 100 z tego rozkładu.
6.2
Pożądane własności estymatorów
Przypuśćmy, że X1 , . . . , Xn jest próbę prostą losową z populacji, w której
mierzona cecha X ma rozkład zależny od nieznanego parametru θ, przyjmującego wartość w ustalonym zbiorze Θ. Niech θbn = T (X1 , . . . , Xn ) będzie
estymatorem tego parametru, skonstruowanym w oparciu o tę próbę. Jakie
kryteria powinien spełniać θbn , by można było uznać, że jest on sensownym
estymatorem θ?
Przykład: Chcemy oszacować średnie zarobki pracowników KGHM. Niech
x1 , x2 , x3 , x4 oznaczają zarobki 4 losowo wybranych do próby pracowników tej
firmy. Za oszacowanie średnich zarobków w całym kombinacie przyjmiemy
θb4 = T (x1 , x2 , x3 , x4 ) = 8000.
Taki estymator z pewnością nie jest sensowny, bo w ogóle nie wykorzystuje
informacji zawartej w próbie, a za oszacowanie średniej płacy przyjmuje 8000.
6.2.1
Nieobciążoność
Jedną z cech dobrego estymatora jest jego nieobciążoność
Definicja 29. θbn jest nieobciążonym estymatorem parametru θ, jeśli dla każdej wartości tego parametru zachodzi równość
E(θbn ) = θ,
która oznacza, że wartość oczekiwana estymatora jest równa wartości szacowanego parametru.
Intuicyjny sens nieobciążoności:
1. Nieobciążony estymator θbn parametru θ nie ma systematycznej tendencji do tego, by albo niedoszacowywać, albo też przeszacowywać
wartość θ.
2. Średnia wartość takiego estymatora jest równa θ.
66
Każdy ze zdefiniowanych poprzednio estymatorów średniej, wariancji,
proporcji, różnicy dwóch średnich i różnicy dwóch proporcji, jest nieobciążony.
6.2.2
Zgodność
Definicja 30. θbn jest zgodnym estymatorem parametru θ, jeśli dla każdej
wartości tego parametru i dla każdego ε > 0 zachodzi równość
lim Pr θbn należy do przedziału [θ − ε, θ + ε] = 1.
n→∞
Intuicyjny sens zgodności:
1. Zgodność oznacza, że gdy rośnie rozmiar próby to wartości przyjmowane przez estymator są coraz bliższe wartości nieznanego parametru.
2. Zgodny estymator parametru θ zmienia swoją wartość z próby na
próbę i rzadko kiedy ta wartość jest równa szacowanemu parametrowi
θ. Jednak, gdy n rośnie, to wartości przyjmowane przez θbn coraz
mniej różnią się od θ.
Każdy ze zdefiniowanych poprzednio estymatorów średniej, wariancji,
proporcji, różnicy dwóch średnich i różnicy dwóch proporcji, jest zgodny.
6.3
Metody konstrukcji estymatorów
Wiadomo, jakie kryteria powinien spełniać estymator (na pewno zgodność,
ewentualnie nieobciążoność). Pozostaje do rozwiązania najważniejszy problem: jak skonstruować sensowny estymator θbn parametru θ?
6.3.1
Metoda momentów
Przypuśćmy, że nieznany parametr θ = (θ1 , . . . , θk ) jest k–wymiarowy. Dla
j = 1, . . . , k zdefiniujmy
1. j–ty moment rozkładu: mj (θ) = E(X j ),
n
1X j
X .
2. j–ty moment w próbie: m
bj =
n i=1 i
Uwaga: Korzystając z własności wartości oczekiwanej można pokazać, że
m
b j jest nieobciążonym estymatorem mj (θ). Ponadto, z MPWL wynika, że
m
b j jest zgodnym estymatorem mj (θ).
Definicja 31. Estymator parametru θ, wyznaczony za pomocą metody momentów, to taka wartość θbn , która jest rozwiązaniem układu równań:
m1 (θbn ) = m
b 1,
b
m2 (θn ) = m
b 2,
..
..
.
.
b
mk (θn ) = m
b k,
67
Uwagi:
1. Estymator wyznaczony za pomocą metody momentów jest zmienną
losową, bo jego wartość zależy od próby, tzn. θbn = θbn (X1 , . . . , Xn ).
2. W niektórych sytuacjach ten estymator daje bezsensowne wyniki (na
przykład wtedy, gdy szacuje nieznane prawdopodobieństwo za pomocą
ujemnej liczby).
Przykłady:
1. X1 , . . . , Xn probą z populacji, w której mierzona cecha X ma rozkład
B(1, p). Wówczas m1 = E(X) = p. Zastępując w równaniu p = m1
n
1X
Xi otrzynieznany moment rozkładu momentem z próby m
b1 =
n i=1
mujemy estymator parametru p
n
pbn = m
b1 =
1X
Xi .
n i=1
2. X1 , . . . , Xn próba z populacji, w której mierzona cecha X ma rozkład
N (m, σ 2 ). Wówczas m1 = E(X) = m, m2 = E(X 2 ) = σ 2 + m2 . Po
przyrównaniu dwóch pierwszych momentów rozkładu do odpowiadających im momentów próbkowych otrzymujemy układ równań z dwiema
niewiadomymi m,
b σ
b2

n
1X


Xi
m
b =


n i=1
n

1X 2

2
2

b +m
b =
X .
 σ
n i=1 i
Rozwiązaniem tego układu są
n
m
bn = X =
1X
Xi ,
n i=1
n
σ
bn2 =
1X
(Xi − X)2
n i=1
3. X1 , . . . , Xn i.i.d. U (0, θ).
6.3.2
Metoda największej wiarogodności
Niech X1 , . . . , Xn będzie losową próbą prostą z populacji, w której mierzona
cecha X ma rozkład o gęstości (funkcji prawdopodobieństwa) f (x; θ).
Definicja 32. Funkcja wiarogodności:
L(θ) = L(θ; x1 , . . . , xn ) =
n
Y
i=1
68
f (xi ; θ).
Definicja 33. Estymatorem największej wiarogodności (estymatorem NW)
parametru θ jest ta wartość θbn ∈ Θ, która (przy ustalonych, zaobserwowanych
wartościach próby x1 , . . . , xn ) maksymalizuje funkcję wiarogodności L(θ), tzn.
L(θbn ) = max L(θ).
θ∈Θ
Uwagi:
1. Estymator największej wiarodności jest zmienną losową, bo jego wartość zależy od próby, tzn. θbn = θbn (X1 , . . . , Xn ).
2. Z własności logarytmu wynika, że funkcje L(θ) i ln(L(θ)) osiągaja wartości największe w tym samym punkcie. Wygodniej jest maksymalizować drugą z tych funkcji.
3. Za estymator NW parametru θ będziemy przyjmować wartość θbn , dla
której pochodna wzlędem zmiennej θ funkcji ln(L(θ)) jest równa 0.
Pominiemy więc sprawdzanie, czy w tym punkcie funkcja ln(L(θ)) faktycznie ma maksimum globalne (a nie np. minimum lokalne).
Przykłady:
1. X1 , . . . , Xn probą z populacji, w której mierzona cecha X ma rozkład
B(1, p). Funkcja prawdopodobieństwa ma postać:
f (x; p) = Pr(X = x) = px (1 − p)1−x ,
dla x = 0, 1.
Niech x1 , . . . , xn będzie realizacją próby. Wówczas:
(a) Funkcja wiarogodności ma postać:
L(p) = px1 (1 − p)1−x1 · . . . · pxn (1 − p)1−xn = px1 +...+xn (1 − p)n−(x1 +...+xn )
= pnx (1 − p)n(1−x) .
(b) Logarytm funkcji wiarogodności to
ln(L(p)) = ln pnx (1 − p)n(1−x) = nx ln(p) + n(1 − x) ln(1 − p).
(c) Pochodna względem zmiennej p funkcji ln(L(p)) jest równa
[ ln(L(p)) ]0 =
nx n(1 − x)
−
.
p
1−p
(d) Rozwiązaniem względem p równania [ ln(L(p)) ]0 = 0, a więc estymatorem NW parametru p rozkładu B(1, p), jest pbn = x.
69
7
Przedziały ufności
Estymacja przedziałowa polega na wykorzystaniu informacji zawartej w próbie losowej X1 , . . . , Xn do skonstruowaniu przedziału liczbowego,
który z dużą dozą pewności zawiera wartość szacowanego parametru θ.
Przykład: Z populacji 20.6 mln kobiet w wieku od 20 do 29 lat, mieszkających na terenie USA, wybrano losowo próbę n = 654 kobiet. Średnia
wartość indeksu BMI w tej próbie była równa x = 26.8. Co można powiedzieć o średniej wartości µ wskaźnika BMI w całej populacji kobiet w tej
grupie wiekowej?
Dodatkowe założenie: przypuśmy, że tę próbę możemy potraktować jako
próbę prostą losową z populacji o rozkładzie N (µ, σ 2 ), gdzie µ nie jest znane,
a odchylenie standardowe σ jest znane i równe 7.5. Przy takim założeniu,
średnia próbkowa x ma rozkład N (µ, σ 2 /n), czyli N (µ, (0.3)2 ).
1. Za oszacowanie (estymator) nieznanej średniej wartości µ indeksu BMI
w całej populacji przyjmiemy x = 26.8. Nie oczekujemy, że x jest
dokładnie równe 26.8, więc chcemy wiedzieć, jak precyzyjne jest to
oszacowanie.
2. Ponieważ x ma rozkład normalny o średniej µ i odchyleniu standardowym 0.03, z drugiej części reguły 68 − 95 − 99.7 wynika następujący
Wniosek: dla około 95% wszystkich próbek rozmiaru 654, pobranych
z populacji kobiet z analizowanej grupy wiekowej, średnia próbkowa x
różni się od µ o mniej niż 2 dwa odchylenia standardowe dla x, bo
σ
σ
0.965 = Pr µ − 2 √ ≤ X ≤ µ + 2 √
= Pr X − 2 · 0.3 ≤ µ ≤ X + 2 · 0.3
n
n
3. Dla naszej próby zmienna losowa X przyjęła wartość x = 26.8, więc
x − 2 · 0.3 = 26.8 − 0.6 = 26.2,
x + 2 · 0.3 = 26.8 + 0.6 = 27.4.
Z poprzedniego punktu wynika, że mamy 95% pewności , iż przedział [26.2; 27.4] zawiera µ. Nazywamy go przedziałem ufności dla µ
na poziomie ufności 0.95 (95% przedział ufności dla średniej rozkładu
normalnego przy znanej wariancji).
7.1
Podstawowe pojęcia
Wybierzmy liczbę α z przedziału (0, 1), zazwyczaj α = 0.01 albo α = 0.05.
Definicja 34. Niech b
a = a(X1 , . . . , Xn ) i bb = b(X1 , . . . , Xn ) będą
dwoma
funkcjami próby (statystykami). Mówimy, że przedział Cn = b
a, bb jest przedziałem ufności dla parametru θ na poziomie ufności 1 − α, jeśli
Pr b
a < θ < bb ≥ 1 − α, dla każdego θ ∈ Θ.
Taki przedział b
a, bb zawiera θ z prawdopodobieństwem 1 − α.
70
Definicja 35. Szerokością (długością) przedziału ufności Cn = b
a, bb nazywamy różnicę bb − b
a, która jest (zazwyczaj) zmienną losową.
Oczywiście najbardziej precyzyjne oszacowanie nieznanego parametru θ daje
przedział, który na danym poziomie ufności ma najmniejszą długość.
Podstawowe fakty
1. θ jest liczbą, ale nieznaną; wartość θ chcemy oszacować,
2. prawy i lewy koniec przedziału Cn = b
a, bb zależą od danych (tzn. od
realizacji x1 , . . . , xn próby losowej) więc są zmiennymi losowymi,
3. dla każdej realizacji x1 , . . . , xn próby losowej przyjmujemy, że θ należy
do przedziału liczbowego (a(x1 , . . . , xn ), b(x1 , . . . , xn )).
Interpretacja poziomu ufności:
Przedział liczbowy
(a(x1 , . . . , xn ), b(x1 , . . . , xn )) ,
wyznaczony na podstawie tylko jednej realizacji x1 , . . . , xn próby losowej,
albo zawiera nieznaną wartość θ, albo i nie. Tego nie wiemy! Jeśli jednak
wielokrotnie wyznaczymy przedział ufności dla θ na poziomie ufności np.
1 − 0.05 = 0.95 (za każdym razem wykorzystując inną realizację próby) to
około 95% spośród tych przedziałów liczbowych będzie zawierać nieznaną
wartość θ.
Jak konstruować przedział ufności? Konstrukcja przedziału jest
równoważna wskazaniu jego końców b
a, bb, będących pewnymi statystykami.
Statystyki te dobieramy tak by przedział miał
1. ustalony poziom ufności (prawdopodobieństwo pokrycia) i jak najmniejszą szerokość.
Uwagi
1. Ponieważ zależy nam na tym by to prawdopodobieństwo pokrycia było
duże, więc wybieramy α = 0.01 lub α = 0.05.
2. Zamiast sformułowania na poziomie ufności 1−α używamy także stwierdzenia: na poziomie ufności (1 − α) · 100%.
7.2
Przedziały ufności średniej populacji
Niech X1 , . . . , Xn będzie losową próbą prostą z populacji o nieznanej średniej
µ i skończonej wariancji σ 2 < ∞. Naszym celem jest konstrukcja przedziału
ufności dla parametru µ na ustalonym poziomie ufności 1 − α.
Przedział ufności dla średniej µ w populacji ma postać:
estymator średniej populacji ± margines błędu .
71
Oznaczmy:
1. zα/2 – kwantyl rzędu 1 − α/2 z rozkładu N (0, 1), tzn. liczba, taka że
Φ(zα/2 ) = 1 − α/2;
2. tn−1,α/2 – kwantyl rzędu 1−α/2 z rozkładu t-Studenta z n−1 stopniami
swobody.
1. Model 1. X1 , . . . , Xn mają rozkład normalny N (µ, σ 2 ),√przy czym
n(X − µ)
wariancja σ 2 jest znana. Wówczas zmienna losowa Z =
σ
ma standardowy rozkład normalny N (0, 1), więc
√
n(X − µ)
Pr −zα/2 ≤
≤ zα/2 = 1 − α.
σ
Wniosek: Przedział ufności dla µ na poziomie ufności 1 − α ma postać
σ
σ
X − √ zα/2 , X + √ zα/2 .
n
n
Dla około około 100(1−α)% prób, tak skonstruowany przedział ufności
będzie zawierał nieznaną średnią µ.
72
Poniższy rysunek ilustruje opisaną wcześniej interpretację przedziałów ufności. Na
podstawie 21 różnych prób, z populacji o rozkładzie normalnym ze znaną wariancją,
wyznaczono 21 przedziałów ufności na poziomie ufności 95% dla nieznanej wartości
oczekiwanej μ tego rozkładu. Dla każdej z tych prób czerwoną kropką oznaczono
odpowiadającą jej średnią próbkową, czyli oszacowanie (wartość estymatora)
parametru μ, a strzałkami zaznaczono początek i koniec przedziału ufności,
skonstruowanego w oparciu o tę próbę. Choć średnia próbkowa oraz początek i
koniec przedziału zmieniają się z próby na próbę, tylko jeden z tych 21 przedziałów
(piąty od góry), czyli około 5% spośród nich, nie zawiera prawdziwej wartości
parametru μ.
2. Model 2. X1 , . . . , Xn mają rozkład normalny N (µ, σ 2 ), ale wariancja
σ 2 nie jest znana, więc nie możemy użyć poprzedniego przedziału.
Pomysł: nieznaną wartość σ szacujemy za pomocą odchylenia standardowego z próby,
√ a do konstrukcji przedziału wykorzystujemy zmienną
n(X − µ)
. Ta zmienna ma rozkład t-Studenta z n − 1
losową T =
S
stopniami swobody (a nie N (0, 1) !), więc
√
n(X − µ)
≤ tn−1,α/2 = 1 − α.
Pr −tn−1,α/2 ≤
S
Wniosek: Przedział ufności dla µ na poziomie ufności 1 − α ma postać
S
S
X − √ tn−1,α/2 , X + √ tn−1,α/2 .
n
n
Uwaga: Musimy zapłacić pewną cenę za nieznajomość σ:
(a) Nie możemy brać kwantyli z rozkładu normalnego;
(b) Estymacja σ wprowadza dodatkową niepewność;
(c) Szerokość przedziału zależy od próby (jest zmienną losową);
(d) Przedziały ufności są szersze niż w przypadku, gdy znamy σ.
Rozkład X1 , . . . , Xn nie jest znany, ale rozmiar
próby n
√
n(X − µ)
ma
jest duży. Z CTG wynika, że zmienna losowa Z =
S
rozkład zbliżony do standardowego rozkładu normalnego N (0, 1).
3. Model 3.
Wniosek: Przedział ufności dla µ na poziomie ufności 1 − α ma postać
S
S
X − √ zα/2 , X + √ zα/2 .
n
n
Przykłady:
1. The ABA (American Bankers Association) survey of community banks
asked about the loan-to-deposit ratio (LTDR), a bank’s total loans as
a percent of its total deposits. The mean LTDR for the 110 banks in
the sample is x = 76.7 and the standard deviation is s = 123. Give a
95% confidence interval for the mean LTDR for community banks.
s
12.3
√ zα/2 = √
1.96 = 2.3 µ ∈ (76.7 − 2.3, 76.7 + 2.3) = (74.4; 79.0).
n
110
Mamy 95% pewności, że ten przedział zawiera LTDR.
74
7.3
Przedziały ufności dla frakcji
Interesuje nas względna częstość (inaczej frakcja) p występowania w populacji
obiektów z pewnej ustalonej klasy.
Przykłady:
1. frakcja mieszkańców Wrocławia mających astygmatyzm,
2. frakcja wadliwych Toyot z rocznika 2008.
Estymatorem nieznanej frakcji p jest frakcja w próbie, zdefiniowana wzorem
pbn =
liczba elementów próby należących do rozpatrywanej klasy
.
n
Można pokazać, że
1. zmienna losowa nb
pn ma rozkład B(n, p),
q
q
pbn (1−b
pn )
pbn (1−b
pn )
2. pbn −
zα/2 , pbn +
zα/2 jest przedziałem ufności dla
n
n
p na poziomie ufności zbliżonym do 1 − α.
Przykłady
1. Spośród 100 losowo wybranych pracowników sieci McDonald’s 68 zgodziło się z tym, że stres w pracy ma negatywny wpływ na ich życie
osobiste. Ponieważ pb = 0.68, 95% przedział ufności dla frakcji p wszystkich pracowników tej sieci, potwierdzających negatywny wpływ stresu
na ich życie osobiste, ma postać
r
0.68 · 0.32
1.96 = [0.589, 0.771].
0.68 ±
100
Mamy 95% pewności, że przedział [0.589, 0.771] zawiera nieznaną frakcję p.
7.4
7.4.1
Przedziały ufności dla różnicy średnich dwóch populacji
Próby niezależne
Przykład: Chcemy porównać
1. średnie płace kobiet i mężczyzn.
2. Średnie ciśnienia tętnicze szczupłych i otyłych.
Model X1 , . . . , Xm i.i.d. z rozkładu o nieznanej wartości oczekiwanej m1 i
wariancji σ12 , Y1 , . . . , Yn i.i.d. z rozkładu o nieznanej wartości oczekiwanej
m2 i wariancji σ22 , przy czym X i Y są niezależne. Chcemy skonstruować
przedział ufności dla m2 − m1 na poziomie ufności 1 − α.
75
1. Model 1. X1 , . . . , Xm mają rozkład normalny N (m1 , σ12 ), Y1 , . . . , Yn
mają rozkład normalny N (m2 , σ22 ), przy czym σ12 , σ22 są znane.
!
r
r
2
2
2
2
σ1 σ2
σ1 σ2
Y − X − zα/2 ·
+ , Y − X + zα/2 ·
+
.
n
m
n
m
2. Model 2: X1 , . . . , Xm mają rozkład normalny N (m1 , σ12 ), Y1 , . . . , Yn
mają rozkład normalny N (m2 , σ22 ), przy czym σ12 , σ22 nie są znane, ale
wiadomo, że σ12 = σ22 .
s
(m − 1)Sx2 + (n − 1)Sy2 1
1
+
Y − X ± tn+m−2 (α/2) ·
m+n−2
m n
3. Model 3: Rozkłady X i Y nie są znane, ale rozmiary obu prób są
duże. Postępujemy jak w Modelu 1., zastępując nieznane wariancje
2
i SY2 .
σ12 i σ22 ich estymatorami SX
7.4.2
Próby zależne
Przykład
1. Ciśnienie tętnicze pacjenta przed i po kuracji odchudzającej.
2. Samopoczucie pacjenta przed i po kuracji.
3. Smak dwóch czekolad.
Model (X1 , Y1 ), . . . , (Xn , Yn ) i.i.d. z rozkładu dwuwymiarowego, którego
składowe X i Y mają o nieznane wartości oczekiwane m1 i m2 przy czym X
i Y nie są niezależne. Chcemy skonstruować przedział ufności dla m2 − m1
na poziomie ufności 1 − α.
Rozwiązanie: Zmienne losowe Z1 = Y1 − X1 , . . . , Zn = Yn − Xn , mają
nieznaną wartość oczekiwaną m = m2 − m1 . Konstruujemy przedział ufności
dla m w oparciu o próbę Z1 , . . . , Zn . Postać przedziału zależy od tego czy
możemy założyć, że Zi mają rozkład normalny, czy też nie.
7.5
Przedziały ufności dla różnicy dwóch frakcji
Przykłady
1. Awaryjność Toyot: Wybieramy dwie próby losowe. Pierwsza pochodzi z populacji Toyot wyprodukowanych w 2007 roku, druga z populacji
aut tej marki wyprodukowanych w 2008 roku. Celem analizy jest zbadanie różnicy p1 − p2 , gdzie
• p1 - frakcja wadliwych Toyot z rocznika 2007,
• p2 frakcja wadliwych Toyot z rocznika 2008.
76
2. Czy mężczyźn mają nadciśnienie częściej niż kobiety? Wybieramy dwie próby losowe o liczebnościach m i n. Pierwsza pochodzi
z populacji mężczyzn, a druga z populacji kobiet. Celem analizy jest
zbadanie p1 − p2 , gdzie
• p1 - frakcja mężczyzn nadciśnieniem,
• p2 - frakcja kobiet z nadciśnieniem.
Model. X1 , . . . , Xm i.i.d. z rozkładu B(1, p1 ) z nieznanym p1 , Y1 , . . . , Yn
i.i.d. z rozkładu B(1, p2 ) z nieznanym p2 , przy czym X i Y niezależne.
Chcemy skonstruować przedział ufności dla p2 − p1 na poziomie ufności
1 − α.
Rozwiązanie: pb1m , pb2n - frakcje z pierwszej i drugiej próby
r
pb1m (1 − pb1m ) pb2n (1 − pb2n )
+
.
pb2n − pb1m ± zα/2 ·
m
n
77
8
Testowanie hipotez
Hipoteza to dowolne stwierdzenie o parametrze charakteryzującym rozkład
cechy w populacji. Prawdziwość tego stwierdzenia chcemy uzasadnić albo
podważyć. Żadna z metod statystycznych nie umożliwia bezbłędnej weryfikacji prawdziwości hipotezy.
Przykłady hipotez:
1. palenie wywołuje raka płuc,
2. sprzedaż w piątek jest większa niż w pozostale dni tygodnia,
3. 60% Polakow popiera program 500+.
Hipoteza dotyczy całej populacji, ale wnioskowanie oparte jest na wynikach
przebadania próby (np. po przebadaniu kilkuset palaczy wyciagamy wnioski
dotyczące wszystkich palaczy).
W problemie testowania hipotez mamy dwie hipotezy: hipotezę zerową
H0 i hipotezę alternatywną H1 . Pierwsza z nich podlega weryfikacji i może
zostać odrzucona na korzyść drugiej.
Przykłady:
1. Spośród 50 studentek i 50 studentów egzamin ze statystyki zdało 30 kobiet i 20 mężczyzn. Czy te wyniki przemawiają przeciwko stwierdzeniu,
że płeć nie ma wpływu na wynik egzaminu?
H0 :
H1 :
płeć zdającego nie ma wpływu na wynik egzaminu,
płeć zdającego ma wpływ na wynik egzaminu.
2. W grupie szczurów wystawionych na działanie nikotyny 40% zachorowało na raka, a w grupie kontrolnej na tę chorobę zapadło 20% szczurów. Czy te wyniki przemawiają przeciwko stwierdzeniu, że nikotyna
nie wywołuje raka płuc?
H0 :
H1 :
nikotyna nie jest czynnikiem rakotwórczym,
nikotyna jest czynnikiem rakotwórczym.
3. W 60 rzutów tą kostką i otrzymano następujące wyniki :
Liczba oczek
Liczba rzutów
1 2 3 4 5 6
10 5 6 19 13 7
Czy te wyniki przemawiają przeciwko stwierdzeniu, że kostka jest symetryczna (tzn. każdy z 6 możliwych wyników pojawia się z prawdopodobieństwem 1/6)? W tym przykładzie hipotezy mają postać:
H0 :
H1 :
kostka jest symetryczna,
kostka jest niesymetryczna.
78
Uwaga: Hipotezie zerowej przypisujemy inną wagę niż hipotezie alternatywnej. Za hipotezę zerową przyjmujemy tę, której prawdziwość poddajemy w
wątpliwość i którą chcemy odrzucić, jeśli tylko znajdziemy do tego podstawę.
Konstrukcja testu
1. Formułujemy hipotezę zerową i alternatywną.
2. Wybieramy pewną statystykę T (X1 , . . . , Xn ), zwaną statystyką testową,
będącą funkcją próby,
3. Wskazujemy tzw. zbiór krytyczny W , zawierający te wartości statystyki T (X1 , . . . , Xn ), które są nietypowe (mało prawdopodobne) ,
gdy prawdziwa jest hipoteza H0 .
4. Reguła decyzyjna: Jeśli zaobserwowana wartość T (x1 , . . . , xn ) należy do zbioru W , to hipotezę zerową H0 odrzucamy na korzyść hipotezy alternatywnej H1 . W przeciwnym razie przyjmujemy hipotezę H0 ,
bo nie ma podstaw do jej odrzucenia.
Uwaga: Nieodrzucenie (tzn. przyjęcie) hipotezy zerowej nie dowodzi jej
prawdziwości, a jedynie wynika z braku podstaw do jej odrzucenia. Podobnie,
odrzucenie tej hipotezy nie oznacza jej fałszywości.
8.1
Błędy pierwszego i drugiego rodzaju
Przy takim sposobie postępowania możemy popełnić dwa rodzaje błędów:
1. błąd pierwszego rodzaju: odrzucamy H0 , mimo że jest ona prawdziwa; Pr(T ∈ W |H0 jest prawdziwa);
2. błąd drugiego rodzaju: przyjmujemy H0 , mimo że jest ona fałszywa;
Pr(T ∈
/ W |H0 jest fałszywa).
Błąd pierwszego rodzaju uważamy za poważniejszy. Tak jak w sądownictwie, gdzie zasada „niewinny, dopóki nie dowiedziono mu winy” oznacza,
ze bardziej chcemy ustrzec się skazania osoby niewinnej (błąd pierwszego
rodzaju), niż uniewinnienia osoby winnej (błąd drugiego rodzaju).
H0 :
H1 :
oskarżony jest niewinny,
oskarżony jest winny.
Poziomem istotności testu nazywamy prawdopodobieństwo popełnienia
błędu pierwszego rodzaju, a mocą testu nazywamy prawdopodobieństwo
odrzucenia fałszywej hipotezy zerowej.
Wybór testu: Ponieważ jednoczesna minimalizacja prawdopodobieństw popełnienia obu rodzajów błędów jest niemożliwa i ponieważ błąd pierwszego
rodzaju jest poważniejszy, więc wybór testu, czyli wybór statystyki T i
zbioru W , przebiega następująco:
79
1. ustalamy pewną małą liczbę α ∈ (0, 1) (np. α = 0.05 albo α = 0.01),
2. spośród wszystkich testów na poziomie istotności α, to znaczy takich,
dla których
Pr(T ∈ W |H0 jest prawdziwa) = α,
wybieramy test mający pewne optymalne własności, np. test jednostajnie najmocniejszy, czyli test, który maksymalizuje moc
Pr(T ∈ W |H0 jest fałszywa).
8.2
Testy dla średniej populacji
Niech X1 , . . . , Xn będzie losową próbą prostą z populacji o nieznanej średniej
µ i skończonej wariancji σ 2 < ∞ i niech µ0 będzie ustaloną liczbą rzeczywistą. Naszym celem jest skonstruowanie testu, na poziomie istotności α, do
zweryfikowania hipotezy zerowej
H0 : µ = µ0 ,
przeciwko jednej z trzech hipotez alternatywnych:
H1 : µ 6= µ0 , (alternatywa dwustronna)
H2 : µ > µ0 , (alternatywa prawostronna)
H3 : µ < µ0 (alternatywa lewostronna)
Uwaga Zbiory krytyczne, odpowiadające tym trzem problemom testowania oznaczymy symbolami W1 , W2 i W3 . Rozważymy trzy modele:
1. Model 1. X1 , . . . , Xn mają rozkład normalny N (µ, σ 2 ), przy czym
wariancja σ 2 jest znana. Jeśli H0 jest prawdziwa, to ta statystyka
√
n(X − µ0 )
.
T (X1 , . . . , Xn ) =
σ
ma standardowy rozkład normalny N (0, 1).
Rozpatrzmy problem testowania H0 vs H2 . Przypuśćmy, że H0 jest
fałszywa i prawdziwą wartością nieznanej średniej µ jest µ1 , przy czym
µ1 > µ0 . Wówczas
√
√
√
n(X − µ0 )
n(X − µ1 )
n(µ1 − µ0 )
T (X1 , . . . , Xn ) =
=
+
σ
σ
σ
Pierwszy składnik ostatniej sumy jest zmienną losową o rozkładzie
N (0, 1), a drugi jest liczbą
dodatnią. Ponadto,
√
statystyka T (X1 , . . . , Xn )
n(µ1 − µ0 )
ma rozkład normalny N
, 1 i najczęściej przyjmuje warσ
√
n(µ1 − µ0 )
tości położone na prawo od zera, w pobliżu punktu
. Duże
σ
wartości statystyki T są więc mało prawdopodobne dla H0 . Co więcej,
takie wartości są bardziej prawdopodobne dla H2 niż dla H0 . Stąd wynika, że H0 odrzucamy na rzecz H2 dla zbyt dużych wartości statystyki
T , tzn. takich, że T > zα . Zbiór krytyczny ma postać W2 = (zα , ∞).
80
Rysunek 38: Gęstości rozkładów statystyki testowej T , gdy
√ µ = µ0 , czyli gdy
H0 jest prawdziwa (niebieska linia) oraz gdy µ = µ0 + σ/ n > µ0 , czyli gdy
H0 jest fałszywa, a prawdziwa jest H2 .
Podobne rozumowanie można przeprowadzić dla pozostałych dwóch
problemów testowania: H0 vs H1 i H0 vs H3
Wniosek: Dla i = 1, 2, 3, hipotezę H0 odrzucamy na rzecz hipotezy
alternatywnej Hi , gdy zaobserwowana wartość statystyki testowej znajdzie się w zbiorze krytycznym Wi , gdzie
• W1 = (−∞, −zα/2 ) ∪ (zα/2 , ∞),
• W2 = (zα , ∞),
• W3 = (−∞, −zα ).
2. Model 2. X1 , . . . , Xn mają rozkład normalny N (µ, σ 2 ), ale wariancja
σ 2 jest nieznana. Jeśli H0 jest prawdziwa to statystyka testowa
√
n(X − µ0 )
.
T (X1 , . . . , Xn ) =
S
ma rozkład t–Studenta z n−1 stopniami swobody. Dla i = 1, 2, 3, hipotezę H0 odrzucamy na rzecz hipotezy alternatywnej Hi , gdy zaobserwowana wartość statystyki testowej T znajdzie się w zbiorze krytycznym
Wi , gdzie
• W1 = (−∞, −tn−1,α/2 ) ∪ (tn−1,α/2 , ∞),
• W2 = (tn−1,α , ∞),
• W3 = (−∞, −tn−1,α ).
3. Model 3. Rozkład X1 , . . . , Xn nie jest znany, ale rozmiar próby n
jest duży. Jeśli H0 jest prawdziwa to statystyka testowa
√
n(X − µ0 )
.
T (X1 , . . . , Xn ) =
S
ma rozkład zbliżony do standardowego rozkładu normalnego N (0, 1).
Dla i = 1, 2, 3, hipotezę H0 odrzucamy na rzecz hipotezy
alternatywnej
√
n(x − µ0 )
Hi , gdy zaobserwowana wartość T (x1 , . . . , xn ) =
statystyki
s
81
testowej znajdzie się w zbiorze krytycznym Wi . Zbiory te są takie same
jak w Modelu 1.
Przykład: Pewien automat w fabryce czekolady wytwarza tabliczki
czekolady o nominalnej wadze 250 g. Wiadomo, że rozkład wagi produkowanych tabliczek jest normalny N (µ, 52 ). Kontrola techniczna pobrała w pewnym dniu próbę losową 16 tabliczek czekolady i otrzymała
średnią wagę 247,5 g. Czy można stwierdzić, że automat rozregulował
się i produkuje tabliczki czekolady o mniejszej niż przewiduje norma
wadze? Na poziomie istotności α = 0.05 zweryfikuj odpowiednią hipotezę.
Rozwiązanie: Oczywiście, H0 : µ = 250. Za hipotezę alternatywną
najlepiej przyjąć H3 : µ < 250, bo chcemy wykazać, że tabliczki czekolady ważą mniej niż podaje producent (z tego punktu widzenia,
H1 : µ 6= 250 jest mniej sensowna, a H2 : µ > 250 jest absurdalna). Ponieważ próba pochodzi z rozkładu normalnego o znanej wariancji, wybieramy Model 1. Zbiór krytyczny ma postać W3 = (−∞, −z0.05 ) =
(−∞, −1.65). H0 odrzucamy na rzecz H3 , gdyż
√
√
n(x − µ0 )
16(247.5 − 250)
=
= −2 ∈ W3 .
T (x1 , . . . , xn ) =
σ
5
8.3
p-wartość
Opisany powyżej sposób weryfikowania hipotez statystycznych sprowadza się
do tego, że dla zadanego poziomu istotności α stwierdzamy jedynie czy H0
należy odrzucić, czy też nie. Nic nie mówimy za to o tym, jak nietypowa
przy H0 jest zaobserwowana wartość statystyki testowej. W przykładzie z
tabliczkami czekolady, odrzucamy H0 na poziomie istotności α = 0.05. Jeśli
jednak przyjmiemy, że α = 0.01, to nie będzie podstaw do odrzucenia H0 ,
gdyż wtedy W3 = (−∞, −z0.01 ) = (−∞, −2.33). Dlatego też, sensowniejsze
wydaje się wnioskowanie na podstawie wskaźnika zwanego p-wartością (pvalue).
Rozpatrzmy problem testowania, w którym H0 odrzucamy dla dużych
wartości statystyki testowej T . Niech t = T (x1 , . . . , xn ) będzie zaobserwowaną wartością statystyki testowej T , odpowiadającą próbie x1 , . . . , xn .
Wówczas p-wartość jest prawdopodobieństwem tego, że przy prawdziwości
H0 (!), T przyjmie wartość co najmniej taką jak t, tzn.
p-wartość = Pr(T ≥ t|H0 ).
Analogicznie, jeśli H0 odrzucamy dla małych wartości statystyki T , to
p-wartość = Pr(T ≤ t|H0 ).
Przykład (tabliczki czekolady, ciąg dalszy):. Dla H0 statystyka testowa T
ma rozkład N (0, 1), a H0 odrzucamy na rzecz H3 dla zbyt małych wartości
T . Ponieważ T przyjęło wartość t = −2,
p-wartość = Pr(T ≤ −2|H0 ) = Φ(−2) = 1 − Φ(2) = 1 − 0.9772 = 0.0228.
Jak wnioskujemy za pomocą p-wartości?
82
1. p-value < 0.01: bardzo mocne przesłanki do odrzucenia H0 ,
2. p-value ∈ [0.01, 0.05): mocne przesłanki do odrzucenia H0 ,
3. p-value ∈ [0.05, 0.1): słabe przesłanki do odrzucenia H0 ,
4. p-value ≥ 0.1: brak przesłanek do odrzucenia H0 .
Uwagi:
1. Duża wartość p-value nie jest silną przesłanką do przyjęcia H0 , bo
może ona się pojawić z dwóch powodów:
(a) H0 jest prawdziwa,
(b) H0 jest fałszywa, ale test ma małą moc.
2. p-value nie jest prawdopodobieństwem, że H0 jest prawdziwa.
3. p-value to najmniejszy poziom istotności, przy którym odrzucimy H0 .
4. Jeśli p-value ≤ α, mówimy, że dane są statystycznie istotne na poziomie istotności α, więc H0 należy odrzucić na tym poziomie istotności.
5. Jeśli p-value > α, to dane nie są statystycznie istotne, więc nie ma
podstaw do odrzucenia H0 na poziomie istotności α.
9
Problem dwóch prób:
Na dwóch grupach osób o liczebnościach m i n porównujemy skuteczność
dwóch terapii A i B, chcąc wykazać, że B działa lepiej niż A. Niech X i Y
oznaczają reakcję na działanie terapii A i B, odpowiednio. Im X (Y ) większe
tym terapia A (B) zadziałała lepiej. Na podstawie dwóch niezależnych prób
losowych X1 , . . . , Xm i Y1 , . . . , Yn chcemy zweryfikować:
H0 :
H1 :
terapie A i B działają tak samo,
terapia B działa lepiej niż A.
(1)
Postać testu na poziomie istotności α zależy od tego, co wiemy o dystrybuantach F i G.
1. Model 1. X1 , . . . , Xn mają rozkład normalny N (µ1 , σ12 ), Y1 , . . . , Ym
mają rozkład normalny N (µ2 , σ22 ) przy czym wariancje σ12 i σ22 są znane.
Przy takich założeniach problem testowania (1) sprowadza się do weryfikacji
H0 : µ2 = µ1 (terapie A i B działają tak samo),
H1 : µ2 > µ1 (terapia B działa lepiej niż A).
Jeśli H0 jest prawdziwa, to statystyka testowa
Y −X
Z=r
.
σ12 σ22
+
n
m
83
ma standardowy rozkład normalny N (0, 1), którego średnia jest
zero. Wartości Z znacznie różniące się od 0 są nietypowe dla H0 . Co
więcej, duże wartości statystyki Z są bardziej prawdopodobne dla H1
niż dla H0 .
Wniosek: Hipotezę H0 odrzucamy na rzecz hipotezy H1 , gdy statystyka Z przyjmie wartość z znacznie większą od 0.
(a) Zbiór krytyczny: W = (zα , ∞);
(b) p-value: Pr(Z ≥ z|H0 ) = 1 − Φ(z).
2. Model 2. X1 , . . . , Xn mają rozkład normalny N (µ1 , σ12 ), Y1 , . . . , Ym
mają rozkład normalny N (µ2 , σ22 ), przy czym wariancje σ12 i σ22 nie są
znane, ale wiadomo, że σ12 = σ22 . Przy takich założeniach problem
testowania (1) ponownie sprowadza się do weryfikacji
H0 : µ2 = µ1 (terapie A i B działają tak samo),
H1 : µ2 > µ1 (terapia B działa lepiej niż A).
Jeśli H0 jest prawdziwa, to statystyka testowa
T =r
Y −X
(n −
2
1)SX
+ (m − 1)SY2
n+m−2
r
1
1
+
n m
.
ma rozkład t–Studenta z (n + m − 2) stopniami swobody, którego
średnią jest zero. Wartości T znacznie różniące się od 0 są nietypowe
dla H0 . Co więcej, duże wartości T są bardziej prawdopodobne dla H1
niż dla H0 .
Wniosek: Test t–Studenta odrzuca hipotezę H0 odrzucamy na rzecz
hipotezy H1 , gdy statystyka T przyjmie wartość t znacznie większą od
0.
(a) Zbiór krytyczny: W = (tn+m−2,α , ∞),
(b) p-value: Pr(T ≥ t|H0 ).
3. Model 3. X1 , . . . , Xn i Y1 , . . . , Ym mają nieznane rozkłady, ale n i m
są duże, tzn. min(m, n) ≥ 30.
Postępujemy jak w Modelu 1. podstawiając s2X i s2Y za nieznane wartości σ12 i σ22 .
4. Model 4. X1 , . . . , Xn i Y1 , . . . , Ym mają nieznane rozkłady, n i m nie
muszą być duże.
Gdy tak mało wiemy o dystrybuantach F i G, a rozmiary prób nie są
duże, to stosujemy któryś z testów nieparametrycznych. W tym problemie najczęściej wykorzystywanym testem nieparametrycznym jest
test Wilcoxona dla dwóch prób. Aby go opisać musimy wprowadzić pojęcie rangi.
84
Definicja 36. Ranga obserwacji ak w dowolnej próbie a1 , . . . , an to
liczba tych obserwacji w tej próbie, które są mniejsze lub równe ak
def
rk = #{j : aj ≤ ak }.
Aby nadać rangi obserwacjom a1 , . . . , an , najpierw ustawiamy je w kolejności od najmniejszej do największej (tworzymy statystystyki porządkowe). Ranga każdej obserwacji to numer miejsca, który zajmuje ona w
tym uporządkowanym ciągu. Najmniejsza z obserwacji ma więc rangę
1, a największa rangę n.
Dla i = 1, . . . , n, niech si oznacza rangę obserwacji yi w połączonej
próbie x1 , . . . , xm , y1 , . . . , yn . Można pokazać, że jeśli hipoteza H0 jest
prawdziwa, to statystyka
W =
n
X
Si
i=1
ma rozkład o średniej i wariancji
µW =
n(n + m + 1)
,
2
2
σW
=
mn(n + m + 1)
.
12
Wartości W znacznie różniące się od µW są nietypowe dla H0 . Co
więcej, duże wartości W są znacznie bardziej prawdopodobne dla H1
niż dla H0 . Jeśli bowiem kuracja B jest lepsza od kuracji A, to rangi
s1 , . . . , sn przyjmują duże wartości, bo y1 , . . . , yn mają tendencję do
przyjmowania większych wartości od x1 , . . . , xm .
Wniosek: Test Wilcoxona odrzuca H0 na rzecz H1 , gdy W przyjmie
wartość w znacznie większą od µW .
(a) Test dokładny: dla małych n, m rozkład W dla H0 został stablicowany, więc można z tablic odczytać
p-value = Pr(W ≥ w|H0 ).
Odrzucamy H0 , gdy p-value ≤ α.
(b) Test asymptotyczny: Można pokazać, że dla dużych m, n statystyka testowa
W − 21 n(n + m + 1)
p
mn(n + m + 1)/12
ma rozkład zbliżony do N (0, 1), więc H0 odrzucamy, gdy jej wartość przekroczy zα .
Uwaga: Test Wilcoxona działa najlepiej, gdy dystrybuanty F i G różnią się jedynie parametrem przesunięcia. Wówczas istnieje (nieznana!)
85
liczba θ, taka że G(x) = F (x − θ), x ∈ R. Gdy θ > 0 to Y ma tendencję do przyjmowania większych wartości niż X, co oznacza, że B jest
lepsza niż A. Przy takim modelu problem testowania przybiera postać:
H0 : θ = 0 (terapie A i B działają tak samo),
H1 : θ > 0 (terapia B działa lepiej niż A).
Jeśli jednak dystrybuanty F i G różnią się parametrem skali i dla pewnego nieznanego c ∈ R zachodzi równość G(x) = F (cx), x ∈ R, to test
Wilcoxona może mieć małą moc i nie wykrywać tego, że c 6= 1.
Przykład: Czy chwasty zmniejszają plony kukurydzy? Spośród 8 poletek
obsianych kukurydzą wybrano losowo 4 i całkowicie je wyplewiono. Pozostałych 4 poletka częściowo wyplewiono, pozostawiając po 3 chwasty na m2
powierzchni. W poniższej tabelce przedstawiono informacje o uzyskanych
zbiorach:
Liczba chwastów na m2
0
3
plony (w buszlach na akr)
166.7 172.2 165.0 176.9
158.6 176.4 153.1 156.0
Na poziomie istotności α = 0.05 chcemy zweryfikować
H0 : plony z poletek wyplewionych są takie same jak z zachwaszczonych,
H1 : plony z poletek wyplewionych są wyższe niż z zachwaszczonych .
1. Test Wilcoxona: aby obliczyć wartość statystyki testowej porządkujemy wartości próby rosnąco i przydzielamy im rangi. Wartości odpowiadające drugiej próbie (bez chwastów) zostały zaznaczone pogrubioną czcionką.
plon
ranga
153.1 156.0 158.6 165.0
1
2
3
4
166.7 172.2
5
6
176.4 176.9
7
8
Dla tej próby, statystyka Wilcoxona W przyjmuje wartość w = 4 + 5 +
6 + 8 = 23, nieco przekraczającą wartość oczekiwaną tej stastystyki,
która przy H0 jest równa
µW =
n(n + m + 1)
4(4 + 4 + 1)
=
= 18.
2
2
Z tablic odczytujemy p-wartość testu, odpowiadającą zaobserwowanej
wartości w = 23
p-value = Pr(W ≥ 23|H0 ) = 0.10 > 0.05.
Wniosek: Na poziomie istotności α = 0.05 nie ma podstaw do odrzucenia H0 .
86
2. Test t-Studenta: Ponieważ n = m = 4, x = 161.025, y = 170.200,
sx = 10.493 i sy = 5.422, statystyka testowa T przyjmuje wartość
t = r
= r
y−x
r
(n − 1)s2X + (m − 1)s2Y 1
1
+
n+m−2
n m
170.200 − 161.025
(4 − 1)(10.493)2 + (4 − 1)(5.422)2
4+4−2
r
1 1
+
4 4
= 1.554.
Z tablic rozkładu t-Studenta z 4 + 4 − 2 = 6 stopniami swobody odczytujemy p-wartość testu, odpowiadającą zaobserwowanej wartości
t = 1.554 statystyki testowej
p-value = Pr(T ≥ 1.554|H0 ) = 0.077 > 0.05.
Wniosek: Na poziomie istotności α = 0.05 nie ma podstaw do odrzucenia H0 .
Uwaga: Ten test stosujemy jedynie wtedy, gdy możemy założyć, iż
obie próby pochodzą z populacji o rozkładach normalnych z tą samą
wariancją.
10
Problem dwóch prób powiązanych
Na tej samej grupie n osób porównujemy skuteczność dwóch terapii A i B,
chcąc wykazać, że B działa lepiej niż A. Niech X i Y oznaczają reakcję na
działanie terapii A i B, odpowiednio. Im X (Y ) większe tym terapia A (B)
zadziałała lepiej. Na podstawie próby prostej losowej (X1 , Y1 ), . . . , (Xn , Yn )
chcemy zweryfikować:
H0 :
H1 :
terapie A i B działają tak samo,
terapia B działa lepiej niż A.
(2)
Uwaga: Ten model ostotnie różni się od poprzedniego, bo nie możemy założyć, iż próby X1 , . . . , Xn i Y1 , . . . , Yn są niezależne (mierzymy reakcje tego
samego pacjenta, ta sama osoba ocenia smaki dwóch czekolad, itp.).
Fakt: Jeśli H0 jest prawdziwa, to zmienna Zi = Yi − Xi ma ten sam rozkład
co zmienna −Zi = Xi − Yi . W takim wypadku rozkład Zi jest symetryczny
względem 0, a jego medianą i średnią jest 0. Jeśli natomiast prawdziwa
jest hipoteza alternatywna H1 , to Y ma tendencje do przyjmowania wartości
większych niż X. To oznacza, że Z = Y − X częściej przyjmuje wartości
dodatnie, więc mediana i średnia rozkładu zmiennej losowej Z jest dodatnia.
Postać testu na poziomie istotności α zależy od tego, co wiemy o rozkładzie
zmiennej losowej Z = Y − X.
1. Model 1. Z1 , . . . , Zn mają rozkład normalny N (µ, σ 2 ).
87
Przy takich założeniach problem testowania (2) ponownie sprowadza
się do weryfikacji
H0 : µ = 0 (terapie A i B działają tak samo),
H1 : µ > 0 (terapia B działa lepiej niż A).
(a) jeśli wariancja σ 2 jest znana, to stosujemy opisany poprzednio test
dla średniej rozkładu normalnego przy znanej wariancji;
(b) jeśli wariancja σ 2 nie jest znana, to stosujemy opisany poprzednio
test t-Sudenta dla średniej rozkładu normalnego przy nieznanej
wariancji;
2. Model 2. Z1 , . . . , Zn mają nieznany rozkład, ale n jest duże (n ≥
30). W takim wypadku stosujemy opisany poprzednio test dla średniej
nieznanego rozkładu przy dużym rozmiarze próby.
3. Model 3. Z1 , . . . , Zn mają nieznany rozkład ciągły, a rozmiar próby
n nie musi być duży. W takim wypadku stosujemy któryś z testów
nieparametrycznych. Jednym z nich jest test znaków. Aby opisać
to podejście musimy zdefiniować dwie zmienne losowe N+ i N− , które
zliczają liczbę dodatnich i ujemnych wartości w próbie:
N+ = #{j : Zj > 0},
N− = #{j : Zj < 0}.
(a) Jeśli H0 jest prawdziwa, to N+ ma rozkład dwumianowy B(n, 1/2)
(bo Pr(Zj > 0|H0 ) = 1/2) i najczęściej przyjmuje wartości bliskie
n/2. N− też ma taki rozkład.
(b) Zbyt duże lub zbyt małe wartości N+ są nietypowe dla H0 . Co
więcej, duże wartości N+ są znacznie bardziej prawdopodobne dla
H1 niż dla H0 .
Wniosek: Test znaków odrzuca H0 na rzecz H1 , gdy statystyka N+
przyjmie wartość n+ znacznie większą n/2. Dwie wersje testu:
(a) Test dokładny: Wykorzystując tablice rozkładu dwumianowego
(albo przeprowadzając odpowiednie rachunki), wyznaczamy
n n
X
n
1
p-value = Pr(N+ ≥ n+ |H0 ) =
2
k
k=n
+
i odrzucamy H0 , gdy p-value ≤ α.
(b) Test asymptotyczny: Można pokazać, że dla dużych n statystyka testowa
√
N+ − n 12
N+ 1
T = q
=2 n
−
n
2
n 12 21
ma rozkład zbliżony do N (0, 1), więc H0 odrzucamy, gdy T przekroczy wartość zα .
88
Uwaga: Jeśli w teście znaków zrezygnujemy z założenia, że Z1 , . . . , Zn
mają nieznany rozkład ciągły, to w próbie z1 , . . . , zn mogą pojawić się
wartości zerowe. W takim wypadku, za n przyjmujemy liczbę niezerowych wartości w tej próbie.
4. Model 4. Z1 , . . . , Zn mają nieznany rozkład ciągły, który jest symetryczny względem (nieznanej) mediany, a n nie musi byc duże.
Przy tym dodatkowym założeniu o symetrii możemy użyć innego testu
nieparametrycznego jakim jest test rangowanych znaków Wilcoxona.
Dla i = 1, . . . , n, niech ri oznacza rangę obserwacji |zi | w próbie |z1 |, . . . , |zn |.
Można pokazać, że jeśli hipoteza H0 jest prawdziwa, to statystyka W + ,
równa sumie tych rang ri , dla których zi > 0, tzn.
X
Ri ,
W+ =
{i:ZI >0}
ma rozkład o średniej i wariancji
µW + =
n(n + 1)
,
4
2
σW
+ =
n(n + 1)(2n + 1
.
24
Wartości W + znacznie różniące się od µW + są nietypowe dla H0 . Co
więcej, z tych samych powodów co przy teście znaków, duże wartości
W + są znacznie bardziej prawdopodobne dla H1 niż dla H0 .
Wniosek: Test rangowanych znaków Wilcoxona odrzuca H0 na rzecz
H1 , gdy W + przyjmie wartość w+ znacznie większą od µW + . Dwie
wersje testu:
(a) Test dokładny: dla małych n rozkład W + dla H0 został stablicowany, więc można z tablic odczytać
p-value = Pr(W + ≥ w+ |H0 ).
Odrzucamy H0 , gdy p-value ≤ α.
(b) Test asymptotyczny: Można pokazać, że dla dużych n statystyka testowa
W + − 14 n(n + 1)
p
n(n + 1)(2n + 1)/24
ma rozkład zbliżony do N (0, 1), więc H0 odrzucamy, gdy jej wartość przekroczy zα .
Przykład: Dzieciom w przedszkolu przeczytano jedną historyjkę, a potem
przeczytano drugą, ilustrując ją także obrazkami. Następnie każde z pięciorga
losowo wybranych dzieci opowiedziało obie historyjki, a ich sposób wypowiadania się został oceniony przez eksperta. Wyniki tych badań przedstawiono
w poniższej tabelce.
89
dziecko
opowiadanie 2
opowiadanie 1
różnica
1
0.77
0.40
0.37
2
3
4
5
0.49 0.66
0.28
0.38
0.72 0.00
0.36
0.55
−0.23 0.66 −0.08 −0.17
Na poziomie istotności α = 0.05 chcemy zweryfikować
H0 : ilustracje nie wpływają na sposób w jaki dzieci powtarzają zasłyszane historyjki,
H1 : ilustracje poprawiają sposób w jaki dzieci powtarzają zasłyszane historyjki.
1. Test znaków: n = 5, n+ = 2
p-value = Pr(N+ ≥ n+ |H0 ) =
5 5
X
5
1
k=2
k
2
=
26
> 0.05
32
Wniosek: Na poziomie istotności α = 0.05 nie ma podstaw do odrzucenia H0 .
2. Test rangowanych znaków Wilcoxona: Najpierw obliczamy moduły z różnic. Są one równe 0.37, 0.23, 0.66, 0.08, 0.17. Pogrubioną
czcionką zaznaczyliśmy te, które odpowiadają dodatnim różnicom. Następnie ustawiamy te wartości od najmniejszej do największej i przydzielamy im rangi:
moduł z obserwacji
ranga
0.08 0.17 0.23 0.37
1
2
3
4
0.66
5
Dla tej próby statystyka W + ma wartość w+ = 4 + 5 = 9, niewiele
różniącą się od wartości oczekiwanej tej stastystyki, która przy H0 jest
równa
µW + =
(5)(6)
n(n + 1)
=
= 7.5,
4
4
2
σW
+ =
n(n + 1)(2n + 1
.
24
Z tablic odczytujemy p-wartość testu, odpowiadającą zaobserwowanej
wartości w+ = 9
p-value = Pr(W + ≥ 9|H0 ) = 0.4062 > 0.05.
Wniosek: Na poziomie istotności α = 0.05 nie ma podstaw do odrzucenia H0 .
90
11
Model regresji liniowej prostej
Chcemy ustalić wpływ jednej zmiennej objaśniającej X na zmienną objaśnianą Y :
1. wpływ wagi ciała (zmienna objaśniająca X) na ciśnienie tętnicze (zmienna
objaśniana Y ).
2. wpływ nakładów na reklamę (zmienna objaśniające X) na wartość
sprzedaży (zmienna objaśniana Y ).
3. wpływ wzrostu ojca (zmienna objaśniające X) na wzrost jego dorosłego
dziecka (zmienna objaśniana Y ).
Model statystyczny, opisujący tę zależność, tworzymy na podstawie danych, znając wyniki n pomiarów wartości zmiennej objaśnianej x i odpowiadających im n pomiarów zmiennej objaśniającej y, czyli na podstawie
ustalonych wartości: (x1 , y1 ), . . . , (xn , yn ).
Konstrukcję modelu zaczynamy od wykonania wykresu rozproszenia (scatterplot), umieszczając na płaszczyźnie x0y punkty (x1 , y1 ), . . . , (xn , yn ). Za
pomocą tych rysunków chcemy sprawdzić, czy między zmiennymi Y i X
istnieje zależność monotoniczna
1. dodatnia zależność: większym wartościom x towarzyszą zazwyczaj
większe wartości y, a mniejszym wartościom x odpowiadają mniejsze
wartości y.
2. ujemna zależność: większym wartościom x towarzyszą zazwyczaj
mniejsze wartości y, a mniejszym wartościom x odpowiadają większe
wartości y.
Rysunek 39: Brak zależności monotonicznej
91
Rysunek 40: Dodatnia zależność
Rysunek 41: Ujemna zależność
Najbardziej interesuje nas sytuacja, w której chmura punktów (x1 , y1 ), . . . , (xn , yn )
układa się wzdłuż linii prostej. Mówimy wówczas o zależności liniowej między
zmiennymi X a Y . Ta zależność może być oczywiście dodatnia albo ujemna.
11.1
Model regresji liniowej
Przypuśćmy, że wykres rozproszenia dla próby (x1 , y1 ), . . . , (xn , yn ) wskazuje
na wyraźną liniową zależność między zmiennymi x i y. Wówczas przyjmujemy, że dane pasują do modelu regresji liniowej. To stwierdzenie
oznacza, że istnieją współczynniki β0 , β1 , takie że zależność między zmienną
objaśnianą Y a zmienną objaśniającą X ma postać:
Y = β0 + β1 X + ε.
Pojawiający się w tym równania składnik ε jest błędem losowym, odzwieciedlającym wpływ na zmienną objaśnianą Y czynników losowych, których
wartości nie znamy. Jeśli ostatnie równanie jest prawdziwe, to zaobserwowane przez nas wartości y1 , . . . , yn , odpowiadające znanym wartościom
92
Rysunek 42: Zależność liniowa (dodatnia)
x1 , . . . , xn zmiennej objaśniającej X, spełniają układ równań
y1 = β0 + β1 x1 + ε1
y2 = β0 + β1 x2 + ε2
..
..
.
.
yn = β0 + β1 xn + εn
O błędach ε1 , . . . , εn , zakłócających pomiary zmiennej objaśnianej Y , zakładamy zazwyczaj, że są one niezależnymi zmiennymi losowymi o tym samym
rozkładzie normalnym ze średnią zero i z nieznaną wariancją σ 2 .
11.2
Metoda najmniejszych kwadratów
Jeśli spełniony jest model regresji liniowej, to pozostaje dobrać współczynniki
β0 , β1 w taki sposób, by prosta y = β0 + β1 x adekwatnie reprezentowała
chmurę punktów (x1 , y1 ), . . . , (xn , yn ).
Zauważmy, że dla ustalonych β0 , β1 , ybi = β0 + β1 xi można interpretować jako wartość zmiennej objaśnianej Y przewidywaną przez model dla
wartości zmiennej objaśniającej X równej xi . Błąd tego oszacowania, czyli
wartość resztowa, inaczej zwana rezyduum, wynosi yi − ybi . Chcielibyśmy
tak dobrać β0 , β1 , by wartości rezyduów były jak najmniejsze dla wszystkich
i = 1, . . . , n. To jednak nie jest możliwe, bo zmniejszenie pewnego rezyduum sprawia, że jakieś inne staje się większe. Za wskaźnik rozproszenia,
którego wartość będziemy minimalizować, możemy przyjąć sumę kwadratów
wszystkich rezyduów:
S(β0 , β1 ) =
n
X
[yi − (β0 + β1 xi )]2
i=1
Metoda ta pochodzi od Legendre’a, choć za jej autora uważał się także Gauss.
Nosi ona nazwę metody najmniejszych kwadratów.
Definicja 37. Prostą regresji, opartą na metodzie najmniejszych kwadratów,
nazywamy prostą y = βb0 + βb1 x, dla której funkcja S(β0 , β1 ) osiąga wartość
93
najmniejszą względem β0 , β1 , tzn.
n
X
i=1
[yi − (βb0 + βb1 xi )]2 =
min
(β0 ,β1 )∈R2
n
X
[yi − (β0 + β1 xi )]2
i=1
Tak wyznaczoną prostą regresji nazywamy prostą MNK. Można pokazać, że
estymatory MNK βb0 , βb1 nieznanych współczynników β0 , β1 mają postać
X
(xi − x)(yi − y)
P
βb1 =
, βb0 = y − βb1 x.
(3)
(xi − x)2
Na poniższym wykresie rozproszenia, powstałym w oparciu o pewną próbę
rozmiaru n = 50, umieszczono również prostą regresji y = 0.94753+1.00378x,
odpowiadającą tej próbie.
Rysunek 43: Prosta regresji
Ponieważ obliczenie wartości współczynników βb0 , βb1 ze wzorów (3) jest
żmudne rachunkowo, analizę regresji przeprowadza się za pomocą któregoś z
pakietów statystycznych. Do przebadania danych odpowiadających ostatniemu rysunkowi można wykorzystać funkcję LinearModelFit z programu
Mathematica, dostępną także w pakiecie Wolfram Alpha. Poniższa tabelka
przedstawia wyniki analizy przeprowadzonej za pomocą tej procedury.
β0
β1
Estymator Błąd standardowy wartość stat. testowej
p-wartość
0.94753
0.11176
8.47818
4.21124 · 10−11
1.00378
0.03640
27.57650
4.34258 · 10−31
Trzeci wiersz tej tabelki zawiera następujące wielkości:
1. βb1 - wartość estymatora MNK parametru β1 .
q
2. SEβ1 - błąd standardowy, czyli SEβ21 ; SEβ21 jest nieobciążonym estymatorem wariancji Var(βb1 ), mierzącej rozproszenie βb1 wokół β1 .
βb1
, służącej do weryfikowana hiSEβ1
potezy H0 : β1 = 0 vs H1 : β1 6= 0. Odrzucenie H0 oznacza, że model
jest sensowny i zmienna X ma liniowy wpływ na zmienną Y .
3. wartość t statystyki testowej T =
94
4. Pr(|T | ≥ |t||H0 ) = 2 Pr(T ≥ |t||H0 ) czyli p-wartość powyższego testu.
Ponieważ dla tych danych p-wartość jest bardzo mała (p-wartość= 4.34258 ·
10−31 ), hipotezę zerową należy odrzucić na korzyść hipotezy H1 , która stwierdza, że X ma liniowy wpływ na Y . Dokładniejsze omówienie pojawiających
się tu statystyk SEβ0 , SEβ1 oraz T znajduje się w jednym z kolejnych rozdziałów.
11.3
Prognoza
Prosta regresji, estymowana za pomocą MNK, ma postać
y = βb0 + βb1 x.
Tę prostą możemy wykorzystać do prognozowania jaka będzie wartość
zmiennej objaśnianej y, gdy zmienna objaśniająca X przyjmie wartość x
yb(x) = βb0 + βb1 x.
yb(x) to wartość przewidywana zmiennej objaśnianej na podstawie prostej
MNK dla wartości zmiennej objaśnianej równej x.
Przykład: Dla danych, których wykres rozproszenia przedstawiono na ostatnim rysunku, prosta regesji ma postać y = 0.94753+1.00378x. Model przewiduje więc, że gdy zmienna objaśniająca przyjmie jakąś wartość x0 , powiedzmy
x0 = 1, to zmienna objaśniana Y przyjmie wartość y = 0.94753+1.00378x0 =
0.94753 + 1.00378 · 1.
11.4
Test i przedziały ufności dla współczynników regresji
Fakt: Można pokazać, że każda ze statystyk
t-Studenta z n − 2 stopniami swobody.
βb0 − β0 βb1 − β1
i
ma rozkład
SEβ0
SEβ1
Powyższy rezultat wykorzystuje się do konstrukcji testów i przedziałów ufności dla współczynników regresji β0 i β1 .
1. Test dla β1 : Jeśli hipoteza H0 : β1 = 0 jest prawdziwa, to zmienna
βb1
losowa T =
ma rozkład t-Studenta z n−2 stopniami swobody, co
SEβ1
wynika z powyższego faktu. Wartości tej statystyki znacznie różniące
się od zera są więc nietypowe dla H0 , a p-wartość testu H0 , odpowiadająca wartości t przyjętej przez T , ma postać:
(a) Pr(T ≥ t|H0 ) dla alternatywy H1 : β1 > 0;
(b) Pr(T ≤ t|H0 ) dla alternatywy H1 : β1 < 0;
(c) Pr(|T | ≥ |t||H0 ) dla alternatywy H1 : β1 6= 0;
95
2. Przedział ufności dla β1 : Z powyższego faktu wynika, że przedział
ufności dla β1 na poziomie ufności 1 − α ma postać:
(βb1 − tn−2,α · SEβ1 , βb1 + tn−2,α · SEβ1 ).
Analogicznie konstruuje się testy i przedziały ufności dla β0 .
11.5
11.5.1
Dodatki:
Estymacja wariancji σ 2
Nie mniej ważne od szacowania (β0 , β1 ) jest znalezienie sensownego estymatora trzeciego z nieznanych parametrów, czyli wariancji błędów σ 2 .
Intuicje: Rezydua yi − ybi będąc odchyłkami obserwacji yi od nieznanej wartości prostej regresji MNK są empirycznymi odpowiednikami odchyłek obserwacji yi od prostej regresji (a te są równe εi ). Zatem wariancja rezyduów
w próbie powinna być naturalnym oszacowaniem wariancji σ 2
Twierdzenie 10. Nieobciążonym* estymatorem wariancji σ 2 jest
Pn
(yi − ybi )2
SSE
2
= i=1
.
σ
b =
n−2
n−2
Nieobciążoność estymatora σ
b2 parametru σ 2 oznacza, że E(b
σ2) = σ2.
2
2
Innymi słowy, wprawdzie σ
b rzadko jest równe σ i zmienia się z próby na
próbę, ale średnia wartość σ
b2 jest równa σ 2 .
11.5.2
Własności estymatorów MNK
Twierdzenie 11. Zmienne losowe βb0 and βb1 są nieobciążonymi estymatorami parametrów β0 i β1 , a ich wariancje są równe
2
1
x
σ2
2
b
b
P
P
Var(β0 ) = σ
+ n
, Var(β1 ) = n
,
2
2
n
i=1 (xi − x)
i=1 (xi − x)
Ponieważ parametr σ 2 nie jest znany, nie są również znane wariancje
Var(βb0 ) i Var(βb1 ). Dlatego też, konstruując testy i przedziały ufności dla β0
i β1 , używamy nieobciążonych estymatorów obu tych wielkości.
Twierdzenie 12. Nieobciążonymi estymatorami Var(βb0 ) i Var(βb1 ) są
1
x2
σ
b2
2
2
2
P
b
+ Pn
,
SE
=
.
SEβ0 = σ
n
β1
2
2
n
i=1 (xi − x)
i=1 (xi − x)
12
Model regresji liniowej wielokrotnej
Chcemy ustalić wpływ p zmiennych objaśniających X1 , . . . , Xp na zmienną
objaśnianą Y :
1. wpływ wzrostu matki i wzrostu ojca (zmienne objaśniające X1 i X2 )
na wzrost ich dziecka (zmienna objaśniana Y ).
96
2. wpływ nakładów na reklamę telewizyjną, reklamę radiową i bilboardy
(zmienne objaśniające X1 , X2 i X3 ) na wartość sprzedaży (zmienna
objaśniana Y ).
Model statystyczny, opisujący tę zależność, tworzymy na podstawie danych,
znając wyniki n pomiarów wartości zmiennej objaśnianej i odpowiadających
im n pomiarów zmiennych objaśniających
y1
y2
..
.
yn
x11 x12 . . . x1p
x21 x22 . . . x2p
..
..
..
..
.
.
.
.
xn1 xn2 . . . xnp
Jeśli po przenalizowaniu wykresów rozproszenia dla par (Y, X1 ), . . . , (Y, Xp ),
zauważymy, że niektóre ze zmiennych objaśniających mogą mieć liniowy
wpływ na zmienną objaśnianą, to możemy założyć, że dane pasują do modelu regresji liniowej. Oznacza to, że istnieją współczynniki β0 , . . . , βp−1 ,
takie że zależność między zmienną objaśnianą Y a zmiennymi objaśniającymi
X1 , . . . , Xp ma postać:
Y = β0 + β1 X1 + . . . βp Xp + ε,
Wówczas zależność między obserwowanymi wartościami y1 , . . . , yn zmiennej Y a wartościami zmiennych objaśniających ma postać:
y1 = β0 + β1 x11 + . . . βp x1p + ε1
y2 = β0 + β1 x21 + . . . βp x2p + ε2
..
..
.
.
yn = β1 + β1 xn1 + . . . βp xnp + εn
Założenia o błędach ε i ε1 , . . . , εn są takie same jak w modelu regresji liniowej
z jedną zmienna objaśniającą. Estymacja nieznanych parametrów modelu
β0 , . . . , βp i σ 2 przebiega podobnie jak poprzednio.
1. Nieobciążonymi estymatorami współczynników β0 , . . . , βp są ich estymatory MNK βb0 , . . . , βbp , które minimalizują sumę kwadratów reszt
n
X
[yi − (βb0 + βb1 xi1 + . . . βbp xip )]2 =
i=1
=
min
(β0 ,...,βp )∈Rp+1
n
X
[yi − (β0 + β1 xi1 + . . . + βp xip )]2
i=1
2. Nieobciążonym estymatorem wariancji σ 2 jest
Pn
(yi − ybi )2
2
.
σ
b = i=1
n−p−1
97
12.1
Test F
Wnioskowanie zaczynamy od sprawdzenia, czy choć jedna ze zmiennych objaśniających ma liniowy wpływ na zmienną objaśnianą Y . W tym celu rozpatrujemy następujący problem testowania
H0 : β1 = . . . = βp = 0,
H1 : H0 jest fałszywa.
Jeśli hipoteza zerowa jest prawdziwa, a więc żadna ze zmiennych objaśniających nie ma liniowego wpływu na Y , to statystyka testowa
Pn
2
i=1 (yi − y) /p
F = Pn
bi )2 /(n − p − 1)
i=1 (yi − y
ma tak zwany rozkład F-Snedecora z (p, n − p − 1) stopniami swobody. Jej
duże wartości są nietypowe dla H0 i prowadzą do odrzucenia tej hipotezy.
Każdy pakiet statystyczny oblicza nie tylko wartość Fobs , przyjętą przez
F , ale także wyznacza odpowiadającą jej p-wartość= Pr(F ≥ Fobs |H0 ). Na
podstawie tego wskaźnika decydujemy, czy odrzucić H0 , czy też nie.
12.2
Testy i przedziały ufności
Jeśli odrzucimy H0 : β1 = . . . = βp = 0, to możemy przystąpić do sprawdzenia, które ze zmiennych X1 , . . . , Xp wpływają liniowo na Y .
1. Testy dla współczynników regresji: Dla każdego i = 1, . . . , p weryfikujemy
H0 : βi = 0
H1 : βi 6= 0.
H0 oznacza, że zmienna objaśniająca Xi nie ma liniowego wpływu na
zmienną objaśnianą Y , jeśli w modelu uwzględniło się już wpływ pozostałych zmiennych objaśniających. Statystyka testowa ma postać
Ti =
βbi
,
SEβi
gdzie SEβ2i nieobciążonym estymatorem wariancji Var(βbi ). Jeśli H0 jest
prawdziwa, to Ti ma rozkład t-Studenta z n − p − 1 stopniami swobody,
więc H0 odrzucamy, gdy ti znacznie różni się od zera.
2. Przedziały ufności dla współczynników regresji: Dla każdego
i = 1, . . . , p, przedział ufności dla βi na poziomie ufności 1 − α ma
postać:
(βb1 − tn−p−1,α · SEβi , βb1 + tn−p−1,α · SEβi ).
Każdy pakiet statystyczny nie tylko weryfikuje omówione hipotezy i konstruuje przedziały ufności, ale także wyznacza wiele innych wielkości, wspomagających wnioskowanie w modelu regresji liniowej. Wśród tych wielkości
są dwa parametry mierzące jakość dopasowania modelu regresji do danych:
98
1. R Square (oznaczenie: R2 ) - współczynnik determinacji,
2. Adjusted R Square (oznaczenie Adj R2 ) - zmodyfikowany współczynnik determinacji.
Oba współczynniki przyjmują wartości między 0 a 1. Im wartość R2 lub Adj
R2 jest bliższa 1, tym model zależności liniowej jest lepiej dopasowany do
danych.
12.2.1
Badanie poprawności modelu - analiza wartości resztowych
Wartość resztową ei = Yi − Ybi = Yi − (βb0 + βb1 xi ) można traktować jak jako
przybliżenie błędu εi . Jeśli model zależności liniowej jest poprawny i jeśli
ε1 , . . . , εn i.i.d. N (0, σ 2 ), to ciąg rezyduów e1 , . . . , en powinien zachowywać
się w przybliżeniu tak jak ciąg niezależnych zmiennych losowych o rozkładzie
normalnym ze średnią zero.
1. Na wykresie kwantylowym, badającym zgodność rezyduów z rozkładem
normalnym, punkty powinny układać się wzdłuż linii prostej,
2. Histogram dla rezyduów powiniem kształtem przypominac gęstość rozkładu normalnego (charakterystyczny dzwon).
3. Wykres rezyduów względem numeru porządkowego zmiennej objaśniającej, czyli wykres rozproszenia dla punktów (x1 , e1 ), . . . , (xn , en ), powinien przedstawiać chmurę punktów skupioną wokół os x i nie mającą
żadnej wyraźnej struktury, czy tendencji. W szczególności, wartości
rezyduów nie mogą rosnąć wraz ze wzrostem x, bo zakładamy w
modelu, że błędy mają średnią zero i tę samą wariancję. Podobnie
powinny wyglądać wykresy rezyduów względem wartości prognozowanych (b
y1 , e1 ), . . . , (b
yn , en ).
12.2.2
Przykładowa analiza
Celem tej analizy, przeprowadzonej tym razem za pomocą funkcji regresja z
pakietu Excel (dodatek Analiza danych), było stworzenie modelu opisującego
jaki wpływ na aktywa firmy brokerskiej, handlującej akcjami, mają następujące dwa parametry: udział firmy w rynku i liczba prowadzonych przez nią
rachunków internetowych. Model miał zawierać jedną zmienną objaśnianą
Y i dwie zmienne objaśniające X1 , X2 :
1. Y - aktywa (w mld. USD),
2. X1 - udział firmy w rynku,
3. X2 - liczba prowadzonych przez firmę rachunków internetowych (w tys.).
Do skonstruowania modelu wykorzystano dane o 10 brokerach działających na terenie USA. Poniżej przedstawiamy te dane i odpowiadające im
wyniki przeprowadzonej analizy. Następnie formułujemy wnioski wynikające
z tej analizy.
99
Dane:
broker
CSc
ETr
TDW
Dat
Fid
Ame
DLJ
Dis
Sur
NDB
X1
27,5
12,9
11,6
10
9,3
8,4
3,6
2,8
2,2
1,3
X2
2500
909
615
205
2300
428
590
134
130
125
Y
219
21,1
38,8
5,5
160
19,5
11,2
5,9
1,3
6,8
X1 - udział w rynku, X2 - liczba rachunków internetowych (w tys.), Y - aktywa (w mld. dolarów)
Wyniki:
Regression Statistics
Multiple R
0,97
R Square
0,94
Adjusted R Square
0,93
Standard Error
20,52
Observations
10
ANOVA
df
Regression
Residual
Total
Intercept
X Variable 1
X Variable 2
2
7
9
SS
MS
49260,50 24630,25
2947,95 421,14
52208,45
Coefficients Standard Error
-21,45
10,24
1,16
1,34
0,08
0,01
F
Significance F
58,49 4,27788E-05
t Stat P-value
-2,09
0,07
0,86
0,42
6,44
0,00
Lower 95% Upper 95%
-45,67
2,77
-2,02
4,34
0,05
0,10
Wnioski:
1. Co najmniej jedna ze zmiennych X1 , X2 wpływa liniowo na zmienną
Y , gdyż p-wartość testu hipotezy H0 : β1 = β2 = 0, odpowiadająca
zaobserwowanej wartości Fobs = 58.49 statystyki F , jest znikomo mała
i równa 2.28 · 10−5
2. Estymatorami β0 , β1 , β2 są βb0 = −21.45, βb1 = 1.16, βb2 = 0.08.
3. Model regresji liniowej
Y = −21.45 + 1.16 · X1 + 0.08 · X2 + ε
dobrze opisuje zależność między Y a X1 , X2 , bo współczynniki determinacji są bliskie 1: R2 = 0.94 , Adj R2 = 0.93
4. Indywidualne testy dla współczynników regresji sugerują, że jedynie
współczynnik β2 jest statystycznie różny od 0 (p-wartości testów dla
β1 i β2 są równe 0.42 i 0, odpowiednio). To oznacza, że powinniśmy
ponowić obliczenia, rozpatrując model zawierający tylko jedną zmienną
objaśniającą X2 (nie robimy tego tutaj).
5. Przedziały ufności na poziomie ufności 0.95 dla β1 i β2 mają postać:
β1 ∈ (−2.02; 4.34) i β2 ∈ (0.05; 0.10). Pierwszy z nich zawiera 0, co
ponownie sugeruje, że zmienna X1 powinna zostać usunięta z modelu.
101
13
13.1
ANOVA
Jednoczynnikowa analiza wariancji (One-way ANOVA)
Model jednoczynnikowej analizy wariancji:
1. Dwie zmienne: kategoryczna zmienna objaśniająca A, zwana też
czynnikiem, przyjmująca a różnych wartości, oraz ilościowa zmienna
objaśniana y.
2. Pytanie: Czy na wartość zmiennej objaśnianej y ma wpływ wybór
poziomu czynnika A?
3. Szczególny przypadek: Jeśli zmienna A przyjmuje tylko dwie wartości (czynnik występuje na dwóch poziomach) to we wnioskowaniu
możemy posłużyć się testem t-Studenta dla dwóch niezależnych prób.
Anova pozwala odpowiadać na wyżej postawione pytanie, gdy liczba
kategorii jest większa niż 2.
Przykłady wykorzystania Anovy:
1. Która z trzech terapii wykorzystywanych w leczeniu raka płuc zapewnia
największą przeżywalność? y - czas przeżycia, A - rodzaj zastosowanej
terapii (czynnik występujący na 3 trzech poziomach, które oznaczymy:
1, 2, 3).
2. Czy maksymalna dzienna temperatura zależy od pory roku: y - maksymalna dzienna temperatura, A - pora roku (czynnik występujący na
4 poziomach: zima, wiosna, lato, jesień).
3. Który z plastrów na odciski jest najlepszy? 25 pacjentów mających
odciski poddano jednej z trzech terapii 1, 2, 3. Zmierzono czas po jakim minęła nękająca ich dolegliwość. Uzyskano następujące wyniki (w
nawiasach podane są średnie próbkowe)
(a) 1: 5,6,6,7,7,8,9,10 [7.25]
(b) 2: 7,7,8,9,9,10,10,11 [8.875]
(c) 3: 7,9,9,10,10,10,11,12,13 [10.11]
Pytanie: czy zaoserwowane różnice między średnimi próbkowymi są
istotne statystycznie?
Na każde z powyższych pytań można spróbować odpowiedzeć nieformalnie,
wykonując odpowiednie rysunki
1. wykresy pudełkowe,
2. histogramy.
Oczywiście, wykresy pudełkowe , odpowiadające kolejnym kategoriom, umieszczamy na tym samym rysunku. Podobnie dla histogramów.
102
13.2
Wnioskowanie w modelu jednoczynnikowej Anovy
1. Oznaczmy symbolem a liczbę różnych wartości (poziomów) przyjmowanych przez zmienną objaśniającą (czynnik) A.
2. Niech µi będzie nieznaną wartością oczekiwaną zmiennej objaśnianej
y, odpowiadającą i-temu poziomowi czynnika A, i = 1, . . . , a.
3. Interesuje nas wnioskowanie o średnich wartościach µ1 , . . . , µa .
4. Wnioskowanie przeprowadzamy na podstawie próby, która powstaje w
ten sposób, że z populacji odpowiadającej i-temu poziomowi czynnika
A pobieramy próbkę rozmiaru ni , 1 ≤ i ≤ a. Otrzymujemy w ten
sposób wartości
y11 , . . . , y1n1 , y21 , . . . , y2n2 , . . . , ya1 , . . . yana .
Tutaj yij oznacza j-tą wartość zmiennej objaśnianej y, odpowiadającą
i-temu poziomowi czynnika A. Oczywiście i przyjmuje wartości od 1
do a, a przy ustalonym i, indeks j zmienia się od 1 aż do ni .
Łączny rozmiar próby to N = n1 + . . . + na .
5. Model jednoczynnikowej Anovy: Obserwujemy wartości przyjmowane przez niezależne zmienne losowe Y11 , . . . , Yana , takie że
Yij = µi + εij ,
dla i = 1, . . . , a, j = 1, . . . , ni . Wartości µ1 , . . . , µa są nieznane, a
o nieobserwowanych błędach losowych ε11 , . . . , εana zakłada się, że są
niezależne i mają ten sam rozkład N (0, σ 2 ) z nieznaną wariancją σ 2 .
6. Założenia: Z postaci modelu wynika, że
(a) Zmienne losowe Y11 , . . . , Y1n1 , Y21 , . . . , Y2n2 , . . . , Ya1 , . . . Yana są niezależne.
(b) Dla każdego i = 1, . . . , a, zmienne Yi1 , . . . , Yini mają ten sam
rozkład normalny N (µi , σ 2 ).
(c) Wariancje cechy y w każdej z a populacji muszą być takie same.
Jedynie średnie µi mogą się różnić.
7. Parametrami modelu są µ1 , . . . , µa oraz σ. Wartości średnie µi zazwyczaj zapisuje się w postaci
µi = µ + αi ,
i = 1, . . . , a,
gdzie µ jest nieznaną ogólną wartością średnią, natomiast αi jest nieznanym efektem wynikającym z wpływu na zmienną y i-tego poziomu
czynnika A. By zapewnić jednoznaczność takiego przedstawienia, zakłada się, że α1 + . . . + αa = 0.
8. Sprawdzanie założeń:
103
(a) Dla każdej z a próbek badamy jej zgodność z rozkładem normalnym za pomocą wykresów kwantylowych.
(b) Jak weryfikujemy założenie o równości wariancji?
• Reguła kciuka: Wariancje w populacjach są (w przybliżeniu) równe, gdy iloraz największej i najmniejszej z a wariancji
próbkowych nie przekracza 4 : 1.
• Inne podejście: Wykorzystujemy test Levena, który weryfikuje hipotezę o równości wariancji w populacjach.
9. Estymacja: Jeśli spełnione są założenia modelu, to
(a) nieznane średnie µ1 , . . . , µa estymujemy za pomocą średnich próbkowych y 1 , . . . , y a , to znaczy estymatorem µi jest
Pni
j=1 yij
yi =
,
ni
(b) estymatorem nieznanej wariancji σ 2 jest MSE - mean square error
(inne oznaczenia tego estymatora to: σ
b2 lub s2 )
Pa Pni
2
j=1 (yij − y i )
i=1
.
M SE =
N −a
10. Analiza wariancji: za pomocą testu F weryfikujemy hipotezy
H0 : µ1 = . . . = µa
vs H1 : wartości średnie nie są takie same.
11. Test F odpowiada na następujące pytanie (R. A. Fisher):
Czy zaobserwowane różnice między średnimi próbkowymi y 1 , . . . , y a ,
można sensownie wytłumaczyć, gdy H0 jest prawdziwa?
Uwaga: H1 nie precyzuje, które ze średnich µ1 , . . . , µa się różnią. To
powinniśmy zbadać za pomocą wielokrotnych porównań.
12. Jeśłi H0 jest prawdziwa to statystyka testowa
Pa
n (y − y)2 /(a − 1)
Pni i i
F = Pa i=1
2
i=1
j=1 (yij − y i ) /(N − a)
ma rozkład F -Snedecora z (a, N − a) stopniami swobody. Jej duże
wartości są nietypowe dla hipotezy zerowej H0 i prowadzą do jej odrzucenia.
13. Każdy pakiet statystyczny oblicza wartość Fobs , przyjętą przez F , i wyznacza odpowiadającą jej p-wartość= Pr(F ≥ Fobs |H0 ). Na podstawie
tego wskaźnika decydujemy, czy odrzucić H0 , czy też nie.
14. Jeśli odrzucimy H0 , to powinniśmy zbadać, które ze średnich µ1 , . . . , µa
różnią się między sobą.
104
Przypuśćmy, że chcemy sprawdzić, czy różnią się średnie µi i µj , odpowiadające i-temu i j-temu poziomowi czynnika x. W tym celu konstruujemy przedział ufności na poziomie ufności α dla różnicy µi − µj .
Ma on postać:
s
1
1
y i − y j ± tN −a,α/2 M SE
+
.
ni nj
Jeśłi ten przedział nie zawiera 0 to uznajemy, że średnie µi i µj są
różne na poziomie istotności α.
13.2.1
Przykładowa analiza
Celem tej analizy, przeprowadzonej za pomocą funkcji Anova z pakietu Excel
(dodatek Analiza danych), było sprawdzenie, czy z upływem czasu chleb traci
zawarte w nim witaminy.
Upieczono małe bochenki chleba z mąki z domieszką witaminy C. Zawartość tej witaminy w chlebie sprawdzono tuż po jego upieczeniu, dzień
później oraz po trzech, pięciu i siedmiu dniach od wypieku. Dla każdego z
tych przypadków, wybrano losowo do próby dwa bochenki.
Poniżej przedstawiamy zaobserwowane w kolejnych dniach zawartości witaminy C (w mg/100g) i odpowiadające im wyniki przeprowadzonej analizy.
W tym problemie zmienną objaśnianą jest zawartość witaminy C w chlebie, a zmienną objaśniającą jest liczba dni, które minęły od chwili wypieku
- czynnik występujący na 5 poziomach: 0, 1, 3, 5, 7. Analiza jest niepełna,
gdyż
funkcja Anova z pakietu Excel nie generuje przedziałów ufności. Te
5
= 10 przedziałów można wyznaczyć wywołując inną funkcję z tego
2
pakietu.
105
Dane:
tuż po
47,62
49,79
po 1 dniu
po 3 dniach po 5 dniach po 7 dniach
40,45
21,25
13,18
8,51
43,46
22,34
11,65
8,13
Wyniki:
Anova: Single Factor
SUMMARY
Groups
tuż po
po 1 dniu
po 3 dniach
po 5 dniach
po 7 dniach
Count
2
2
2
2
2
ANOVA
Source of Variation
Between Groups
Within Groups
SS
2565,72
8,72
Total
2574,44
Sum
97,41
83,91
43,59
24,83
16,64
df
4
5
9
Average
48,71
41,96
21,80
12,42
8,32
Variance
2,35
4,53
0,59
1,17
0,07
MS
641,43
1,74
F
367,74
P-value
0,0000023
Opis wyników i wnioski: Niech µ0 , µ1 , µ3 , µ5 , µ7 oznaczają średnie zawartości witaminy C w chlebie tuż po jego upieczeniu, dzień po nim oraz po
trzech, pięciu i siedmiu dniach od wypieku
1. W kolumnach Average i Variance są podane średnie i wariancje próbkowe odpowiadające kolejnym poziomom czynnika. Średnie próbkowe
są estymatorami nieznanych wartości oczekiwanych µ0 , µ1 , µ3 , µ5 , µ7 .
2. Odrzucamy hipotezę zerową H0 : µ0 = µ1 = µ3 = µ5 = µ7 , bo zaobserwowanej wartości Fobs = 367.74 statystyki testowej F odpowiada
p-wartość = 0.0000023. Teraz należałoby sprawdzić, które ze średnich
się różnią. Tego tutaj nie robimy.
3. Liczności próbek są bardzo małe, bo n0 = n1 = n3 = n5 = n7 =
2. Wnioskowanie na podstawie wykresów kwantylowych o zgodności
rozkładu cechy z rozkładem normalnym nie ma więc sensu. Podobnie
jest z wnioskowaniem o równości wariancji.
107
13.3
Dwuczynnikowa analiza wariancji (Two-way ANOVA)
Model dwuczynnikowej analizy wariancji:
1. Trzy zmienne: dwie kategoryczne zmienne objaśniające (czynniki) A
i B występujące na a i b poziomach oraz ilościowa zmienna objaśniana
y, zwana też zmienną odpowiedzi.
2. Pytania: Czy na wartość zmiennej objaśnianej y ma wpływ wybór
poziomu czynnika A, wybór poziomu czynnika B oraz, co najważniejsze, czy istnieje interakcja między czynnikami A i B, oznaczająca, że
czynniki współdziałają między sobą, wspólnie oddziaływując na y?
Przykład: Jaki wpływ na wydajność reakcji chemicznej mają różne kombinacje 3 poziomów odczynnika i 4 poziomów katalizatora? W tym problemie
1. zmienną objaśnianą y jest wydajność reakcji chemicznej,
2. zmiennymi objaśniającymi są
• odczynnik - czynnik występujący na a = 3 poziomach 1, 2, 3,
• katalizator - czynnik występujący na b = 4 poziomach 1,2,3,4.
Wnioskowanie w tym problemie przeprowadzamy w oparciu o próbę, które
powstaje w następujący sposób: dla każdej z 12 możliwych kombinacji poziomów obu czynników przeprowadzamy n reakcji chemicznych i mierzymy
ich wydajność. n > 1 jest ustaloną liczbą.
13.4
Wnioskowanie w modelu dwuczynnikowej Anovy
1. Oznaczmy symbolem a i b liczbę różnych wartości (poziomów) przyjmowanych przez zmienne objaśniające (czynniki) A i B.
2. Niech µij będzie nieznaną wartością oczekiwaną zmiennej objaśnianej
y, odpowiadającą i-temu poziomowi czynnika A i j-temu poziomowi
czynnika B, i = 1, . . . , a, j = 1, . . . , b.
3. Interesuje nas wnioskowanie o średnich ab wartościach µ11 , . . . , µab .
4. Wnioskowanie przeprowadzamy na podstawie próby rozmiaru N = abn,
która powstaje w następujący sposób: dla każdej z ab możliwych kombinacji poziomów czyników A i B pobieramy próbkę tego samego rozmiaru n > 1. Otrzymujemy w ten sposób wartości
y111 , . . . , y11n , y121 , . . . , y12n , . . . , yab1 , . . . yabn .
Tutaj yijk oznacza k-tą obserwację zmiennej y, pobraną z populacji, w
której czynnik A występuje na poziomie i-tym, a czynnik B na poziomie
j-tym. Oczywiście, i przyjmuje wartości od 1 do a, j przyjmuje wartości
od 1 do b, a przy ustalonych i, j, indeks k zmienia się od 1 aż do n.
5. Model dwuczynnikowej Anovy: obserwujemy wartości przyjmowane przez zmienne losowe Y111 , . . . , Yabn , takie że
Yijk = µij + εij ,
dla i = 1, . . . , a, j = 1, . . . , b, k = 1, . . . , n . Wartości µ11 , . . . , µab są
nieznane, a o nieobserwowanych abn błędach losowych εijk zakłada się,
że są niezależne i mają ten sam rozkład N (0, σ 2 ).
108
6. Założenia: Z postaci modelu wynika, że
(a) Zmienne losowe Y111 , . . . , Y11n , Y121 , . . . , Y12n , . . . , Yab1 , . . . Yabn są
niezależne.
(b) Dla każdego i = 1, . . . , a, j = 1, . . . , b, zmienne Yij1 , . . . , Yijn mają
ten sam rozkład normalny N (µij , σ 2 ).
(c) Wariancje cechy Y w każdej z ab populacji muszą być takie same.
Jedynie średnie µij mogą się różnić.
7. Parametrami modelu są µ11 , . . . , µab oraz σ. Wartości średnie µij
zazwyczaj zapisuje się w postaci
µij = µ + αi + βj + γij ,
i = 1, . . . , a,
j = 1, . . . , b
• µ jest nieznaną ogólną wartością średnią,
• αi jest nieznanym efektem wynikającym z wpływu na zmienną y
i-tego poziomu czynnika A,
• βj jest nieznanym efektem wynikającym z wpływu na zmienną y
j-tego poziomu czynnika B,
• γij jest nieznanym efektem wynikającym z wpływu na zmienną y
ineterakcji i-tego poziomu czynnika A i j-tego poziomu czynnika
B.
By zapewnić jednoznaczność takiego przedstawienia, zakłada się, że
α1 + . . . + αa = 0, β1 + . . . + βb = 0 oraz że dla każdego i = 1, . . . , a,
j = 1, . . . , b zachodzą równości γi1 + . . . γib = 0 i γ1j + . . . γaj = 0.
8. Sprawdzanie założeń:
(a) Dla każdej z ab próbek, odpowiadających wszystkim możliwym
kombinacjom poziomów obu czynników, badamy jej zgodność z
rozkładem normalnym za pomocą wykresów kwantylowych.
(b) Jak weryfikujemy założenie o równości wariancji?
• Reguła kciuka: Wariancje w ab populacjach są (w przybliżeniu) równe, gdy iloraz największej i najmniejszej z ab
wariancji próbkowych nie przekracza 4 : 1.
• Inne podejście: Wykorzystujemy test Levena, który weryfikuje hipotezę o równości wariancji w populacjach.
9. Estymacja: Jeśli spełnione są założenia modelu, to
(a) nieznane średnie µ11 , . . . , µab estymujemy za pomocą średnich próbkowych y 11 , . . . , y ab , to znaczy estymatorem µij jest
Pn
yijk
y ij = k=1
,
n
109
(b) estymatorem nieznanej wariancji σ 2 jest MSE - mean square error
(inne oznaczenia tego estymatora to: σ
b2 lub s2 )
Pa Pb
M SE =
i=1
j=1
Pn
k=1 (yijk
ab(n − 1)
− y ij )2
.
10. Analiza wariancji: Najpierw za pomocą testu F weryfikujemy hipotezę o nieistnieniu interakcji:
H0 : γ11 = . . . = γab
vs H1 : nie wszystkie interakcje są równe zeru.
• Jeśli nie ma podstaw do odrzucenia hipotezy H0 , to uznajemy, że
mamy do czynienia z modelem addytywnym, w którym oba czynniki wpływają na y niezależnie od siebie. Ich wpływ na zmienną
objaśnianą y możemy zbadać wykonując dwie oddzielne analizy
jednoczynnikowe (One way ANOVA), jedną dla czynnika A, a
drugą dla czynnika B.
• Jeśli odrzucimy hipotezę H0 , to łączny wpływ na y obu czynników A i B badamy za pomocą analizy jednoczynnikowej, w której czynnikiem jest zmienna objaśniana, przyjmująca ab wartości,
odpowiadających wszystkich ab kombinacjom poziomów czynników A i B. Inne rozwiązanie: dla każdego ustalonego poziomu
czynnika A wykonujemy jednoczynnikową ANOVĘ ze względu na
czynnik B.
110
14
Test zgodności chi-kwadrat
Opisane poprzednio testy są przeznaczone do weryfikacji hipotez dotyczących parametrów liczbowych, charakteryzujących rozkład F cechy (zmiennej
losowej) X. W tych problemach zazwyczaj wiadomo jaki jest rozkład X
(np. normalny), a nieznane są jedynie niektóre parametry tego rozkładu,
np. średnia, frakcja, czy też wariancja. Inny rodzaj testów stanowią testy
zgodności, stosowane wtedy, gdy rozkład F jest nieznany.
Test zgodności chi-kwadrat służy do weryfikacji hipotezy, że cecha X ma
pewien ustalony rozkład F0 (np. rozkład Poissona z λ = 1).
Hipoteza zerowa i alternatywna mają więc postać:
H0 : F = F0 ,
H1 : F 6= F0 .
(4)
Przykłady:
1. Czy kostka jest symetryczna? Znając wyniki 60 rzutów kostką
chcemy rozstrzygnąć czy ta kostka jest symetryczna, czy też nie.
W tym przykładzie F0 jest rozkładem, przy którym każdy z sześciu
możliwych wyników rzutu kostką wypada z tym samym prawdopodobieństwem 1/6.
2. Godziny szczytu Niech X oznacza liczbę aut przejeżdzających między 15.00 a 15.10 przez most Pokoju. Zmierzywszy 100 razy tę liczbę
chcemy zweryfikować hipotezę, że X ma rozkład
(a) Poissona z parametrem λ = 5, (F0 jest rozkładem Poissona z
parametrem λ = 5).
(b) Poissona (nie precyzujemy jak jest wartość parametru λ, więc F0
jest jakimś rozkładem Poissona).
Niech X1 , . . . , Xn będzie losową próbą prostą z populacji o nieznanym rozkładzie F . Znając wartości x1 , . . . , xn , przyjęte przez zmienne X1 , . . . , Xn ,
będziemy chcieli sprawdzić, czy są przesłanki do tego, by uznać, że próba
pochodzi z populacji, w której cecha X ma znany rozkład F0 (np. rozkład
N (0, 1)).
Uwaga: W przykładzie z kostką X1 , X2 , . . . oznaczają potencjalne wyniki kolejnych rzutów - pierwszego, drugiego, ... W przykładzie z autami, X1 , X2 , . . .
to potencjalne liczby samochodów, które przejadą przez most w czasie kolejnych pomiarów - pierwszego, drugiego, ....
1. Najprostszy model: Cecha X ma skończenie wiele wartości, powiedzmy k + 1 wartości a1 < . . . < ak+1 . Niech
p1 = Pr(X = a1 ), . . . , pk+1 = Pr(X = ak+1 )
111
oznaczają nieznane prawdopodobieństwa z jakimi X przyjmuje te wartości. Jeśli hipoteza zerowa (4) jest prawdziwa, to prawdopodobieństwa
p1 , . . . , pk+1 mają znane wartości p01 , . . . , p0k+1 . Problem testowania,
zdefiniowany w (4), sprowadzamy do weryfikacji hipotez:
H0 : pi = p0i
H1 : pi 6= p0i
for all i = 1, . . . , k + 1.
dla co najmniej jednego i.
Konstrukcja statystyki testowej: Dla i = 1, . . . , k + 1 n, niech ni
oznacza liczbę pojawień się w próbie x1 , . . . , xn wartości ai , czyli
ni = #{j : xj = ai }.
Jeśli H0 jest prawdziwa, to statystyka
Q=
k+1
X
(Ni − np0 )2
i
np0i
i=1
ma w przybliżeniu rozkład chi-kwadrat z k stopniami swobody. To
przybliżenie jest tym lepsze im n jest większe.
Duże wartości Q są nietypowe dla H0 prowadzą do odrzucenia hipotezy zerowej na rzecz hipotezy alternatywnej.
Uwaga: Statystyka testowa testu chi-kwadrat ma postać:
Q=
X (obserwowane liczebności - oczekiwane liczebności)2
oczekiwane liczebności
Wnioskowanie: Na poziomie istotności α odrzucamy H0 , gdy Q przyjmie wartość q większą niż kwantyl rzędu 1 − α rozkładu chi-kwadrat z
k stopniami swobody, tzn. gdy
q=
k+1
X
(ni − np0 )2
i
i=1
np0i
≥ χ2k,α .
W tym problemie testowania zbiór krytyczny i p-wartość mają postać:
(a) Zbiór krytyczny: W = (χ2k,α , ∞),
(b) p-value: Pr(Q ≥ q|H0 ).
2. Bardziej złożony model: Cecha X przyjmuje nieskończenie wiele
wartości a1 < a2 < . . . , Ten model sprowadzamy do poprzedniego
wybierając jakąś liczbę naturalną k i grupując wszystkie wartości cechy
X, które są większe niż ak .
(a) Niech pi = Pr(X = ai ) dla i = 1, . . . , k. Prawdopodobieństwo
pk+1 zdefiniujemy inaczej, przyjmując pk+1 = Pr(X ≥ ak+1 ).
Oczywiście p1 , . . . , pk+1 są nieznane, ale wiadomo, że pk+1 =
1 − (p1 + . . . + pk ).
112
(b) Liczby n1 , . . . , nk zdefiniujemy jak poprzednio, zaś za nk+1 przyjmiemy liczbę tych wartości w próbie x1 , . . . , xn , które są większe
od ak . Oczywiście, nk+1 = n − (n1 + . . . + nk ).
Jeśli hipoteza zerowa (4) jest prawdziwa, to prawdopodobieństwa p1 , . . . , pk+1
mają znane wartości p01 , . . . , p0k+1 . Problem testowania, zdefiniowany
w (4), sprowadzamy do weryfikacji hipotez:
H0 : pi = p0i
H1 : pi 6= p0i
for all i = 1, . . . , k + 1.
dla co najmniej jednego i.
Statystyka testowa i wnioskowanie mają taką samą postać jak w poprzednim modelu, więc H0 odrzucamy na poziomie istotności α, gdy
q=
k+1
X
(ni − np0 )2
i
i=1
np0i
≥ χ2k,α .
3. Model, w którym cecha X ma rozkład ciągły: Ten model sprowadzamy do pierwszego wybierając liczbę naturalną k i liczby rzeczywiste
a1 < . . . < ak+1 . Następnie definiujemy przedziały liczbowe:
I1 = (−∞, a1 ), I2 = [a1 , a2 ), . . . , Ik = [ak−1 , ak ), Ik+1 = [ak , ∞)
(a) Niech p1 = Pr(X ∈ I1 ), . . . , pk+1 = Pr(X ∈ Ik+1 ) oznaczają nieznane prawdopodobieństwa tego, że zmienna losowa X przyjmie
wartość z przedziału I1 , . . . , Ik+1 .
(b) Dla i = 1, . . . , k +1, niech ni oznacza liczbę tych wartości w próbie
x1 , . . . , xn , które wpadły do przedziału Ii . Oczywiście, nk+1 =
n − (n1 + . . . + nk ).
Jeśli hipoteza zerowa (4) jest prawdziwa, to prawdopodobieństwa p1 , . . . , pk+1
mają znane wartości p01 , . . . , p0k+1 . Problem testowania, zdefiniowany
w (4), ponownie sprowadzamy do weryfikacji hipotez:
H0 : pi = p0i
H1 : pi 6= p0i
for all i = 1, . . . , k + 1.
dla co najmniej jednego i.
Statystyka testowa i wnioskowanie mają taką samą postać jak w pierwszym modelu, więc H0 odrzucamy na poziomie istotności α, gdy
q=
k+1
X
(ni − np0 )2
i
i=1
np0i
≥ χ2k,α .
Ograniczenia w stosowalności testu zgodności chi-kwadrat:
1. Wnioskowanie za pomocą tego testu ma sens jedynie wtedy, gdy rozmiar
próby jest duży. Powód? Gdy H0 jest prawdziwa, to statystyka Q ma w
przybliżeniu rozkład chi-kwadrat z k stopniami swobody, przy czym
to przybliżenie jest tym lepsze, im n jest większe.
113
2. Reguła kciuka: Przybliżenie rozkładem rozkład chi-kwadrat uznajemy za dopuszczalne jedynie wtedy, gdy każda z oczekiwanych liczebności jest co najmniej równa 1, a jedynie 20% spośród nich jest mniejsze niż 5.
3. Gdy nie zachodzi któryś z warunków opisanych w poprzednim punkcie, łączymy ze sobą dwie klasy, mające małe oczekiwane liczebności,
zmniejszając w ten sposób liczbę klas o 1 (k + 1 → k). Postępowanie
to powtarzamy tak długo, aż reguła kciuka będzie spełniona.
Przykład:
1. Czy kostka jest symetryczna? W 60 rzutach kostką otrzymano
następujące wyniki:
Liczba oczek
Liczba rzutów
1 2 3 4 5 6
10 5 6 19 13 7
Czy te wyniki przemawiają przeciwko temu, że kostka jest symetryczna?
Na poziomie istności α = 0.05 zweryfikować odpowiednią hipotezę.
Hipoteza zerowa i alternatywna mają w tym przykładzie postać:
H0 : kostka jest symetryczna,
H1 : kostka nie jest symetryczna.
Hipoteza H0 stwierdza, że prawdopodobieństwa każdego z sześciu wyników rzutu są takie same, tzn. p01 = . . . p06 = 1/6, więc oczekiwane
liczebności mają postać: np01 = . . . np06 = 60 · 1/6 = 10. Wartością
statystyki testowej jest
q =
k
X
(ni − np0 )2
i
i=1
+
np0i
=
(10 − 10)2 (5 − 10)2 (6 − 10)2
+
+
10
10
10
(19 − 10)2 (13 − 10)2 (7 − 10)2
140
+
+
=
,
10
10
10
10
więc H0 odrzucamy, gdyż q = 14 ∈ W = (χ26−1,0.05 , ∞) = (11.07, ∞).
15
Test niezależności chi–kwadrat
Testy niezależności chi-kwadrat służy do weryfikacji o niezależności dwóch
cech (zmiennych losowych) X i Y .
Hipoteza zerowa i alternatywna mają więc postać:
H0 : X i Y są niezależne,
H1 : X i Y są zależne.
Przykład
114
1. Czy płeć zdającego wpływa na wynik egzaminu? Znając wyniki
egzaminu ze statystyki dla 50 losowo wybranych osób, spośród zaliczających ten wykład, chcemy rozsztrzygnąć czy płeć zdającego wpływa
na rezultat.
2. Czy stosunek młodzieży do palenia marihuany zależy od poglądów politycznych? W jednym z eksperymentów każdy młody
człowiek z losowej próby 1349 uczniów został zapytany czy pali marihuanę (często, okazjonalnie, nigdy) oraz jakie ma poglądy polityczne
(postępowe, konserwatywne, inne). Celem analizy było rozstrzygnięcie
czy skłonność do palenia trawki zależy od poglądów politycznych.
Niech (X1 , Y1 ), . . . , (Xn , Yn ) będzie losową próbą prostą z populacji, z której
pochodzi (X, Y ).
Uwaga: W przykładzie z egzaminem (X1 , Y1 ) to (płeć, wynik egzaminu) dla
pierwszej z osób wybranych do próby, (X2 , Y2 ) to (płeć, wynik egzaminu) dla
drugiej z osób wybranych do próby itd.
Konstrukcja testu niezależności chi-kwadrat przebiega następująco:
1. Wybieramy:
(a) dwie liczby naturalne r, s ∈ {1, . . . , n},
(b) parami rozłączne zbiory (klasy) A1 , . . . , Ar , których suma zawiera
wszystkie możliwe wartości zmiennej X,
(c) parami rozłączne zbiory (klasy) B1 , . . . , Bs , których suma zawiera
wszystkie możliwe wartości zmiennej Y .
2. Dla i = 1, . . . , r, j = 1, . . . , s, wyznaczamy:
(a) liczbę tych spośród obserwacji (x1 , y1 ), . . . , (xn , yn ), które wpadły
do Ai × Bj , tzn.
nij = #{k : xk ∈ Ai , yk ∈ Bj }.
(b) ni· = ni1 + . . . nis ,
(c) n·j = n1j + . . . nrj ,
3. Jeśli H0 jest prawdziwa, to statystyka testowa
2
Ni· n·j
Nij − n
r X
s
X
Q=
Ni· N·j
i=1 j=1
n
ma rozkład zbliżony do rozkładu chi-kwadrat z (r − 1)(s − 1) stopniami swobody.
115
Duże wartości Q są nietypowe dla H0 prowadzą do odrzucenia hipotezy
zerowej na rzecz hipotezy alternatywnej.
Uwaga: Statystyka testowa testu chi-kwadrat ma postać:
Q=
X (obserwowane liczebności - oczekiwane liczebności)2
oczekiwane liczebności
Wnioskowanie: Na poziomie istotności α odrzucamy H0 , gdy Q przyjmie
wartość q większą niż kwantyl rzędu 1−α rozkładu chi-kwadrat z (r−1)(s−1)
stopniami swobody, tzn. gdy
ni· n·j 2
r
s
X X nij − n
q=
≥ χ2(r−1)(s−1),α .
ni· n·j
i=1 j=1
n
W tym problemie testowania zbiór krytyczny i p-wartość mają postać:
1. Zbiór krytyczny: W = (χ2(r−1)(s−1),α , ∞),
2. p-value: Pr(Q ≥ q|H0 ).
Ograniczenia w stosowalności testu niezależności chi-kwadrat: Aproksymacja rozkładu Q rozkładem χ2(r−1)(s−1) działa dobrze jedynie wtedy, gdy
1. n jest duże,
2. eij ≥ 1 dla wszystkich i, j, gdzie eij =
ni· n·j
n
3. eij ≥ 5 w co najmniej 80% przypadków.
Przykłady:
1. Poniższa tabela przedstawia wyniki egzaminu ze statystyki
Studenci
Studentki
Zdany Oblany
20
30
30
20
Ponieważ n1· = n2· = n·,1 = n·,2 = 50, każda z oczekiwanych liczebności
ni· n·j
50 · 50
jest równa 25, bo
=
= 25.
n
100
ni· n·j 2
r
s
n
−
X X ij
n
(20 − 25)2 (30 − 25)2 (30 − 25)2 (20 − 25)2
q =
=
+
+
+
ni· n·j
25
25
25
25
i=1 j=1
n
= 4.
Hipotezę o niezależności wyniku egzaminu od płci należy odrzucić, na
poziomie istotności α = 0.05, gdyż
q = 4 ∈ W = (χ2(2−1)(2−1),0.05 , ∞) = (χ21,0.05 , ∞) = (3.94, ∞).
116
2. Poniższa tabela przedstawia wyniki ankiety dotyczącej wpływu poglądów politycznych na skłonność do palenia marihuany.
Postępowe
Konserwatywne
Inne
Nigdy
479
214
172
Okazjonalnie Często
173
119
47
15
45
55
Hipotezę o niezależności skłonności do palenia marihuany od poglądów
politycznych należy odrzucić, na poziomie istotności α = 0.05, gdyż
q = 64.65 ∈ W = (χ24,0.05 , ∞) = (9.49, ∞).
15.1
Test jednorodności chi-kwadrat
Załóżmy, że interesuje nas jednorodność r rozkładów w sytuacji, gdy obserwacje każdej z populacji mogą należeć do s kategorii.
Przykład: Studenci Wydziału Matematyki PWr ocenili każdego z trzech
wykładowców, prowadzących zajęcia ze statystyki
Wykładowca nr 1
Wykładowca nr 2
Wykładowca nr 3
Beznadziejny Niezły Bardzo dobry
17
25
18
11
29
20
12
26
22
Czy na podstawie tych danych należy odrzucić hipotezę zerową, mówiącą, że
rozkład ocen dla każdego z wykładowców jest taki sam?
Niech ciąg pi1 , . . . , pis oznacza nieznany rozkład prawdopodobieństwa mierzonej cechy X (np. ocen w powyższym przykładzie) dla i-tej populacji (dla
każdego z wykładowców w powyższym przykładzie)
pik = Pi (X ∈ Ak ), k = 1, 2, . . . , s.
Nie interesuje nas postać tych rozkładów, a chcemy jedynie zweryfikować
prawdziwość hipotezy o równości r rozkładów:
H0 : p1j = p2j = . . . = prj
dla każdego j = 1, 2, . . . , s.
Hipoteza alternatywna ma postać
H1 : H0
jest fałszywa.
Aby móc rozwiązać postawione zadanie, musimy pobrać próbki losowe ze
wszystkich populacji. Z i-tej populacji pobieramy próbkę o liczebności ni· .
W wyniku dla i-tej próbki otrzymujemy nij obserwacji należących do j-tej
kategorii. Jeśli H0 jest prawdziwa, to dla każdego 1 ≤ j ≤ s istnieje liczba
pj , taka że
p1j = p2j = . . . = prj = pj
117
Naturalnym estymatorem pj jest
n·j
, gdzie
n
n·j =
r
X
nij
.
i=1
n·j
jest oczekiwanym estymatorem liczby obserwA jeśli tak, to iloczyn ni·
n
wacji w i-tym wierszu i w j-tej kolumnie. Co więcej, mozna pokazać, że jeśli
H0 jest spełniona, to statystyka testowa
2
Ni· n·j
Nij − n
r X
s
X
Q=
Ni· N·j
i=1 j=1
n
ma rozkład zbliżony do rozkładu chi-kwadrat z (r − 1)(s − 1) stopniami
swobody.
Duże wartości Q są nietypowe dla H0 prowadzą do odrzucenia hipotezy
zerowej na rzecz hipotezy alternatywnej.
Uwaga: Statystyka testowa testu chi-kwadrat ma postać:
Q=
X (obserwowane liczebności - oczekiwane liczebności)2
oczekiwane liczebności
Wnioskowanie: Na poziomie istotności α odrzucamy H0 , gdy Q przyjmie
wartość q większą niż kwantyl rzędu 1−α rozkładu chi-kwadrat z (r−1)(s−1)
stopniami swobody, tzn. gdy
ni· n·j 2
r
s
X X nij − n
≥ χ2(r−1)(s−1),α .
q=
ni· n·j
i=1 j=1
n
W tym problemie testowania zbiór krytyczny i p-wartość mają postać:
1. Zbiór krytyczny: W = (χ2(r−1)(s−1),α , ∞),
2. p-value: Pr(Q ≥ q|H0 ).
118
16
Metoda Blanda-Altmana
Za pomocą tej graficznej metody sprawdzamy czy dwie metody pomiaru tej
samej wielkości fizycznej, np. ciśnienia tętniczego, dają podobne wyniki. Tą
metodą można też porównywać dwa różne testy tej samej hipotezy zerowej,
np. test t-Studenta z testem znaków w problemie wnioskowania o średniej
rozkładu normalnego.
Niech (x1 , y1 ), . . . , (xn , yn ) oznaczają kolejne pomiary, przeprowadzone za
pomocą pierwszej (x) i drugiej (y) metody. W oryginalnej pracy, Bland porównywał dwa przyrządy służące do pomiarów spirometrycznych. Badaniami
objął członków swojej bliższej i dalszej rodziny, a także, by zwiększyć rozmiar
próby, kolegów z pracy. W danych, które zebrał, xi i yi oznaczały objętość
powietrza wydychanego z płuc, zmierzoną u i-tej osoby z próby za pomocą
pierwszego i drugiego przyrządu.
Wykres Blanda-Altmana dla dowolnej próby (x1 , y1 ), . . . , (xn , yn ) to wykres rozproszenia utworzony z punktów
xn + y n
x1 + y1
, y1 − x1 , . . . ,
, yn − xn .
2
2
Na tym wykresie zaznacza się dodatkowo trzy poziome linie proste, poprowadzone na wysokościach d − 2s d, d + 2s. Tutaj, d i s oznaczają średnią
i odchylenie standardowe dla próby (y1 − x1 ), . . . , (yn − xn ). Jeśli dwie metody pomiaru działają podobnie, to d jest bliskie 0, a tylko nieliczne punkty
na tak otrzymanym wykresie leżą poza pasem, wyznaczonym przez dolną i
górną linię.
Uwagi:
1. Po obliczeniu d możemy zmodyfikować nieco dane, tworząc próbę
(x1 , y1 − d), . . . , (xn , yn − d).
Na wykresie Blanda-Altmana dla tej nowej próby, środkowa linia będzie
znajdować się na wysokości 0.
2. Nie powinno się porównywać dwóch metod pomiarowych za pomocą
próbkowego współczynnika korelacji lub regresji liniowej. Przykładowo,
gdy nowa metoda pomiaru podaje zawsze dwa razy większą wartość
niż stara, wspólczynnik korelacji dla próby (x1 , y1 ), . . . , (xn , yn ) przyjmuje wartość 1, a na odpowiadającym tej próbie wykresie rozproszenia
wszystkie punkty leżą na prostej y = 2x. Takie wyniki sugerują zgodność obu metod, a przecież dają one całkowicie różne wyniki.
3. Wykres Blanda-Altmana to zaadaptowany na potrzeby badań medycznych Tukey mean-difference plot - metoda zaproponowany wiele lat
wcześniej przez wielkiego amerykańskiego statystyka Johna Tukeya.
Na kolejnej stronie można znaleźć początkowe fragmenty artykułu, w którym
opisano metodę badania zgodności dwóch metod pomiarowych i pochodzący
z tej publikacji wykres Blanda-Altmana.
119

Podobne dokumenty