Wykład 12: Elementy wnioskowania statystycznego

Transkrypt

Wykład 12: Elementy wnioskowania statystycznego
Wykład 12: Elementy wnioskowania
statystycznego
dr Mariusz Grzadziel
˛
12 stycznia 2009
Przykład
Chcemy zweryfikować hipotez˛e: „Średnia temperatura zdrowego człowieka jest równa 98,6 stopni w skali Fahrenheita” w oparciu o zbiór danych NT (zaprezentowany
podczas poprzedniego wykładu);
Średnia próbkowa dla temperatury— dla 130 pomiarów w zbiorze NT: 98,25 stopni w
skali Fahrenheita.
Naiwne rozwiazanie:
˛
odrzucić hipotez˛e zerowa˛ H0 mówiac
˛ a,˛ że „prawdziwa” średnia
jest równa 98,6 w przypadku, gdy moduł różnicy |x̄ − 98,6| jest duży, wi˛ekszy niż
pewna wartość graniczna.
Przykład— c.d.
Wada tego podejścia: |x̄ − 98,6| zależy od przyj˛etej jednostki pomiaru.
Modyfikacja naszego podejścia: odrzucić H0 , gdy
lub
|x̄ − 98,6|
s
(1)
|x̄ − 98,6|
√
s/ n
(2)
jest duże (n oznacza liczb˛e obserwacji; dla danych NT n = 130).
Problem: w jaki sposób wyznaczyć sensownie „wartość graniczna”
˛ dla wyrażeń (1) lub
(2)?
Przykład— c.d.
Rozwiazanie:
˛
możliwe przy założeniu, że obserwacje sa˛ wygenerowane przez pewien
mechanizm losowy (model probabilistyczny); dokładniej: należy załozyć, że:
obserwacje sa˛ realizacja˛ n-elementowej próby losowej pochodzacej
˛ rozkładu normalnego.
Stad
˛ potrzeba prezentacji podstawowych poj˛eć teorii prawdopodobieństwa takich jak
zmienna losowa itd.
1
Zmienna losowa-wyniki eksperymentu losowego
Definicja 1. Doświadczenie nazywamy losowym, jeżeli może być powtarzane w tych
samych warunkach, jego wynik nie może być przewidziany w sposób pewny oraz zbiór
wszystkich możliwych wyników jest znany i może być opisany przed przeprowadzeniem
doświadczenia.
Przykład doświadczenia losowego: pomiar wzrostu losowo wybranego, dorosłego m˛eżczyzny mieszkajacego
˛
w Polsce.
Nieformalna˛ definicj˛e zmiennej losowej odpowiadajacej
˛ cesze ilościowej:
Zmienna˛ losowa˛ bedziemy nazywać liczbowy wynik doświadczenia losowego.
Poj˛ecie zmiennej losowej- c.d.
Precyzjne określenie zmiennej losowej wymaga znajomości poj˛eć teorii prawdopodobieństwa.
Zmienne losowe b˛edziemy oznaczać dużymi literami X, Y, Z, a wartości tych zmiennych, odpowiednio, literami małymi.
Zapis X = x oznacza zdarzenie, w którym zmienna losowa X przyjmuje wartość x, a
zapis a < X < b oznacza zdarzenie, w którym zmienna losowa X przyjmuje wartość
należac
˛ a˛ do przedziału (a, b).
Każdej zmiennej losowej odpowiada tzw. rozkład prawdopodobieństwa. Jest to funkcja
opisujaca
˛ to, w jaki sposób jedność prawdopodobieństwa jest rozdzielona wzgl˛edem
różnych wartości tej zmiennej, w szczególności pozwala obliczać prawdopodobieństwo, że dana zmienna losowa przyjmuje wartości z dowolnie zadanego przedziału
(a, b).
Rzut dwoma kostkami— przykład
Rzucamy dwoma kostkami; suma oczek jest zmienna˛ losowa;
˛ jest funkcja˛ określona˛
na przestrzeni zdarzeń losowych Ω:
(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6),
(2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6),
(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6),
(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6),
(5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6),
(6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)
1
.
Mamy P ((1, 1)) = P ((1, 2)) = . . . = P ((6, 6)) = 36
Suma oczek- odpowiada zmiennej losowej X, funkcji określonej na Ω, której rozkład
przedstawia tabelka:
k
2
3
4
5
6
7
8
9 10 11 12
1
2
3
4
5
6
5
4
3
2
1
P (X = k) 36
36
36
36
36
36
36
36
36
36
36
Klasy zmiennych losowych
Zmienne losowe
• dyskretne: zbiór ich wartości można ustawić w ciag;
˛ zmienna X — liczba oczek
w dwukrotnym rzucie moneta˛ jest zmienna˛ losowa˛ dyskretna;
˛
2
• typu ciagłego:
˛
prawdopodobieństwo, że wartość zmiennej losowej należy do danego przedziału [a, b] jest równe pewnej całce z tzw. funkcji g˛estości
• zmienne losowe innych typów— np. pewne sumy zmiennych losowych dyskretnych i typu ciagłego
˛
Zmienne losowe typu ciagłego
Definicja 2. Mówimy, że zmienna losowa X jest typu ciagłego,
˛
jeśli istnieje nieujemna
funkcja g, Dg = R taka, że dla każdych a < b
Z b
g(x)dx.
P (a < X < b) =
a
Rozkłady typu ciagłego-przykłady
˛
Przykładami zmiennych losowych typu ciagłego sa˛ zmienne losowe o funkcjach g˛estości równych:
• histogramowi probabilistycznemu, rozumianemu jako funkcja,
• funkcja u dana wzorem
(
1, jeśli 0 ¬ x ¬ 1,
u(x) =
0 jeśli x < 0 lub x > 1.
Zmienne losowe typu ciagłego—
˛
obliczanie prawdopodobieństw
Dla zmiennej losowej X o rozkładzie typu ciagłego
˛
mamy:
P (a < X < b) = P (a ¬ X < b) = P (a < X ¬ b) = P (a ¬ X ¬ b).
Równość ta wynika z własności całki oznaczonej.
Rozkład normalny N (µ, σ)
Szczególnie ważnym w zastosowaniach jest rozkład normalny.
Definicja 3. Mówimy, że zmienna losowa X ma rozkład normalny z parametrami µ i
σ, gdzie µ ∈ R i σ > 0, jeżeli g˛estość jej rozkładu jest określona wzorem:
φµ,σ (x) = √
(x−µ)2
1
e− 2σ2 .
2πσ
Skrótowy zapis: X ma rozkład N (µ, σ).
Rozkład normalny N (µ, σ)— c.d.
Niezależność zmiennych losowych
Nieformalna definicja
Definicja 4. Niezależne zmienne losowe oznaczaja˛ realizacje liczbowe niezależnych
eksperymentów losowych.
Ścisła definicja:
Definicja 5. Zmienne losowe X i Y sa˛ niezależne, jeżeli dla dowolnych przedziałów
[a, b] i [c, d] zachodzi:
P (X ∈ [a, b] ∧ Y ∈ [c, d]) = P (X ∈ [a, b])P (Y ∈ [c, d]).
3
0.4
0.3
0.2
0.1
0.0
−4
−2
0
2
4
Rysunek 1: Wykresy g˛estości rozkładów normalnych: N (0, 1) (linia ciagła),
˛
N (0, 2)
(linia „kropkowana”), N (2, 1) (linia „kreskowana”).
Poj˛ecie próby losowej
Definicja 6. n-elementowa losowa próba to ciag
˛ n niezależnych zmiennych losowych
o jednakowych rozkładach prawdopodobieństwa.
Uwaga. Niektórzy autorzy utożsamiaja˛ prób˛e losowa˛ X1 , X2 , . . . , Xn z jej realizacja˛
x1 , x2 , . . . , xn
Generatory liczb pseudolosowych
W arkuszach kalkulacyjnych i pakietach statystycznych dost˛epne sa˛ funkcje generuja˛
ce liczby pseudolosowe. Wektory liczb wygenerowane przez te funkcje można uważać,
w zasadzie, za realizacje n-elementowych prób losowych pochodzacych
˛
z danych rozkładów. Np. do wygenerowania realizacji n-elementowej próby losowej pochodzacej
˛ z
rozkładu normalnego N (µ, σ) można użyć funkcji rnorm(n,mu,sigma), gdzie n oznacza liczb˛e obserwacji, które należy wygenerować, mu oznacza parametr µ a sigma
parametr σ.
Liczby pseudolosowe— przykłady
> rnorm(5,176,8)
[1] 171.0904 189.6512 165.6910 180.8540 174.2689
> rnorm(5,176,8)
[1] 178.4315 182.7326 170.6587 178.3017 173.7952
Można przyjać,
˛ że dwa wektory 5-wymiarowe otrzymane w wyniku działania funkcji
rnorm sa˛ realizacjami 5-elementowej próby prostej pochodzacej
˛ z rozkładu normalnego N (176, 8).
Zastosowanie do problemu weryfikacji hipotezy dotyczacej
˛ średniej
4
0.00
0.01
0.02
Density
0.03
0.04
0.05
Histogram of v1
150
160
170
180
190
200
v1
Rysunek 2: Histogram dla danych składajacych
˛
si˛e z 50 liczb wygenerowanych przez
generator liczb pseudolosowych o rozkładzie N(176,8)
0.03
0.00
0.01
0.02
Density
0.04
0.05
Histogram of v1
150
160
170
180
190
200
v1
Rysunek 3: Histogram dla danych składajacych
˛
si˛e z 200 liczb wygenerowanych przez
generator liczb pseudolosowych o rozkładzie N(176,8)
Zakładamy, że próba x1 , x2 , . . . , xn jest realizacja˛ próby losowej X1 , X2 , . . . , Xn pochodzacej
˛ z rozkładu normalnego N (µ, σ) dla pewnych nieznanych parametrów µ ∈ R
oraz σ > 0.
Parametr µ jest wartościa˛ średnia˛ zmiennej losowej o rozkładzie N (µ, σ).
Jesteśmy zainteresowani weryfikacja˛ hipotezy:
H0 : µ = µ0
przeciwko hipotezie
H1 : µ 6= µ0 .
W naszym przykładzie:µ = 98,6 stopni w skali Fahrenheita.
Statystyka testowa i jej rozkład
Procedur˛e testowa˛ chcemy oprzeć na wartościach zmiennej losowej (tzw. statystyki
testowej)
X̄ − µ0
X̄ − µ0 √
√ =
Tn−1 =
n,
ŝ
ŝ/ n
5
0.03
0.00
0.01
0.02
Density
0.04
0.05
Histogram of v1
150
160
170
180
190
200
210
v1
Rysunek 4: Histogram dla danych składajacych
˛
si˛e z 2000 liczb wygenerowanych
przez generator liczb pseudolosowych o rozkładzie N(176,8)
gdzie i
v
u
n
u 1 X
X1 + . . . + Xn
i ŝ = t
(Xi − X̄)2 .
X̄ =
n
n − 1 i=1
Zwróćmy uwag˛e na to, że X̄ i ŝ sa˛ zmiennymi losowymi— sa˛ funkcjami zmiennych losowych X1 , . . . , Xn . Zakładamy, że sa˛ one niezależne oraz że każda z nich ma rozkład
N (µ, σ). Można pokazać, że Tn−1 ma rozkład t-Studenta z n − 1 stopniami swobody.
Zagadnienie estymacji parametrów rozkładu N (µ, σ)
X̄ i ŝ sa˛ optymalnymi estymatorami parametrów µ i σ ze wzgl˛edu na powszechnie
przyj˛ete kryteria. Ich realizacje (dla danych wartości liczbowych x1 , . . . , xn — realizacji próby X1 , . . . , Xn ) sa˛ sensownymi oszacowaniami µ i σ.
0.2
0.0
0.1
y
0.3
0.4
Rozkład t-Studenta
−3
−2
−1
0
1
2
3
x
Rysunek 5: Wykresy g˛estości rozkładów normalnych: normalnego N (0, 1) (linia cia˛
gła), t-Studenta z dwoma 4 st. swobody (linia „kropkowana”), t-Studenta z 12 st. swobody (linia „kreskowana”).
6
Obszar krytyczny testu
Niech t1−α/2,n−1 b˛edzie liczba˛ wyznaczona˛ przez warunek
P r(Tn−1 < t1−α/2,n−1 ) = 1 − α/2.
Test dla weryfikacji H0 przeciw H1 określamy:
przyjmij H0 gdy |Tn−1 | ¬ t1−α/2,n−1 ;
odrzuć H0 gdy |Tn−1 | > t1−α/2,n−1 ;
α jest równe prawdopodobieństwu, że H0 zostanie odrzucona w wyniku przeprowadzenia powyższej procedury testowej mimo tego, że jest ona prawdziwa
α— współczynnik istotności testowania hipotezy H0 przeciw hipotezie H1 .
W zasadzie α może być dowolna˛ liczba˛ z przedziału (0, 1). Zazwyczaj przyjmujemy
α = 0,05; rzadziej α = 0,01 lub α = 0,001.
Weryfikacja hipotezy dotyczacej
˛ średniej temperatury zdrowego człowieka— obliczenia
n = 130 Wartość statystyki testowej (przez t oznaczamy realizacj˛e statystyki testowej
Tn−1 )
98,25 − 98,6 √
130 ≈ −5,44.
t=
0,733
Mamy:
|t| = 5,44 > t0,975,129 = 1,978524;
wartość t0,975,129 odczytujemy z odpowiednich tablic. A wi˛ec sa˛ podstawy do odrzucenia hipotezy H0 (przy przyj˛etym poziomie istotnosci α = 0,05).
7