1 - E-SGH

Transkrypt

1 - E-SGH
Statystyka
Wykład 4
dr Anna Matysiak
Instytut Statystyki i Demografii, SGH
Metody Statystyczne
Metody statystyczne
Statystyka
opisowa
Wnioskowanie statystyczne
Estymacja
Weryfikacja hipotez
Proces wnioskowania
Estymacja &
testowanie
parametrów
populacji
Statystyki
z próby
(Zn)
Populacja
Próba
Wnioskowanie statystyczne
• Estymacja – szacowanie parametrów w
populacji na podstawie informacji z próby
• Testowanie hipotez o wartości parametrów
w populacji – czy parametr jest „>”, „<” czy
„≠” od wartości statystyki obliczonej na
podstawie próby
Podstawowe pojęcia
• Wnioskowanie statystyczne to wnioskowanie o wartości
parametru w populacji na podstawie informacji z próby
(na podstawie statystyk z próby).
• Parametr (w populacji) – statystyka opisowa obliczona
na podstawie danych z całej populacji, jej wartość jest
najczęściej nieznana i wymaga oszacowania,
• Próba losowa – zbiór n elementów wybranych w
sposób losowy z populacji; inaczej ciąg n zmiennych
losowych (X1, X2,... Xn ) niezależnych o identycznych
rozkładach takich jak zmiennej losowej X w populacji
Przykład
• Przyjmijmy, że wykonujemy serię doświadczeń
polegających na trzykrotnym rzucie monetą. Oznaczmy
0-orzeł, 1-reszka
Nr doświadczenia
x1
x2
x3
1
1
1
1
2
1
1
0
3
1
0
1
4
1
0
0
5
0
1
1
6
0
1
0
7
0
0
1
8
0
0
0
Badana zmienna losowa
X- wynik rzutu (orzeł lub reszka);
ma rozkład określony
prawdopodobieństwami (Xi=i)=1/2
Z populacji pobraliśmy serię 3elementowych prób
Rezultat rzutu
Przykład
• Przyjmijmy, że wykonujemy serię doświadczeń
polegających na trzykrotnym rzucie monetą. Oznaczmy
0-orzeł, 1-reszka
Nr doświadczenia
x1
x2
x3
1
1
1
1
2
1
1
0
3
1
0
1
4
1
0
0
5
0
1
1
6
0
1
0
7
0
0
1
8
0
0
0
Badana zmienna losowa
X- wynik rzutu (orzeł lub reszka); ma
rozkład określony
prawdopodobieństwami (Xi=i)=1/2
Realizacje zmiennej
losowej X1 – orzeł / reszka
w I rzucie
Realizacje zmiennej
losowej X3 – orzeł / reszka
w III rzucie
Przykład
• Przyjmijmy, że wykonujemy serię doświadczeń
polegających na trzykrotnym rzucie monetą. Oznaczmy
0-orzeł, 1-reszka
Nr doświadczenia
x1
x2
x3
1
1
1
1
2
1
1
0
3
1
0
1
4
1
0
0
5
0
1
1
6
0
1
0
7
0
0
1
8
0
0
0
Badana zmienna losowa
X- wynik rzutu (orzeł lub reszka);
ma rozkład określony
prawdopodobieństwami (Xi=i)=1/2
X1, X2,X3 to niezależne zmienne
losowe o rozkładach identycznych
z rozkładem zmiennej X. Realizacje
tych zmiennych losowych tworzą
próbę losową.
Podstawowe pojęcia
• Statystyka z próby – statystyka opisowa obliczona na
podstawie danych z próby. Jest zmienną losową Zn
będącą funkcją zmiennych X1, X2,... Xn , które tworzą
próbę losową, np. średnia w próbie, wariancja w próbie,
frakcja w próbie.
• Rozkład statystyki z próby jest określony przez
wartości statystyki z próby oraz prawdopodobieństwa
wystąpienia tych wartości.
Przykład
Nr doświadczenia
x1
x2
x3
średnia
1
1
1
1
1
2
1
1
0
2/3
3
1
0
1
2/3
4
1
0
0
1/3
5
0
1
1
2/3
6
0
1
0
1/3
7
0
0
1
1/3
8
0
0
0
0
Rozkład zmiennej losowej X:
X
P(x=i)
1
0
1/2
1/2
Rozkład średniej z próby:
x
P( x =j)
0
1/3
2/3
1
1/8
3/8
3/8
1/8
Rozkłady średniej z próby
1. z populacji normalnej ze znanym σ
2. z populacji normalnej z nieznanym σ
3. graniczny, z populacji o dowolnym
rozkładzie
Rozkład średniej z próby
z populacji o rozkładzie N ( µ , σ )
Średnia arytmetyczna z próby X =
∑X
i
i
n
posiada przy powyższych założeniach rozkład normalny
ze średnią E (X ) = µ
σ
i odchyleniem standardowym D( X ) =
n
X ~ N (µ ,
σ
n
)
Im liczebność próby większa
tym , zróżnicowanie średniej
z próby względem średniej w
populacji mniejsze
Przykład
Wiedząc, że waga noworodków chłopców (X w kg) może być
aproksymowana za pomocą rozkładu normalnego : N(4; 0.8), oblicz, jakie
jest prawdopodobieństwo, że:
A) losowo wybrany noworodek-chłopiec będzie ważył powyżej 3,8 kg;
B) średnia waga w grupie 25 noworodków będzie większa od 3,8 kg?
Przykład
f(X)
X ~ N (4;0,8)
B
σx= 0.8
0,8
X ~ N (4;
) → X ~ N (4;0,16)
25
n =25
σX = 0.16
A
X
µ =4
A. Rozkład populacji
B. Rozkład próby
Przykład
A) Prawdopodobieństwo, że losowo wybrany noworodek-chłopiec
będzie ważył powyżej 3,8 kg:
X ~ N (4;0,8)
P(X>3,8) = P(Z>(3,8-4)/0,8)=P(Z>-0,25) = 1-P(Z<-0,25) = 1-F(-0,25) =
F(0,25)=0.5987
B) Prawdopodobieństwo, że średnia waga w grupie 25 noworodków
będzie większa od 3,8 kg?
0,8
X ~ N (4;
) → X ~ N (4;0,16)
25
P(X>3,8) = P(Z>(3.8-4)/0.16) = P(Z> -1.25) = 1-P(Z<-1,25) =
= 1-F(-1.25)= 0.8944
Rozkład średniej z próby
z populacji o rozkładzie N ( µ , σ )
σ - nieznane
Do wnioskowania o średniej wykorzystuje się
statystykę X − µ
t=
S
n
gdzie S – odchylenie standardowe
Statystyka t ma rozkład t-Studenta z v=n-1 stopniami
swobody
ROZKŁAD t-Studenta
Jeśli zmienna losowa ciągła t ma funkcję gęstości postaci:
 v +1
v +1
Γ

2−
2   t 2

f (t ) =
1 + 
v
v
vπ Γ  
2
gdzie:
dla
t ∈(−∞,+∞)
+∞
Γ(x ) = ∫ t x −1 ⋅ e −t dt
0
to zmienna losowa t ma rozkład t-Studenta
Kształt funkcji gęstości rozkładu t-Studenta przypomina kształt funkcji
gęstości rozkładu normalnego (krzywą Gaussa)
Jest to rozkład symetryczny zawsze względem wartości 0
Przy t ±∞ wartości funkcji f(t) zbiegają do 0
ROZKŁAD t-Studenta
ROZKŁAD t-Studenta
W tym rozkładzie jedynym parametrem (jedyną stałą) jest
„liczba stopni swobody” v
Oznacza to, że kształt wykresu funkcji f(t) zależy tylko od wartości v
y=student(x;30)
y=student(x;15)
y=student(x;2)
0,5
0,5
0,5
v=2
0,4
v=
15
0,4
0,3
0,3
0,2
0,2
0,1
0,1
0,3
0,2
0,1
0,0
0,0
0,0
-3
-2
-1
0
1
2
-3
3
v=
30
0,4
-2
-1
0
1
2
3
-3
-2
-1
0
1
Dla v > 30 rozkład t-Studenta jest zbieżny z rozkładem standardowym
normalnym N(0,1)
Parametry w tym rozkładzie:
1.
2.
Wartość oczekiwana E(t) = 0
2
Wariancja D (t) =
v
v −2
2
3
ROZKŁAD t-Studenta
Wartości prawdopodobieństw w rozkładzie t-Studenta zostały policzone
i zawierają je tablice statystyczne – wartości krytyczne rozkładu
t-Studenta.
Są to wartości obliczone dla warunku: P( t ≥ tα ,v ) = α
y=student(x;6)
0,5
0,4
1-α
0,3
0,2
α/2
0,1
α/2
0,0
-3
-tα,v
-2
-1
0
1
2
3
tα,v
Dla v = 8
P ( t ≥ 1,86) = 0,1
Przykład
Na podstawie danych o wysokości opłat (€) za wizytę u lekarza
internisty w krajach Unii Europejskiej ustalono, że rozkład opłat
był zgodny z rozkładem normalnym o przeciętnej równej 33,68
€. Oblicz prawdopodobieństwo, że przeciętna opłata przekroczy
48 €, jeśli dodatkowo wiadomo, że w grupie tych krajów
odchylenie standardowe wyniosło 23,10€.
X~ N(33,68; σ)
33,68 − 48
P( X > 48) = P(t >
9 ) = P(t > 1,86) =
23,1
= 0,5 ⋅ P(| t |> 1,86) = 0,5 ⋅ 0,1 = 0,05
Rozkład średniej z próby
z populacji o nieznanym
rozkładzie
Określeniu rozkładu średniej z próby służy tw.
graniczne Linderberga-Levy’ego o zbieżności
rozkładu sumy niezależnych zmiennych losowych do
rozkładu normalnego
Twierdzenie Lindeberga – Lévy’ego
Jeśli zmienna losowa Zn jest sumą
n niezależnych zmiennych losowych
o identycznych rozkładach,
n
Zn = X1 + X 2 + K + X n = ∑ X i
i =1
to rozkładem granicznym dla zmiennej Zn Czyli każda ze zmiennych
ma taką samą wartość
jest rozkład normalny o parametrach
E (Z n ) = nE ( X )
oraz
D 2 (Z n ) = nD 2 ( X )
czyli
Z n ~ N (nE ( X ); n D( X ))
oczekiwaną E(X) i taką
samą wariancję D2(X)
W ogóle nie jest ważne,
jaki jest to rozkład, byle
tylko był identyczny dla
wszystkich zmiennych
Twierdzenie Lindeberga – Lévy’ego
Praktycznym wnioskiem z tego twierdzenia jest określenie
granicznego rozkładu średniej arytmetycznej zmiennych losowych
Jeśli bowiem Vn jest średnią z n niezależnych zmiennych losowych
n
o identycznych rozkładach,
Xi
∑
X + X 2 + K + X n i =1
Vn = 1
=
to rozkładem granicznym dla zmiennej Vn
n
jest rozkład normalny o parametrach
D2 (X )
2
E (Vn ) = E ( X )
oraz D (Vn ) =
n
czyli
D( X )
Vn ~ N ( E ( X );
)
n
n
Czyli każda ze zmiennych ma
taką samą wartość oczekiwaną
E(X) i taką samą wariancję
D2(X)
Ponownie w ogóle nie jest
ważne, jaki jest to rozkład,
byle tylko był identyczny dla
wszystkich zmiennych
Twierdzenie Lindeberga – Lévy’ego
Podsumowując:
Na mocy twierdzenia Lindeberga – Lévy’ego wiemy, że:
1. Suma zmiennych losowych niezależnych i o identycznych
rozkładach ma rozkład graniczny N (nE ( X ); n D ( X ))
2.
Średnia ze zmiennych losowych niezależnych i o identycznych
rozkładach ma rozkład graniczny N ( E ( X ); D( X ))
n
Pamiętajmy, że chodzi o rozkład graniczny, czyli o pewne przybliżenie;
Dlatego oba poznane dziś twierdzenia powinno się stosować tylko dla
dużych n (n>=100)
Przy niewielkich liczebnościach różnice między wynikami dokładnymi
a przybliżonymi (właśnie na podstawie twierdzeń granicznych) będą zbyt
duże.
Rozkład
zmiennej w
populacji
Rozkład średniej z próby
Przy dużych próbach
rozkład średniej z
próby nie zależy od
rozkładu średniej w
populacji
Rozkład średniej
n=2
n=5
x
n=30
Przykład
Statystykę na SGH zalicza się w formie standardowego egzaminu.
Co roku pisze go około 1000 studentów. Na egzaminie można uzyskać
od 0 do 40 punktów.
Liczba punktów, jaką może uzyskać dowolny pojedynczy
(k-ty) student, jest zmienną losową. Nazwijmy ją Xk.
Przyjmijmy, że na egzaminie każdy student pracuje zupełnie
samodzielnie, a więc wyniki studentów nie zależą od siebie zmienne
Xk są niezależne.
Przyjmijmy, że rozkład zmiennych Xk jest identyczny. Co prawda nie
wiemy jaki on jest, ale jest identyczny dla każdego ze studentów.
Ponadto po analizie wyników lat ubiegłych okazało się, że studenci z
egzaminu dostają przeciętnie 29 punktów (E(X) = 29) z odchyleniem
standardowym 6 punktów (D(X) = 6).
Jakie jest prawdopodobieństwo, że w tym roku średnia liczba punktów,
które uzyskają studenci, nie będzie niższa od 22,4?
(czyli że średnio biorąc wszyscy zdadzą)
Przykład
Dane:
n = 1000
E(X) = 29
D(X) = 6
Jakie jest prawdopodobieństwo, że w tym roku średnia liczba punktów,
które uzyskają studenci, nie będzie niższa od 22,4?
1000
Średnia liczba punktów - V1000
Xi
X 1 + X 2 + K + X 1000 ∑
=
= i =1
1000
1000
V ~ N ( E ( X );
D( X )
)
n
V1000 ~ N (29;
6
)
1000
standaryzacja


V
X − E( X )
− 29 22 , 4 − 29 
U
=
P (V1000 ≥ 22 , 4 ) = P  1000
≥
=

6
6
D( X )


1000
1000 

= P (U ≥ − 34 ,785 ) = 1 − P (U < − 34 ,785 ) = 1 − F ( − 34 ,785 ) = F (34 ,785 ) = 0,999999
Przykład
Jakie jest prawdopodobieństwo, że w tym roku średnia liczba
punktów, które uzyskają studenci, nie będzie niższa od 22,4?
Prawdopodobieństwo to wynosi 99,9999%
Przykład
Moglibyśmy również zapytać, jakie jest prawdopodobieństwo,
że w tym roku wszyscy studenci uzyskają z egzaminu
mniej niż 29 500 punktów łącznie
Dane:
n = 1000
E(X) = 29
D(X) = 6
1000
Suma punktów 1000 studentów , czyli T1000 = X 1 + X 2 + K + X 1000 = ∑ X i
i =1
Tn ~ N (nE ( X ); n D( X ))
T1000 ~ N (1000 E ( X ); 1000 D ( X ))
T1000 ~ N ( 29000;189,74)
Przykład
P (T1000 < 29500 ) = ?
T1000 ~ N (29000;189,74)
 T1000 − 29000 29500 − 29000 
P (T1000 < 29500 ) = P 
<
=
189
,
74
189
,
74


= P (U < 2,63 ) = F ( 2,63 ) = 0,9957
standaryzacja
U=
Jakie jest prawdopodobieństwo, że w
tym roku wszyscy studenci uzyskają z
egzaminu
mniej niż 29 500 punktów łącznie
Prawdopodobieństwo to wynosi
99,57%
X − E( X )
D( X )
Rozkłady średniej z próby
1. Populacja o rozkładzie
normalnym, σ znana
2. Populacja o rozkładzie
normalnym, σ nieznana, n>30
3. Populacja o rozkładzie
dowolnym, σ znana, n>=100
x ~ N (µ ,
σ
n
)
Mała próba (n<=30),
populacja o rozkładzie
normalnym, σ nieznana
x−µ
~ t − Student
S
n
Rozkłady różnicy średnich
1. z populacji normalnych ze znanym σ1 i
σ2
2. z populacji normalnej z nieznanym σ1 i
σ2
Rozkład różnicy średnich
z populacji o rozkładach normalnych i
znanych σ1 i σ2
Jeśli X1 : N( µ1 , σ1) oraz X2 :N( µ2 , σ2)
to (z własności rozkładu x oraz własności addytywności
rozkładu normalnego)
różnica średnich z próby:
x1 − x2 ~ N ( µ1 − µ 2 ,
σ 12
n1
+
σ 22
n2
)
Przykład
Wiadomo, że mieszkańcy miast wydają na książki przeciętnie 500 zł
rocznie z odchyleniem standardowym 100zł , natomiast mieszkańcy
wsi 350 zł z odchyleniem standardowym 50zł. Wiedząc, że rozkład
wydatków na książki zarówno w mieście jak i na wsi jest rozkładem
normalnym, oblicz prawdopodobieństwo zdarzenia, że średnie wydatki
na książki w 50-elementowej próbie w mieście są większe od średnich
wydatków na książki w 60-elementowej próbie na wsi o ponad 120zł.
X1 – wydatki mieszkańców miast na książki, X1 ~ N(500,100)
X2 – wydatki mieszkańców wsi na książki, X2 ~ N(350,50)
X1 ~ N(500,
X 2 ~ N(350,
100
50
60
50
)
)
P ( X 1 > X 2 + 120) = P ( X 1 − X 2 > 120) =




( X − X 2 ) − (500 − 350)
120 − 150
=
= 1 − P 1
≤

10000 250
10000 2500 
+
+


50
60
50
60


=1-P(U≤-1,93)=F(1,93) = 0,9732
Rozkład różnicy średnich
z populacji o rozkładach normalnych i
nieznanych σ1 i σ2
Jeśli X1 : N( µ1 , σ1) oraz X2 :N( µ2 , σ2) oraz σ1 = σ2
to to do wnioskowania o różnicy średnich wykorzystuje się
statystykę:
t=
( x1 − x2 ) − ( µ1 − µ 2 )
1 1
S  + 
 n1 n2 
2
p
gdzie:
2
2
(
n
−
1
)
S
+
(
n
−
1
)
S
1
2
2
S p2 = 1
n1 + n2 − 2
która ma rozkład t-Studenta
z v = n1 + n2 - 2 stopniami
swobody
Rozkłady różnicy średnich
1. Populacje o rozkładach
normalnych, σ1 i σ2 znane
2. Populacje o rozkładach
normalnych, σ1 i σ2 nieznane,
n>30
3. Populacje o rozkładach
dowolnych, σ1 i σ2 znane,
n>=100
x1 − x2 ~ N ( µ1 − µ 2 ,
σ
2
1
n1
+
σ
2
2
n2
Małe próby (n1+n2-2<=30),
populacje o rozkładach
normalnych, σ1=σ2 ale
nieznane
t=
)
( x1 − x2 ) − ( µ1 − µ 2 )
1 1
S  + 
 n1 n2 
2
p
Rozkłady frakcji z próby
Rozkład frakcji z próby
Określeniu rozkładu średniej z próby służy tw.
graniczne de Moivre’a -Laplace’a o zbieżności
rozkładu dwumianowego do rozkładu normalnego
(n>=100)
Twierdzenie de Moivre’a – Laplace’a
Dowiedziono, że:
dla dostatecznie dużej liczby doświadczeń (czyli liczby n)
dystrybuantą graniczną dla dystrybuanty rozkładu dwumianowego
jest dystrybuanta rozkładu normalnego
o parametrach E(X)=n*p oraz D2(X) = n*p * (1 – p) = n*p*q,
czyli
N (n ⋅ p, n ⋅ p ⋅ q )
Praktyczne znaczenie tego twierdzenia jest następujące:
Jeśli liczba doświadczeń jest duża
(w praktyce zwykle przynajmniej 100), to prawdopodobieństwo – dla
odpowiedniego rozkładu dwumianowego – można wyznaczyć korzystając z
rozkładu normalnego
Wynik uzyskany w ten sposób będzie przybliżony, a przybliżenie będzie tym
lepsze, im liczba doświadczeń będzie większa
Rozkład frakcji z próby
Jeśli X jest zmienną losową o rozkładzie dwumianowym z
parametrami p i n,
to (z twierdzenie de Moivre’a-Laplace’a)
X
pˆ = ~ N ( p,
n
p (1 − p )
)
n
Przykład
Ostatnie badania pt. “Polak w Internecie” wykazały, że 86%
młodych Polaków łączy się z siecią co najmniej raz w tygodniu.
Oblicz prawdopodobieństwo, że w próbie 150 młodych Polaków
odsetek osób łączących z siecią nie przekroczy 83%.
X – liczba osób łączących się z siecią
p̂ – odsetek osób łączących się z siecią
p=0,86
0,86(1 − 0,86)
pˆ ~ N (0,86;
) → pˆ ~ N (0,86;0,028)
150
P( pˆ < 0,83) = P(U < (0,83 − 0,86) / 0.028) = F (−1,07) = 0,1423
Rozkład różnicy frakcji
Jeśli zmienne losowe X1, X2 mają rozkłady dwumianowe
z parametrami, odpowiednio p1 i n1 oraz p2 i n2,
to (z twierdzenie de Moivre’a-Laplace’a oraz addytywności
rozkładów normalnych):
pˆ 1 − pˆ 2 ~ N ( p1 − p2 ,
p1 (1 − p1 ) p2 (1 − p2 )
+
)
n1
n2