1 - E-SGH
Transkrypt
1 - E-SGH
Statystyka Wykład 4 dr Anna Matysiak Instytut Statystyki i Demografii, SGH Metody Statystyczne Metody statystyczne Statystyka opisowa Wnioskowanie statystyczne Estymacja Weryfikacja hipotez Proces wnioskowania Estymacja & testowanie parametrów populacji Statystyki z próby (Zn) Populacja Próba Wnioskowanie statystyczne • Estymacja – szacowanie parametrów w populacji na podstawie informacji z próby • Testowanie hipotez o wartości parametrów w populacji – czy parametr jest „>”, „<” czy „≠” od wartości statystyki obliczonej na podstawie próby Podstawowe pojęcia • Wnioskowanie statystyczne to wnioskowanie o wartości parametru w populacji na podstawie informacji z próby (na podstawie statystyk z próby). • Parametr (w populacji) – statystyka opisowa obliczona na podstawie danych z całej populacji, jej wartość jest najczęściej nieznana i wymaga oszacowania, • Próba losowa – zbiór n elementów wybranych w sposób losowy z populacji; inaczej ciąg n zmiennych losowych (X1, X2,... Xn ) niezależnych o identycznych rozkładach takich jak zmiennej losowej X w populacji Przykład • Przyjmijmy, że wykonujemy serię doświadczeń polegających na trzykrotnym rzucie monetą. Oznaczmy 0-orzeł, 1-reszka Nr doświadczenia x1 x2 x3 1 1 1 1 2 1 1 0 3 1 0 1 4 1 0 0 5 0 1 1 6 0 1 0 7 0 0 1 8 0 0 0 Badana zmienna losowa X- wynik rzutu (orzeł lub reszka); ma rozkład określony prawdopodobieństwami (Xi=i)=1/2 Z populacji pobraliśmy serię 3elementowych prób Rezultat rzutu Przykład • Przyjmijmy, że wykonujemy serię doświadczeń polegających na trzykrotnym rzucie monetą. Oznaczmy 0-orzeł, 1-reszka Nr doświadczenia x1 x2 x3 1 1 1 1 2 1 1 0 3 1 0 1 4 1 0 0 5 0 1 1 6 0 1 0 7 0 0 1 8 0 0 0 Badana zmienna losowa X- wynik rzutu (orzeł lub reszka); ma rozkład określony prawdopodobieństwami (Xi=i)=1/2 Realizacje zmiennej losowej X1 – orzeł / reszka w I rzucie Realizacje zmiennej losowej X3 – orzeł / reszka w III rzucie Przykład • Przyjmijmy, że wykonujemy serię doświadczeń polegających na trzykrotnym rzucie monetą. Oznaczmy 0-orzeł, 1-reszka Nr doświadczenia x1 x2 x3 1 1 1 1 2 1 1 0 3 1 0 1 4 1 0 0 5 0 1 1 6 0 1 0 7 0 0 1 8 0 0 0 Badana zmienna losowa X- wynik rzutu (orzeł lub reszka); ma rozkład określony prawdopodobieństwami (Xi=i)=1/2 X1, X2,X3 to niezależne zmienne losowe o rozkładach identycznych z rozkładem zmiennej X. Realizacje tych zmiennych losowych tworzą próbę losową. Podstawowe pojęcia • Statystyka z próby – statystyka opisowa obliczona na podstawie danych z próby. Jest zmienną losową Zn będącą funkcją zmiennych X1, X2,... Xn , które tworzą próbę losową, np. średnia w próbie, wariancja w próbie, frakcja w próbie. • Rozkład statystyki z próby jest określony przez wartości statystyki z próby oraz prawdopodobieństwa wystąpienia tych wartości. Przykład Nr doświadczenia x1 x2 x3 średnia 1 1 1 1 1 2 1 1 0 2/3 3 1 0 1 2/3 4 1 0 0 1/3 5 0 1 1 2/3 6 0 1 0 1/3 7 0 0 1 1/3 8 0 0 0 0 Rozkład zmiennej losowej X: X P(x=i) 1 0 1/2 1/2 Rozkład średniej z próby: x P( x =j) 0 1/3 2/3 1 1/8 3/8 3/8 1/8 Rozkłady średniej z próby 1. z populacji normalnej ze znanym σ 2. z populacji normalnej z nieznanym σ 3. graniczny, z populacji o dowolnym rozkładzie Rozkład średniej z próby z populacji o rozkładzie N ( µ , σ ) Średnia arytmetyczna z próby X = ∑X i i n posiada przy powyższych założeniach rozkład normalny ze średnią E (X ) = µ σ i odchyleniem standardowym D( X ) = n X ~ N (µ , σ n ) Im liczebność próby większa tym , zróżnicowanie średniej z próby względem średniej w populacji mniejsze Przykład Wiedząc, że waga noworodków chłopców (X w kg) może być aproksymowana za pomocą rozkładu normalnego : N(4; 0.8), oblicz, jakie jest prawdopodobieństwo, że: A) losowo wybrany noworodek-chłopiec będzie ważył powyżej 3,8 kg; B) średnia waga w grupie 25 noworodków będzie większa od 3,8 kg? Przykład f(X) X ~ N (4;0,8) B σx= 0.8 0,8 X ~ N (4; ) → X ~ N (4;0,16) 25 n =25 σX = 0.16 A X µ =4 A. Rozkład populacji B. Rozkład próby Przykład A) Prawdopodobieństwo, że losowo wybrany noworodek-chłopiec będzie ważył powyżej 3,8 kg: X ~ N (4;0,8) P(X>3,8) = P(Z>(3,8-4)/0,8)=P(Z>-0,25) = 1-P(Z<-0,25) = 1-F(-0,25) = F(0,25)=0.5987 B) Prawdopodobieństwo, że średnia waga w grupie 25 noworodków będzie większa od 3,8 kg? 0,8 X ~ N (4; ) → X ~ N (4;0,16) 25 P(X>3,8) = P(Z>(3.8-4)/0.16) = P(Z> -1.25) = 1-P(Z<-1,25) = = 1-F(-1.25)= 0.8944 Rozkład średniej z próby z populacji o rozkładzie N ( µ , σ ) σ - nieznane Do wnioskowania o średniej wykorzystuje się statystykę X − µ t= S n gdzie S – odchylenie standardowe Statystyka t ma rozkład t-Studenta z v=n-1 stopniami swobody ROZKŁAD t-Studenta Jeśli zmienna losowa ciągła t ma funkcję gęstości postaci: v +1 v +1 Γ 2− 2 t 2 f (t ) = 1 + v v vπ Γ 2 gdzie: dla t ∈(−∞,+∞) +∞ Γ(x ) = ∫ t x −1 ⋅ e −t dt 0 to zmienna losowa t ma rozkład t-Studenta Kształt funkcji gęstości rozkładu t-Studenta przypomina kształt funkcji gęstości rozkładu normalnego (krzywą Gaussa) Jest to rozkład symetryczny zawsze względem wartości 0 Przy t ±∞ wartości funkcji f(t) zbiegają do 0 ROZKŁAD t-Studenta ROZKŁAD t-Studenta W tym rozkładzie jedynym parametrem (jedyną stałą) jest „liczba stopni swobody” v Oznacza to, że kształt wykresu funkcji f(t) zależy tylko od wartości v y=student(x;30) y=student(x;15) y=student(x;2) 0,5 0,5 0,5 v=2 0,4 v= 15 0,4 0,3 0,3 0,2 0,2 0,1 0,1 0,3 0,2 0,1 0,0 0,0 0,0 -3 -2 -1 0 1 2 -3 3 v= 30 0,4 -2 -1 0 1 2 3 -3 -2 -1 0 1 Dla v > 30 rozkład t-Studenta jest zbieżny z rozkładem standardowym normalnym N(0,1) Parametry w tym rozkładzie: 1. 2. Wartość oczekiwana E(t) = 0 2 Wariancja D (t) = v v −2 2 3 ROZKŁAD t-Studenta Wartości prawdopodobieństw w rozkładzie t-Studenta zostały policzone i zawierają je tablice statystyczne – wartości krytyczne rozkładu t-Studenta. Są to wartości obliczone dla warunku: P( t ≥ tα ,v ) = α y=student(x;6) 0,5 0,4 1-α 0,3 0,2 α/2 0,1 α/2 0,0 -3 -tα,v -2 -1 0 1 2 3 tα,v Dla v = 8 P ( t ≥ 1,86) = 0,1 Przykład Na podstawie danych o wysokości opłat (€) za wizytę u lekarza internisty w krajach Unii Europejskiej ustalono, że rozkład opłat był zgodny z rozkładem normalnym o przeciętnej równej 33,68 €. Oblicz prawdopodobieństwo, że przeciętna opłata przekroczy 48 €, jeśli dodatkowo wiadomo, że w grupie tych krajów odchylenie standardowe wyniosło 23,10€. X~ N(33,68; σ) 33,68 − 48 P( X > 48) = P(t > 9 ) = P(t > 1,86) = 23,1 = 0,5 ⋅ P(| t |> 1,86) = 0,5 ⋅ 0,1 = 0,05 Rozkład średniej z próby z populacji o nieznanym rozkładzie Określeniu rozkładu średniej z próby służy tw. graniczne Linderberga-Levy’ego o zbieżności rozkładu sumy niezależnych zmiennych losowych do rozkładu normalnego Twierdzenie Lindeberga – Lévy’ego Jeśli zmienna losowa Zn jest sumą n niezależnych zmiennych losowych o identycznych rozkładach, n Zn = X1 + X 2 + K + X n = ∑ X i i =1 to rozkładem granicznym dla zmiennej Zn Czyli każda ze zmiennych ma taką samą wartość jest rozkład normalny o parametrach E (Z n ) = nE ( X ) oraz D 2 (Z n ) = nD 2 ( X ) czyli Z n ~ N (nE ( X ); n D( X )) oczekiwaną E(X) i taką samą wariancję D2(X) W ogóle nie jest ważne, jaki jest to rozkład, byle tylko był identyczny dla wszystkich zmiennych Twierdzenie Lindeberga – Lévy’ego Praktycznym wnioskiem z tego twierdzenia jest określenie granicznego rozkładu średniej arytmetycznej zmiennych losowych Jeśli bowiem Vn jest średnią z n niezależnych zmiennych losowych n o identycznych rozkładach, Xi ∑ X + X 2 + K + X n i =1 Vn = 1 = to rozkładem granicznym dla zmiennej Vn n jest rozkład normalny o parametrach D2 (X ) 2 E (Vn ) = E ( X ) oraz D (Vn ) = n czyli D( X ) Vn ~ N ( E ( X ); ) n n Czyli każda ze zmiennych ma taką samą wartość oczekiwaną E(X) i taką samą wariancję D2(X) Ponownie w ogóle nie jest ważne, jaki jest to rozkład, byle tylko był identyczny dla wszystkich zmiennych Twierdzenie Lindeberga – Lévy’ego Podsumowując: Na mocy twierdzenia Lindeberga – Lévy’ego wiemy, że: 1. Suma zmiennych losowych niezależnych i o identycznych rozkładach ma rozkład graniczny N (nE ( X ); n D ( X )) 2. Średnia ze zmiennych losowych niezależnych i o identycznych rozkładach ma rozkład graniczny N ( E ( X ); D( X )) n Pamiętajmy, że chodzi o rozkład graniczny, czyli o pewne przybliżenie; Dlatego oba poznane dziś twierdzenia powinno się stosować tylko dla dużych n (n>=100) Przy niewielkich liczebnościach różnice między wynikami dokładnymi a przybliżonymi (właśnie na podstawie twierdzeń granicznych) będą zbyt duże. Rozkład zmiennej w populacji Rozkład średniej z próby Przy dużych próbach rozkład średniej z próby nie zależy od rozkładu średniej w populacji Rozkład średniej n=2 n=5 x n=30 Przykład Statystykę na SGH zalicza się w formie standardowego egzaminu. Co roku pisze go około 1000 studentów. Na egzaminie można uzyskać od 0 do 40 punktów. Liczba punktów, jaką może uzyskać dowolny pojedynczy (k-ty) student, jest zmienną losową. Nazwijmy ją Xk. Przyjmijmy, że na egzaminie każdy student pracuje zupełnie samodzielnie, a więc wyniki studentów nie zależą od siebie zmienne Xk są niezależne. Przyjmijmy, że rozkład zmiennych Xk jest identyczny. Co prawda nie wiemy jaki on jest, ale jest identyczny dla każdego ze studentów. Ponadto po analizie wyników lat ubiegłych okazało się, że studenci z egzaminu dostają przeciętnie 29 punktów (E(X) = 29) z odchyleniem standardowym 6 punktów (D(X) = 6). Jakie jest prawdopodobieństwo, że w tym roku średnia liczba punktów, które uzyskają studenci, nie będzie niższa od 22,4? (czyli że średnio biorąc wszyscy zdadzą) Przykład Dane: n = 1000 E(X) = 29 D(X) = 6 Jakie jest prawdopodobieństwo, że w tym roku średnia liczba punktów, które uzyskają studenci, nie będzie niższa od 22,4? 1000 Średnia liczba punktów - V1000 Xi X 1 + X 2 + K + X 1000 ∑ = = i =1 1000 1000 V ~ N ( E ( X ); D( X ) ) n V1000 ~ N (29; 6 ) 1000 standaryzacja V X − E( X ) − 29 22 , 4 − 29 U = P (V1000 ≥ 22 , 4 ) = P 1000 ≥ = 6 6 D( X ) 1000 1000 = P (U ≥ − 34 ,785 ) = 1 − P (U < − 34 ,785 ) = 1 − F ( − 34 ,785 ) = F (34 ,785 ) = 0,999999 Przykład Jakie jest prawdopodobieństwo, że w tym roku średnia liczba punktów, które uzyskają studenci, nie będzie niższa od 22,4? Prawdopodobieństwo to wynosi 99,9999% Przykład Moglibyśmy również zapytać, jakie jest prawdopodobieństwo, że w tym roku wszyscy studenci uzyskają z egzaminu mniej niż 29 500 punktów łącznie Dane: n = 1000 E(X) = 29 D(X) = 6 1000 Suma punktów 1000 studentów , czyli T1000 = X 1 + X 2 + K + X 1000 = ∑ X i i =1 Tn ~ N (nE ( X ); n D( X )) T1000 ~ N (1000 E ( X ); 1000 D ( X )) T1000 ~ N ( 29000;189,74) Przykład P (T1000 < 29500 ) = ? T1000 ~ N (29000;189,74) T1000 − 29000 29500 − 29000 P (T1000 < 29500 ) = P < = 189 , 74 189 , 74 = P (U < 2,63 ) = F ( 2,63 ) = 0,9957 standaryzacja U= Jakie jest prawdopodobieństwo, że w tym roku wszyscy studenci uzyskają z egzaminu mniej niż 29 500 punktów łącznie Prawdopodobieństwo to wynosi 99,57% X − E( X ) D( X ) Rozkłady średniej z próby 1. Populacja o rozkładzie normalnym, σ znana 2. Populacja o rozkładzie normalnym, σ nieznana, n>30 3. Populacja o rozkładzie dowolnym, σ znana, n>=100 x ~ N (µ , σ n ) Mała próba (n<=30), populacja o rozkładzie normalnym, σ nieznana x−µ ~ t − Student S n Rozkłady różnicy średnich 1. z populacji normalnych ze znanym σ1 i σ2 2. z populacji normalnej z nieznanym σ1 i σ2 Rozkład różnicy średnich z populacji o rozkładach normalnych i znanych σ1 i σ2 Jeśli X1 : N( µ1 , σ1) oraz X2 :N( µ2 , σ2) to (z własności rozkładu x oraz własności addytywności rozkładu normalnego) różnica średnich z próby: x1 − x2 ~ N ( µ1 − µ 2 , σ 12 n1 + σ 22 n2 ) Przykład Wiadomo, że mieszkańcy miast wydają na książki przeciętnie 500 zł rocznie z odchyleniem standardowym 100zł , natomiast mieszkańcy wsi 350 zł z odchyleniem standardowym 50zł. Wiedząc, że rozkład wydatków na książki zarówno w mieście jak i na wsi jest rozkładem normalnym, oblicz prawdopodobieństwo zdarzenia, że średnie wydatki na książki w 50-elementowej próbie w mieście są większe od średnich wydatków na książki w 60-elementowej próbie na wsi o ponad 120zł. X1 – wydatki mieszkańców miast na książki, X1 ~ N(500,100) X2 – wydatki mieszkańców wsi na książki, X2 ~ N(350,50) X1 ~ N(500, X 2 ~ N(350, 100 50 60 50 ) ) P ( X 1 > X 2 + 120) = P ( X 1 − X 2 > 120) = ( X − X 2 ) − (500 − 350) 120 − 150 = = 1 − P 1 ≤ 10000 250 10000 2500 + + 50 60 50 60 =1-P(U≤-1,93)=F(1,93) = 0,9732 Rozkład różnicy średnich z populacji o rozkładach normalnych i nieznanych σ1 i σ2 Jeśli X1 : N( µ1 , σ1) oraz X2 :N( µ2 , σ2) oraz σ1 = σ2 to to do wnioskowania o różnicy średnich wykorzystuje się statystykę: t= ( x1 − x2 ) − ( µ1 − µ 2 ) 1 1 S + n1 n2 2 p gdzie: 2 2 ( n − 1 ) S + ( n − 1 ) S 1 2 2 S p2 = 1 n1 + n2 − 2 która ma rozkład t-Studenta z v = n1 + n2 - 2 stopniami swobody Rozkłady różnicy średnich 1. Populacje o rozkładach normalnych, σ1 i σ2 znane 2. Populacje o rozkładach normalnych, σ1 i σ2 nieznane, n>30 3. Populacje o rozkładach dowolnych, σ1 i σ2 znane, n>=100 x1 − x2 ~ N ( µ1 − µ 2 , σ 2 1 n1 + σ 2 2 n2 Małe próby (n1+n2-2<=30), populacje o rozkładach normalnych, σ1=σ2 ale nieznane t= ) ( x1 − x2 ) − ( µ1 − µ 2 ) 1 1 S + n1 n2 2 p Rozkłady frakcji z próby Rozkład frakcji z próby Określeniu rozkładu średniej z próby służy tw. graniczne de Moivre’a -Laplace’a o zbieżności rozkładu dwumianowego do rozkładu normalnego (n>=100) Twierdzenie de Moivre’a – Laplace’a Dowiedziono, że: dla dostatecznie dużej liczby doświadczeń (czyli liczby n) dystrybuantą graniczną dla dystrybuanty rozkładu dwumianowego jest dystrybuanta rozkładu normalnego o parametrach E(X)=n*p oraz D2(X) = n*p * (1 – p) = n*p*q, czyli N (n ⋅ p, n ⋅ p ⋅ q ) Praktyczne znaczenie tego twierdzenia jest następujące: Jeśli liczba doświadczeń jest duża (w praktyce zwykle przynajmniej 100), to prawdopodobieństwo – dla odpowiedniego rozkładu dwumianowego – można wyznaczyć korzystając z rozkładu normalnego Wynik uzyskany w ten sposób będzie przybliżony, a przybliżenie będzie tym lepsze, im liczba doświadczeń będzie większa Rozkład frakcji z próby Jeśli X jest zmienną losową o rozkładzie dwumianowym z parametrami p i n, to (z twierdzenie de Moivre’a-Laplace’a) X pˆ = ~ N ( p, n p (1 − p ) ) n Przykład Ostatnie badania pt. “Polak w Internecie” wykazały, że 86% młodych Polaków łączy się z siecią co najmniej raz w tygodniu. Oblicz prawdopodobieństwo, że w próbie 150 młodych Polaków odsetek osób łączących z siecią nie przekroczy 83%. X – liczba osób łączących się z siecią p̂ – odsetek osób łączących się z siecią p=0,86 0,86(1 − 0,86) pˆ ~ N (0,86; ) → pˆ ~ N (0,86;0,028) 150 P( pˆ < 0,83) = P(U < (0,83 − 0,86) / 0.028) = F (−1,07) = 0,1423 Rozkład różnicy frakcji Jeśli zmienne losowe X1, X2 mają rozkłady dwumianowe z parametrami, odpowiednio p1 i n1 oraz p2 i n2, to (z twierdzenie de Moivre’a-Laplace’a oraz addytywności rozkładów normalnych): pˆ 1 − pˆ 2 ~ N ( p1 − p2 , p1 (1 − p1 ) p2 (1 − p2 ) + ) n1 n2