Wykład
Transkrypt
Wykład
Estymacja parametrów CO POWINNIŚMY WIEDZIEĆ (I ROZUMIEĆ) ZABIERAJĄC SIĘ DO CZYTANIA 1. 2. Jeśli mamy wynik (np. z kolokwium) podany w wartościach standaryzowanych (np.: z=0,8) to wiemy, że aby ustalić jaki był wynik przed standaryzacją należy znać średnią ocen z kolokwium (np. M=3,5) i odchylenie standardowe (np.: s=0,5) „Surowy” wynik obliczamy wtedy ze wzoru: M+s*z (średnia + odchylenie * wynik standaryzowany) Czyli student uzyskał ocenę 3,5+0,5*0,8= 3,9 Jeśli ponadto wiemy, że wyniki mają rozkład normalny, to korzystając z jego właściwości możemy ustalić, ilu studentów (w procentach) otrzymało oceny niższe niż standaryzowany wynik 0,8 (czyli oceny niższe niż 3,9 ). Pozostali otrzymali wynik wyższy niż 3,9. Odczytujemy z tablic, że dla z=0,8 jest to 78,81%. Korzystając z tablic możemy również ustalić jaki odsetek studentów odzyskał wyniki z dowolnego przedziału np. wyniki z przedziału 0,8 od średniej (-0,8, 0,8) uzyskało 57,62% studentów. Wyrażając wynik standaryzowany w wynikach surowych można stwierdzić, że oceny z przedziału (3,1 , 3,9) uzyskało 57,62% studentów. Jeśli powyższy opis nie jest zrozumiały należy powtórzyć zagadnienie standaryzacji zanim przejdzie się dalej! ROZKŁAD Z PRÓBY Przypuśćmy, że prowadzimy badania nad wpływem korzystania z portali społecznościowych na życie towarzyskie studentów Uniwersytetu Zielonogórskiego. Jedno z pytań, na które chcemy odpowiedzieć w badaniach brzmi: Jaka jest średnia liczba znajomych na FB studentów UZ? Z populacji wszystkich studentów UZ wybierzemy losowo N-elementową próbę studentów i na podstawie średniej liczby znajomych na FB obliczonej dla tych studentów będziemy wnioskować o średniej liczbie znajomych wśród wszystkich studentów UZ. Zatem, chcemy ustalić jaka jest wartość średniej w populacji. Niestety nie da się tego dokładnie wyznaczyć ;) (chyba, że mamy takie możliwości finansowe i organizacyjne, że możemy przebadać wszystkich z populacji!). Najczęściej jednak możemy jedynie oszacować wartość średniej w populacji na podstawie średniej uzyskanej w próbie. Będziemy zatem szacować parametr (wartość średniej) w populacji na podstawie wartości estymatora (średniej w próbie). Ten proces to wnioskowanie statystyczne! Ze wszystkich statystyk średnia interesuje nas najczęściej i dla średniej opis procedury jest najmniej abstrakcyjny więc zajmujemy się średnią. Można oczywiście estymować również inne statystyki, ale temu nie poświęcimy w tym kursie uwagi. Statystyki to np.: średnia, odchylenie standardowe, mediana, dominanta itd. Statystyki w próbie to estymatory (oznaczamy je: średnia: M lub x ; odchylenie standardowe s) Statystyki w populacji to parametry (oznaczamy je: średnia , odchylenie standardowe ) Zatem średnia w naszej próbie studentów to M (estymator) i na jej podstawie chcemy oszacować średnią w populacji (parametr). Średnia M jest estymatorem parametru . W przykładzie interesuje nas średnia liczba znajomych na FB. Zanim przystąpimy do losowania konkretnej próby i ogłoszenia światu ile średnio studenci UZ mają znajomych na FB przeprowadzimy badania wirtualne. Teoretyczny eksperyment będzie polegał na wylosowaniu nie jednej, ale wielu prób. Przeprowadzamy zatem teoretyczne losowania czyli wybierzemy szereg (jeśli wyobraźnia na to pozwala nieskończenie wiele) N-elementowych prób i dla każdej z tych prób obliczymy średnią liczbę znajomych. 1 Estymacja parametrów I tak: w próbie 1 średnia znajomych wynosi M1. Ta średnia z pewnością różni się* od w próbie 2 średnia znajomych wynosi M2. Ta średnia też pewnie jest różna od w próbie 3 średnia znajomych wynosi M3. Ta średnia też pewnie jest różna od w próbie 4 średnia znajomych wynosi M4. Ta średnia też pewnie jest różna od ….. w próbie 100 średnia znajomych wynosi M100. Ta średnia też pewnie jest różna od … itd. aż do nieskończoności * ta różnica to błąd e (dla pierwszej próby wynosi e1=M1-, ale nie wiemy ile wynosi, bo nie znamy , dla drugiej próby e2=M2-, itd. Zapis Mi oznaczał będzie średnią z jakiegoś (dowolnego) i-tego pomiaru ) Z tego wynika, każda z wylosowanych prób różni się od (mniej lub więcej). Udowodniono, że jeśli rozważymy rozkład takich średnich (M1, M2, M3, ……M100, ….) to średnia z tych średnich jest równa (co interpretujemy, że M jest nieobciążonym estymatorem ) a poza tym średnie te rozkładają się zgodnie z rozkładem normalnym o średniej i odchyleniu (o czym - upraszczając nieco, bo w istocie jest tam mowa o wariancji – donosi Centralne Twierdzenie Graniczne). Zwykle losujemy tylko jedną próbę czyli analizujemy w zasadzie trzy rozkłady: 1. Rozkład teoretyczny cechy w populacji (zakładamy, że jest normalny) o średniej i odchyleniu standardowym . N(,) 2. Rozkład teoretyczny średnich z próby (N-elementowej), który powstał w wyniku wylosowania nieskończonej liczby prób. Jest to rozkład normalny*, też o średniej , ale o odchyleniu , które jest oczywiście mniejsze niż . N(, ) 3. Rozkład cechy w wylosowanej, konkretnej próbie, który ma średnią M i odchylenie s. Jest to rozkład empiryczny, otrzymany w wyniku jak najbardziej realnych działań (też zbliżony do rozkładu normalnego). N(M,s) * dzieje się tak również w sytuacji, kiedy cecha w populacji nie ma rozkładu normalnego Ponieważ > to rozkład z próby będzie bardziej wysmukły (leptokurtyczny) niż rozkład cechy w populacji. Oznacza to, że w rozkładzie z próby wartości M1, M2, M3 … (czyli średnie z teoretycznych prób) będą skupiały się wokół średniej . Zatem zróżnicowanie wartości M1, M2, M3 … jest mniejsze niż zróżnicowanie cechy w populacji. (Przypominam, że miarą zróżnicowania (inaczej zmienności) jest właśnie odchylenie standardowe. Jeśli to stwierdzenie nie jest oczywistą oczywistością proszę zajrzeć do prezentacji i powtórzyć zagadnienie: Statystyki opisowe!) Ilustracja graficzna rozkład z próby N(, ) rozkład w populacji N(,) 2 Estymacja parametrów Z wykresu widać, że średnie Mi bliskie średniej występują stosunkowo często (własności rozkładu leptokurtycznego). Co oznacza, że wiele z spośród naszych nieskończonych prób będzie miało średnią Mi bliską średniej . Z własności rozkładu normalnego (reguła 3 sigm) wynika, że około 68% Mi będzie znajdowało się w przedziale √ około 95% Mi będzie znajdowało się w przedziale 2* około 99% Mi będzie znajdowało się w przedziale 3* √ √ Możemy zatem uznać, że większość średnich Mi będzie „w miarę dobrze” szacować średnią w populacji. Większość to jednak nie wszystkie. Niektóre Mi będą się znacząco różnić od . Problem w tym, że przeprowadzając rzeczywiste badania nie wiemy, która z teoretycznych prób nam się „trafiła” i jak daleko średnia z tej konkretnej próby będzie oddalona od . ESTYMATOR PUNKTOWY Jeśli jednak zgodzimy się że dowolne Mi szacuje to możemy uznać wyznaczone dla naszej konkretnej próby M za estymator punktowy średniej w populacji. Niestety nie wiemy jak jego wartość „ma się” do rzeczywistej średniej. Mamy jednak świadomość, że różni się od średniej w populacji. BŁĄD STANDARDOWY Odchylenie standardowe rozkładu z próby jest określane błędem standardowym. Czyli błąd standardowy √ pokazuje jak bardzo zróżnicowane są średnie z prób. Jest miarą ich zróżnicowania (zmienności). Im bardziej różnią się od siebie średnie MI w próbach tym większy błąd standardowy. Błąd standardowy opisuje zatem zmienność statystyki (tu średniej) w zbiorze powtarzanych prób. Im błąd standardowy jest mniejszy tym dokładniej przewidujemy dany parametr. Dla rozkładu średnich błąd standardowy szacuje się na podstawie wzoru √ PRZEDZIAŁ UFNOŚCI Wiemy, że w rozkładzie z próby 95% Mi (czyli średnich z prób teoretycznych) leży w granicach 1,96 odchylenia standardowego od średniej (nisko kłania się standaryzacja ). Dla pewnego Mi, które spełnia ten warunek można ten fakt zapisać Mi ( - √ *1,96, + √ * 1,96 ) (dla uproszczenia kolejnych przekształceń oznaczmy przez A iloczyn odchylenia standardowego i wartości standaryzowanej A = *1,96 ) √ czyli Mi ( - A, +A) co oznacza, że -A < Mi < +A zapisując tę podwójną nierówność jako dwie mamy: -A < Mi , a z tego wynika, że < Mi + A Mi < +A, a z tego wynika Mi -A < składając te dwie nierówność razem mamy: Mi -A < < Mi + A czyli ( Mi -A, Mi + A) Podstawiamy z powrotem zamiast A √ *1,96 i otrzymujemy ( Mi - √ *1,96, Mi + √ *1,96). Zapis ten oczywiście oznacza, że poszukiwana przez nas średnia należy do przedziału Mi Ten przedział nazywa się przedziałem ufności. 3 √ * 1,96 Estymacja parametrów Przypomnijmy, że tym razem Mi należało do 95% tych „szczęśliwych” średnich, które były odległe od średniej nie więcej niż niecałe dwa (1,96) odchylenia standardowe. Jeśli wylosujemy konkretną próbę i obliczymy średnią M, to niestety nie wiemy czy uzyskana w badaniach średnia to jedna z tych 95% „szczęśliwych” średnich i przedział (M * 1,96) zawiera „prawdziwą” średnią z populacji. Wyznaczony dla konkretnej próby przedział ufności może bowiem zawierać średnią z populacji lub nie. Ale wiemy, że 95% takich przedziałów tą średnią zawiera. Ufamy (Uf, uf, uf… ), że nasz przedział to jeden z tych 95% (w 5% nie wierzymy w to nic a nic). Poziom naszego zaufania (do tego, że otrzymaliśmy jeden spośród przedziałów zawierających średnią w populacji) nazywa się poziomem ufności. Oczywiście, jeśli chcemy to możemy przyjąć poziom ufności równy 99%. Wtedy 99% teoretycznych przedziałów ufności zawiera prawdziwą średnią. Wyliczając długość przedziału ufności zamiast 1,96 trzeba wtedy wstawić 2,58 (znów kłania się wiedza ze standaryzacji!). Będziemy zatem błąd standardowy mnożyć przez większą liczbę Otrzymamy wynik (iloczyn) będzie większy bo mnożymy przez większą liczbę czyli jeśli rośnie nam poziom ufności to zwiększa się długość przedziału ufności. Ilustracja graficzna rozkład z próby N(, ) wartości Mi przedziały ufności wyznaczone w próbach W świetle powyższych rozważań oczywiste jest, że poniższe sformułowania są fałszywe (mimo, że można je znaleźć w Internecie): - 95% przedział ufności oznacza 95% prawdopodobieństwo, że prawdziwa wartość parametru leży w podanym przedziale - 95% przedział ufności oznacza, że możemy być w 95% pewni, że prawdziwy parametr leży w podanym przedziale - przedział ufności to przedział wiarygodnych wartości dla średniej - 95% przedział ufności oznacza, że interesujący nas parametr ma 95% prawdopodobieństwo znalezienia się w tym przedziale Prawdziwe są natomiast stwierdzenia (które można umieścić np. w opisie wyników): Można mieć 95% ufność, że przedział ufności (podać wartości jego krańców) zawiera średnią w populacji - 95% przedział ufności dla średniej w populacji wynosi (podać wartości jego krańców) 4 Estymacja parametrów - Z 95% poziomem ufności można stwierdzić, że średnia w populacji mieści się w przedziale (podać wartości jego krańców) Poszukiwana wartość średniej w populacji mieści się w 95% przedziale ufności (podać wartości jego krańców) ESTYMATOR PUNKTOWY (RAZ JESZCZE) Podając wartość estymatora punktowego podajemy czasem również wartość błędu standardowego. Co wygląda mniej więcej tak: M błąd standardowy (np. średnia wynosi: 15 0,3) Nie oznacza to, że prawdziwa średnia jest w przedziale (M błąd standardowy) Przypominam, że błąd standardowy to √ . Zatem zapis M √ oznacza w istocie przedział ufności o długości jednego błędu standardowego (w każdą stronę). Otrzymamy taki przedział jeśli przyjmiemy 68,3% poziom ufności, bowiem 68,3% wszystkich Mi w rozkładzie z próby leży od w odległości jednego odchylenia. Zatem tylko 68,3% tak wyznaczonych przedziałów w nieskończonej liczbie prób zawiera prawdziwą średnią. Wniosek: podawany w estymacji punktowej zapis: średnia błąd standardowy nie może być taktowany jako zapis długości przedziału zawierającego średnią w populacji. Zapis błąd standardowy interpretować należy wyłącznie jako miarę zmienności, błąd oszacowania przewidywanych wyników czyli pewniej precyzji (dokładności) wnioskowania. WYNIKI BADAŃ Załóżmy, że dla wylosowanej próby studentów otrzymaliśmy następujące wyniki: - średnia liczba znajomych na FB wyniosła 25 - błąd standardowy 3 Przedział ufności ma zatem granice 25-3*1,96=19,12 i 25+3*1,96=30,88 Co możemy powiedzieć o średniej liczbie znajomych na FB wśród wszystkich studentów UZ na podstawie wyników uzyskanych w próbie? Średnio studenci Uniwersytetu Zielonogórskiego mają 25 znajomych na FB. Z 95% ufnością możemy stwierdzić, że średnia liczba znajomych na FB wśród studentów UZ mieści się w przedziale od 19 do 31 znajomych. Błąd maksymalny/dopuszczalny oszacowania wynosi e=3*1,96=5,88 WIELKOŚĆ PRÓBY Wielkość próby zależy od: - wielkości populacji (przy czym wzrost populacji widocznie wpływa na rozmiar próby tylko do pewnego poziomu, od którego zwiększanie się populacji nie ma już istotnego (prawie żadnego) znaczenia dla wielkości próby – im większa populacja tym większa próba, ale tylko do pewnego momentu) - wielkości proporcji (frakcji) zmiennej w populacji (dla nieznanej wielkości frakcji podajemy wartość 50% zakładamy w ten sposób „najgorszą” sytuację czyli maksymalizujemy licznik we wzorze na błąd standardowy szacowania proporcji. Wielkość tego błędu zależy również od liczebności próby, zatem jeśli przyjmiemy najbardziej niekorzystny (z punktu widzenia ustalania wielkości błędu) układ (50%:50%) to zmieszenie błędu standardowego (do dopuszczalnego przez nas poziomu) uzyskujemy zwiekszając liczebność próby. lub wielkości odchylenia standardowego (wariancji) zmiennej w populacji (jeśli nie jest nam ono znane w końcu dopiero robimy badania, żeby ustalić wartość średnią jakiejś cech (zmiennej) w populacji - to podajemy wartość odchylenia uzyskanego w badaniach pilotażowych.) - błędu standardowego (zwykle zakładamy pewną jego maksymalną dopuszczalną wartość) - poziomu ufności/poziomu istotności (przy czym poziom ufności= 1 – poziom istotności ), najczęściej przyjmuje się =0,01%, lub =0,05%. 5 Estymacja parametrów UWAGI KOŃCOWE 1. W powyższych rozważaniach przyjmowaliśmy, że średnia z próby ma rozkład normalny zatem aby odczytać w jakim przedziale znajduje się np. 95% wartości średnich z próby (lub odwrotnie) korzystaliśmy z tablic rozkładu normalnego. Tym samym zakładaliśmy, że nasza N-elementowa próba jest duża. Dla prób mniejszych niż 30 osób rozkład średnich nie rozkłada się zgodnie z rozkładem normalnym, ale z rozkładem t-Studenta. Ustalając zatem długości przedziałów ufności dla małych prób musimy korzystać z tablic rozkładu t-Studenta, a nie rozkładu normalnego (patrz wykład). Dobra wiadomość: jeśli wyliczamy błąd standardowy i krańce przedziału ufności w programie statystycznym nie musimy się tym przejmować, bowiem „pilnuje” tego program. Ale warto wiedzieć! 2. Należy pamiętać, że otrzymane w badaniach wyniki dla próby pozwalają jedynie na oszacowanie tego co się dzieje w populacji – wnioskowanie statystyczne pozwala oszacować wartości paramentów i rozkład pewnych cech w populacji oraz ustalić jakie jest prawdopodobieństwo błędu tych szacunków. One zawsze są obarczone błędem. Badacz zawsze podaje swoje wyniki z pewnym prawdopodobieństwem pomyłki. To dopuszczalne prawdopodobieństwo pomyłki to tzw. poziom istotności (alfa). 6