Wykład

Transkrypt

Wykład
Estymacja parametrów
CO POWINNIŚMY WIEDZIEĆ (I ROZUMIEĆ) ZABIERAJĄC SIĘ DO CZYTANIA
1.
2.
Jeśli mamy wynik (np. z kolokwium) podany w wartościach standaryzowanych (np.: z=0,8) to wiemy, że
aby ustalić jaki był wynik przed standaryzacją należy znać średnią ocen z kolokwium (np. M=3,5) i
odchylenie standardowe (np.: s=0,5)
„Surowy” wynik obliczamy wtedy ze wzoru: M+s*z (średnia + odchylenie * wynik standaryzowany)
Czyli student uzyskał ocenę 3,5+0,5*0,8= 3,9
Jeśli ponadto wiemy, że wyniki mają rozkład normalny, to korzystając z jego właściwości możemy ustalić,
ilu studentów (w procentach) otrzymało oceny niższe niż standaryzowany wynik 0,8 (czyli oceny niższe niż
3,9 ). Pozostali otrzymali wynik wyższy niż 3,9.
Odczytujemy z tablic, że dla z=0,8 jest to 78,81%.
Korzystając z tablic możemy również ustalić jaki odsetek studentów odzyskał wyniki z dowolnego
przedziału np. wyniki z przedziału  0,8 od średniej (-0,8, 0,8) uzyskało 57,62% studentów.
Wyrażając wynik standaryzowany w wynikach surowych można stwierdzić, że oceny z przedziału (3,1 , 3,9)
uzyskało 57,62% studentów.
Jeśli powyższy opis nie jest zrozumiały należy powtórzyć zagadnienie standaryzacji zanim przejdzie się dalej!
ROZKŁAD Z PRÓBY
Przypuśćmy, że prowadzimy badania nad wpływem korzystania z portali społecznościowych na życie
towarzyskie studentów Uniwersytetu Zielonogórskiego.
Jedno z pytań, na które chcemy odpowiedzieć w badaniach brzmi: Jaka jest średnia liczba znajomych na FB
studentów UZ? Z populacji wszystkich studentów UZ wybierzemy losowo N-elementową próbę studentów i na
podstawie średniej liczby znajomych na FB obliczonej dla tych studentów będziemy wnioskować o średniej
liczbie znajomych wśród wszystkich studentów UZ.
Zatem, chcemy ustalić jaka jest wartość średniej w populacji. Niestety nie da się tego dokładnie wyznaczyć ;)
(chyba, że mamy takie możliwości finansowe i organizacyjne, że możemy przebadać wszystkich z populacji!).
Najczęściej jednak możemy jedynie oszacować wartość średniej w populacji na podstawie średniej uzyskanej w
próbie.
Będziemy zatem szacować parametr (wartość średniej) w populacji na podstawie wartości estymatora (średniej
w próbie). Ten proces to wnioskowanie statystyczne! Ze wszystkich statystyk średnia interesuje nas najczęściej i
dla średniej opis procedury jest najmniej abstrakcyjny  więc zajmujemy się średnią. Można oczywiście
estymować również inne statystyki, ale temu nie poświęcimy w tym kursie uwagi.
Statystyki to np.: średnia, odchylenie standardowe, mediana, dominanta itd.
Statystyki w próbie to estymatory (oznaczamy je: średnia: M lub x ; odchylenie standardowe s)
Statystyki w populacji to parametry (oznaczamy je: średnia , odchylenie standardowe )
Zatem średnia w naszej próbie studentów to M (estymator) i na jej podstawie chcemy oszacować średnią w
populacji  (parametr). Średnia M jest estymatorem parametru . W przykładzie interesuje nas średnia liczba
znajomych na FB.
Zanim przystąpimy do losowania konkretnej próby i ogłoszenia światu ile średnio studenci UZ mają znajomych
na FB przeprowadzimy badania wirtualne.
Teoretyczny eksperyment będzie polegał na wylosowaniu nie jednej, ale wielu prób. Przeprowadzamy zatem
teoretyczne losowania czyli wybierzemy szereg (jeśli wyobraźnia na to pozwala nieskończenie wiele)
N-elementowych prób i dla każdej z tych prób obliczymy średnią liczbę znajomych.
1
Estymacja parametrów
I tak:
w próbie 1 średnia znajomych wynosi M1. Ta średnia z pewnością różni się* od 
w próbie 2 średnia znajomych wynosi M2. Ta średnia też pewnie jest różna od 
w próbie 3 średnia znajomych wynosi M3. Ta średnia też pewnie jest różna od 
w próbie 4 średnia znajomych wynosi M4. Ta średnia też pewnie jest różna od 
…..
w próbie 100 średnia znajomych wynosi M100. Ta średnia też pewnie jest różna od 
… itd. aż do nieskończoności 
* ta różnica to błąd e (dla pierwszej próby wynosi e1=M1-, ale nie wiemy ile wynosi, bo nie znamy , dla
drugiej próby e2=M2-, itd. Zapis Mi oznaczał będzie średnią z jakiegoś (dowolnego) i-tego pomiaru )
Z tego wynika, każda z wylosowanych prób różni się od  (mniej lub więcej). Udowodniono, że jeśli rozważymy
rozkład takich średnich (M1, M2, M3, ……M100, ….) to średnia z tych średnich jest równa  (co interpretujemy, że
M jest nieobciążonym estymatorem ) a poza tym średnie te rozkładają się zgodnie z rozkładem normalnym o
średniej  i odchyleniu
(o czym - upraszczając nieco, bo w istocie jest tam mowa o wariancji – donosi
Centralne Twierdzenie Graniczne).
Zwykle losujemy tylko jedną próbę czyli analizujemy w zasadzie trzy rozkłady:
1. Rozkład teoretyczny cechy w populacji (zakładamy, że jest normalny) o średniej  i odchyleniu
standardowym . N(,)
2. Rozkład teoretyczny średnich z próby (N-elementowej), który powstał w wyniku wylosowania
nieskończonej liczby prób. Jest to rozkład normalny*, też o średniej , ale o odchyleniu
, które jest
oczywiście mniejsze niż . N(, )
3.
Rozkład cechy w wylosowanej, konkretnej próbie, który ma średnią M i odchylenie s. Jest to rozkład
empiryczny, otrzymany w wyniku jak najbardziej realnych działań (też zbliżony do rozkładu
normalnego). N(M,s)
* dzieje się tak również w sytuacji, kiedy cecha w populacji nie ma rozkładu normalnego
Ponieważ  >
 to rozkład z próby będzie bardziej wysmukły (leptokurtyczny) niż rozkład cechy w populacji.
Oznacza to, że w rozkładzie z próby wartości M1, M2, M3 … (czyli średnie z teoretycznych prób) będą skupiały
się wokół średniej . Zatem zróżnicowanie wartości M1, M2, M3 … jest mniejsze niż zróżnicowanie cechy w
populacji.
(Przypominam, że miarą zróżnicowania (inaczej zmienności) jest właśnie odchylenie standardowe. Jeśli to
stwierdzenie nie jest oczywistą oczywistością  proszę zajrzeć do prezentacji i powtórzyć zagadnienie:
Statystyki opisowe!)
Ilustracja graficzna
rozkład z próby N(, )
rozkład w populacji N(,)

2
Estymacja parametrów
Z wykresu widać, że średnie Mi bliskie średniej  występują stosunkowo często (własności rozkładu
leptokurtycznego). Co oznacza, że wiele z spośród naszych nieskończonych prób będzie miało średnią Mi bliską
średniej .
Z własności rozkładu normalnego (reguła 3 sigm) wynika, że
około 68% Mi będzie znajdowało się w przedziale  

√

około 95% Mi będzie znajdowało się w przedziale   2*

około 99% Mi będzie znajdowało się w przedziale   3*
√
√
Możemy zatem uznać, że większość średnich Mi będzie „w miarę dobrze” szacować średnią w populacji.
Większość to jednak nie wszystkie. Niektóre Mi będą się znacząco różnić od . Problem w tym, że
przeprowadzając rzeczywiste badania nie wiemy, która z teoretycznych prób nam się „trafiła” i jak daleko
średnia z tej konkretnej próby będzie oddalona od .
ESTYMATOR PUNKTOWY
Jeśli jednak zgodzimy się że dowolne Mi szacuje  to możemy uznać wyznaczone dla naszej konkretnej próby M
za estymator punktowy średniej w populacji. Niestety nie wiemy jak jego wartość „ma się” do rzeczywistej
średniej. Mamy jednak świadomość, że różni się od średniej w populacji.
BŁĄD STANDARDOWY
Odchylenie standardowe rozkładu z próby
jest określane błędem standardowym. Czyli błąd standardowy
√
pokazuje jak bardzo zróżnicowane są średnie z prób. Jest miarą ich zróżnicowania (zmienności). Im bardziej
różnią się od siebie średnie MI w próbach tym większy błąd standardowy. Błąd standardowy opisuje zatem
zmienność statystyki (tu średniej) w zbiorze powtarzanych prób. Im błąd standardowy jest mniejszy tym
dokładniej przewidujemy dany parametr.
Dla rozkładu średnich błąd standardowy szacuje się na podstawie wzoru
√
PRZEDZIAŁ UFNOŚCI
Wiemy, że w rozkładzie z próby 95% Mi (czyli średnich z prób teoretycznych) leży w granicach 1,96 odchylenia
standardowego od średniej (nisko kłania się standaryzacja ).
Dla pewnego Mi, które spełnia ten warunek można ten fakt zapisać Mi (  -
√
*1,96,  +
√
* 1,96 )
(dla uproszczenia kolejnych przekształceń oznaczmy przez A iloczyn odchylenia standardowego i wartości
standaryzowanej A = *1,96 )
√
czyli Mi ( - A,  +A) co oznacza, że -A < Mi < +A zapisując tę podwójną nierówność jako dwie mamy:
-A < Mi , a z tego wynika, że  < Mi + A
Mi < +A, a z tego wynika Mi -A < 
składając te dwie nierówność razem mamy: Mi -A <  < Mi + A czyli  ( Mi -A, Mi + A)
Podstawiamy z powrotem zamiast A
√
*1,96 i otrzymujemy  ( Mi -
√
*1,96, Mi +
√
*1,96).
Zapis ten oczywiście oznacza, że poszukiwana przez nas średnia  należy do przedziału Mi 
Ten przedział nazywa się przedziałem ufności.
3
√
* 1,96
Estymacja parametrów
Przypomnijmy, że tym razem Mi należało do 95% tych „szczęśliwych” średnich, które były odległe od średniej 
nie więcej niż niecałe dwa (1,96) odchylenia standardowe.
Jeśli wylosujemy konkretną próbę i obliczymy średnią M, to niestety nie wiemy czy uzyskana w badaniach średnia
to jedna z tych 95% „szczęśliwych” średnich i przedział (M 
* 1,96) zawiera „prawdziwą” średnią z populacji.
Wyznaczony dla konkretnej próby przedział ufności może bowiem zawierać średnią z populacji lub nie. Ale
wiemy, że 95% takich przedziałów tą średnią zawiera. Ufamy (Uf, uf, uf…  ), że nasz przedział to jeden z tych
95% (w 5% nie wierzymy w to nic a nic).
Poziom naszego zaufania (do tego, że otrzymaliśmy jeden spośród przedziałów zawierających średnią w
populacji) nazywa się poziomem ufności.
Oczywiście, jeśli chcemy to możemy przyjąć poziom ufności równy 99%. Wtedy 99% teoretycznych przedziałów
ufności zawiera prawdziwą średnią. Wyliczając długość przedziału ufności zamiast 1,96 trzeba wtedy wstawić
2,58 (znów kłania się wiedza ze standaryzacji!). Będziemy zatem błąd standardowy mnożyć przez większą liczbę
Otrzymamy wynik (iloczyn) będzie większy bo mnożymy przez większą liczbę czyli jeśli rośnie nam poziom
ufności to zwiększa się długość przedziału ufności.
Ilustracja graficzna
rozkład z próby N(, )

wartości Mi
przedziały ufności wyznaczone w próbach
W świetle powyższych rozważań oczywiste jest, że poniższe sformułowania są fałszywe (mimo, że można je
znaleźć w Internecie):
- 95% przedział ufności oznacza 95% prawdopodobieństwo, że prawdziwa wartość parametru leży w
podanym przedziale
- 95% przedział ufności oznacza, że możemy być w 95% pewni, że prawdziwy parametr leży w podanym
przedziale
- przedział ufności to przedział wiarygodnych wartości dla średniej
- 95% przedział ufności oznacza, że interesujący nas parametr ma 95% prawdopodobieństwo znalezienia się
w tym przedziale
Prawdziwe są natomiast stwierdzenia (które można umieścić np. w opisie wyników):
Można mieć 95% ufność, że przedział ufności (podać wartości jego krańców) zawiera średnią w populacji
- 95% przedział ufności dla średniej w populacji wynosi (podać wartości jego krańców)
4
Estymacja parametrów
-
Z 95% poziomem ufności można stwierdzić, że średnia w populacji mieści się w przedziale (podać wartości
jego krańców)
Poszukiwana wartość średniej w populacji mieści się w 95% przedziale ufności (podać wartości jego krańców)
ESTYMATOR PUNKTOWY (RAZ JESZCZE)
Podając wartość estymatora punktowego podajemy czasem również wartość błędu standardowego. Co
wygląda mniej więcej tak: M  błąd standardowy (np. średnia wynosi: 15  0,3)
Nie oznacza to, że prawdziwa średnia jest w przedziale (M  błąd standardowy)
Przypominam, że błąd standardowy to
√
. Zatem zapis M 
√
oznacza w istocie przedział ufności o długości
jednego błędu standardowego (w każdą stronę). Otrzymamy taki przedział jeśli przyjmiemy 68,3% poziom
ufności, bowiem 68,3% wszystkich Mi w rozkładzie z próby leży od  w odległości jednego odchylenia.
Zatem tylko 68,3% tak wyznaczonych przedziałów w nieskończonej liczbie prób zawiera prawdziwą średnią.
Wniosek: podawany w estymacji punktowej zapis: średnia  błąd standardowy nie może być taktowany jako
zapis długości przedziału zawierającego średnią w populacji.
Zapis  błąd standardowy interpretować należy wyłącznie jako miarę zmienności, błąd oszacowania
przewidywanych wyników czyli pewniej precyzji (dokładności) wnioskowania.
WYNIKI BADAŃ
Załóżmy, że dla wylosowanej próby studentów otrzymaliśmy następujące wyniki:
- średnia liczba znajomych na FB wyniosła 25
- błąd standardowy 3
Przedział ufności ma zatem granice 25-3*1,96=19,12 i 25+3*1,96=30,88
Co możemy powiedzieć o średniej liczbie znajomych na FB wśród wszystkich studentów UZ na podstawie
wyników uzyskanych w próbie?
Średnio studenci Uniwersytetu Zielonogórskiego mają 25 znajomych na FB.
Z 95% ufnością możemy stwierdzić, że średnia liczba znajomych na FB wśród studentów UZ mieści się w
przedziale od 19 do 31 znajomych.
Błąd maksymalny/dopuszczalny oszacowania wynosi e=3*1,96=5,88
WIELKOŚĆ PRÓBY
Wielkość próby zależy od:
- wielkości populacji (przy czym wzrost populacji widocznie wpływa na rozmiar próby tylko do pewnego
poziomu, od którego zwiększanie się populacji nie ma już istotnego (prawie żadnego) znaczenia dla
wielkości próby – im większa populacja tym większa próba, ale tylko do pewnego momentu)
- wielkości proporcji (frakcji) zmiennej w populacji (dla nieznanej wielkości frakcji podajemy wartość 50% zakładamy w ten sposób „najgorszą” sytuację czyli maksymalizujemy licznik we wzorze na błąd
standardowy szacowania proporcji. Wielkość tego błędu zależy również od liczebności próby, zatem jeśli
przyjmiemy najbardziej niekorzystny (z punktu widzenia ustalania wielkości błędu) układ (50%:50%) to
zmieszenie błędu standardowego (do dopuszczalnego przez nas poziomu) uzyskujemy zwiekszając
liczebność próby.
lub wielkości odchylenia standardowego (wariancji) zmiennej w populacji (jeśli nie jest nam ono znane w końcu dopiero robimy badania, żeby ustalić wartość średnią jakiejś cech (zmiennej) w populacji - to
podajemy wartość odchylenia uzyskanego w badaniach pilotażowych.)
- błędu standardowego (zwykle zakładamy pewną jego maksymalną dopuszczalną wartość)
- poziomu ufności/poziomu istotności (przy czym poziom ufności= 1 – poziom istotności ), najczęściej
przyjmuje się  =0,01%, lub  =0,05%.
5
Estymacja parametrów
UWAGI KOŃCOWE
1. W powyższych rozważaniach przyjmowaliśmy, że średnia z próby ma rozkład normalny zatem aby odczytać
w jakim przedziale znajduje się np. 95% wartości średnich z próby (lub odwrotnie) korzystaliśmy z tablic
rozkładu normalnego. Tym samym zakładaliśmy, że nasza N-elementowa próba jest duża.
Dla prób mniejszych niż 30 osób rozkład średnich nie rozkłada się zgodnie z rozkładem normalnym, ale z
rozkładem t-Studenta. Ustalając zatem długości przedziałów ufności dla małych prób musimy korzystać z
tablic rozkładu t-Studenta, a nie rozkładu normalnego (patrz wykład).
Dobra wiadomość: jeśli wyliczamy błąd standardowy i krańce przedziału ufności w programie statystycznym
nie musimy się tym przejmować, bowiem „pilnuje” tego program. Ale warto wiedzieć!
2. Należy pamiętać, że otrzymane w badaniach wyniki dla próby pozwalają jedynie na oszacowanie tego co się
dzieje w populacji – wnioskowanie statystyczne pozwala oszacować wartości paramentów i rozkład
pewnych cech w populacji oraz ustalić jakie jest prawdopodobieństwo błędu tych szacunków. One zawsze
są obarczone błędem. Badacz zawsze podaje swoje wyniki z pewnym prawdopodobieństwem pomyłki. To
dopuszczalne prawdopodobieństwo pomyłki to tzw. poziom istotności  (alfa).
6