Oszacowanie i rozkład t
Transkrypt
Oszacowanie i rozkład t
Oszacowanie i rozkład t Marcin Zajenkowski Marcin Zajenkowski () Oszacowanie i rozkład t 1 / 31 Oszacowanie 1 Na podstawie danych z próby szacuje się wiele wartości w populacji, np.: jakie jest poparcie partii politycznej X; jaki procent osób cierpi na chorobę Alzheimera; jaki odsetek populacji stanowią osoby homoseksualne. 2 Problem: dlaczego różne sondaże podają różne wyniki? 3 W populacji istnieje pewna zmienność (zróżnicowanie) wartości mierzonej zmiennej, które wpływa na błąd pomiaru. Marcin Zajenkowski () Oszacowanie i rozkład t 2 / 31 Oszacowanie 1 Na podstawie danych z próby szacuje się wiele wartości w populacji, np.: jakie jest poparcie partii politycznej X; jaki procent osób cierpi na chorobę Alzheimera; jaki odsetek populacji stanowią osoby homoseksualne. 2 Problem: dlaczego różne sondaże podają różne wyniki? 3 W populacji istnieje pewna zmienność (zróżnicowanie) wartości mierzonej zmiennej, które wpływa na błąd pomiaru. Marcin Zajenkowski () Oszacowanie i rozkład t 2 / 31 Rodzaje oszacowań Oszacowanie punktowe – otrzymane bezpośrednio z obliczeń, np. średni wynik z testu wiedzy w grupie studentów = 26,88. Nie dostarcza ono informacji o błędzie jakim jest obciążony estymator. Oszacowanie przedziałowe – uwzględniając błąd, twierdzimy z pewnym stopniem ufności, że wartość populacji znajduje się w obrębie przedziału. Np. średnia z testu wiedzy mieści się w granicach 24,92 a 28,84 – przedział ufności. Marcin Zajenkowski () Oszacowanie i rozkład t 3 / 31 Przedział ufności Znając błąd standardowy można zbudować przedział w którym znajduje się średnia. Np. średnia z testu wiedzy mieści się w granicach 24,92 a 28,84 – to tzw. przedział ufności. Błąd wyznacza dolną i górną granicę przedziału ufności. Marcin Zajenkowski () Oszacowanie i rozkład t 4 / 31 Właściwości oszacowań Nie obciążone– gdy estymator w kolejnych pobieranych próbach nie odbiega systematycznie od parametru. Czyli nie jest obciążony stałym błędem. Inaczej: estymator równy jest wartości oczekiwanej. Wartość oczekiwana – uzyskana po uśrednieniu wartości w nieskończenie wielkiej liczbie powtarzanych prób losowych. Marcin Zajenkowski () Oszacowanie i rozkład t 5 / 31 Właściwości oszacowań Spójne – jeśli oszacowanie to coraz bardziej zbliża się do parametru populacji w miarę wzrostu liczebności próby. Efektywne – jeżeli mamy dwie metody szacowania tego samego parametru populacji, to efektywniejsza jest metoda o mniejszej wariancji (np. średnia i mediana)? Wystarczające – gdy jest bardziej efektywne niż inne metody. Marcin Zajenkowski () Oszacowanie i rozkład t 6 / 31 Przedział ufności dla średnich z prób dużych Rozkład zbliża się coraz bardziej do normalnego wraz ze wzrostem liczebności próby. Dlatego też dla dużych prób stosuje się rozkład normalny w celu oszacowania wyniku. Do obliczenia błędu standardowego stosuje się odchylenie rozkładu z próby średnich, czyli: sX = √s n Marcin Zajenkowski () Oszacowanie i rozkład t 7 / 31 Przedział ufności dla średnich z prób dużych Chcemy oszacować różnicę między średnią w próbie a średnią w populacji, czyli: X -µ W oszacowanie należy uwzględnić błąd standardowy, zatem: X −µ sX Rozkład z próby średniej będzie normalny (zgodnie z centralnym twierdzeniem granicznym) o średniej µ. Zatem powyższe równanie przedstawia wynik standardowy dla średniej z próby w odniesieniu do rozkładu z próby średniej: z = Xs−µ X Marcin Zajenkowski () Oszacowanie i rozkład t 8 / 31 Przedział ufności dla średnich z prób dużych Rozkład z próby średniej będzie normalny (zgodnie z centralnym twierdzeniem granicznym) o średniej µ. Zatem powyższe równanie przedstawia wynik standardowy dla średniej z próby w odniesieniu do rozkładu z próby średniej: z = Xs−µ X +-1,96 odchylenia standardowego mieści 95% powierzchni rozkładu normalnego +-2,58 odchylenia standardowego mieści 99% powierzchni Marcin Zajenkowski () Oszacowanie i rozkład t 9 / 31 Przedział ufności Przy założeniu normalności z, istnieje 95% prawdopodobieństwo, że prawdziwe jest następujące twierdzenie: -1,96 ¬ z = Marcin Zajenkowski () X −µ sX ¬ 1,96 Oszacowanie i rozkład t 10 / 31 Przedział ufności Aby przekształcić tę nierówność, tak aby odnosiła się do wyników surowych, mnozymy wszystkie człony przez odchylenie i dodajemy średnią, dostajemy: X - 1,96 sX ¬ µ ¬ X + 1,96 sX Ogólnie: odjęcie i dodanie do średniej odpowiedniej wartości z pomnożonej przez odchylenie (błąd standardowy). Marcin Zajenkowski () Oszacowanie i rozkład t 11 / 31 Przedział ufności Wartości z dla prawdopodobieństw (z tablic) najczęściej przyjmowanych: 68% = 1 85% = 1,44 90% = 1,64 95% = 1,96 99% = 2,58 Marcin Zajenkowski () Oszacowanie i rozkład t 12 / 31 Przykład Ustal przedział ufności. Średni iloraz inteligencji w grupie 100 uczniów szkoły średniej wynosi 114, a odchylenie standardowe 17. Marcin Zajenkowski () Oszacowanie i rozkład t 13 / 31 Rozwiązanie sX = 1,7 Dolna granica: 110, 67 Górna granica: 117,33 Marcin Zajenkowski () Oszacowanie i rozkład t 14 / 31 Znaczenie Gdyby pobierać dużą liczbę prób i sporządzać przedzaiły ufności dla średniej, to 95% otrzymanych przedziałów zawierałoby średnią a 5% nie. Marcin Zajenkowski () Oszacowanie i rozkład t 15 / 31 Zadanie 1 Dla tych samych danych ustal przedział z: 68% prawdopodobieństwem 99% prawdopodobieństwem Marcin Zajenkowski () Oszacowanie i rozkład t 16 / 31 Zadanie 2 Aby wypróbować swój nowy samochód, pan Andrzej przejechał nim 36 razy na trasie Warszawa-Kolbuszowa. Obliczył, że jego samochód spalał średnio 8 litrów benzyny, a odchylenie standardowe wynosiło 3. Zbuduj przedział ufności dla tej średniej z 85% prawdopodobieństwem. Marcin Zajenkowski () Oszacowanie i rozkład t 17 / 31 Zadanie 3 Oszacuj 95% i 99% Zadanie Średnia 1 80 2 58 3 46 4 100 Marcin Zajenkowski () przedziały ufności dla danych: P N (X − X )2 37 1296 64 249 35 350 32 496 Oszacowanie i rozkład t 18 / 31 Przedziały ufności dla średnich z prób małych Rozkład z próby średniej, zbliża się do rozkładu normalnego wraz ze wzrostem liczebności próby, niezależnie od kształtu rozkładu w populacji. Dla małych prób jednak często odbiega od normalnego. W próbach małych stosuje się rozkład t. Marcin Zajenkowski () Oszacowanie i rozkład t 19 / 31 Rozkład t Analogicznie do stosunku z wprowadza się stosunek t: t= Marcin Zajenkowski () X −µ sX Oszacowanie i rozkład t 20 / 31 Rozkład t Rozkład t nie jest normalny, ale zbliża się do rozkładu normalnego wraz ze wzrostem n. Rozkład t odbiega znacznie od normalnego przy małych próbach (np. n=5) Rozkład t nie jest pojedynczy, lecz to rodzina rozkładów. Wygląda inaczej w zależności od wielkości próby (stopni swobody). Marcin Zajenkowski () Oszacowanie i rozkład t 21 / 31 t.jpg Marcin Zajenkowski () Oszacowanie i rozkład t 22 / 31 Stopnie swobody Stopnie swobody – df (degrees of freedom) Liczba wartości zmiennej które mogą się swobodnie zmieniać. pomiary 10, 14, 6, 5, 5 mają odchylenia od średniej: 2, 6, -2, -3, -3. Suma = 0. Jeżeli zatem znamy 4 z tych odchyleń to piąte jest zdeterminowane. Marcin Zajenkowski () Oszacowanie i rozkład t 23 / 31 Stopnie swobody Przykład 1. Pomiary 10, 14, 6, 5, 5 mają odchylenia od średniej: 2, 6, -2, -3, -3. Suma = 0. Jeżeli zatem znamy 4 z tych odchyleń to piąte jest zdeterminowane. Przykład 2. Średnia = 4, pomiary: 2,4 i ? Ostatni musi być 6 Marcin Zajenkowski () Oszacowanie i rozkład t 24 / 31 Stopnie swobody Przykład 1. Pomiary 10, 14, 6, 5, 5 mają odchylenia od średniej: 2, 6, -2, -3, -3. Suma = 0. Jeżeli zatem znamy 4 z tych odchyleń to piąte jest zdeterminowane. Przykład 2. Średnia = 4, pomiary: 2,4 i ? Ostatni musi być 6 Marcin Zajenkowski () Oszacowanie i rozkład t 24 / 31 Obszar pod rozkładem t Rozkład t ma średnią = 0. Obszar pod krzywą jest inny niż w rozkładzie normalnym – zależy od wielkości próby, czyli od stopni swobody Marcin Zajenkowski () Oszacowanie i rozkład t 25 / 31 Marcin Zajenkowski () Oszacowanie i rozkład t 26 / 31 Rozkład t - Studenta Rozkład t – Studenta. Twórca William Gossett, pisał pod pseudonimem Student. Przy dużym N, rozkład t jest taki sam jak rozkład normalny. Niektórzy przyjmują, że duże N – powyżej 30. Marcin Zajenkowski () Oszacowanie i rozkład t 27 / 31 Przedziały ufności dla średnich z prób małych Np. średnia = 24,26, odchylenie=8 Błąd standardowy = 2 Wartość t dla 95% powierzchni przy 15 df wynosi 2,13 po obu stronach średniej Granice to 24,26 – 4,26; 24,26 + 4,26 20; 28,52 Marcin Zajenkowski () Oszacowanie i rozkład t 28 / 31 Zadanie Oszacuj 95% i 99% granice ufności dla średniej=20, N = 9 i s = 6. Marcin Zajenkowski () Oszacowanie i rozkład t 29 / 31 Zadanie Znajdź taką wartość t dla df = 20, aby część powierzchni pod krzywą: na prawo od t wynosiła 0,025 na lewo od t wynosiła 0,0005 między średnią a t wynosiła 0,45 między +-t wynosiła 0,90 Marcin Zajenkowski () Oszacowanie i rozkład t 30 / 31 Zadanie Oszacuj 95% i 99% granice ufności dlaśredniej=40, N=400 i s=15 Marcin Zajenkowski () Oszacowanie i rozkład t 31 / 31 Zadanie Jaka część rozkładu pod krzywą t mieści się: poniżej t= - 2,262, przy df =9 powyżej t = -1,476 przy df=5 między t=+-2,228, przy df=10 między t=-1,533 i t=2,776 przy df=4 Marcin Zajenkowski () Oszacowanie i rozkład t 32 / 31