Oszacowanie i rozkład t

Transkrypt

Oszacowanie i rozkład t
Oszacowanie i rozkład t
Marcin Zajenkowski
Marcin Zajenkowski ()
Oszacowanie i rozkład t
1 / 31
Oszacowanie
1
Na podstawie danych z próby szacuje się wiele wartości w populacji,
np.:
jakie jest poparcie partii politycznej X;
jaki procent osób cierpi na chorobę Alzheimera;
jaki odsetek populacji stanowią osoby homoseksualne.
2
Problem: dlaczego różne sondaże podają różne wyniki?
3
W populacji istnieje pewna zmienność (zróżnicowanie) wartości
mierzonej zmiennej, które wpływa na błąd pomiaru.
Marcin Zajenkowski ()
Oszacowanie i rozkład t
2 / 31
Oszacowanie
1
Na podstawie danych z próby szacuje się wiele wartości w populacji,
np.:
jakie jest poparcie partii politycznej X;
jaki procent osób cierpi na chorobę Alzheimera;
jaki odsetek populacji stanowią osoby homoseksualne.
2
Problem: dlaczego różne sondaże podają różne wyniki?
3
W populacji istnieje pewna zmienność (zróżnicowanie) wartości
mierzonej zmiennej, które wpływa na błąd pomiaru.
Marcin Zajenkowski ()
Oszacowanie i rozkład t
2 / 31
Rodzaje oszacowań
Oszacowanie punktowe – otrzymane bezpośrednio z obliczeń, np.
średni wynik z testu wiedzy w grupie studentów = 26,88. Nie
dostarcza ono informacji o błędzie jakim jest obciążony estymator.
Oszacowanie przedziałowe – uwzględniając błąd, twierdzimy z
pewnym stopniem ufności, że wartość populacji znajduje się w obrębie
przedziału.
Np. średnia z testu wiedzy mieści się w granicach 24,92 a 28,84 –
przedział ufności.
Marcin Zajenkowski ()
Oszacowanie i rozkład t
3 / 31
Przedział ufności
Znając błąd standardowy można zbudować przedział w którym
znajduje się średnia.
Np. średnia z testu wiedzy mieści się w granicach 24,92 a 28,84 – to
tzw. przedział ufności.
Błąd wyznacza dolną i górną granicę przedziału ufności.
Marcin Zajenkowski ()
Oszacowanie i rozkład t
4 / 31
Właściwości oszacowań
Nie obciążone– gdy estymator w kolejnych pobieranych próbach nie
odbiega systematycznie od parametru. Czyli nie jest obciążony stałym
błędem.
Inaczej: estymator równy jest wartości oczekiwanej.
Wartość oczekiwana – uzyskana po uśrednieniu wartości w
nieskończenie wielkiej liczbie powtarzanych prób losowych.
Marcin Zajenkowski ()
Oszacowanie i rozkład t
5 / 31
Właściwości oszacowań
Spójne – jeśli oszacowanie to coraz bardziej zbliża się do parametru
populacji w miarę wzrostu liczebności próby.
Efektywne – jeżeli mamy dwie metody szacowania tego samego
parametru populacji, to efektywniejsza jest metoda o mniejszej
wariancji (np. średnia i mediana)?
Wystarczające – gdy jest bardziej efektywne niż inne metody.
Marcin Zajenkowski ()
Oszacowanie i rozkład t
6 / 31
Przedział ufności dla średnich z prób dużych
Rozkład zbliża się coraz bardziej do normalnego wraz ze wzrostem
liczebności próby.
Dlatego też dla dużych prób stosuje się rozkład normalny w celu
oszacowania wyniku.
Do obliczenia błędu standardowego stosuje się odchylenie rozkładu z
próby średnich, czyli:
sX =
√s
n
Marcin Zajenkowski ()
Oszacowanie i rozkład t
7 / 31
Przedział ufności dla średnich z prób dużych
Chcemy oszacować różnicę między średnią w próbie a średnią w
populacji, czyli:
X -µ
W oszacowanie należy uwzględnić błąd standardowy, zatem:
X −µ
sX
Rozkład z próby średniej będzie normalny (zgodnie z centralnym
twierdzeniem granicznym) o średniej µ. Zatem powyższe równanie
przedstawia wynik standardowy dla średniej z próby w odniesieniu do
rozkładu z próby średniej:
z = Xs−µ
X
Marcin Zajenkowski ()
Oszacowanie i rozkład t
8 / 31
Przedział ufności dla średnich z prób dużych
Rozkład z próby średniej będzie normalny (zgodnie z centralnym
twierdzeniem granicznym) o średniej µ. Zatem powyższe równanie
przedstawia wynik standardowy dla średniej z próby w odniesieniu do
rozkładu z próby średniej:
z = Xs−µ
X
+-1,96 odchylenia standardowego mieści 95% powierzchni rozkładu
normalnego
+-2,58 odchylenia standardowego mieści 99% powierzchni
Marcin Zajenkowski ()
Oszacowanie i rozkład t
9 / 31
Przedział ufności
Przy założeniu normalności z, istnieje 95% prawdopodobieństwo, że
prawdziwe jest następujące twierdzenie:
-1,96 ¬ z =
Marcin Zajenkowski ()
X −µ
sX
¬ 1,96
Oszacowanie i rozkład t
10 / 31
Przedział ufności
Aby przekształcić tę nierówność, tak aby odnosiła się do wyników
surowych, mnozymy wszystkie człony przez odchylenie i dodajemy
średnią, dostajemy:
X - 1,96 sX ¬ µ ¬ X + 1,96 sX
Ogólnie: odjęcie i dodanie do średniej odpowiedniej wartości z
pomnożonej przez odchylenie (błąd standardowy).
Marcin Zajenkowski ()
Oszacowanie i rozkład t
11 / 31
Przedział ufności
Wartości z dla prawdopodobieństw (z tablic) najczęściej przyjmowanych:
68% = 1
85% = 1,44
90% = 1,64
95% = 1,96
99% = 2,58
Marcin Zajenkowski ()
Oszacowanie i rozkład t
12 / 31
Przykład
Ustal przedział ufności. Średni iloraz inteligencji w grupie 100 uczniów
szkoły średniej wynosi 114, a odchylenie standardowe 17.
Marcin Zajenkowski ()
Oszacowanie i rozkład t
13 / 31
Rozwiązanie
sX = 1,7
Dolna granica: 110, 67
Górna granica: 117,33
Marcin Zajenkowski ()
Oszacowanie i rozkład t
14 / 31
Znaczenie
Gdyby pobierać dużą liczbę prób i sporządzać przedzaiły ufności dla
średniej, to 95% otrzymanych przedziałów zawierałoby średnią a 5% nie.
Marcin Zajenkowski ()
Oszacowanie i rozkład t
15 / 31
Zadanie 1
Dla tych samych danych ustal przedział z:
68% prawdopodobieństwem
99% prawdopodobieństwem
Marcin Zajenkowski ()
Oszacowanie i rozkład t
16 / 31
Zadanie 2
Aby wypróbować swój nowy samochód, pan Andrzej przejechał nim 36
razy na trasie Warszawa-Kolbuszowa. Obliczył, że jego samochód spalał
średnio 8 litrów benzyny, a odchylenie standardowe wynosiło 3. Zbuduj
przedział ufności dla tej średniej z 85% prawdopodobieństwem.
Marcin Zajenkowski ()
Oszacowanie i rozkład t
17 / 31
Zadanie 3
Oszacuj 95% i 99%
Zadanie Średnia
1
80
2
58
3
46
4
100
Marcin Zajenkowski ()
przedziały ufności dla danych:
P
N
(X − X )2
37 1296
64 249
35 350
32 496
Oszacowanie i rozkład t
18 / 31
Przedziały ufności dla średnich z prób małych
Rozkład z próby średniej, zbliża się do rozkładu normalnego wraz ze
wzrostem liczebności próby, niezależnie od kształtu rozkładu w
populacji.
Dla małych prób jednak często odbiega od normalnego.
W próbach małych stosuje się rozkład t.
Marcin Zajenkowski ()
Oszacowanie i rozkład t
19 / 31
Rozkład t
Analogicznie do stosunku z wprowadza się stosunek t:
t=
Marcin Zajenkowski ()
X −µ
sX
Oszacowanie i rozkład t
20 / 31
Rozkład t
Rozkład t nie jest normalny, ale zbliża się do rozkładu normalnego
wraz ze wzrostem n.
Rozkład t odbiega znacznie od normalnego przy małych próbach (np.
n=5)
Rozkład t nie jest pojedynczy, lecz to rodzina rozkładów.
Wygląda inaczej w zależności od wielkości próby (stopni swobody).
Marcin Zajenkowski ()
Oszacowanie i rozkład t
21 / 31
t.jpg
Marcin Zajenkowski ()
Oszacowanie i rozkład t
22 / 31
Stopnie swobody
Stopnie swobody – df (degrees of freedom)
Liczba wartości zmiennej które mogą się swobodnie zmieniać.
pomiary 10, 14, 6, 5, 5 mają odchylenia od średniej: 2, 6, -2, -3, -3.
Suma = 0. Jeżeli zatem znamy 4 z tych odchyleń to piąte jest
zdeterminowane.
Marcin Zajenkowski ()
Oszacowanie i rozkład t
23 / 31
Stopnie swobody
Przykład 1. Pomiary 10, 14, 6, 5, 5 mają odchylenia od średniej: 2, 6,
-2, -3, -3. Suma = 0. Jeżeli zatem znamy 4 z tych odchyleń to piąte
jest zdeterminowane.
Przykład 2. Średnia = 4, pomiary: 2,4 i ?
Ostatni musi być 6
Marcin Zajenkowski ()
Oszacowanie i rozkład t
24 / 31
Stopnie swobody
Przykład 1. Pomiary 10, 14, 6, 5, 5 mają odchylenia od średniej: 2, 6,
-2, -3, -3. Suma = 0. Jeżeli zatem znamy 4 z tych odchyleń to piąte
jest zdeterminowane.
Przykład 2. Średnia = 4, pomiary: 2,4 i ?
Ostatni musi być 6
Marcin Zajenkowski ()
Oszacowanie i rozkład t
24 / 31
Obszar pod rozkładem t
Rozkład t ma średnią = 0.
Obszar pod krzywą jest inny niż w rozkładzie normalnym – zależy od
wielkości próby, czyli od stopni swobody
Marcin Zajenkowski ()
Oszacowanie i rozkład t
25 / 31
Marcin Zajenkowski ()
Oszacowanie i rozkład t
26 / 31
Rozkład t - Studenta
Rozkład t – Studenta. Twórca William Gossett, pisał pod
pseudonimem Student.
Przy dużym N, rozkład t jest taki sam jak rozkład normalny.
Niektórzy przyjmują, że duże N – powyżej 30.
Marcin Zajenkowski ()
Oszacowanie i rozkład t
27 / 31
Przedziały ufności dla średnich z prób małych
Np. średnia = 24,26, odchylenie=8
Błąd standardowy = 2
Wartość t dla 95% powierzchni przy 15 df wynosi 2,13 po obu
stronach średniej
Granice to 24,26 – 4,26; 24,26 + 4,26
20; 28,52
Marcin Zajenkowski ()
Oszacowanie i rozkład t
28 / 31
Zadanie
Oszacuj 95% i 99% granice ufności dla średniej=20, N = 9 i s = 6.
Marcin Zajenkowski ()
Oszacowanie i rozkład t
29 / 31
Zadanie
Znajdź taką wartość t dla df = 20, aby część powierzchni pod krzywą:
na prawo od t wynosiła 0,025
na lewo od t wynosiła 0,0005
między średnią a t wynosiła 0,45
między +-t wynosiła 0,90
Marcin Zajenkowski ()
Oszacowanie i rozkład t
30 / 31
Zadanie
Oszacuj 95% i 99% granice ufności dlaśredniej=40, N=400 i s=15
Marcin Zajenkowski ()
Oszacowanie i rozkład t
31 / 31
Zadanie
Jaka część rozkładu pod krzywą t mieści się:
poniżej t= - 2,262, przy df =9
powyżej t = -1,476 przy df=5
między t=+-2,228, przy df=10
między t=-1,533 i t=2,776 przy df=4
Marcin Zajenkowski ()
Oszacowanie i rozkład t
32 / 31

Podobne dokumenty