rozkład populacji

Transkrypt

rozkład populacji
PODSTAWY STATYSTYKI
1. Teoria prawdopodobieństwa i elementy kombinatoryki
2. Zmienne losowe i ich rozkłady
3. Populacje i próby danych, estymacja parametrów
4. Testowanie hipotez
5. Testy parametryczne
6. Testy nieparametryczne
7. Korelacja liniowa i rangowa
8. Regresja prosta
9. Analiza wariancji
Populacja i próba
1. Rozkład populacji (teoretyczny) i próby
(empiryczny)
2. Parametry populacji i ich estymatory
3. Tworzenie próby, błąd przypadkowy (próbkowania)
4. Statystyczny opis próby
5. Błąd standardowy średniej arytmetycznej
6. Przedziały ufności dla średniej
Populacja i próba
Populacja
Próba
pobieranie
wnioskowanie
Rozkład teoretyczny
Przykłady:
 jednostajny
 dwumianowy
 normalny
Rozkład empiryczny
Wartości cechy w próbie
i ich częstości
Populacja i próba
Przykład 1: plenność pewnej rasy świń
Cała populacja (standardy rasowe plenności)
0,10
0,09
0,08
0,07
0,06
0,05
Rozkład teoretyczny
0,04
0,03
0,02
0,01
0,00
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19
Próba: liczebność miotów 100 macior
0,16
0,14
0,12
0,10
Rozkład empiryczny
0,08
0,06
0,04
0,02
0,00
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19
Populacja i próba
Przykład 1: plenność pewnej rasy świń
Rozkład teoretyczny
 pokazuje
prawdopodobieństwa
0,10
0,09
0,08
0,07
0,06
0,05
 jest symetryczny
0,04
0,03
0,02
0,01
0,00
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19
 pokazuje częstości
Rozkład empiryczny
 może być skośny
0,16
 mogą być braki
wartości
0,14
0,12
0,10
0,08
ale:
0,06
0,04
PRZYPOMINA TEORETYCZNY
(im większa próba tym bardziej)
0,02
0,00
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19
Populacja i próba
Przykład 2: zawartość tłuszczu w mleku
Rozkład teoretyczny – rozkład normalny
POPULACJA:
0,5
 rozkład przedstawia
prawdopodobieństwa
0,4
0,3
 jest symetryczny
0,2
PRÓBA:
0,1
x

0
Rozkład empiryczny
 konstruuje się szereg
rozdzielczy (klasy wartości)
 rozkład przedstawia
częstości wartości w klasach
0,25
 może być skośny
0,2
 mogą być braki wartości
0,15
0,1
0,05
0
1
2
3
4
5
6
7
8
9
10
ale:
PRZYPOMINA TEORETYCZNY
(im większa próba tym bardziej)
Populacja i próba
Podstawowe parametry
opisujące rozklad
Dodatkowe parametry
opisujące rozkład
 Wartość oczekiwana
E X
 Mediana (wartość
środkowa, Me)
n
 
xi pi
i 1
 Współczynniki
skośności
 Wariancja
  E X   
2
2
x
gdzie
  E( X )
 Modalna (wartość
najczęstsza, Mo)
 Wiele innych
Populacja i próba
Populacja
Próba
ESTYMATORY
PARAMETRY
n

n
E(X )   

xi pi
xi
i 1
ˆ  x 
n
i 1
n
2
x
  E[ X   ]
2
ˆ x2  s x2 
2
(
x

x
)
 i
i 1
n
Populacja i próba
Próba
ESTYMATORY (oszacowania wartości parametrów)
1
x 
n
n

xi
i 1
Średnia arytmetyczna to dobry
estymator wartości oczekiwanej
(1)
(2)
1
2
sx 
n
n
2
(
x

x
)
 i
i 1
n
1
2
s x2 
(
x

x
)

i
n  1 i 1
Wariancja w próbie jest dobrym
estymatorem wariancji w
populacji, jeśli obliczamy ją
według wzoru (2)
Populacja i próba
Populacja
Próba
pobieranie
Pobieranie próby:
 liczebność próby
 powtórzenia (replikacje)
 wybór losowy lub nielosowy
Populacja i próba
Populacja
Próba
pobieranie
Liczebność próby: im większa tym lepsze dopasowanie
rozkładu i tym dokładniejsza ocena prarametrów
Populacja i próba
  170
x  175
x  165
x  171
x  169
Powtórzenia czyli replikacje zwiększają wiarygodność wniosków
Populacja i próba
Populacja
Próba
pobieranie
Próba systematyczna
(stosowanie różnych
kryteriów wyboru) –
doświadczalnictwo,
sondaże.
Próba losowa prosta
(wybór przypadkowy) –
do badania populacji
biologicznych.
Próba losowa powinna
być możliwie liczna.
Populacja i próba
  170
x  175
x  165
x  171
x  169
Różnica między  a średnią z próby – to błąd przypadkowy (błąd próbkowania)
Populacja i próba
Próba
OPIS STATYSTYCZNY PRÓBY
1
x 
n
1)
Sporządzenie szeregu liczbowego
wartości
2)
Określenie wartości maksymalnej,
minimalnej, rozstępu wartości,
mediany i modalnej, etc.
3)
Skonstruowanie szeregu rozdzielczego
i uzyskanie rozkładu empirycznego
(histogram)
4)
Obliczenie średniej i wariancji
(odchylenia standardowego)
5)
Określenie dokładności uzyskanych
estymatorów
n

xi
i 1
n
1
2
s x2 
(
x

x
)

i
n  1 i 1
ALE JAK?
Populacja i próba
JAK określić
dokładność
estymatorów?
Nie znamy
prawdziwej wartości
parametru
 ?
x  175
x  165
x  171
NIE ZNAMY wielkości błędu próbkowania!!!
x  169
Populacja i próba
Jak określić dokładność estymatora, np. średniej arytmetycznej?
 ?
x  175
x  165
x  171
x  169
Potraktować estymator jako zmienną losową i znaleźć jego rozkład.
Np. średnia arytmetyczna jest zmienną losową o określonym rozkładzie.
Populacja i próba
Jak określić dokładność średniej arytmetycznej?
 ?
x  175
Jeżeli
x  165
x ~ N ( , )
to
x  171

x ~ N ( ,
)
n
x  169
gdzie: n to
liczebność próby
Populacja i próba
x ~ N ( , )

x ~ N ( ,
)
n
0,5
0,4
0,3
0,2
0,1
0


O zmienności (rozrzucie) średniej świadczy jej standardowe odchylenie
Populacja i próba
Na standardowe odchylenie estymatora mówimy: BŁĄD STANDARDOWY

x ~ N ( ,
)
n
BŁĄD STANDARDOWY jest miarą dokładności estymatora
WAŻNE: nawet, gdy próba pochodzi z populacji o rozkładzie
innym niż normalny, rozkład średniej z n-elementowej próby,
wraz ze wzrostem n coraz lepiej odpowiada rozkładowi
normalnemu

N ( ,
)
n
Czyżby centralne
twierdzenie
graniczne?
Populacja i próba
Jak obliczyć błąd standardowy średniej z konkretnej próby?
odchylenie standardowe w próbie danych:
N
2
 x  x 
Sx
Sx 
n
i
Sx 
i 1
n 1
liczebność próby danych
Pytania:
 W jaki sposób błąd standardowy określa dokładność estymatora („im
większy błąd, tym …)?
 Od czego zależy wielkość błędu standardowego?
Populacja i próba
Błąd standardowy średniej arytmetycznej
 określa dokładność estymatora średniej
 można go wykorzystać do określenia
przedziału liczbowego, w którym z wysokim
Sx
Sx 
n
prawdopodobieństwem znajduje się
prawdziwa wartość oczekiwana 
 taki przedział to PRZEDZIAŁ UFNOŚCI
Pojęcie „przedział ufności” stworzył, opracował i wprowadził do
statystyki polski matematyk
Populacja i próba
Ogólnie:
Przedział ufności parametru, określony na poziomie ufności 1-  to
taki przedział liczbowy, w którym z prawdopodobieństwem 1- 
znaduje się prawdziwa wartość parametru.
Przedział ufności wartości średniej , określony na poziomie ufności 1-  to
taki przedział liczbowy
( x1 , x2 ) , w którym z prawdopodobieństwem 1- 
znaduje się prawdziwa wartość 
P( x1    x2 )  1  
granice przedziału ufności
Populacja i próba
Dwa podstawowe
poziomy ufności
(1)
P( x1    x2 )  1  
(2)
dla  = 0,05 → 1–  = 0,95
95% przedział ufności
x
dla  = 0,01 → 1–  = 0,99
99% przedział ufności
x
Populacja i próba
Jak obliczyć wartości wyznaczające przedział ufności ?
1.
Wariancja populacji znana (lub próba bardzo liczna, n>30)
x1  x  z Sx
2.
x2  x  z Sx , z ~ N(0,1)
Wariancja populacji nieznana (mała próba)
x1  x  t , N 1S x
x2  x  t , N 1S x , t ~ rozkl.t Studenta
zα ( tα) – wartości krytyczne: takie wartości zmiennej losowej, że
prawdopodobieństwo, że zmienna przyjmie wartość mniejszą od –zα (–
tα ) lub większą od zα ( tα) , wynosi α
P ( z  z )  
Populacja i próba
Przykład: obliczono przedziały ufności dla wartości oczekiwanej cechy nieśność
poczatkowa kur, próba liczyła 30 pomiarów, średnia wyniosła 219, standardowe
odchylenie 33.
95% przedział ufności
 = 0,05 → 1–  = 0,95
x
208 <  < 230
99% przedział ufności
 = 0,01 → 1–  = 0,99
x
205 <  < 234
Pytanie:
Jak poziom ufności wpływa na długość przedziału?
PRZEDZIAŁ UFNOŚCI ŚREDNIEJ ARYTMETYCZNEJ
Zastosowanie przedziałów ufności:
• określanie (na podstawie wartości estymatora) przedziału
liczbowego, w którym znajduje się prawdziwa wartość parametru
(estymacja przedziałowa)
• sprawdzanie, czy próba pochodzi z populacji o znanych
parametrach, czy dwie próby pochodzą z tej samej populacji
(weryfikacja hipotez)
x  175
  170
x  165
Szczegóły na ćwiczeniach – ZAPRASZAM!
Populacja i próba
1. Rozkład populacji (teoretyczny) i próby
(empiryczny)
2. Parametry populacji i ich estymatory
3. Tworzenie próby danych, błąd próbkowania
4. Statystyczny opis próby
5. Błąd standardowy średniej arytmetycznej
6. Przedziały ufności dla średniej