rozkład populacji
Transkrypt
rozkład populacji
PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne 6. Testy nieparametryczne 7. Korelacja liniowa i rangowa 8. Regresja prosta 9. Analiza wariancji Populacja i próba 1. Rozkład populacji (teoretyczny) i próby (empiryczny) 2. Parametry populacji i ich estymatory 3. Tworzenie próby, błąd przypadkowy (próbkowania) 4. Statystyczny opis próby 5. Błąd standardowy średniej arytmetycznej 6. Przedziały ufności dla średniej Populacja i próba Populacja Próba pobieranie wnioskowanie Rozkład teoretyczny Przykłady: jednostajny dwumianowy normalny Rozkład empiryczny Wartości cechy w próbie i ich częstości Populacja i próba Przykład 1: plenność pewnej rasy świń Cała populacja (standardy rasowe plenności) 0,10 0,09 0,08 0,07 0,06 0,05 Rozkład teoretyczny 0,04 0,03 0,02 0,01 0,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Próba: liczebność miotów 100 macior 0,16 0,14 0,12 0,10 Rozkład empiryczny 0,08 0,06 0,04 0,02 0,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Populacja i próba Przykład 1: plenność pewnej rasy świń Rozkład teoretyczny pokazuje prawdopodobieństwa 0,10 0,09 0,08 0,07 0,06 0,05 jest symetryczny 0,04 0,03 0,02 0,01 0,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 pokazuje częstości Rozkład empiryczny może być skośny 0,16 mogą być braki wartości 0,14 0,12 0,10 0,08 ale: 0,06 0,04 PRZYPOMINA TEORETYCZNY (im większa próba tym bardziej) 0,02 0,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Populacja i próba Przykład 2: zawartość tłuszczu w mleku Rozkład teoretyczny – rozkład normalny POPULACJA: 0,5 rozkład przedstawia prawdopodobieństwa 0,4 0,3 jest symetryczny 0,2 PRÓBA: 0,1 x 0 Rozkład empiryczny konstruuje się szereg rozdzielczy (klasy wartości) rozkład przedstawia częstości wartości w klasach 0,25 może być skośny 0,2 mogą być braki wartości 0,15 0,1 0,05 0 1 2 3 4 5 6 7 8 9 10 ale: PRZYPOMINA TEORETYCZNY (im większa próba tym bardziej) Populacja i próba Podstawowe parametry opisujące rozklad Dodatkowe parametry opisujące rozkład Wartość oczekiwana E X Mediana (wartość środkowa, Me) n xi pi i 1 Współczynniki skośności Wariancja E X 2 2 x gdzie E( X ) Modalna (wartość najczęstsza, Mo) Wiele innych Populacja i próba Populacja Próba ESTYMATORY PARAMETRY n n E(X ) xi pi xi i 1 ˆ x n i 1 n 2 x E[ X ] 2 ˆ x2 s x2 2 ( x x ) i i 1 n Populacja i próba Próba ESTYMATORY (oszacowania wartości parametrów) 1 x n n xi i 1 Średnia arytmetyczna to dobry estymator wartości oczekiwanej (1) (2) 1 2 sx n n 2 ( x x ) i i 1 n 1 2 s x2 ( x x ) i n 1 i 1 Wariancja w próbie jest dobrym estymatorem wariancji w populacji, jeśli obliczamy ją według wzoru (2) Populacja i próba Populacja Próba pobieranie Pobieranie próby: liczebność próby powtórzenia (replikacje) wybór losowy lub nielosowy Populacja i próba Populacja Próba pobieranie Liczebność próby: im większa tym lepsze dopasowanie rozkładu i tym dokładniejsza ocena prarametrów Populacja i próba 170 x 175 x 165 x 171 x 169 Powtórzenia czyli replikacje zwiększają wiarygodność wniosków Populacja i próba Populacja Próba pobieranie Próba systematyczna (stosowanie różnych kryteriów wyboru) – doświadczalnictwo, sondaże. Próba losowa prosta (wybór przypadkowy) – do badania populacji biologicznych. Próba losowa powinna być możliwie liczna. Populacja i próba 170 x 175 x 165 x 171 x 169 Różnica między a średnią z próby – to błąd przypadkowy (błąd próbkowania) Populacja i próba Próba OPIS STATYSTYCZNY PRÓBY 1 x n 1) Sporządzenie szeregu liczbowego wartości 2) Określenie wartości maksymalnej, minimalnej, rozstępu wartości, mediany i modalnej, etc. 3) Skonstruowanie szeregu rozdzielczego i uzyskanie rozkładu empirycznego (histogram) 4) Obliczenie średniej i wariancji (odchylenia standardowego) 5) Określenie dokładności uzyskanych estymatorów n xi i 1 n 1 2 s x2 ( x x ) i n 1 i 1 ALE JAK? Populacja i próba JAK określić dokładność estymatorów? Nie znamy prawdziwej wartości parametru ? x 175 x 165 x 171 NIE ZNAMY wielkości błędu próbkowania!!! x 169 Populacja i próba Jak określić dokładność estymatora, np. średniej arytmetycznej? ? x 175 x 165 x 171 x 169 Potraktować estymator jako zmienną losową i znaleźć jego rozkład. Np. średnia arytmetyczna jest zmienną losową o określonym rozkładzie. Populacja i próba Jak określić dokładność średniej arytmetycznej? ? x 175 Jeżeli x 165 x ~ N ( , ) to x 171 x ~ N ( , ) n x 169 gdzie: n to liczebność próby Populacja i próba x ~ N ( , ) x ~ N ( , ) n 0,5 0,4 0,3 0,2 0,1 0 O zmienności (rozrzucie) średniej świadczy jej standardowe odchylenie Populacja i próba Na standardowe odchylenie estymatora mówimy: BŁĄD STANDARDOWY x ~ N ( , ) n BŁĄD STANDARDOWY jest miarą dokładności estymatora WAŻNE: nawet, gdy próba pochodzi z populacji o rozkładzie innym niż normalny, rozkład średniej z n-elementowej próby, wraz ze wzrostem n coraz lepiej odpowiada rozkładowi normalnemu N ( , ) n Czyżby centralne twierdzenie graniczne? Populacja i próba Jak obliczyć błąd standardowy średniej z konkretnej próby? odchylenie standardowe w próbie danych: N 2 x x Sx Sx n i Sx i 1 n 1 liczebność próby danych Pytania: W jaki sposób błąd standardowy określa dokładność estymatora („im większy błąd, tym …)? Od czego zależy wielkość błędu standardowego? Populacja i próba Błąd standardowy średniej arytmetycznej określa dokładność estymatora średniej można go wykorzystać do określenia przedziału liczbowego, w którym z wysokim Sx Sx n prawdopodobieństwem znajduje się prawdziwa wartość oczekiwana taki przedział to PRZEDZIAŁ UFNOŚCI Pojęcie „przedział ufności” stworzył, opracował i wprowadził do statystyki polski matematyk Populacja i próba Ogólnie: Przedział ufności parametru, określony na poziomie ufności 1- to taki przedział liczbowy, w którym z prawdopodobieństwem 1- znaduje się prawdziwa wartość parametru. Przedział ufności wartości średniej , określony na poziomie ufności 1- to taki przedział liczbowy ( x1 , x2 ) , w którym z prawdopodobieństwem 1- znaduje się prawdziwa wartość P( x1 x2 ) 1 granice przedziału ufności Populacja i próba Dwa podstawowe poziomy ufności (1) P( x1 x2 ) 1 (2) dla = 0,05 → 1– = 0,95 95% przedział ufności x dla = 0,01 → 1– = 0,99 99% przedział ufności x Populacja i próba Jak obliczyć wartości wyznaczające przedział ufności ? 1. Wariancja populacji znana (lub próba bardzo liczna, n>30) x1 x z Sx 2. x2 x z Sx , z ~ N(0,1) Wariancja populacji nieznana (mała próba) x1 x t , N 1S x x2 x t , N 1S x , t ~ rozkl.t Studenta zα ( tα) – wartości krytyczne: takie wartości zmiennej losowej, że prawdopodobieństwo, że zmienna przyjmie wartość mniejszą od –zα (– tα ) lub większą od zα ( tα) , wynosi α P ( z z ) Populacja i próba Przykład: obliczono przedziały ufności dla wartości oczekiwanej cechy nieśność poczatkowa kur, próba liczyła 30 pomiarów, średnia wyniosła 219, standardowe odchylenie 33. 95% przedział ufności = 0,05 → 1– = 0,95 x 208 < < 230 99% przedział ufności = 0,01 → 1– = 0,99 x 205 < < 234 Pytanie: Jak poziom ufności wpływa na długość przedziału? PRZEDZIAŁ UFNOŚCI ŚREDNIEJ ARYTMETYCZNEJ Zastosowanie przedziałów ufności: • określanie (na podstawie wartości estymatora) przedziału liczbowego, w którym znajduje się prawdziwa wartość parametru (estymacja przedziałowa) • sprawdzanie, czy próba pochodzi z populacji o znanych parametrach, czy dwie próby pochodzą z tej samej populacji (weryfikacja hipotez) x 175 170 x 165 Szczegóły na ćwiczeniach – ZAPRASZAM! Populacja i próba 1. Rozkład populacji (teoretyczny) i próby (empiryczny) 2. Parametry populacji i ich estymatory 3. Tworzenie próby danych, błąd próbkowania 4. Statystyczny opis próby 5. Błąd standardowy średniej arytmetycznej 6. Przedziały ufności dla średniej