Wykłady 8 i 9: Elementy rachunku prawdopodobie´nstwa i statystyki
Transkrypt
Wykłady 8 i 9: Elementy rachunku prawdopodobie´nstwa i statystyki
Wykłady 8 i 9: Elementy rachunku prawdopodobieństwa i statystyki dr Mariusz Grzadziel ˛ 29 czerwca, 6 lipca 2013 Podstawowe poj˛ecia Biolodzy: -badaja˛ pojedyncze rośliny lub zwierz˛eta; -chcemy rozszerzyć wnioski na wszystkich przedstawicieli gatunku lub odmiany: -można to osiagn ˛ ać ˛ wykonujac ˛ analiz˛e statystyczna.˛ Definicja 1. Populacja˛ nazywamy zbiorowość (skończona˛ lub nieskończona), ˛ w stosunku do której maja˛ być formułowane wnioski. Próba˛ jest natomiast skończona cz˛eść populacji. Stosowane podejścia • metody analizy danych: statystyki opisowe, metody graficzne • wnioskowanie statystyczne- oparte na metodach i poj˛eciach teorii prawdopodobieństwa Podstawowe poj˛ecia Zazwyczaj jesteśmy zainteresowani kilkoma konkretnymi cechami populacji. Cechy: -jakościowe (kolor oczu, kolor włosów itd.) -ilościowe (masa zwierzat, ˛ liczba jaj składanych przez określony gatunek ptaków itd.) Jeśli w badaniach ograniczamy si˛e do jednej cechy- populacja jednocechowa. Np. badajac ˛ badajac ˛ zwierz˛eta określonego gatunku możemy być zainteresowani tylko ich temperatura˛ itd. Przykład Dane normtemp— zebrane w celu weryfikacji hipotezy mówiacej, ˛ że średnia wartość temperatury zdrowego człowieka jest równa 98,6 stopni w skali Fahrenheita (37,0 stopni w skali Celsjusza). Dane nt. temperatury i t˛etna (temperatura- stopnie Fahrenheita) Można je pobrać z odpowiedniego repozytorium a nast˛epnie zapisać do zbioru o nazwie np. t (tzw. „data frame”). Zbiór t składa si˛e z trzech zmiennych: temperature, gender i hr. Aby uczynić nasza˛ prezentacj˛e bardziej czytelna,˛ zmieniamy nazwy zmiennych na odpowiednio: temp, plec i tetno. Odpowiednie polecenia systemu R sa˛ zapisane w pliku t.R. Wydruk tego pliku zamieszczamy poniżej (na nast˛epnym slajdzie): 1 Pobieranie zbioru danych z repozytorium systemu R library(utils) install.packages(c("UsingR"), repo="http://cran.r-project.org") library(UsingR) t<-normtemp names(t)<-c("temp","plec","tetno") Plik xls z omawianymi danymi można pobrać ze strony: http://www2.stetson.edu/~jrasp/data/Normtemp.xls System R 3.01 można pobrać pod adresem http://r.meteo.uni.wroc.pl/bin/windows/base/ Pobieranie zbioru danych z repozytorium systemu R > names(t) [1] "temp" "plec" "tetno" > t[1:10,] temp plec tetno 1 96.3 1 70 2 96.7 1 71 3 96.9 1 74 4 97.0 1 80 5 97.1 1 73 6 97.1 1 75 7 97.1 1 82 8 97.2 1 64 9 97.3 1 69 10 97.4 1 70 > sort(t$temp) [1] 96.3 96.4 96.7 96.7 [9] 97.1 97.1 97.2 97.2 ... [129] 100.0 100.8 96.8 97.2 96.9 97.3 97.0 97.4 97.1 97.4 Szereg rozdzielczy Dla zbioru danych liczbowych {y1 , y2 . . . , yN } niech: M IN 1 oznacza liczb˛e mniejsza˛ od najmniejszej z liczb {y1 , y2 . . . , yN } M AX1 oznacza liczb˛e wi˛eksza˛ lub równa˛ od najwi˛ekszej z liczb {y1 , y2 . . . , yN } M IN 1 i M AX1 moga˛ być odpowiednimi zaokragleniami ˛ wartości, odpowiednio, minimalnej i maksymalnej naszego zbioru danych M IN 1 < M AX1. Podzielmy odcinek (M IN 1, M AX1] na k przedziałów (zwanych klasami) o równej długości: (x0 , x1 ], (x1 , x2 ], . . . , (xk−1 , xk ], gdzie x0 = M IN 1, xk = M AX1. Funkcj˛e przyporzadkowuj ˛ ac ˛ a˛ poszczególnym przedziałom liczb˛e elementów naszego zbioru danych do nich należacych ˛ b˛edziemy nazywać szeregiem rozdzielczym. Liczb˛e klas k w szeregu rozdzielczym wyznaczamy korzystajac ˛ z wzorów: √ 3 n . k ≈ log2 n + 1 lub k ≈ 4 2 Szereg rozdzielczy— dane NT √ Przyjmujemy: M IN 1 = 96, M AX1 = 101, k = 10 ≈ 3 4130 . Zakładajac, ˛ że dane dotyczace ˛ temperatury zdrowych ludzi znajduja˛ si˛e w zmiennej t$temp konstruujemy szereg rozdzielczy w środowisku R: > table(cut(t$temp, breaks = c(96,96.5,97,97.5,98, + 98.5,99,99.5,100,100.5,101))) (96,96.5] (96.5,97] (97,97.5] (97.5,98] 2 5 14 30 (98,98.5] (98.5,99] (99,99.5] (99.5,100] 30 35 11 2 (100,100.5] (100.5,101] 0 1 Histogram- dane NT Wykres słupkowy odpowiadajacy ˛ szeregowi rozdzielczemu-histogram liczebności 20 15 0 5 10 Frequency 25 30 35 Histogram of t$temp 96 97 98 99 100 101 t$temp Rysunek 1: Histogram dla danych NT odpowiadajacy ˛ szeregowi rozdzielczemu z poprzedniego slajdu Histogram probabilistyczny- dane NT Histogram probablistyczny-tak wyskalowany, aby "pole pod nim było równe 1": wy2 5 skości słupków: 130×0,5 , 130×0,5 , . . .; histogram probabilistyczny- przez niektórych definiowany jako funkcja przedziałami ciagła ˛ (stała), której wykres "pokrywa si˛e" z zdefiniowanym wyżej wykresem słupkowym Histogram probabilistyczny-funkcja przedziałami ciagła ˛ 2 130×0,5 , dla x ∈ (96; 96,5] 5 , dla x ∈ (96,5, 97] 130×0,5 h(x) = . . . 1 130×0,5 , dla x ∈ (100,5; 101] 3 0.3 0.2 0.0 0.1 Density 0.4 0.5 Histogram of t$temp 96 97 98 99 100 101 t$temp Rysunek 2: Histogram probabilistyczny dla danych NT Frakcja obserwacji należacych ˛ do (96; 97] Z 97 1 2 5 7 h(x)dx = + = ≈ 0,054. 2 130 × 0,5 130 × 0,5 130 96 Konstrukcja histogramu probabilistycznego— przypadek ogólny W ogólnym przypadku wysokość k-tego słupka histogramu probabilistycznego (wartość funkcji dla argumentów należacych ˛ do k-tej klasy) jest równa nndk , gdzie • nk jest liczebnościa˛ k − tej klasy, • d jest długościa˛ klasy, • n jest liczba˛ obserwacji. Funkcja h — „histogram probabilistyczny” — zdefiniowana wzorem: ( nk , x należy do k-tej klasy, h(x) = nd 0, x nie należy do żadnej z klas. Dziedzina˛ funkcji h jest zbiór liczb rzeczywistych R. Histogram probabilistyczny i g˛estość cechy Chcemy obliczyć frakcj˛e osób majacych ˛ temperatur˛e w przedziale (96; 97] w populacji wszystkich dorosłych zdrowych ludzi (a także w innych przedziałach [a, b]). Zamiast histogramu probabilistycznego do obliczeń można użyć funkcj˛e ciagł ˛ a˛ f , która go sensownie „wygładza”; szukana frakcja: Z 97 f (x)dx 96 Wielobok cz˛estotliwości Prosta recepta na wygładzenie histogramu probabilistycznego: wielobok cz˛estotliwości. W ogólnym przypadku: odcinek (M IN 1, M AX1] na k przedziałów (zwanych klasami) o równej długości: (x0 , x1 ], (x1 , x2 ], . . . , (xk−1 , xk ], 4 gdzie x0 = M IN 1, xk = M AX1 Niech: H = x1 − x0 , x̄i = xi − H/2, i = 0, . . . , k; x̄k+1 = x0 + H/2 Wielobok cz˛estotliwości powstaje z połaczenia: ˛ (x̄0 , 0), (x̄1 , h(x̄1 )), . . . , (x̄k , h(x̄k )), (x̄k+1 , 0) Histogram+wielobok cz˛estotliwości 0.3 0.2 0.0 0.1 Density 0.4 0.5 Histogram of t$temp 96 97 98 99 100 101 t$temp Rysunek 3: Histogram+wielobok cz˛estotliwości Uwagi o wykresach dla danych jakościowych Dla danych jakościowych, np. dotyczacych ˛ składu wyznaniowego Warszawy w roku 1864, można sprzadzić ˛ odpowiednie wykresy słupkowe lub kołowe— por. J. Koronacki, J. Mielniczuk, Statystyka dla kierunków technicznych i przyrodniczych, WNT 2001, paragraf 1.2.1, str. 14–17. Wskaźniki sumaryczne Histogram— sugestywny środek syntezy informacji zawartej w zbiorze danych; wskaźniki sumaryczne — miary liczbowe pozwalajace ˛ na zwi˛ezły opis zbioru danych — lub populacji (zbiorowości), z której ten zbiór danych został wybrany. Wskaźniki: -położenia — określaja˛ centrum zbioru danych; -rozproszenia — określaja˛ rozproszenie cechy wokół wskaźnika położenia. Wskaźniki położenia Niech x1 , x2 , . . . , xn oznacza prób˛e o liczności n. Definicja 2. Wartościa˛ średnia˛ w próbie, oznaczana˛ x̄, nazywamy średnia˛ arytmetyczna˛ n 1X x̄ = xi . n i=1 Dla danych NT (dotyczacych ˛ temperatur zdrowych ludzi): x̄ = 1 (96,3 + 96,4 + . . . + 100,8) ≈ 98,25 130 5 0 2 4 6 8 10 histogram dla zbioru danych PENSJE 2000 4000 6000 8000 10000 12000 14000 pensje Rysunek 4: Histogram dla danych PENSJE Mediana Średnia w próbie — sensowna, gdy histogram jest w przybliżeniu symetryczny. Przykład. Wynagrodznie pracowników w pewnej firmie: 2400 zł (1 osoba), 2900 zł (9 osób), 3100 zł (6 osób), 3400 zł (5 osób), 4100 zł (4 osoby), 4800 zł (2 osoby), 6000 zł (2 osoby), 6500 zł (1 osoba), 14000 zł (1 osoba). Średnia wynagrodzenie wynosi: 2400+9×2900+6×3100+5×3400+4×41002×4800+2×6000+14000 ≈ 31 3954,84 Można oczekiwać, że histogram dla tych danych nie b˛edzie symetryczny. Mediana— c.d. Histogram dla danych PENSJE nie jest symetryczny— ma „prawy ogon” dłuższy niż „lewy ogon”. Nawiazuj ˛ ac ˛ do terminologii z ksia˛żki J. Koronackiego i J. Mielniczuka (Rozdz. 1.2) jest on prawostronnie skośny. Analogicznie określamy lewostronna˛ skośność histogramu. Dla danych PENSJE bardziej sensownym wskaźnikiem położenia niż srednia jest tzw. mediana. Mediana— definicja Uporzadkowane ˛ niemalejaco ˛ elementy próby x1 , x2 , . . . , xn oznaczmy przez x(1) , x(2) , . . . , x(n−1) , x(n) , gdzie x(1) ¬ x(2) ¬ . . . ¬ x(n−1) ¬ x(n) . Dla danych PENSJE: x(1) = 2400; x(2) = x(3) = . . . = x(10) = 2900; x(11) = x(12) = . . . = x(16) = 3100; x(17) = x(18) = . . . = x(21) = 2900 ... x(30) = 6500 x(31) = 14000 Definicja 3. Mediana˛ w próbie (lub mediana˛ próby), oznaczna˛ xmed nazywamy nast˛epujac ˛ a˛ wielkość ( x((n+1)/2) , jeśli n jest nieparzyste, xmed = 1 (x + x ), jeśli n jest parzyste. (n/2) (n/2+1) 2 Cecha˛ mediany jest odporność na obserwacje odstajace, ˛ czyli wartości bardzo wyraźnie odstajace ˛ od innych obserwacji w próbie. Jeśli w danych PENSJE 14000 zamienić na 140000, wartość mediany si˛e nie zmieni! 6 Wskaźniki rozproszenia Definicja 4. Rozst˛epem próby o liczności n, oznaczanym przez R, nazywamy różnic˛e R = x(n) − x(1) gdzie x(1) i x(n) sa,˛ odpowiednio, najmniejszym i najwi˛ekszym elementem w próbie. Definicja 5. Wariancj˛e w próbie, oznaczana˛ przez s2 , określamy wzorem n s2 = 1 X (xi − x̄)2 , n − 1 i=1 gdzie x̄ oznacza średnia˛ w próbie. Pierwiastek z wariancji nazywamy odchyleniem standardowym w próbie; oznaczamy go przez s. Wskaźniki rozproszenia— przykład Dla danych dotyczacych ˛ temperatury zdrowych ludzi (zbiór danych NT) rozst˛ep jest równy: x(130) − x(1) = 100,8 − 96,3 = 4,5, wariancja jest równa: s2 ≈ 1 (96,2 − 98,25)2 + (96,3 − 98,25)2 + . . . + (100,8 − 98,25)2 ≈ 0,538 129 a odchylenie standardowe: √ s= s2 = p 0,538 ≈ 0,733. Histogram+wielobok cz˛estotliwości 0.3 0.2 0.0 0.1 Density 0.4 0.5 Histogram of t$temp 96 97 98 99 100 101 t$temp Rysunek 5: Histogram+wielobok cz˛estotliwości Problem: znaleźć krzywa˛ gładka˛ przybliżajac ˛ a˛ histogram— taka,˛ że pole pod nia˛ jest równe 1; krzywa taka odpowiadałaby pewnej funkcji różniczkowalnej i nieujemnej. G˛estość normalna G˛estość normalna φµ,σ (dla paramerów µ ∈ R, σ > 0) funkcja określona wzorem: φµ,σ (x) = (x−µ)2 1 √ e− 2σ2 . σ 2π 7 Zauważmy,że φµ,σ (x) = 1 1 √ e− 2 σ 2π x−µ σ 2 = 1 x − µ 1 2 √ exp − , 2 σ σ 2π a wi˛ec funkcja φµ,σ (x) może być przedstawiona jako φµ,σ (x) = 1 φ0,1 (g(x)), σ 0.0 0.1 0.2 0.3 0.4 gdzie g(x) = x−µ σ . Uwaga. B˛edziemy w dalszym ciagu ˛ używać oznaczenia φ(x) = φ0,1 (x). Funkcja φ(x) odpowiada tzw. standardowemu rozkładowi normalnemu. −4 −2 0 2 4 Rysunek 6: Wykresy g˛estości rozkładów normalnych z parametrami µ = 0 i σ = 1 (linia ciagła), ˛ µ = 0 i σ = 2 (linia „kropkowana”), µ = 2 i σ = 1 (linia „kreskowana”). Problem doboru parametrów µ i σ dla konkretnych danych Problem: chcemy wybrać parametry µ i σ tak, aby wykres funkcji φµ,σ (x) był możliwie najlepiej „dopasowany” do histogramu probabilistycznego sporzadzonego ˛ dla danych NT. W praktyce: odpowiedni histogram probabilistyczny „aproksymujemy” g˛estościa˛ normalna˛ z parametrami • µ równemu x̄ (średniej z próby); • σ równemu s (odchyleniu standardowemu z próby). Dla danych NT: x̄ = 98,25, s = 0,733. Histogram+ krzywa normalna Rozkład normalny — obliczenia Jesteśmy zainteresowani obliczeniem frakcji obserwacji w populacji, której g˛estość ma rozkład normalny z parametrami µ i σ, odpowiadajacej ˛ przedziałowi [a, b]. Jest ona równa całce 8 0.5 0.4 0.3 0.2 0.1 0.0 96 97 98 99 100 101 temperatura Rysunek 7: Histogram probabilistyczny dla danych NT z dołaczonym ˛ wykresem g˛estości normalnej z parametrami µ = 98,25 i σ = 0,733. Z 97 φµ,σ (x)dx. 96 Można pokazać, że wyznaczenie całki nieoznaczonej dla φµ,σ (x) przy użyciu skończonej liczby operacji (takich jak dodawanie funkcji, składanie funkcji) na podstawowych funkcjach elementarnych nie jest możliwe. Inaczej mówiac: ˛ żadna z funkcji pierwotnych dla φµ,σ (x) nie jest funkcja˛ elementarna.˛ Rozwiazanie ˛ problemu: można pokazać, że Z x − µ + C, φµ,σ (x)dx = Φ σ gdzie Φ(x) oznacza funkcj˛e pierwotna˛ dla funkcji φ(x), która w punkcie x = 0 ma wartość 0,5. Stablicowane wartości funkcji Φ, dystrybuanty standardowego rozkładu normalnego, można znaleźć w podr˛ecznikach rachunku prawdopodobieństwa i statystyki. Mamy 97 97 − 98,25 96 − 98,25 φµ,σ (x)dx = Φ −Φ ≈ 0,043. 0,733 0,733 96 W jaki sposób można wykonać obliczenia przy użyciu tablic wartości funkcji Φ, w których sa˛ podane wartości tylko dla argumentów nieujemnych? Na przykład z tablic dost˛epnych na stronie prof. Agnieszki Jurlewicz (odpowiedni odnośnik znajduje si˛e na stronie naszego kursu). Należy skorzystać z równości Z Φ(t) = 1 − Φ(−t), która jest prawdziwa dla każdego t. Mamy 97 − 98,25 ≈ −1,705321 ≈ −1,71, 0,733 oraz Φ(−1,71) = 1 − Φ(1,71) ≈ 1 − 0,9564 = 0,0436. 9 Analogicznie 96 − 98,25 ≈ −3,069577 ≈ −3,07 0,733 i Φ(−3,07) = 1 − Φ(3,07) ≈ 1 − 0,9989 = 0,0011. 0.0 0.2 0.4 y 0.6 0.8 1.0 Różnica 0,0436 − 0,0011 = 0,0425 ≈ 0,043. −3 −2 −1 0 1 2 3 x Rysunek 8: Wykres funkcji Φ, dystrybuanty standardowego rozkładu normalnego 10