wykład 5 i 6
Transkrypt
wykład 5 i 6
Skróty wykladów ze SwZ (semestr zimowy, 2014/2015) Wyklad 5 i 6 Wyklad 5 i 6: Badanie zgodności SPRAWDZANIE NORMALNOŚCI ROZKLADU Chcemy sprawdzić, czy rozklad, z którego pochodzi prosta próba losowa, jest rozkladem normalnym. PRZYPOMNIENIE: Zmienna losowa X ∼ N (µ, σ) jeśli ma gȩstość dana̧ wzorem 1 1 2 f (x) = √ exp − 2 (x − µ) , x ∈ R, gdzie µ ∈ R, σ > 0. 2σ 2πσ Wykres tej gȩstości to tzw. krzywa gaussa: I. Metody graficzne sprawdzania normalności 1. Wykres skrzynkowy. Jeśli nie jest on symetryczny lub widać na nim dużo obserwacji odstaja̧cych (dla rozkladu normalnego N (µ, σ) średnio 7 obserwacji na 1000 znajduje siȩ poza przedzialem (Q1 − 1.5IQR, Q3 + 1.5IQR)), to uznajemy, że rozklad cechy w próbie znacznie odbiega od rozkladu normalnego. W przeciwnym przypadku, dane moga̧, ale nie musza̧, pochodzić z rozkladu normalnego i trzeba to sprawdzać innymi metodami. > boxplot(dane) Niestety wykresy skrzynowe sa̧ wiarygodne jedynie dla dużej liczności prób (jeśli mamy malo danych, to nie warto na nie patrzeć podczas badania normalności rozkladu). 2. Histogram czȩstości i ja̧drowy estymator gȩstości. > hist(dane,freq=F) > lines(density(dane)) Pierwsza z powyższych komend rysuje w R histogram czȩstości (nie liczności); druga nanosi na poprzednio wykonany rysunek ja̧drowy estymator gȩstości. 3. Wykres kwantylowy (Q-Q plot: quantile versus quantile plot). Jeśli próba losowa pochodzi z rozkladu normalnego N (µ, σ), to wykres kwantylowy jest zbiorem punktów leża̧cych mniej-wiȩcej na prostej y = σx + µ. 1 Skróty wykladów ze SwZ (semestr zimowy, 2014/2015) Wyklad 5 i 6 > qqnorm(dane) > qqline(dane) Pierwsza z powyższych komend rysuje w R wykres kwantylowy; druga nanosi na ten wykres liniȩ przechodza̧ca̧ przez kwartyle. Aby przyjrzeć siȩ powyżej opisanym metodom graficznym, wygenerujemy nastȩpuja̧ce cztery próby losowe. • Ze standardowego rozkladu normalnego N (0, 1), czyli z rozkladu o gȩstości f (x) = • Z rozkladu jednostajnego na odcinku (0, 1) U(0, 1), czyli z rozkladu o gȩstości 1, x ∈ (0, 1) f (x) = 0, x ∈ / (0, 1). Ogólnie, rozklad jednostajny na odcinku (a, b), oznaczany U(a, b), to rozklad o gȩstości 1 b−a , x ∈ (a, b) f (x) = 0, x∈ / (a, b). • Z rozkladu wykladniczego z parametrem λ = 1 Exp(1), czyli z rozkladu o gȩstości −x e , x>0 f (x) = 0, x ≤ 0. Ogólnie, rozklad wykladniczy z parametrem λ > 0, oznaczany Exp(λ), to rozklad o gȩstości λe−λx , x > 0 f (x) = 0, x ≤ 0. • Z rozkladu beta z parametrami a = 5 i b = 2 Beta(5, 2), czyli z rozkladu o gȩstości f (x) = Ogólnie, rozklad beta z parametrami a > 0, b > 0, oznaczany Beta(a, b), to rozklad o gȩstości f (x) = 1 a−1 (1 B(a,b) x 0, − x)b−1 , x ∈ (0, 1) , gdzie B(a, b) = x∈ / (0, 1) Z wykresów gȩstości widać, że • N (0, 1) oraz U(0, 1) to rozklady symetryczne; • Exp(1) to rozklad o asymetrii dodatniej (prawostronnej); • Beta(5, 2) to rozklad o asymetrii ujemnej (lewostronnej); • U(0, 1) jest bardziej plaski niż rozklad normalny. 2 Z 0 1 xa−1 (1 − x)b−1 dx. Skróty wykladów ze SwZ (semestr zimowy, 2014/2015) Wyklad 5 i 6 II. Testy normalności Wyróżnia siȩ dwa rodzaje testów normalności: • testy uniwersalne: H0 : rozklad, z którego pochodzi badana próba losowa, jest normalny H1 : rozklad, z którego pochodzi badana próba losowa, nie jest normalny • testy kierunkowe: badamy pewna̧ ustalona̧ wlasność rozkladu normalnego, np. sprawdzamy czy rozklad, z którego pochodzi badana próba losowa, jest rozkladem symetrycznym (test skośności) albo czy jest rozkladem o kurtozie równej zero (test kurtozy). Test skośności: H0 : rozklad, z którego pochodzi badana próba losowa, jest symetryczny H1 : rozklad, z którego pochodzi badana próba losowa, nie jest symetryczny (czyli jest skośny) UWAGA: Ściśle rzecz biora̧c, nie testujemy tu normalności rozkladu, lecz jedynie jego symetriȩ. Test kurtozy: H0 : rozklad, z którego pochodzi badana próba losowa, ma kurtozȩ równa̧ zero H1 : rozklad, z którego pochodzi badana próba losowa, ma kurtozȩ różna̧ od zera UWAGA: Ściśle rzecz biora̧c, nie testujemy tu normalności rozkladu, lecz jedynie sprawdzamy czy jego kurtoza wynosi zero. Przyjeliśmy tu definicjȩ kurtozy zmiennej losowej, wedlug której kurtoza rozkladu normalnego wynosi zero (a nie 3). > install.packages(”fBasics”) > library(fBasics) > dagoTest(dane) Testy uniwerslane 1. Test Shapiro-Wilka Zaproponowany w 1965 r. jest to dziś uznawany za najlepszy test uniwersalny normalności rozkladu. Konstrukcja tego testu opiera siȩ na wykresie kwantylowym. Dokladniej, wyznacza siȩ liniȩ, która jest możliwie najlepiej dopasowana do punktów tego wykresu (mówia̧c precyzyjniej, wyznacza siȩ tzw. prosta̧ regresji) i nastȩpnie bada siȩ stopień dopasowania tych punktów do owej prostej. > shapiro.test(dane) 2. Test Andersona-Darlinga > install.packages(”nortest”) > library(nortest) > ad.test(dane) 3. Test Craméra-von Misesa > install.packages(”nortest”) > library(nortest) > cvm.test(dane) W porównaniu z testem Craméra-von Misesa, test Andersona-Darlinga zwraca wiȩksza̧ uwagȩ na ogony rozkladu. 3 Skróty wykladów ze SwZ (semestr zimowy, 2014/2015) Wyklad 5 i 6 4. Test Lilliefors’a > install.packages(”nortest”) > library(nortest) > lillie.test(dane) Test Lilliefors’a sprawuje siȩ średnio gorzej niż test Andersona-Darlinga i test Craméra-von Misesa. TESTOWANIE ZGODNOŚCI Z ROZKLADEM LOG-NORMALNYM LN (µ, σ) Fakt. X ∼ LN (µ, σ) ⇐⇒ Y := ln X ∼ N (µ, σ) Sta̧d, sprawdzanie czy dane x1 , x2 , . . . , xn pochodza̧ z rozkladu log-normalnego jest równoważne sprawdzaniu czy dane przeksztacone: y1 := ln x1 , y2 := ln x2 , . . . , yn := ln xn pochodza̧ z rozkladu normalnego (jeśli x1 , x2 , . . . , xn rzeczywiście pochodza̧ z rozkladu log-normalnego, to musza̧ być dodatnie ⇒ ich logarytmy sa̧ dobrze zdefiniowane). TESTOWANIE ZGODNOŚCI Z DOWOLNYM ROZKLADEM 1. Test zgodności χ2 -Pearsona Test zgodności χ2 -Pearsona UWAGA: jeżeli wyznaczona wartść statystyki χ2 należy do zbioru krytycznego W , to H0 odrzucamy. Hipoteza zerowa H0 : cecha X ma rozklad o dystrybuancie F (x) P (nj −n p0j )2 Statystyka testowa χ2 = kj=1 , n p0 j gdzie k -ilość klas; p0j = F (gj ) − F (gj−1 ),a gj jest prawym krańcem szeregu rozdzielczego. Hipoteza alternatywna H1 : cecha X ma rozklad inny niż F (x) Zbiór krytyczny D W = χ21−α,k−1−r ; +∞ , gdzie r jest ilościa̧ parametrów szacowanych z próby. UWAGI dotycza̧ce testu zgodności χ2 -Pearsona: • Statystyka testowa χ2 testu zgodności χ2 -Pearsona ma jedynie w przybliżeniu rozklad χ2 o k − 1 − r stopniach swobody. Przybliżenie to uznajemy za dopuszczalne, gdy wszystkie np0j ≥ 5, a za dobre, gdy wszystkie np0j ≥ 10. Gdyby zaobserwowane liczności, np0j , nie byly duże, to wtedy przybliżenie rozkladem χ2 nie dziala i pozostaje symulacyjne wyznaczanie rozkladu statystyki testowej. > chisq.test(x, p, simulate.p.value=FALSE, B=2000) 4 Skróty wykladów ze SwZ (semestr zimowy, 2014/2015) Wyklad 5 i 6 • Brakuja̧ce parametry (jeśli takowe siȩ pojawiaja̧) wyznaczamy metoda̧ najwiȩkszej wiarygodności. > install.packages(”MASS”) > library(”MASS”) > fitdistr(x=dane, densfun=”nazwa.rozkladu”, start) • Gdy testem zgodności χ2 -Pearsona sprawdzamy zgodność z rozkladem cia̧glym, to podczas jego dyskretyzacji, końce przedzialów klas wybieramy tak, by prawdopodobieństwa klas p0j byly przynajmniej w przybliżeniu równe i by byl spelniony warunek, że wszystkie np0j ≥ 5. PRZYKLAD 5.1 Losowa̧ próbȩ studentów spytano o ich ulubiony przedmiot. Otrzymano nastȩpuja̧ce odpowiedzi: Przedmiot Fizyka WF Mechanika Statystyka Liczba studentów, którzy najbardziej lubia̧ ten przedmiot 380 340 380 500 Na poziomie istotności 0.05 sprawdzić hipotezȩ, że rozklad preferencji jest równomierny. PRZYKLAD 5.2 Zbadano grupȩ krwi 100 osób. Grupȩ 0 mialo 36 osób, A - 42 osoby, B - 14 osób i grupȩ AB - 8 osób. Zweryfikować hipotezȩ, że prawdopodobieństwa wysta̧pienia grup krwi 0, A, B, AB w populacji sa̧ równe odpowiednio: 0.4; 0.4; 0.1; 0.1. Przyja̧ć poziom istotności 0.05. PRZYKLAD 5.3 100 losowo wybranych studentów zapytano ile znaja̧ jȩzyków obcych. Otrzymane wyniki zapisano w poniższej tabeli: liczba jȩzyków liczba studentów 0 25 1 40 2 30 3 5 Czy na podstawie powyższych danych można uznać, że rozklad liczby jȩzyków obcych, którymi posluguja̧ siȩ studenci, jest (a) rozkladem Poissona o średniej równej 1, (b) rozkladem Poissona? Przyja̧ć poziom istotności 0.01. PRZYKLAD 5.4 Posluguja̧c siȩ pakietem R i ustalaja̧c ziarno generatora równe 4411 (> set.seed(4411)), wygenerować 200 liczb z rozkladu wykladniczego o parametrze λ = 2. Nastȩpnie, na poziomie istotności 0.05, sprawdzić czy liczby te rzeczywiście pochodza̧ z rozkladu wykladniczego. 2. Test Kolmogorowa-Smirnowa Test Kolmogorowa-Smirnowa jest przeznaczony do sprawdzania zgodności rozkladu, z którego pochodzi próba losowa, z dowolnym rozkladem cia̧glym. > ks.test(x=dane, y=”nazwa.dystrybuanty.rozkladu”, ....................... | {z } ) parametry rozkladu Niestety R obsluguje test Kolmogorowa-Smirnowa jedynie dla prostej H0 . W przypadku zlożonej H0 (np. H0 : rozklad badanej cechy jest wykladniczy z nieznanym parametrem λ) pozostaje nam samemu wyznaczyć przybliżona̧ wartość p-value metoda̧ symulacji. 5