wykład 5 i 6

Transkrypt

wykład 5 i 6
Skróty wykladów ze SwZ (semestr zimowy, 2014/2015)
Wyklad 5 i 6
Wyklad 5 i 6: Badanie zgodności
SPRAWDZANIE NORMALNOŚCI ROZKLADU
Chcemy sprawdzić, czy rozklad, z którego pochodzi prosta próba losowa, jest rozkladem normalnym.
PRZYPOMNIENIE: Zmienna losowa X ∼ N (µ, σ) jeśli ma gȩstość dana̧ wzorem
1
1
2
f (x) = √
exp − 2 (x − µ) , x ∈ R, gdzie µ ∈ R, σ > 0.
2σ
2πσ
Wykres tej gȩstości to tzw. krzywa gaussa:
I. Metody graficzne sprawdzania normalności
1. Wykres skrzynkowy. Jeśli nie jest on symetryczny lub widać na nim dużo obserwacji odstaja̧cych (dla rozkladu normalnego N (µ, σ) średnio 7 obserwacji na 1000 znajduje siȩ poza
przedzialem (Q1 − 1.5IQR, Q3 + 1.5IQR)), to uznajemy, że rozklad cechy w próbie znacznie odbiega od rozkladu normalnego. W przeciwnym przypadku, dane moga̧, ale nie musza̧,
pochodzić z rozkladu normalnego i trzeba to sprawdzać innymi metodami.
> boxplot(dane)
Niestety wykresy skrzynowe sa̧ wiarygodne jedynie dla dużej liczności prób (jeśli mamy malo
danych, to nie warto na nie patrzeć podczas badania normalności rozkladu).
2. Histogram czȩstości i ja̧drowy estymator gȩstości.
> hist(dane,freq=F)
> lines(density(dane))
Pierwsza z powyższych komend rysuje w R histogram czȩstości (nie liczności); druga nanosi
na poprzednio wykonany rysunek ja̧drowy estymator gȩstości.
3. Wykres kwantylowy (Q-Q plot: quantile versus quantile plot).
Jeśli próba losowa pochodzi z rozkladu normalnego N (µ, σ), to wykres kwantylowy jest zbiorem punktów leża̧cych mniej-wiȩcej na prostej y = σx + µ.
1
Skróty wykladów ze SwZ (semestr zimowy, 2014/2015)
Wyklad 5 i 6
> qqnorm(dane)
> qqline(dane)
Pierwsza z powyższych komend rysuje w R wykres kwantylowy; druga nanosi na ten wykres
liniȩ przechodza̧ca̧ przez kwartyle.
Aby przyjrzeć siȩ powyżej opisanym metodom graficznym, wygenerujemy nastȩpuja̧ce cztery
próby losowe.
• Ze standardowego rozkladu normalnego N (0, 1), czyli z rozkladu o gȩstości
f (x) =
• Z rozkladu jednostajnego na odcinku (0, 1) U(0, 1), czyli z rozkladu o gȩstości
1, x ∈ (0, 1)
f (x) =
0, x ∈
/ (0, 1).
Ogólnie, rozklad jednostajny na odcinku (a, b), oznaczany U(a, b), to rozklad o gȩstości
1
b−a , x ∈ (a, b)
f (x) =
0,
x∈
/ (a, b).
• Z rozkladu wykladniczego z parametrem λ = 1 Exp(1), czyli z rozkladu o gȩstości
−x
e , x>0
f (x) =
0,
x ≤ 0.
Ogólnie, rozklad wykladniczy z parametrem λ > 0, oznaczany Exp(λ), to rozklad o gȩstości
λe−λx , x > 0
f (x) =
0,
x ≤ 0.
• Z rozkladu beta z parametrami a = 5 i b = 2 Beta(5, 2), czyli z rozkladu o gȩstości
f (x) =
Ogólnie, rozklad beta z parametrami a > 0, b > 0, oznaczany Beta(a, b), to rozklad o gȩstości
f (x) =
1
a−1 (1
B(a,b) x
0,
− x)b−1 , x ∈ (0, 1)
, gdzie B(a, b) =
x∈
/ (0, 1)
Z wykresów gȩstości widać, że
• N (0, 1) oraz U(0, 1) to rozklady symetryczne;
• Exp(1) to rozklad o asymetrii dodatniej (prawostronnej);
• Beta(5, 2) to rozklad o asymetrii ujemnej (lewostronnej);
• U(0, 1) jest bardziej plaski niż rozklad normalny.
2
Z
0
1
xa−1 (1 − x)b−1 dx.
Skróty wykladów ze SwZ (semestr zimowy, 2014/2015)
Wyklad 5 i 6
II. Testy normalności
Wyróżnia siȩ dwa rodzaje testów normalności:
• testy uniwersalne:
H0 : rozklad, z którego pochodzi badana próba losowa, jest normalny
H1 : rozklad, z którego pochodzi badana próba losowa, nie jest normalny
• testy kierunkowe: badamy pewna̧ ustalona̧ wlasność rozkladu normalnego, np. sprawdzamy czy rozklad, z którego pochodzi badana próba losowa, jest rozkladem symetrycznym
(test skośności) albo czy jest rozkladem o kurtozie równej zero (test kurtozy).
Test skośności:
H0 : rozklad, z którego pochodzi badana próba losowa, jest symetryczny
H1 : rozklad, z którego pochodzi badana próba losowa, nie jest symetryczny (czyli jest skośny)
UWAGA: Ściśle rzecz biora̧c, nie testujemy tu normalności rozkladu, lecz jedynie jego symetriȩ.
Test kurtozy:
H0 : rozklad, z którego pochodzi badana próba losowa, ma kurtozȩ równa̧ zero
H1 : rozklad, z którego pochodzi badana próba losowa, ma kurtozȩ różna̧ od zera
UWAGA: Ściśle rzecz biora̧c, nie testujemy tu normalności rozkladu, lecz jedynie sprawdzamy
czy jego kurtoza wynosi zero. Przyjeliśmy tu definicjȩ kurtozy zmiennej losowej, wedlug której
kurtoza rozkladu normalnego wynosi zero (a nie 3).
> install.packages(”fBasics”)
> library(fBasics)
> dagoTest(dane)
Testy uniwerslane
1. Test Shapiro-Wilka
Zaproponowany w 1965 r. jest to dziś uznawany za najlepszy test uniwersalny normalności
rozkladu. Konstrukcja tego testu opiera siȩ na wykresie kwantylowym. Dokladniej, wyznacza
siȩ liniȩ, która jest możliwie najlepiej dopasowana do punktów tego wykresu (mówia̧c precyzyjniej, wyznacza siȩ tzw. prosta̧ regresji) i nastȩpnie bada siȩ stopień dopasowania tych
punktów do owej prostej.
> shapiro.test(dane)
2. Test Andersona-Darlinga
> install.packages(”nortest”)
> library(nortest)
> ad.test(dane)
3. Test Craméra-von Misesa
> install.packages(”nortest”)
> library(nortest)
> cvm.test(dane)
W porównaniu z testem Craméra-von Misesa, test Andersona-Darlinga zwraca wiȩksza̧ uwagȩ
na ogony rozkladu.
3
Skróty wykladów ze SwZ (semestr zimowy, 2014/2015)
Wyklad 5 i 6
4. Test Lilliefors’a
> install.packages(”nortest”)
> library(nortest)
> lillie.test(dane)
Test Lilliefors’a sprawuje siȩ średnio gorzej niż test Andersona-Darlinga i test Craméra-von
Misesa.
TESTOWANIE ZGODNOŚCI Z ROZKLADEM LOG-NORMALNYM LN (µ, σ)
Fakt. X ∼ LN (µ, σ) ⇐⇒ Y := ln X ∼ N (µ, σ)
Sta̧d, sprawdzanie czy dane x1 , x2 , . . . , xn pochodza̧ z rozkladu log-normalnego jest równoważne
sprawdzaniu czy dane przeksztacone:
y1 := ln x1 , y2 := ln x2 , . . . , yn := ln xn
pochodza̧ z rozkladu normalnego (jeśli x1 , x2 , . . . , xn rzeczywiście pochodza̧ z rozkladu log-normalnego,
to musza̧ być dodatnie ⇒ ich logarytmy sa̧ dobrze zdefiniowane).
TESTOWANIE ZGODNOŚCI Z DOWOLNYM ROZKLADEM
1. Test zgodności χ2 -Pearsona
Test zgodności χ2 -Pearsona
UWAGA: jeżeli wyznaczona wartść statystyki χ2 należy do zbioru krytycznego W , to H0 odrzucamy.
Hipoteza zerowa H0 : cecha X ma rozklad o dystrybuancie F (x)
P
(nj −n p0j )2
Statystyka testowa χ2 = kj=1
,
n p0
j
gdzie k -ilość klas; p0j = F (gj ) − F (gj−1 ),a gj jest prawym krańcem szeregu rozdzielczego.
Hipoteza alternatywna H1 : cecha X ma rozklad inny niż F (x)
Zbiór krytyczny D
W = χ21−α,k−1−r ; +∞ , gdzie r jest ilościa̧ parametrów szacowanych z próby.
UWAGI dotycza̧ce testu zgodności χ2 -Pearsona:
• Statystyka testowa χ2 testu zgodności χ2 -Pearsona ma jedynie w przybliżeniu rozklad χ2
o k − 1 − r stopniach swobody. Przybliżenie to uznajemy za dopuszczalne, gdy wszystkie
np0j ≥ 5, a za dobre, gdy wszystkie np0j ≥ 10. Gdyby zaobserwowane liczności, np0j , nie byly
duże, to wtedy przybliżenie rozkladem χ2 nie dziala i pozostaje symulacyjne wyznaczanie
rozkladu statystyki testowej.
> chisq.test(x, p, simulate.p.value=FALSE, B=2000)
4
Skróty wykladów ze SwZ (semestr zimowy, 2014/2015)
Wyklad 5 i 6
• Brakuja̧ce parametry (jeśli takowe siȩ pojawiaja̧) wyznaczamy metoda̧ najwiȩkszej wiarygodności.
> install.packages(”MASS”)
> library(”MASS”)
> fitdistr(x=dane, densfun=”nazwa.rozkladu”, start)
• Gdy testem zgodności χ2 -Pearsona sprawdzamy zgodność z rozkladem cia̧glym, to podczas
jego dyskretyzacji, końce przedzialów klas wybieramy tak, by prawdopodobieństwa klas p0j
byly przynajmniej w przybliżeniu równe i by byl spelniony warunek, że wszystkie np0j ≥ 5.
PRZYKLAD 5.1
Losowa̧ próbȩ studentów spytano o ich ulubiony przedmiot. Otrzymano nastȩpuja̧ce odpowiedzi:
Przedmiot
Fizyka WF Mechanika Statystyka
Liczba studentów, którzy najbardziej lubia̧ ten przedmiot
380
340
380
500
Na poziomie istotności 0.05 sprawdzić hipotezȩ, że rozklad preferencji jest równomierny.
PRZYKLAD 5.2
Zbadano grupȩ krwi 100 osób. Grupȩ 0 mialo 36 osób, A - 42 osoby, B - 14 osób i grupȩ AB - 8 osób.
Zweryfikować hipotezȩ, że prawdopodobieństwa wysta̧pienia grup krwi 0, A, B, AB w populacji sa̧
równe odpowiednio: 0.4; 0.4; 0.1; 0.1. Przyja̧ć poziom istotności 0.05.
PRZYKLAD 5.3
100 losowo wybranych studentów zapytano ile znaja̧ jȩzyków obcych. Otrzymane wyniki zapisano
w poniższej tabeli:
liczba jȩzyków liczba studentów
0
25
1
40
2
30
3
5
Czy na podstawie powyższych danych można uznać, że rozklad liczby jȩzyków obcych, którymi
posluguja̧ siȩ studenci, jest (a) rozkladem Poissona o średniej równej 1, (b) rozkladem Poissona?
Przyja̧ć poziom istotności 0.01.
PRZYKLAD 5.4
Posluguja̧c siȩ pakietem R i ustalaja̧c ziarno generatora równe 4411 (> set.seed(4411)), wygenerować 200 liczb z rozkladu wykladniczego o parametrze λ = 2. Nastȩpnie, na poziomie istotności
0.05, sprawdzić czy liczby te rzeczywiście pochodza̧ z rozkladu wykladniczego.
2. Test Kolmogorowa-Smirnowa
Test Kolmogorowa-Smirnowa jest przeznaczony do sprawdzania zgodności rozkladu, z którego pochodzi próba losowa, z dowolnym rozkladem cia̧glym.
> ks.test(x=dane, y=”nazwa.dystrybuanty.rozkladu”, .......................
|
{z
} )
parametry rozkladu
Niestety R obsluguje test Kolmogorowa-Smirnowa jedynie dla prostej H0 . W przypadku zlożonej
H0 (np. H0 : rozklad badanej cechy jest wykladniczy z nieznanym parametrem λ) pozostaje nam
samemu wyznaczyć przybliżona̧ wartość p-value metoda̧ symulacji.
5