wykład 5 i 6

Transkrypt

wykład 5 i 6

Skróty wykladów ze SwZ (semestr zimowy, 2014/2015)
Wyklad 5 i 6
Wyklad 5 i 6: Badanie zgodności
SPRAWDZANIE NORMALNOŚCI ROZKLADU
Chcemy sprawdzić, czy rozklad, z którego pochodzi prosta próba losowa, jest rozkladem normalnym.
PRZYPOMNIENIE: Zmienna losowa X ∼ N (µ, σ) jeśli ma gȩstość dana̧ wzorem
1
1
2
f (x) = √
exp − 2 (x − µ) , x ∈ R, gdzie µ ∈ R, σ > 0.
2σ
2πσ
Wykres tej gȩstości to tzw. krzywa gaussa:
I. Metody graficzne sprawdzania normalności
1. Wykres skrzynkowy. Jeśli nie jest on symetryczny lub widać na nim dużo obserwacji odstaja̧cych (dla rozkladu normalnego N (µ, σ) średnio 7 obserwacji na 1000 znajduje siȩ poza
przedzialem (Q1 − 1.5IQR, Q3 + 1.5IQR)), to uznajemy, że rozklad cechy w próbie znacznie odbiega od rozkladu normalnego. W przeciwnym przypadku, dane moga̧, ale nie musza̧,
pochodzić z rozkladu normalnego i trzeba to sprawdzać innymi metodami.
> boxplot(dane)
Niestety wykresy skrzynowe sa̧ wiarygodne jedynie dla dużej liczności prób (jeśli mamy malo
danych, to nie warto na nie patrzeć podczas badania normalności rozkladu).
2. Histogram czȩstości i ja̧drowy estymator gȩstości.
> hist(dane,freq=F)
> lines(density(dane))
Pierwsza z powyższych komend rysuje w R histogram czȩstości (nie liczności); druga nanosi
na poprzednio wykonany rysunek ja̧drowy estymator gȩstości.
3. Wykres kwantylowy (Q-Q plot: quantile versus quantile plot).
Jeśli próba losowa pochodzi z rozkladu normalnego N (µ, σ), to wykres kwantylowy jest zbiorem punktów leża̧cych mniej-wiȩcej na prostej y = σx + µ.
1
Wyklad 5 i 6
> qqnorm(dane)
> qqline(dane)
Pierwsza z powyższych komend rysuje w R wykres kwantylowy; druga nanosi na ten wykres
liniȩ przechodza̧ca̧ przez kwartyle.
Aby przyjrzeć siȩ powyżej opisanym metodom graficznym, wygenerujemy nastȩpuja̧ce cztery
próby losowe.
• Ze standardowego rozkladu normalnego N (0, 1), czyli z rozkladu o gȩstości
f (x) =
• Z rozkladu jednostajnego na odcinku (0, 1) U(0, 1), czyli z rozkladu o gȩstości
1, x ∈ (0, 1)
f (x) =
0, x ∈
/ (0, 1).
Ogólnie, rozklad jednostajny na odcinku (a, b), oznaczany U(a, b), to rozklad o gȩstości
1
b−a , x ∈ (a, b)
f (x) =
0,
x∈
/ (a, b).
• Z rozkladu wykladniczego z parametrem λ = 1 Exp(1), czyli z rozkladu o gȩstości
−x
e , x>0
f (x) =
0,
x ≤ 0.
Ogólnie, rozklad wykladniczy z parametrem λ > 0, oznaczany Exp(λ), to rozklad o gȩstości
λe−λx , x > 0
f (x) =
0,
x ≤ 0.
• Z rozkladu beta z parametrami a = 5 i b = 2 Beta(5, 2), czyli z rozkladu o gȩstości
f (x) =
Ogólnie, rozklad beta z parametrami a > 0, b > 0, oznaczany Beta(a, b), to rozklad o gȩstości
f (x) =
1
a−1 (1
B(a,b) x
0,
− x)b−1 , x ∈ (0, 1)
, gdzie B(a, b) =
x∈
/ (0, 1)
Z wykresów gȩstości widać, że
• N (0, 1) oraz U(0, 1) to rozklady symetryczne;
• Exp(1) to rozklad o asymetrii dodatniej (prawostronnej);
• Beta(5, 2) to rozklad o asymetrii ujemnej (lewostronnej);
• U(0, 1) jest bardziej plaski niż rozklad normalny.
2
Z
0
1
xa−1 (1 − x)b−1 dx.
Wyklad 5 i 6
II. Testy normalności
Wyróżnia siȩ dwa rodzaje testów normalności:
• testy uniwersalne:
H0 : rozklad, z którego pochodzi badana próba losowa, jest normalny
H1 : rozklad, z którego pochodzi badana próba losowa, nie jest normalny
• testy kierunkowe: badamy pewna̧ ustalona̧ wlasność rozkladu normalnego, np. sprawdzamy czy rozklad, z którego pochodzi badana próba losowa, jest rozkladem symetrycznym
(test skośności) albo czy jest rozkladem o kurtozie równej zero (test kurtozy).
Test skośności:
H0 : rozklad, z którego pochodzi badana próba losowa, jest symetryczny
H1 : rozklad, z którego pochodzi badana próba losowa, nie jest symetryczny (czyli jest skośny)
UWAGA: Ściśle rzecz biora̧c, nie testujemy tu normalności rozkladu, lecz jedynie jego symetriȩ.
Test kurtozy:
H0 : rozklad, z którego pochodzi badana próba losowa, ma kurtozȩ równa̧ zero
H1 : rozklad, z którego pochodzi badana próba losowa, ma kurtozȩ różna̧ od zera
UWAGA: Ściśle rzecz biora̧c, nie testujemy tu normalności rozkladu, lecz jedynie sprawdzamy
czy jego kurtoza wynosi zero. Przyjeliśmy tu definicjȩ kurtozy zmiennej losowej, wedlug której
kurtoza rozkladu normalnego wynosi zero (a nie 3).
> install.packages(”fBasics”)
> library(fBasics)
> dagoTest(dane)
Testy uniwerslane
1. Test Shapiro-Wilka
Zaproponowany w 1965 r. jest to dziś uznawany za najlepszy test uniwersalny normalności
rozkladu. Konstrukcja tego testu opiera siȩ na wykresie kwantylowym. Dokladniej, wyznacza
siȩ liniȩ, która jest możliwie najlepiej dopasowana do punktów tego wykresu (mówia̧c precyzyjniej, wyznacza siȩ tzw. prosta̧ regresji) i nastȩpnie bada siȩ stopień dopasowania tych
punktów do owej prostej.
> shapiro.test(dane)
2. Test Andersona-Darlinga
> install.packages(”nortest”)
> library(nortest)
> ad.test(dane)
3. Test Craméra-von Misesa
> library(nortest)
> cvm.test(dane)
W porównaniu z testem Craméra-von Misesa, test Andersona-Darlinga zwraca wiȩksza̧ uwagȩ
na ogony rozkladu.
3
Wyklad 5 i 6
4. Test Lilliefors’a
> library(nortest)
> lillie.test(dane)
Test Lilliefors’a sprawuje siȩ średnio gorzej niż test Andersona-Darlinga i test Craméra-von
Misesa.
TESTOWANIE ZGODNOŚCI Z ROZKLADEM LOG-NORMALNYM LN (µ, σ)
Fakt. X ∼ LN (µ, σ) ⇐⇒ Y := ln X ∼ N (µ, σ)
Sta̧d, sprawdzanie czy dane x1 , x2 , . . . , xn pochodza̧ z rozkladu log-normalnego jest równoważne
sprawdzaniu czy dane przeksztacone:
y1 := ln x1 , y2 := ln x2 , . . . , yn := ln xn
pochodza̧ z rozkladu normalnego (jeśli x1 , x2 , . . . , xn rzeczywiście pochodza̧ z rozkladu log-normalnego,
to musza̧ być dodatnie ⇒ ich logarytmy sa̧ dobrze zdefiniowane).
TESTOWANIE ZGODNOŚCI Z DOWOLNYM ROZKLADEM
1. Test zgodności χ2 -Pearsona
Test zgodności χ2 -Pearsona
UWAGA: jeżeli wyznaczona wartść statystyki χ2 należy do zbioru krytycznego W , to H0 odrzucamy.
Hipoteza zerowa H0 : cecha X ma rozklad o dystrybuancie F (x)
P
(nj −n p0j )2
Statystyka testowa χ2 = kj=1
,
n p0
j
gdzie k -ilość klas; p0j = F (gj ) − F (gj−1 ),a gj jest prawym krańcem szeregu rozdzielczego.
Hipoteza alternatywna H1 : cecha X ma rozklad inny niż F (x)
Zbiór krytyczny D
W = χ21−α,k−1−r ; +∞ , gdzie r jest ilościa̧ parametrów szacowanych z próby.
UWAGI dotycza̧ce testu zgodności χ2 -Pearsona:
• Statystyka testowa χ2 testu zgodności χ2 -Pearsona ma jedynie w przybliżeniu rozklad χ2
o k − 1 − r stopniach swobody. Przybliżenie to uznajemy za dopuszczalne, gdy wszystkie
np0j ≥ 5, a za dobre, gdy wszystkie np0j ≥ 10. Gdyby zaobserwowane liczności, np0j , nie byly
duże, to wtedy przybliżenie rozkladem χ2 nie dziala i pozostaje symulacyjne wyznaczanie
rozkladu statystyki testowej.
> chisq.test(x, p, simulate.p.value=FALSE, B=2000)
4
Wyklad 5 i 6
• Brakuja̧ce parametry (jeśli takowe siȩ pojawiaja̧) wyznaczamy metoda̧ najwiȩkszej wiarygodności.
> install.packages(”MASS”)
> library(”MASS”)
> fitdistr(x=dane, densfun=”nazwa.rozkladu”, start)
• Gdy testem zgodności χ2 -Pearsona sprawdzamy zgodność z rozkladem cia̧glym, to podczas
jego dyskretyzacji, końce przedzialów klas wybieramy tak, by prawdopodobieństwa klas p0j
byly przynajmniej w przybliżeniu równe i by byl spelniony warunek, że wszystkie np0j ≥ 5.
PRZYKLAD 5.1
Losowa̧ próbȩ studentów spytano o ich ulubiony przedmiot. Otrzymano nastȩpuja̧ce odpowiedzi:
Przedmiot
Fizyka WF Mechanika Statystyka
Liczba studentów, którzy najbardziej lubia̧ ten przedmiot
380
340
380
500
Na poziomie istotności 0.05 sprawdzić hipotezȩ, że rozklad preferencji jest równomierny.
PRZYKLAD 5.2
Zbadano grupȩ krwi 100 osób. Grupȩ 0 mialo 36 osób, A - 42 osoby, B - 14 osób i grupȩ AB - 8 osób.
Zweryfikować hipotezȩ, że prawdopodobieństwa wysta̧pienia grup krwi 0, A, B, AB w populacji sa̧
równe odpowiednio: 0.4; 0.4; 0.1; 0.1. Przyja̧ć poziom istotności 0.05.
PRZYKLAD 5.3
100 losowo wybranych studentów zapytano ile znaja̧ jȩzyków obcych. Otrzymane wyniki zapisano
w poniższej tabeli:
liczba jȩzyków liczba studentów
0
25
1
40
2
30
3
5
Czy na podstawie powyższych danych można uznać, że rozklad liczby jȩzyków obcych, którymi
posluguja̧ siȩ studenci, jest (a) rozkladem Poissona o średniej równej 1, (b) rozkladem Poissona?
Przyja̧ć poziom istotności 0.01.
PRZYKLAD 5.4
Posluguja̧c siȩ pakietem R i ustalaja̧c ziarno generatora równe 4411 (> set.seed(4411)), wygenerować 200 liczb z rozkladu wykladniczego o parametrze λ = 2. Nastȩpnie, na poziomie istotności
0.05, sprawdzić czy liczby te rzeczywiście pochodza̧ z rozkladu wykladniczego.
2. Test Kolmogorowa-Smirnowa
Test Kolmogorowa-Smirnowa jest przeznaczony do sprawdzania zgodności rozkladu, z którego pochodzi próba losowa, z dowolnym rozkladem cia̧glym.
> ks.test(x=dane, y=”nazwa.dystrybuanty.rozkladu”, .......................
|
{z
} )
parametry rozkladu
Niestety R obsluguje test Kolmogorowa-Smirnowa jedynie dla prostej H0 . W przypadku zlożonej
H0 (np. H0 : rozklad badanej cechy jest wykladniczy z nieznanym parametrem λ) pozostaje nam
samemu wyznaczyć przybliżona̧ wartość p-value metoda̧ symulacji.
5

wykład 5 i 6

Transkrypt

Podobne dokumenty

Egzamin z Rachunku Prawdopodobienstwa 1. Za chwile Adam i

tutaj

ETR 2014/2015 7. Funkcje generuja ` ce momenty 23 § 7. Funkcje

1 Rozklady dyskretne

zad - MiNI PW

Eurogol. Salon piłkarski. Nowicki J.

Jacek Dziarmaga1 1) Na odcinku [0,1] osi liczbowej umieszczono

STATYSTYKA STOSOWANA Lista 4

Pro`s Pro Piłka do koszykówki

Wypowiedzenie umowy - wzór -

GOTOWAĆ KAŻDY MOŻE, TROCHĘ LEPIEJ I TROCHĘ GORZEJ…

MS Win Pro Pack 8.1 32-bit / 64