Wykłady ze Statystyki matematycznej

Transkrypt

Dr Adam Kucharski
Spis treści
1 Badanie statystyczne
2
2 Zmienna losowa
2.1 Funkcje opisujące zmienną losową . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Charakterystyki liczbowe rozkładu . . . . . . . . . . . . . . . . . . . . . . . . . .
3
3
4
3 Wybrane rozkłady skokowe
3.1 Rozkład dwupunktowy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Rozkład dwumianowy (Bernoulliego) . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Rozkład Poissona . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
5
5
5
4 Wybrane rozkłady ciągłe
4.1 Rozkład normalny (Gaussa) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Rozkład chi-kwadrat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Rozkład t-Studenta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
6
6
7
5 Estymacja przedziałowa
5.1 Przedział ufności dla wartości oczekiwanej . . . . . . . . . . . . . . . . . . . . . .
5.2 Przedział ufności dla wskaźnika struktury . . . . . . . . . . . . . . . . . . . . . .
7
7
8
6 Testowanie hipotez statystycznych
6.1 Weryfikacja hipotez o wartości przeciętnej . . . . . . . . . . .
6.2 Weryfikacja hipotezy o poziomie wskaźnika struktury . . . . .
6.3 Weryfikacja hipotez o równości dwóch wartości oczekiwanych
6.4 Weryfikacja hipotez o równości dwóch wskaźników struktury .
6.5 Test niezależności χ2 . . . . . . . . . . . . . . . . . . . . . . .
6.6 Miary zależności oparte na χ2 . . . . . . . . . . . . . . . . . .
6.6.1 Współczynnik ϕ − Y ule0 a . . . . . . . . . . . . . . . .
6.6.2 Współczynnik zbieżności T-Czuprowa . . . . . . . . .
6.6.3 Współczynnik V-Cramera . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
10
10
11
11
12
12
12
12
13
1
2
Badanie statystyczne
Badania statystyczne, jakim poddawane są zbiorowości można podzielić na dwie kategorie:
• całkowite (pełne);
• częściowe.
Z tym pierwszym mamy do czynienia, kiedy bezpośredniej obserwacji podlegają wszystkie
elementy zbiorowości generalnej. Choć jest to lepsza z metod, to napotykamy na problemy
związane zazwyczaj z bardzo dużą jednostek tworzących daną zbiorowość. Rosną bowiem koszty
badania, czas i wysiłek potrzebne na jego przeprowadzenie.
Dlatego znacznie częściej spotyka się badanie częściowe, z którego wnioski przenosi się na populację generalną. Wybór elementów podlegających obserwacji może zostać dokonany w sposób
świadomy bądź losowy. W tym drugim wypadku będziemy mówili o tzw. próbie reprezentatywnej, a zastosowaną metodę nazwiemy metodą reprezentacyjną. Otrzymane wyniki
stanowią podstawę wnioskowania statystycznego, które łączy w sobie elementy rachunku prawdopodobieństwa i statystyki matematycznej. Tak więc na podstawie części elementów wyciągamy
wnioski odnośnie całej populacji generalnej.
Dobór elementów do próby może odbywać się na zasadzie losowania:
• niezależnego (ze zwrotem wylosowanego elementu do zbiorowości);
• zależnego (wylosowany element już nie wraca do zbiorowości).
W drugim z przypadków, wynik każdego następnego losowania zależy od wyników poprzednich.
Lepszym rozwiązaniem jest więc wariant pierwszy, ale należy zauważyć, że przy bardzo licznej
zbiorowości zależność między wynikami losowania zależnego będzie niewielka.
Inny podział schematów losowania to:
• losowanie nieograniczone – losujemy elementy bezpośrednio z całej próby;
• warstwowe – zbiorowość najpierw zostaje podzielona na jednorodne podzbiory (warstwy),
a losowań dokonuje się oddzielnie z każdej warstwy.
Wyróżniamy także losowanie:
• indywidualne – losujemy oddzielnie poszczególne elementy np. pojedyncze osoby;
• zespołowe – losowaniu podlegają naturalne zespoły elementów np. osoby w danym przedziale wiekowym.
Niezależnie od schematu losowania, przeprowadzając badanie statystyczne częściowe należy
liczyć się z możliwością popełnienia błędu podczas uogólniania wyników na całą próbę. Występujące błędy podzielimy na dwie grupy:
• losowe – maleją ze wzrostem liczby wybieranych elementów;
• systematyczne – nie maleją ze wzrostem liczby wybieranych elementów.
2
3
Zmienna losowa
Pojęcie zmiennej losowej jest kluczowym pojęciem dla wnioskowania statystycznego. Można ją
traktować jako odpowiednik cechy mierzalnej ze statystyki.
Zmienną losową rzeczywistą (jednowymiarową) określoną na przestrzeni zdarzeń elementarnych Ω nazywamy funkcję X, która zdarzeniom elementarnym przyporządkowuje liczby
rzeczywiste (X : Ω → R) i spełnia warunek: dla dowolnej liczby rzeczywistej t zbiór zdarzeń elementarnych, dla których wartości zmiennej losowej są mniejsze niż t jest zdarzeniem losowym.
Zmienne losowe dzieli się na dwie ważne klasy:
1. zmienne skokowe (dyskretne), które przyjmują skończony lub przeliczalny zbiór wartości;
2. zmienne ciągłe, które przyjmują dowolne wartości z określonego przedziału.
2.1
Funkcje opisujące zmienną losową
Jedną z podstawowych charakterystyk zmiennej losowej jest dystrybuanta – funkcja, która jest
równa prawdopodobieństwu tego, że zmienna losowa przyjmie wartość mniejszą niż pewna liczba
x. Ogólnie zapiszemy:
F (x) = P (X < x)
(1)
Własności dystrybuanty:
• 0 6 F (x) 6 1
• jest funkcją niemalejącą;
• jest funkcją przynajmniej lewostronnie ciągłą;
•
lim F (x) = 0
x→−∞
• lim F (x) = 1
x→∞
Zazwyczaj jednak korzysta się z definicji dystrybuanty empirycznej. Jest to możliwe, ponieważ
dystrybuanta dla konkretnego punktu nie istnieje.
F (x) = P (X 6 x)
(2)
Oprócz dystrybuanty do opisu zmiennych losowych wykorzystuje się również inne funkcje.
Dla zmiennych skokowych będzie to rozkład prawdopodobieństwa:
P (X = xi ) = pi
(3)
Jest to zbiór takich par (xi , pi ), dla których xi są to wartości przyjmowane przez zmienną X z
prawdopodobieństwami pi . Dystrybuanta zmiennej skokowej:
X
F (x) =
pi
(4)
xi <x
W przypadku zmiennej losowej ciągłej, odpowiednikiem rozkładu prawdopodobieństwa jest
funkcja gęstości. Musi ona spełniać następujące warunki:
1. f (x) > 0
2.
R∞
f (x)dx = 1
−∞
Dystrybuantę zmiennej losowej ciągłej opisuje wzór:
Zx
F (x) =
f (x)dx
−∞
(5)
2.2
4
Charakterystyki liczbowe rozkładu
Oprócz dystrybuanty, do opisu zmiennej losowej służą pewne wartości liczbowe zwane parametrami rozkładu. Spośród nich najważniejsze to: wartość oczekiwana i wariancja. Pierwsza z
nich informuje o przeciętnym poziomie zmiennej losowej, wokół którego skupiają się jej wartości.
Wariancja mierzy rozrzut wartości zmiennej losowej wokół wartości oczekiwanej.
Wartość oczekiwaną zmiennej losowej skokowej obliczamy:
E(X) = m =
n
X
xi pi
(6)
xf (x)dx
(7)
i=1
Wartość oczekiwaną zmiennej ciągłej obliczamy:
Z∞
E(X) = m =
−∞
Własności wartości oczekiwanej:
1. E(c)=c, gdzie c – pewna stała;
2. E(cX)=cE(X);
3. E(X ± Y ) = E(X) ± E(Y );
4. a 6 b ⇒ a 6 E(X) 6 b;
5. X 6 Y ⇒ E(X) 6 E(Y ).
Wariancję zmiennej losowej skokowej obliczamy:
2
V (X) = D (X) =
n
X
2
(xi − E(X)) pi =
i=1
n
X
x2i pi − (E(X))2
(8)
x2 f (x)dx − (E(X))2
(9)
i=1
Wariancję zmiennej losowej ciągłej obliczamy:
2
Z∞
2
Z∞
(x − E(X)) f (x)dx =
V (X) = D =
−∞
−∞
Własności wariancji:
1. D2 (c) = 0;
2. D2 (c + X) = D2 (X);
3. D2 (cX) = c2 D2 (X);
4. D2 (X ± Y ) = D2 (X) + D2 (Y ).
Zazwyczaj, zamiast wariancji podaje się wartość odchylenia standardowego, które jest pierwiastkiem kwadratowym z wariancji.
3
5
Wybrane rozkłady skokowe
3.1
Rozkład dwupunktowy
Zmienna losowa X ma rozkład dwupunktowy jeżeli przyjmuje tylko dwie wartości x1 i x2 a jej
funkcja prawdopodobieństwa określona jest następująco:
P (X = x1 ) = p
(10)
P (X = x2 ) = q
Przy czym p+q=1.
Szczególnym przypadkiem jest rozkład zero-jedynkowy, dla którego rozkład prawdopodobieństwa wygląda następująco:
P (X = 1) = p
(11)
P (X = 0) = q
Rozkład ten znajduje zastosowanie szczególnie wtedy kiedy mamy do czynienia z cechą
niemierzalną dwudzielną jak np. przy grupowaniu osób według płci. Jego dystrybuanta określona
jest następująco:

 0 dla x 6 0
q dla 0 < x 6 1
F (x) =
(12)

1 dla x > 1
Wartość oczekiwana i wariancja są równe odpowiednio: E(X)=p i V(X)=pq
3.2
Rozkład dwumianowy (Bernoulliego)
Zmienna losowa X ma rozkład dwumianowy jeżeli jej funkcję rozkładu opisuje wzór:
n k n−k
P (X = k) =
p q
k
(13)
Gdzie: p+q=1 oraz k = 0, 1, 2, ..., n.
Wartość oczekiwana i wariancja są równe odpowiednio: E(X)=np i V(X)=npq
Rozkład ten opisuje tzw. eksperyment Bernoulliego, który polega na tym, że przeprowadzamy
n (n > 2) niezależnych doświadczeń. Ich wynikiem może tylko jeden z dwóch stanów: sukces
albo porażka. Prawdopodobieństwo sukcesu oznaczamy p zaś porażki q.
3.3
Rozkład Poissona
Zmienna losowa X ma rozkład Poissona jeżeli przyjmuje wartości k = 0, 1, 2, ... z prawdopodobieństwami opisanymi wzorem:
mk −m
P (X = k) =
e
(14)
k!
Gdzie m jest stałą dodatnią.
Rozkład ten przydaje się kiedy liczba doświadczeń w eksperymencie Bernoulliego jest duża
zaś prawdopodobieństwo sukcesu niewielkie. Przyjmuje się, że kiedy spełniono warunki:
1. prawdopodobieństwo sukcesu jest mniejsze od 0,2;
2. liczba doświadczeń wynosi 20 lub więcej;
6
wtedy rozkład dwumianowy można przybliżyć rozkładem Poissona, zgodnie ze wzorem:
P (X = k) =
npk −np
e
k!
(15)
Jeżeli wykorzystujemy przybliżenie według powyższego wzoru, wówczas nie musimy znać n i p.
Wystarczy znać iloczyn np będący wartością oczekiwaną zmiennej losowej X.
4
Wybrane rozkłady ciągłe
4.1
Rozkład normalny (Gaussa)
Zmienna losowa X ma rozkład normalny z wartością oczekiwaną m i odchyleniem standardowym
σ (co zapisujemy X − N (m, σ)) jeżeli jej funkcja gęstości dana jest wzorem:
−
1
f (x) = √
e
σ 2π
(x − m)2
2σ 2
(16)
Kształt krzywej opisanej przez podaną wyżej funkcję gęstości zależy od dwóch parametrów:
m i σ. Ogólnie funkcja gęstości rozkładu normalnego ma następujące własności:
1. Jest symetryczna względem prostej x = m;
2. W punkcie x = m osiąga wartość maksymalną;
3. Prawdopodobieństwo tego, że zmienna X przyjmie wartości z przedziału
< m − 3σ, m + 3σ > jest w przybliżeniu równe 1.
Dla zmiennej X o dowolnym rozkładzie normalnym można przeprowadzić przekształcenie zwane
standaryzacją:
X −m
(17)
Z=
σ
Zmienna losowa Z ma wówczas rozkład normalny z wartością oczekiwaną zero i odchyleniem
standardowym równym jeden (Z − N (0, 1)). Rozkład taki nazywamy normalnym standaryzowanym. Jego dystrybuanta jest stablicowana dla wartości dodatnich. W innych przypadkach należy
dokonać przekształceń opartych o własności rozkładu.
4.2
Rozkład chi-kwadrat
Zmienna losowa ma rozkład chi-kwadrat (χ2 ) z k stopniami swobody jeżeli można ją przedstawić:
X12 + X22 + . . . + Xk2
(18)
Gdzie X1 , X2 , . . . , Xk są niezależnymi zmiennymi losowymi o rozkładzie normalnym standaryzowanym. Wartość oczekiwana i wariancja są równe odpowiednio: E(χ2 ) = k i V (χ2 ) = 2k.
Zmienna o rozkładzie χ2 przyjmuje wartości dodatnie, a kształt krzywej opisującej jej funkcję
gęstości zależy od liczby stopni swobody.
Rozkład został stablicowany. Dla ustalonych wartości liczby stopni swobody k oraz prawdopodobieństwa α odczytuje się wartość:
P (χ2k > χ2α ) = α
(19)
√
Dla k > 30 rozkład ten jest zbieżny do rozkładu normalnego o parametrach: N ( 2k − 1, 1).
4.3
7
Rozkład t-Studenta
Zmienna losowa ma rozkład t-Studenta o k stopniach swobody jeżeli da się ją przedstawić:
T =
Z√
k
χ2k
(20)
Gdzie Z − N (0, 1) oraz χ2k to niezależne zmienne losowe.
Jest to rozkład symetryczny o wartości oczekiwanej równej E(Tk ) = 0, wariancji równej
V (Tk ) = k/(k − 2) i kształcie zbliżonym do rozkładu normalnego. W tablicach znajdują się
wartości dla ustalonej liczby stopni swobody k oraz prawdopodobieństwa α spełniające warunek:
P (|Tk | > tα ) = α
(21)
Jeżeli liczba stopni swobody jest większa niż 30, korzysta się z tablic rozkładu N (0, 1).
5
Estymacja przedziałowa
Estymacją nazwiemy szacowanie wartości parametrów lub postaci rozkładu teoretycznego cechy w populacji generalnej na podstawie rozkładu empirycznego uzyskanego dla próby. Kiedy
poszukujemy parametru np. wartości oczekiwanej wówczas mówimy o estymacji parametrycznej. Jeżeli zaś zajmujemy się postacią funkcyjną rozkładu czy też dystrybuanty, wtedy mamy
do czynienia z estymacją nieparametryczną.
Dla podstawowych parametrów rozkładu zmiennej losowej przyjmujemy następujące estymatory:
• dla wartości oczekiwanej – średnią arytmetyczną z próby;
• dla wariancji – wariancję z próby.
Rozróżniamy dwa rodzaje estymacji:
1. punktową, w której poszukujemy liczbowej oceny parametru;
2. przedziałową, w której otrzymujemy pewien przedział zawierający nieznaną wartość parametru z zadanym z góry prawdopodobieństwem.
Przedziałem ufności nazywamy taki przedział, który z zadanym z góry prawdopodobieństwem (1 − α) zwanym poziomem ufności zawiera nieznaną wartość szacowanego parametru.
Poziom ufności jest zazwyczaj bliski 1 np. 0,9. Różnicę między dolną a górną granicą wzmiankowanego przedziału nazywamy długością przedziału ufności. Jej połowa stanowi tzw. maksymalny błąd szacunku.
Ze wzrostem liczebności próby (przy ustalonym poziomie ufności) rośnie dokładność oszacowania. Z kolei przy stałej liczebności próby, ze wzrostem poziomu ufności dokładność ta spada.
5.1
Przedział ufności dla wartości oczekiwanej
Przedział ufności dla wartości oczekiwanej m wyznacza się w oparciu o średnią arytmetyczną z
próby. Jeżeli cecha X w populacji generalnej ma rozkład N (m, σ) to średnia arytmetyczna X̄
σ
X̄ − m √
ma rozkład N (m, √ ). Wynika stąd, że statystyka U =
n ma rozkład N (0, 1).
σ
n
Jeżeli cecha ma w populacji generalnej rozkład normalny o znanym odchyleniu standardowym
σ, wówczas liczbowy przedział ufności dla wartości oczekiwanej m ma postać:
σ
σ
P (x̄ − uα √ < m < x̄ + uα √ ) = 1 − α
n
n
(22)
8
gdzie: x̄ oznacza średnią arytmetyczną z próby.
W tablicach rozkładu normalnego odczytujemy taką wartość uα tak, aby zachodziło:
Φ(uα ) = 1 −
α
2
(23)
Jeżeli cecha ma w populacji generalnej rozkład normalny o nieznanym odchyleniu standardowym σ i próba jest mała (n 6 30), wówczas liczbowy przedział ufności dla wartości oczekiwanej
m ma postać:
s
s
P (x̄ − tα,n−1 √
< m < x̄ + tα,n−1 √
)=1−α
(24)
n−1
n−1
gdzie s oznacza odchylenie standardowe z próby.
Wartość tα,n−1 odczytujemy z tablic rozkładu t-Studenta w taki sposób, że:
P (|Tn−1 | > tα,n−1 ) = α
(25)
Jeżeli cecha ma w populacji generalnej rozkład normalny o nieznanym odchyleniu standardowym σ i próba jest duża (n > 30), wówczas liczbowy przedział ufności dla wartości oczekiwanej
m ma postać:
s
s
P (x̄ − uα √ < m < x̄ + uα √ ) = 1 − α
(26)
n
n
Maksymalny błąd szacunku wynosi odpowiednio:

σ

gdy znamy σ;
uα √ ,


n


s
tα,n−1 √
, gdy nie znamy σ i n 6 30;
dx̄ =
n
−
1


s


 uα √ ,
gdy nie znamy σ i n > 30.
n
(27)
Na podstawie powyższych wzorów można wyznaczyć taką liczebność próby, aby uzyskać
oszacowanie zgodne z zadanym z góry błędem szacunku.
5.2
Przedział ufności dla wskaźnika struktury
Przedział ufności dla wskaźnika struktury p wyznacza się tylko na podstawie dużych (n > 100)
prób. Liczbowy przedział ufności, dla zadanego z góry poziomu ufności 1 − α ma postać:

v v 
u
u
uk
uk
k
k


u
u
k
tn 1− n
tn 1− n 
k
=1−α

P  − uα
< p < + uα
(28)

n
n
n
n


gdzie: k oznacza liczbę elementów posiadających wyróżniony wariant cechy.
Maksymalny błąd szacunku wynosi:
v u
uk
k
u
tn 1− n
d k = uα
n
n
(29)
6
9
Testowanie hipotez statystycznych
Hipotezą statystyczną nazywamy osąd spełniający dwa warunki:
1. dotyczy rozkładu lub jego parametrów w zbiorowości generalnej;
2. jego słuszność da się sprawdzić na podstawie wyników z badania reprezentacyjnego.
Rodzaje hipotez statystycznych:
1. parametryczne – dotyczą parametrów rozkładu np. wartości oczekiwanej;
2. nieparametryczne – dotyczą charakteru rozkładu.
Metodę weryfikacji hipotez statystycznych nazywamy testem statystycznym. Jest to metoda postępowania, określająca sposób sprawdzania słuszności hipotezy i warunki w jakich podejmujemy decyzję o uznaniu bądź nie hipotezy za poprawną. Weryfikacji dokonuje się jednak w
oparciu o losową próbę, co oznacza możliwość popełnienia błędu. Rozróżniamy dwa ich rodzaje:
Błąd pierwszego rodzaju: Na podstawie wyników z próby podejmujemy decyzję o odrzuceniu weryfikowanej hipotezy, którą w rzeczywistości należy uznać za słuszną. Prawdopodobieństwo popełnienia tego błędu oznaczymy α
Błąd drugiego rodzaju: Na podstawie wyników z próby podejmujemy decyzję o uznaniu
weryfikowanej hipotezy za słuszną, podczas gdy w rzeczywistości jest ona nieprawdziwa.
Prawdopodobieństwo popełnienia tego błędu oznaczamy β.
Wartości prawdopodobieństw α i β są ze sobą związane: im wyższe jest α tym niższe β i
odwrotnie. Z kolei test statystyczny powinien zostać tak skonstruowany, aby zapewnić jak najmniejsze prawdopodobieństwo podjęcia niewłaściwej decyzji. Kompromisem w tej sytuacji są
tzw. testy istotności. Zapewniają one możliwie małe prawdopodobieństwo popełnienia błędu drugiego rodzaju przy przyjętym z góry, akceptowalnym poziomie prawdopodobieństwa α
zwanym tu poziomem istotności. Ustalany jest on zwykle na niskim np. 0,05 poziomie.
Testy istotności określają kiedy odrzucić weryfikowaną hipotezę, jeśli wyniki z próby wskazują
na jej fałszywość. Nie dają jednak tak zdecydowanego rozstrzygnięcia jeżeli próba losowa nie
pozwala wskazać, że hipoteza jest fałszywa. Możemy jedynie stwierdzić, że nie potrafimy dowieść
jej niesłuszności.
Etapy weryfikacji testu statystycznego:
1. Definiujemy hipotezę zerową (H0 ), która podlegać będzie weryfikacji.
2. Definiujemy hipotezę alternatywną (H1 ), która może przyjmować wszystkie rozwiązania poza tymi zawartymi w H0 .
3. Dokonujemy wyboru sprawdzianu hipotezy czyli zmiennej losowej o znanym rozkładzie.
4. Ustalamy obszar krytyczny. Powierzchnię tworzącą rozkład wspomniany w poprzednim
etapie dzielimy na dwa obszary: obszar odrzucenia H0 , którego powierzchnia wynosi α
i zawiera wartości decydujące o odrzuceniu H0 oraz obszar przyjęcia H0 o powierzchni
równej 1 − α. Wyróżniamy następujące obszary odrzucenia:
(a) prawostronny gdy wartość parametru dla H1 jest większa od tej dla H0 ;
(b) lewostronny gdy wartość parametru dla H1 jest mniejsza od tej dla H0 ;
(c) obustronny gdy wartość parametru dla H1 jest różna od tej dla H0 ;
5. Obliczamy wartość sprawdzianu hipotezy dla próby i porównujemy z obszarem odrzucenia. Jeżeli wynik z próby znalazł się w tym obszarze, wtedy za słuszną uznajemy H1 . W
przeciwnym wypadku stwierdzamy jedynie brak podstaw do odrzucenia H0 .
6.1
10
Weryfikacja hipotez o wartości przeciętnej
Na początek formułujemy hipotezę zerową, która podlegać ma weryfikacji:
H0 : m = m0
Definicja hipotezy alternatywnej H1 zależy od celu badania.
Podobnie jak to miało miejsce w przypadku konstrukcji przedziałów ufności dla wartości
oczekiwanej m, rodzaj statystyki testu zależy od naszej wiedzy na temat rozkładu zmiennej
w zbiorowości generalnej, o którym zakładamy, że jest to rozkład normalny. Jeżeli znamy jego
odchylenie standardowe σ wówczas weryfikacji dokonujemy w oparciu o wzór:
U=
X̄ − m0 √
n
σ
(30)
Statystyka ta ma rozkład normalny: N(0, 1).
Jeżeli nie znamy wartości σ a próba jest mała (n 6 30) wówczas korzystamy z następującej
statystyki testu:
X̄ − m0 √
T =
n−1
(31)
s
Gdzie s jest odchyleniem standardowym z próby. Ta z kolei statystyka ma rozkład t-Studenta o
n-1 stopniach swobody.
W przypadku dysponowania dużą próbą sięgamy po wzór:
U=
X̄ − m0 √
n
s
(32)
Powyższa statystyka ma rozkład N(0, 1).
Kształt i rozmiary obszaru odrzucenia zależą od wartości poziomu istotności α, wybranej
statystyki oraz rodzaju hipotezy alternatywnej.
6.2
Weryfikacja hipotezy o poziomie wskaźnika struktury
Weryfikacji hipotez dla wskaźnika struktury p dokonujemy tylko wtedy, gdy dysponujemy odpowiednio dużą (n > 100) próbą. W takiej sytuacji konstruujemy hipotezę zerową postaci:
H 0 : p = p0
Jako sprawdzianu weryfikującego postawioną hipotezę używamy wskaźnika struktury dla
próby:
k
w=
(33)
n
gdzie: k oznacza liczbę jednostek posiadających wyróżniony wariant cechy
Statystyka testu ma postać:
k
− p0
n
U=r
(34)
p0 q 0
n
gdzie: q0 = 1 − p0
Statystyka ta ma rozkład N(0, 1). Obszar odrzucenia konstruuje się podobnie jak w przypadku weryfikacji hipotezy o wartości oczekiwanej dla tego samego rozkładu.
6.3
11
Weryfikacja hipotez o równości dwóch wartości oczekiwanych
Niekiedy dysponujemy dwiema zbiorowościami generalnymi lub dwoma podzbiorami dla tej
samej zbiorowości. Należy wówczas sprawdzić czy różnica między wartościami oczekiwanymi
wyznaczonymi dla tychże grup wynika z faktu, że mamy do czynienia z badaniem częściowym
czy też jest ona statystycznie istotna a same zbiorowości różnią się z punktu widzenia tego
parametru. Formułowana hipoteza zerowa wygląda następująco:
H0 : m1 = m2
Zakładamy, że w obu zbiorowościach zmienna losowa ma rozkład normalny. Jeżeli znamy
odchylenia standardowe (σ1 i σ2 ) tych rozkładów wtedy sięgamy po statystykę:
X̄1 − X̄2
U=s
σ12 σ22
+
n1 n2
(35)
Powyższa statystyka ma rozkład N(0, 1).
W przypadku kiedy nie znamy odchyleń standardowych σ1 i σ2 zaś n1 6 30 oraz n2 6 30
wtedy weryfikacji hipotezy dokonujemy w oparciu o wzór:
T =s
X̄1 − X̄2
n1 S12 + n2 S22 1
1
+
n1 + n2 − 2 n1 n2
(36)
Statystyka ta ma rozkład t-Studenta o n1 + n2 − 2 stopniach swobody.
Z kolei gdy dysponujemy dużymi (n1 > 30 i n2 > 30) próbami korzystamy ze statystyki o
rozkładzie N(0, 1) postaci:
X̄1 − X̄2
U=s
(37)
S12 S22
+
n1
n2
6.4
Weryfikacja hipotez o równości dwóch wskaźników struktury
Tego typu weryfikacji dokonujemy, kiedy chcemy sprawdzić czy udział jednostek o wyróżnionym wariancie cechy jest w obu zbiorowościach taki sam. Definicja hipotezy zerowej wygląda
następująco:
H 0 : p1 = p 2
Liczebności prób muszą być odpowiednio duże: n1 > 100 oraz n2 > 100. Do weryfikacji
używamy statystyki:
k1
k2
−
n
n
(38)
U = 1r 2
pq
n
gdzie:
p =
n =
k1 + k2
n1 + n2
n1 n2
n1 + n2
zaś q = 1 − p.
Powyższy sprawdzian ma rozkład normalny standaryzowany.
(39)
(40)
6.5
12
Test niezależności χ2
Kiedy badamy zbiorowość ze względu na dwie cechy często chcemy wiedzieć czy występuje
między nimi zależność. Jednym z możliwych sposobów jest sięgnięcie po test niezależności χ2
zaliczany do grupy testów nieparametrycznych. Można go używać do badania występowania
zależności w następujących przypadkach:
• obie cechy są mierzalne;
• obie cechy są niemierzalne;
• jedna z cech jest mierzalna zaś druga niemierzalna.
Dane do tego testu zazwyczaj grupuje się w postaci tablicy korelacyjnej (dwudzielnej), co
oznacza konieczność dysponowania sporym zbiorem obserwacji.
Konstruuje się hipotezę zerową postaci: „cechy X i Y są niezależne” wobec hipotezy alternatywnej: „cechy X i Y nie są niezależne”. Sprawdzianem testu jest statystyka:
χ2 =
s X
r
X
(nij − n̂ij )2
n̂ij
(41)
i=1 j=1
Statystyka ta ma rozkład χ2 o k = (r − 1)(s − 1) stopniach swobody. W teście występuje
wyłącznie prawostronny obszar odrzucenia.
Wartości liczebności teoretycznych n̂ij oblicza się na podstawie rozkładów brzegowych tablicy
korelacyjnej:
ni• n•j
n̂ij =
(42)
n
6.6
Miary zależności oparte na χ2
Poniżej opisane miary mogą służyć do opisu siły zależności między cechami, zwłaszcza jakościowymi.
6.6.1
Współczynnik ϕ − Y ule0 a
Opisuje go wzór:
r
ϕ=
χ2
n
(43)
Jeżeli:
r =2, s – dowolne, wtedy 0 6 ϕ 6 1,
r > 2, s – dowolne, wtedy ϕ może być większe od 1.
6.6.2
Współczynnik zbieżności T-Czuprowa
Opisuje go wzór:
s
T =
χ2
p
n (r − 1)(s − 1)
Jeżeli:
r = s, wtedy 0 6 T 6 1,
r 6= s, wtedy T może być znacznie mniejsze od 1.
(44)
6.6.3
13
Współczynnik V-Cramera
Opisuje go wzór:
s
V =
χ2
n min(r − 1, s − 1)
(45)
Współczynnik ten przyjmuje wartości: 0 6 V 6 1 przy czym jeżeli:
r = s, wtedy V = T ,
r 6= s, wtedy V > T .
Interpretacja wszystkich współczynników jest podobna: wartość bliska zero oznacza brak
zależności między cechami, im bliższa jedności tym owa zależność jest silniejsza.

Wykłady ze Statystyki matematycznej

Transkrypt

Podobne dokumenty

Zmienne losowe ciągłe - Uniwersytet Zielonogórski

Zadanie 1. Zmienna losowa X ma dystrybuantę FX daną wzorem: FX

Próbne II kolokwium z Rachunku Prawdopodobieństwa i Statystyki

Rozwiązania zadań z kolokwium 3 Zad.1 Adam i Ewa losują

Wykład 5: Zmienne losowe typu ciągłego. Gęstość

Spis treści Str. Wstęp

6.4 Podstawowe metody statystyczne 161 Przypuśćmy, że cecha X

Dla zmiennych losowych można podać pewne podstawowe

1. Asia i Basia umówiły się między 16:00 a 17:00 w centrum miasta