Podstawowe oznaczenia i wzory stosowane na wykładzie i

Transkrypt

Podstawowe oznaczenia i wzory stosowane na wykładzie i
Podstawowe oznaczenia i wzory stosowane na
wykładzie i laboratorium
Część I: estymacja
1
Oznaczenia
Zmienne losowe (cechy) oznaczamy na wykładzie dużymi literami z końca
alfabetu. Próby proste odpowiadającymi im literami pogrubionymi. Jesli X jest
cechą, to
X = (X1 , X2 , .., Xn )T
jest próbą prostą rozmiaru n.
1.1
Podstawowe statystki
Szereg statystyk pozycyjnych (rangowych)
X(1) , X(2) , .., X(n)
to szereg uporzadkowanych (od najmniejszej do najwiekszej) wartości obserwacji
w próbie.
Średnia arytmetyczna:
n
X̄ =
1X
Xi
n i=1
Wariancja empiryczna:
n
S2 =
n
1X 2
1X
(Xi − X̄)2 =
X − (X̄)2 = X 2 − X̄ 2
n i=1
n i=1 i
Wariancja probkowa
n
S02
1 X
=
(Xi − X̄)2
n − 1 i=1
√
2
Empiryczne odchylenie standardowe : S =
p S
2
Próbkowe odchylenie standardowe : S = S0
Moment zwykły rzędu n
n
An =
Moment centralny rzędu n
1X n
X
n i=1 i
n
1X
mn =
(Xi − X̄)n
n i=1
2
Estymacja przedzialowa - podstawowe wzory
We wszystkich omawianych w tym rozdziale przypadkach wspołczynnik ufności
jest równy (co najmniej) q.
2.1
Przedziały ufności dla wartości oczekiwanej
Cecha X ma nieznaną wartośc oczekiwaną m.
Przypadek I.
Cecha ma rozklad normalny N (m, σ 2 ) i wariancja σ 2 jest znana.
Przedział ufności:
σuβ
σuβ
[X̄ − √ , X̄ + √ ]
n
n
gdzie β = 1+q
2 zas uβ jest kwantylem rzedu β z rozkladu normalnego N(0,1)
Przypadek II.
Cecha ma rozklad normalny N (m, σ 2 ) ale wariancja σ 2 jest nieznana.
Przedział ufności:
S · tβ
S · tβ
[X̄ − √
, X̄ + √
]
n−1
n−1
gdzie β = 1+q
2 zas tβ jest kwantylem rzedu β z rozkladu Studenta o n − 1
stopniach swobody.
Przypadek III.
Cecha ma rozkład nieznany lub inny niż normalny. Dla konstrukcji
przedziału ufności w tym przypadku musimy mieć próbę dużego rozmiaru.
Zwykle zakłada się, że n > 30.
Przedział ufności:
S · uβ
S · uβ
[X̄ − √
, X̄ + √
]
n−1
n−1
gdzie β =
1+q
2
zas uβ jest kwantylem rzedu β z rozkladu normalnego N(0,1)
UWAGA Jeśli za oszacowanie punktowe wartości oczekiwanej cechy X
przyjmiemy wartość średniej z próby (X̄), to błędem standardowym tego
oszacowania nazywamy wartość statystyki
σ̂
SX̄ = √
n
2
gdzie σ̂ jest oszacowaniem odchylenia standardowego badanej cechy X. Jeśli
natura stochastyczna cechy (jej rozkład :) jest nieznana lub jesli jest to cecha o
rozkładzie zbliżonym do normalnego, to możemy przyjąć w powyższym wzorze
σ̂ = §0 . W różnych szczególnych przypadkach można użyć lepszego estymatora
odchylenia standardowego. Np. jesli cecha X ma rozkład wykładniczy, to lepsze
oszacowanie tego odchylenia otrzymamy przyjmując
σ̂ = X̄. Podobnie w
√
przypadku rozkładu Poissona lepiej przyjąć σ̂ = X̄.... Dlaczego?
2.2
Przedział ufności dla wskaźnika struktury
Dana jest próba z rozkładu zero-jeden, tj. obserwowana cecha X ma rozkład:
P (X = 1) = p = 1 − P (X = 0)
Niech N oznacza sumę wartości zaobserwowanych w próbie rozmiaru n.
Zatem - inaczej - N jest liczba jedynek w próbie. Wspolczynnik ufności
wynosi q. Wartość prawdopodobienstwa ”p” w wielu zastosowanich (np. w
ekonomii czy demografii) nazywamy wskaznikiem struktury p dla elementow
populacji o zadanej wlasności. W innych zastosowaniach nazywamy go frakcją
(elementow populacji o zadanej wlasności), tak jest np. problemach kontroli
jakości produkcji.
Przedziałem ufności dla p jest:
[Bβ1 (N, n − N + 1) , Bβ2 (N + 1, n − N )]
gdzie Bβ (n1 , n2 ) oznacza kwantyl rzędu β z rozkładu Beta z parametrami n1
i n2 . Rzędy β1 oraz β2 kwantyli pojawiających sie w przedziale ufności są,
odpowiednio, równe (1 − q)/2 oraz (1 + q)/2.
Podany wzór jest modyfikowany gdy N = 0 oraz gdy N = n. Jeżeli N = 0,
to lewy koniec przedziału ufności jest równy 0, a jeżeli N = n, to prawy koniec
przedziału ufności jest równy 1.
Kwantyle rozkładu Beta znajdujemy z wykorzystaniem pakietów
komputerowych takich jak Excel,Maple czy Mathematica.
Powyzszy ”dokładny” przedział został wyprowadzony przez Jerzego Spławę
- Neymana, twórcę idei przedziałów ufności.
W przypadku proby dużego rozmiaru wielu autorów zaleca stosowanie
nastepujacego przybliżonego (asymptotycznego) i prostszego(?) przedziału
ufności (którego idea pochodzi od Walda):
r
r
p̂(1 − p̂)
p̂(1 − p̂)
, p̂ + uβ
]
[p̂ − uβ
n
n
1+q
gdzie p̂ = N
n , β = 2 zas uβ jest kwantylem rzedu β z rozkladu normalnego
N(0,1).
Różni autorzy różnie okreslają warunki zapewniające, że próba jest
”wystarczająco” duża. Znajdziemy wśród nich następujące:
n ­ n0
3
gdzie n0 jest równe wg. jednych 50, wg. innych 100 (od czego to de facto zależy?).
Inny warunek jest fromułowany w postaci
np ­ c, n(1 − p) ­ c
gdzie znowu u jednych autorów c jest równe 5 a u innych np. 50.
Wszystkie te zalecenia mają na celu zapewnienie wystarczająco dobrego
przybliżenia rozkładu statystyki
p̂ − p
p
p̂(1 − p̂)/n
rozkładem normalnym standaryzowanym N (0, 1)
Podawane są również nieco dokładniejsze ale bardziej skomplikowane i nadal
tylko asymptotycznie poprawne przedziały ufności wyprowadzane w oparciu o
asymtotyczną normalność rozkładu statystyki
p̂ − p
p
p(1 − p)/n
W dobie komputerów wydaje się, że wszysytkie te upraszczające pomysły
są zbyteczne, gdyż wyznaczenie przedziału Neymana nie nastręcza teraz takich
kłopotów jak w czasach Walda.
UWAGA Wartość statystyki
r
p̂(1 − p̂)
Sp̂ =
n
praktycy nazywają często błędem standardowym oszacowania wskaźnika
stryktury
2.3
Przedział ufności dla wariancji
Estymujemy wariancję rozkładu cechy.
Przypadek: cecha ma rozklad normalny
Przedział ufności:
[
nS 2 nS 2
,
]
χ2
χ1
gdzie χ1 jest kwantylem rzedu (1 − q)/2 z rozkladu χ2 o n − 1 stopniach
swobody, zas χ2 jest kwantylem rzedu (1 + q)/2 z tego samego rozkladu.
3
Analiza korelacji - estymacja
Kowariancja empiryczna
CX,Y =
n
X
(Xi − X̄)(Yi − Ȳ )
i=1
4
Współczynnik korelacji Pearsona
Dla prób dotyczacych badania zwiazkow dwoch cech X i Y
rxy =
CX,Y
nSX SY
gdzie SX , SY są empirycznymi odchyleniami standardowymi dla próby z cechy
X i Y , odpowiednio.
Współczynnik korelacji cześciowej pomiedzy cechami X1 i X2 przy
eliminacji wpływu cech X3,..., Xn
−R12
r12.3...n = √
R11 R22
gdzie Rij są dopełnieniami algebraicznymi wyznacznika
r12 r12 ... r1n r21 r22
r2n R =
...
rn1 rn2
rnn Współczynnik korelacji wielorakiej pomiędzy cechą X1 a cechami
X2,..., Xn
r
R
r1(23...n) = 1 −
R11
5