CZĘŚĆ II – STATYSTYKA MATEMATYCZNA

Transkrypt

5. Podstawowe pojęcia statystyki
1
CZĘŚĆ II – STATYSTYKA
MATEMATYCZNA
Rachunek prawdopodobieństwa a statystyka matematyczna. Część I,
rachunek prawdopodobieństwa, dostarcza podstawowych pojęć i wzorów – języka, za
pomocą którego możemy rozmawiać w sposób ścisły o problemach dotyczących
zjawisk i procesów, w których czynnik losowy odgrywa niezaniedbywalną rolę.
Rachunek prawdopodobieństwa daje też modele zjawisk (rozkłady prawdopodobieństwa). Część niniejsza – statystyka matematyczna – jest związana z zastosowaniem modeli probabilistycznych a jej celem jest formułowanie wniosków dotyczących
określonej zbiorowości (tzw. populacji generalnej, łączonej dalej ze zmienną losową)
na podstawie pewnego podzbioru tej zbiorowości, zwanego próbą lub próbką. Fakt
ten oznacza, że statystyka zajmuje się wnioskowaniem o całości (zbiorze) na
podstawie części (podzbioru), czyli wnioskowaniem w warunkach niepełnej informacji. Wnioskowanie to jest związane z dwoma następującymi podstawowymi zagadnieniami.
Dwa podstawowe zagadnienia klasycznej statystyki matematycznej.
Wnioskowanie statystyczne w postaci klasycznej (tzw. klasyczna statystyka matematyczna) obejmuje dwa zasadnicze zagadnienia, którymi są
(i) estymacja statystyczna (punktowa i przedziałowa) oraz
(ii) weryfikacja hipotez statystycznych (parametrycznych i nieparametrycznych).
Estymacja statystyczna. Podstawowym problemem estymacji statystycznej
jest odpowiedź na pytanie typu "ile wynosi wartość nieznanego parametru g populacji
generalnej?" Jeśli podana odpowiedzieć ma postać "g . ĝ", gdzie ĝ jest obliczoną
przez nas liczbą, to mamy do czynienia z estymacją punktową. Jeśli natomiast
odpowiedź jest typu: "g zawarte jest w przedziale (ĝ1, ĝ2)", to taki przypadek estymacji
nazywa się estymacją przedziałową.
Weryfikacja hipotez statystycznych oznacza pewien sposób postępowania
(tzw. test statystyczny) pozwalający przyjąć lub odrzucić postawioną hipotezę
statystyczną H0 dotyczącą pewnej charakterystyki. Gdy hipoteza H0 dotyczy
parametru g populacji – np. H0:(g=5) – nazywana jest parametryczną, gdy
© Stanisław Węglarczyk, XII 2005
2
natomiast dotyczy funkcji rozkładu populacji – np. H0:(rozkładem populacji jest
rozkład normalny o parametrach µ=1.5 i σ=0.23) – nazywamy ją nieparametryczną,
a test z tym związany – testem nieparametrycznym (lub: zgodności).
3
Rozdział 5 PODSTAWOWE
POJĘCIA STATYSTYKI
W rozdziale tym zostaną omówione takie pojęcia, jak populacja generalna –
obiekt badań statystyki, próba losowa, czyli posiadana informacja o populacji
generalnej, statystyka – zmienna losowa będąca funkcją próby, oraz rozkłady
najważniejszych statystyk – informacja niezbędna dla wnioskowania statystycznego.
5.1 PRÓBA LOSOWA I STATYSTYKA JAKO FUNKCJA PRÓBY
Zbiorowość generalna. Pojęciem podstawowym, podobnie jak w części I, jest
doświadczenie losowe. Często używanym dalej synonimem tego pojęcia jest słowo obserwacja. Dotyczy ona pewnej zbiorowości (czyli
zbioru), której elementy obserwujemy. Zbiorowość ta nosi nazwę zbiorowości generalnej
lub populacji generalnej (rys. 5.1) i składa się
z pewnych obiektów, które mogą być obiektami materialnymi, np. jakimiś przedmiotami, lub też obiektami niematerialnymi,
np. wynikami obserwacji, zarówno ilościowymi, jak i jakościowymi. Tak więc zbiorowością Rys. 5.1. Przykład skończonej zbiorowości
generalną może być zarówno zbiór samocho- generalnej (zbiorowość prostokątów) i
podzbioru tej zbiorowości – próby
dów danej marki, jakie zostały wyprodukowane w danym roku, zbiór prostokątów z rys. 5.1, zbiór wszystkich opadów, jakie
spadły (i spadną) w danym punkcie geograficznym, jak też zbiór wszystkich
możliwych wyników pomiarów długości danego przedmiotu.
Cecha X populacji generalnej. Wspomniane obiekty – elementy populacji –
badamy zwykle ze względu na pewną cechę (charakterystykę), którą zawsze muszą
posiadać wszystkie elementy danej populacji. Cechę tę zawsze kwantyfikujemy, tzn.
wyrażamy ją liczbowo. W przypadku zbiorowości samochodów cechą tą może być np.
4
czas do pierwszej naprawy (jedna liczba dla każdego samochodu), dla zbioru prostokątów z rys. 5.1 – może to być długość i szerokość prostokąta (dwie liczby dla każdego
prostokąta), w przypadku opadów może nas interesować wysokość opadu, czas jego
trwania oraz maksymalne natężenie (trzy liczby na każdy opad), podczas gdy w
ostatnim przypadku – pomiaru długości danego przedmiotu – jest to jedna liczba
(długość) na każdy pomiar.
Badana i skwantyfikowana cecha, nazwijmy ją X, jest z założenia zmienną losową i
jako taka posiada pewien rozkład prawdopodobieństwa o dystrybuancie FX(x). Często
mówi się też, że dana populacja ma rozkład FX(x)1. Należy tutaj od razu zdać sobie
sprawę z faktu, że rozkład ten jest na ogół nieznany (jeśli jest znany, to informacja o
tym pochodzi spoza statystyki). Dysponujemy jednak pewną informacją pochodzącą z
obserwacji – próbą losową {x1, x2, ..., xn}. Informacja ta jest prawie zawsze niepełna,
tzn. nie sposób na jej podstawie określić absolutnie dokładnie postać rozkładu FX(x).
Niepełność informacji o nieznanym rozkładzie FX(x), pochodzącej z szeroko rozumianego eksperymentu, spowodowana jest tym, że eksperyment ten daje pewien
podzbiór zbioru możliwych obserwacji i na podstawie tego podzbioru – tzw. próby –
wysuwamy wnioski dotyczące cechy X wszystkich elementów danej zbiorowości.
Przykład 5.1. Zmienna losowa i jej realizacje. Wykonano trzy serie pomiarów
długości pewnego odcinka po 5 pomiarów w każdej serii. Tabela 5.1 zawiera uzyskane wyniki.
Tabela 5.1. Wyniki pomiarów długości odcinka
Każda z trzech 5-elemenwynik xi i-go pomiaru w danej serii, m
numer serii
towych serii pomiarów może
pomiarów
x1
x2
x3
x4
x5
być traktowana jako realizacja
1
9.99
10.02
9.98
9.99
9.98
5-elementowej próby losowej
2
10.00
10.01
9.99
10.01
10.00
(X1,X2,X3,X4,X5),
natomiast
3
10.00
10.00
10.00
10.02
9.99
wartości w kolejnych kolumnach są realizacjami kolejnych zmiennych losowych – składowych wektora losowego
(X1,X2,X3,X4,X5). Na przykład liczby 9.99, 10.00 i 10.00 (pierwsza kolumna) są realizacjami
zmiennej losowej X1. Oczywiście, realizacji zmiennej losowej X1 (i pozostałych zmiennych)
może być nieskończenie wiele.
Próba losowa. Niech doświadczenie losowe polega na n-krotnej obserwacji
zmiennej losowej X. Wynikiem tego doświadczenia będzie zbiór n liczb x1, x2, ...,xn,
gdzie indeks oznacza numer pomiaru. Ponieważ doświadczenie było losowe (nie
mogliśmy z całkowitą pewnością przewidzieć jego wyników i przeprowadzono je tak,
aby nie preferować żadnych wyników), to wartości te są realizacjami pewnych
1
To sformułowanie sugeruje, że każdą populację możemy w końcu rozumieć jako zbiór X liczb (zbiór X
możliwych wyników pomiaru) i do takiego spojrzenia prowadzi podejście statystyczne. Dla prawidłowego wnioskowania jest wszakże konieczne, aby jak najlepiej rozumieć czego dotyczą liczby x i ich
zbiór X.
5
zmiennych losowych, odpowiednio: X1, X2, ...,Xn, lub inaczej: realizacjami wektora
losowego (X1, X2, ...,Xn). Zmienną Xi nazwiemy wynikiem i-tej obserwacji (lub:
wynikiem i-go pomiaru) zmiennej losowej X, wektor (X1, X2, ...,Xn) nazwiemy próbą
losową, a zbiór liczb (x1, x2, ..., xn) – realizacją tej próby. Formalną definicję próby
losowej można znaleźć np. w podręczniku Fisza [11]. Zamiast sformułowania
realizacja próby losowej często stosuje się sformułowanie próba losowa, co prowadzi
do konfliktu z podanym powyżej określeniem – przeważnie jednak kontekst pozwala
domyślić się, o którym z dwu powyższych terminów jest mowa. Liczba n nazywana
jest liczebnością próby i jest to bardzo ważny parametr statystyczny.
Losowość próby. Losowość próby jest niezbędnym warunkiem tego, aby można
było używać jej do wyciągania wniosków dotyczących całej populacji (aby próba była
reprezentatywna). (Tak więc przedstawiona na rys. 5.1 próba, jeśli tylko jest losowa,
może być podstawą wnioskowania o całej populacji prostokątów).
Próba losowa jest podstawą wnioskowania statystycznego o rozkładzie badanej cechy X populacji generalnej. Ponieważ próba jest częścią całej
populacji, zawiera informację lokalną – związaną wyłącznie z samą próbą – i
informację globalną, która dotyczy całej populacji. Z punktu widzenia wnioskowania
statystycznego informacja lokalna zaciemnia poszukiwaną przez nas informację o
populacji (jest „szumem”), co oznacza, że wnioskowanie statystyczne jest zawsze
obarczone niepewnością.
Prosta próba losowa. Spośród prób losowych szczególne zastosowanie znalazła prosta (lub: niezależna) próba losowa. Jest to taka próba losowa, która posiada
następującą własność:
Fn ( x1 , x2 ,..., xn ) = FX ( x1 ) FX ( x2 )...FX ( xn )
(5.1)
gdzie Fn(x1,x2,...,xn) jest dystrybuantą łącznego rozkładu wektora losowego (X1, X2, ...,
Xn), FX(·) – nieznaną dystrybuantą zmiennej losowej (cechy) X, a n – dowolną liczbą
naturalną.
Powyższa równość oznacza, że zmienne X1,X2,...,Xn
(1) mają taki sam rozkład FX(x) oraz że
(2) są niezależne (zespołowo).
Możemy więc uważać, że w prostej próbie losowej kolejność jej elementów nie
odgrywa żadnej roli, co oznacza, że wartość kolejnego elementu próby nie zależy od
wartości elementów poprzednich (i następnych). Mówiąc jeszcze inaczej:
œi>1 Fi(xi|xi-1, xi-2,...,x1) = FX(xi).
6
Wynika z tego dalej, że jeśli poprzez zmianę kolejności wyrazów utworzymy z ciągu
{x1,x2,..., xn} tzw. ciąg uporządkowany (albo inaczej: próbę uporządkowaną)
niemalejący {x(1),x(2),...,x(n)}, tj. taki, że:
x(1) ≤ x(2) ≤ ... ≤ x( n )
(5.2)
lub nierosnący {x(1),x(2),...,x(n)}, tzn. taki, że
x(1) ≥ x(2) ≥ ... ≥ x( n )
(5.3)
to dostarcza on tyle samo informacji co oryginalny ciąg (x1, x2, ...,xn). Bardzo często
założenie (2) przyjmowane jest bez dowodu, co może prowadzić do poważnych
błędów.
Przykład 5.2. Uporządkowana próba losowa.
Niech będzie dana 5-elementowa próba losowa {x1, x2, x3, x4, x5} = {2, 4, 1, 3, 7}.
Uporządkowana rosnąca próba losowa to {x(1), x(2), x(3), x(4), x(5)} = {1,2,3,4,7}, a próba
uporządkowana malejąco to oczywiście {x(1), x(2), x(3), x(4), x(5)} = {7, 4, 3, 2, 1}.
Wyrażając istotę prostej próby losowej w terminach mniej matematycznych, można powiedzieć, że zasadza się ona na założeniu o identycznych warunkach, w jakich
przeprowadzane jest doświadczenie (obserwacja) oraz równomożliwości (identycznym prawdopodobieństwie) uzyskania wszystkich otrzymanych wyników.
Statystyka. Ponieważ próba losowa jest wektorem losowym, to wynika stąd, że
dowolna funkcja Zn próby (X1, X2,...,Xn)
Z n = g ( X 1 , X 2 ,..., X n )
(5.4)
jest także zmienną losową. Funkcja Zn nosi nazwę statystyki. Jest więc, na przykład,
zmienną losową (i zarazem statystyką) wartość średnia z próby, wariancja z próby,
itp. Wyznaczanie rozkładów statystyk jest jednym z podstawowych zagadnień
statystyki matematycznej. Niektóre rozkłady statystyk są zamieszczone w rozdziale
5.3.
Mała i duża próba. Istnieją dwa podejścia do rozwiązania problemu wyznaczania rozkładu danej statystyki. Podejście pierwsze polega na wyznaczeniu dla każdego
n rozkładu FZ n ( x) statystyki Zn (na podstawie znajomości FX(x), czyli znajomości
rozkładu danej cechy populacji generalnej). Taki rozkład nazywamy dokładnym
rozkładem statystyki Zn.
Gdy liczba n jest duża, możemy skorzystać z pewnych twierdzeń rachunku
prawdopodobieństwa i wyznaczyć rozkład danej statystyki Zn, gdy n zmierza do
nieskończoności (taki rozkład nazywa się rozkładem granicznym lub asymptotycznym). Rozkłady asymptotyczne statystyk mają tę ważną cechę, że nie zależą od roz© Stanisław Węglarczyk, XII 2005
7
kładu FX(x) populacji, co czyni z nich bardzo pożądane narzędzie analizy statystycznej.
Jeśli n jest tak duże, że możemy skorzystać z rozkładu granicznego badanej
statystyki, to taka próba nazywa się dużą próbą (dla danej statystyki). Jeśli natomiast
wielkość n nie pozwala na skorzystanie z rozkładu granicznego, to mamy do czynienia
z próbą małą (dla danej statystyki).
Ostrzeżenie. Niestety nie istnieje kryterium pozwalające jednoznacznie zdefiniować
próbę małą i dużą – zależy to od rozpatrywanej statystyki. Chyba najczęściej
stosowaną liczbą definiującą dużą próbę jest n=30. Należy jednak mocno podkreślić,
że liczba ta dotyczy przede wszystkim statystyki średnia wartość z próby. W każdym
innym przypadku liczba ta może być inna.
5.2 PODSTAWOWE TWIERDZENIE STATYSTYKI
MATEMATYCZNEJ
Informacją najbardziej pożądaną, jaką chcemy uzyskać o cesze X na podstawie
próby losowej jest znajomość rozkładu FX(x). Ponieważ próba losowa niesie z sobą
informację o X, to znaczy, że niesie ona informację o rozkładzie FX(x). Poniższe
twierdzenie, zwane czasami podstawowym twierdzeniem statystyki matematycznej
lub częściej twierdzeniem Gliwienki albo też Gliwienki-Cantelliego, pozwala zbudować pewien empiryczny odpowiednik nieznanej dystrybuanty FX(x) – tak zwaną
dystrybuantę empiryczną Fn(x) i wykazuje użyteczność tego pojęcia.
5.2.1
Dystrybuanta empiryczna
Mamy daną prostą próbę losową (x1, x2, ...,xn) (mówiąc ściśle mamy daną realizację
prostej próby losowej, jednakże słowo realizacja często się opuszcza). Dystrybuanta
empiryczna Femp(x), gdzie x jest dowolną liczbą rzeczywistą, jest taką funkcją, że
Femp ( x) =
liczba elementów xi próby takich, że xi < x
n
(5.5)
Jeśli utworzymy próbę uporządkowaną rosnąco (zwaną też czasem rosnącym ciągiem rozdzielczym) (x(1), x(2),...,x(n)), gdzie x(1)#x(2)#...#x(n), to definicja Femp(x) równoważna definicji (5.5) będzie miała postać:



Femp ( x) = 


0, dla x(1) ≤ x
k
, dla x( k ) ≤ x < x( k +1)
n
1, dla x > x( n )
(5.6)
8
Wzory (5.5) i (5.6) wynikają z przyjmowanego powszechnie założenia o równym
prawdopodobieństwie pojawiania się wyników danej próby losowej (x1, x2, ...,xn):
1
P( X = xi ) = , i = 1, 2,..., n
n
(5.7)
Można spotkać też inne wzory na dystrybuantę empiryczną, m.in. taki dla próby
uporządkowanej rosnąco x(1)#x(2)#...#x(n). :
Femp ( x( k ) ) =
k
n +1
(5.8)
podający wartości dystrybuanty w punktach jej nieciągłości.
Przykład 5.3. Wykreślanie dystrybuanty empirycznej.
Dana jest 10-elementowa próba losowa
{xi}i=1,10 = {4.61, 6.90, -1.03, -0.76, 4.50,
0.81, 1.64, 5.84, 5.56, 0.14} wylosowana z
pewnej populacji X, gdzie X oznacza ciągłą
zmienną losową.
Zadanie. Wykreślić dystrybuantę empiryczną Femp(x) zmiennej losowej X dla tej
próby.
Rozwiązanie. Porządkujemy rosnąco próbę {xi}i=1,10 i dostajemy próbę uporządkowaną {x(i)}i=1,10 = {-1.03, -0.76, 0.14, 0.81,
1.64, 4.5, 4.61, 5.56, 5.84, 6.9}, po czym
korzystamy ze wzoru (5.6). (Można też Rys. 5.2. Dystrybuanta empiryczna zmiennej X
korzystać, co jest często stosowane, ze wzo- obliczona na podstawie 10-elementowej próby losowej.
ru(5.8)). Wynik pokazany jest na rys. 5.2.
5.2.2
Podstawowe twierdzenie statystyki matematycznej – twierdzenie
Gliwienki-Cantelliego
Jeśli prosta próba losowa (X1,X2,...,Xn) pochodzi z populacji o rozkładzie FX(x), to
P  lim sup Femp ( x) − FX ( x ) = 0  = 1
 n →∞ x∈R

(5.9)
gdzie Femp(.) jest dystrybuantą empiryczną zmiennej losowej X, a P(·) oznacza
prawdopodobieństwo. Wzór ten jest teoretycznym uzasadnieniem przekonania, że w
miarę wzrostu liczebności n próby powiększa się nasza wiedza o nieznanym
rozkładzie FX(x), co wyraża się mniejszą maksymalną odległością sup|Femp(x)-FX(x)|
9
pomiędzy rozkładem empirycznym
Femp(x) a rzeczywistym rozkładem
FX(x) (zob. rys. 5.3, gdzie przedstawiono 3 dystrybuanty empiryczne dla
n = 10, 20 i 40). (Istnieją inne możliwości zdefiniowania odległości pomiędzy funkcjami).
Histogram (wykres częstości
względnych) jako obraz funkcji
gęstości. Dystrybuanta empiryczna
jest eksperymentalnym obrazem rze- Rys. 5.3. Ilustracja sensu twierdzenia Cantelliego: im
czywistej
dystrybuanty
badanej bardziej liczna próba tym bardziej dystrybuanta
empiryczna jest bliższa dystrybuancie populacji (linia
zmiennej X. Na podstawie danej pró- pogrubiona)
by losowej można także zbudować
empiryczny odpowiednik funkcji gęstości, co jest zilustrowane na rys. 5.4. Należy w
tym celu obrać w sposób mniej lub więcej arbitralny pewne przedziały na osi wartości
zmiennej X, zliczyć liczbę ni realizacji zmiennej w kolejnych przedziałach, obliczyć
wartość częstości względnej ni/n, gdzie n jest liczebnością próby, oraz wykreślić
prostokąt o wysokości ni/(n)x) i szerokości )x. Niestety ta reprezentacja – w
odróżnieniu od dystrybuanty empirycznej – zawsze gubi część informacji zawartej w
próbie. Dzieje się tak wskutek czynności grupowania elementów próby – "wrzucania"
n wartości zmiennej do n'<n przedziałów )x, gdzie tracą one swoją indywidualność
(tzn. wiadomo, ile elementów próby należy do danego przedziału, nie wiadomo
jednak, gdzie one leżą wewnątrz tego przedziału). Pewną negatywną rolę odgrywa
tutaj również arbitralność w wyborze długości przedziału )x, co doskonale ilustrują
wykresy B, C i D na rys. 5.4, jak też arbitralność wyboru początku przedziału
zmienności zmiennej X (na rys. 5.4 jest to punkt x0=5).
Przykład 5.4. Histogram jest obrazem funkcji gęstości prawdopodobieństwa.
Z populacji normalnej o parametrach µ=10 i σ=2 (rys. 5.4A), N(10,2), wylosowano n=40elementową prostą próbę losową. Wyniki zawarte są w tabeli A.
11.37
13.58
9.76
9.90
11.31
9.47
8.20
7.88
Tabela A. 40-elementowa próba wylosowana z populacji N(10,2)
13.19
9.10
11.27
11.84
10.44
11.29
10.57
8.55
7.94
11.38
14.36
8.92
5.53
8.43
8.77
11.12
11.57
8.81
5.72
6.59
12.65
8.96
7.71
10.69
9.06
8.81
10.29
7.21
10.26
13.16
11.05
7.06
Następnie zakres zmienności próby losowej (dla wygody przyjęto przedział (5;15)) został
podzielony trzykrotnie: odpowiednio na 10, 8 i 5 równych przedziałów ∆xi i w każdym z nich
znaleziono liczbę ni wartości danej próby losowej. Uzyskane wyniki przedstawione są kolejno
w tabelach B, C i D.
10
w tabelach B, C i D.
Tabela B. 10 przedziałów grupowania wartości 40-elementowej próby losowej (rys. 5.4B)
i
1
2
3
4
5
6
7
8
9
10
5-6
6-7
7-8
8-9
9-10
10-11
11-12
12-13
13-14
14-15
)xi
ni
2
1
5
8
5
5
9
1
3
1
Tabela C. 8 przedziałów grupowania wartości 40-elementowej próby losowej (rys. 5.4C)
i
1
2
3
4
5
6
7
8
5.0-6.25 6.25-7.50 7.50-8.75 8.75-10.00 10.00-11.25 11.25-12.50 12.50-13.75 13.75-15.00
)xi
ni
2
3
6
10
7
7
4
1
Tabela D. 5 przedziałów grupowania wartości 40-elementowej próby losowej (rys. 5.4D)
i
1
2
3
4
5
5-7
7-9
9-11
11-13
13-15
)xi
ni
3
13
13
10
4
Wszystkie histogramy (rys. 5.4B, C i D) są empirycznymi obrazami (reprezentacjami) tej
samej funkcji gęstości
fHxL
f*HxL
NH10; 2L
nDx=10
f(x) (rys. 5.4A). Każdy z
0.2
0.2
A
nich w innym stopniu
B
0.15
0.15
niesie
informację
o
0.1
0.1
rzeczywistej
funkcji
0.05
0.05
gęstości. Wydaje się, że
x
x
histogram B jest zbyt
6
8 10 12 14
6. 8. 10. 12. 14.
szczegółowy: za dużo
f*HxL
f*HxL
nDx=8
nDx=5
jest tam informacji po0.2
0.2
wstałej na skutek tego
C
D
0.15
0.15
podziału. Z kolei, histo0.1
0.1
gram D jest zbyt ogólny:
0.05
0.05
sugeruje, że rzeczywista
funkcja gęstości ma
x
x
6. 8. 10. 12. 14.
6. 8. 10. 12. 14.
maksimum na lewym
krańcu
przedziału
Rys. 5.4. Wykreślone dla 40-elementowej próbki: A. funkcja gęstości
zmienności. W porów- populacji N(10,2) oraz histogramy o przedziałach zliczania B. )x=1.0, C.
)x=1.25 i D. )x=2.
naniu z tymi dwoma
histogramami, najlepszy
(w sensie podobieństwa do f(x)), wydaje się histogram C.
Istnieje inna metoda znajdowania empirycznej funkcji gęstości – tzw. estymacja
nieparametryczna funkcji gęstości – pozwalająca uniknąć większości błędów opisanego wyżej histogramu. Metoda ta nie będzie jednak tutaj omawiana.
11
5.3 NAJWAŻNIEJSZE STATYSTYKI I ICH ROZKŁADY
Dana jest próba losowa (X1,X2,...,Xn). Możemy określić dla niej wiele statystyk,
czyli zmiennych losowych będących funkcjami próby. Najważniejsze z nich, z praktycznego punktu widzenia, to momenty z próby i ich funkcje. W kolejnych podrozdziałach podane zostały równania definicyjne niektórych podstawowych statystyk
wraz z najważniejszymi rozkładami z nimi związanymi. W niektórych podręcznikach
statystyki te oznaczane są małymi literami niezależnie od tego, czy ma ona w danej
chwili sens zmiennej losowej, czy jej wartości. W niniejszym tekście takie rozróżnienie
będzie zachowane. Stosowana dalej pozioma kreska (6) nad symbolem lub grupą
symboli („kreska ponad”) oznacza średnią arytmetyczną liczoną ze względu na
zmienną lub zmienne występujące pod tym znakiem. Jest ona odpowiednikiem
operatora wartości oczekiwanej E używanego dla średniej przy znanym rozkładzie
prawdopodobieństwa.
Przykład 5.5. Działanie operatora kreska ponad.
def
g ( x) =
n
1
∑ g ( xi )
n i =1
x2 =
1 n 2
∑ xi
n i =1
( x − x )2 =
1 n
( xi − x ) 2
∑
n i =1
(5.10)
Wszędzie powyżej zakładamy, że liczebność próby wynosi n.
W kolejnych podrozdziałach przedstawione zostaną ważne statystyki i ich rozkłady
w zależności od tego, czy badana jest populacja jednowymiarowa, dwuwymiarowa,
czy dwie populacje jednowymiarowe.
5.3.1
Populacja jednowymiarowa. Wartość średnia z próby
Dana jest próba losowa (X1, X2, ...,Xn) pobrana z badanej jednowymiarowej populacji X. Statystyka wartość średnia z próby (lub: wartość średnia w próbie) jest
zdefiniowana równością
X=
1 n
∑ Xi
n i =1
(5.11)
Populacja X normalna ze znaną wartością odchylenia standardowego σ. Jeśli populacja, z której pochodzi n elementowa prosta próba, ma rozkład
normalny: FX=N(µ,σ) ze znaną wartością σ, to statystyka
U=
ma rozkład normalny N(0,1).
X −µ
σ
n
(5.12)
12
Przypadek ten jest często spotykany w praktyce pomiarowej, gdy przyjmujemy tzw.
normalny model niepewności (błędów) pomiarowych, tzn. przyjmujemy za prawdziwe założenie, że niepewności pomiarowe (zwane często mniej precyzyjnie błędami
pomiarowymi) – czyli odchyłki X-µ wyników x pomiaru od nieznanej wartości prawdziwej µ – podlegają rozkładowi normalnemu N(0,σ), gdzie σ jest znaną dokładnością
przyrządu pomiarowego (dokładnością pojedynczego pomiaru). Inaczej mówimy, że
wynik X pomiaru nieznanej wartości prawdziwej µ podlega rozkładowi normalnemu
N(µ,σ). Fakt, że statystyka (5.12) podlega rozkładowi N(0,1) jest inną formą
stwierdzenia, że użycie wartości średniej x z n pomiarów zamiast pojedynczej
wartości x daje korzyść polegającą na mniejszej niepewności (mniejszym błędzie),
gdyż zmienna X podlega rozkładowi normalnemu N(µ,σ/ n ) zamiast N(µ,σ) jak dla
X. (Zwróćmy uwagę na fakt, że EX = EX = µ).
Przykład 5.6. Obliczanie liczby pomiarów niezbędnych do 10-krotnego
zmniejszenia niepewności pomiaru.
Wykonujemy n pomiarów xi, i=1,2,...,n, długości L pewnego przedmiotu przyrządem o
dokładności σ = 1 mm, po czym obliczamy wartość średnią x . Ile pomiarów trzeba wykonać,
aby prawdopodobieństwo, że uzyskana średnia nie różni się od wartości prawdziwej więcej
niż 0.1 mm było równe 95%?
Odpowiedź. Przyjmujemy, że wartość prawdziwa L odpowiada parametrowi µ statystyki
U (5.12), stąd można przyjąć, że warunek postawiony w zadaniu ma postać
P (|X − µ |<0.1 mm ) = 0.95
(5.13)
Z uwag zamieszczonych bezpośrednio powyżej można przyjąć następujący ciąg dalszy:
 |X − µ |
0.1 
P (|X − µ|<0.1 mm ) = P 
<
 = P | U | <0.1 n
σ / n σ / n 
(
)
= P ( −0.1 n < U < 0.1 n ) = Φ ( 0.1 n ) − Φ ( −0.1 n )
= Φ ( 0.1 n ) − (1 − Φ ( 0.1 n ) ) = 2Φ ( 0.1 n ) − 1 = 0.95
(5.14)
bo σ=1 mm a Φ() jest dystrybuantą rozkładu N(0,1). Z (5.14) mamy, że wartość 0.1 n jest
kwantylem rzędu 0.975: 0.1 n = u0.975. Z tablic rozkładu normalnego mamy: u0.975 = 1.96.
Równanie 0.1 n = 1.96 daje rozwiązanie: n=384.16, skąd mamy odpowiedź: Trzeba co
najmniej n=385 pomiarów.
Populacja X normalna z nieznaną wartością σ. Jeśli populacja, z której
pochodzi n elementowa prosta próba, ma rozkład normalny FX=N(µ,σ) z nieznaną
wartością σ, to statystyka
13
t=
X −µ
n −1
S
(5.15)
ma rozkład Studenta z parametrem <=n-1 nazywanym liczbą stopni swobody.
n
Wielkość S jest odchyleniem standardowym z próby ( S 2 = (1/ n)∑ i=1 ( xi − x ) 2 ). Wyjątkowo, ze względu na tradycję, zmienna losowa (tj. t) jest tutaj oznaczana małą, nie
dużą, literą.
Ze względu na swą niezależność od σ
rozkład ten znajduje szerokie zastosowanie. Charakteryzuje się on następującymi pierwszymi momentami
Et = 0
var t =
ν
n −1
=
ν −2 n−3
(5.16)
i bardzo szybko ze wzrostem < upodabnia się do rozkładu normalnego N(0,1)
(rys. 5.5). Z dokładnością wystarczającą
dla praktycznych zastosowań można
Rys. 5.5. Im większa liczba stopni swobody ν tym
przyjąć, że dla ν>30 rozkłady te są iden- bardziej rozkład Studenta jest bliższy rozkładowi
tyczne. Wartości niektórych kwantyli N(0,1) (linia pogrubiona)
tego rozkładu dla 1≤ν≤30 podane są w
tabeli 3 zamieszczonej w Dodatku A.
Populacja X o rozkładzie nie-normalnym lub nieznanym. Gdy rozkład
populacji nie jest znany lub gdy jest znany ale nie jest normalny, to dla dużej próby
(tj. więcej niż ok. 30) ma zastosowanie graniczny rozkład normalny, co oznacza, że
wartość średnia X z n-elementowej próby losowej podlega w przybliżeniu rozkładowi
N( x , sX / n ).
Przykład 5.7. Duża próba. Z populacji X o nieznanym rozkładzie pobrano n=100elementową prostą próbę losową i znaleziono, że x =28.3 i sX=1.75. Zgodnie z powyższym
twierdzeniem zmienna losowa podlega w przybliżeniu rozkładowi N(28.3, 1.75/ 100 ) =
N(28.3, 0.175).
5.3.2
Populacja jednowymiarowa. Wariancja z próby
Populacja X normalna. Wariancja z próby S2 jest zdefiniowana następująco:
def
S 2 = ( X − X )2 =
1 n
∑ ( X i − X )2
n i =1
(5.17)
14
Jeśli populacja, z której pochodzi n elementowa prosta próba losowa, ma rozkład
normalny FX=N(µ,σ) z nieznaną wartością σ, to statystyka χ2 (chi-kwadrat)
χ2 =
nS 2
(5.18)
σ2
podlega rozkładowi χ2 z parametrem ν=n-1 (z ν stopniami swobody). Wartość oczekiwana i wariancja tej zmiennej wyrażają się wzorami
Eχ 2 = ν
var χ 2 = 2ν
(5.19)
skąd (i z (5.18)) wynikają wzory dla S2:
Eχ 2 =
n −1 2
σ
n
var χ 2 =
2(n − 1) 4
σ
n2
(5.20)
Tabela 4 z Dodatku A zawiera niektóre kwantyle tego rozkładu dla liczby stopni
swobody 1 ÷30. Dla ν>30 można stosować rozkład graniczny zmiennej losowej
(2χ2)1/2, która podlega rozkładowi normalnemu N[(2n-1)1/2,1].
Przykład 5.8. Rozkład wariancji z próby. Obliczyć prawdopodobieństwo, że obliczona wartość wariancji S2 z próby o liczebności n=20 nie różni się od wartości prawdziwej
wariancji σ2 o więcej niż 5%.
Rozwiązanie. Zadanie można zapisać następująco:


S2
P  0.95 < 2 < 1.05  = ?
σ


(5.21)
Biorąc pod uwagę definicję , mamy dalej


S2
P  0.95 < 2 < 1.05  = P ( 0.95n < χ 2 < 1.05n ) = P (19 < χ 2 < 21)
σ
(5.22)


= Fχ 2 (21;ν = 19) − Fχ 2 (19;ν = 19) = 0.663 − 0.543 = 0.120
Wartości dystrybuanty Fχ2(x) zostały odczytane z tablicy 4 (Dodatek A) rozkładu χ2.
Populacja X o rozkładzie nie-normalnym lub nieznanym. Gdy rozkład
populacji X nie jest określony, to dla dużej próby ma zastosowanie graniczny rozkład
normalny dla S2 = M2, tzn. zmienna S2 podlega wtedy w przybliżeniu rozkładowi normalnemu:
FS 2 ( x) → N (EM 2 , DM 2 )
EM 2 =µ2
DM 2 =
gdzie µk = E(X-EX)k. *********przykład??
1
µ 4 − µ 22 )
(
n
(5.23)
15
5.3.3
Populacja jednowymiarowa. Odchylenie standardowe z próby
Odchylenie standardowe z próby S. Określa je równanie
def
S = S2 =
1 n
∑ ( X i − X )2
n i =1
(5.24)
Rozkłady zmiennej losowej S są oczywiście ściśle związane z rozkładami wariancji z
próby S2, toteż łatwo obliczyć żądane wartości związane z S na podstawie zależności
dotyczących S2.
Przykład 5.9. Rozkład odchylenia standardowego z próby. Obliczyć prawdopodobieństwo, że obliczona wartość odchylenia standardowego S z próby o liczebności n=20 nie
różni się od wartości prawdziwej odchylenia standardowego σ o więcej niż 5%.
Rozwiązanie. Zadanie jest podobne do zadania z przykładu 5.8:


S
S2


P  0.95 < < 1.05  = P  0.952 < 2 < 1.052  = ?
σ
σ




(5.25)
Jak w przykładzie 5.8, dostajemy dalej dla n=20:


S2
P  0.952 < 2 < 1.052  = P ( 0.952 n < χ 2 < 1.052 n ) = P (18.05 < χ 2 < 22.05 )
σ
(5.26)


= Fχ 2 (22.05;ν = 19) − Fχ 2 (18.05;ν = 19) = 0.718 − 0.481 = 0.237
Wartości dystrybuanty Fχ2(x) zostały odczytane z tablic 4 (Dodatek A) rozkładu χ2.
5.3.4
Populacja jednowymiarowa. Moment początkowy Ak rzędu k z
próby
Definicja momentu początkowego Ak rzędu k z próby jest analogiczna do definicji
momentu teoretycznego αk (??):
def
Ak = X k =
1 n k
∑ Xi
n i =1
(5.27)
Prawdziwe jest następujące twierdzenie o rozkładzie granicznym momentu Ak:
Jeśli mamy daną n-elementową prostą próbę losową i istnieje skończony moment "2k
populacji generalnej, to
FAk ( x) → N (EAk , DAk )
n →∞
(5.28)
gdzie
EAk =α k
DAk =
1
(α 2k − α k2 )
n
(5.29)
16
Rys. 5.6. W miarę wzrostu liczebności n próby rozkłady R1, R2, R3, R4 (R=A, B, C, D)
wartości średniej z próby są coraz mniej podobne do rozkładu R zmiennej losowej X
skupionego na przedziale (0,1).
Rys. 5.6 ilustruje powyższe twierdzenie dla pierwszego momentu A1≡ X . Przeprowadzony został następujący eksperyment numeryczny. Wybrane zostały 4 różne (pod
względem symetrii) rozkłady populacji (A, B, C i D), następnie z każdej z tych
populacji losowane było 200 prób o liczebności n i dla każdej próby obliczano wartość
średnią x . W ten sposób tworzone były 200-elementowe próby wartości średnich.
Rozkłady częstości względnych wystąpień wartości średniej X , przedstawione na rys.
5.6, już dla n=10 praktycznie nie przypominają rozkładu wyjściowego cechy X
populacji.
5.3.5
Populacja jednowymiarowa. Moment centralny Mk rzędu k z próby
Moment centralny Mk rzędu k z próby jest zdefiniowany jak następuje:
def
M k = ( X − X )k =
1 n
∑ ( X − X i )k
n i =1
(5.30)
Analogicznie jak moment początkowy, również moment centralny ma swój rozkład
graniczny:
17
FM k ( x) → N (EM k , DM k )
n →∞
EM k =µ k
DM k =
1
( µ2k − 2k µk −1µk +1 − µk2 + k 2 µ2 µk2−1 )
n
(5.31)
gdzie µk jest momentem centralnym rzędu k zmiennej X: µk=E(X-EX)k.
Przykład 5.10*******************
5.3.6
Populacja dwuwymiarowa. Współczynnik korelacji R z próby
Mamy daną dwuwymiarową (prostą) próbę losową {(X1,Y1), (X2,Y2), ..., (Xn,Yn)}
wziętą z dwuwymiarowej populacji (X,Y). Definiujemy współczynnik korelacji R z
próby zmiennych losowych (X,Y):
RXY
1 n
∑ ( X i − X )(Y − Y )
def
n i =1
= ( X − X )(Y − Y ) =
S X SY
(5.32)
gdzie SX i SY są odchyleniami standardowymi (5.24) odpowiednio zmiennej X i Y.
Populacja normalna ze współczynnikiem korelacji D=0. Jeżeli populacja,
z której pobrano prostą próbę, podlega dwuwymiarowemu rozkładowi normalnemu
ze współczynnikiem korelacji D=0, to statystyka
t=
R
1 − R2
n−2
(5.33)
podlega rozkładowi Studenta o ν=n-2 stopniach swobody.
Przykład 5.11. Rozkład współczynnika korelacji z próby (ρ=0).
Dana jest dwuwymiarowa populacja normalna o współczynniku korelacji ρ=0. Obliczyć
prawdopodobieństwo, że współczynnik korelacji z n=20-elementowej próby nie różni się od
zera więcej niż 0.1.
Rozwiązanie. Ponieważ funkcja t(R) jest funkcją rosnącą, to prawdziwa jest następująca
równość:
P (| R |< 0.1) = P (| t ( R ) |< t (0.1) ) = ?
(5.34)
skąd mamy dalej:


0.1
P ( | R |< 0.1) = P (| t ( R) |< t (0.1) ) = P  | t |<
20 − 2  = P (| t |< 0.4264 )
1 − 0.12


= P( − 0.4264 < t < 0.4264) = Ft (0.4264;ν = 18) − Ft (−0.4264;ν = 18) (5.35)
= 0.6535 − 0.3465 = 0.3070
Symbol Ft(x,<) oznacza wartość dystrybuanty rozkładu Studenta o < stopniach swobody w
punkcie x (tabela 3 w Dodatku A).
18
Populacja normalna z dowolnym współczynnikiem korelacji. Jeżeli
populacja, z której pobrano prostą próbę,
ZHRL
podlega
dwuwymiarowemu
rozkładowi
normalnemu z dowolnym współczynnikiem
2
korelacji ρ (a więc niekoniecznie ρ=0 jak
1
wyżej) to statystyka Z (tzw. przekształcenie
R
Fishera)
-1
-0.5
0.5
1
1 1+ R
Z = ln
2 1− R
-1
(5.36)
-2
(zob. rys. 5.7) ma już dla niedużych n (prakRys. 5.7. Przekształcenie Z Fishera (5.36)
tycznie dla n$ 20 [?]) rozkład w przybliżeniu
normalny
 1 1+ ρ
ρ
1 
+
N  ln
;

 2 1 − ρ 2(n − 1) n − 1 
(5.37)
Przykład 5.12. Jakość przybliżenia (5.37), gdy współczynnik korelacji z próby
ρ=0. (Zadanie jak w przykładzie 5.11). Dana jest dwuwymiarowa populacja normalna o
współczynniku korelacji ρ=0. Korzystając z (5.37) obliczyć prawdopodobieństwo, że współczynnik korelacji z n=20-elementowej próby nie różni się od zera więcej niż 0.1.
Rozwiązanie. Ponieważ przekształcenie Fishera jest funkcją rosnącą i symetryczną
względem punktu (0,0), to można napisać
P (| R |< 0.1) = P (| Z ( R ) |< Z (0.1) ) = ?
(5.38)
Dalej mamy:
P (| R |< 0.1) = P (| Z ( R ) |< Z (0.1) )
1 + 0.1 

= P  | Z |< 0.5ln
 = P (| Z |< 0.1003) = ...
1 − 0.1 

(5.39)
Zgodnie z zmienna Z w tym przykładzie podlega rozkładowi N(0, 1/19 ) = N(0,0.2294). Aby
więc móc skorzystać z tablic dystrybuanty Φ(u) rozkładu N(0,1), należy zmienną Z standaryzować, co sprowadza się w tym przypadku do podzielenia obu stron nierówności w przez
wartość 0.2294
0.1003 
 |Z |
<
... = P 
 = P (| U |< 0.4372 )
 0.2294 0.2294 
= Φ (0.4372) − Φ (−0.4372) = 2 ⋅ Φ (0.4372) − 1
(5.40)
= 2 ⋅ 0.6690 − 1 = 0.338
Otrzymana wartość 0.338 jest o nieco ponad 10% wyższa od wartości dokładnej (0.307)
uzyskanej w przykładzie 5.11. Gdyby próba losowa była 30-elementowa, wtedy otrzymane
19
wartości prawdopodobieństwa P(|R|<0.1) wyniosłyby odpowiednio 0.4108 i 0.3874 (różnica
6%).
Przykład 5.13. Rozkład współczynnika korelacji z próby (ρ=0.5).
Dana jest dwuwymiarowa populacja normalna o współczynniku korelacji ρ=0.5. Obliczyć
prawdopodobieństwo, że współczynnik korelacji z n=30-elementowej próby nie różni się od
0.5 więcej niż 0.1.
Rozwiązanie. Trochę inaczej niż w poprzednim przykładzie 5.12 mamy
1
2
µ = ln
1+ ρ
ρ
+
= 0.5407
1 − ρ 2( n − 1)
1
= 0.1857
σ=
n −1
(5.41)
i dalej:
P (| R − ρ |< 0.1) = P ( ρ − 0.1 < R < ρ + 0.1) = P ( Z ( ρ − 0.1) < Z ( R ) < Z ( ρ + 0.1) )

1 + (0.5 − 0.1)
1 + (0.5 + 0.1) 
= P  0.5ln
< Z < 0.5ln

1 − (0.5 − 0.1)
1 − (0.5 + 0.1) 

= P ( 0.4326 < Z < 0.6931)
(5.42)
 0.4326 − 0.5407 Z − 0.5407 0.6931 − 0.5407 
= P
<
<

0.1857
0.1857
0.1857


= P ( −0.6306 < U < 0.8207 ) = Φ (0.8207) − Φ (−0.6306)
= 0.7941 − 0.2642 = 0.5299
5.3.7
Populacja dwuwymiarowa. Współczynnik kierunkowy A regresji
liniowej z próby zmiennej Y względem zmiennej X
Współczynnik kierunkowy A regresji liniowej z próby zmiennej Y względem
zmiennej X dany jest równaniem
A= R
SY
SX
(5.43)
gdzie R jest współczynnikiem korelacji z próby (5.32), a SX i SY są odchyleniami
standardowymi odpowiednio zmiennych X i Y.
Jeżeli populacja, z której pobrano prostą próbę, podlega dwuwymiarowemu
rozkładowi normalnemu o (rzeczywistej) funkcji regresji E(Y|x) = αx+β znalezionej
jako funkcja regresji z próby w postaci Ŷ = Ax+B, to statystyka
t = ( A −α )
SX n − 2
SY 1 − R 2
(5.44)
20
podlega rozkładowi Studenta o n-2 stopniach swobody (tzw. twierdzenie Bartletta).
Losowość oceny prawdziwej regresji wyraża się tutaj poprzez losowe współczynniki
regresji A i B, co będzie miało swoją konsekwencję w rozdziale o weryfikacji hipotez
statystycznych.
Przykład 5.14. Twierdzenie Bartletta. Dana jest dwuwymiarowa ....
5.3.8 Dwie populacje jednowymiarowe. Różnica X 1 − X 2 wartości
średnich z próby
Dane są dwie proste próby losowe (X1,X2,..., X n1 ) oraz (X1,X2,..., X n2 ) wzięte
niezależnie z dwu badanych populacji jednowymiarowych.
Populacje normalne o znanych odchyleniach standardowych F1 i F2.
Jeśli populacje, z których pochodzą n1 i n2-elementowe proste próby losowe, mają
rozkłady normalne, odpowiednio: N(µ1,σ1) i N(µ2,σ2), ze znanymi wartościami σ1 i σ2,
to statystyka
U=
(X
1
)
− X 2 − ( µ1 − µ2 )
σ 12 / n1 + σ 22 / n2
(5.45)
ma rozkład normalny N(0,1).
Przykład 5.15. Pomiar dwoma przyrządami. Dana jest dwuwymiarowa ....
Jakie jest p-stwo
Populacje normalne o nieznanych ale identycznych odchyleniach
standardowych σ1=σ2=σ. Jeśli populacje, z których pochodzą n1 i n2-elementowe
proste próby, mają rozkłady normalne, odpowiednio: N(µ1,σ) i N(µ2,σ), z nieznaną
wspólną wartością σ, to statystyka
U=
(X
1
)
− X 2 − ( µ1 − µ 2 )
n1S12 + n2 S 22  1 1 
 + 
n1 + n2 − 2  n1 n2 
(5.46)
ma rozkład Studenta z n1+n2-2 stopniami swobody.
Przykład 5.16. ......... ....
5.3.9
Dwie populacje jednowymiarowe. Stosunek dwu wariancji z próby
Stosunek dwu wariancji z próby F=S12/S22. Jeśli populacje, z których
pochodzą n1 i n2-elementowe proste próby losowe, mają rozkłady normalne, odpowiednio: N(µ1, σ) i N(µ2, σ), z nieznaną wspólną wartością σ, to statystyka
21
F=
S12
S22
(5.47)
ma rozkład F Snedecora z odpowiednio n1-1 i n2-1 stopniami swobody. Użyte powyżej
symbole oznaczają dla każdej z próby z osobna:
n 2
1 n
S 2 =
S =
∑ ( X i − X )2
n −1
n − 1 i =1
(5.48)
Wartości kwantyli rozkładu F dla wybranych par stopni swobody są podane w Dodatku A (tabela 5).
** wyrzucić? **********************
5.4 STATYSTYKI EKSTREMALNE I ICH ROZKŁADY
Definicja statystyki wartość ekstremalna. Dany jest ciąg wartości x1, x2, ...,
xN, obserwacji zmiennej losowej X o (na
ogół nieznanym) rozkładzie FX(x). Ciąg ten
dzielimy na T podciągów, często o tej samej
liczebności m, tak że mT=N. Najczęściej T
oznacza długość okresu obserwacji (np. T
lat), a m – liczbę obserwacji (np. wartości
dobowych, dekadowych czy miesięcznych).
Z każdego podciągu wybieramy największą
(albo najmniejszą) wartość. Powstaje w ten
sposób (r) nowa próba losowa zawierająca Rys. 5.8. Najczęstszy sposób definiowania warrealizację nowej zmiennej losowej: war- tości maksymalnej (jako maksimum w danym
tości maksymalnej Xmax (albo minimalnej okresie)
Xmin). Obie te zmienne noszą wspólną nazwę: wartości ekstremalne i poszukiwanie
ich rozkładu, odpowiednio Fmax(x) (albo Fmin(x)) jest ważnym zagadnieniem statystyki
znajdującym zastosowanie np. w hydrologii czy gospodarce wodnej.
Wyznaczanie rozkładu wartości ekstremalnych I. Jeśli jest możliwe
wyznaczenie rozkładu FX(x) (bo np. znamy wszystkie wartości z rys. 5.8) i liczebność
próby n jest znana, to rozkłady wartości maksymalnej Fmax(x) lub minimalnej Fmin(x)
dają się stosunkowo łatwo wyznaczyć, jak to pokazano w rozdziale 2.3.6. I tak np. dla
wartości maksymalnej wyprowadzono następujący wzór
n
P(X max < x) ≡ Fmax ( x) = [ FX ( x)]
(5.49)
Wyznaczanie rozkładu wartości ekstremalnych II. Z reguły jednak sytuacja wygląda inaczej, a najczęstszym przypadkiem jest taki, gdy dany jest tylko zbiór
wartości ekstremalnych, xmax1, xmax2, ..., xmaxn, (jak na rys. 5.8 wartości kropkowane),
22
po jednej wartości na każdy podzbiór zbioru wartości zmiennej X (tj. na każdy
przedział )t osi t, gdzie t może być kolejnym numerem danych; może też oznaczać
czas).
W takim przypadku możemy traktować zmienną Xmax jak każdą inną zmienną i
poszukiwać jej rozkładu używając zwykłych technik estymacyjnych (tzn. założyć
funkcję rozkładu i na podstawie posiadanej próby uzasadnić dokonany wybór, zob.
rozdział 6).
Wyznaczanie rozkładu wartości ekstremalnych III. Istnieje wszakże
pewna możliwość potraktowania wartości ekstremalnych w sposób szczególny. Jest to
przypadek, gdy możemy zastosować rozkłady asymptotyczne (czyli gdy mamy dużą
próbę). Oczywiście można wtedy stosować twierdzenia graniczne, które wskazują na
rozkład normalny. Mamy jednak inną możliwość. Otóż udowodniono, że pod
pewnymi warunkami wariancja wartości ekstremalnych jest mniejsza od wariancji
przewidywanej przez twierdzenia graniczne (Yevjevich [30]), co oznacza, że rozkłady
te lepiej wykorzystują posiadaną informację od centralnego twierdzenia granicznego.
Zostały wyprowadzone nie-normalne rozkłady asymptotyczne wartości ekstremalnych (zwane rozkładami ekstremalnymi), spośród których dwa są znane i stosowane
najszerzej. Są to: rozkład Gumbela o dystrybuancie
Fmax ( x) = exp  −e −α ( x −∈)  , α > 0, x >∈
(5.50)
zwany również rozkładem podwójnie wykładniczym (zob. rys. 5.9), i rozkład Fishea-Tippeta (zwany też rozkładem Weibulla), którego dystrybuanta może być przedstaiona następująco (zob. rys. 5.10):
Fmax ( x) = 1 − exp  −α ( x − ∈) β  , α , β > 0, x >∈
(5.51)
23
Rys. 5.9 Funkcja gęstości i dystrybuanta rozkładu Rys. 5.10 Funkcja gęstości i dystrybuanta rozkładu Weibulla dla kilku wartości parametru ß
Gumbela dla kilku wartości parametru α
Dwa znaczenia terminu rozkład ekstremalny. Tak więc pojęcie rozkład
ekstremalny ma dwa znaczenia: (i) szersze – rozkład wartości ekstremalnych i (ii)
węższe – asymptotyczny rozkład wartości ekstremalnych (rozkłady Gumbela i
Fishera-Tippeta), co może czasami wprowadzać pewne zamieszanie.
Oba powyższe rozkłady mogą być stosowane do analizy wartości minimalnych –
jest to tylko kwestia zmiany przedziału wartości zmiennej X. W przypadku (5.50)
oznacza to ujemną wartość współczynnika ", a dla (5.51) zastąpienie wyrażenia (x-ß)
wyrażeniem (ß-x), tzn. przejście z przedziału ograniczonego od dołu (wartości
maksymalne) do przedziału ograniczonego od góry (wartości minimalne).
Sposób definiowania wartości
ekstrealnych poprzez poziom odcięcia. Drugim ważnym sposobem definiowania wartości maksymalnych jest ustalenie pewnego progu – poziomu odcięcia,
jak to zilustrowano na rys. 5.11 (wartość
x0), i przyjęciu za wartości Xmax wszystkie
wartości przekraczające x0. Ten sposób
podziału dostępnej informacji wprowadza Rys. 5.11. Wybór wartości maksymalnych przez
określenie poziomu odcięcia (por. z rys. 5.8)
dodatkową zmienną losową – liczbę
24
przekroczeń zadanego poziomu, czyli liczbę realizacji zmiennej X przekraczających
poziom odcięcia (wartość progową) w jednym okresie. Liczba ta może wynosić zero
(jak w przedziale 1 na rys. 5.11), może być większa od jedności. Oczywiście takie
podejście komplikuje matematyczną stronę problemu, może jednak czasami lepiej
wykorzystać dostępną informację.
Najprostszy sposób analizy tego przypadku polega na tym, że wprowadza się
średnią liczbę, nśr, zdarzeń (przekroczeń zadanego poziomu) na okres i rozwiązanie
zadania ma postać analogiczną do wzoru (5.49). Wyrazimy ją tym razem trochę
inaczej – poprzez funkcje prawdopodobieństwa przewyższenia:
n
pmax ( x) = P(X max ≥ x) = 1 − [1 − FX ( x) ] sr , nsr > 0
(5.52)
Wzór ten jest wyprowadzany przy założeniu, że w każdym okresie wystąpi z prawdopodobieństwem 1 przynajmniej jedno zdarzenie (przekroczenie zadanego poziomu).
, a więc należałoby napisać inaczej lewą stronę równania :
P(X max ≥ x) = P(X max ≥ x | I ≥ 1)
(5.53)
gdzie I oznacza liczbę zdarzeń opadowych w danym okresie (roku). W takim przypadku, jaki został przedstawiony na rys. 5.11, warunek ten (tj. P(I$1)=1) nie jest spełniony – trzeba więc uwzględniać prawdopodobieństwo przekroczenia czy nieprzekroczenia wartości progowej, a więc, zamiast , napisać tak:
∞
P(X max ≥ x | I ≥ 1)= ∑ P(X max ≥ x | I = i )P(I = i )
i =1
(5.54)
gdzie I oznacza liczbę przekroczeń danego poziomu w zadanym okresie czasu. Jeśli
założymy, że liczba ta nie ma wpływu na wartość Xmax, to wzór można uprościć:
∞
P(X max ≥ x | I ≥ 1) = P(X max ≥ x)∑ P(I = i ) = P(X max ≥ x)P(I > 0)
i =1
(5.55)
Tak więc wynikowe prawdopodobieństwo zostało teraz zmniejszone o czynnik P(I=0)
= 1-P(I>0), tj. prawdopodobieństwo nieprzekroczenia zadanej wartości progowej x0.

CZĘŚĆ II – STATYSTYKA MATEMATYCZNA

Transkrypt

Podobne dokumenty

Zmienne losowe, statystyki próbkowe

Inżynierskie zastosowania statystyki 4

Elementy statystyki - Krakowska Akademia

ofertawsp ó ł pracy - Lazurowy Przewodnik

Dr Tadeusz Sozański METODY STATYSTYCZNE W SOCJOLOGII II

1 Ćwiczenie laboratoryjne L2 Temat: Analiza czasów pracy

Alternatywne układy chromatografu preparatywnego/procesowego