CZĘŚĆ II – STATYSTYKA MATEMATYCZNA
Transkrypt
CZĘŚĆ II – STATYSTYKA MATEMATYCZNA
5. Podstawowe pojęcia statystyki 1 CZĘŚĆ II – STATYSTYKA MATEMATYCZNA Rachunek prawdopodobieństwa a statystyka matematyczna. Część I, rachunek prawdopodobieństwa, dostarcza podstawowych pojęć i wzorów – języka, za pomocą którego możemy rozmawiać w sposób ścisły o problemach dotyczących zjawisk i procesów, w których czynnik losowy odgrywa niezaniedbywalną rolę. Rachunek prawdopodobieństwa daje też modele zjawisk (rozkłady prawdopodobieństwa). Część niniejsza – statystyka matematyczna – jest związana z zastosowaniem modeli probabilistycznych a jej celem jest formułowanie wniosków dotyczących określonej zbiorowości (tzw. populacji generalnej, łączonej dalej ze zmienną losową) na podstawie pewnego podzbioru tej zbiorowości, zwanego próbą lub próbką. Fakt ten oznacza, że statystyka zajmuje się wnioskowaniem o całości (zbiorze) na podstawie części (podzbioru), czyli wnioskowaniem w warunkach niepełnej informacji. Wnioskowanie to jest związane z dwoma następującymi podstawowymi zagadnieniami. Dwa podstawowe zagadnienia klasycznej statystyki matematycznej. Wnioskowanie statystyczne w postaci klasycznej (tzw. klasyczna statystyka matematyczna) obejmuje dwa zasadnicze zagadnienia, którymi są (i) estymacja statystyczna (punktowa i przedziałowa) oraz (ii) weryfikacja hipotez statystycznych (parametrycznych i nieparametrycznych). Estymacja statystyczna. Podstawowym problemem estymacji statystycznej jest odpowiedź na pytanie typu "ile wynosi wartość nieznanego parametru g populacji generalnej?" Jeśli podana odpowiedzieć ma postać "g . ĝ", gdzie ĝ jest obliczoną przez nas liczbą, to mamy do czynienia z estymacją punktową. Jeśli natomiast odpowiedź jest typu: "g zawarte jest w przedziale (ĝ1, ĝ2)", to taki przypadek estymacji nazywa się estymacją przedziałową. Weryfikacja hipotez statystycznych oznacza pewien sposób postępowania (tzw. test statystyczny) pozwalający przyjąć lub odrzucić postawioną hipotezę statystyczną H0 dotyczącą pewnej charakterystyki. Gdy hipoteza H0 dotyczy parametru g populacji – np. H0:(g=5) – nazywana jest parametryczną, gdy © Stanisław Węglarczyk, XII 2005 5. Podstawowe pojęcia statystyki 2 natomiast dotyczy funkcji rozkładu populacji – np. H0:(rozkładem populacji jest rozkład normalny o parametrach µ=1.5 i σ=0.23) – nazywamy ją nieparametryczną, a test z tym związany – testem nieparametrycznym (lub: zgodności). © Stanisław Węglarczyk, XII 2005 5. Podstawowe pojęcia statystyki 3 Rozdział 5 PODSTAWOWE POJĘCIA STATYSTYKI W rozdziale tym zostaną omówione takie pojęcia, jak populacja generalna – obiekt badań statystyki, próba losowa, czyli posiadana informacja o populacji generalnej, statystyka – zmienna losowa będąca funkcją próby, oraz rozkłady najważniejszych statystyk – informacja niezbędna dla wnioskowania statystycznego. 5.1 PRÓBA LOSOWA I STATYSTYKA JAKO FUNKCJA PRÓBY Zbiorowość generalna. Pojęciem podstawowym, podobnie jak w części I, jest doświadczenie losowe. Często używanym dalej synonimem tego pojęcia jest słowo obserwacja. Dotyczy ona pewnej zbiorowości (czyli zbioru), której elementy obserwujemy. Zbiorowość ta nosi nazwę zbiorowości generalnej lub populacji generalnej (rys. 5.1) i składa się z pewnych obiektów, które mogą być obiektami materialnymi, np. jakimiś przedmiotami, lub też obiektami niematerialnymi, np. wynikami obserwacji, zarówno ilościowymi, jak i jakościowymi. Tak więc zbiorowością Rys. 5.1. Przykład skończonej zbiorowości generalną może być zarówno zbiór samocho- generalnej (zbiorowość prostokątów) i podzbioru tej zbiorowości – próby dów danej marki, jakie zostały wyprodukowane w danym roku, zbiór prostokątów z rys. 5.1, zbiór wszystkich opadów, jakie spadły (i spadną) w danym punkcie geograficznym, jak też zbiór wszystkich możliwych wyników pomiarów długości danego przedmiotu. Cecha X populacji generalnej. Wspomniane obiekty – elementy populacji – badamy zwykle ze względu na pewną cechę (charakterystykę), którą zawsze muszą posiadać wszystkie elementy danej populacji. Cechę tę zawsze kwantyfikujemy, tzn. wyrażamy ją liczbowo. W przypadku zbiorowości samochodów cechą tą może być np. © Stanisław Węglarczyk, XII 2005 5. Podstawowe pojęcia statystyki 4 czas do pierwszej naprawy (jedna liczba dla każdego samochodu), dla zbioru prostokątów z rys. 5.1 – może to być długość i szerokość prostokąta (dwie liczby dla każdego prostokąta), w przypadku opadów może nas interesować wysokość opadu, czas jego trwania oraz maksymalne natężenie (trzy liczby na każdy opad), podczas gdy w ostatnim przypadku – pomiaru długości danego przedmiotu – jest to jedna liczba (długość) na każdy pomiar. Badana i skwantyfikowana cecha, nazwijmy ją X, jest z założenia zmienną losową i jako taka posiada pewien rozkład prawdopodobieństwa o dystrybuancie FX(x). Często mówi się też, że dana populacja ma rozkład FX(x)1. Należy tutaj od razu zdać sobie sprawę z faktu, że rozkład ten jest na ogół nieznany (jeśli jest znany, to informacja o tym pochodzi spoza statystyki). Dysponujemy jednak pewną informacją pochodzącą z obserwacji – próbą losową {x1, x2, ..., xn}. Informacja ta jest prawie zawsze niepełna, tzn. nie sposób na jej podstawie określić absolutnie dokładnie postać rozkładu FX(x). Niepełność informacji o nieznanym rozkładzie FX(x), pochodzącej z szeroko rozumianego eksperymentu, spowodowana jest tym, że eksperyment ten daje pewien podzbiór zbioru możliwych obserwacji i na podstawie tego podzbioru – tzw. próby – wysuwamy wnioski dotyczące cechy X wszystkich elementów danej zbiorowości. Przykład 5.1. Zmienna losowa i jej realizacje. Wykonano trzy serie pomiarów długości pewnego odcinka po 5 pomiarów w każdej serii. Tabela 5.1 zawiera uzyskane wyniki. Tabela 5.1. Wyniki pomiarów długości odcinka Każda z trzech 5-elemenwynik xi i-go pomiaru w danej serii, m numer serii towych serii pomiarów może pomiarów x1 x2 x3 x4 x5 być traktowana jako realizacja 1 9.99 10.02 9.98 9.99 9.98 5-elementowej próby losowej 2 10.00 10.01 9.99 10.01 10.00 (X1,X2,X3,X4,X5), natomiast 3 10.00 10.00 10.00 10.02 9.99 wartości w kolejnych kolumnach są realizacjami kolejnych zmiennych losowych – składowych wektora losowego (X1,X2,X3,X4,X5). Na przykład liczby 9.99, 10.00 i 10.00 (pierwsza kolumna) są realizacjami zmiennej losowej X1. Oczywiście, realizacji zmiennej losowej X1 (i pozostałych zmiennych) może być nieskończenie wiele. Próba losowa. Niech doświadczenie losowe polega na n-krotnej obserwacji zmiennej losowej X. Wynikiem tego doświadczenia będzie zbiór n liczb x1, x2, ...,xn, gdzie indeks oznacza numer pomiaru. Ponieważ doświadczenie było losowe (nie mogliśmy z całkowitą pewnością przewidzieć jego wyników i przeprowadzono je tak, aby nie preferować żadnych wyników), to wartości te są realizacjami pewnych 1 To sformułowanie sugeruje, że każdą populację możemy w końcu rozumieć jako zbiór X liczb (zbiór X możliwych wyników pomiaru) i do takiego spojrzenia prowadzi podejście statystyczne. Dla prawidłowego wnioskowania jest wszakże konieczne, aby jak najlepiej rozumieć czego dotyczą liczby x i ich zbiór X. © Stanisław Węglarczyk, XII 2005 5 5. Podstawowe pojęcia statystyki zmiennych losowych, odpowiednio: X1, X2, ...,Xn, lub inaczej: realizacjami wektora losowego (X1, X2, ...,Xn). Zmienną Xi nazwiemy wynikiem i-tej obserwacji (lub: wynikiem i-go pomiaru) zmiennej losowej X, wektor (X1, X2, ...,Xn) nazwiemy próbą losową, a zbiór liczb (x1, x2, ..., xn) – realizacją tej próby. Formalną definicję próby losowej można znaleźć np. w podręczniku Fisza [11]. Zamiast sformułowania realizacja próby losowej często stosuje się sformułowanie próba losowa, co prowadzi do konfliktu z podanym powyżej określeniem – przeważnie jednak kontekst pozwala domyślić się, o którym z dwu powyższych terminów jest mowa. Liczba n nazywana jest liczebnością próby i jest to bardzo ważny parametr statystyczny. Losowość próby. Losowość próby jest niezbędnym warunkiem tego, aby można było używać jej do wyciągania wniosków dotyczących całej populacji (aby próba była reprezentatywna). (Tak więc przedstawiona na rys. 5.1 próba, jeśli tylko jest losowa, może być podstawą wnioskowania o całej populacji prostokątów). Próba losowa jest podstawą wnioskowania statystycznego o rozkładzie badanej cechy X populacji generalnej. Ponieważ próba jest częścią całej populacji, zawiera informację lokalną – związaną wyłącznie z samą próbą – i informację globalną, która dotyczy całej populacji. Z punktu widzenia wnioskowania statystycznego informacja lokalna zaciemnia poszukiwaną przez nas informację o populacji (jest „szumem”), co oznacza, że wnioskowanie statystyczne jest zawsze obarczone niepewnością. Prosta próba losowa. Spośród prób losowych szczególne zastosowanie znalazła prosta (lub: niezależna) próba losowa. Jest to taka próba losowa, która posiada następującą własność: Fn ( x1 , x2 ,..., xn ) = FX ( x1 ) FX ( x2 )...FX ( xn ) (5.1) gdzie Fn(x1,x2,...,xn) jest dystrybuantą łącznego rozkładu wektora losowego (X1, X2, ..., Xn), FX(·) – nieznaną dystrybuantą zmiennej losowej (cechy) X, a n – dowolną liczbą naturalną. Powyższa równość oznacza, że zmienne X1,X2,...,Xn (1) mają taki sam rozkład FX(x) oraz że (2) są niezależne (zespołowo). Możemy więc uważać, że w prostej próbie losowej kolejność jej elementów nie odgrywa żadnej roli, co oznacza, że wartość kolejnego elementu próby nie zależy od wartości elementów poprzednich (i następnych). Mówiąc jeszcze inaczej: œi>1 Fi(xi|xi-1, xi-2,...,x1) = FX(xi). © Stanisław Węglarczyk, XII 2005 6 5. Podstawowe pojęcia statystyki Wynika z tego dalej, że jeśli poprzez zmianę kolejności wyrazów utworzymy z ciągu {x1,x2,..., xn} tzw. ciąg uporządkowany (albo inaczej: próbę uporządkowaną) niemalejący {x(1),x(2),...,x(n)}, tj. taki, że: x(1) ≤ x(2) ≤ ... ≤ x( n ) (5.2) lub nierosnący {x(1),x(2),...,x(n)}, tzn. taki, że x(1) ≥ x(2) ≥ ... ≥ x( n ) (5.3) to dostarcza on tyle samo informacji co oryginalny ciąg (x1, x2, ...,xn). Bardzo często założenie (2) przyjmowane jest bez dowodu, co może prowadzić do poważnych błędów. Przykład 5.2. Uporządkowana próba losowa. Niech będzie dana 5-elementowa próba losowa {x1, x2, x3, x4, x5} = {2, 4, 1, 3, 7}. Uporządkowana rosnąca próba losowa to {x(1), x(2), x(3), x(4), x(5)} = {1,2,3,4,7}, a próba uporządkowana malejąco to oczywiście {x(1), x(2), x(3), x(4), x(5)} = {7, 4, 3, 2, 1}. Wyrażając istotę prostej próby losowej w terminach mniej matematycznych, można powiedzieć, że zasadza się ona na założeniu o identycznych warunkach, w jakich przeprowadzane jest doświadczenie (obserwacja) oraz równomożliwości (identycznym prawdopodobieństwie) uzyskania wszystkich otrzymanych wyników. Statystyka. Ponieważ próba losowa jest wektorem losowym, to wynika stąd, że dowolna funkcja Zn próby (X1, X2,...,Xn) Z n = g ( X 1 , X 2 ,..., X n ) (5.4) jest także zmienną losową. Funkcja Zn nosi nazwę statystyki. Jest więc, na przykład, zmienną losową (i zarazem statystyką) wartość średnia z próby, wariancja z próby, itp. Wyznaczanie rozkładów statystyk jest jednym z podstawowych zagadnień statystyki matematycznej. Niektóre rozkłady statystyk są zamieszczone w rozdziale 5.3. Mała i duża próba. Istnieją dwa podejścia do rozwiązania problemu wyznaczania rozkładu danej statystyki. Podejście pierwsze polega na wyznaczeniu dla każdego n rozkładu FZ n ( x) statystyki Zn (na podstawie znajomości FX(x), czyli znajomości rozkładu danej cechy populacji generalnej). Taki rozkład nazywamy dokładnym rozkładem statystyki Zn. Gdy liczba n jest duża, możemy skorzystać z pewnych twierdzeń rachunku prawdopodobieństwa i wyznaczyć rozkład danej statystyki Zn, gdy n zmierza do nieskończoności (taki rozkład nazywa się rozkładem granicznym lub asymptotycznym). Rozkłady asymptotyczne statystyk mają tę ważną cechę, że nie zależą od roz© Stanisław Węglarczyk, XII 2005 7 5. Podstawowe pojęcia statystyki kładu FX(x) populacji, co czyni z nich bardzo pożądane narzędzie analizy statystycznej. Jeśli n jest tak duże, że możemy skorzystać z rozkładu granicznego badanej statystyki, to taka próba nazywa się dużą próbą (dla danej statystyki). Jeśli natomiast wielkość n nie pozwala na skorzystanie z rozkładu granicznego, to mamy do czynienia z próbą małą (dla danej statystyki). Ostrzeżenie. Niestety nie istnieje kryterium pozwalające jednoznacznie zdefiniować próbę małą i dużą – zależy to od rozpatrywanej statystyki. Chyba najczęściej stosowaną liczbą definiującą dużą próbę jest n=30. Należy jednak mocno podkreślić, że liczba ta dotyczy przede wszystkim statystyki średnia wartość z próby. W każdym innym przypadku liczba ta może być inna. 5.2 PODSTAWOWE TWIERDZENIE STATYSTYKI MATEMATYCZNEJ Informacją najbardziej pożądaną, jaką chcemy uzyskać o cesze X na podstawie próby losowej jest znajomość rozkładu FX(x). Ponieważ próba losowa niesie z sobą informację o X, to znaczy, że niesie ona informację o rozkładzie FX(x). Poniższe twierdzenie, zwane czasami podstawowym twierdzeniem statystyki matematycznej lub częściej twierdzeniem Gliwienki albo też Gliwienki-Cantelliego, pozwala zbudować pewien empiryczny odpowiednik nieznanej dystrybuanty FX(x) – tak zwaną dystrybuantę empiryczną Fn(x) i wykazuje użyteczność tego pojęcia. 5.2.1 Dystrybuanta empiryczna Mamy daną prostą próbę losową (x1, x2, ...,xn) (mówiąc ściśle mamy daną realizację prostej próby losowej, jednakże słowo realizacja często się opuszcza). Dystrybuanta empiryczna Femp(x), gdzie x jest dowolną liczbą rzeczywistą, jest taką funkcją, że Femp ( x) = liczba elementów xi próby takich, że xi < x n (5.5) Jeśli utworzymy próbę uporządkowaną rosnąco (zwaną też czasem rosnącym ciągiem rozdzielczym) (x(1), x(2),...,x(n)), gdzie x(1)#x(2)#...#x(n), to definicja Femp(x) równoważna definicji (5.5) będzie miała postać: Femp ( x) = © Stanisław Węglarczyk, XII 2005 0, dla x(1) ≤ x k , dla x( k ) ≤ x < x( k +1) n 1, dla x > x( n ) (5.6) 8 5. Podstawowe pojęcia statystyki Wzory (5.5) i (5.6) wynikają z przyjmowanego powszechnie założenia o równym prawdopodobieństwie pojawiania się wyników danej próby losowej (x1, x2, ...,xn): 1 P( X = xi ) = , i = 1, 2,..., n n (5.7) Można spotkać też inne wzory na dystrybuantę empiryczną, m.in. taki dla próby uporządkowanej rosnąco x(1)#x(2)#...#x(n). : Femp ( x( k ) ) = k n +1 (5.8) podający wartości dystrybuanty w punktach jej nieciągłości. Przykład 5.3. Wykreślanie dystrybuanty empirycznej. Dana jest 10-elementowa próba losowa {xi}i=1,10 = {4.61, 6.90, -1.03, -0.76, 4.50, 0.81, 1.64, 5.84, 5.56, 0.14} wylosowana z pewnej populacji X, gdzie X oznacza ciągłą zmienną losową. Zadanie. Wykreślić dystrybuantę empiryczną Femp(x) zmiennej losowej X dla tej próby. Rozwiązanie. Porządkujemy rosnąco próbę {xi}i=1,10 i dostajemy próbę uporządkowaną {x(i)}i=1,10 = {-1.03, -0.76, 0.14, 0.81, 1.64, 4.5, 4.61, 5.56, 5.84, 6.9}, po czym korzystamy ze wzoru (5.6). (Można też Rys. 5.2. Dystrybuanta empiryczna zmiennej X korzystać, co jest często stosowane, ze wzo- obliczona na podstawie 10-elementowej próby losowej. ru(5.8)). Wynik pokazany jest na rys. 5.2. 5.2.2 Podstawowe twierdzenie statystyki matematycznej – twierdzenie Gliwienki-Cantelliego Jeśli prosta próba losowa (X1,X2,...,Xn) pochodzi z populacji o rozkładzie FX(x), to P lim sup Femp ( x) − FX ( x ) = 0 = 1 n →∞ x∈R (5.9) gdzie Femp(.) jest dystrybuantą empiryczną zmiennej losowej X, a P(·) oznacza prawdopodobieństwo. Wzór ten jest teoretycznym uzasadnieniem przekonania, że w miarę wzrostu liczebności n próby powiększa się nasza wiedza o nieznanym rozkładzie FX(x), co wyraża się mniejszą maksymalną odległością sup|Femp(x)-FX(x)| © Stanisław Węglarczyk, XII 2005 5. Podstawowe pojęcia statystyki 9 pomiędzy rozkładem empirycznym Femp(x) a rzeczywistym rozkładem FX(x) (zob. rys. 5.3, gdzie przedstawiono 3 dystrybuanty empiryczne dla n = 10, 20 i 40). (Istnieją inne możliwości zdefiniowania odległości pomiędzy funkcjami). Histogram (wykres częstości względnych) jako obraz funkcji gęstości. Dystrybuanta empiryczna jest eksperymentalnym obrazem rze- Rys. 5.3. Ilustracja sensu twierdzenia Cantelliego: im czywistej dystrybuanty badanej bardziej liczna próba tym bardziej dystrybuanta empiryczna jest bliższa dystrybuancie populacji (linia zmiennej X. Na podstawie danej pró- pogrubiona) by losowej można także zbudować empiryczny odpowiednik funkcji gęstości, co jest zilustrowane na rys. 5.4. Należy w tym celu obrać w sposób mniej lub więcej arbitralny pewne przedziały na osi wartości zmiennej X, zliczyć liczbę ni realizacji zmiennej w kolejnych przedziałach, obliczyć wartość częstości względnej ni/n, gdzie n jest liczebnością próby, oraz wykreślić prostokąt o wysokości ni/(n)x) i szerokości )x. Niestety ta reprezentacja – w odróżnieniu od dystrybuanty empirycznej – zawsze gubi część informacji zawartej w próbie. Dzieje się tak wskutek czynności grupowania elementów próby – "wrzucania" n wartości zmiennej do n'<n przedziałów )x, gdzie tracą one swoją indywidualność (tzn. wiadomo, ile elementów próby należy do danego przedziału, nie wiadomo jednak, gdzie one leżą wewnątrz tego przedziału). Pewną negatywną rolę odgrywa tutaj również arbitralność w wyborze długości przedziału )x, co doskonale ilustrują wykresy B, C i D na rys. 5.4, jak też arbitralność wyboru początku przedziału zmienności zmiennej X (na rys. 5.4 jest to punkt x0=5). Przykład 5.4. Histogram jest obrazem funkcji gęstości prawdopodobieństwa. Z populacji normalnej o parametrach µ=10 i σ=2 (rys. 5.4A), N(10,2), wylosowano n=40elementową prostą próbę losową. Wyniki zawarte są w tabeli A. 11.37 13.58 9.76 9.90 11.31 9.47 8.20 7.88 Tabela A. 40-elementowa próba wylosowana z populacji N(10,2) 13.19 9.10 11.27 11.84 10.44 11.29 10.57 8.55 7.94 11.38 14.36 8.92 5.53 8.43 8.77 11.12 11.57 8.81 5.72 6.59 12.65 8.96 7.71 10.69 9.06 8.81 10.29 7.21 10.26 13.16 11.05 7.06 Następnie zakres zmienności próby losowej (dla wygody przyjęto przedział (5;15)) został podzielony trzykrotnie: odpowiednio na 10, 8 i 5 równych przedziałów ∆xi i w każdym z nich znaleziono liczbę ni wartości danej próby losowej. Uzyskane wyniki przedstawione są kolejno w tabelach B, C i D. © Stanisław Węglarczyk, XII 2005 5. Podstawowe pojęcia statystyki 10 w tabelach B, C i D. Tabela B. 10 przedziałów grupowania wartości 40-elementowej próby losowej (rys. 5.4B) i 1 2 3 4 5 6 7 8 9 10 5-6 6-7 7-8 8-9 9-10 10-11 11-12 12-13 13-14 14-15 )xi ni 2 1 5 8 5 5 9 1 3 1 Tabela C. 8 przedziałów grupowania wartości 40-elementowej próby losowej (rys. 5.4C) i 1 2 3 4 5 6 7 8 5.0-6.25 6.25-7.50 7.50-8.75 8.75-10.00 10.00-11.25 11.25-12.50 12.50-13.75 13.75-15.00 )xi ni 2 3 6 10 7 7 4 1 Tabela D. 5 przedziałów grupowania wartości 40-elementowej próby losowej (rys. 5.4D) i 1 2 3 4 5 5-7 7-9 9-11 11-13 13-15 )xi ni 3 13 13 10 4 Wszystkie histogramy (rys. 5.4B, C i D) są empirycznymi obrazami (reprezentacjami) tej samej funkcji gęstości fHxL f*HxL NH10; 2L nDx=10 f(x) (rys. 5.4A). Każdy z 0.2 0.2 A nich w innym stopniu B 0.15 0.15 niesie informację o 0.1 0.1 rzeczywistej funkcji 0.05 0.05 gęstości. Wydaje się, że x x histogram B jest zbyt 6 8 10 12 14 6. 8. 10. 12. 14. szczegółowy: za dużo f*HxL f*HxL nDx=8 nDx=5 jest tam informacji po0.2 0.2 wstałej na skutek tego C D 0.15 0.15 podziału. Z kolei, histo0.1 0.1 gram D jest zbyt ogólny: 0.05 0.05 sugeruje, że rzeczywista funkcja gęstości ma x x 6. 8. 10. 12. 14. 6. 8. 10. 12. 14. maksimum na lewym krańcu przedziału Rys. 5.4. Wykreślone dla 40-elementowej próbki: A. funkcja gęstości zmienności. W porów- populacji N(10,2) oraz histogramy o przedziałach zliczania B. )x=1.0, C. )x=1.25 i D. )x=2. naniu z tymi dwoma histogramami, najlepszy (w sensie podobieństwa do f(x)), wydaje się histogram C. Istnieje inna metoda znajdowania empirycznej funkcji gęstości – tzw. estymacja nieparametryczna funkcji gęstości – pozwalająca uniknąć większości błędów opisanego wyżej histogramu. Metoda ta nie będzie jednak tutaj omawiana. © Stanisław Węglarczyk, XII 2005 11 5. Podstawowe pojęcia statystyki 5.3 NAJWAŻNIEJSZE STATYSTYKI I ICH ROZKŁADY Dana jest próba losowa (X1,X2,...,Xn). Możemy określić dla niej wiele statystyk, czyli zmiennych losowych będących funkcjami próby. Najważniejsze z nich, z praktycznego punktu widzenia, to momenty z próby i ich funkcje. W kolejnych podrozdziałach podane zostały równania definicyjne niektórych podstawowych statystyk wraz z najważniejszymi rozkładami z nimi związanymi. W niektórych podręcznikach statystyki te oznaczane są małymi literami niezależnie od tego, czy ma ona w danej chwili sens zmiennej losowej, czy jej wartości. W niniejszym tekście takie rozróżnienie będzie zachowane. Stosowana dalej pozioma kreska (6) nad symbolem lub grupą symboli („kreska ponad”) oznacza średnią arytmetyczną liczoną ze względu na zmienną lub zmienne występujące pod tym znakiem. Jest ona odpowiednikiem operatora wartości oczekiwanej E używanego dla średniej przy znanym rozkładzie prawdopodobieństwa. Przykład 5.5. Działanie operatora kreska ponad. def g ( x) = n 1 ∑ g ( xi ) n i =1 x2 = 1 n 2 ∑ xi n i =1 ( x − x )2 = 1 n ( xi − x ) 2 ∑ n i =1 (5.10) Wszędzie powyżej zakładamy, że liczebność próby wynosi n. W kolejnych podrozdziałach przedstawione zostaną ważne statystyki i ich rozkłady w zależności od tego, czy badana jest populacja jednowymiarowa, dwuwymiarowa, czy dwie populacje jednowymiarowe. 5.3.1 Populacja jednowymiarowa. Wartość średnia z próby Dana jest próba losowa (X1, X2, ...,Xn) pobrana z badanej jednowymiarowej populacji X. Statystyka wartość średnia z próby (lub: wartość średnia w próbie) jest zdefiniowana równością X= 1 n ∑ Xi n i =1 (5.11) Populacja X normalna ze znaną wartością odchylenia standardowego σ. Jeśli populacja, z której pochodzi n elementowa prosta próba, ma rozkład normalny: FX=N(µ,σ) ze znaną wartością σ, to statystyka U= ma rozkład normalny N(0,1). © Stanisław Węglarczyk, XII 2005 X −µ σ n (5.12) 12 5. Podstawowe pojęcia statystyki Przypadek ten jest często spotykany w praktyce pomiarowej, gdy przyjmujemy tzw. normalny model niepewności (błędów) pomiarowych, tzn. przyjmujemy za prawdziwe założenie, że niepewności pomiarowe (zwane często mniej precyzyjnie błędami pomiarowymi) – czyli odchyłki X-µ wyników x pomiaru od nieznanej wartości prawdziwej µ – podlegają rozkładowi normalnemu N(0,σ), gdzie σ jest znaną dokładnością przyrządu pomiarowego (dokładnością pojedynczego pomiaru). Inaczej mówimy, że wynik X pomiaru nieznanej wartości prawdziwej µ podlega rozkładowi normalnemu N(µ,σ). Fakt, że statystyka (5.12) podlega rozkładowi N(0,1) jest inną formą stwierdzenia, że użycie wartości średniej x z n pomiarów zamiast pojedynczej wartości x daje korzyść polegającą na mniejszej niepewności (mniejszym błędzie), gdyż zmienna X podlega rozkładowi normalnemu N(µ,σ/ n ) zamiast N(µ,σ) jak dla X. (Zwróćmy uwagę na fakt, że EX = EX = µ). Przykład 5.6. Obliczanie liczby pomiarów niezbędnych do 10-krotnego zmniejszenia niepewności pomiaru. Wykonujemy n pomiarów xi, i=1,2,...,n, długości L pewnego przedmiotu przyrządem o dokładności σ = 1 mm, po czym obliczamy wartość średnią x . Ile pomiarów trzeba wykonać, aby prawdopodobieństwo, że uzyskana średnia nie różni się od wartości prawdziwej więcej niż 0.1 mm było równe 95%? Odpowiedź. Przyjmujemy, że wartość prawdziwa L odpowiada parametrowi µ statystyki U (5.12), stąd można przyjąć, że warunek postawiony w zadaniu ma postać P (|X − µ |<0.1 mm ) = 0.95 (5.13) Z uwag zamieszczonych bezpośrednio powyżej można przyjąć następujący ciąg dalszy: |X − µ | 0.1 P (|X − µ|<0.1 mm ) = P < = P | U | <0.1 n σ / n σ / n ( ) = P ( −0.1 n < U < 0.1 n ) = Φ ( 0.1 n ) − Φ ( −0.1 n ) = Φ ( 0.1 n ) − (1 − Φ ( 0.1 n ) ) = 2Φ ( 0.1 n ) − 1 = 0.95 (5.14) bo σ=1 mm a Φ() jest dystrybuantą rozkładu N(0,1). Z (5.14) mamy, że wartość 0.1 n jest kwantylem rzędu 0.975: 0.1 n = u0.975. Z tablic rozkładu normalnego mamy: u0.975 = 1.96. Równanie 0.1 n = 1.96 daje rozwiązanie: n=384.16, skąd mamy odpowiedź: Trzeba co najmniej n=385 pomiarów. Populacja X normalna z nieznaną wartością σ. Jeśli populacja, z której pochodzi n elementowa prosta próba, ma rozkład normalny FX=N(µ,σ) z nieznaną wartością σ, to statystyka © Stanisław Węglarczyk, XII 2005 13 5. Podstawowe pojęcia statystyki t= X −µ n −1 S (5.15) ma rozkład Studenta z parametrem <=n-1 nazywanym liczbą stopni swobody. n Wielkość S jest odchyleniem standardowym z próby ( S 2 = (1/ n)∑ i=1 ( xi − x ) 2 ). Wyjątkowo, ze względu na tradycję, zmienna losowa (tj. t) jest tutaj oznaczana małą, nie dużą, literą. Ze względu na swą niezależność od σ rozkład ten znajduje szerokie zastosowanie. Charakteryzuje się on następującymi pierwszymi momentami Et = 0 var t = ν n −1 = ν −2 n−3 (5.16) i bardzo szybko ze wzrostem < upodabnia się do rozkładu normalnego N(0,1) (rys. 5.5). Z dokładnością wystarczającą dla praktycznych zastosowań można Rys. 5.5. Im większa liczba stopni swobody ν tym przyjąć, że dla ν>30 rozkłady te są iden- bardziej rozkład Studenta jest bliższy rozkładowi tyczne. Wartości niektórych kwantyli N(0,1) (linia pogrubiona) tego rozkładu dla 1≤ν≤30 podane są w tabeli 3 zamieszczonej w Dodatku A. Populacja X o rozkładzie nie-normalnym lub nieznanym. Gdy rozkład populacji nie jest znany lub gdy jest znany ale nie jest normalny, to dla dużej próby (tj. więcej niż ok. 30) ma zastosowanie graniczny rozkład normalny, co oznacza, że wartość średnia X z n-elementowej próby losowej podlega w przybliżeniu rozkładowi N( x , sX / n ). Przykład 5.7. Duża próba. Z populacji X o nieznanym rozkładzie pobrano n=100elementową prostą próbę losową i znaleziono, że x =28.3 i sX=1.75. Zgodnie z powyższym twierdzeniem zmienna losowa podlega w przybliżeniu rozkładowi N(28.3, 1.75/ 100 ) = N(28.3, 0.175). 5.3.2 Populacja jednowymiarowa. Wariancja z próby Populacja X normalna. Wariancja z próby S2 jest zdefiniowana następująco: def S 2 = ( X − X )2 = © Stanisław Węglarczyk, XII 2005 1 n ∑ ( X i − X )2 n i =1 (5.17) 14 5. Podstawowe pojęcia statystyki Jeśli populacja, z której pochodzi n elementowa prosta próba losowa, ma rozkład normalny FX=N(µ,σ) z nieznaną wartością σ, to statystyka χ2 (chi-kwadrat) χ2 = nS 2 (5.18) σ2 podlega rozkładowi χ2 z parametrem ν=n-1 (z ν stopniami swobody). Wartość oczekiwana i wariancja tej zmiennej wyrażają się wzorami Eχ 2 = ν var χ 2 = 2ν (5.19) skąd (i z (5.18)) wynikają wzory dla S2: Eχ 2 = n −1 2 σ n var χ 2 = 2(n − 1) 4 σ n2 (5.20) Tabela 4 z Dodatku A zawiera niektóre kwantyle tego rozkładu dla liczby stopni swobody 1 ÷30. Dla ν>30 można stosować rozkład graniczny zmiennej losowej (2χ2)1/2, która podlega rozkładowi normalnemu N[(2n-1)1/2,1]. Przykład 5.8. Rozkład wariancji z próby. Obliczyć prawdopodobieństwo, że obliczona wartość wariancji S2 z próby o liczebności n=20 nie różni się od wartości prawdziwej wariancji σ2 o więcej niż 5%. Rozwiązanie. Zadanie można zapisać następująco: S2 P 0.95 < 2 < 1.05 = ? σ (5.21) Biorąc pod uwagę definicję , mamy dalej S2 P 0.95 < 2 < 1.05 = P ( 0.95n < χ 2 < 1.05n ) = P (19 < χ 2 < 21) σ (5.22) = Fχ 2 (21;ν = 19) − Fχ 2 (19;ν = 19) = 0.663 − 0.543 = 0.120 Wartości dystrybuanty Fχ2(x) zostały odczytane z tablicy 4 (Dodatek A) rozkładu χ2. Populacja X o rozkładzie nie-normalnym lub nieznanym. Gdy rozkład populacji X nie jest określony, to dla dużej próby ma zastosowanie graniczny rozkład normalny dla S2 = M2, tzn. zmienna S2 podlega wtedy w przybliżeniu rozkładowi normalnemu: FS 2 ( x) → N (EM 2 , DM 2 ) EM 2 =µ2 DM 2 = gdzie µk = E(X-EX)k. *********przykład?? © Stanisław Węglarczyk, XII 2005 1 µ 4 − µ 22 ) ( n (5.23) 15 5. Podstawowe pojęcia statystyki 5.3.3 Populacja jednowymiarowa. Odchylenie standardowe z próby Odchylenie standardowe z próby S. Określa je równanie def S = S2 = 1 n ∑ ( X i − X )2 n i =1 (5.24) Rozkłady zmiennej losowej S są oczywiście ściśle związane z rozkładami wariancji z próby S2, toteż łatwo obliczyć żądane wartości związane z S na podstawie zależności dotyczących S2. Przykład 5.9. Rozkład odchylenia standardowego z próby. Obliczyć prawdopodobieństwo, że obliczona wartość odchylenia standardowego S z próby o liczebności n=20 nie różni się od wartości prawdziwej odchylenia standardowego σ o więcej niż 5%. Rozwiązanie. Zadanie jest podobne do zadania z przykładu 5.8: S S2 P 0.95 < < 1.05 = P 0.952 < 2 < 1.052 = ? σ σ (5.25) Jak w przykładzie 5.8, dostajemy dalej dla n=20: S2 P 0.952 < 2 < 1.052 = P ( 0.952 n < χ 2 < 1.052 n ) = P (18.05 < χ 2 < 22.05 ) σ (5.26) = Fχ 2 (22.05;ν = 19) − Fχ 2 (18.05;ν = 19) = 0.718 − 0.481 = 0.237 Wartości dystrybuanty Fχ2(x) zostały odczytane z tablic 4 (Dodatek A) rozkładu χ2. 5.3.4 Populacja jednowymiarowa. Moment początkowy Ak rzędu k z próby Definicja momentu początkowego Ak rzędu k z próby jest analogiczna do definicji momentu teoretycznego αk (??): def Ak = X k = 1 n k ∑ Xi n i =1 (5.27) Prawdziwe jest następujące twierdzenie o rozkładzie granicznym momentu Ak: Jeśli mamy daną n-elementową prostą próbę losową i istnieje skończony moment "2k populacji generalnej, to FAk ( x) → N (EAk , DAk ) n →∞ (5.28) gdzie EAk =α k © Stanisław Węglarczyk, XII 2005 DAk = 1 (α 2k − α k2 ) n (5.29) 16 5. Podstawowe pojęcia statystyki Rys. 5.6. W miarę wzrostu liczebności n próby rozkłady R1, R2, R3, R4 (R=A, B, C, D) wartości średniej z próby są coraz mniej podobne do rozkładu R zmiennej losowej X skupionego na przedziale (0,1). Rys. 5.6 ilustruje powyższe twierdzenie dla pierwszego momentu A1≡ X . Przeprowadzony został następujący eksperyment numeryczny. Wybrane zostały 4 różne (pod względem symetrii) rozkłady populacji (A, B, C i D), następnie z każdej z tych populacji losowane było 200 prób o liczebności n i dla każdej próby obliczano wartość średnią x . W ten sposób tworzone były 200-elementowe próby wartości średnich. Rozkłady częstości względnych wystąpień wartości średniej X , przedstawione na rys. 5.6, już dla n=10 praktycznie nie przypominają rozkładu wyjściowego cechy X populacji. 5.3.5 Populacja jednowymiarowa. Moment centralny Mk rzędu k z próby Moment centralny Mk rzędu k z próby jest zdefiniowany jak następuje: def M k = ( X − X )k = 1 n ∑ ( X − X i )k n i =1 (5.30) Analogicznie jak moment początkowy, również moment centralny ma swój rozkład graniczny: © Stanisław Węglarczyk, XII 2005 17 5. Podstawowe pojęcia statystyki FM k ( x) → N (EM k , DM k ) n →∞ EM k =µ k DM k = 1 ( µ2k − 2k µk −1µk +1 − µk2 + k 2 µ2 µk2−1 ) n (5.31) gdzie µk jest momentem centralnym rzędu k zmiennej X: µk=E(X-EX)k. Przykład 5.10******************* 5.3.6 Populacja dwuwymiarowa. Współczynnik korelacji R z próby Mamy daną dwuwymiarową (prostą) próbę losową {(X1,Y1), (X2,Y2), ..., (Xn,Yn)} wziętą z dwuwymiarowej populacji (X,Y). Definiujemy współczynnik korelacji R z próby zmiennych losowych (X,Y): RXY 1 n ∑ ( X i − X )(Y − Y ) def n i =1 = ( X − X )(Y − Y ) = S X SY (5.32) gdzie SX i SY są odchyleniami standardowymi (5.24) odpowiednio zmiennej X i Y. Populacja normalna ze współczynnikiem korelacji D=0. Jeżeli populacja, z której pobrano prostą próbę, podlega dwuwymiarowemu rozkładowi normalnemu ze współczynnikiem korelacji D=0, to statystyka t= R 1 − R2 n−2 (5.33) podlega rozkładowi Studenta o ν=n-2 stopniach swobody. Przykład 5.11. Rozkład współczynnika korelacji z próby (ρ=0). Dana jest dwuwymiarowa populacja normalna o współczynniku korelacji ρ=0. Obliczyć prawdopodobieństwo, że współczynnik korelacji z n=20-elementowej próby nie różni się od zera więcej niż 0.1. Rozwiązanie. Ponieważ funkcja t(R) jest funkcją rosnącą, to prawdziwa jest następująca równość: P (| R |< 0.1) = P (| t ( R ) |< t (0.1) ) = ? (5.34) skąd mamy dalej: 0.1 P ( | R |< 0.1) = P (| t ( R) |< t (0.1) ) = P | t |< 20 − 2 = P (| t |< 0.4264 ) 1 − 0.12 = P( − 0.4264 < t < 0.4264) = Ft (0.4264;ν = 18) − Ft (−0.4264;ν = 18) (5.35) = 0.6535 − 0.3465 = 0.3070 Symbol Ft(x,<) oznacza wartość dystrybuanty rozkładu Studenta o < stopniach swobody w punkcie x (tabela 3 w Dodatku A). © Stanisław Węglarczyk, XII 2005 18 5. Podstawowe pojęcia statystyki Populacja normalna z dowolnym współczynnikiem korelacji. Jeżeli populacja, z której pobrano prostą próbę, ZHRL podlega dwuwymiarowemu rozkładowi normalnemu z dowolnym współczynnikiem 2 korelacji ρ (a więc niekoniecznie ρ=0 jak 1 wyżej) to statystyka Z (tzw. przekształcenie R Fishera) -1 -0.5 0.5 1 1 1+ R Z = ln 2 1− R -1 (5.36) -2 (zob. rys. 5.7) ma już dla niedużych n (prakRys. 5.7. Przekształcenie Z Fishera (5.36) tycznie dla n$ 20 [?]) rozkład w przybliżeniu normalny 1 1+ ρ ρ 1 + N ln ; 2 1 − ρ 2(n − 1) n − 1 (5.37) Przykład 5.12. Jakość przybliżenia (5.37), gdy współczynnik korelacji z próby ρ=0. (Zadanie jak w przykładzie 5.11). Dana jest dwuwymiarowa populacja normalna o współczynniku korelacji ρ=0. Korzystając z (5.37) obliczyć prawdopodobieństwo, że współczynnik korelacji z n=20-elementowej próby nie różni się od zera więcej niż 0.1. Rozwiązanie. Ponieważ przekształcenie Fishera jest funkcją rosnącą i symetryczną względem punktu (0,0), to można napisać P (| R |< 0.1) = P (| Z ( R ) |< Z (0.1) ) = ? (5.38) Dalej mamy: P (| R |< 0.1) = P (| Z ( R ) |< Z (0.1) ) 1 + 0.1 = P | Z |< 0.5ln = P (| Z |< 0.1003) = ... 1 − 0.1 (5.39) Zgodnie z zmienna Z w tym przykładzie podlega rozkładowi N(0, 1/19 ) = N(0,0.2294). Aby więc móc skorzystać z tablic dystrybuanty Φ(u) rozkładu N(0,1), należy zmienną Z standaryzować, co sprowadza się w tym przypadku do podzielenia obu stron nierówności w przez wartość 0.2294 0.1003 |Z | < ... = P = P (| U |< 0.4372 ) 0.2294 0.2294 = Φ (0.4372) − Φ (−0.4372) = 2 ⋅ Φ (0.4372) − 1 (5.40) = 2 ⋅ 0.6690 − 1 = 0.338 Otrzymana wartość 0.338 jest o nieco ponad 10% wyższa od wartości dokładnej (0.307) uzyskanej w przykładzie 5.11. Gdyby próba losowa była 30-elementowa, wtedy otrzymane © Stanisław Węglarczyk, XII 2005 19 5. Podstawowe pojęcia statystyki wartości prawdopodobieństwa P(|R|<0.1) wyniosłyby odpowiednio 0.4108 i 0.3874 (różnica 6%). Przykład 5.13. Rozkład współczynnika korelacji z próby (ρ=0.5). Dana jest dwuwymiarowa populacja normalna o współczynniku korelacji ρ=0.5. Obliczyć prawdopodobieństwo, że współczynnik korelacji z n=30-elementowej próby nie różni się od 0.5 więcej niż 0.1. Rozwiązanie. Trochę inaczej niż w poprzednim przykładzie 5.12 mamy 1 2 µ = ln 1+ ρ ρ + = 0.5407 1 − ρ 2( n − 1) 1 = 0.1857 σ= n −1 (5.41) i dalej: P (| R − ρ |< 0.1) = P ( ρ − 0.1 < R < ρ + 0.1) = P ( Z ( ρ − 0.1) < Z ( R ) < Z ( ρ + 0.1) ) 1 + (0.5 − 0.1) 1 + (0.5 + 0.1) = P 0.5ln < Z < 0.5ln 1 − (0.5 − 0.1) 1 − (0.5 + 0.1) = P ( 0.4326 < Z < 0.6931) (5.42) 0.4326 − 0.5407 Z − 0.5407 0.6931 − 0.5407 = P < < 0.1857 0.1857 0.1857 = P ( −0.6306 < U < 0.8207 ) = Φ (0.8207) − Φ (−0.6306) = 0.7941 − 0.2642 = 0.5299 5.3.7 Populacja dwuwymiarowa. Współczynnik kierunkowy A regresji liniowej z próby zmiennej Y względem zmiennej X Współczynnik kierunkowy A regresji liniowej z próby zmiennej Y względem zmiennej X dany jest równaniem A= R SY SX (5.43) gdzie R jest współczynnikiem korelacji z próby (5.32), a SX i SY są odchyleniami standardowymi odpowiednio zmiennych X i Y. Jeżeli populacja, z której pobrano prostą próbę, podlega dwuwymiarowemu rozkładowi normalnemu o (rzeczywistej) funkcji regresji E(Y|x) = αx+β znalezionej jako funkcja regresji z próby w postaci Ŷ = Ax+B, to statystyka t = ( A −α ) © Stanisław Węglarczyk, XII 2005 SX n − 2 SY 1 − R 2 (5.44) 20 5. Podstawowe pojęcia statystyki podlega rozkładowi Studenta o n-2 stopniach swobody (tzw. twierdzenie Bartletta). Losowość oceny prawdziwej regresji wyraża się tutaj poprzez losowe współczynniki regresji A i B, co będzie miało swoją konsekwencję w rozdziale o weryfikacji hipotez statystycznych. Przykład 5.14. Twierdzenie Bartletta. Dana jest dwuwymiarowa .... 5.3.8 Dwie populacje jednowymiarowe. Różnica X 1 − X 2 wartości średnich z próby Dane są dwie proste próby losowe (X1,X2,..., X n1 ) oraz (X1,X2,..., X n2 ) wzięte niezależnie z dwu badanych populacji jednowymiarowych. Populacje normalne o znanych odchyleniach standardowych F1 i F2. Jeśli populacje, z których pochodzą n1 i n2-elementowe proste próby losowe, mają rozkłady normalne, odpowiednio: N(µ1,σ1) i N(µ2,σ2), ze znanymi wartościami σ1 i σ2, to statystyka U= (X 1 ) − X 2 − ( µ1 − µ2 ) σ 12 / n1 + σ 22 / n2 (5.45) ma rozkład normalny N(0,1). Przykład 5.15. Pomiar dwoma przyrządami. Dana jest dwuwymiarowa .... Jakie jest p-stwo Populacje normalne o nieznanych ale identycznych odchyleniach standardowych σ1=σ2=σ. Jeśli populacje, z których pochodzą n1 i n2-elementowe proste próby, mają rozkłady normalne, odpowiednio: N(µ1,σ) i N(µ2,σ), z nieznaną wspólną wartością σ, to statystyka U= (X 1 ) − X 2 − ( µ1 − µ 2 ) n1S12 + n2 S 22 1 1 + n1 + n2 − 2 n1 n2 (5.46) ma rozkład Studenta z n1+n2-2 stopniami swobody. Przykład 5.16. ......... .... 5.3.9 Dwie populacje jednowymiarowe. Stosunek dwu wariancji z próby Stosunek dwu wariancji z próby F=S12/S22. Jeśli populacje, z których pochodzą n1 i n2-elementowe proste próby losowe, mają rozkłady normalne, odpowiednio: N(µ1, σ) i N(µ2, σ), z nieznaną wspólną wartością σ, to statystyka © Stanisław Węglarczyk, XII 2005 21 5. Podstawowe pojęcia statystyki F= S12 S22 (5.47) ma rozkład F Snedecora z odpowiednio n1-1 i n2-1 stopniami swobody. Użyte powyżej symbole oznaczają dla każdej z próby z osobna: n 2 1 n S 2 = S = ∑ ( X i − X )2 n −1 n − 1 i =1 (5.48) Wartości kwantyli rozkładu F dla wybranych par stopni swobody są podane w Dodatku A (tabela 5). ** wyrzucić? ********************** 5.4 STATYSTYKI EKSTREMALNE I ICH ROZKŁADY Definicja statystyki wartość ekstremalna. Dany jest ciąg wartości x1, x2, ..., xN, obserwacji zmiennej losowej X o (na ogół nieznanym) rozkładzie FX(x). Ciąg ten dzielimy na T podciągów, często o tej samej liczebności m, tak że mT=N. Najczęściej T oznacza długość okresu obserwacji (np. T lat), a m – liczbę obserwacji (np. wartości dobowych, dekadowych czy miesięcznych). Z każdego podciągu wybieramy największą (albo najmniejszą) wartość. Powstaje w ten sposób (r) nowa próba losowa zawierająca Rys. 5.8. Najczęstszy sposób definiowania warrealizację nowej zmiennej losowej: war- tości maksymalnej (jako maksimum w danym tości maksymalnej Xmax (albo minimalnej okresie) Xmin). Obie te zmienne noszą wspólną nazwę: wartości ekstremalne i poszukiwanie ich rozkładu, odpowiednio Fmax(x) (albo Fmin(x)) jest ważnym zagadnieniem statystyki znajdującym zastosowanie np. w hydrologii czy gospodarce wodnej. Wyznaczanie rozkładu wartości ekstremalnych I. Jeśli jest możliwe wyznaczenie rozkładu FX(x) (bo np. znamy wszystkie wartości z rys. 5.8) i liczebność próby n jest znana, to rozkłady wartości maksymalnej Fmax(x) lub minimalnej Fmin(x) dają się stosunkowo łatwo wyznaczyć, jak to pokazano w rozdziale 2.3.6. I tak np. dla wartości maksymalnej wyprowadzono następujący wzór n P(X max < x) ≡ Fmax ( x) = [ FX ( x)] (5.49) Wyznaczanie rozkładu wartości ekstremalnych II. Z reguły jednak sytuacja wygląda inaczej, a najczęstszym przypadkiem jest taki, gdy dany jest tylko zbiór wartości ekstremalnych, xmax1, xmax2, ..., xmaxn, (jak na rys. 5.8 wartości kropkowane), © Stanisław Węglarczyk, XII 2005 5. Podstawowe pojęcia statystyki 22 po jednej wartości na każdy podzbiór zbioru wartości zmiennej X (tj. na każdy przedział )t osi t, gdzie t może być kolejnym numerem danych; może też oznaczać czas). W takim przypadku możemy traktować zmienną Xmax jak każdą inną zmienną i poszukiwać jej rozkładu używając zwykłych technik estymacyjnych (tzn. założyć funkcję rozkładu i na podstawie posiadanej próby uzasadnić dokonany wybór, zob. rozdział 6). Wyznaczanie rozkładu wartości ekstremalnych III. Istnieje wszakże pewna możliwość potraktowania wartości ekstremalnych w sposób szczególny. Jest to przypadek, gdy możemy zastosować rozkłady asymptotyczne (czyli gdy mamy dużą próbę). Oczywiście można wtedy stosować twierdzenia graniczne, które wskazują na rozkład normalny. Mamy jednak inną możliwość. Otóż udowodniono, że pod pewnymi warunkami wariancja wartości ekstremalnych jest mniejsza od wariancji przewidywanej przez twierdzenia graniczne (Yevjevich [30]), co oznacza, że rozkłady te lepiej wykorzystują posiadaną informację od centralnego twierdzenia granicznego. Zostały wyprowadzone nie-normalne rozkłady asymptotyczne wartości ekstremalnych (zwane rozkładami ekstremalnymi), spośród których dwa są znane i stosowane najszerzej. Są to: rozkład Gumbela o dystrybuancie Fmax ( x) = exp −e −α ( x −∈) , α > 0, x >∈ (5.50) zwany również rozkładem podwójnie wykładniczym (zob. rys. 5.9), i rozkład Fishea-Tippeta (zwany też rozkładem Weibulla), którego dystrybuanta może być przedstaiona następująco (zob. rys. 5.10): Fmax ( x) = 1 − exp −α ( x − ∈) β , α , β > 0, x >∈ © Stanisław Węglarczyk, XII 2005 (5.51) 5. Podstawowe pojęcia statystyki 23 Rys. 5.9 Funkcja gęstości i dystrybuanta rozkładu Rys. 5.10 Funkcja gęstości i dystrybuanta rozkładu Weibulla dla kilku wartości parametru ß Gumbela dla kilku wartości parametru α Dwa znaczenia terminu rozkład ekstremalny. Tak więc pojęcie rozkład ekstremalny ma dwa znaczenia: (i) szersze – rozkład wartości ekstremalnych i (ii) węższe – asymptotyczny rozkład wartości ekstremalnych (rozkłady Gumbela i Fishera-Tippeta), co może czasami wprowadzać pewne zamieszanie. Oba powyższe rozkłady mogą być stosowane do analizy wartości minimalnych – jest to tylko kwestia zmiany przedziału wartości zmiennej X. W przypadku (5.50) oznacza to ujemną wartość współczynnika ", a dla (5.51) zastąpienie wyrażenia (x-ß) wyrażeniem (ß-x), tzn. przejście z przedziału ograniczonego od dołu (wartości maksymalne) do przedziału ograniczonego od góry (wartości minimalne). Sposób definiowania wartości ekstrealnych poprzez poziom odcięcia. Drugim ważnym sposobem definiowania wartości maksymalnych jest ustalenie pewnego progu – poziomu odcięcia, jak to zilustrowano na rys. 5.11 (wartość x0), i przyjęciu za wartości Xmax wszystkie wartości przekraczające x0. Ten sposób podziału dostępnej informacji wprowadza Rys. 5.11. Wybór wartości maksymalnych przez określenie poziomu odcięcia (por. z rys. 5.8) dodatkową zmienną losową – liczbę © Stanisław Węglarczyk, XII 2005 24 5. Podstawowe pojęcia statystyki przekroczeń zadanego poziomu, czyli liczbę realizacji zmiennej X przekraczających poziom odcięcia (wartość progową) w jednym okresie. Liczba ta może wynosić zero (jak w przedziale 1 na rys. 5.11), może być większa od jedności. Oczywiście takie podejście komplikuje matematyczną stronę problemu, może jednak czasami lepiej wykorzystać dostępną informację. Najprostszy sposób analizy tego przypadku polega na tym, że wprowadza się średnią liczbę, nśr, zdarzeń (przekroczeń zadanego poziomu) na okres i rozwiązanie zadania ma postać analogiczną do wzoru (5.49). Wyrazimy ją tym razem trochę inaczej – poprzez funkcje prawdopodobieństwa przewyższenia: n pmax ( x) = P(X max ≥ x) = 1 − [1 − FX ( x) ] sr , nsr > 0 (5.52) Wzór ten jest wyprowadzany przy założeniu, że w każdym okresie wystąpi z prawdopodobieństwem 1 przynajmniej jedno zdarzenie (przekroczenie zadanego poziomu). , a więc należałoby napisać inaczej lewą stronę równania : P(X max ≥ x) = P(X max ≥ x | I ≥ 1) (5.53) gdzie I oznacza liczbę zdarzeń opadowych w danym okresie (roku). W takim przypadku, jaki został przedstawiony na rys. 5.11, warunek ten (tj. P(I$1)=1) nie jest spełniony – trzeba więc uwzględniać prawdopodobieństwo przekroczenia czy nieprzekroczenia wartości progowej, a więc, zamiast , napisać tak: ∞ P(X max ≥ x | I ≥ 1)= ∑ P(X max ≥ x | I = i )P(I = i ) i =1 (5.54) gdzie I oznacza liczbę przekroczeń danego poziomu w zadanym okresie czasu. Jeśli założymy, że liczba ta nie ma wpływu na wartość Xmax, to wzór można uprościć: ∞ P(X max ≥ x | I ≥ 1) = P(X max ≥ x)∑ P(I = i ) = P(X max ≥ x)P(I > 0) i =1 (5.55) Tak więc wynikowe prawdopodobieństwo zostało teraz zmniejszone o czynnik P(I=0) = 1-P(I>0), tj. prawdopodobieństwo nieprzekroczenia zadanej wartości progowej x0. © Stanisław Węglarczyk, XII 2005