Marek Styczeń WNIOSKOWANIE STATYSTYCZNE Rozdział 1
Transkrypt
Marek Styczeń WNIOSKOWANIE STATYSTYCZNE Rozdział 1
Marek Styczeń WNIOSKOWANIE STATYSTYCZNE Rozdział 1 RACHUNEK PRAWDOPODOBIEŃSTWA terminy i postulaty podstawowe twierdzenia prawdopodobieństwo warunkowe niezależność stochastyczna interpretacja funkcji prawdopodobieństwa Uwaga: Rozdział ten w istotny sposób różni się od pozostałych tym, że jego przedmiot jest znany czytelnikowi ze szkolnego kursu matematyki i jako taki nie należy do kursu statystyki. Stąd brak w nim dowodów i przykładów poza nielicznymi. Przypomnienie niezbędnych wiadomości w tym właśnie miejscu wydało się autorowi jednak koniecznym. Osoby, które wcześniej z rachunkiem prawdopodobieństwa się nie zetknęły, powinny opanować ten dział matematyki w zakresie objętym przez ten rozdział korzystając z odpowiedniego podręcznika. Pozostałyn posłuży do przypomnienia sobie wcześniej zdobytej wiedzy. Są trzy terminy dla rachunku prawdopodobieństwa podstawowe: "przestrzeń ", "zbiór S" i "funkcja P". Mając na uwadze podstawowe zastosowanie rachunku prawdopodobieństwa, o przestrzeni mówimy zwykle, że jest to przestrzeń wyników doświadczenia losowego, o zbiorze S, że jest to zbiór zdarzeń, a o funkcji P, że jest to funkcja prawdopodobieństwa. Znaczenie tych terminów w teorii jest określane przez postulaty. W postulatach będziemy się posługiwali tymi bardziej ascetycznymi formami terminów. Przyjmijmy pierwszy postulat wprowadzający termin "przestrzeń ": Przestrzeń jest zbiorem niepustym. Trzy następne postulaty wprowadzają termin "zbiór S". Postulat niepustości: Zbiór S jest niepustym zbiorem podzbiorów przestrzeni . ( AS ) & ( AS A ) A A Postulat komplementarności: Jeżeli jakiś podzbiór przestrzeni oznaczony A należy do zbioru S, to również jego dopełnienie w przestrzeni oznaczone A należy do zbioru S. AS A'S A Postulat addytywności: Jeżeli każdy z dwu zbiorów A i B będących podzbiorami przestrzeni należy do zbioru S,to również zbiór AB będący ich sumą należy do zbioru S. AS & BS AB S Jest to "najłagodniejsza" wersja postulatu addytywności, który w bardziej rozwiniętej wersji rachunku prawdopodobieństwa jest zastępowany przez postulat przeliczanej addytywności. 2 Postulat przeliczanej addytywności: Jeżeli każdy zbiór z przeliczanego ciągu podzbiorów przestrzeni : A1, A2, A3, ... należy do zbioru S, to także zbiór będący sumą wszystkich zbiorów tego ciągu należy do S. (A1S & A2S & A3S & ...) (A1A2A3...) S Zbiór S jest zatem niepustą, komplementarną i addytywną (lub przeliczalnie addytywną) klasą podzbiorów przestrzeni . Pozostałe własności zbioru S można wyprowadzić z postulatów. Jeżeli dwa podzbiory przestrzeni oznaczone A i B należą do zbioru S, to do zbioru S należą również te zbiory, które można utworzyć ze zbiorów A i B za pomocą operacji negacji, dodawania i mnożenia zbiorów. a. b. c. d. e. f. g. h. i. j. AS AS AS AS AS AS AS AS AS AS & & & & & & & & & & BS BS BS BS BS BS BS BS BS BS AB AB' A'B A'B' AB A'B AB' A'B' (A'B') (A'B) S S S S S S S S (AB) S (AB') S Podstawiając do implikacji (a) w miejsce B dopełnienie zbioru A łatwo otrzymujemy twierdzenie następne: Podzbiór przestrzeni zawierający wszystkie jej elementy należy do zbioru S. S Ponieważ dopełnieniem zbioru jest zbiór pusty, prawdziwym jest twierdzenie: Zbiór pusty należy do zbioru S. S Funkcja P przyporządkowuje każdemu podzbiorowi przestrzeni należącemu do S liczbę rzeczywistą. P: S Zbiorem argumentów tej funkcji jest zbiór S, a wartości należą do zbioru liczb rzeczywistych . Własności funkcji P określają trzy postulaty. 1. Wartość funkcji P dla dowolnego podzbioru przestrzeni należącego do zbioru S jest nieujemna. P(A) 0 2. Warość funkcji P przyporządkowana należącemu do S podzbiorowi przestrzeni złożonemu ze wszystkich jej elementów jest równa 1. P() = 1 3 3. Jeżeli dwa podzbiory przestrzeni oznaczone A i B są rozłączne i każdy z nich należy do zbioru S, to wartość funkcji P przyporządkowana zbiorowi A B jest równa sumie wartości funkcji P przyporządkowanych osobno A oraz B. AS & BS & AB= P(AB) = P(A) + P(B) Ten ostatni postulat nazywamy postulatem addytywności funkcji P. Jeżeli zbiór S konstruujemy korzystając z postulatu przeliczanej addytywności, to od funkcji P domagamy się, by spełniała swój postulat addytywności w wersji rozszerzonej. Postulat przeliczanej addytywności funkcji P: Jeżeli każdy zbiór z przeliczalnego ciągu parami rozłącznych zbiorów A1, A2, A3,... jest podzbiorem przestrzeni i należy do S, to wartość funkcji P przyporządkowana zbiorowi będącemu ich sumą, jest równa sumie wartości funkcji P przyporządkowanych każdemu z tych zbiorów z osobna: ( (Ai S & ( AiAj = )) i j i P(A1 A2 A3 A4 ) P(A1)+P(A2)+P(A3 )+ . . . . Jeżeli przestrzeń składa się ze skończonej liczby elementów i zbiór S oraz funkcję P skonstruowano posługując się postulatami zwyczajnej addytywności, to zastąpienie ich postulatami addytywności przeliczalnej doprowadziłoby do uzyskania tej samej klasy S i tej samej funkcji P. Dopiero, gdy przestrzeń jest zbiorem nieprzeliczalnym zastąpienie postolutów addytywności postulatami przeliczalnej addytywności mogłoby doprowadzić do powiększenia zbioru S i tym samym zbioru argumentów funkcji P. O funkcji P mówimy, że jest nieujemną, unormowaną - przyjmuje wartości nie większe od 1, addytywną (lub przeliczalnie addytywną) miarą zbiorów należących do klasy S. Obiektom, o których była tu mowa, nadano nazwy związane z podstawowym zastosowaniem rachunku prawdopodobieństwa. Element zbioru S nazywamy zdarzeniem, a sam zbiór S zbiorem zdarzeń. Zauważamy, że nie każdy podzbiór przestrzeni jest zdarzeniem, a tylko taki, który jest elementem niepustej, komplementarnej i addytywnej klasy jej podzbiorów. Podzbiór przestrzeni jest zatem zdarzeniem ze względu na swoją przynależność do jakiejś klasy S. Mówiąc o zdarzeniu należy zawsze wiedzieć, czy i do jakiej klasy S ono należy. Element zbioru S będący pustym podzbiorem przestrzeni nazywamy zdarzeniem niemożliwym. Element zbioru S będący podzbiorem przestrzeni złożonym z jej wszystkich elementów nazywamy zdarzeniem pewnym. Wartość funkcji P przyporządkowaną podzbiorowi przestrzeni oznaczonemu A i należącemu do zbioru S nazywamy prawdopodobieństwem zdarzenia A. Samą funkcję P nazywamy funkcją prawdopodobieństwa. Teoria prawdopodobieństwa lub inaczej mówiąc rachunek prawdopodobieństwa jest teorią matematyczną. Zawiera twierdzenie, które można wprowadzić z przyjętych postulatów. Twierdzenia te pozwalają na podstawie prawdopodobieństw przypisanych jednym zdarzeniom określać prawdopodobieństwa innych zdarzeń. Teoria ta nie daje jednak odpowiedzi ani na pytanie, co to jest prawdopodobieństwo, ani jak je mierzyć. Podobnie, geometria nie mówi, jak mierzyć odległości, a tylko jak na podstawie jednych (danych już) odległości wyznaczać inne. Rachunek prawdopodobieństwa ma zastosowanie wszędzie tam, gdzie określona jest trójka obiektów: przestrzeń , zbiór S i funkcja P spełniających podane wyżej postulaty. 4 Przedstawimy teraz elementarne twierdzenia dotyczące funkcji P, które można wyprowadzić prosto z postulatów. Przedstawimy po dwa sformuowania każdego z tych twierdzeń: jedno "ascetyczne", gdzie będzie mowa o wartościach funkcji P i elementach zbioru S i drugie, gdzie będzie mowa o prawdopodobieństwach i zdarzeniach. Ze ściśle formalnego punktu widzenia są one całkowicie równoważne. Sformułowania mniej ascetyczne, a przez to bardziej intuicyjne, sugerują jednak jedno tylko zastosowanie rachunku prawdopodobieństwa - dla opisu zjawisk losowych i to jest ich wadą. Zważywszy na zalety będziemy się jednak nimi posługiwać. Wartość funkcji P przyporządkowana należącemu do zbioru S zbiorowi A' jest równa różnicy między liczbą 1 a wartością funkcji P przyporządkowaną zbiorowi A. Inaczej mówiąc, prawdopodobieństwo zdarzenia A' jest równe 1 minus prawdopodobieństwo zdarzenia A. P(A') = 1-P(A) Funkcja P przyporządkowuje zbiorowi pustemu liczbę 0, czyli prawdopodobieństwo zdarzenia niemożliwego jest równe 0. P() = 0 Jeżeli zbiory A oraz B należą do zbioru S i zbiór A jest podzbiorem zbioru B, to funkcja P przyporządkowuje zbiorowi A wartość nie większą niż zbiorowi B. Inaczej mówiąc, jeżeli zdarzenie A jest podzbiorem zdarzenia B, to prawdopodobieństwo zdarzenia A nie jest większe od prawdopodobieństwa zdarzenia B. A B P(A) P(B) Jeżeli zbiory A oraz B należą do zbioru S, to funkcja P rzyporządkowuje zbiorowi A B wartość równą sumie wartości przyporządkowanych przez funkcję P każdemu z tych zbiorów z osobna, pomniejszoną o wartość przyporządkowaną przez nią zbiorowi AB będącemu ich iloczynem. To samo, inaczej, można powiedzieć tak: prawdopodobieństwo alternatywy dwu zdarzeń A oraz B jest równe sumie ich prawdopodobieństw pomniejszonej o prawdopodobieństwo ich iloczynu. A S & B S P(AB) = P(A) + P(B) - P(AB) Łatwą do dowiedzenia konsekwencją tego twierdzenia jest następne twierdzenie o prawdopodobieństwie sumy trzech zdarzeń. Zapiszemy je tylko w postaci symbolicznej. Twierdzenie o sumie trzech zdarzeń: A S & B S & C S P(ABC) = P(A) + P(B) + P(C) - P(AB) - P(AC) - P(BC) + P(ABC) Dalsze twierdzenia i definicje będziemy formułować tylko w tym języku bardziej intuicyjnym a mniej ascetycznym. Stosowany jednocześnie zapis symboliczny powinien nas uchronić od nieporozumień. O wszystkich zdarzeniach, o których będzie mowa dalej, zakładamy, że należą do tego samego zbioru zdarzeń S. Nie będziemy tego założenia przypominać. Będziemy pomijać kwantyfikatory i pisząc np. A, będziemy mieli na myśli każde A należące do klasy S, chyba że wyraźnie zaznaczymy, że jest inaczej. Prawdopodobieństwem zdarzenia A przy warunku, że zachodzi zdarzenie B nazywamy iloraz prawdopodobieństwa iloczynu zdarzeń A i B oraz prawdopodobieństwa zdarzenia B. Prawdopodobieństwo to oznaczamy P(A|B). Nie jest ono określone, gdy P(B) = 0. 5 P(A|B)= P(AB) , P(B) gdzie P(B)>0 O prawdopodobieństwie tym mówimy, że jest to "warunkowe prawdopodobieństwo A przy warunku B". Zdarzenie B nazywamy w tej sytuacji warunkiem, a jego prawdopodobieństwo - prawdopodobieństwem warunku. Często zamiast mówić "A przy warunku B" mówimy "A przy założeniu B", co znaczy to samo. B nazywamy wówczas założeniem, a jego prawdopodobieństwo - prawdopodobieństwem założenia. Prawdopodobieństwo warunkowe przy założeniu B, jeżeli tylko P(B) > 0, jest funkcją przyporządkowującą liczby rzeczywiste wszystkim zdarzeniom należącym do zbioru S. Badając własności tej funkcji musimy dojść do wniosku, że spełnia ona wszystkie postulaty nałożone na funkcję P. Prawdopodobieństwo warunkowe P(A|B), jeżeli tylko P(B) jest większe od zera, jest prawdopodobieństwem, gdyż dla każdego A należącego do klasy S spełnia trzy następujące postulaty: P(A|B) 0 P(|B) = 1 AC = P(AC|B) = P(A|B) + P(C|B) Jeżeli prawdopodobieństwo warunkowe jest prawdopodobieństwem, to wszystkie twierdzenia dotyczące prawdopodobieństwa dotyczą także prawdopodobieństw warunkowych, oczywiście prawdopodobieństw warunkowych o tym samym warunku. Np. twierdzenie o prawdopodobieństwie sumy dwu zdarzeń A oraz B: P(AB) = P(A) + P(B) - P(AB) może być stosowane także dla prawdopodobieństw warunkowych przy tym samym warunku o niezerowym prawdopodobieństwie, np. C: P(C)>0 P(AB|C) = P(A|C) + P(B|C) - P(AB|C) W kilku następnych twierdzeniach występować będą prawdopodobieństwa warunkowe. Załóżmy, że są określone, czyli że twierdzenia dotyczą takich zdarzeń - warunków, których prawdopodobieństwa są większe od zera. Będziemy o tym przypominać tylko w zapisie formalnym. Prawdopodobieństwo iloczynu dwu zdarzeń A oraz B jest równe iloczynowi prawdopodobieństwa warunkowego i prawdopodobieństwa warunku. Są możliwe dwa takie iloczyny: P(AB) = P(A|B) * P(B) P(AB) = P(B|A) * P(A) Prawdopodobieństwo zdarzenia A jest sumą dwu iloczynów prawdopodobieństw: warunkowego i warunku. Warunki z obu iloczynów są zdarzeniami dopełniającymi się: P(A) = P(A|B)*P(B) + P(A|B')*P(B') Równość ta bywa nazywana "wzorem na prawdopodobieństwo całkowite" w jego najprostszej postaci. Najprostszą postacią tzw. twierdzenia Bayesa jest następna równość przedstawiająca jedno prawdopodobieństwo warunkowe jako funkcję innych prawdopodobieństw warunkowych. Twierdzenie Bayesa w najprostszej postaci: 6 P(B|A) P(A|B) * P(B) = P(A|B) * P(B) + P(A|B') * P(B') To samo twierdzenie Bayesa w bardziej rozwiniętej postaci przyjmuje taką formę: Niech {B1, B2, B3, ..., Bn} będzie skończonym zbiorem zdarzeń parami rozłącznych: ij BiBj = i wyczerpujących przestrzeń B1 B2 B3 ... Bn = o prawdopodobieństwach większych od zera P(Bi) > 0 i Wówczas prawdopodobieństwo zdarzenia A: n (i) P(A)= P(A|Bi) P(Bi) i=1 Stąd warunkowe prawdopodobieństwo zdarzenia B przy warunku A, jeżeli tylko prawdopodobieństwo A jest większe od zera, jest dane wzorem: (ii) P(Bj|A) P(A|Bj) P(Bj) = n P(A|Bi) P(Bi) i=1 Twierdzenie to z pierwszym następnikiem (i) określającym wartość prawdopodobieństwa zdarzenia A jest znane jako rozwinięta postać twierdzenia o prawdopodobieństwie całkowitym. Najważniejszym chyba pojęciem definiowanym w rachunku prawdopodobieństwa jest pojęcie niezależności stochastycznej. Dwa zdarzenia A oraz B są niezależne stochastycznie wtedy i tylko wtedy, gdy prawdopodobieństwo zdarzenia będącego ich iloczynem jest równe iloczynowi prawdopodobieństw każdego z nich z osobna A i B są niezależne stochastycznie df P(AB) = P(A) * P(B) Jeżeli A i B nie są niezależne stochastyczne, to są zależne stochastycznie. Jeżeli prawdopodobieństwa żadnego ze zdarzeń A oraz B nie są równe ani 0 ani 1, to zachodzą następujące równoważności: a. P(AB) = P(A)*P(B) P(A|B) = P(A) b. P(AB) = P(A)*P(B) P(A|B) = P(A|B') c. P(AB) = P(A)*P(B) P(B|A) = P(B) 7 d. P(AB) = P(A)*P(B) P(B|A) = P(B|A') Dwa zdarzenia A i B są pozytywnie zależne stochastycznie wtedy i tylko wtedy, gdy prawdopodobieństwo zdarzenia będącego ich iloczynem jest większe od iloczynu prawdopodobieństw każdego z nich z osobna. A i B są zależne stochastycznie pozytywnie df P(AB) > P(A) * P(B) Jeżeli prawdopodobieństwa żadnego ze zdarzeń A oraz B nie jest równe ani 0, ani 1, to zachodzą następujące równoważności: a. b. c. d. P(AB) P(AB) P(AB) P(AB) > > > > P(A)*P(B) P(A)*P(B) P(A)*P(B) P(A)*P(B) P(A|B) P(A|B) P(B|A) P(B|A) > > > > P(A) P(A|B') P(B) P(B|A') Dwa zdarzenia A i B są negatywnie zależne stochastycznie wtedy i tylko wtedy, gdy prawdopodobieństwo zdarzenia będącego ich iloczynem jest mniejsze od iloczynu prawdopodobieństw każdego z nich z osobna. df A i B są negatywnie zależne stochastycznie P(AB) < P(A) * P(B) Jeżeli prawdopodobieństwa żadnego ze zdarzeń A oraz B nie są równe ani 0, ani 1, to zachodzą następujące równoważności: a. b. c. d. P(AB) P(AB) P(AB) P(AB) < < < < P(A)*P(B) P(A)*P(B) P(A)*P(B) P(A)*P(B) P(A|B) P(A|B) P(B|A) P(B|A) < < < < P(A) P(A|B') P(B) P(B|A') Oznaczając znakiem "+" zależność pozytywną, a znakiem "-" zależność negatywną i zachowując 0 dla oznaczenia niezależności można sformuować praktyczne twierdzenie, wedle którego zastępując w parze zdarzeń jedno z nich przez jego dopełnienie, otrzymuje się parę zdarzeń o przeciwnym znaku (zależności). Zgodnie z tym twierdzeniem, jeżeli dwa zdarzenia A oraz B są stochastycznie niezależne (oznaczone 0), to para zdarzeń A oraz B' jest też parą zdarzeń niezależnych sochastycznie. Jeżeli para zdarzeń B oraz C jest parą zdarzeń zależnych pozytywnie (oznaczonych "+"), to para zdarzeń B' i C jest parą zdarzeń zależnych negatywnie (oznaczonych "-"), a para zdarzeń B' i C' jest parą zdarzeń zależnych pozytywnie (oznaczonych "+") itd. Zdarzenia A1, A2, A3,....,An są n-ką zdarzeń stochastycznych niezależnych wtedy i tylko wtedy, gdy prawdopodobieństwo zdarzenia będącego iloczynem ich wszystkich jest równe iloczynowi prawdopodobieństw każdego z tych zdarzeń z osobna. df A1, A2, A3, ..., An są n-ką zdarzeń niezależnych stochastycznie P(A1 A2 A3 ... An) = P(A1) * P(A2) * P(A3) * ... * P(An) Dwa zdarzenia A i B, które są niezależne stochastycznie stanowią zatem 2-kę zdarzeń niezależnych stochastycznie. Z tego, że n>2 zdarzeń stanowi n-kę zdarzeń niezależnych stochastycznie nie wynika, że dowolna para spośród nich jest parą zdarzeń stochastycznie niezależnych. Podobnie, z tego, że jakieś n>2 zdarzeń są to zdarzenia parami stochastycznie niezależne, nie wynika, że stanowią one n-kę zdarzeń niezależnych stochastycznie. 8 Jeżeli zdarzenia A1, A2, A3, ..., An nie są n-ką zdarzeń niezależnych stochastycznie, to są n-ką zdarzeń zależnych stochastycznie. O zdarzeniach A1, A2, A3, ..., An mówimy, że są one kompletnie stochastycznie niezależne wtedy i tylko wtedy, gdy każdy ich m-elementowy podzbiór zawierający co najmniej dwa zdarzenia jest m-ką zdarzeń stochastycznie niezależnych. Relacje stochastycznej niezależności, zależności pozytywnej i zależności negatywnej są relacjami symetrycznymi: a. P(AB) = P(A)*P(B) P(BA) = P(B)*P(A) b. P(AB) < P(A)*P(B) P(BA) < P(B)*P(A) c. P(AB) > P(A)*P(B) P(BA) > P(B)*P(A) Relacje kompletnej niezależności i kompletnej niezależności oraz niezależności n-ki zdarzeń i ich zależności są także relacjami symetrycznymi. Relacje stochastycznej niezależności, zależności pozytywnej i zależności negatywnej nie są relacjami przechodnimi. Na przykład z tego, że zdarzenia A i B są stochastycznie niezależne oraz zdarzenia B i C są stochastycznie niezależne, nic nie wynika na temat zależności zdarzeń A i C, które mogą być zarówno zależne jak i niezależne stochastycznie. Podobnie, gdyby zdarzenia A i B były zależne pozytywnie oraz zdarzenia B i C również zależne pozytywnie, wówczas także nic by z tego nie wynikało na temat zależności zdarzeń A i C. Tę ostatnią własność relacji między zdarzeniami zilustrujemy za pomocą przykładu. Niech przestrzeń składa się z 6 elementów: = {w1, w2, w3, w4, w5, w6} Do zbioru S niech należą wszystkie jednoelementowe podzbiory przestrzeni {w1} S, {w2} S, {w3} S, {w4} S, {w5} S, {w6} S oraz inne jej podzbiory, które do zbioru S należą ze względu ne jego komplementarność i addytywność. Łatwo można pokazać, że każdy podzbiór przestrzeni należy do zbioru S, gdy każdy podzbiór jest sumą skończonej liczby należących do S jednoelementowych podzbiorów przestrzeni . Niech funkcja P każdemu jednoelementowemu podzbiorowi przestrzeni należącemu do S przyporządkowuje liczbę 1/6, a innym elementom S -liczby zgodnie z treścią postulatów, które tę funkcję określają. P({w1}) = P({w2}) = P({w3}) = P({w4}) = P({w5}) = P({w6}) = 1/6 Funkcja P przyporządkowuje każdemu należącemu do S podzbiorowi przestrzeni liczbę, która jest równa iloczynowi 1/6 i liczby elementów przestrzeni należących do danego podzbioru. Wynika to z nałożonego na tę funkcję postulatu addytywności. Do zbioru S należą między innymi trzy następujące podzbiory przestrzeni: A = {w1} B = {w1, w2} C = {w2, w3} Prawdopodobieństwa przypisane tym podzbiorom są łatwe do wyznaczenia na podstawie tego, co już powiedzieliśmy: 9 P(A)=1/6 P(B)=2/6 P(C)=2/6 Do zbioru S należą również zbiory AB, AC i BC: AB = {w1} AC = {} BC = {w2} Zbiorom tym funkcja P przyporządkowuje odpowiednie wartości: P(AB)=1/6 P(AC)=0 P(BC)=1/6 Zdarzenia A i B są pozytywnie zależne stochastycznie, gdyż 1/6 = P(AB) > P(A)*P(B) = 1/6 * 2/6 = 1/18 Zdarzenia B i C są również pozytywnie zależne stochastycznie, gdyż 1/6 = P(BC) > P(B) * P(C) = 2/6 * 2/6 = 1/9 Natomiast zdarzenia A i C są negatywnie zależne stochastycznie, gdyż 0 = P(AC) < P(A) * P(C) = 1/6 * 2/6 = 1/18 Jest to dostateczny dowód nieprzechodniości relacji zależności stochastycznej pozytywnej. Podobne przykłady mogłyby dowieść nieprzechodniości innych relacji tego typu. W podręcznikach rachunku prawdopodobieństwa, których ten kilkunastostronicowy rozdział nie zamierza zastąpić, Czytelnik znajdzie przykłady zastosowań rachunku prawdopodobieństwa do opisu czy też analizy tzw. doświadczenia losowego. Z takim doświadczeniem losowym (jak np. rzut kostką do gry) wiąże się pewien zbiór jego wyników taki, że w rezultacie przeprowadzenia doświadczenia zachodzi zawsze dokładnie jeden z wyników należących do tego zbioru. Zbiór ten jest przestrzenią . Zdarzeniami są podzbiory tej przestrzeni stanowiące klasę S. Jeżeli wynikom z tego zbioru wyników przypisuje się "jednakowe szanse realizacji", wówczas określa się prawdopodobieństwo zdarzenia na gruncie tzw. klasycznej jego definicji - jako iloraz liczby wyników, które należą do podzbioru tworzącego to zdarzenie oraz liczby wszystkich wyników należących do zbioru wyników. Znane są ograniczenia takiego pojmowania prawdopodobieństwa wynikające z popełnienia przy jego definiowaniu błędu "idem per idem" - definiowania prawdopodobieństwa przez równość szans czyli prawdopodobieństw - oraz konieczność ograniczenia się do skończonych przestrzeni wyników doświadczenia. Próby uniknięcia tych trudności prowadzą przez tzw. geometryczną definicję prawdopodobieństwa, która dopuszcza nieskończone zbiory wyników doświadczenia, cierpi jednak na tę samą chorobę "idem per idem", co definicja klasyczna, do ujęcia częstościowego, które nakazuje traktować jako prawdopodobieństwo zdarzenia częstość jego występowania w długiej serii powtórzeń tego samego doświadczenia. Zaobserwowane częstości w długich lecz skończonych przecież seriach doświadczeń same podlegają jednak losowym wahaniom, które można opisywać posługując się aparaturą pojęciową rachunku prawdopodobieństwa. We współczesnych zastosowaniach rachunku prawdopodobieństwa przyjmuje się, że prawdopodobieństwo zdarzenia losowego nie może być zamierzone bezpośrednio. Zakładając istnienie takiego prawdopodobieństwa możemy jego wartość szacować na podstawie obserwacji wyników uzyskiwanych w długich 10 seriach doświadczeń. O prawdopodobieństwach różnych zdarzeń związanych z obserwowanym doświadczeniem zakłada się - mimo, że same te prawdopodobieństwa nie są znane - że spełniają one warunki nakładane przez postulaty na funkcję P. Tutaj chcielibyśmy tylko zwrócić uwagę na inne, "nieprobabilistyczne" zastosowanie rachunku prawdopodobieństwa. Nie jest ono związane z żadnym powtarzalnym doświadczeniem losowym. Taka interpretacja rachunku prawdopodobieństwa pozwoli stosować ten rachunek do opisu skończonej zbiorowości statystycznej. Ograniczenie się do zbiorowości skończonych jest tu wygodne ale nie jest konieczne. Zostaniemy przy nim, gdyż wcześniej rozważaliśmy tylko skończone zbiorowości statystyczne. Niech zatem będzie jakaś skończona zbiorowość statystyczna. Dla ustalenia uwagi niech będzie to zbiorowość złożona z ludzi. Niech będzie klasa podzbiorów tej zbiorowości: niepusta, komplementarna i addytywna. Zgodnie z przedstawionymi na wstępie postulatami taką klasę podzbiorów można traktować jako zbiór S, a całą zbiorowość statystyczną, z której pochodzą te zbiory, jako przestrzeń . Taka klasa podzbiorów zbiorowości statystycznej niech zawiera zbiór jednostek statystycznych (osób) posiadających cechę B. Ze względu na komplementarność i addytywność klasa ta będzie zawierać również inne podzbiory zbiorowości statystycznej zdefiniowane przez posiadanie lub nieposiadanie przez poszczególne osoby cech A i B. Są to znane z twierdzenia (s. ) zbiory: AB, AB', A'B, A'B', AB, AB', A'B, A'B', A'B'AB i A'BAB', Ponadto do tej klasy należą zbiory: złożone z osób nieposiadających cechy A czyli A' oraz złożony z osób nieposiadających cechy B czyli B', zbiór pusty O oraz zbiór złożony z wszystkich osób należących do zbiorowości statystycznej . Gdybyśmy wzięli pod uwagę więcej niż dwie cechy badanych osób, klasa podzbiorów byłaby odpowiednio bogatsza. Brak nam jeszcze funkcji P, która przyporządkowywałaby liczby podzbiorom zbiorowości statystycznej należącym do klasy S. Znamy dwie funkcje przyporządkowujące liczby zbiorom. Funkcja N liczebność - przyporządkowuje podzbiorom zbiorowości statystycznej ich liczebności. Sprawdzimy, czy funkcja ta spełnia postulaty nałożone w rachunku prawdopodobieństwa na funkcję P. Funkcja P jest określoną i nieujemną dla każdego podzbioru przestrzeni należącego do S. Funkcja N - liczebność zbioru - też jest dla każdego podzbioru zbiorowości statystycznej należącego do S określoną i nieujemną. N(A) 0 Jeżeli dwa podzbiory przestrzeni należące do S są rozłączne, to wartość funkcji P przyporządkowana zbiorowi będącemu ich sumą jest równa sumie wartości funkcji P dla każdego z nich z osobna. Liczebność zbioru będącego sumą dwu zbiorów rozłącznych jest także sumą liczebności każdego ze zbiorów z osobna. AB= N(AB) = N(A) + N(B) Wartość funkcji P przyporządkowana zbiorowi złożonemu ze wszystkich elementów przestrzeni jest równa 1. Funkcja N tego warunku nie spełnia, zbiór jej wartości nie jest ograniczony do zbioru liczb rzeczywistych z przedziału [0,1] lecz jest zbiorem liczb naturalnych. Funkcja N spełnia dwa postulaty nałożone na funkcję P w rachunku prawdopodobieństwa: postulat nieujemności i addytywności. Nie spełnia natomiast postulatu unormowania, wedle którego wartości funkcji P nie przekraczają liczby 1. Zatem funkcja N - liczebnośc - nie jest funkcją P. Każdemu podzbiorowi zbiorowości statystycznej przyporządkowana jest częstość z jaką jego elementy występują w całej zbiorowości. W pierwszym 11 zeszycie skryptu oznaczono częstość przyporządkowaną zbiorowi A jako P(A). Tutaj chwilowo dla uniknięcia nieporozumień oznaczymy tę częstość (A). Częstość jest funkcją liczebności: (A) = N(A) N() Częstość A to iloraz liczebności zbioru A oraz liczebności całej zbiorowości statystycznej. Czętość ta jest funkcją, która każdemu podzbiorowi zbiorowości statystycznej przyporządkowuje liczbę rzeczywistą z przedziału [0,1]. Funkcja ta spełnia wszystkie trzy postulaty nałożone na funkcję P w rachunku prawdopodobieństwa. Częstość (A) dla każdego A będącego podzbiorem zbiorowości statystycznej należącym do klasy S jest określona i nieujemna: (A) 0 Częstość (A) przyporządkowana zbiorowi złożonemu ze wszystkich jednostek zbiorowości statystycznej jest równa 1: () = N() = N() 1 Częstość (AB) przyporządkowana zbiorowi będącemu sumą dwu podzbiorów zbiorowości statystycznej rozłącznych i należących do S jest równa sumie wartości tej funkcji dla każdego z tych zbiorów z osobna: AB= (AB) = (A) + (B) gdyż (AB) = N(AB) = N() N(A)+N(B) N() = N(A) + N() N(B) = (A) + (B) N() Zatem funkcja - częstość - jest funkcją P w sensie określonym przez postulaty rachunku prawdopodobieństwa. Skończoną zbiorowość statystyczną oraz niepustą, komplementarną i addytywną klasę jej podzbiorów i funkcję można utożsamiać z trzema przedmiotami rachunku prawdopodobieństwa: przestrzenią , zbiorem S i funkcją P. Można stosować twierdzenia rachunku prawdopodobieństwa do tych obiektów statystycznych, które są równoważne trzem przedmiotom rachunku prawdopodobieństwa. W ujęciu teoriomnogościowym utożsamia się cechę z jej denotacją - ze zbiorem obiektów, którym ta cecha przysługuje, a relację między zbiorami z relacjami między odpowiednimi cechami. Mówimy np., że dwie cechy się wykluczają, jeżeli zbiory obiektow, którym one przysługują, nie zawierają elementów wspólnych. Przy konotacyjnej interpretacji cech, dla stwierdzenia, że jakieś dwie cechy się wykluczają nie wystarczy pokazać, że w jakimś universum zakresy odpowiednich zbiorów na siebie nie zachodzą, trzeba pokazać, że na gruncie pewnej teorii (pewnego języka) z posiadania jednej z tych cech wynika nieposiadanie drugiej. Przy interpretacji denotacyjnej relacja między cechami zachodzi ze względu na pewną zbiorowość uniwersalną jako relacja między odpowiednimi zbiorami. W interpretacji konotacyjnej realacja między cechami zachodzi ze względu na pewną teorię jako relacja między odpowiednimi zdaniami tej teorii. Rachunek prawdopodobieństwa wzbogaca zbiór relacji między cechami pojmowanymi denotacyjnie, zawierający wszystkie relacje między zbiorami 12 określone w teorii mnogości, o ważną relację niezależności stochastycznej i inne relacje zdefiniowane przy jej pomocy. Mówiąc, że w zbiorowości statystycznej określone są cechy A, B, C, ..., X zakładamy, że są w tej zbiorowości wyodrębnione podzbiory (oznaczamy je tymi samymi symbolami A, B, C, ..., X) złożone z takich jednostek statystycznych, którym przysługują odpowiednie cechy. Ze skończonym zbiorem cech związana jest klasa podzbiorów zbiorowości statystycznej zawierająca zbiory będące denotacjami tych cech w zbiorowości statystycznej traktowanej jako univesum. Jeżeli do tej klasy podzbiorów zaliczymy ponadto zbiory, które z tych wymienionych można uzyskać poprzez operacje dodawania, mnożenia i negacji, to klasa ta będzie niepustą, komplementarną i addytywną klasą podzbiorów zbiorowości statystycznej. Każdemu podzbiorowi należącemu do tej klasy przyporządkowana jest liczebnośc i częstość. Zatem, jeżeli w zbiorowości statystycznej określone są cechy A, B, C, ..., X, to określona trójka przedmiotów rachunku prawdopodobieństwa: przestrzeń - zbiorowość ststystyczna, klasa S podzbiorów tej przestrzeni wyznaczonych przez cechy A, B, C, ..., X oraz funkcja P - częstość. Stwierdzając zachodzenie jakiejś relacji między elementami klasy S mówimy, że relacja ta zachodzi między cechami wyodrębniającymi należące do S podzbiory, między którymi ta relacja zachodzi. Mówimy, że cechy A i B są rozłączone, jeżeli odpowiednie należące do S podzbiory A i B są rozłączne. Mówimy, że cechy A i B są stochastycznie niezależne, gdy zachodzi znana relacja między zbiorami jednostek wyodrębnionych ze względu na te cechy. Relację tę wyrażamy przy użyciu funkcji częstości: (AB) = (A) * (B). Tak rozumiane relacje między cechami zachodzą w konkretnej zbiorowości statystycznej. Niezależność stochastyczna cech, podobnie jak i relacje teoriomnogościowe mogące między cechami zachodzić, jest własnością struktury zbiorowości statystycznej. Można inaczej uzasadniać stosowanie rachunku prawdopodobieństwa do opisu zbiorowości statystycznej. Zakładamy wówczas przeprowadzenie fikcyjnego doświadczenia polegającego na losowaniu ze skończonej zbiorowości statystycznej jednego jej elementu w sposób dający każdemu elementowi takie samo prawdopodobieństwo bycia wylosowanym. (Wobec fikcyjności doświadczenia możemy pominąć kwestię sposobu spełnienia tego warunku.) Zbiorowość statystyczna jest przestrzenią . Do zbioru S należą wszystkie jej jednoelementowe podzbiory, gdyż określiliśmy już przypisane im prawdopodobieństwa. Ponieważ zbiorowość statystyczna jest skończona, a zbiór S jest klasą addytywną, zatem do S należą wszystkie podzbiory zbiorowości statystycznej. Każdy z nich jest sumą skończonej liczby podzbiorów jednoelemntowych. Funkcja P przyporządkowuje każdemu podzbiorowi zbiorowości statystycznej iloraz jego liczebności i liczebności całej zbiorowości statystycznej, czyli jego częstość. W zbiorowości statystycznej są wyodrębnione podzbiory jednostek posiadających pewne cechy. Weźmy dowolną z nich i oznaczmy A. Cesze A przyporządkowane jest prawdopodobieństwo tego, że w wyniku losowania zostanie wylosowana taka jednostka statystyczna, której przysługuje cecha A. Jest to ta sama, co uprzednio, częstość występowania jednostek z cechą A w zbiorowości. Tym razem zamiast mówić wprost o strukturze zbiorowości określonej przez częstości, mówimy o prawdopodobieństwach rozmaitych wyników fikcyjnego doświadczenia losowego, które to prawdopodobieństwa są jednak przez tę strukturę określone w sposób jednoznaczny. Interpretacja ta, bliska zasadniczemu zastosowaniu rachunku prawdopodobieństwa, jakim jest opis doświadczenia losowego, jest dość rozpowszechniona. Jej niewątpliwą wadą jest powoływanie do życia fikcyjnego doświadczenia losowego. Pokazaliśmy, że wprowadzanie tego doświadczenia nie jest koniecznym. 13 Rozdział 2 ZMIENNA LOSOWA dystrybuanta funkcja prawdopodobieństwa rozkład prawdopodobieństwa zmienna losowa skokowa zmienna losowa ciągła funkcja gęstości prawdopodobieństwa parametry rozkładu zmiennej losowej rozkład prostokątny rozkład normalny rozkład 2 Pierwszych 10 stron tego rozdziału przedstawia przy użyciu skromnego aparatu formalnego względnie kompletna definicje zmiennej losowej. Dysponowanie taką definicją nie jest niezbędnym dla zrozumienia dalszych kwestii bedących przedmiotem tego tekstu, byłoby przydatne przy lekturze opracowań bardziej zaawansowanych. Czytelnik może początkowo pominać ten fragment poprzestając na nastepującym wprowadzeniu: Dane jest doświadczenie losowe i zbiór możliwych jego wynikow takich, że przeprowadzając to doświadczenie możemy być pewni, że wystapi dokładnie jeden z tych wyników. Funkcj P, ktora każdemu z tych wynikow przyporządkowuje liczbę rzeczywistą r nazwać będziemy zmienną losową, jeżeli spełnia co najmniej jeden z dwu warunków. 1. Określona jest dla zbioru wartości funkcji X funkcja prawdopodobienstwa P, która każdej wartości xi zminnej X przyporządkowuje prawdopodobienstwo zdarzenia polegającego na tym, ze doświadczenie losowe zakończy sie takim wynikiem, któremu zmienna losowa X przyporządkowuje tę właśnie wartość xi. 2. Określona jest dla zbioru liczb rzeczywistych funkcja F (nazywana dystrybuanta), która każdej liczbie rzeczywistej r przyporządkowuje prawdopodobieństwo zdarzenia polegającego na tym, że doświadczenie losowe zakończy się takim wynikiem, któremu ta zmienna losowa X przyporządkowuje wartość x mniejszą lub równą od danej liczby r. Zmienna losowa, dla której można określić funkcję prawdopodobieństwa, ma skończona lub co najwyżej przeliczalną liczbę różnych wartości i jest nazywana skokową albo dyskretna. Można dla niej wyznaczyć dystrybuantę. Zmienna losowa mająca więcej niż przeliczalną ilość wartości jest nazywana ciągłą i nie można dla niej określić funkcji prawdopodobieństwa a jedynie dystrubuantę. Będziemy mówili, że znamy rozkład prawdopodobieństwa jakiejś zmiennej losowej, jeżeli umiemy odpowiadać na pytania o prawdopodobieństwo tego, że zmienna przyjmie wartość należącą do dowolnego przedziału liczb rzeczywistych lub obszaru będącego suma i/lub iloczynem takich przedziałów. Czytelnik wyposażony w takie informacje może zaryzykowac pobieżną tylko lekture następnych stron i narażając się na pewne niedogodności przejść do dalszej systematycznej lektury poczynajac od strony 27. (Tekst, który może opuścić ujęto w nawiasy {{{{ .... }}}}. 14 {{{{ Niech będzie daną przestrzeń i funkcja X przyporządkowująca elementom tej przestrzeni liczby rzeczywiste. = {w1, w2, ... } X: w x X(w) = x Oznaczymy G(r) podzbiór takich elementów przestrzeni , którym funkcja X przyporządkowuje liczbę rzeczywistą r G(r) = {w: X(w)=r} Symbolem Gx oznaczymy klasę składającą się z podzbiorów G(r) utworzonych ze względu na funkcję X dla wszystkich liczb rzeczywistych ( G(r) Gx r & A Gx ) A=G(s) s Mimo, że zbiór liczb rzeczywistych nie jest skończony, klasa Gx może zawierać skończoną liczbę różnych elementów - podzbiorów G(r). Z tego, że dwie liczby rzeczywiste r1 i r2 nie są równe, nie wynika bowiem, że przyporządkowane im podzbiory G(r1) i G(r2) są różne, mogą być identyczne - puste. Zbiór liczb rzeczywistych, którym przyporządkowane są niepuste podzbiory G(r) jest zbiorem wartości funkcji X. Oznaczać go będziemy zgodnie z przyjętą wcześniej konwencją X. X = { r: X(w)=r } Poszczególne wartości funkcji X oznaczać będziemy x1, x2, ..., xi,... X = {x1, x2, ..., xi, ... } Nie zakładamy, że zbiór ten jest zbiorem skończonym lub co najwyżej przeliczalnym. Oznaczymy H(r) podzbiór złożony z takich elementów przestrzeni , którym funkcja X przyporządkowuje liczby rzeczywiste mniejsze od lub równe r. H(r) = {w: X(w) r} Symbolem Hx oznaczymy klasę składającą się z podzbiorów H(r) utworzonych ze względu na funkcję X dla wszystkich liczb rzeczywistych. ( r H(r) Hx & A Hx ) A = H(s) s Podobnie jak poprzednio: mimo, że zbiór liczb rzeczywistych nie jest skończony, klasa Hx może niekiedy zawierać skończoną tylko liczbę różnych elementów - podzbiorów H(r). Funkcja X przyporządkowująca liczby rzeczywiste elementom przestrzeni jest zmienną losową, jeżeli istnieje taka klasa podzbiorów przestrzeni , która zawiera w sobie klasę Hx złożoną z podzbiorów H(r) utworzonych ze względu na tę zmienną X i jest to klasa niepusta, komplementarna i addytywna lub przeliczalnie addytywna, oraz na elementach tej klasy 15 określona jest funkcja prawdopodobieństwa P addytywna lub przeliczalnie addytywna o wartościach rzeczywistych z przedziału <0, 1>. Załóżmy, że funkcja X, o której będzie dalej mowa, spełnia te warunki, a zatem jest zmienną losową: r AS {w: X(w) r} S r<0,1> P(A) = r Niepustą, komplementarną i addytywną lub przeliczalnie addytywną klasę podzbiorów , która zawiera w sobie klasę Hx podzbiorów H(r) utworzonych ze względu na funkcję X i tylko takie inne podzbiory przestrzeni , które do niej należeć muszą ze względu na jej komplementarność i addytywność lub przeliczalną addytywność nazywać będziemy minimalną ze względu na tę zmienną X klasę S i oznaczać Sx. Minimalna ze względu na zmienną X klasa Sx jest zawarta w każdej klasie S, która zawiera klasę Hx. Hx Sx Hx Sx Sx S Funkcja prawdopodobieństwa P jest określona na klasie S. Założyliśmy, że klasa Hx jest zawarta w klasie S. Zatem minimalna ze względu na X klasa Sx jest zawarta w klasie S. Zatem funkcja prawdopodobieństwa P jest określona w klasie Sx. Funkcję P określoną na minimalnej ze względu na zmienną X klasie Sx nazywać będziemy rozkładem prawdopodobieństwa zmiennej losowej X i oznaczać Px.(Uwaga: Duża litera P.) Px : Sx <0,1> Jeżeli jest określona funkcja prawdopodobieństwa P na klasie S i minimalna ze względu na zmienną X klasa Sx jest w S zawarta, to Px(A) = P(A) AS n Będziemy mówili, że rozkład prawdopodobieństwa zmiennej losowej X jest obcięciem funkcji prawdopodobieństwa P określonej na klasie S do klasy Sx zawartej w S. Dystrybuantą Fx zmiennej losowej X nazywamy taką funkcję, która każdej liczbie rzeczywistej r przyporządkowuje tę liczbę, którą funkcja prawdopodobieństwa P przyporządkowuje zbiorowi H(r). Fx: r <0, 1> Fx(r) = P(H(r) = P({w: X(w) r}) Można dystrybuantę traktować jako złożenie dwu funkcji. Pierwsza przyporządkowuje liczbie rzeczywistej r podzbiór H(r), druga podzbiorowi H(r) przyporządkowuje wartość funkcji P. Fx: Hx <0, 1> Druga z tych funkcji jest obcięciem funkcji P określonej na klasie S do klasy Hx zawartej w S. Jest ona jednocześnie obcięciem funkcji Px 16 - rozkład prawdopodobieństwa zmiennej losowej X - określonej na klasie Sx do klasy Hx zawartej w Sx. Mówiąc o dystrybuancie zmiennej X nieco swobodniej powiemy, że każdej liczbie rzeczywistej r przyporządkowuje ona prawdopodobieństwo tego, że zmienna X przyjmie (lub ma) wartość mniejszą lub równą r. Oznaczając zbiór elementów przestrzeni spełniających warunek X(w) r (skrótowo Xr) możemy definicję dystrybuanty zapisać w sposób prostszy: Fx (r) = P (X r) Funkcją prawdopodobieństwa px zmiennej losowej X nazywać będziemy taką funkcję, która każdej liczbie rzeczywistej r przyporządkowuje tę liczbę, którą funkcja prawdopodobieństwa P przyporządkowuje zbiorowi G(r): px: <0, 1> (Uwaga: Funkcję prawdopodobieństwa w odróżnieniu od rozkładu prawdopodobienstwa oznaczylismy małą literą p.) px(r) = P(G(r)) = P({w: X(w) = r}) r Funkcja prawdopodobieństwa zmiennej X może być traktowana jako złożenie dwu funkcji. Pierwsza przyporządkowuje liczbie rzeczywistej r podzbiór G(r). Druga podzbiorowi G(r) przyporządkowuje wartość funkcji P: px: Gx <0, 1> Druga z tych funkcji jest obcięciem funkcji P określonej na klasie S do klasy Gx. Funkcja ta jest jednocześnie obcięciem funkcji Px - rozkład prawdopodobieństwa zmiennej X - określonej na klasie Sx do klasy Gx. Kwestia, czy dla każdej zmiennej losowej jest określona funkcja prawdopodobieństwa zmiennej musi pozostać na razie otwartą. Nie ustaliliśmy jeszcze, czy klasa G utworzona ze względu na zmienną jest zawsze zawarta w minimalnej ze względu na tę zmienną klasie S. Gdyby klasa Gx zmiennej X nie była zawarta w klasie Sx, wówczas jej funkcja prawdopodobieństwa px nie byłaby określona przez funkcję P, a zatem i przez funkcję Px. Funkcja prawdopodobieństwa zmiennej losowej przyjmuje wartości z przedziału <0, 1>. 0 px(r) 1 r Dystrybuanta zmiennej losowej przyjmuje wartości z przedziału <0, 1>. 0 Fx(r) 1 r Wartościami obu funkcji są bowiem wartości funkcji prawdopodobieństwa P. Dystrybuanta zmiennej losowej jest funkcją niemalejącą: r>s Fx (r) Fx (s) Wynika to z relacji między odpowiednimi podzbiorami należącymi do klasy Hx: 17 r>s H(r) = {w: X(w)r} H(s) = {w: X(w)s} która pociąga za sobą relację przypisanych im przez funkcję P wartości: r>s P(H(r)) = P({w: X(w)r}) P({w: X(w)s}) = P(H(s)) Powiedzieliśmy, że zmienna losowa jest taką funkcją przyporządkowującą liczby rzeczywiste elementom przestrzeni , która spełnia pewne dodatkowe warunki. Należy się zatem spodziewać, że są do pomyślenia funkcje przyporządkowujące liczby rzeczywiste elementom przestrzeni , które nie są zmiennymi losowymi, gdyż nie spełniają owych warunków. Jeżeli przestrzeń ma skończoną liczbę elementów, to każda funkcja przyporządkowująca jej elementom liczby rzeczywiste jest zmienną losową. Jest tak, gdyż dla skończonej przestrzeni klasa wszystkich jej podzbiorów jest niepustą, komplementarną i addytywną klasą S. Klasa wszystkich podzbiorów zawiera w sobie klasę H podzbiorów H(r) utworzonych ze względu na dowolną funkcję określoną na . Zatem każda funkcja rzeczywista określona na skończonej przestrzeni jest zmienną losową w sensie przyjętej definicji. Warunek wymieniony w tej definicji (HxS) może nie być spełniony dopiero wtedy, gdy przestrzeń jest zbiorem liczniejszym od zbioru przeliczalnego i liczniejszym od zbioru przeliczalnego jest zbiór wartości funkcji X. Tylko wtedy klasa Hx utworzona ze względu na tę funkcję może "nie zmieścić się" w żadnej komplementarnej i przeliczalnie addytywnej klasie podzbiorów przestrzeni . Takimi funkcjami nie będziemy się musieli zajmować. Na szczególną uwagę zasługują dwa typy zmiennych losowych. Zmienne pierwszego typu tym się odznaczają, że zbiór wartości każdej z nich jest skończony. Zmienną losową mającą zbiór wartości o skończonej ich liczbie będziemy nazywali zmienną losową skokową. W literaturze terminem tym zwykle określa się nieco szerszą klasę zmiennych mających najwyżej przeliczalne zbiory wartości. Własności zmiennych o przeliczalnych zbiorach wartości i o skończonych zbiorach wartości są podobne. Tutaj zmiennymi o przeliczalnych zbiorach wartości zajmować się nie będziemy. Zmienne drugiego typu to takie, których zbiory wartości są nieprzeliczalne. Ograniczymy się do bardziej jednorodnego ich podzbioru: Zmienną losową przyjmującą wszystkie wartości z pewnego przedziału liczb rzeczywistych o niezerowej długości nazywać będziemy zmienną losową ciągłą: r<a,b> a<b X(w)=r w & X(w)=s w s <a, b> Dalej definicję tę uzupełnimy dodatkowym warunkiem (s. ). Zmienne losowe skokowe i ciągłe w rozumieniu przyjętych tu definicji nie wyczerpują zbioru wszystkich zmiennych losowych. Np. zmienna przyjmująca wartość 0 i wszystkie z przedziału od 2 do 10 nie jest zmienną ciągłą, gdyż zbiór jej wartości nie wyczerpuje przedziału <0, 10> i nie jest skokową, gdyż zbiór jej wartości nie jest skończony. Ograniczając się tylko do dwu przedstawionych typów zmiennych będziemy jednak mogli przedstawić istotne problemy bez pokonywania dodatkowych trudności formalnych. Do takich zmiennych ogranicza się zresztą większość interesujących nas zastosowań, choć nie wszystkie. 18 Zanim przystąpimy do dalszych kwestii, zilustrujemy wprowadzone pojęcia na prostym przykładzie zmiennej losowej skokowej. Niech przestrzeń składa się z 6 elementów: = {w1, w2, w3, w4, w5, w6} Niech będzie określona funkcja X przyporządkowująca elementom przestrzeni liczby rzeczywiste w sposób następujący: wi X(wi) | | w1 2 | | w2 4 | w3 | |3.5 | w4 2 | | w5 1 | | w6 1 | | Klasa Hx zbiorów H(r) utworzonych ze względu na zmienną X składa się z 5 zbiorów: dla dla 1 dla 2 dla 3.5 dla r r r r r < < < < 1 2 3.5 4 4 H(r) H(r) H(r) H(r) H(r) = = = = = O {w5, {w5, {w5, {w5, w6} w6, w1, w4} w6, w1, w4, w3} w6, w1, w4, w3, w2} = = = = = A0 A1 A2 A3 A4 Klasę Gx zbiorów G(r) utworzonych ze względu na zmienną X tworzy również 5 zbiorów: G(1) G(2) G(3.5) G(4) = = = = {w5, w6} {w1, w4} {w3} {w2} dla r {1, 2, 3.5, 4} = = = = A1 A5 A6 A7 G(r) = = A0 Zbiór wartości funkcji X składa się zatem z 4 elementów: X = { 1, 2, 3.5, 4 } Klasa złożona z wszystkich podzbiorów przestrzeni złożona z 26 = 64 podzbiorów jest niepustą, komplementarną i addytywną klasą S. Zawiera ona klasę Hx. Minimalna ze względu na zmienną X klasa Sx składa się z 16-tu podzbiorów przestrzeni . Należą do niej podzbiory H(r) tworzące klasę Hx: A0 A1 A2 A3 A4 = = = = = {w5, {w5, {w5, {w5, w6} w6, w1, w4} w6, w1, w4, w3} w6, w1, w4, w3, w2} = Ze względu na komplementarność i addytywność klasy Sx należą do niej także podzbiory należące do klasy Gx : A1 A5 A6 A7 = = = = G(1) G(2) = A2 & A'1 G(3.5) = A3 & A'2 G(4) = A4 & A'3 = = = = {w5, w6} {w1, w4} {w3} {w2} oraz inne podzbiory przestrzeni będące sumami podzbiorów już do Sx zaliczonych: 19 A8 A9 A10 A11 A12 A13 A14 A15 = = = = = = = = A1 A1 A5 A5 A6 A1 A1 A5 A6 A7 A6 A7 A7 A11 A12 A12 = = = = = = = = {w5, {w5, {w1, {w1, {w3, {w5, {w5, {w1, w6, w6, w4, w4, w2} w6, w6, w4, w3} w2} w3} w2} w1, w4, w2} w3, w2} w3, w2} Klasa Hx jest zawarta w klasie wszystkich podzbiorów przestrzeni oznaczonej S. Zatem minimalna ze względu zmienną X klasa Sx jest zawarta w klasie S. X: Załóżmy, że znana jest funkcja prawdopodobieństwa Px zmiennej losowej r Px(r) | | 1 0.20 | | 2 0.30 | | 3.5 0.25 | | 4 0.25 | | dla każdego innego r wartość funkcji prawdopodobieństwa zmiennej X jest równa 0: r{1,2,3.5,4} px(r) = 0 Wykres funkcji prawdopodobieństwa px ma postać następującą: Funkcja prawdopodobieñstwa Px(r) 0.3 0.2 0.1 0 1 2 3 4 r Wartość funkcji prawdopodobieństwa px są jednocześnie wartościami funkcji Px - rozkład prawdopodobieństwa zmiennej losowej X - i funkcji prawdopodobieństwa P. Pamiętamy, że funkcja px jest obcięciem funkcji Px i P do klasy argumentów Gx. px(1) px(2) px(3.5) px(4) px(3.1) = = = = = Px({w5, w6}) Px({w1, w4}) Px({w3}) Px({w2}) Px({}) = = = = = P({w5, w6}) P({w1, w4}) P({w3}) P({w2}) P({}) = = = = = 0.2 0.3 0.25 0.25 0.0 gdyż gdyż gdyż gdyż gdyż G(1) G(2) G(3.5) G(4) G(3.1) ={w5, w6}= A1 ={w1, w4}= A5 ={w3} = A6 ={w2 = A7 ={} = A0 Nieprzypadkowo okaże się, że pozwalają one odtworzyć rozkład prawdopodobieństwa zmiennej losowej X w całości: A2 =A1A5 A3 =A2a6 A4 =A3A7 & & & A1&A5 = A2&a6 = A3&A7 = Px(A2 ) = Px(A1) + Px(A5 ) = .2 +.3 = .5 Px(A3 ) = Px(A2) + Px(a6 ) = .5 +.25= .75 Px(A4 ) = Px(A3) + Px(A7 ) = .75+.25=1.00 20 A8 =A1A6 A9 =A1A7 A10=A5A6 A11=A5A7 A12=A6A7 A13=A1A11 A14=A1A12 A15=A5A12 & & & & & & & & A1&A6 = A1&A7 = A5&A6 = A5&A7 = A6&A7 = A1&A11= A1&A12= A5&A12= Px(A8 ) Px(A9 ) Px(A10) Px(A11) Px(A12) Px(A13) Px(A14) Px(A15) = = = = = = = = Px(A1) Px(A1) Px(A5) Px(A5) Px(A6) Px(A1) Px(A1) Px(A5) + + + + + + + + Px(A6 ) Px(A7 ) Px(A6 ) Px(A7 ) Px(A7 ) Px(A11) Px(A12) Px(A12) = = = = = = = = .2 +.25= .2 +.25= .3 +.25= .3 +.25= .25+.25= .2 +.55= .2 +.5 = .3 +.5 = .45 .45 .55 .55 .5 .75 .7 .8 Dysponując rozkładem prawdopodobieństwa zmiennej losowej X możemy wyznaczyć dystrybuantę Fx tej zmiennej: Fx = 0. = Px(A0), gdy 0.20 = Px(A1), gdy 1 r < 1, r < 2, a zatem H(r) = A0 = a zatem H(r) = A1 0.50 = Px(A2), gdy 2 r < 3.5, a zatem H(r) = A2 0.75 = Px(A3), gdy 3.5 r < 4, a zatem H(r) = A3 1.00 = Px(A4), gdy 4 r, a zatem H(r) = A4 = Dystrybuanta Fx zmiennej X jest, jak dystrybuanta każdej zmiennej, funkcją niemalejącą. Nieprzypadkowo jest funkcją przedziałami stałą o skończonej liczbie punktów nieciągłości. Tym, jak się przekonamy, charakteryzuje się dystrybuanta każdej zmiennej skokowej. Wykres dystrybuanty Fx jest następujący: Znajomość rozkładu prawdopodobieństwa zmiennej losowej X jest równoważna ze znajomością wartości funkcji prawdopodobieństwa P dla wszystkich elementów minimalnej ze względu na zmienną X klasy Sx. Nie wystarcza jednak dla przypisania wartości tej funkcji tym elementom klasy S, które nie należą do klasy Sx. Np. jednoelementowy podzbiór przestrzeni ={w5} należy do klasy S wszystkich jej podzbiorów lecz nie należy do minimalnej ze względu na X klasy Sx. Zatem wartość funkcji Px - rozkład prawdopodobieństwa zmiennej losowej X - nie jest dla tego podzbioru przestrzeni określona. Znajomość funkcji Px nie wystarcza dla określenia wartości jaką temu podzbiorowi winna przyporządkować funkcji P. {w5} S & {w5} Sx & P({w5}) = ? Będziemy nadal się zajmowali zmiennymi losowymi o skończonej liczbie wartości. Przyjmijmy, że zmienna X ma w różnych wartości. X = { x1, x2, x3, ...., xw ) 21 |X| = w Zatem w klasie Gx utworzonej ze względu na tę zmienną znajduje się w+1 różnych podzbiorów przestrzeni , w tym zbiór pusty: Gx = {, G(x1), G(x2), ..., G(xw)} Podzbiory należące do klasy Gx są parami rozłączne a ich suma wyczerpuje całą przestrzeń . ij G(xi) G(xj) = w G(xi) = i=1 Załóżmy, że wartości zmiennej X są uporządkowane rosnąco: xi > xi-1 Rozważmy ciąg sum zbiorów G(xi) z klasy Gx: G(x1) G(x1)G(x2) G(x1)G(x2)G(x3) . . . . . . . . . . . . . . . . . . . . . . . . G(x1)G(x2)G(x3)... G(xw) Każda z tych sum jest zbiorem należącym do klasy Hx k H(xk) = x X k G(xi) i=1 Jeżeli w klasie S podzbiorów przestrzeni zawarta jest klasa Hx zmiennej X o skończonej liczbie wartości, to jest w tej klasie S zawarta także klasa Gx tej zmiennej. Hx S & |X|=w Gx S Każdy podzbiór G(r) należący do klasy Gx takiej zmiennej może być bowiem przedstawiony jako iloczyn zbioru należącego do klasy Hx i dopełnienia innego takiego zbioru. G(xi) = xiX H(xi), gdy i=1 H(xi) ~H(xi-1), gdy i>1 uwaga: Hx H(x1) = H(x1) ~ natomiast 22 rX jeżeli G(r) = to G(r) = H(x1) ~H(x1) Jeżeli w klasie S podzbiorów przestrzeni zawarta jest klasa Gx zmiennej X o skończonej liczbie wartości, to jest w klasie S zawarta także klasa Hx tej zmiennej. Gx S & |X|=w Hx S Każdy podzbiór należący do klasy Hx może być przedstawiony jako suma podzbiorów przestrzeni należących do klasy Gx. Są to cztery możliwości: a. Jeżeli r < x1, to H(r) = b. Jeżeli r = xk, to H(r) , a zbiór pusty należy do Gx k = G(xi) i=1 k c. Jeżeli xk < r < xk+1, to H(r) = G(xi) i=1 w d. Jeżeli xw < r, to H(r) = G(xi) = i=1 Zatem każdy zbiór należący do klasy Hx jest sumą zbiorów należących do klasy Gx: H(r) = G(xi) xir (i) Jeżeli do minimalnej ze względu na zmienną X klasy Sx należy podzbiór A przestrzeni , to jest on sumą jednego lub więcej podzbiorów należących do klasy Gx i odwrotnie. (ii) Jeżeli jakiś podzbiór A przestrzeni jest sumą jednego lub więcej podzbiorów należących do klasy Gx, to należy on do minimalnej ze względu na zmienną X klasy Sx. Mówiąc nieco swobodniej powiemy, że do klasy Sx należą wszystkie takie i tylko takie podzbiory przestrzeni , które można wyodrębnić ze względu wartości funkcji X przyporządkowane ich elementom. Drugie z tych twierdzeń (ii) jest oczywiste. Ponieważ w Sx zawarta jest klasa Hx, co wynika z definicji zmiennej losowej, jest zawarta w Sx także klasa Gx. Natomiast, jeżeli do Sx należą podzbiory stanowiące klasę Gx, to należą także do niej ich sumy, gdyż jest ona klasą addytywną. Prawdziwość twierdzenia poprzedniego wynika stąd, że: a. klasa Gx jest zawarta w Sx, b. każdy zbiór będący iloczynem zbiorów należących do klasy Hx sam do klasy tej należy, c. każdy element klasy Hx jest sumą zbiorów z klasy Gx, d. klasa Gx składa się ze zbiorów parami rozłącznych, a suma wszystkich jest równa przestrzeni , e. każdy zbiór, który do Sx należy dlatego, że jest dopełnieniem lub sumą zbiorów z klasy Hx jest sumą zbiorów z klasy Gx. Zatem każdy element Sx jest sumą elementów klasy Gx i każda taka suma należy do Sx. 23 Jeżeli dla jakiejś zmiennej X o skończonej liczbie wartości określony jest rozkład prawdopodobieństwa zmiennej, to określona jest funkcja prawdopodobieństwa px oraz dystrybuanta Fx. W minimalnej ze względu na zmienną X klasie Sx zawarta jest klasa Hx. Zatem jest w niej zawarta klasa Gx. Funkcja prawdopodobieństwa px jest obcięciem rozkładu zmiennej X do klasy Hx. Jeżeli dla jakiejś zmiennej losowej X o skończonej liczbie wartości określona jest funkcja prawdopodobieństwa px, to jest dla niej określona także dystrybuanta Fx. Fx(r) = px(xi) r xir Jeżeli dla jakiejś zmiennej X o skończonej liczbie wartości określona jest dystrybuanta Fx, to jest dla niej określona funkcja prawdopodobieństwa px: px(x1) = Fx(x1) px(xi) = Fx(xi) - Fx(xi-1) i>1 Wynika to z relacji zachodzących między zbiorami należącymi do klas Gx oraz Hx: H(x1)= G(x1), stąd px(x1) = Fx (x1) G(xi)+H(xi-1) = H(xi) G(xi) H(xi-1) = i>1 stąd p (xi) + Fx(xi-1) = Fx(xi) i>1 x Jeżeli dla jakiejś zmiennej X o skończonej liczbie wartości określona jest dystrybuanta Fx, to jest określona funkcja Px - rozkład prawdopodobieństwa tej zmiennej. Inaczej mówiąc znajomość dystrybuanty Fx wystarcza dla przyporządkowania wartości funkcji P każdemu podzbiorowi przestrzeni należącemu do klasy Sx. Każdy podzbiór przestrzeni należący do Sx może być przedstawiony jako suma rozłącznych podzbiorów należących do klasy Gx. Funkcja prawdopodobieństwa px przyporządkowuje prawdopodobieństwa wszystkim elementom klasy Gx. Funkcja px jest określona, jeżeli jest określona dystrybuanta Fx. Wynika z tego, że zarówno dystrybuanta Fx jak i funkcja prawdopodobieństwa px wyznaczają rozkład prawdopodobieństwa Px zmiennej X o skończonej liczbie wartości. Żadna z tych trzech funkcji: px, Fx, Px nie określa wartości P dla takich podzbiorów przestrzeni , które należą do klasy S lecz nie należą do minimalnej ze względu na zmienną X klasy Sx. Jest do pomyślenia sytuacja, gdzie na tej samej przestrzeni określone są dwie funkcje X i Y. Niech klasa S zawiera w sobie klasę Sx minimalną ze względu na zmienną X oraz klasę Sy minimalną ze względu na zmienną Y. Na przykład zbiór elementów przestrzeni , którym funkcja Y przyporządkowuje wartość y2 należy do klasy Sy, zatem należy do klasy S. Znając tylko rozkład prawdopodobieństwa zmiennej X określony na klasie Sx nie możemy określić wartości funkcji P przyporządkowanej zbiorowi {w: Y(w)=y2} należącemu do Sy z wyjątkiem przypadku, gdy zbiór ten ze względu 24 na przyporządkowane jego elementom wartości zmiennej X należy do klasy Sx, co miałoby miejsce np. wtedy, gdy zachodziłaby równość: {w: Y(w) = y2} = {w: X(w)=x1 X(w)=x3} Wówczas zachodziłaby bowiem równość następująca: Py ({w: Y(w)=y2}) = Px ({w: X(w)=x1 X(w)=x3}) Dysponując dwiema (lub większą ich liczbą) zmiennymi określonymi na tej samej przestrzeni moglibyśmy chcieć rozważać je łącznie. Są dwa sposoby postępowania w takiej sytuacji. Są one całkowicie równoważne. Można dwie zmienne traktować jako jedną, której wartościami są pary liczb. Zamiast pisać, że X(w)=xi & Y(w)=yj można zmienne te oznaczyć jednym symbolem XY i pisać XY(w)= <xi,yj> . O zmiennej XY mówimy, że jest ona zmienną dwuwymiarową. Dla takiej dwuwymiarowej zmiennej można zdefiniować klasę Gxy złożoną z podzbiorów przestrzeni zawierających elementy przestrzeni, którym funkcja XY przyporządkowuje tę samą parę liczb. G(r,s) = {w: XY(w) = <r,s>} G(r,s) Gxy r,s W analogiczny sposób można zdefiniować klasę Hxy złożoną z podzbiorów: H(r,s) = {w: XY(w) <r,s>} r,s H(r,s) Hxy gdzie relacja <a,b> <r,s> zachodzi wtedy i tylko wtedy, gdy ar & bs. Pozwala to zdefiniować funkcje: rozkład prawdopodobieństwa zmiennej XY, dystrybuantę zmiennej XY oraz jej funkcję prawdopodobieństwa. pxy(r,s) = P(G(r,s)) Fxy(r,s) = P(H(r,s)) Pxy(A) = P(A) gdzie A jest elementem minimalnej ze względu na zmienną XY klasą Sxy Można postępować inaczej i zmienne te konsekwentnie traktować jako dwie różne funkcje X oraz Y, a definiować nowe obiekty: klasę Gxy złożoną z podzbiorów G(r,s) wyznaczonych ze względu na dwie zmienne X i Y jednocześnie: G(r,s) = {w: X(w)=r & Y(w)=s} klasę Hx,y złożoną z podzbiorów H(r,s) wyznaczonych ze względu na dwie zmienne X i Y jednocześnie: H(r,s) = {w: X(w)r & Y(w)s} Różnice mają charakter stylistyczny, oba podejścia są równoważne. Będziemy stosować drugie i mówić o łącznym rozkładzie dwu zmiennych X i Y a nie o rozkładzie dwuwymiarowej zmiennej XY. Ten łączny rozkład dwu zmiennych jest jednoznacznie określony przez łączną dystrybuantę tych zmiennych Fx,y: Fx,y(r,s) = P(H(r,s)) = P({w: X(w)r & Y(w)s}) 25 co można zapisać inaczej Fx,y(r,s) = P(Xr & Ys) Łączny rozkład dwu zmiennych jest też jednoznacznie określony przez łączną funkcję prawdopodobieństwa tych zmiennych px,y: pxy(r,s) = P(G(r,s)) = P({w: X(w)=r & Y(w)=s}) którą też można zapisać inaczej pxy (r,s) = P(X=r & Y=s) Odpowiednią minimalną ze względu na dwie zmienne X i Y łącznie klasę S zawierającą klasę Hx,y oznaczymy Sx,y. Zmienna losowa (jedna lub więcej) związana jest z trójką obiektów spełniających postulaty rachunku prawdopodobieństwa. Są nimi przestrzeń , na której zmienna ta jest określona. Minimalna ze względu na tę zmienną klasę S podzbiorów przestrzeni oraz funkcja - rozkład prawdopodobieństwa zmiennej losowej - określona na tej minimalnej klasie S i spełniająca postulaty nałożone na funkcję P. W przypadku jednej zmiennej X elementy tej trójki oznaczymy: , Sx, Px. Trójka taka może być "zanurzona" w obszerniejszej trójce: , S, P, gdzie np. S jest klasą wszystkich podzbiorów przestrzeni o skończonej liczbie elementów, a funkcja P jest funkcją prawdopodobieństwa określoną na S. Trójka , S, P określa w sposób jednoznaczny trójkę , St, Pt dla każdej zmiennej losowej T określonej na przestrzeni pod warunkiem, że klasa St tej zmiennej jest zawarta w klasie S. Rozkład zmiennej T oznaczony Pt jest wtedy obcięciem funkcji P określonej na S do St, a przestrzenie obu trójek są identyczne. }}}} W poprzednim rozdziale przedstawiliśmy dwie rózne interpretacje przestrzeni . Wedle jednej mogłaby to być zbiorowość statystyczna, wedle drugiej - zbiór możliwych wyników doświadczenia losowego. Utożsamianie przestrzeni ze zbiorowością statystyczną pozwala na naturalne traktowanie zmiennej statystycznej będącej funkcją rzeczywistą określaną na tej skończonej zbiorowości jako zmiennej losowej. Wówczas rozkład zmiennej statystycznej może być traktowany jako rozkład prawdopodobieństwa zmiennej statystycznej, która jest zmienną losową. Pokazaliśmy bowiem wcześniej, że znana ze statystyki opisowej funkcja częstość P posiada własności funkcji P z rachunku prawdopodobieństwa. Moglibyśmy łatwo pokazać, że rozkład częstości zmiennej statystycznej jest funkcją prawdopodobieństwa tej zmiennej traktowanej jako losowa, a dystrybuanta zmiennej statystycznej i dystrybuanta zmiennej losowej są identyczne. Wypada w tym miejscu napisać, choć to oczywiste, że zmienna statystyczna określona w skończonej zbiorowości statystycznej jest zawsze zmienną losową skokową mającą skończoną liczbę wartości. Znamy inne uzasdnienie dla traktowania zmiennej statystycznej jako losowej. Jego ideę również przedstawiliśmy w poprzednim rozdziale. Należy zdefiniować fikcyjne doświadczenie polegające na losowaniu ze zbiorowości statystycznej pojedyńczej jednostki w sposób gwarantujący każdej jednostce takie samo prawdopodobieństwo bycia wylosowaną. Przestrzeń wyników takiego doświadczenia składa się z tylu elementów, z ilu składa się zbiorowość statystyczna. Wygodnie jest przyjmować, że i-tym elementem przestrzeni możliwych wyników takiego doświadczenia jest wynik polegający na wylosowaniu i-tego elementu zbiorowości statystycznej. Zmienna losowa przyporządkowuje i-temu elementowi przestrzeni wyników doświadczenia tę samą liczbę rzeczywistą, którą i-temu elementowi zbiorowości statystycznej przyporządkowuje zmienna statystyczna. Nie jest nadużyciem oznaczanie obu tych zmiennych tym samym symbolem i utożsamianie obu tych przestrzeni. 26 Odpowiednim elementom obu przestrzeni obie zmienne przyporządkowują te same wartości. Dla skończonego zbioru możliwych wyników takiego fikcyjnego doświadczenia losowego istnieje klasa S wszystkich jego podzbiorów. Do tej klasy należą wszystkie jednoelemtowe podzbiory przestrzeni . Założyliśmy, że w tym fikcyjnym losowaniu każda jednostka statystyczna ma to samo prawdopodobieństwo bycia wylosowaną. Każdemu jednoelementowemu podzbiorowi jest zatem przyporządkowana ta sama wartość funkcji P. Liczebność zbiorowości statystycznej oznaczyliśmy n, zatem przestrzeń możliwych wyników doświadczenia też liczy n elementów. = {w1, w2, ..., wn}, i {wi} S, zatem i P({wi}) = c A | N() n A S n P({wi}) = n*c =1 i=1 zatem i P ({wi}) = 1/n Pozwala to na odtworzenie wartości funkcji P przyporządkowanych każdemu podzbiorowi przestrzeni , gdyż każdy z nich jest sumą rozłącznych podzbiorów jednoelementowych. P(A) AS = N(A) = N() |A| / n Jeżeli na zbiorowości statystycznej określona jest zmienna statystyczna X, to na przestrzeni wyników naszego fikcyjnego doświadczenia określona jest zmienna losowa o tych samych wartościach. Będziemy o niej mówili jak o zmiennej losowej X. Jest dla niej określona trójka: , Sx, Px "zanurzona w trójce: , S, P o ustalonych już własnościach. Funkcja prawdopodobieństwa tej zmiennej losowej X jest identyczna z rozkładem częstości zmiennej statystycznej X: i px (xi) = wartość funkcji prawdopodobieństwa zmiennej losowej X P (X = xi) częstość z rozkładu częstości zmiennej statystycznej X Podobnie, dystrybuanta zmiennej losowej X jest identyczna z rozkładem częstości skumulowanych zmiennej statystycznej X: r Fx (r) wartość dystrubuanty w punkcie r zmiennej losowej X = P (X r) częstość skumulowana dla r zmiennej statystycznej X Można mówić o rozkładzie zmiennej statystycznej X w zbiorowości statystycznej jako o funkcji przyporządkowującej częstości podzbiorom zbiorowości statystycznej wyodrębnionym ze względu na wartości tej zmien- 27 nej. X. Jest on identyczny z rozkładem prawdopodobieństwa zmiennej losowej Mając to wszystko na uwadze będziemy zmienną statystyczną traktowali jako szczególny przypadek zmiennej losowej skokowej. Kończąc tę kwestię należy zauważyć, że z jakąś jedną zmienną statystyczną X określoną w pewnej zbiorowości statystycznej związanych może być kilka zmiennych losowych mających identyczne wartości lecz różne rozkłady prawdopodobieństwa. Niech będzie zbiorowość złożona z 10 osób i określona w niej zmienna statystyczna X - wiek osoby. Wyobraź sobie trzy różne doświadczenia losowe: pierwsze z nich niech polega na losowaniu jednej osoby z jednakowymi dla wszystkich prawdopodobieństwami, drugie na losowaniu jednej osoby z prawdopodobieństwami proporcjonalnymi do ich wagi, a trzecie z prawdopodobieństwami proporcjonalnymi do ich wzrostu. Rozkłady prawdopodobieństw zmiennej wzrost osoby wyznaczone dla każdego z tych doświadczeń byłyby różne i tylko pierwszy z nich byłby identyczny z rozkładem częstości zmiennej X w zbiorowości statystycznej. Dwa pozostałe będą się od tego rozkładu różnić, poza przypadkiem, gdzie i wiek i waga oraz wiek i ciężar są zmiennymi w zbiorowości statystycznej stochastycznie niezależnymi. O dwu zmiennych mówimy tutaj, że są one identyczne, jeżeli są określone na elementach tej samej przestrzeni i przyporządkowują im obie te same wartości. W kosekwencji ich rozkłady prawdopodobieństw są identyczne. W omawianym przypadku mamy do czynienia z pozorną identycznością kilku zmiennych "wiek" określonych w przestrzeniach możliwych wyników trzech różnych doświadczeń. Przestrzenie te są równoliczne lecz nie są identyczne. Np. pierwsza zawiera element "wylosowano osobę nr 3 w losowaniu z jednakowymi prawdopodobieństwami". Odpowiednikiem tego elementu w przestrzeni wyników drugiego doświadczenia jest element "wylosowano osobę 3 w losowaniu z prawdopodobieństwami proporcjonalnymi do wagi osób". Nie są to elementy identyczne. Zatem przestrzenie te nie są tą samą jedną przestrzenią, a zmienne nie są identyczne. W kosekwencji mogą mieć różne rozkłady. Wprowadziwszy pojęcie zmiennej losowej i rozkładu prawdopodobieństwa tej zmiennej należałoby zdefiniować parametry charakteryzujące ten rozkład. Nie będziemy musieli tego robić teraz, gdyż zostały one zdefiniowane we wcześniejszych rozdziałach tego skryptu jako parametry rozkładu zmiennej statystycznej w skończonej zbiorowości statystycznej. Należy tylko we wszystkich przedstawionych tam definicjach zastąpić częstości przez prawdopodobieństwa. co jest zabiegiem jedynie stylistycznym wobec tego, że częstość jest prawdopodobieństwem. Np. średnią zmiennej statystycznej oznaczono tam E(X) i zdefiniowano jako wartość wyrażenia arytmetycznego: E(X) = k xi * P(X=xi) i=1 gdzie P(X=xi) interpretowano jako częstości w całej zbiorowości statystycznej takich jednostek obserwacji, którym zmienna X przypisuje wartość xi: P(X=xi) = N(X=xi)/N() Średnia zmiennej losowej X, którą również oznaczamy E(X) , nazywamy wartość wyrażenia arytmetycznego, którego zapis niczym nie różni się od poprzedniego: 28 E(X) = k xi * P(X=xi) i=1 gdzie P(X=xi) interpretuje się jako prawdopodobieństwo zdarzenia polegającego na tym, że zmienna losowa przyjmuje (ma) wartość xi, czyli jako wartość funkcji prawdopodobieństwa px zmiennej losowej X w punkcie xi: Należy zalecić Czytelnikowi, by zechciał pamiętać, że zmienne statystyczne, o których była mowa we wcześniejszych rozdziałach są szczególnym przypadkiem zmiennych losowych. Przedstawione tam definicje i twierdzenia dotyczące zmiennych statystycznych należy ekstrapolować na wszelkie losowe zmienne skokowe. Jedynymi wyjątkami są te definicje i twierdzenia, w których zamiast częstości występują liczebności. Trzeba bowiem pamiętać, że zmienna losowa o skończonej liczbie wartości może być określona w przestrzeni o nieskończonej liczbie elementów, gdzie podzbiorom nie przyporządkowujemy liczebności. Na szczególną uwagę zasługują takie bardzo ogólne twierdzenia mówiące, że funkcja zmiennej losowej jest sama zmienną losową, definicje wprowadzające pojęcia: łącznego rozkładu zmiennych losowych, brzegowego rozkładu zmiennej losowej i warunkowych rozkładów zmiennej losowej, definicje różnych typów relacji między zmiennymi losowymi itd. Po tej obszernej dygresji wrócimy do zasadniczego toku wykładu i zajmiemy się zmiennymi losowymi, które przyjmują wszystkie wartości z pewnego przedziału liczb rzeczywistych. Zmienną losową X będziemy nazywać zmienną losową ciągłą wtedy i tylko wtedy, gdy zbiór jej wartości jest zbiorem wszystkich liczb rzeczywistych z przedziału o niezerowej długości, X(w)=r & a X(w) b r<a,b) w w a<b r oraz jej dystrybuanta jest funkcją w tym przedziale ciągłą. Nie jest tak, by każda zmienna losowa była albo zmienną skokową o skończonej liczbie wartości albo zmienną ciągłą w znaczeniu wprowadzonym przez tę definicję. Np. zmienna losowa, której zbiór wartości składa się z liczby 0 oraz wszystkich liczb z przedziału od 5.1 do 6.7 nie jest ani zmienną o skończonej liczbie wartości, ani zmienną ciągłą. Nawet zmienna przyjmująca wszystkie wartości z przedziału od 5.1 do 6.7 i tylko takie wartości mogłaby nie być zmienną losową ciągłą w rozumieniu tej definicji, gdyby jej dystrybuanta nie była w tym przedziale funkcją ciągłą. Znajomość tych dwu wyróżnionych typów zmiennych wystarczy jednak dla zrozumienia podstawowych idei wnioskowania statystycznego i daje wyobrażenie o różnorodności zmiennych. Tylko ku temu zmierzamy. Ciągła zmienna przyporządkowuje każdemu elementowi przestrzeni liczbę rzeczywistą z przedziału od jakiegoś a do jakiegoś b. Dla każdej liczby rzeczywistej z tego przedziału istnieje co najmniej jeden taki element przestrzeni , któremu zmienna ta przyporządkowuje tę właśnie wartość. Jeżeli X jest zmienną losową ciągłą, to istnieje klasa S0 podzbiorów przestrzeni minimalna ze względu na tę zmienną zawierającą wszystkie podzbiory H(r) określone dla tej zmiennej: (a) H(r) = {w: X(w) r} S0 r i tylko takie inne podzbiory przestrzeni, które do niej należeć muszą ze względu na jej komplementarność i addytywność. 29 Ze względu na komplementarność należą do tej klasy S0 także dopełnienia każdego zbioru H(r): (b) ~H(r) = {w: X(w) > r} S0 r Ze względu na komplementarność i addytywność należą do S0 iloczyny każdego zbioru H(r) z dopełnieniem każdego takiego zbioru: (c) H(s) & ~H(r) = ~(~H(s) H(r)) S0 s,r Ze względu na addytywność należą do S0 sumy każdej skończonej liczby zbiorów już należących do S0: (d) i Ai S0 A1 A2 ... An S0 Minimalną ze względu na zmienną X klasę oznaczyliśmy wcześniej symbolem Sx. Wówczas nie precyzowaliśmy jednak, czy klasa ta ma być addytywną czy przeliczalnie addytywną. Klasa S0 jest tylko addytywną. Przyjmując rozszerzoną wersję postulatu addytywności - addytywność przeliczalną zdefiniujemy klasę S1 rozszerzając klasę S0 minimalną ze względu na zmienną X do postaci zawierającej, poza wymienionymi już zbiorami, także inne, które są ich przeliczalnymi sumami oraz ich dopełnieniami. Jeżeli X jest zmienną losową ciągłą, to istnieje klas S1 podzbiorów przestrzeni minimalna ze względu na tę zmienną zawierającą wszystkie podzbiory Hr określone dla tej zmiennej i tylko takie inne podzbiory przestrzeni, które do niej należeć muszą ze względu na jej komplementarność i przeliczalną addytywność. Klasa S1 poza zbiorami wymienionymi w punktach (a), (b), (c), (d) i należącymi do S0 zawiera także następujące inne zbiory: podzbiory G(r) należące do klasy Gx (e) G(r) = {w: X(w) = r} S1 r podzbiory przestrzeni złożone z elementów, którym zmienna X przyporządkowuje liczby z pewnego przedziału: (f) {w: X(w) r} S1 r (g) {w: X(w) < r} S1 r<s (h) {w: s X(w) < r} S1 r<s (i) {w: s X(w) r} S1 r<s (j) {w: s < X(w) < r} S1 r<s przeliczalne sumy zbiorów wymienionych typów oraz ich dopełnienia. Nie należą do S1 nieprzeliczalne sumy takich zbiorów. Np. nie należy do S1 podzbiór takich elementów przestrzeni , którym zmienna X przyporządkowuje liczby wymierne. Podzbiór ten jest sumą zbiorów z klasy Gx, 30 każdy z nich należy do S1. Jest on jednak sumą nieprzeliczalnej ilości takich zbiorów. Zatem do S1 nie należy. Nie będziemy uzasadniać przedstawionych konsekwencji przyjęcia przeliczalnej addytywności jako własności minimalmej ze względu na zmienną X klasy S. Wskażemy jedynie na dające się teraz zauważyć różnice między zmiennymi skokowymi a ciągłymi. Dla zmiennej skokowej X minimalna ze względu na tę zmienną klasa Sx składa się z tych samych podzbiorów przestrzeni bez względu na to, czy jest ona przeliczalnie addytywna, czy tylko addytywna. Klasa Hx takiej zmiennej składa się bowiem ze skończonej liczby zbiorów, a przeliczalna suma takich zbiorów, których liczba jest skończona, jest zawsze równa jakiejś sumie skończonej liczby takich zbiorów. Inaczej mówiąc klasy S0 i S1 utworzone dla zmiennej skokowej byłyby identyczne. Dla zmiennej ciągłej tak nie jest. Dla ciągłej zmiennej X można określić, różną od S0, minimalną klasę S1 zawierającą prócz podzbiorów należących do S0 także inne, które są do niej dołączone ze względu na przeliczalną addytywność klasy S1. Klasa Sx minimalna ze względu na skokową zmienną X zawiera wszystkie podzbiory przestrzeni, które można wyodrębnić ze względu na wartości przyporządkowane ich elementom przez tę zmienną. Klasa S0 minimalna ze względu na ciągłą zmienną X nie zawiera wszystkich podzbiorów przestrzeni , które można wyodrębnić ze względu na tę zmienną. Także klasa S1 określona ze względu na tę ciągłą zmienną X nie zawiera wszystkich takich podzbiorów przestrzeni. Przykładem może być wspomniany już zbiór elementów przestrzeni, którym zmienna przyporządkowuje liczby wymierne. Jeżeli funkcja P jest określona na klasie S0 zmiennej losowej ciągłej X, to jest ona także określona na klasie S1 tej zmiennej pod warunkiem, że przyjmiemy przeliczalną addytywność funkcji P. Ponieważ nie wszystkie dające się za pomocą funkcji X wyodrębnić podzbiory przestrzeni należą do S1, nie dla wszystkich podzbiorów przestrzeni wyodrębnionych ze względu na wartości zmiennej wartość funkcji P może być określona. Pytanie, jakie jest prawdopodobieństwo tego, że zmienna ciągła przyjmie wartość będącą liczbą rzeczywistą musi pozostać otwartym. Pamiętamy, że funkcja P może być określona na dowolnej klasie S zawierającej w sobie klasę S1 interesującej nas zmiennej X. Funkcję P obciętą do klasy S1 określonej ze względu na ciągłą zmienną losową X nazywamy rozkładem prawdopodobieństwa tej zmiennej. Dystrybuanty ciągłej zmiennej losowej X będąca obcięciem funkcji P określonej na klasie S do klasy Hx pozwala odtworzyć wartości funkcji P dla wszystkich elementów klasy S1. Inaczej mówiąc, dystrybuanta zmiennej ciągłej, podobnie jak dystrybuanta zmiennej skokowej, określa jednoznacznie rozkład prawdopodobieństwa zmiennej losowej. Załóżmy, że znamy dystrybuantę zmiennej X, czyli funkcję, która każdej liczbie rzeczywistej przyporządkowuje wartość funkcji P, która jest przypisana przez funkcję P odpowiedniemu zbiorowi Hr. Fx(r) = P(H(r)) = P({w: X(w) r}) Korzystając ze znanych własności funkcji P możemy na podstawie informacji zawartych w dystrybuancie odtworzyć wartości P dla wszystkich podzbiorów przestrzeni należących do klasy S0: (a) P (H(r)) = Fx (r) (b) P (~H(r)) = 1 - Fx (r) (c) P ({w: r < X(w) s}) = Fx (s) - Fx (r) (d) Wartość funkcji P przyporządkowana skończonej sumie "odcinków" jest równa sumie wartości funkcji P przyporządkowanych "odcinkom" rozłącznym, które tamte dokładnie pokrywają. Bez dowodu przyjmiemy twierdzenie następujące: Jeżeli zmienna X jest zmienną losową ciągłą, to jej funkcja prawdopodobieństwa jest funkcją stałą i równą 0. 31 (e) px(r) = P(G(r)) = P({w: X(w)r}) = 0 r Korzystając z tego twierdzenia możemy wyznaczyć wartość funkcji P dla podzbiorów należących do S1, które nie należały do S0 (f) P({w: X(w) r}) = P({w: X(w) > r}) = 1 - Fx(r) (g) P({w: X(w) < r}) = P({w: X(w) r}) = Fx(r) (h) P({w: s X(w) < r}) = P({w: s X(w) r}) = Fx(s) - Fx(r) (i) P({w: s X(w) r}) = P({w: s < X(w) r}) = Fx(s) - Fx(r) (j) P({w: s < X(w) < r}) = P({w: s < X(w) r}) = Fx(s) - Fx(r) Korzystając z tzw. twierdzenia o rozszerzeniu miary można pokazać, że dystrybuanta zmiennej losowej ciągłej jednoznacznie określa wartości funkcji P dla wszystkich pozostałych podzbiorów przestrzeni należących do S1. Wykracza to jednak poza granice tego kursu. Gęstość prawdopodobieństwa zmiennej losowej X w przedziale <c,s> oznaczona gx (c,s) jest to iloraz wartości funkcji P przyporzadkowanej zbiorowi elementów przestrzeni, którym zmienna X przypisuje wartości z tego przedziału oraz jego długości: gx(c,s) = P({w: c < X(w) s}) s - c = Fx(s) - Fx(r) s - c Gęstością prawdopodobieństwa zmiennej X w jakimś przedziale jest zatem prawdopodobieństwo tego, że zmienna X przyjmie (lub ma) wartość z tego przedziału podzielone przez jego długość. Rozważmy teraz gęstość prawdopodobieństwa zmiennej X w przedziale <x0, x0->. należącym do lewostronnego otoczenia punktu x0. Długość tego przedziału jest równa . P({w: x0- < X(w) x0}) gx (x0,x0-) = = Fx(x0) - Fx(x0-) Granicę tego ilorazu dla dążącego do zera nazywamy gęstością prawdopodobieństwa zmiennej X w lewostronnym otoczeniu punktu x0. Jeżeli istnieje gęstość prawdopodobieństwa zmiennej X w lewostronnym otoczeniu punktu x0 i istnieje gęstość prawdopodobieństwa tej zmiennej w prawostronnym otoczeniu punktu x0 i obie te gęstości są sobie równe, to ich wspólną wielkość nazywamy gęstością prawdopodobieństwa zmiennej X w punkcie x0 i oznaczamy fx(x0) lim 0 = P({w: x0- < X(w) x0}) = lim 0 Fx (x0) - Fx (x0-) = fx(x0) Funkcję, która każdej liczbie rzeczywistej r przyporządkowuje gęstość prawdopodobieństwa zmiennej X w tym punkcie r nazywamy funkcją gęstości prawdopodobieństwa zmiennej X i oznaczamy f. Następne twierdzenia, które przyjmiemy bez dowodów, przedstawiają własności funkcji gęstości prawdopodobieństwa. Później przedstawimy graficzną interpretację tych twierdzeń. 32 Funkcja gęstości prawdopodobieństwa zmiennej X jest pochodną dystrybuanty tej zmiennej. fx(r) = Fx'(r) Zatem wartość funkcji fx w punkcie r zdaje sprawę z nachylenia funkcji Fx w tym punkcie. Całka oznaczona funkcji gęstości prawdopodobieństwa zmiennej X w przedziale <- ,+> jest równa 1. + fx(t) dt = 1 - Czyli pole pod wykresem funkcji gęstości prawdopodobieństwa a nad osią X jest równe 1. Wartość dystrybuanty zmiennej losowej X w punkcie r jest równa całce oznaczonej funkcji gęstości prawdopodobieństwa tej zmiennej w przedziale <-,r) czyli polu pod funkcją gęstości nad tym przedziałem. Fx(r) r = fx(t) dt = 1 - Zatem prawdziwym jest następujące twierdzenie: Prawdopodobieństwo tego, że zmienna losowa X przyjmie (lub ma) wartość z przedziału <c, s> jest równe całce oznaczonej funkcji gęstości tej zmiennej w przedziale <c, s> czyli polu pod tą funkcją nad tym przedziałem. P(c < X s) = Fx(s) - Fx(r) = s fx(t) dt = 1 c Zmienna losowa ciągłą swą nazwę zawdzięcza temu, że jej dystrybuanta jest funkcją ciągłą. Istnieje pochodna tej ciągłej dystrubuanty, jest nią funkcja gęstości prawdopodobieństwa. Zmienna losowa o skończonej liczbie wartości ma dystrubuantę nieciągłą, o skończonej liczbie punktów nieciągłości. Liczba punktów nieciągłości jest równa liczbie wartości tej zmiennej. Gdyby dla zmiennej skokowej usiłować określić funkcję gęstości prawdopodobieństwa okazała by się ona prawie wszędzie równą 0, a w punktach nieciągłości dystrybuanty byłaby nieokreśloną. Dystrybuantę zmiennej skokowej można przedstawić jako sumę wartości funkcji prawdopodobieństwa. Dystrybuantę zmiennej ciągłej - jako całkę funkcji gęstości. Rozkład zmiennej losowej ciągłej charakteryzujemy za pomocą tych samych parametrów, które służą do opisu rozkładu zmiennej o skokowej liczbie wartości. Znane nam ich definicje zdają się być nieprzydatne do wyznaczenia parametrów zmiennej ciągłej ze względu na występujące w nich wartości funkcji prawdopodobieństwa zmiennej. Funkcja ta dla zmiennej ciągłej jest funkcją stałą i równą 0, rozkładu takiej zmiennej nie charakteryzuje wcale. Nie popełnimy jednak błędu mówiąc, że definicje te są wystarczające dla obliczenia parametrów rozkładu zmiennej ciągłej z dowolnie małym choć zwykle niezerowym błędem. Rozważmy dla przykładu obliczanie średniej wartości zmiennej X, ciągłej, która przyjmuje wszystkie wartości z jakiegoś przedziału od a do b, powiedzmy od 10 do 15. Zakładamy, że znamy dystrybuantę zmiennej X. Podzielmy zatem obszar zmienności na w=5 przedziałów o równej długości. Długość każdego z nich jest równa (b-a)/w = 1. Znając dystrybuantę zmiennej X możemy każdemu przedziałowi przypisać prawdopodobieństwo tego, że zmienna przyjmie lub ma wartość z tego przedziału. Biorąc jakikolwiek 33 przedział musimy pamiętać, że należą doń różne wartości zmiennej X. Zastępując wszystkie wartości jedną liczbą będziemy popełniali błędy. Jeżeli w każdym przedziale zastąpimy należące do niego wartości zmiennej przez środek tego przedziału, będziemy się musieli liczyć z błędami, które nie będą jednak większe od połowy długości tego przedziału. Zastąpiwszy wartości zmiennej przez środki przedziałów, z czym wiążą się znane błędy, możemy dla obliczenia średniej posłużyć się definicją skonstruowaną dla zmiennej o skończonej liczbie wartości. Obliczymy średnią zmiennej X jako sumę iloczynów środków przedziałów xi oraz prawdopodobieństw należenia do tych przedziałów pi. Błąd w oszacowaniu średniej E(X) nie będzie większy od połowy długości przedziału (b-a)/w: |E(X) - w xi*pi| i=1 0.5*(b-a)/w W naszym przykładzie wartość bezwzględna błędu nie przekroczy 0.5. Zwiększając liczbę przedziałów, czyli skracając ich długość, możemy wielkość tego błędu, a właściwie jego górnej granicy, zmniejszać nieograniczenie nie osiągając nigdy zera. Przez średnią zmiennej ciągłej X rozumiemy zatem granicę sum iloczynów xi*pi dla w, będącego liczbą przedziałów o równej długości pokrywających obszar zmienności losowej X, rosnącego nieograniczenie. E(X) = lim w w xi pi i=1 Osoby znające nieco analizę matematyczną zauważyły, że średnią zmiennej X, ciągłej, można było zdefiniować inaczej, jako całka oznaczoną iloczynu x * fx(x): + E(X) = x * fx(x) dx - Na koniec przedstawimy definicję kwantyla i modalnej skonstruowane z myślą o zmiennych ciągłych. Modalną Mo(X) zmiennej X jest taka liczba, dla której funkcja gęstości prawdopodobieństwa zmiennej X osiąga wartość maksymalną. r jest modalną zm.X df fx(r) fx(s) s Modalna zmiennej ciągłej, podobnie jak modalna zmiennej skokowej, jest zatem szczególnym rodzajem funkcji - przyporządkowuje rozkładowi zmiennej zbiór liczb spełniających pewien warunek. Każda z nich zasługuje na to, by ją nazywać wartością modalną zmiennej. W praktyce najczęściej spotykamy się z takimi zmiennymi, które mają rozkłady jednomodalne, mają jedną tylko modalną. Mówimy, że zmienna ma rozkład wielomodalny nie tylko wtedy, gdy ma ona więcej niż jedną modalną, ale także wtedy, gdy jej funkcja gęstości ma więcej niż jedno lokalne maksimum. Kwantylnym k-tym rzędu n-tego Qk,n ciągłej zmiennej losowej X jest taka liczba rzeczywista r, której dystrubuanta tej zmiennej przyporządkowuje wartość k/n. r jest k-tym kwantylem rzędu n df Fx(r) = k/n Podobnie jak w przypadku modalnej może być więcej niż jedna liczba spełniająca ten warunek. Jest to możliwe, gdy nad pewnym wycinkiem obszaru 34 zmienności zmiennej X jej dystrybuanta jest funkcją stałą, a zatem funkcja gęstości prawdopodobieństwa jest równa 0. Kwantyle rzędu 4-go nazywamy kwartylami, kwantyle rzędu 10 - decylami. Mediana jest kwantylem pierwszym rzędu drugiego. Jednocześnie jest 2-gim kwartylem, 5-tym decylem, 50-tym centylem itd. Ponieważ dalej nie będziemy musieli obliczać parametrów interesujących nas zmiennych ciągłych, poprzestaniemy na stwierdzeniu, że rozkład zmiennej lub zmiennych ciągłych charakteryzujemy za pomocą tych zmiennych parametrów, co rozkład zmiennej lub zmiennych o skończonej liczbie wartości i że sens tych parametrów jest w obu przypadkach identyczny. Przedstawimy teraz przykłady trzech zmiennych ciągłych. Będą to zmienne o rozkładach: prostokątnym, normalnym i 2. Zmienną losową X przyjmującą wszystkie wartości z jakiegoś przedziału (a, b> nazywamy zmienną losową o rozkładzie prostokątnym wtedy i tylko wtedy, gdy dystrybuanta tej zmiennej jest w przedziale (a, b> funkcją liniową, a poza tym przedziałem jest funkcją stałą. Pamiętając o ogólnych własnościach dystrybuanty wyznaczymy dystrybuantę zmiennej X o rozkładzie prostokątnym w sposób następujący. Dla każdej liczby rzeczywistej r mniejszej od a, wartość dystrubuanty zmiennej X jest równa 0, gdyż zbiór H(r) dla każdego r<a jest zbiorem pustym. P(H(r)) = P({w: X(w) r} = P() = 0 r<a Dla każdej liczby rzeczywistej r większej lub równej b, wartość dystrybuanty zmiennej X jest równa 1, gdyż zbiór H(r) dla każdego rb zawiera całą przestrzeń i przyporządkowana mu wartość funkcji P jest równa 1. P(H(r)) = P ({w: X(w) r} = P () = 1 rb Ponieważ dwa punkty wyznaczają prostą, dystrubuanta jest funkcją ciągłą a w przedziale od a do b dystrybuanta zmiennej X jest właśnie prostą, zatem została określona w całości: Fx(r) = 0, gdy r < a r-a b-a = a 1 + r * , b-a b-a 1, gdy r (a, b> gdy Funkcja gęstości prawdopodobieństwa zmiennej X fx jest pochodną wyznaczonej już dystrubuanty gdzie dystybuanta jest funkcją stałą, dodatnią jest funkcją rosnącą i stałą, tam gdzie wzrost funkcją gęstości jest równe 1. Zatem: fx(r)=Fx'(r) = r b o rozkładzie prostokątnym Fx. Jest ona równą 0 tam, tam, gdzie dystrybuanta ten jest liniowy. Pole pod 0, gdy r < a 1 , b-a gdy r (a, b) 0, gdy r > b Zgodnie z przyjętą definicją, funkcja gęstości nie jest określona w punktach a i b, gdyż w tych punktach granica prawdopodobieństwa w lewostronnym otoczeniu punktu nie jest równa granicy gęstości prawdopodobieństwa w prawostronnym jego otoczeniu. 35 Gęstość prawdopodobieństwa w każdym przedziale (c, s> zawartym w przedziale (a, b> jest równa 1/(b-a). c<s & c(a,b> & s(a,b> s-a c-a - b-a b-a = s - c = s-c b-a = s-c P({w: c<X(w)s}) = s-c 1 b-a Zatem dla każdego punktu należącego do przedziału (a, b> dopodobieństwa w punkcie jest równa 1/(b-a) r(a,b) fx(r) = gęstość praw- 1 b-a Poza obszarem (a, b> gęstość prawdopodobieństwa w każdym przedziale (a, b) jest równa 0, gdyż prawdopodobieństwo tego, że zmienna X przyjmie wartość z przedziału w całości leżącego poza obszarem (a, b) jest równa 0. (c<s & sa c>b) P ({w: c < X(w) s}) = 0 Zatem dla każdego punktu nie należącego do przedziału (a, b> prawdopodobieństwa jest równa 0. r(a,b) gęstość fx(r) = 0 Pozwala to uzasadnić twierdzenie o nieokreślonej funkcji gęstości prawdopodobieństwa zmiennej losowej X w punktach a i b: Fx(a) - Fx(a-) = >0 <(b-a) Fx(b) - Fx(b-) = >0 <(b-a) 0 1 = b-a 1 b-a 0 = Fx(a+) - Fx(a) Fx(b+) - Fx(b) Przedstawimy teraz funkcję gęstości prawdopodobieństwa zmiennej X oraz jej dystrybuantę na dwu sąsiednich wykresach. 36 Patrząc na oba rysunki przypomnijmy jeszcze raz własności funkcji gęstości prawdopodobieństwa. Jest ona pochodną dystrybuanty, czyli zdaje sprawę z jej nachylenia. Jest równa 0 tam, gdzie dystrybuanta jest funkcją stałą, jest stała i dodatnia tam, gdzie dystrybuanta ma stałe nachylenie (liniowo rośnie). Pole pod funkcją gęstości a nad osią X to pole prostokąta o wysokości 1/(b-a) i długości podstawy równej (b-a), zatem pole to jest równe 1. Pole nad jakimś przedziałem pod funkcją gęstości jest równe prawdopodobieństwu tego, że zmienna przyjmie wartość z tego przedziału. Na rysunku zaznaczono granice takiego przedziału (c, s> leżącego wewnątrz obszaru wartości zmiennej X. Prawdopodobieństwo tego, że zmienna przyjmie wartość z tego przedziału oznaczone jest na wykresie dystrybuanty jako Q - różnica wartości dystrybuanty Fx w punktach s oraz c. Na wykresie funkcji gęstości prawdopodobieństwo to jest też oznaczone literą Q - jest to pole pod funkcją gęstości a nad odcinkiem (c, s>. Łatwo sprawdzić, że miarą pola Q i odcinka Q jest ta sama liczba (s-c)/(b-a). Obliczymy teraz średnią wartość zmiennej X przyjmując, że jej wartość maksymalna b=10, a od dołu zbiór jej wartości jest ograniczony przez liczbę a=5. Podzielimy obszar zmienności (5, 10> na w=10 przedziałów o równej długości. Każdy przedział ma swój numer i, dolną granicę di, górną granicę gi, środek przedziału xi, prawdopodobieństwo tego, że zmienna X przyjmie wartość należącą do tego przedziału pi. To prawdopodobieństwo pi jest równe różnicy dystrybuanty w punktach gi oraz pi. Wszystkie te wielkości umieszczone są w tablicy. Dwie ostatnie jej kolumny zawierają składniki sum, które są oszacowaniami średniej zmiennej X oraz wariancji tej zmiennej. 37 Obliczanie średniej i wariancji zmiennej X (aproksymacja) i di gi xi pi xi*pi (xi-7.5)2*pi 1 5.0 5.5 5.25 0.1 0.525 0.50626 2 5.5 6.0 5.75 0.1 0.575 0.30525 3 6.0 6.5 6.25 0.1 0.625 0.15625 4 6.5 7.0 6.75 0.1 0.675 0.05625 5 7.0 7.5 7.25 0.1 0.725 0.00625 6 7.5 8.0 7.75 0.1 0.775 0.00625 7 8.0 8.5 8.25 0.1 0.825 0.05625 8 8.5 9.0 8.75 0.1 0.875 0.15625 9 9.0 9.5 9.25 0.1 0.925 0.30625 10 9.5 10.0 9.75 0.1 0.975 0.50625 7.500 2.06250 Średnia zmiennej X o rozkładzie prostokątnym przyjmująca wartości z przedziału od 5 do 10 rzeczywiście jest równa środkowi tego obszaru zmienności i wynosi 7.5. Uzyskaliśmy zatem dokładny rezultat. Wariancja tej zmiennej została przez nas oszacowana jako 2.0625. Zapewne dokładniejszy rezultat uzyskalibyśmy dzieląc obszar zmienności na więcej niż 10 przedziałów. Np. dla w=20 uzyskalibyśmy przybliżoną wartość wariancji zmiennej X równą 2.078125. W rzeczywistości wariancja jest jeszcze nieco wyższa. Medianą zmiennej X o rozkładzie prostokątnym jest zawsze środek jej obszaru zmienności (a, b>: Me(x) = (a+b)/2 Ogólnie, k-ty kwantyl rzędu n-tego takiej zmiennej wyznaczamy bez trudu pamiętając o tym , że dystrybuanta jest w obszarze zmienności funkcją liniową: Qk,n = a + k*(b-a)/n Modalną zmiennej X o rozkładzie prostokątnym jest każda liczba będąca jej możliwą wartością, gdyż funkcja gęstości takiej zmiennej jest stałą w całym obszarze zmienności r(a,b> s(a,b> fx(r) fx(s) Zmienną losową X przyjmującą wszystkie wartości z przedziału (-, +) nazywamy zmienną losową o rozkładzie normalnym wtedy i tylko wtedy, gdy jej funkcja gęstości dana jest wzorem: fx(r) = 1 e 2 -(r-m)2 2 Krzywa opisana tym wzorem jest znana jako krzywa Gaussa. Jest symetryczna względem stałej m i przypomina kształtem dzwon, którego spłaszczenie zależy od stałej . Funkcja ta ma jedno maksimum w punkcie m, w obie strony od tego punktu maleje nie osiągając nigdzie zera. Na dwu sąsiednich wykresach przedstawimy funkcję gęstości fx zmiennej o rozkładzie normalnym oraz dystrubuantę Fx takiej zmiennej. 38 Średnia zmiennej X o rozkładzie normalnym jest równa parametrowi m jej funkcji gęstości, a odchylenie standardowe jest równe parametrowi s tej funkcji. Nie będziemy tych własności dowodzić. Zauważymy tylko, że do pomyślenia jest tyle zmiennych o różnych rozkładach normalnych, ile jest par liczb rzeczywistych, z których druga jest liczbą dodatnią, średnia może być liczbą ujemną, odchylenie standardowe tylko dodatnią. W dalszej części tego skryptu będziemy korzystać z dwu twierdzeń o zmiennych mających rozkłady normalne. Oba przyjmiemy bez dowodów. Jeżeli funkcja X ma rozkład normalny, to zmienna Y = a + b*X będąca jej liniową funkcją jest również zmienną o rozkładzie normalnym. Jeżeli zmienne X i Y mają rozkłady normalne o tej samej średniej i tym samym odchyleniu standardowym i są stochastycznie niezależne, to zmienna W = X + Y będąca ich sumą jest również zmienną o rozkładzie normalnym. Swoją nazwę rozkład normalny zawdzięcza błędnemu, jak się poźniej okazało, przekonaniu, że rozkłady wszystkich zmiennych losowych występujących w przyrodzie są podobne do tego rozkładu. Dziś znamy wiele zmiennych, których rozkład nie jest podobny do rozkładu normalnego. Jest jednak dostatecznie wiele takich, których rozkład jest do normalnego podobny, by zachować jego dotychczasową nazwę. Wypada w tym miejscu przybliżyć sens pojęcia podobieństwa dwu rozkładów. Zwykle mówiąc o podobieństwie rozkładów dwu zmiennych X i Y mamy na myśli jakąś ocenę funkcji będącej różnicą ich dystrybuant: G(r) = Fx(r) - Fy(r)| Jeżeli funkcja G dla każdego rzeczywistego r jest równa 0, mówimy, że rozkłady zmiennych X i Y są identyczne. Moglibyśmy mówić, że ich rozkłady są bardzo podobne, gdyby funkcja G dla każdego r nie przekraczała jakiejś niewielkiej wartości. Jeżeli rozkłady dwu zmiennych są do siebie podobne, to rozkład jednej bywa traktowany jako przybliżenie rozkładu drugiej. Dokładniej mówiąc, dystrybuanty jednej z nich mogą być traktowane jako oszacowania odpowiednich wartości dystrybuanty drugiej. Z tego, że rozkłady dwu zmiennych są do siebie podobne lub nawet identyczne nie wynika, że zmienne te są identyczne. Zakończymy ten rozdział wzmianką o zmiennej mającej rozkład 2. Weźmy k zmiennych losowych: U1, U2, U3, ... ,Uk. Niech każda z nich ma rozkład normalny o średniej równej 0 i odchyleniu standardowym równym 1. Niech zmienne te będą liniowo nieskorelowane: 39 i E(Ui)=0 & D2(Ui)=1 rij = 0 ij Rozkład zmiennej Yk będącej sumą kwadratów k zmiennych Ui nazywamy rozkładem 2 o k stopniach swobody. Każdą zmienną mającą taki rozkład nazywać będziemy zmienną o rozkładzie 2 i k stopniach swobody. Y(k) = k Ui2 i=1 Zmienna losowa mająca rozkład 2 o k stopniach swobody ma średnią równą k i wariancję równą 2*k. E(Y(k)) = k D2(Y(k))= 2 * k Zmienna mająca rozkład 2 przyjmuje tylko wartości nieujemne, zmienna Y(k) jest sumą kwadratów. Przebieg funkcji gęstości prawdopodobieństwa zmiennej o takim rozkładzie zależy tylko od jednego parametru - liczby stopni swobody k - przyjmującego wartości naturalne: 1,2,3... . W miarę jak k rośnie, rozkład 2 upodabnia się do rozkładu normalnego o odpowiednich parametrach: średniej m=k i odchyleniu standardowym s = 2*k. W praktyce przyjmuje się, że dla k 30 dystrybuanta zmiennej o rozkładzie 2 jest dostatecznie podobna do dystrybuanty zmiennej o odpowiednim rozkładzie normalnym, by dystrybuanty te utożsamiać i jedną traktować jako przybliżenie drugiej. Następny rysunek przedstawia funkcję gęstości prawdopodobieństwa zmiennej Y(k) dla kilku wartości k, dość jeszcze odległych od 30. Można jednak już zauważyć stopniową symetryzację funkcji gęstości w miarę wzrostu k. Rozklady CHI kwadrat Analitycznej postaci funkcji gęstości prawdopodobieństwa podobnie jak dystrybuanty dla zmiennej o rozkładzie 2 podawać nie będziemy. przyszłości ograniczymy się i tak do odczytania potrzebnych wielkości tablic przedstawiwjących funkcje odwrotne względem dystrybuant zmiennych rozkładach 2 o różnych liczbach stopni swobody. Termin liczba stopni "swobody" znajduje uzasadnienie w tym, że zmienna mająca rozkład 2 może być przedstawiona jako suma innych k nieskorelowanych zmiennych. i W z o 40 Rozdział 3 POPULACJA I PRÓBA LOSOWA rozkład zmiennej w populacji rozkład zmiennej w konkretnej próbie rozkład statystyki z próby w przestrzeni prób parametry rozkładu średniej z próby twierdzenie Czebyszewa centralne twierdzenie graniczne W dwu pierwszych częściach tego skryptu przyjmowano, że przedmiotem badania statystycznego jest zbiorowość statystyczna, że jest ona badana w całości i jej dotyczą sądy będące wynikiem badania. Takie badania statystyczne, w którym zbiorowość badana i zbiorowość, której dotyczą sądy będące wynikiem tego badania są tą samą zbiorowością, nazywamy badaniem wyczerpującym. Zbiorowość, której dotyczą sądy, będące wynikiem badania, nazywamy populacją. Populacja jest zatem przedmiotem badania statystycznego. W badaniu wyczerpującym cała populacja zostaje zbadana. Często zbadanie całej populacji nie jest możliwe. Wówczas badanie statystyczne prowadzi się metodą reprezentacyjną. W metodzie reprezentacyjnej bada się podzbiór populacji i na podstawie wyników badania statystycznego podzbioru populacji wypowiada się sądy o całej populacji. Podzbiór populacji służący w metodzie reprezentacyjnej za podstawę dla sądów o całej populacji nazywamy próbą z tej populacji. Spośród wielu sposobów dobierania elementów populacji do próby zajmiemy się tylko jednym - losowym doborem elementów próby. Wnioskowanie o pupulacji na podstawie wyników statystycznego badania próby złożonej z elementów wylosowanych z populacji prowadzone jest pod kontrolą rachunku prawdopodobieństwa, jest w znacznym stopniu sformalizowane i dzięki temu ma charakter intersubiektywny. Stopień zawodności i niedokładność takiego wnioskowania podlegają jawnej ocenie przy użyciu porównywalnych mierników. Próbę złożoną z elementów wylosowanych z populacji nazywamy próbą losową. Dalej będziemy się zajmowali wnioskowaniem o własnościach populacji na podstawie wyników statystycznego badania próby wylosowanej z tej populacji. Należy zwrócić uwagę na to, że mówimy tu jednocześnie o dwu różnych badaniach statystycznych. Pierwsze z nich jest wyczerpującym badaniem próby losowej. Drugie obejmuje proces doboru próby oraz rozumowanie prowadzące od wyników badania próby do sądów o całej populacji i jest badaniem reprezentacyjnym. W skład tego drugiego badania wchodzi w całości pierwsze - badanie próby. Zanim przystąpimy do bardziej szczegółowego omówienia podstawowych wiadomości o metodzie reprezentacyjnej przyjmijmy pewną wygodną umowę terminologiczną. Z jednej populacji można wylosować wiele równolicznych lecz różniących się składem lub porządkiem prób losowych. Funkcję, która każdej n-elementowej próbie losowej pochodzącej z tej samej populacji przyporządkowuje liczbę rzeczywistą nazywamy statystyką z n-elementowej próby. Z populacji liczącej 50 osób można wylosować w sposób zwrotny 5010 różnych liczących po 10 elementów prób. Jeżeli w populacji określona jest zmienna X - "wysokość zarobków", to każdej z tych prób przyporządkowana jest wartość funkcji "średnia zarobków z dziesięcioelementowej próby". Funkcja ta jest zgodnie z wprowa-dzoną definicją statystyką z próby. Wartość funkcji - "statystyka z próby"- przyporządkowaną konkretnej próbie nazywać będziemy "statystyką w próbie". O średniej zarobków w konkretnej wylosowanej próbie będziemy zatem mówili, że jest to "średnia zarobków w próbie". Jest ona wartością funkcji "średnia zarobków z próby" określonej na zbiorze wszystkich możliwych do wylosowania prób. 41 Zgłoski "z" oraz "w" odróżniać będą funkcję z próby od jej wartości w próbie. Pokażemy później, że statystyka z próby jest zmienną losową, a zatem statystyka w próbie jest wartością zmiennej losowej. Dla jasnego zrozumienia mechanizmu umożliwiającego wnioskowanie w badaniu reprezentacyjnym należy rozróżniać trzy typy rozkładów: - rozkład zmiennej X w populacji, - rozkład tej zmiennej X w konkretnej n-elementowej próbie wylosowanej z populacji, - rozkład statystyki z n-elementowej próby w zbiorowości złożonej ze wszystkich n-elementowych prób, które można wylosować z populacji. Następnie należy zbadać związki łączące rozkłady należące do różnych typów. Istnienie tych związków umożliwia wnioskowanie o populacji na podstawie wyników badania próby losowej. Przedstawioną klasyfikację rozkładów zilustrujemy przykładem. Wyobraźmy sobie maleńką populację złożoną z czterech tylko jednostek: = {w1, w2, w3, w4} Liczebność populacji oznaczymy literą m, żeby n zachować zgodnie z tradycją dla oznaczenia liczebności próby. N() = m = 4 Niech w populacji będzie określona zmienna X przyporządkowująca poszczególnym jednostkom następujące wartości: X(w1) = 0, X(w2) = 1, X(w3) = 2, X(w3) = 3 Zbiór wartości zmiennej X składa się zatem z czterech elementów, jest to zmienna o skończonej liczbie wartości, skokowa. X = {0, 1, 2, 3} Rozkład zmiennej X w populacji dany jest przez funkcję prawdopodobieństwa px. Wyznaczymy ją bez trudu przyjmując, że funkcja częstości jest funkcją prawdopodobieństwa. xi px(xi) = P(X=xi) 0 0.25 1 0.25 2 0.25 3 0.25 1.00 Równie łatwo możemy obliczyć parametry rozkładu zmiennej X w populacji . Obliczymy średnią i wariancję. E(X) = E(X2)= D2(X)= xi * px(xi) xi2 * px(xi) E(X2) - (E(X))2 = 2.5 = 3.5 = 3.5 - 2.52 = 1.25 Z tej czteroelementowej populacji losować będziemy dwuelementowe próby. Losować je będziemy ze zwracaniem i tak, by każda jednostka z populacji miała w każdym losowaniu tę samą szansę bycia wylosowaną. Takie losowanie nazywa się zwykle prostym i niezależnym. Wynikiem takiego losowania jest zawsze n-elementowy ciąg utworzony z jednostek należących do m-elementowej populacji. Te same jednostki mogą w tym ciągu występować dzięki zwrotności losowania wielokrotnie. 42 Istnieje zatem przestrzeń * możliwych wyników losowania n-elementowej próby licząca mn różnych prób. Jest tak, gdyż każdym spośród n elementów próby może być każda spośród m jednostek należących do populacji. W naszym przykładzie przestrzeń * składa się z 42=16 prób. * = {<w1,w1>, <w2,w1>, <w3,w1>, <w4,w1>, <w1,w2>, <w2,w2>, <w3,w2>, <w4,w2>, <w1,w3>, <w2,w3>, <w3,w3>, <w4,w3>, <w1,w4>, <w2,w4>, <w3,w4>, <w4,w4>} Jeżeli populacja jest skończona to i przestrzeń wszystkich n-elementowych prób z tej populacji jest skończona. Wówczas klasa podzbiorów przestrzeni prób * zawierająca wszytkie jej podzbiory jest klasą S w rozumieniu rachunku prawdopodobieństwa. Klasę S podzbiorów przestrzeni prób * oznaczymy symbolem S*. Jeżeli do klasy S* należą wszystkie podzbiory przestrzeni *, to należą do niej także wszystkie jej jednoelementowe podzbiory. Taki jednoelementowy podzbiór przestrzeni prób * zawiera jedną próbę: {<wl1, wl2, wl3, ..., wln>} gdzie li jest numerem tego elementu populacji , który został wylosowany jako i-ty element l-tej próby. Oznaczymy Lk,i zbiór prób tym się wyróżniających, że k-tym elementem każdej z nich jest i-ty element populacji. W naszym przykładzie zbiór na przykład L2,4 składa się z czterech prób, drugim elementem każdej z nich jest czwarta jednostka z populacji . L2,4 = {<w1,w4>, <w2,w4>, <w3,w4>, <w4,w4>} Każdy zbiór Lk,i należy do klasy S* wszystkich podzbiorów przestrzeni prób *. Lk,i S* O losowaniu prób zakładamy tutaj, że jest to losowanie proste i niezależne. Każdy element populacji ma w losowaniu każdego elementu próby tę samą szansę bycia wylosowanym. Jest ona zatem równa 1/m. W losowaniu zwrotnym wyniki losowania kolejnych elementów próby są kompletnie niezależne. Sposób losowania w pełni określa funkcję prawdopodobieństwa P* określoną na klasie S* podzbiorów przestrzeni prób *. Funkcja ta spełnia dwa warunki, które przedstawimy wraz z ich ważniejszymi konsekwencjami. Prawdopodobieństwo wylosowania takiej próby, której k-tym elementem jest i-ta jednostka populacji P(Lk,i) jest takie samo dla każdego k-tego elementu próby i każdej i-tej jednostki populacjii. c k i P(Lk,i) = c Prawdopodobieństwo to jest równe 1/m, gdzie m jest liczebnością populacji , gdyż k m i=1 P(Lk,i) = 1, stąd P(Lk,i) = 1/m k i 43 Zdarzenia L1,l1, L2,l2, L3,l3, ..., Ln,ln są kompletnie niezależne. Każde ze zdarzeń Li,j polega na wylosowaniu takiej próby, której i-tym elementem jest jakaś konkretna wj jednostka populacji . Iloczynem n zdarzeń Li,li dla i=1,2,3,..., n jest zdarzenie polegające na wylosowaniu konkretnej próby <wl1, wl2, wl3, ..., wln>. Prawdopodobieństwo wylosowania każdej konkretnej próby spośród mn wszystkich prób jest takie samo i wynosi (1/m)n. <l1,l2,l3,...,ln> P (<wl1, wl2, wl3, ..., wln>) = = = P (L1,l1 & L2,l2 & L3,l3 & .... & Ln,ln) = P(L1,l1)*P(L2,l2)*P(L3,l3)* ... *P(Ln,ln) = (1/m)n. gdzie <l1, l2, l3, ..., ln> jest dowolnym ciągiem złożonym z liczb naturalnych nie większych od m, w których te same liczby mogą występować wielokrotnie. Sens tych warunków zilustruje losowania dwuelementowych prób z czteroelementowej populacji. Warunek pierwszy: dla każdego i=1,2,3,4 prawdopodobieństwo wylosowania i-tej jednostki populacji jako pierwszego elementu próby jest takie samo jak prawdopodobieństwo wylosowania i-tej jednostki jako drugiego elementu próby i jest równe 1/4. Dla i=1: P({<w1,w1>, <w1,w2>, <w1,w3>, <w1,w4>}) = = P({<w1,w1>, <w2,w1>, <w3,w1>, <w4,w1>}) = 1/4 co zgodnie z wprowadzonymi oznaczeniami zapisujemy: P(L1,1) = P(L2,1) = 1/4 Jednocześnie prawdopodobieństwo wylosowania takiej próby, gdzie pierwszym elementem jest i-ta jednostka populacji dla każdego i=1,2,3,4 jest równe 1/4. P(L1,1) = P(L1,2) =P(L1,3) = P(L1,4) = 1/4 Podobnie, prawdopodobieństwo wylosowania takiej próby, gdzie drugim elementem jest jednostka i-ta, dla i=1,2,3,4 jest też równe 1/4. P(L2,1) = P(L2,2) =P(L2,3) = P(L2,4) = 1/4 Warunek drugi ma dla naszego przykładu następujące konsekwencje: prawdopodobieństwo wylosowania takiej próby, w której pierwszym elementem będzie i-ta jednostka populacji i jednocześnie drugim elementem będzie jednostka j-ta, niekoniecznie różna od i-tej, jest równe iloczynowi prawdopodobieństwa wylosowania takiej próby, w której pierwszym elementem będzie jednostka i-ta i prawdopodobieństwa wylosowania takiej próby, w której drugim elementem będzie jednostka j-ta. Dla i=1 i j=3: P ({<w1,w3>}) = = P({<w1,w1>, <w1,w2>, <w1,w3>, <w1,w4>} & {<w1,w3>, <w2,w3>, <w3,w3>, <w3,w3>}) = = P({<w1,w1>, <w1,w2>, <w1,w3>, <w1,w4>}) * P({<w1,w3>, <w2,w3>, <w3,w3>, <w3,w3>}) = = 1/4 * 1/4 = 1/16 co można zapisać stosując przyjętą konwencję prościej: P (L1,1 & L2,3) =P(L1,1) * P(L2,3) = 1/4 * 1/4 = 1/16 44 Sama fizyczna czynność losowania mogłaby mieć przebieg następujący. Przygotowujemy m nierozróżnialnych kul oznaczonych numerami od 1 do m i wrzucamy je do urny. Następnie losujemy z tej urny po jednej kuli, n razy. Za każdym razem wylosowaną kulę po zapisaniu jej numeru zwracamy urnie. Ciąg n numerów uzyskanych w ten sposób definiuje n-elementową próbę wylosowaną w sposób prosty i niezależny. (Uwaga: kule muszą być nierozróżnialne dla losującego i jednocześnie oznaczone dla zapisującego numery.) Rozważmy teraz wszystkie możliwe wyniki losowania dwuelementowej próby z czteroelementowej populacji. Populacja i sposób losowania zostały opisane wcześniej. Charakterystyki wszystich szesnastu możliwych do wylosowania prób zostały umieszczone w tablicy. Jej zawartość zanalizujemy na przykładzie jednej z prób, np trzeciej. Próba losowa nr 3 jest zbiorowością statystyczną, oznaczamy ją 3. Składa się z dwu jednostek należących do populacji . 3 = {w1, w3} W próbie tej określona jest zmienna X. Zbiór jej wartości w tej próbie jest dwuelementowy. X(w1) = 0, X(w3) = 2, X = {0,2} Dwuelementowe próby z czteroelementowej populacji pierwszy drugi wartości średnia wariancja element element zmiennej X zmiennej X zmiennej X próby próby w próbie w próbie w próbie i X(w1) X(w2) xi s2i s*2i 1 w1 w1 0 0 0 0 0 2 w1 w2 0 1 0.5 0.25 0.5 3 w1 w3 0 2 1 1 2 4 w1 w4 0 3 1.5 2.25 4.5 5 w2 w1 1 0 0.5 0.25 0.5 6 w2 w2 1 1 1 0 0 7 w2 w3 1 2 1.5 0.25 0.5 8 w2 w4 1 3 2 1 2 9 w3 w1 2 0 1 1 2 10 w3 w2 2 1 1.5 0.25 0.5 11 w3 w3 2 2 2 0 0 12 w3 w4 2 3 2.5 0.25 0.5 13 w4 w1 3 0 1.5 2.25 4.5 14 w4 w2 3 1 2 1 2 15 w4 w3 3 2 2.5 0.25 0.5 16 w4 w4 3 3 3 0 0 nr próby Bez trudu wyznaczamy funkcję prawdopodobieństwa zmiennej X w tej próbie. Przyjmujemy częstość jako prawdopodobieństwo. xi Px(xi) = P(X=xi) 0 0.5 1 0.5 1.0 Możemy teraz policzyć parametry rozkładu zmiennej X w próbie. Średnia zmiennej X w tej próbie jest równa 0*0.5 + 2*0.5 = 1. Średnia kwadratów zmiennej X jest równa 02*0.5 + 22*0.5 = 2. Wariancja zmiennej X w tej próbie jest zatem równa 2 - 12 = 1. Średnia i wariancja zostały wpisane w odpowiednie kolumny trzeciego wiersza tablicy. Zawartością ostatniej kolumny tablicy zajmiemy się nieco później. 45 Średnia zmiennej X w trzeciej próbie jest wartością funkcji "średnia zmiennej X z dwuelementowej próby". Funkcja ta każdej z 16-tu prób przyporządkowuje liczbę będącą średnią zmiennej X w tej próbie. Średnia zmiennej X z dwuelementowej próby jest statystyką z próby. Funkcję "średnia zmiennej X z n-elementowej próby" oznaczać będziemy X . X : * Wartości zmiennej X dla kolejnych prób oznaczyliśmy w tablicy x 1, x 2, x 3,.. . Wartością funkcji X "średnia zmiennej X z dwuelementowej próby" dla trzeciej próby z naszego przykładu jest średnią zmiennej X w tej trzeciej próbie. X (<w1,w3>) = x 3 = 1 Podobnie, statystyką z próby jest "średnia kwadratu zmiennej X z próby", obliczyliśmy jej wartość dla trzeciej próby. "Wariancja zmiennej X z próby" jest również statystyką z próby. Tę ostatnią funkcję oznaczyliśmy S2x. Gdy nie zachodzi obawa pomyłki, pomijamy symbol zmiennej i piszemy S2. Wartość wariancji z próby dla próby trzeciej również policzyliśmy: S2 (<w1,w3>) = s23 = 1 W tablicy, w ostatniej kolumnie, przedstawiono wartości jeszcze jednej statystyki z próby. Jest nią tzw. nieobciążony estymator wariancji zmiennej X w populacji. Oznaczyliśmy go tutaj S*2i. Wartość jego obliczmy w każdej próbie jako sumę kwadratów odchyleń wartości zmiennej X dla poszczególnych elementów próby od średniej zmiennej X w próbie podzieloną przez liczebność próby zmniejszoną o 1. ((X(wli) - x k)2 2 S x (<wl1, wl2, wl3, ..., wln >) = n - 1 gdzie k jest numerem próby złożonej z elementów <wl1, wl2, wl3, ..., wln> Każda statystyka z n-elementowej próby jest zmienną losową. Statystyka z próby jest funkcją przyporządkowującą liczby rzeczywiste elementom przestrzeni prób *. Dla skończonej populacji przestrzeń prób * jest skończona. Wcześniej dowiedliśmy, że każda funkcja rzeczywista określona na skończonej przestrzeni jest zmienną losową. Statystyka z próby jest w przypadku skończonej populacji taką funkcją. Przypadek populacji o nieskończonej liczbie elementów możemy tu pominąć. Chcąc go rozważyć należałoby nałożyć dodatkowe warunki na funkcję rzeczywistą będącą statystyką z próby i wyraźnie związać statystykę z próby ze zmiennymi losowymi określonymi w nieskończonej populacji. Zapowiedzieliśmy wcześniej przedstawienie trzech typów rozkładów. Dotąd rozważyliśmy jeden rozkład typu pierwszego - rozkład zmiennej X w czteroelementowej populacji, szesnaście rozkładow drugiego typu - były to rozkłady zmiennej X we wszystkich dwuelementowych próbach, które można było wylosować z owej czteroelementowej populacji. Dokładniej: rozważyliśmy jeden taki rozkład, informacje o pozostałych znajdują się w tablicy. Teraz zajmiemy się rozkładem zmiennej, która jest statystyką z próby, a zatem jest określona w przestrzeni możliwych do wylosowania prób. Niech tą statystyką z próby będzie średnia z próby X . Znamy wartości tej funkcji dla każdej z 16 prób. Zbiór wartości zmiennej X składa się z 7 elementów; X = { 0, 0.5, 1, 1.5, 2, 2.5, 3 } 46 W naszym przykładzie prawdopodobieństwo wylosowania każdej z 16 prób jest takie samo i wynosi 1/16. Bez trudu zatem wyznaczymy funkcję prawdopodobieństwa zmiennej losowej X - "średnia zmiennej X z dwuelementowej próby": i xi ni P( X = x i) xi * P( X = x i) x 2i * P( X = x i) 1 0 1 1/16 0/16 0.0/16 2 0.5 2 2/16 1/16 0.5/16 3 1 3 3/16 3/16 3.0/16 4 1.5 4 4/16 6/16 9.0/16 5 2 3 3/16 6/16 12.0/16 6 2.5 2 2/16 5/16 12.5/16 7 3 1 1/16 3/16 9.0/16 16 1.0 1.5 46.0/16 = 2.875 Przyjęte w tablicy oznaczenia nie odbiegają od standardowych: x i oznacza i-tą z możliwych wartości zmiennej X , ni - liczbę prób, w których zmienna X jest równa x i. Trzecia kolumna zawiera wartości funkcji prawdopodobieństwa zmiennej X , a dwie ostatnie kolumny posłużyły do obliczenia średniej zmiennej X oraz średniej kwadratu tej zmiennej. Średnia zmiennej "średnia z próby" E( X ) = xi*P( X = x i) = 1.5 Średnia zmiennej "kwadrat średniej z próby" E( X 2) = x2i*P( X = x i) = 2.875 Wariancja zmiennej "średnia z próby" D2( X ) = E( X - E( X ))2 = 2 = E( X ) - (E( X ))2 = 2.875 -1.52 = 0.625 Zwykle nazwy tych parametrów skracamy jeszce bardziej i mówimy "średnia średniej z próby", "średnia kwadratów średniej z próby" i "wariancja średniej z próby". Określiliśmy zatem rozkład zmiennej będącej statystyką z próby w zbiorze wszystkich dwuelementowych prób możliwych do wylosowania z czteroelementowej populacji . Znając ten rozkład policzyliśmy niektóre jego parametry. Dla określenia tego rozkładu były nam potrzebne wartości statystyki z próby dla poszczególnych prób należących do przestrzeni prób i prawdopodobieństwa wylosowania tych prób. Wartości statystyki dla poszczególnych prób mogliśmy łatwo obliczyć znając skład tych prób. Znając sposób losowania prób mogliśmy obliczyć prawdopodobieństwa wylosowania każdej z nich. W podobny sposób możemy wyznaczać rozkłady innych statystyk z próby. Wariancja zmiennej X z próby oznaczona symbolem S2 ma czteroelementowy zbiór wartości: S2 = {0.00, 0.25, 1.00, 2.25} 47 Funkcja prawdopodobieństwa zmiennej S2 dana jest w tablicy: i s2i ni P(S2=s2i) s2i * P(S2=s2i) (s2i)2 * P(S2=s2i) 1 0.00 4 4/16 0.0/16 0.000/16 2 0.25 6 6/16 1.5/16 0.375/16 3 1.00 4 4/16 4.0/16 4.000/16 4 2.25 2 2/16 4.5/16 10.125/16 16 1.0 10.0/16=0.625 14.500/16 = 0.90625 Oznaczenia w tablicy nie odbiegają od standardowych: s2i oznacza i-tą z możliwych wartości zmiennej S2, ni - liczbę takich prób, w których zmienna S2 przyjmuje wartości s2i. Trzecia kolumna zawiera wartości funkcji prawdopodobieństwa zmiennej S2, dwie następne kolumny posłużyły do obliczenia średniej zmiennej S2 oraz średniej kwadratu tej zmiennej. Średnia wariancji z próby E(S2) Średnia kwadratu wariancji z próby E((S2)2) = 0.90625 Wariancja wariancji z próby D2(S2) 0.90625-0.6252= .515625 = = 0.625 Wyznaczymy także rozkład "nieobciążonego estymatora wariancji zmiennej X z dwuelementowej próby" zdefiniowanego wcześniej i oznaczonego S*2. Bliżej tą statystyką z próby zajmiemy się w następnym rozdziale, gdzie wyjaśnione zostanie także znaczenie terminu "estymator". Statystyka S*2 w przestrzeni dwuelementowych prób * przyjmuje 4 różne wartości: S*2 = {0.0, 0.5, 2.0, 4.5} Funkcja prawdopodobieństwa zmiennej S*2 dana jest w tablicy: i s*2i ni P(S*2=s*2i) s*2i * P(S*2=s2i) (s*2i)2 * P(S*2=s*2i) 1 0.0 6 6/16 3/16 1.5/16 3 2.0 4 4/16 8/16 16.0/16 4 4.5 2 2/16 9/16 40.5/16 16 1 20/16=1.25 58.0/16=3.625 Oznaczenia w tej tablicy również nie odbiegają od standardowych i nie będziemy ich przypominać. Średnia statystyki S*2: E(S*2) = 1.25 Średnia kwadratów statystyki S*2: E(S*2)2 = 3.625 Wariancja statystyki S*2: D2(S*2) = 3.625-(1.25)2=2.0625 Dysponując rozkładem zmiennej w populacji możemy w podobny sposób wyznaczyć rozkład dowolnej statystyki z próby będącej funkcją wartości tej zmiennej dla poszczególnych elementów próby. Jedyna trudność mogłaby powstać z tej przyczyny, że zbiór wszystkich n-elementowych prób losowych pochodzących z m-elementowej populacji niekiedy jest dość liczny. Istnieją statystyki z próby, które są funkcjami dwu lub więcej zmiennych jednocześnie. Powyższa uwaga ich również dotyczy. Rozkład statystyki 48 z próby jest funkcją sposobu losowania próby i rozkładów zmiennej lub zmiennych, których funkcją jest dana statystyka z próby. Rozkład statystyki z próby - "średnia zmiennej X z próby" jest funkcją rozkładu zmiennej X w populacji i sposobu losowania próby. Rozkład statystyki z próby -"współczynnik korelacji liniowej zmiennych X i Y z próby" jest funkcją łącznego rozkładu zmiennych X i Y w populacji i sposobu losowania próby. Badając zależność rozkładu statystyki z próby od rozkładu zmiennej w populacji nie zajmujemy się jeszcze wnioskowaniem statystycznym, nie na tym ono polega. Formułujemy dopiero twierdzenia umożliwiające takie wnioskowanie. Wnioskowanie statystyczne, najogólniej mówiąc, polega wypowiadaniu się o rozkładzie zmiennej w populacji na podstawie zaobserwowanej w wylosowanej próbie wartości statystyki z próby. Przedstawimy teraz pewne związki między rozkładami statystyk z próby a rozkładem zmiennej w populacji. Dotyczą one wartości kilku parametrów tych rozkładów. Ograniczymy się do prób losowanych w sposób zwrotny i z jednakowym dla wszystkich jednostek szansami. Średnia statystyki z n-elementowej próby "średnia zmiennej X z próby" jest równa średniej zmiennej w populacji. E( X ) = E(X) Dowód tego twierdzenia wymaga wprowadzenia nowej zmiennej "wartość zmiennej X dla k-tego elementu próby losowej". Oznaczmy X1 funkcję, której wartością dla danej próby jest wartość zmiennej X przyporządkowana jej pierwszemu elementowi. X1 : * X X1 (<wl1, wl2, wl3, ..., wln>) = X(wl1) Każdy element populacji może zostać wylosowany jako pierwszy element próby. Zbiór wartości funkcji X1 jest zatem równy zbiorowi wartości zmiennej X w populacji. X1 = X Funkcja X1 jest statystyką z próby, a zatem jest zmienną losową. Ponieważ prawdopodobieństwo, że pierwszym elementem próby będzie i-ty element populacji dla każdego i jest takie samo, więc funkcja prawdopodobieństwa zmiennej X1 jest taka sama jak funkcja częstości zmiennej X w populacji. Losując drugi element próby, lub jakikolwiek następny, znajdujemy się dzięki zwrotności losowania w dokładnie takiej samej sytuacji jak losując element pierwszy. Oznaczmy zatem Xk funkcję, której wartością jest wartość zmiennej X dla k-tego elementu próby. Prawdopodobieństwo wylosowania takiej próby, której k-tym elementem będzie i-ta jednostka populacji jest równe 1/m, gdzie m jest liczebnością populacji. P(Lk,i) = 1/m Dla każdej wartości xi zmiennej X prawdopodobieństwo, że zmienna Xk dla wylosowanej próby przyjmie tę właśnie wartość jest równe częstości występowania tej wartości zmiennej X w całej populacji, i jest tak dla k=1,2,...,n. P(Xk=xi) = l: X(wl)=xi N(X=xi) P(Lk,l)= m = P(X=xi) Sumowanie przebiegu po numerach wszystkich takich jednostek populacji, którym zmienna X przyporządkowuje wartość xi. 49 Wszytkie zmienne Xk dla k=1,2,3,...,n mają identyczne rozkłady, równe rozkładowi zmiennej X w populacji. Pokazaliśmy już, że funkcje prawdopodobieństwa tych zmiennych są identyczne i równe rozkładowi częstości zmiennej X w populacji. Zatem odpowiednie parametry rozkładów tych zmiennych są także identyczne i równe parametrom rozkładu zmiennej X w populacji. W szczególności: E(Xk) = E(X) D2(Xk) = D2(X) Dowolne dwie zmienne Xq, Xk, gdzie q k są stochastycznie niezależne. P(Xk=xi & Xq=xj) = P(Xk=xi) * P(Xq=xj) Dowód jest natychmiastowy i wynika z warunków nałożonych na funkcję prawdopodobieństwa P* określoną na klasie S* podzbiorow przestrzeni prób * przez sposób ich losowania. P(Xk=xi & Xq=xj) = l: X(wl)=xi u: X(wu)=xj P(Lk,l & Lq,u) = = P(Lk,l) * P(Lq,u) = l: X(wl)=xi u: X(wu)=xj = N(X =xi) * N(X =xj) * 1/m * 1/m = = P(X =xi) * P(X =xj)= = P(Xk=xi) * P(Xq=xj) Sumowanie przebiegało po wszystkich parach <l, u> numerów jednostek populacji takich, że l-tej jednostce zmienna X przyporządkowuje wartość xi a u-tej jednostce przyporządkowuje wartość xj. Par takich jest N(X=xi) * N(X=xj). Zdarzenia L1,l1, L2,l2, ... Ln,ln są kompletnie niezależne stochastycznie, zatem są też niezależne stochastycznie parami. Ponieważ prawdopodobieństwo każdego z nich jest równe 1/m, zatem prawdopodobieństwo iloczynu dowolnych dwu różnych spośród nich jest równe 1/m * 1/m. Średnia zmiennej X w próbie losowej jest parametrem rozkładu zmiennej X w konkretnej zbiorowości statystycznej, którą jest wylosowana próba. Oznaczmy tę próbę t i niech się ona składa z elementów wt1, wt2, wt3, ..., wtn. Średnią zmiennej X w tej próbie możemy zapisać na dwa sposoby: X1(t) + X2(t) + ... + Xn(t) X (t) = = n X(wt1) + X(wt2) + ... + X(wtn) = n Liczba ta jest wartością zmiennej "średnia zmiennej X z próby". Zmienna X jest zatem funkcją dopiero co wprowadzonych zmiennych X1, X2, ....,Xn: X1 + X2 + ... + Xn X = n = 1/n * n Xi i=1 50 Średnia zmiennej "średnia z próby" jest zatem równa średniej w populacji: n E( X ) = E(1/n * Xi) = 1/n * E( Xi) = i=1 = 1/n * E(Xi) = 1/n * E(X) = 1/n * n * E(X) = E(X) Wariancja zmiennej "średnia zmiennej X z próby" jest równa wariancji zmiennej X w populacji podzielonej przez liczebność próby. D2( X ) = 1/n * D2(X) Wariancja zmiennej "średnia zmiennej X z próby" możemy przedstawić jako funkcję wariancji zmiennych X1,X2,....,Xn. Zmienne te są nieskorelowane i mają identyczne wariancje równe wariancji zmiennej X w populacji. D2(Xi) C(Xi,Xj) = D2(X) = 0 n D2( X ) = D2(1/n * Xi) = (1/n)2 * D2( Xi) = i=1 = (1/n)2 * D2( Xi) = = (1/n)2 * D2( X) = = (1/n)2 * n * D2(X) = = (1/n) * D2(X) Należy zauważyć, że wyznaczone przez nas wcześnie, w przykładzie z losowaniem dwuelementowych prób z czteroelementowej populacji, parametry rozkładu średniej z próby miały wartości zgodne z przedstawionymi twierdzeniami: E(X) E( X ) = 1.5 = 1.5 D2(X) = 1.25 & n=2 D2( X ) = 1.25/2 = .625 Następne twierdzenie, tzw. nierówność Czebyszewa, ma znaczenie ogólniejsze. Zbadamy jednak tutaj także konsekwencje tej nierówności dla rozkładu zmiennej "średnia z próby". Jeżeli zmienna W ma skończoną wariancję, to prawdopodobieństwo tego, że przyjmie ona wartość różniącą się od swej średniej o lub więcej jest co najwyżej równe wariancji tej zmiennej podzielonej przez kwadrat . P(|W-E(W)| ) D2(W) 2 Podstawmy za zmienną W średnią zmiennej X z n-elementowej próby losowanej w sposób prosty i niezależny. Wówczas nierówność Czebyszewa przyjmie następującą postać: 51 P(| X -E( X )| ) D2( X ) n2 ponieważ W = X E(W) = E( X ) = E(X) i D2(W) = D2( X ) = 1/n * D2(X) Prawdopodobieństwo tego, że średnia z próby odchyli się od średniej w populacji o lub więcej nie jest większe od wariancji w populacji podzielonej przez iloczyn liczebności próby i kwadratu stałej . Zasadniczym problemem dla wnioskowania statystycznego jest problem związku między rozkładem zmiennej lub zmiennych w populacji a rozkładem statystyki z próby. Nierówność Czebyszewa ma dla tego problemu znaczenie zasadnicze. Pokazuje bowiem związek między takimi rozkładami zachodzący zawsze, bez względu na liczebność próby oraz typ rozkładu zmiennej w populacji. Praktyczne zastosowania nierówności Czebyszewa są jednak ograniczone. Zwykle staramy się uzyskać informacje o prawdopodobieństwach dokładniejsze od tych, jakie może ona dostarczyć. Przedstawimy za Fellerem elegancki dowód nierówności Czebyszewa w jej ogólnej postaci ale tylko dla zmiennych o skończonej liczbie wartości. D2(X) = (xi - E(X))2 * P(X-xi) 2 * P(X=xi) = i:|xi-E(X)| (xi - E(X))2 * P(X=xi) i:|xi-E(X)| 2 * P(X=xi) E(X)|i:|xi- = 2 * P(|X-E(X)|) zatem 2 * P(|X-E(X)|) D2(X) a stąd: P(|X-E(X)| ) D2(X) 2 Dla zmiennych ciągłych dowód ma postać anlogiczną z tym, że sumowanie trzeba zastąpić całkowaniem. Istotne znaczenie, także praktyczne, ma dla wnioskowania statystycznego tzw. centralne twierdzenie graniczne, które przedstawimy tu w mocno uproszczonej postaci i bez dowodu. Analizowaliśmy w tym rozdziale między innymi takie trzy obiekty: - populację , w której określony jest rozkład zmiennej X o średniej równej E(X) i wariancji D2(X), - przestrzeń wszystkich możliwych do wylosowania z tej populacji prób n-elementowych - średnią zmiennej X z n-elementowej próby, która to średnia jest zmienną o rozkładzie określonym w zbiorze wszystkich n-elementowych prób. Średnia tej zmiennej X jest równa E(X) a wariancja D2(X)/n. 52 Zachowajmy populację i rozważmy ciąg przestrzeni n-elementowych prób dla n=1,2,3,... Pierwszą przestrzenią w tym ciągu jest zatem przestrzeń prób jednoelementowych, drugą - przestrzeń prób dwuelementowych, trzecią - przestrzeń prób trzyelementowych itd. W każdej z tych przestrzeni określona jest statystyka "średnia zmiennej X z n-elementowej próby" i dany jest rozkład tej statystyki. Rozważmy zatem ciąg rozkładów statystyki "średnia zmiennej X z próby n-elementowej" kolejno dla przestrzeni prób jedno-, dwu-, trój-, ... elementowych. Już teraz możemy powiedzieć, że wszystkie rozkłady statystyk "średnia zmiennej X z n-elementowej próby" dla n=1,2,3,...będą charakteryzować się tą samą średnią statystyki równą średniej zmiennej X w populacji i że kolejne rozkłady z tego ciągu rozkładów będą mieć coraz mniejsze wariancje. W każdym przypadku będzie to przecież ta sama wariancja zmiennej X w populacji podzielona przez coraz to większą liczebność próby n. Wedle zapowiadanego centralnego twierdzenia granicznego należy się spodziewać, że kolejne rozkłady statystyki "średnia zmiennej X z n-elementowej próby" w miarę wzrostu n będą coraz bardziej podobne do rozkładu normalnego o odpowiednich parametrach: m = E(X) i = D2(X)/n. Ponieważ kategoria "spodziewania się" nie jest najlepiej zdefiniowana, będziemy musieli twierdzenie to sformuować dokładniej. W tym celu najpierw zdefiniujemy jeszcze jedną statystykę z próby, będzie nią standaryzowana średnia z próby. Standaryzowaną średnią zmiennej X z n-elementowej próby nazywać będziemy następującą funkcję statystyki "średnia zmiennej X z n-elementowej próby: Y(n) gdzie X (n) - E( X (n)) = D( X (n)) X (n) jest zmienną "średnia zmiennej z n-elementowej próby" Y(n) jest zmienną "standaryzowana średnia zmiennej X z n-elementowej próby". Operacja standaryzująca polega, jak pamiętamy, na odejmowaniu od każdej wartości zmiennej jej średniej i dzielenie rezultatu przez odchylenie standardowe. Zmienna w ten sposób powstała jest liniową funkcją zmiennej pierwotnej, ma średnią równą 0 i odchylenie standardowe równe 1. Nowopowstałą zmienną nazywamy zmienną standaryzowaną. Standaryzowana średnia z n-elementowej próby Y(n) ma zatem rozkład o następujących parametrach: E(Y(n)) = 0 D2(Y(n)) = 1 Możemy teraz podać treść centralnego twierdzenia granicznego w wersji zbliżonej do wersji Lindberga - Levy'ego. Standaryzowana średnia z n-elementowej próby losowanej zwrotnie i z jednakowymi dla wszystkich jednostek populacji szansami ma rozkład asymptotycznie zbieżny do rozkładu zmiennej U mającej rozkład normalny standaryzowany. Tę asymptotyczną zbieżność jednego rozkładu do innego rozkładu musimy dokładnie wyjaśnić: Dla każdej liczby rzeczywistej r i dla każdej większej od zera liczby rzeczywistej istnieje taka liczba naturalna k, że dla każdej liczby n większej od liczby k różnica wartości dystrybuanty zmiennej "standaryzowana średnia z n-elementowej próby" w punkcie r i wartości dystrybuanty zmiennej U w tym samym punkcie r jest mniejsze od . r >0 k | P(Y(n) r) - P(U r) | < n>k 53 Można to zapisać inaczej: r lim n P (Y(n) r) - P(U r) = 0 Przedstawiając twierdzenie w ten sposób ograniczyliśmy nieco jego ogólność do obecnie interesującego nas zakresu i pominęliśmy ograniczenia, które w obszarze naszego zainteresowania - w skończonych populacjach - są spełnione w sposób oczywisty. Korzystając z tego twierdzenia w praktyce, traktujemy zmienną "średnia z próby" jako mającą rozkład normalny, jeżeli tylko jest to średnia z próby wieloelementowej - dużej. Postępując w ten sposób musimy się jednak liczyć z tym, że potrzebne nam prawdopodobieństwa szacujemy z błędami. Błędy te są na ogół tym większe, im mniejsza jest liczebność próby n i im rozkład zmiennej w populacji bardziej różni się od rozkładu normalnego to znaczy jest bardziej asymetryczny, wielomodalny i zmienna ma w populacji mniej wartości. Przyjmuje się, że jeżeli próba liczy kilkaset elementów, to można utożsamiać rozkład średniej z próby z rozkładem normalnym bez względu na kształt rozkładu zmiennej w populacji. Jeżeli rozkład w populacji jest jednomodalny, dość symetryczny i wielowartościowy, to już rozkład średniej z prób liczących po 30 elementów traktuje się jako wystarczająco podobny do rozkładu normalnego, by zamiast nieznanej wartości dystrybuanty średniej z próby w jakimś punkcie r brać odpowiednią wartość dla zmiennej mającej rozkład normalny mając nadzieję, że błąd będzie dość mały. Przyjmując, że dla jakiegoś n rozkład standaryzowanej średniej z próby jest podobny do rozkładu normalnego standaryzowanego, należy konsekwentnie przyjmować, że dla tego n rozkład średniej z próby jest podobny do rozkładu normalnego o średniej równej średniej w populacji E(X) i odchyleniu standardowym równym D(X)/n. Na koniec wypada podać jeszcze jedno twierdzenie, którego poprzednik jest w praktycznych zastosowaniach spełniany tylko w przybliżeniu. Jeżeli zmienna X ma w populacji rozkład normalny, to standaryzowana średnia zmiennej X z n-elementowej próby ma rozkład normalny standaryzowany i to bez względu na liczebność próby n. Wynika to z wcześniej przedstawionego twierdzenia, wedle którego suma niezależnych zmiennych, z których każda ma rozkład normalny o tej samej średniej i tym samym odchyleniu standardowym, ma rozkład normalny oraz innego twierdzenia, wedle którego zmienna będąca liniową funkcją zmiennej o rozkładzie normalnym ma też rozkład normalny. Poprzednik tego twierdzenia mógłby być spełniony tylko wtedy, gdybyśmy mieli do czynienia z populacją nieskończoną i zmienną, która przyjmuje wszystkie wartości rzeczywiste. Założenie takie może być spełnione tylko w przybliżeniu. Wtedy jednak i następnik będzie spełniony tylko w przybliżeniu, tym lepszym im liczniejsza jest próba. Praktycznym zastosowaniem przedstawionych tu twierdzeń zajmiemy się w dwu następnych rozdziałach. Tu poprzestaniemy na dwu elementarnych przykładach. 1. W populacji określona jest zmienna X. Znamy jej średnią i odchylenia standardowe. Są one odpowiednio równe: 69 i 14. W opisany tu wcześniej sposób prosty i niezależny zostanie wylosowana próba z tej populacji. Próba liczyć będzie 400 elementów. Jakie jest prawdopodobieństwo wylosowania takiej próby, w której średnia zmiennej X mieć będzie wartość należącą do przedziału od 67.9 do 70.1. Zapiszemy najpierw dane i pytanie korzystając z przyjętej symboliki: 54 E(X)=69, D(X)=14, E( X )=E(X)=69, n=400, D( X ) = D(X) = n 14 = 0.7, 20 P(67.9 < X < 70.1) = ? Spróbujemy najpierw określić wartość tego prawdopodobieństwa przy pomocy nierówności Czebyszewa. W tym celu przekształcimy tożsamościowo zapis pytania. P (67.9 < X < 70.1) = P( 67.9-E(X) < X -E(X) < 70.1-E(X)) = = P (67.9-69 < X -E(X) < 70.1-69) = P(-1.1 < X -E(X) < 1.1) = = P(| X -E(X)| < 1.1) = 1 - P(| X -E(X)| 1.1) Przypomnijmy nierówność Czebyszewa w wersji dla średniej z próby: P(| X -E(X)| ) D2(X) n2 i podstawmy wielkości z naszego zadania: 142 P(| X -E(X)| 1.1) = 0.4049586 400 * 1.12 Stąd prawdopodobieństwo interesującego nas zdarzenia, które jest dopełnieniem tego z nierówności Czebyszewa jest większe od 1-0.405 = 0.595. Dokładnie: (| X -E(X)| < 1.1) > 1 - 0.4049586 = 0.5950414 Wedle nierówności Czebyszewa prawdopodobieństwo wylosowania próby spełniającej nałożony w treści zadania warunek należy do przedziału (0.595 , 1.00>. Ponieważ liczebność próby n jest duża, możemy skorzystać z konsekwencji centralnego twierdzenia granicznego i oznaczyć to prawdopodobieństwo z większą dokładnością. Zmienna "standaryzowana średnia z próby" ma w tym przypadku rozkład zbliżony do rozkładu normalnego standaryzowanego. Zmienną o takim rozkładzie oznaczyliśmy literą U. Tak równoważnościowo przkształcimy nasze pytanie, by dotyczyło ono zmiennej "standaryzowana średnia z próby" a nie zmiennej "średnia z próby". P(67.9 < X < 70.1) = P( 67.9-E(X) < X -E(X) < 70.1-E(X)) = = P ( 67.9 - E(X) 67.9 - E(X) = P ( < D( X ) < X -E(X) X -E(X) < D( X ) < 70.1-E(X) ) = 70.1-E(X) ) D( X ) 55 Rozklady zmiennych ( X -E(X)) / D(X) oraz U są podobne. Zatem wyżej zapisane prawdopodobieństwo jest w przybliżeniu równe następującemu: 67.9 - E(X) P( < D(X) U < 70.1 - E(X) ) = D(X) 67.9 - 69 = P ( < 0.7 U < 70.1 - 69 ) = 0.7 = P (-1.571 < U < 1.571 ) = Fu (1,571) - Fu (-1,571) = = 1 - 2*Fu (-1.571) = 1 - 2*0.05821 = 0.88358 Prawdopodobieństwo wylosowania takiej próby, że średnia zmiennej X w tej próbie mieć będzie wartość należącą do przedziału (67.9, 70.1) jest bliskie 0.884. Ten szacunek uzyskany z pomocą centralnego twierdzenia granicznego nie jest sprzeczny z uzyskanym przy pomocy nierówności Czebyszewa, wielkość ta należy do przedziału uzyskanego przy pomocy nierówności Czebyszewa: 0.88358 (0.595, 1.000) Przyjmuje się, że oszacowanie prawdopodobieństwa przez odwołanie się do centralnego twierdzenia granicznego przy tak dużej próbie obarczone jest pomijalnie małym błędem. Granice dla prawdopodobieństwa wyznaczone przez nierówność Czebyszewa nie są obarczone błędem ale wartość prawdopodobieństwa wyznaczają niedokładnie. 2. W innej populacji określona jest jakaś inna zmienna X, o której wiadomo, że nie ma ona w tej populacji rozkładu podobnego do rozkładu normalnego. Znana jest średnia zmiennej X i jej odchylenie standardowe. Są one odpowiednio rowne: 43 i 8. Zostanie wylosowana w sposób prosty i niezależny próba licząca 16 elementów. Jakie jest prawdopodobieństwo tego, że średnia zmiennej X w wylosowanej próbie należeć będzie do przedziału (41.5, 45.5)? Korzystając w znany już sposób z nierówności Czebyszewa otrzymujemy: P(| X - E(X)| 2.5) 64 = 0.64 16 * 252 zatem P(| X - E(X)| < 2.5) > 0.36 możemy to zapisać inaczej wracając do oryginalnej formy pytania: 0.36 < P (41.5 < X < 45.5 ) 1 Dokładniej tego prawdopodobieństwa oszacować nie możemy, gdyż liczebność próby n=16 jest zbyt mała, by można się posłużyć centralnym twierdzeniem granicznym a zmienna X nie ma w populacji rozkładu normalnego. Gdyby rozkład zmiennej X w populacji był zbliżony do rozkładu normalnego, wówczas moglibyśmy posłużyć się ostatnim z tego rozdziału twierdzeniem. Oszacowalibyśmy poszukiwane prawdopodobieństwo w sposób pod względem technicznym identyczny jak w przypadku kiedy korzystaliśmy z centralnego twierdzenia granicznego: 56 41.5-E(X) P (41.5 < X < 45.5 ) = P ( D(X) < X -E(X) D(X) < 45.5-E(X) )= D(X) 45.5-43 41.5-43 = Fu( ) - Fu( ) = Fu (1.25) - Fu (-1.25) = 2 2 = 1 - 2 * Fu (-1.25) = 1 - 2* 0.1056 = 0.7888 Prawdopodobieństwo wylosowania próby posiadającej określoną w zadaniu cechę byłoby równe, 0.7888, gdyby zmienna X w populacji miała rozkład podobny do normalnego. Zgodnie z treścią zadania zmienna X nie ma w populacji rozkładu podobnego do normalnego, zatem musimy poprzestać na ocenie wartości poszukiwanego prawdopodobieństwa za pomocą nierówności Czebyszewa, która lokuje to prawdopodobieństwo w dość długim niestety przedziale. Oba przykłady nie dotyczyły wnioskowania statystycznego, gdyż ono przebiega niejako w przeciwnym kierunku: od znanych już własności wylosowanej próby do nieznanych własności populacji, z której została wylosowana. Tutaj poruszaliśmy się w kierunku przeciwnym. 57 Rozdział 4 ESTYMATORY I ESTYMACJA PARAMETRYCZNA estymator nieobciążony estymator zgodny estymator najefektywniejszy metoda momentów metoda najmniejszych kwadratów metoda największej wiarygodności estymacja przedziałowa poziom ufności przedział ufności estymacja przedziałowa średniej Istnienie zależności między rozkładem statystyki z próby a rozkładem zmiennej w populacji pozwala wnioskować o własnościach rozkładu zmiennej w populacji na podstawie wartości statystyki w wylosowanej z tej populacji próbie losowej. Jeżeli wnioskowanie to dotyczy wartości parametru rozkładu zmiennej w populacji i polega na ocenie jego wartości, to wnioskowanie takie nazywamy estymacją parametryczną. Parametryczna estymacja punktowa polega na przypisaniu parametrowi rozkładu zmiennej w populacji, którego wartości nie znamy, konkretnej liczby jako oceny jego wielkości. Parametryczna estymacja przedziałowa polega na szacowaniu, do jakiego przedziału liczbowego należy nieznana wartość parametru rozkładu zmiennej w populacji. Ponieważ dalej zajmować się będziemy tylko estymacją parametryczną, będziemy pomijali określenie "parametryczna". Parametr populacyjny, o którego ocenie mowa w definicjach, może być parametrem rozkładu jednej zmiennej lub parametrem łącznego rozkładu wielu zmiennych. Może to być także parametr jakiegoś rozkładu warunkowego. Niekiedy estymuje się jednocześnie wartości kilku parametrow posługując się kilkoma statystykami z próby. Tutaj będziemy się starali ograniczać do przypadku najprostszego - jednozmiennowych parametrów estymowanych przy użyciu jednej statystyki z próby. Będziemy w tym rozdziale często mówili o istnieniu pewnych rozkładów lub ich parametrow. Czytelnik zechce zwrócić uwagę na to, iż z samego istnienia tych rozkładów lub parametrów nie wynika, że są one nam znane. Estymatorem parametru rozkładu zmiennej X w populacji nazywamy taką statystykę Tn z n-elementowej próby, której rozkład zależy od wartości parametru . Dana jest populacja . W tej populacji określona jest zmienna X. Istnieje zatem rozkład zmiennej X w populacji . Rozkład ten charakteryzuje szereg parametrów, w tym parametr . Dla ustalenia uwagi, przyjmijmy, że parametrem jest średnia zmiennej X w populacji. Niech będzie przestrzeń wszystkich n-elementowych prób z tej populacji, np. trójelementowych. Niech będzie określona statystyka z próby T3 i niech tą statystyką z próby będzie mediana zmiennej X z próby. Oznaczmy tę statystykę . Znając rozkład zmiennej X w populacji możemy ustalić rozkład statystyki w zbiorze wszystkich trójelementowych prób. Załóżmy, że rozkład zmiennej X zmieni się w populacji w taki sposób, że zmianie ulegnie także wartość parametru = E(X). Moglibyśmy wyznaczyć nowy rozkład statystyki T3 = w zbiorze prób. Jeżeli zmianie wartości parametru rozkładu zmiennej X w populacji towarzyszy zawsze zmiana rozkładu statystyki Tn w zbiorze prób z tej populacji, to mówimy, że rozkład statystyki Tn zależy od wartości parametru , a zatem statystyka Tn jest estymatorem parametru . W naszym przykładzie można dowieść, że zmiana średniej w populacji pociąga za sobą zawsze zmianę rozkładu mediany z próby. Zatem mediana z próby jest estymatorem średniej w populacji. Jest do pomyślenia wiele różnych estymatorów tego samego parametru. Dlatego dalej zajmiemy się problemem wyboru najlepszego estymatora. 58 Najpierw zdefiniujemy pewne ich pożyteczne własności. Są to takie własności, które pewne estymatory posiadają, a inne nie. Statystyka Tn jest nieobciążonym estymatorem parametru , jeżeli dla każdej liczebności próby n, średnia statystyki z próby Tn w zbiorze wszystkich n-elementowych prób jest równa parametrowi . E(Tn) = n Statystyka Tn jest estymatorem asymptotycznie nieobciążonym parametru , jeżeli dla każdego dodatniego istnieje taka liczba k, że średnia statystyki Tn w zbiorze wszystkich n-elementowych prób różni się od wartości parametru o mnie niż i jest tak dla każdego n > k: >0 k |E(Tn) - | < n>k czyli lim n E(Tn) = Wcześniej dowiedliśmy, że X - średnia z próby - jest nieobciążonym estymatorem średniej w populacji, gdyż dla każdego będącego liczebnością próby n zachodzi równość E( X ) = E(X). Jednocześnie nasz wcześniejszy przykład pokazuje, że wariancja z próby S2 jest obciążonym estymatorem wariancji w populacji, gdyż nie jest estymatorem nieobciążonym i (S2) D2(X). Wariancja z próby S2 jest natomiast estymatorem asymptotycznie nieobciążonym wariancji w populacji. Można bowiem dowieść, że E(S2) = n-1 D2(X) n a zatem lim n E(S2) = D2(X) Pomijając dowód wrócimy do wyników uzyskanych we wspomnianym przykładzie: E(S2) = 2-1 D2(X) = 0.5 * D2(X) = 0.5 * 1.25 = 0.625 2 i tyle samo wniosła średnia statystyki S2 policzona z rozkładu te zmiennej w zbiorze wszystkich możliwych do wylosowania dwuelementowych prób. Nieobciążonym estymatorem wariancj w populacji jest natomiast statystyka *S2, zdefiniowana w poprzednim rozdziale tak: *S2 = n S2 n-1 = 1 n-1 n (Xi - X)2 i=1 Wartość średnia tej statystyki jest równa wariancji w populacji: E(*S2) = n E( * S2) n-1 = n n n-1 * E(S2) = * * D2(X) = D2(X) n-1 n-1 n W przykładzie, o którym mowa, znajdujemy E(*S2) = 1.25 = D2(X) 59 Nieobciążonym estymatorem wariancji w populacji jest również inna jeszcze statystyka z próby, którą oznaczymy *S2. Jest ona średnią kwadratów odchyleń wartości zmiennych X1, X2, ..., Xn w próbie od średniej zmiennej X w populacji. Z rozdziału poprzedniego pamiętamy, że wartością zmiennej Xi dla konkretnej próby losowej jest wartość zmiennej X dla i-tego elementu tej próby. n 2 = 1/n * (Xi - E(X))2 S * i=1 Z tego, że dwie statystyki są nieobciążonym estymatorem tego samego parametru populacji nie wynika, że są one identyczne. Wprawdzie średnie wartości obu estymatorów są równe: E(*S2) = E(*S2) = D2(X) lecz same wartości estymatorów równe nie są: n 1/n * n (Xi - E(X))2 i=1 1/(n-1) * (Xi - X)2 i=1 2 * 2 *S S Dla dokonania punktowej estymacji parametru za pomocą estymatora Tn losujemy n-elementową próbę, obliczamy wartość statystyki Tn w wylosowanej próbie i uzyskaną liczbę traktujemy jako ocenę wartości parametru . Nie możemy zakładać, że ocena ta jest bezbłędna. Jeżeli Tn jest estymatorem parametru , to statystykę (Tn - ) nazywamy błędem oceny parametru za pomocą estymatora Tn. Jeżeli statystyka Tn jest nieobciążonym estymatorem parametru , to średni błąd oceny tego parametru za pomocą estymatora Tn jest równy 0: E(Tn) = E(Tn - ) = 0 Jeżeli statystyka Tn jest estymatorem asymptotycznie nieobciążonym, średni błąd jest "asymptotycznie" równy 0: lim E(Tn) = n lim n E(Tn - ) = 0 Ocena parametru za pomocą wartości statystyki będącej jego obciążonym estymatorem obarczona jest błędem systematycznym i parametr jest przeciętnie przeceniany lub przeciętnie niedoceniany. E(Tn) lim E(Tn) n E(Tn - ) 0 lim E(Tn - ) 0 n Estymator asymptotycznie nieobciążony można traktować jako obciążony, gdy jest określony dla prób małych, zaś jako nieobciążony, gdy jest określony w próbach dużych. Z punktu widzenia przeprowadzającego estymację użytkownika ważnym jest nie tylko to, by estymator był nieobciążony, czyli żeby średnia błędu z nim związanego była równa 0. Ważnym jest także, by małe było prawdopodobieństwo uzyskania takich wartości estymatora, które dawałyby duży (ujemny lub dodatni) błąd, by wartości estymatora dla różnych prób losowych pochodzących z tej samej populacji były do siebie podobne, a zatem bliskie wartości parametru będącego ich średnią. Statystyka Tn jest zgodnym estymatorem parametru , jeżeli dla każdego większego od zera istnieje takie k, że dla każdego zbioru wszystkich n- 60 elementowych prób możliwych do wylosowania z populacji prawdopodobieństwo tego, że statystyka Tn odchyli się od wartości parametru o mniej niż jest równe 1, pod warunkiem, że liczebność prób n jest większa od k: >0 k n>k P( |Tn - | < ) = 1 czyli >0 P( |Tn - | < ) = 1 lim n Sens tej własności estymatora dobrze przybliża twierdzenie, które mówi: Jeżeli jakiś estymator jest asymptotycznie nieobciążonym estymatorem parametru a jednocześnie granicą wariancji tego estymatora dla liczebności próby n rosnącej nieograniczenie jest 0, to estymator ten jest zgodnym estymatorem parametru . Pełny zapis tego twierdzenia ma postać następującą: (( >0 >0 k k |E(Tn) - | < ) & ( n>k >0 k n>k D2(Tn)<) P(|Tn - | < ) = 1 n>k Posługując się używaną tu jyż symboliką można to zapisać krócej: lim |E(Tn) - | = 0 n & lim D2(Tn)=0 n lim P(|Tn - | < ) = 1 n Ponieważ średnia z próby X jest nieobciążonym estymatorem średniej w populacji, więc jest jej estymatorem asymptotycznie niobciążonym. Jednocześnie wariancja średniej z próby jest malejącą funkcją liczebności z próby. E(X) = E(X) D2(X) = D2(X)/n Dla n rosnącego nieograniczenie wariancja średniej z próby ma granicę równą 0. Zatem średnia z próby jest wedle wprowadzonego twierdzenia estymatorem zgodnym średniej w populacji. Posługując się średnią z próby dla oceny średniej w populacji słusznie spodziewamy się, że zwiększając liczebność próby zmniejszamy ryzyko popełniania dużych błędów w ocenie wartości tej średniej w populacji. Dowód twierdzenia o zgodności estymatora nieobciążonego o zbieżnej do zera wariancji przeprowadzimy korzystając z nierówności Czebyszewa. P(| X -E(X)| > ) < D2( X )/2 zatem P(| X -E(X)| ) 1 - D2( X )/2 Podstawmy teraz w miejsce zmiennej X statystykę Tn. P(|Tn - E(Tn)| ) 1 - D2(Tn)/2 Rozważmy to dla n rosnącego nieograniczenie. lim P(|Tn - E(Tn)| ) n lim (1 - D2(Tn)/2) n 61 Korzystając z założenia o zbieżności wariancji estymatora do 0 lim n D2(Tn) = 0 otrzymujemy prawą stronę "granicznej" wersji nierówności równą 1: lim (1 - D2(Tn)/2) = 1 n Wedle pierwszego założenia estymator jest asymptotycznie nieobciążony lim E(Tn) = n Pozwala to przekształcić lewą stronę "granicznej" wersji nierówności lim P(|Tn - E(Tn)| ) n = lim P(|Tn - | ) n Łączymy teraz obie strony, już przekształcone zgodnie z założeniami twierdzenia, i otrzymujemy nową wersję nierowności: lim P(|Tn - | ) 0 n zatem lim P(|Tn - | ) = 0 n a ponieważ jest dowolną liczbą większą od zera: lim P(|Tn - | < ) = 0 n Upraszczając i zarazem zubażając sens dowiedzionego twierdzenoia można powiedzieć, że jeżeli średnia jakiegoś estymatora w miarę wzrostu liczebności próby coraz bardziej upodabnia się do wartości parametru estymowanego tak, że stać się może dowolnie mu bliska lub jest mu równa, ponadto w miarę wzrostu liczebności próby wariancja estymatora maleje tak, że stać się może dowolnie bliska zeru, to estymator taki jest estymatorem zgodnym. W istocie warunki te są nieco łagodniejsze. Nie musi być tak, by każde zwiększenie liczebności powodowało zmniejszenie różnicy (E(Tn) - ) oraz jednoczesne zmniejszenie wariancji D2(Tn). Ostatnią cechą estymatora jest jego efektywność. Jest to cecha, w odróżnieniu od poprzednich, stopniowalna. Najpierw zdefiniujemy estymator najefektywniejszy, by następnie móc inne z nim porównywać. Statystyka Tn(k) jest estymatorem najefektywniejszym ze zbioru estymatorów , jeżeli wariancja żadnego z estymatorów należących do tego zbioru nie jest mniejsza od wariancji estymatora Tn(k). = {Tn(1), Tn(2), Tn(3), ..., Tn(z)} Tn(k) D2(Tn(k)) D2(Tn(i)) Iloraz wariancji estymatora najefektywniejszego w zbiorze estymatorów i wariancji estymatora Tn(i) należącego do zbioru jest traktowany jako miara efektywności estymatora Tn. 62 Iloraz ten nazywamy efektywnością estymatora Tn(i) w zbiorze estymatorów i oznaczymy en(i): min en(i) Tn(k) (D2(Tn(k))) = D2(Tn(i)) Zwykle poszukujemy estymatorów o wysokiej efektywności w zbiorach estymatorów jakiegoś parametru posiadających jakieś inne cenne własności. Np. szukamy estymatora najefektywniejszego wśród estymatorów nieobciążonych jakiegoś parametru . Oceniając wartość parametru za poomocą najefektywniejszego estymatora nieobciążonego gwarantujemy sobie, że średnia wartość błędu oceny będzie równa 0 a jednocześnie średnia kwadratów błędu będzie najmniejsza. Jest do pomyślenia sytuacja, gdzie średnia wartość kwadratu błędu przy ocenie wartości parametru za pomocą estymatora obciążonego będzie mniejsza od średniej kwadratu błędu przy ocenie wartości tego samego parametru za pomocą najefektywniejszego estymatora nieobciążonego. Byłoby tak, gdyby jakiś estymator umiarkowanie obciążony miał bardzo małą wariancję, a w zbiorze estymatorów nieobciążonych nie było estymatorów o małych wariancjach. W takiej sytuacji dążenia do posługiwania się estymatorem niobciążonym i estymatorem o małej średniej kwadrat błędu mogłyby ze sobą kolidować. Niech będą dwa estymatory tego samego parametru oznaczone Tn i Gn. Pierwszy z nich niech będzie estymatorem obciążonym parametru a drugi jego estymatorem nieobciążonym: (E(Tn) - ) 0 (E(Gn) - ) = 0 Zatem c = E(Tn) - jest obciążeniem estymatora Tn. Obciążenie estymatora Gn jest oczywiście równe 0. Wariancje estymatorów oznaczymy: D2(Tn) = E(Tn - E(Tn))2 D2(Gn) = E(Gn - E(Gn))2 = E(Gn-)2 Wariancja estymatora nieobciążonego jest jednocześnie średnią kwadratów błędów oceny wartości parametru za pomocą tego estymatora. Znając obciążenie estymatora Tn i jego wariancję można wyznaczyć średnią kwadratów błędów oceny wartości parametru przy pomocy estymatora Tn: E(Tn - )2 = E(Tn - (E(Tn) - c))2 = E(Tn - E(Tn) + c)2 = = E((Tn - E(Tn))2 + 2 c (Tn - E(Tn)) + c2) = = D2(Tn) + c2 Średnia kwadratów błędu estymatora obciążonego Tn mogłaby być mniejsza od średniej wartości kwadratu błędu estymatora nieobciążonego Gn gdyby wariancja tego ostatniego była większa od wariancji estymatora obciążonego co najmniej o kwadrat jego obciążenia. E(Tn - )2 < E(Gn - )2 D2(Tn) + c2 < D2(Gn) D2(Gn) - D2(Tn) > c2 Posługując się jakimś estymatorem dla oceny wartości parametru w populacji należałoby podawać dwie wielkości: kwadrat obciążenia zdający sprawę z ryzyka błędu systematycznego oraz wariancję estymatora przedstawiającą ryzyko błędu niesystematycznego. Obie te wielkości razem informują o średniej kwadratu błędu. 63 Estymator najefektywniejszy w zbiorze wszystkich estymatorów parametrów może nie być w tym zbiorze estymatorem o najmniejszej średniej kwadratów błędu. Estymator najefektywniejszy w zbiorze nieobciążonych estymatorów parametru jest w tym zbiorze jednocześnie estymatorem o najmniejszej średniej kwadratu błędu. Efektywność en(i) estymatora Tn(i) może się zmienić wraz ze zmianą liczebności próby. Jeżeli istnieje granica efektywności en(i) estymatora Tn(i) wyznaczanej w zbiorze estymatorów dla liczebności próby n rosnącej nieograniczenie, to granicę tę nazywamy asymptotyczną efektywnością estymatora Tn(i) w zbiorze estymatorów i oznaczamy e(i). Granica efektywności estymatora Tn(i) istnieje, jeżeli e(i) >0 k n>k |en(i) - e(i)| < i jest ona wówczas równa e(i) e(i) = lim en(i) n Jeżeli efektywność jakiegoś estymatora nie jest stała przy zmieniającej się liczebności próby n, lecz istnieje granica tej efektywności dla rosnącego n, wówczas wygodnie jest charakteryzować taki estymator przez podawanie jego efektywności asymptotycznej i traktowanie tej asymptotycznej efektywności jako przybliżonej miary jego efektywności wtedy, gdy liczebność próby jest duża. Ze zrozumiałych względów obok estymatorów najefektywniejszych wśród nieobciążonych za szczególnie cenne uznaje się estymatory asymptotycznie najefektywniejsze wśród asymptotycznie niobciążonych. Przypisuje się im te same zalety, co tym pierwszym, lecz tylko w dużych próbach. Estymatorem asymptotycznie najefektywniejszym w zbiorze estymatorow jest taki estymator, którego asymptotyczna efektywność wyznaczona w tym zbiorze jest równa 1. Poza zdefiniowanymi trzema podstawowymi cechami "dobrego" estymatora: nieobciążonością, zgodnością i efektywnością są jeszcze inne, które tutaj pominiemy. Zajmiemy się natomiast podstawowymi metodami wyszukiwania "dobrych" estymatorów. Przedstawimy idee trzech metod konstruowania estymatorów. Będą to: metoda momentów, metoda najmniejszych kwadratów i metoda najwyższej wiarygodności. Metoda momentów zakłada, że szacowany parametr populacyjny jest funkcją tzw. zwykłych momentów rozkładu w populacji. Zwykłym momentem k-tego rzędu zmiennej X w populacji jest średnia k-tej potęgi zmiennej X w populacji. Np. wariancja zmiennej X jest funkcją zwykłych momentów zmiennej X rzędu 1-go i 2-go. D2(X) = E(X2) - (E(X))2 Momenty rozkładu zmiennej w populacji nie są znane, zamiast nich posługujemy się wartościami odpowiednich momentów obliczonych w wylosowanej próbie. Zwykłe momenty zmiennej X z próby są w metodzie momentów estymatorami zwykłych momentów zmiennej X w populacji. Odpowiednia funkcja zwykłych momentów z próby jest estymatorem ocenianego parametru populacyjnego, który jest funkcją tych momentów z próby. W przypadku wariancji w populacji jej estymatorem skonstruowanym zgodnie z metodą momentów byłaby różnica między dwiema statystykami z próby: średnią kwadratów zmiennej X z próby i kwadratem średniej zmiennej X z próby. Estymatory uzyskiwane zgodnie z metodą momentów są estymatorami zgodnymi. Nie zawsze są jednak nieobciążone i najefektywniejsze. Np. wariancja z próby będąca estymatorem wariancji w populacji wedle metody momentów jest estymatorem obciążonym, natomiast średnia z próby, która wedle tej 64 metody jest estymatorem średniej w populacji, jest estymatorem nieobciążonym. Metoda najmniejszych kwadratów, w skrócie MNK, służy najczęściej do szacowania populacyjnych parametrów tzw. modeli liniowych. Parametry te są parametrami łącznego rozkładu zmiennych określonych w populacji. Rozważmy prosty przykład. Niech zmienna X będzie wedle modelu sumą zmiennej Z oraz liniowej funkcji zmiennej Y. Zmienna Z niech ma średnią równą 0 i będzie nieskorelowaną ze zmienną Y. X = a + bY + Z E(Z) = 0 C(Z,Y)= 0 (Zmienna Z jest w tym modelu interpretowana jako rezultat oddziaływań na zmienną X innych niekontrolowanych w modelu czynników. Parametry a i b modelu przedstawiają związek zmiennej X ze zmienną Y.) Zuważmy, że funkcja liniowa a+bY sama jest zmienną określoną w populacji. Nie znamy jej wartości, gdyż nie znamy parametrów a i b. Z przyjętych założeń wynika, co jest istotnym dla metody, że średnia funkcji a+bY o szacowanych parametrach jest w populacji równa średniej zmiennej X określonej w tej populacji i mającej znane wartości. E(X) = E(a+bY+Z) = E(a+bY) + E(Z) = E(a+bY) Za estymatory parametrów a i b uznaje się w MNK takie statystyki z próby, których wartości podstawione w miejsce nieznanych wartości parametrow a i b minimalizują w każdej konkretnej n-elementowej próbie sumę kwadratów różnic między wartościami zmiennej X dla elementow próby a oszacowanymi dla nich w ten sposób wartościami funkcji a+bY. Oznaczmy an poszukiwany estymator parametru a i bn estymator parametru b. Ich wartości w konkretnej próbie oznaczymy: an i bn. Podstawowy postulat MNK możemy teraz zapisać w sposób następujący: Statystyki z próby n-elementowej an i bn są estymatorami wedle MNK parametrów a i b modelu wtedy, gdy: 1. model spełnia warunek, że E(X) = E(a+bY) 2. wartości tych statystyk z próby podstawione w miejsce parametrów modelu w każdej n-elementowej próbie minimalizuje sumę kwadratów różnic: n [ E(wli) i=1 (an + bn*Y(wli)) ]2 między oszacowaną w ten sposób wartością funkcji a+bY dla elementu wh czyli an + bn*Y(wh) a wartością zmiennej X dla tego elementu X(wh). Znamy rozwiązanie tego problemu. W każdej n elementowej zbiorowości liczby an i bn minimalizujące sumę kwadratów różnic wyznaczamy w ten sam sposób: bn jest to kowariancja zmiennych X i Y w tej zbiorowości podzielona przez wariancję w tej zbiorowości zmiennej Y, an jest to średnia zmiennej X w tej zbiorowości minus iloczyn bn i średniej zmiennej Y w tej zbiorowości. W każdej n-elementowej próbie liczby te wyznaczymy jako funkcje tych samych statystyk z próby: 65 C(X,Y) bn = , S2(Y) an = X - bn * Y gdzie C(X,Y) tu wyjątkowo oznacza statytykę z próby będącą kowariancją tych zmiennych z próby natomiast X, Y, S2(Y) są znanymi statystykami z próby. Ponieważ funkcje statystyk z próby same są statystykami z próby, zatem an i bn są statystykami z próby. Wartości tych statystyk podstawione w miejsce nieznanych parametrów populacyjnych a i b minimalizują w każdej n-elementowej próbie sumę kwadratów różnic. Są zatem estymatorami parametrów a i b uzyskanymi zgodnie z MNK. Metodą najmniejszych kwadratów dokonujemy wyboru estymatorów parametrów takiej funkcji, która sama będąc zmienną (losową, statystyczną) ma średnią równą średniej zmiennej określonej w populacji i mającej znane wartości. Metoda najwyższej wiarygodności, w skrócie MNW, zasługuje na uwagę największą. Tą metodą znajduje się estymatory parametrów bardzo wielu modeli w naukach społecznych. Terminem "model" oznaczamy tutaj łączny rozkład zmiennych lub jednej tylko zmiennej w populacji, w której spełnione są postulaty jakiejś teorii dotyczącej m.inn. tych zmiennych i tej populacji. MNW zakłada, że jesteśmy w stanie określić funkcję, która każdej możliwej do wylosowania próbie przyporządkowuje prawdopodobieństwo jej wylosowania przy założeniu, że wartości ocenianych parametrów populacyjnych są dane przez dowolną kombinację liczb. Rozważmy przypadek najprostszy: oceniana jest wartość jednego parametru rozkładu jednej zmiennej X. Oznaczymy ten parametr . Niech zmienna X przyjmuje skończoną liczbę wartości. Prawdopodobieństwo tego, że wartość zmiennej X dla k-tego elementu próby będzie równa xi pod warunkiem, że wartość parametru rozkładu zmiennej X w populacji jest równe r zapiszemy tak, jak każde inne prawdopodobieństwo warunkowe: P (Xk = xi | = r) Zakładamy, że jest ono znane dla każdego rzeczywistego r oraz dla każdego xi należącego do zbioru wartości zmiennej X. Rozważmy teraz n-elementową próbę losową w sposób prosty i niezależny. Prawdopodobieństwo tego, że w wylosowanej k-tej próbie zmienne X1, X2, X2, ..., Xn przyjmą odpowiednio wartości xk1, xk2, xk3, ..., xkn pod warunkiem, że parametr rozkładu zmiennej X w populacji ma wartość równą r, możemy zapisać jako iloczyn prawdopodobieństw: P(X1=xk1 & X2=xk2 & .... Xn=xkn | = r) = = P(X1=xk1|=r) * P(X2=xk2|=r) * ... * P(Xn=xkn|=r) Przy ustalonych wartościach zmiennej X dla kolejnych elementów k-tej próby można poszukać, dla jakiego r będącego oceną parametru wartość tego prawdopodobieństwa jest najwyższa. Tę wartość r, przy której prawdopodobieństwo to osiąga wartość maksymalną, traktujemy jako najlepszą ocenę wartości parametru możliwą do dokonania na podstawie k-tej próby. Tym sposobem każdej możliwej do wylosowania próbie przyporządkowana jest taka ocena parametru , która maksymalizuje prawdopodobieństwo wylosowania takiej właśnie próby. Funkcja ta określona na przestrzeni prób jest estymatorem najwyższej wiarygodności parametru . Oznaczmy estymator najwyższej wiarygodności parametru symbolem '. jest to funkcja, która każdej k-tej próbie złożonej z n elementów przyporządkowuje liczbę r*k wedle następującej zasady: 66 r*k = '(<wk1,wk2,...wkn>) r P(X1=X(wk1) & X2=X(wk2) & ... & Xn=X(wkn) | =r*k) P(X1=X(wk1) & X2=X(wk2) & ... & Xn=X(wkn) | =r) Wartość estymatora przyporządkowana próbie zależy jedynie od tego, jakie to wartości zmiennej X są przyporządkowane jej elementom. Dla dwu różnych prób wartość estymatora będzie taka sama, jeżeli tylko wartości zmiennej X przyporządkowane ich elementom będą takie same. Rozważmy prosty przykład liczbowy. Mamy ocenić wartość parametru p zmiennej X mającej w populacji rozkład zero-jedynkowy. Parametr p jest częstością z jaką zmienna X przyjmuje w populacji wartość 1. Oceny dokonywać będziemy na podstawie dwuelementowej próby losowanej w sposób prosty i niezależny. Z takiej populacji można wylosować cztery różne pod względem wartości zmiennej X próby. Powinniśmy zatem czterokroć rozważyć, dla jakiej to wartości parametru p prawdopodobieństwo wylosowania próby danego typu jest największe. P P P P (X1=0 (X1=1 (X1=0 (X1=1 & & & & X2=0 X2=0 X2=1 X2=1 | | | | p=r) p=r) p=r) p=r) = = = = (1-r)2 r * (1-r) (1-r) * r r2 Estymator najwyższej wiarygodności parametru p konstruujemy przyporządkowując każdemu z czterech możliwych typów prób taką wartość r, która maksymalizuje prawdopodobieństwo wylosowania takiej właśnie próby. P P P P (X1=0 (X1=1 (X1=0 (X1=1 & & & & X2=0 X2=0 X2=1 X2=1 | | | | p=r) p=r) p=r) p=r) = = = = (1-r)2 osiąga maksumum 1 r * (1-r) 0.25 (1-r) * r 0.25 r2 1 dla dla dla dla r r r r = = = = 0, 0.5, 0.5, 1 Inaczej mówiąc, najwyższe jest prawdopodobieństwo wylosowania próby pierwszego typu, w której obu elementom zmienna X przyporządkowuje wartośc 0, z takiej populacji, w której częstość p jest równa 0 i wartości zmiennej X równe 1 wogóle nie występują. Najwyższe jest prawdopodobieństwo wylosowania próby drugiego typu, w której pierwszemu elementowi zmienna X przyporządkowuje wartość 1 a drugiemu 0, z takiej populacji, w której p jest równe 0.5. Najwyższe jest prawdopodobieństwo wylosowania próby trzeciego typu też z takiej populacji, w której p jest równe 0.5 i próby czwartego typu, w której obu elementom zmienna X przyporządkowuje wartość 1, z populacji, w której p jest równe 1 i wszystkim elementom zmienna X przyporządkowuje wartość 1. Dla prób dwuelementowych częstość z próby jest estymatorem MNW czestości w populacji. Moglibyśmy dowieść, że tak jest dla prób dowolnie licznych. Omawiając metodę najwyższej wiarygodności ograniczyliśmy się do przykładu najprostszego. Wedle tej metody można oceniać wartości kilku parametrow łącznego rozkładu wielu zmiennych jednocześnie poszukując takiej kombinacji ich domniemanych wartości, przy której prawdopodobieństwo wylosowania próby takiego typu, do jakiego należy próba przez nas wylosowana jest największa. Zauważmy, że rozważanie prób innych typów, poza tym do którego należy próba wyloswana, jest w istocie zbędne. Punktowa estymacja wartości parametru populacyjnego polega na: 1. wybraniu statystyki z próby będącej najlepszym spośród dostępnych estymatorów tego parametru, 2. określeniu w miarę możliwości dokładnie jego własności takich jak obciążenie, średnia kwadratu błędu, efektywność, 3. wylosowaniu próby i wyznaczeniu wartości tego estymatora. Wartość estymatora w wylosowanej próbie traktuje się następnie jako ocenę (oszacowanie) wartości parametru populacyjnego. 67 Ocena taka praktycznie zawsze jest błędna. O rozmiarze możliwego błędu informuje nas charkterystyka estymatora. Aktualna wielkość błędu pozostaje rzecz jasna nieznaną. Nie będziemy się tutaj zajmowali praktycznymi problemami estymacji punktowej, gdyż wykracza to poza ramy naszego kursu. W bardziej praktyczny sposób zajmiemy się natomiast estymacją przedziałową. Estymacja przedziałowa, zgodnie z definicją polega na przypisywaniu parametrowi rozkładu zmiennej lub zmiennych w populacji, którego wartości nie znamy, przedziału jako oceny jego wartości. O przedziale tym twierdzi się następnie, że nieznana wartość parametru jest w nim zawarta. Estymacja przedziałowa, mniej od punktowej dokładna, gdyż przedziałowa, stawia jednak wyższe wymagania naszej wiedzy o estymatorze służącym do jej przeprowadzenia. W zamian możemy określić ryzyko popełnienia błędu przy ocenie wartości parametru szacowanego. Jeżeli estymator Tn ma służyć do przeprowadzenia przedziałowej estymacji parametru rozkładu zmiennej X w populacji , to powinniśmy znać rozkład tego estymatora w zbiorze wszystkich n-elementowych prób możliwych do wylosowania z populacji , a nie tylko jeden lub dwa najważniejsze parametry tego rozkładu. Tak było w przypadku estymacji punktowej, gdzie dla oceny jakości estymacji wystarczała znajomość średniej i wariancji estymatora. Estymacją przedziałową zajmiemy się nieco bardziej szczegółowo niż punktową i z nastawieniem nieco bardziej technicznym. Ograniczymy się jednak tylko do jednego przykładu. Zajmiemy się mianowicie estymacją przedziałową parametru za pomocą takiego estymatora Tn, który w zbiorze n-elementowych prób z populacji ma rozkład zbliżony do normalnego. Parametrem będzie średnia zmiennej X w populacji lub (co jest równoważne) częstość p, z jaką w populacji występuje wartość 1 zmiennej "zero-jedynkowej". Ponieważ tu i w następnym rozdziale będziemy musieli posługiwać się pewnymi wielkościami i operacjami związanymi z rozkładem normalnym, przedstawimy je najpierw. Niech zmienna X ma rozkład normalny o średniej równej m i odchyleniu standardowym równym . Zapisujemy to zwykle skrótowo umieszczając obie wielkości w nawiasie poprzedzonym dużą literą N. Zatem zapis "zmienna Z ma rozkład N(124, 28)" informuje o tym, że zmienna Z ma rozkład normalny o średniej równej 124 i odchyleniu standardowym równym 28. O naszej zmiennej Z możemy napisać, że ma rozkład N (m,). Literą U oznaczać będziemy zmienną, która ma rozkład N (0,1), czyli normalny o średniej równej 0 i odchyleniu standardowym równym 1. Dystrybuantę zmiennej o rozkładzie N (0,1) oznaczać będziemy literą . Zatem prawdopodobieństwo tego, że zmienna U przyjmie wartość mniejszą lub równą r zapisujemy tak: P (U r) = Fu(r) = (r) W tablicach statystycznych znajdziemy tablicę przedstawiającą dystrybuantę zmiennej U mającej rozkład N (0,1). Rozkład taki nazywa się zwykle rozkładem normalnym standaryzowanym. W praktyce zmuszeni jesteśmy często posługiwać się zmiennymi o rozkładzie normalnym lecz średniej różnej od 0 lub odchyleniu standardowym różnym od 1. Dla każdej takiej zmiennej istnieje jednak zmienna będąca jej funkcją, która ma rozkład normalny standaryzowany. Jeżeli zmienna X ma rozkład N (m,) to zmienna Z = (X-m)/ ma rozkład N (0,1). Przekształcenie (X-m)/ = (X-E(X))/D(X) jest znanym przekształceniem standaryzującym. Zatem zmienna Z ma średnią równą 0 i odchylenie standardowe równe 1. Przekształcenie to jest przekształceniem liniowym, zatem zmienna Z ma rozkład normalny, gdyż zmienna X ma rozkład normalny. O zmiennej Z w ten sposób uzyskanej mówimy zwykle, że jest to "standaryzowana zmienna X". Standaryzacja zmiennej X pozwala na 68 posługiwanie się tablicami dotyczącymi zmiennej U o rozkładzie N(0,1) dla określenia prawdopodobieństw dotyczących zmiennej X. Niech zmienna X ma średnią m=170 i odchylenie standardowe =15 i niech ma rozkład normalny. Standaryzowana zmienna X ma zatem rozkład normalny standaryzowany, taki sam jaki ma zmienna U. Zatem wartością dystrybuanty zmiennej standaryzowanej X w jaimś punkcie r jest wartość dystrubuanty w punkcie r zmiennej U. Korzystając z tego rozwiążemy kilka zadań: X-m a. P (Xr) = P( r-m ) = P ( U r-m ) r-m = ( ) gdy r =173 X-m P (X173) = P( b. P(X>r) = P ( X-m 173-170 3 ) = P (U ) 15 15 = (0.2) = .5793 > r-m ) r-m = 1 - ( ) = P(U > r-m ) gdy r = 175 P (X>175) = P X-m ( > 175-170 ) = 15 5 P (U > )=(0.333)= 15 = 1 - 0.6293 = 0.3707 r-m X-m s-m P( < ) c. P (r < X s) = s-m = ( ) r-m = P ( s-m < U ) = r-m ( ) gdy r =173 i s =175 P (r < X s) 173-170 = P ( 15 < U 175-170 ) = (0.33)-(0.2) = 15 = 0.6293 - 0.57926 = 0.05004 Funkcja gęstości prawdopodobieństwa zmiennej o rozkładzie normalnym jest symetryczna względem średniej tej zmiennej. W przypadku zmiennej U o rozkładzie N (0,1) jest ona symetryczna względem 0. Z symetrii funkcji gęstości wynika równość pól pod tą funkcją nad przedziałami: w lewo od -a i w prawo od +a, dla dowolnego rzeczywistego a. Pola te są równe prawdopodobieństwom: przyjęcia przez zmienną U wartosci mniejszej lub równej -a oraz przyjęcia przez tę zmienną wartości większej lub równej +a. Zatem prawdopodobieństwa te są równe, co zapiszemy: P (U -a) = P (U a) P(U -a) = 1 - P (U a) W ten sposób uzasadniliśmy ważną własność rozkładu zmiennej U: 69 Jeżeli zmienna U ma rozkład N (0,1), to wartość jej dystrybuanty w punkcie -r jest równa 1 minus wartość jej dytrybuanty w punkcie r. (-r) = 1-(r) Własność ta pozwala wyznaczyć wartości dystryubuanty zmiennej U dla liczb ujemnych przy użyciu tablicy, w której są one określone tylko dla liczb dodatnich. Dytrybuanta zmiennej o rozkładzie normalnym jest funkcją rosnącą. Zatem istnieje funkcja odwrotna względem dystrybuanty takiej zmiennej. Funkcja ta każdej liczbie rzeczywistej p z przedziału (0, 1) przyporządkowuje taką liczbe rzeczywistą r, której sama dystrybuanta przyporządkowuje prawdopodobieństwo p. Dzięki temu mozliwe jest zdefiniowanie dwu wielkości (w istocie dwu funkcji, jak się przekonamy): i Symbolem oznaczamy taką liczbę rzeczywistą, której dystrybuanta zmiennej U mającej rozkład N (0,1) przyporządkowuje liczbę równą 1-/2. : P (U ) = 1 - /2 Prawdopodobieństwo tego, że zmienna U przyjmie wartość mniejszą lub równą jest rowne 1 minus połowa . Określona zatem została funkcja , która każdej liczbie rzeczywistej z przedziału (0, 1) przyporządkowuje taką liczbę rzeczywistą , której dystrybuanta zmiennej U przyporządkowuje liczbę 1-/2 również należącą do przedziału (0, 1). Należałoby właściwie zamiast pisać (). Utrwalił się jednak zwyczaj pomijania nawiasów. : (0, 1) Prawdopodobieństwo tego, że zmienna U mająca rozkład N (0, 1) przyjmie wartość z przedziału (-, > jest równe 1-. P(- < U ) = 1- Dowód jest natychmiastowy: P(- < U ) = () - (-) = () - (1-()) = = 1-/2 - (1 - (1 - /2)) = 1 - Przedział (-, > o długości równej 2 jest najkrótszym przedziałem, dla którego prawdopodobieństwo tego, że zmienna U o rozkładzie N (0,1) przyjmie należącą do niego wartość jest równe 1-. Wynika to z symetrii funkcji gęstości prawdopodobieństwa zmiennej U względem 0, która to funkcja dla zera przyjmie wartość maksymalną i maleje w miarę oddalania się od zera. Łatwy do skonstruowania dowód pozostawiamy Czytelnikom. Przedstawimy tylko dwa przydatne rysunki, na których zaznaczono dwa przedziały: jeden symetryczny względem 0 i drugi niesymetryczny względem 0 charakteryzujący się tym, że dla każdego z nich prawdopodobieństwo tego, że zmienna U przyjmie wartość należącą do przedziału jest rowne 1 - . 70 Twierdzenie o najkrótszym przedziale dla zmiennej o rozkładzie normalnym standaryzowanym można uogólnić na dowolną zmienną o rozkładzie normalnym. Dla zmiennej X mającej rozkład N (m,) istnieje nieskończenie wiele przedziałów (a, b) spełniających warunek, że zmienna X przyjmuje wartość z takiego przedziału z prawdopodobieństwem równym jakiemuś 1 - . Można dowieść, że najkrótszym z nich jest przedział symetryczny względem średniej zmiennej X oznaczonej m. Jest to przedział: (m-* , m+*> o długości równej 2** spełniający dwa następujące warunki: P (m -* < X m + *) = 1 - r+s 2** r,s: P(m-r< X m+s)=1- Prawdopodobieństwo tego, że zmienna U mająca rozkład N (0,1) przyjmie wartość różniącą się co do modułu od 0 o więcej niż jest równe 1-. P (|U-0| > ) = P (|U| > ) = Prawdopodobienstwo tego, że taka zmienna U przyjmie wartość różniącą sie co do modułu od 0 o mniej lub jest równe 1 - . P (|U-0| ) = P( |U| ) = 1 - co wynika z równoważności: 71 |U| - U natomiast zdarzenie z poprzedniego twierdzenia |U-0| > jest dopełnieniem zdarzenia |U-0| o znanym już prawdopodobienstwie. Symbolem oznaczamy taką liczbę rzeczywistą, której dystrybuanta zmiennej U przyporządkowuje prawdopodobieństwo równe 1-. : P( U ) = () = 1- Prawdopodobieństwo tego, że zmienna U przyjmie wartość mniejszą lub równą jest równe 1-. Określona została zatem funkcja , która każdej liczbie rzeczywistej z przedziału (0, 1) przyporządkowuje taką liczbę rzeczywistą , której dystrybuanta zmiennej U przyporządkowuje liczbę 1- również z przedziału (0, 1). Funkcja pomnożona przez -1 jest funkcją odwrotną względem dystrybuanty zmiennej U. () = 1-, (-) = Prawdopodobienstwo tego, że zmienna U przyjmie wartość mniejszą lub równą - jest równe . P (U - ) = (-) = 1- () = 1 - (1-) = Podobnie jak w przypadku funkcji wartość funkcji w jakimś punkcie powinniśmy oznaczać (). Panuje jednak powszechnie zwyczaj pomijania tych nawiasów. Wróćmy teraz do estymacji przedziałowej i zdefiniujemy podstawowe terminy. Powiedzieliśmy już, że estymacja przedziałowa polega na ocenie nieznanej wartości populacyjnego parametru przez wskazanie przedziału liczbowego zawierającego w sobie wartość tego parametru. Ocena taka zależna od rezultatu losowania próby jest oceną zawodną. Prawdopodobieństwo tego, że w postępowaniu mającym za cel przedziałową estymację wartości parametru uzyskamy przedział liczbowy zawierający w sobie wartość tego parametru nazywamy poziomem ufności tego postępowania (lub tego przedziału). Prawdopodobienstwo to, poziom ufności, oznaczamy 1-. Samo jest zatem prawdopodobieństwem uzyskania w postępowaniu estymacyjnym takiego przedziału liczbowego, który nie zawiera w sobie wartości ocenianego parametru . jest zatem prawdopodobienstwem popełnienia błędu, nazywamy je także poziomem ryzyka. Sam przedział nazywamy przedziałem ufności. W poprzednim rozdziale wprowadziliśmy pojęcie statystyki z próby. Była to funkcja przyporządkowująca każdej próbie liczbę rzeczywistą. Przedział ufności jest funkcją o analogicznym charakterze - każdej próbie przyporządkowuje zbiór wszystkich liczb rzeczywistych należących do pewnego przedziału. Można zatem utożsamiać funkcję "przedział ufności" z parą statystyk z próby: pierwsza An każdej próbie przyporządkowuje dolną granicę przedziału, a druga oznaczona Bn - górną. Przedziałem ufności parametru populacyjnego z n-elementowej próby na poziomie ufności rownym 1- nazywać będziemy taką funkcję, która każdej n-elementowej próbie przyporzadkowuje zbiór wszystkich liczb rzeczywistych należących do pewnego przedziału (An, Bn), którego granice spełniają następujące warunki: 1. prawdopodobieństwo wylosowania takiej próby, że zbiór liczb rzeczywistych należących do przedziału zawiera wartość szacowanego parametru jest równe poziomowi ufności 1-: 72 P(An Bn) = 1 - 2. Długość tego przedziału jest najmniejszą długością przedziału spełniającego warunek poprzedni 0<<1 gdzie Cn,Dn: P(CnDn)=1- Bn-An Dn-Cn Cn, Dn są dowolnymi statystykami z n-elementowej próby. Pomijając wykonalność takiej procedury można wyobrażać sobie estymację przedziałową populacyjnego parametru jako postępowanie, w którym najpierw ustala się poziom ufności, czyli prawdopodobienstwo tego, że postępowanie doprowadzi do uzyskania przedziału poprawnie oceniającego wartość parametru , następnie każdej możliwej do wylosowania próbie przyporządkowujemy wartości dwu statystyk z próby, pierwsza z nich to dolna granica przedziału, a druga to górna jego granica. Statystyki te powinny być tak wybrane, by: 1. wyznaczane przez nie przedziały przyporządkowane poszczególnym próbom z prawdopodobieństwem równym 1- zawierały wartość ocenianego parametru ; zatem próby, którym przyporządkowane są przedziały zawierające wartość szacowanego parametru powinny stanowić 1- wszystkich możliwych do wylosowania n-elementowych prób, natomiast pozostałym próbom, które stanowią wszystkich przyporządkowane są przedziały, które nie zawierają w sobie wartości parametru, 2. długość (lub długości, jeżeli są one różne dla różnych prób) w ten sposób wyznaczonych przedziałów powinna być najmniejszą z możliwych dla przedziałów spełniających warunek poprzedni. Gdy już każdej możliwej do wylosowania n-elementowej próbie przyporządkowany jest przedział ufności, wystarczy wylosować próbę z populacji, w której oceniamy wartość parametru i uznać przyporządkowany tej próbie przedział ufności (wartość funkcji "przedział ufności") za ocenę parametru . Tego, czy ocena jest trafna, nie wiemy. Wiemy jedynie, że prawdopodobienstwo wylosowania takiej próby, której przyporządkowany jest przedział trafnie oceniający wartość parametru jest równe 1-, a prawdopodobienstwo wylosowania takiej próby, której przyporządkowany jest przedział błędnie oceniający wartość parametru jest równe poziomowi ryzyka . Sami na takie właśnie ryzyko zgodziliśmy się ustalając poziom ufności. Przy tak ogólnym sformuowaniu zadanie wydaje się dość trudnym do realizacji. Zwłaszcza to wyszukiwanie statystyk z próby mających być granicami przedziału nie wydaje się łatwe. Statystyki te powinny mieć przedstawine własności i to bez względu na wartość ocenianego parametru populacji. Przedstawimy realizację tego zadania na prostym ale mającym praktyczne zastosowanie przykładzie. Zajmiemy się estymacją średniej zmiennej X w populacji. Rozważać będziemy tylko taką sytuację, w której statystyka z próby - "średnia z próby" ma rozkład zbliżony do normalnego. Parametrem populacyjnym jest średnia zmiennej X w populacji, którą oznaczamy E(X). Jej estymatorem jest średnia z n-elementowej próby. Jeżeli zmienna X ma w populacji rozkład normalny, to średnia z n-elementowej próby losowej w sposób prosty i niezależny ma też rozkład normalny. Jest tak na mocy twierdzenia [ ]. Średnia z próby jest bowiem liniową funkcją n zmiennych X1, X2, ..., Xn, z których każda ma rozkład normalny o tych samych parametrach, co zmienna X w populacji. Ponadto zmienne te są kompletnie niezależne a zatem parami nieskorelowane. Zmienna "standaryzowana średnia zmiennej X z n-elementowej próby" ma w zbiorze wszystkich n-elementowych prób z populacji, w której zmienna X ma rozkład normalny też rozkład normalny. Uzasadnienie tego twierdzenia przypomni nam podstawowe własności rozkładu średniej z próby: 73 zmienna X ma w populacji rozkład N (m, ), zmienne X1, X2, ..., Xn mają w zbiorze wszystkich n-elementowych prób identyczne rozkłady N(m, ) i są kompletnie niezależne, zatem ich suma X1+X2+...+Xn ma rozkład normalny, stąd średnia z próby X = (Xi)/n ma też rozkład normalny, bez względu na rozkład zmiennej X w populacji E( X ) = E(X) = m oraz D2(X) = D2(X)/n = 2/n zatem standaryzowana średnia z próby (X-m)/ ma w przypadku, gdy zmienna X w populacji ma rozkład normalny, rozkład normalny standaryzowany N (0,1) i to bez względu na liczebność próby n. Z treści centralnego twierdzenia granicznego [ ] wynika, że standaryzowaną średnią z n-elementowej próby można traktować tak, jak gdyby miała ona rozkład normalny standaryzowany, jeżeli tylko liczebność próby n jest dostatecznie duża i to bez względu na to, jaki jest rozkład zmiennej X w populacji . Jeżeli rozkład zmiennej X w populacji nie jest normalny lecz jest to rozkład do normalnego tak podobny, że błędy wynikające z zastępowania wartości jego dystrybuanty wartościami dystrybuanty odpowiedniego rozkładu normalnego są pomijalnie małe, to postępujemy tak, jak gdyby zmienna X miała w populacji rozkład normalny. W rzeczywistości nauk społecznych raczej nie spotykamy się z populacjami nieskończonymi, a tylko w takich zmienne mogą mieć rozkłady normalne. Jeżeli zatem o rozkładzie jakiejś zmiennej w jakiejś populacji mwówi się, że ma ona tam rozkład normalny, to znaczy to, że ma ona w populacji rozkład do normalnego podobny. Podsumujmy konsekwencje tych stwierdzeń dla naszego problemu: jeżeli zmienna X ma w populacji rozkład normalny lub ma tam rozkład do normalnego tak podobny, że możemy ich nie rozróżniać, lub jeżeli liczebność próby n jest dostatecznie duża dla zastosowania centralnego twierdzenia granicznego, to standaryzowana średnia z próby ma rozkład normalny standaryzowany lub dostatecznie do niego podobny, by ich nie rozróżniać . W takim przypadku prawdopodobieństwo wylosowania takiej n-elementowej próby, dla której zmienna "standaryzowana średnia zmiennej X z próby" przyjmie wartość należącą do przedziału od - do jest równe 1-: P( - X -E( X ) ) = 1 - D( X ) Nierówność, zgodnie z którą standaryzowana średnia z próby ma wartość należącą do przedziału <- > można zapisać inaczej przekształcając ją w sposób równoważnościowy: - X -E( X ) D( X ) - * D( X ) X -E(X) * D( X ) co można krócej zapisać tak: | X -E( X )| * D( X ) | X - E( X )| * n lub odjąwszy od każdej ze stron nierówności średnią z próby: - X - * D( X ) - E( X ) - X + * D( X ) 74 Mnożąc obustronnie nierówność przez -1 zmieniamy znak nierówności na przeciwny i po uporządkowaniu stron nierówności otrzymujemy jeszcze jedną równoważną postać oryginalnej nierówności: (2) X - * D( X ) E( X ) X + * D( X ) X - * n m X + * n Dwie z równoażnych postaci tej nierówności, oznaczone (1) i (2) zasługują na szczególniejszą uwagę. Zapiszemy odpowiednie prawdopodobieństwa. Prawdopodobieństwo wylosowania takiej próby, z której średnia X odchyli się od średniej w populacji m o mniej niż lub o * D( X ) jest równe 1- : P(| X -E(X)| * D( X )) = 1 - Prawdopodobieństwo wylosowania takiej próby, że przedział o granicach wyznaczonych przez średnią w tej próbie obejmie średnią w populacji m jest równe 1 - : P ( X - * n m X + * ) = 1 - n Dysponujemy zatem funkcją, która przy ustalonym poziomie ufności 1- każdej możliwej do wylosowania próbie przyporządkowuje zbiór liczb rzeczywistych zawartych w przedziale wyznaczonym przez dwie statystyki: X -*D( X ) oraz X +*D( X ). Funkcja ta spełnia oba warunki nałożone na funkcję "przedział ufności" zdefiniowaną wcześniej. Prawdopodobieństwo wylosowania takiej próby, której przyporządkowany jest w ten sposób przedział zawierający wartość parametru m rozkładu zmiennej X w populacji jest równe 1- i to bez względu na to, jaka jest wartość tego parametru m. Całkowita długość tego przedziału jest równa ( X + * D( X )) - ( X - * D( X )) = 2 * * D( X ) Pokażemy, że jest to najkrótszy przedział spełniający warunek nakładany przez poziom ufności równy 1- na przedział ufności. Z twierdzenia [s. ] wiemy, że najkrótszym przedziałem (a,b) spełniającym dla zmiennej X o rozkładzie normalnym warunek, że P(a < X b) = 1- jest przedział symetryczny względem średniej zmiennej X. Stosując to twierdzenie do zmiennej X "średnia z próby" otrzymujemy: P (E( X )-r X E( X )+s) = 1- (r+s 2**D( X ) & r+s = 2**D( X ) r = s = *D( X ) Rozważmy teraz jakiś niekoniecznie symetryczny przedział ufności <X-s, X+r> spełniający warunek nakładany przez poziom ufności: (a) P (X-s E(X) X+r) = 1- 75 Długość tego przedziału jest rowna r + s. Tę samą relację można zapisać inaczej: (b) P (E(X)-r X E(X)+s) = 1- długość tego przedziału (E(X) + s) - (E(X) - r) też jest równa r+s Minimalizując długość przedziału w (b) minimalizujemy długość przedziału ufności (a). Przedział (b) ma minimalną długość, gdy r = s = *D(X). Zatem przedział ufności na długość minimalną, gdy dolna jego granica (X-s) jest równa (X-*D(X)), a górna (X+r) jest równa (X+*D(X)). Jezeli parwdopodobieństwo 1- jest poziomem ufności dla estymacji przedziałowej parametru m zmiennej X w populacji, to statystyki z próby (X-*D(X)) oraz (X+*D(X)) wyznaczają granice przedziału ufności spełniającego warunki nałożone na przedział ufności dla estymacji parametru m. Zatem dla oceny wartości parametru m należy wybrać poziom ufności 1- lub poziom ryzyka oraz liczebność próby n. Następnie trzeba odczytać z tablicy dystrybuanty rozkładu normalnego standaryzowanego wartość funkcji dla przyjętej wartości poziomu ryzyka. Należy określić odchylenie standardowe zmiennej X w populacji. Na koniec należy wylosować w sposób prosty i niezależny n-elementową próbę z populacji i obliczyć dla niej wartość średniej z próby. Oznaczmy tę wartość x. Dysponując tymi wielkościami obliczamy wartość obu statystyk określających granice przedziału ufności. Są nimi: x - , n x + n Będziemy wnioskowali, że średnia w populacji m należy do przedziału wyznaczonego przez te dwie liczby. m x - , n x + > n Możemy spojrzeć na to inaczej ujmując ideę estymacji przedziałowej innymi słowami. Wiemy, że prawdopodobieństwo tego, że średnia z wylosowanej próby przyjmie wartość różniącą się od średniej w populacji o mniej niż *D( X ) jest równe 1-. Natomiast prawdopodobieństwo tego, że średnia z próby przyjmie wartość różniącą się od średniwej w populacji o więcej niż *D( X ) jest równe . P ( |X P ( |X - m| *D( X ) ) = 1- m| > *D( X ) ) = Zakładamy, że prawdopodobieństwo jest tak małe, że godzimy się na ryzyko popełnienia błędu z takim prawdopodobieństwem. Natomiast prawdopodobienstwo 1- wybraliśmy duże. Wylosowaliśmy jakąś n-elementową próbę i obliczyliśmy x średnią zmiennej X w tej próbie. Rozumujemy dalej tak: raczej zdarzyło się nam coś, co ma duże prawdopodobieństwo niż coś, co jest mało prawdopodobne. Czyli średnia w wylosowanej przez nas próbie raczej różni się od średniej w populacji m o mniej niż o *D(X) niż o więcej. Zatem średnia w populacji m znajduje się w otoczeniu średniej z wylosowanej próby wyznaczonymprzez tę wielkość: m x -D( X ), x +D( X ) > 76 Nie jest jednak wykluczonym, że zdarzyło się nam coś, co jest mało prawdopodobne, co ma prawdopodobieństwo równe . Wtedy średnia w populacji m znajduje się poza tym otoczeniem średniej w wylosowanej próbie i nasza ocena parametru m jest błędna. Wylosowanie takiej próby, która doprowadzić by mogła do takiej nietrafnej oceny średniej w populacji jest jednak mało prawdopodobne. Na pewne ryzyko popełnienia błędu zgodziliśmy się określając poziom ufności. Przyjmujemy, że średnia w populacji m raczej znajduje się gdzieś w otoczeniu średniej w wylosowanej próbie, otoczeniu będącym przyporządkowanym wylosowanej próbie przedziałem ufności dla średniej w populacji. Postępując w ten sposób uzyskujemy poprawną ocenę wartości parametru w populacji z prawdopodobieństwem równym poziomowi ufności 1- i niepoprawne oceny z prawdopodobienstwem równym . Na pytanie, czy konkretna ocena uzyskana przy pomocy wyznaczonego przy uzyciu właśnie wylosowanej próby przedziału ufności jest poprawna, nie można odpowiedzieć bez zbadania całej populacji. Zanim przejdziemy do przykładów liczbowych ustalmy, od czego zależy długość przedziału ufności. Będzie to zasada ogólna dotycząca nie tylko estymacji średniej w populacji. Długość przedziału ufności jest tym większa, im wyższy jest poziom ufności i im bardziej zróżnicowaną jest zbiorowość. Jest natomiast tym mniejsze, im liczniejsza jest próba. Długość przedziału ufności jest tym większa, im wyższy jest poziom ufności i im bardziej zróżnicowana jest zbiorowość, natomiast jest tym mniejsza im liczniejsza jest próba. Dla omawianego przykładu estymacji twierdzenie to nie wymaga dowodu. Wystarczy przypomnieć, co jest długością przedziału ufności dla średniej zmiennej X w populacji: 2 * D( X ) = 2 * D( X ) n W liczniku znajduje się odchylenie standardowe zmiennej X - miara zróżnicowania zbiorowości oraz wartość funkcji , która jest rosnącą względem poziomu ufności, a w mianowniku jest kwadratowy pierwiastek z liczebności próby n. () = 1-/2 zatem, gdy rośnie maleje i gdy 1- rośnie, to rośnie. Można traktować długość przedziału ufności jako miarę niedokładności oszacowania, a poziom ufności jako miarę niezawodności tego oszacowania. Dokładność oszacowania średniej w populacji malejąca wraz ze wzrostem długości przedziału ufności : a. rośnie wraz ze wzrostem liczebności próby, liniowo względem kwadratu tej liczebności, b. maleje wraz ze wzrostem niezawodności oszacowania czyli wzrostem poziomu ufności lub spadkiem poziomu ryzyka, c. maleje wraz ze wzrostem odchylenia standardowego rozkładu zmiennej X w populacji. Poziom zróżnicowania populacji określony przez odchylenie standardowe zmiennej X w populacji jest stały i od badacza nie zależy. Liczebność próby zwykle jest ograniczona względami ekonomicznymi lub technicznymi i jeżeli badacz nie może jej zmienić, to chcąc wpłynąć na dokładność oszacowania może on jedynie wybrać inny poziom ufności. Można stąd wyznaczyć minimalną liczebość próby niezbędną do osiągnięcia zamierzonej dokładności oszacowania i jego niezawodności jako spełniajacą warunek: 77 n D X ) gdzie jest połową długości przedziału ufności. Jak widać niezbędna jest jednak znajomość wariancji zmiennej X w populacji lub przynajmniej jej maksymalnej wartości. Badacz może swobodnie wybrać odpowiednią dla siebie relację między dokładnością oszacowania a jego niezawodnością. Za wzrost dokładności trzeba jednak płacić spadkiem niezawodności i odwrotnie, za wzrost niezawodności spadkiem dokładności. Jedna z tych wielkości może wzrosnąć bez spadku drugiej lub przy jej jednoczesnym wzroście tylko za cenę zwiększenia liczebności próby. Inną możliwością, o raczej małym praktycznym znaczeniu, byłoby zainteresowanie się jakąś inną, mniej zróżnicowaną zbiorowością. Zmniejszając liczebność próby, zmniejszamy dokładność, albo niezawodność, albo obie te wielkości jednocześnie. Możliwe jest jednoczesne poprawienie dokładności i niezawodności bez zwiększenia liczebności próby dzieki zmianie sposobu jej losowania: nieznaczną poprawę mozna uzyskać przez zastąpienie losowania zwrotnego przez bezzwrotne, niekiedy znaczą poprawę mozna uzyskac przez podział populacji na segmeny charakteryzujące sie mniejszymi wariancjami zmiennej X i losowanie segmenow próby z każdego segmenu populacji osobno. Losowanie takie nazywamy losowaniem warstwowym. Warto je stosować jednak tylko wtedy, gdy umiemy podzielić populacje na podzbiory bardziej od calej populacji pod wzgledem wartości zmiennej jednorodne i możemy przeprowadzić losowanie w każdej warstwie osobno. Można stąd wyznaczyć minimalną liczebość próby niezbędną do osiągnięcia zamierzonej dokładności oszacowania i jego niezawodności jako spełniajacą warunek: n D X ) gdzie jest połową długości przedziału ufności. Jak widać niezbędna jest znajomość wariancji zmiennej X w populacji lub przynajmniej jej maksymalna wartość. Wróćmy do technicznych problemów estymacji średniej. Przeprowadzenie jej w sposób opisany wymaga znajomości odchylenia standardowego w populacji tej zmiennej, której średnią szacujemy. Odchylenia tego zwykle nie znamy. Dla określenia maksymalnej długości przedziału ufności wystarczyłaby wiedza o maksymalnej wartości tego odchylenia. Często, estymując średnią w populacji, niczego nie wiemy o wielkości odchylenia standardowego zmiennej. W tym przypadku musimy dokonać punktowej estymacji tego parametru. Jeżeli taka punktowa estymacja ma być rzetelna czyli średnia wartość kwadratu błędu z nią związanego ma być mała, to dla jej przeprowadzenia powinniśmy się posłużyć możliwie efektywnym i nieobciążonym estymatorem zgodnym i dużą próbą. Wariancja z próby jest asymptotycznie nieobciążonym estymatorem wariancji z populacji. Jeżeli liczebność próby jest duża, obciążenie jest tak małe, że można je pomijać. Wariancja z próby jest estymatorem zgodnym. W sytuacji, gdy nie znamy średniej w populacji, jest estymatorem optymalnym w sensie metody najwyższej wiarygodności. Nie jest wprawdzie estymatorem najefektywniwjszym w zbiorze wszystkich możliwych estymatorów, takim estymatorem jest bowiem średnia kwadratów odchyleń wartości zmiennej w próbie od średniej zmiennej w populacji, której jednak właśnie nie znamy. 78 Biorąc to pod uwagę przyjmuje się pierwiastek z wariancji w dużej próbie za estymator punktowy odchylenia standardowego w populacji. Uzyskaną w wylosowanej próbie wartość tego estymatora traktuje się przy wyznaczaniu granic przedziału ufności dla średniej jako ocenę odchylenia standardowego w populacji. Tym sposobem postępowanie estymacyjne dotyczące średniej zostaje obarczone dodatkowym błędem - błędem estymacji punktowej odchylenia standardowego. Pocieszającym jest jednak to, że błąd ten ujawni się w liczbach wyznaczających granice przedziału ufności podzielony przez pierwiastek z liczebności próby. Liczebność ta wtedy, gdy dokonujemy takiego szacunku odchylenia jest duża, zatem dzielenie to wydatnie ów błąd zmniejsza. Przyjmujemy, że odchylenie standardowe s w wylosowanej próbie jest oceną odchylenia standardowego w populacji . Ocena ta obarczona jest błędem, w konkretnym przypadku istnieje takie , że: = s+ s = -s Zatem granice przedziału wyznaczonego na podstawie tej próby można zapisać: < x s , x n + s n lub wyodrębnić błąd oceny odchylenia standardowego w populacji: < x - , x n + - n > co jest równoważne takiej ich postaci: < x + n , n x + n > n gdzie wielkość * /n jest błędem w ocenie granic przedziału ufności wynikających z estymacji parametru . W praktycznych zastosowaniach = 2 ± 0.5, n 20, a zatem błąd w ocenie granic przedziału ufności jest co najmniej o rząd wielkości mniejszy od błędu w ocenie parametru . Zapamiętajmy: jeżeli nie znamy odchylenia standardowego zmiennej w populacji a chcemy posłużyć się opisaną metodą, to średnią zmiennej możemy estymować jedynie przy użyciu licznej próby. Istnieje inna metoda estymacji średniejw populacji, w której zmienna ta ma rozkład normalny lub do normalnego bardzo podobny i nie znamy odchylenia standardowego tej zmiennej w populacji. W metodzie tej zamiast standaryzowanej średniej z próby używa się innej statystyki: X -m S/(n-1) gdzie X jest średnią zmiennej X z próby, a S odchyleniem standardowym zmiennej X z próby. 79 Statystyka ta ma tzw. rozkład Studenta o n-1 stopniach swobody. Analizowanie tego przypadku nie wniosłoby niczego nowego i istotnego, a nieczęsto spotykamy populacje, w których wszystkie interesujące nas zmienne mają rozkłady normalne lub do normalnych podobne. Ta ostatnia uwaga dotyczy rzecz jasna głównie socjologii. Przejdźmy zatem do przykładów. Przykład 1. Estymacja średniej w populacji na podstawie dużej próby. Dla oszacowania przeciętnej wagi paczki herbaty "Popularna" o nominalnej wadze 100g z całego transportu liczącego kilkadziesiąt tysięcy paczek wylosowano w sposób bezzwrotny 400 paczek i każdą dokładnie zważono. Uzyskano średnią wagę paczki herbaty równą 99.2 g i odchylenie standardowe równe 1.12 g. Wyznaczymy przedział ufności dla średniej wagi jednej paczki w tym transporcie godząc się na ryzyko błędnej oceny równe 0.01. Najpierw zapiszemy dane stosując przyjętą symbolikę: n x s = = = = 400 0.01, zatem poziom ufności (1 - ) = 0.99 99.2 g 1.12 g Ponieważ liczebność populacji jest wielokrotnie większa od liczebności próby, bezzwrotne losowanie próby praktycznie w niczym nie różni się od losowania zwrotnego. Szansa ponownego wylosowania tej samej paczki przy losowaniu zwrotnym byłaby pomijalnie mała. Będziemy zatem traktować naszą próbę tak, jak gdyby była wylosowana w losowaniu prostym i niezależnym. Gdyby transport był mniejszy lub próba była dużo większa, postępowanie takie nie byłoby uzasadnione. Granice przedziału ufności dla średniej w populacji na podstawie wylosowanej próby dane są wzorem: m x - , n x + > n Rozpoczniemy od wyznaczenia wartości funkcji dla = 0.01. (0.01) = 1-0.01/2 = 0.995 zatem odczytujemy z tablicy dystrybuanty zmiennej U o rozkładzie N (0,1), dla jakiej to liczby wartość dystrybuanty równa się 0.995 i otrzymujemy: (2.58) = 0.995, zatem 0.01 = 2.58 Nie znamy odchylenia standardowego wagi paczki herbaty w całym transporcie. Ponieważ liczebność próby jest duża, przyjmujemy odchylenie standardowe w wylosowanej próbie s jako ocenę odchylenia standardowego w populacji. = s = 1.12 g Będziemy twierdzić, że średnia waga paczki herbaty z tego transportu należy do przedziału: 80 s x - n = 99.2 -2.58 od 1.12 = 99.05552 400 s x + n = 99.2 + 2.58 do 1.12 = 99.94448 400 co zapisujemy tak: m 99.05552 g, 99.34448 g> Metoda, która doprowadziła nas do takiej oceny średniej wagi paczki charakteryzuje się tym, że prowadzi do trafnej oceny średniej z prawdopodonieństwem 0.99 nazywanym poziomem ufności i do nietrafnej oceny wartości tej średniej z prawdopodobieństwem 0.01 nazywanym poziomem ryzyka. Są to, jak pokazaliśmy wcześniej, prawdopodobieństwa wylosowania prób, którym przyporządkowane są "trafne" i "nietrafne" przedziały ufności. W tym przypadku ocena obarczona jest dodatkowymi błędami wynikającymi z traktowania próby bezzwrotnej jako zwrotnej oraz odchylenia standardowego w próbie jako odchylenia standardowego w populacji. Sprawdzimy, jakie byłyby granice przedziału ufności, gdyby odchylenie standardowe w populacji było dwukrotnie większe od przyjętego jako ocena odchylenia w próbie. Jeżeli = 2s = 2*1.12 = 2.24, to m 98.91104g, 99.48896g > Granice przedziału ufności nie zmieniły się w sposób równie dramatyczny jak ocena odchylenia standardowego. Popełnienie aż tak dużego błędu w ocenie odchylenia standardowego na podstawie próby liczącej 400 elementów jest bardzo mało prawdopodobne. Małe błędy w ocenie, których można się spodziewać, nie powodują godnych uwagi zmian granic przedziału ufności. Traktowanie losowania bezzwrotnego jako zwrotnego powoduje w tym przypadku minimalne poszerzenie przedziału, który wyznaczony dokładnie byłby nieco węższy. Bezzwrotność losowania zmniejsza nieco wariancję średniej z próby. Wariancja średniej z próby losowanej w sposób zwrotny zależy od liczebności populacji N o od liczebności próby n: 2 D (X ) = * n N - n N - 1 Dla przykładu przyjmijmy, że transport składał się tylko z 40 000 paczek, a zatem losowaliśmy 1% całej populacji. Gdybyśmy uwzględnili bezzwrotność losowania, przedział ufności byłby nieco węższy: m 99.056243g, 99.343767g > nie uwzględniajac bezzwrotności losowania przyjmowaliśmy, że m <99.05552 g, 99.34448 g> Pomijanie tak małych różnic wydaje się w pełni uzasadnione, dokładność wagi byłaby z pewnością gorsza. 81 Przykład 2. Estymacja częstości w dużej populacji na podstawie dużej próby. Należy ocenić częstość występowania w populacji osób zadowolonych z pracy. Wylosowano w sposób prosty i niezależny próbę liczącą 900 osób. W tej próbie było 721 osób zadowolonych z pracy. Należy ocenić częstość występowania osób zadowolonych z pracy w całej populacji godząc się na ryzyko błędu równe 0.05. Częstość występowania jakiejś cechy w populacji oznaczymy p. Tym razem p oznacza częstość występowania w populacji osób zadowolonych z pracy. Częstośc występowania tej samej cechy w próbie oznaczamy p'. Częstość występowania cechy jest średnią zmiennej, która przyjmie wartość 1 dla wszystkich elementów zbiorowości, które tę cechę posiadają, a wrtość 0 dla pozostałych elementów, które tej cechy nie posiadają. Niech zmienna X przyjmie wartość 1 dla osób zadowolonych z pracy i wartość 0 dla wszystkich pozostałych. W takim razie częstość, z jaką występują w zbiorowości osoby zadowolone z pracy jest równa średniej zmiennej X w tej zbiorowości. Zmienna X w ten sposób zdefiniowana jest tzw. zmienną zero-jedynkową, której własności zostały przedstawione wcześmniej [s. ]. Przypomnimy je tylko: P (X = 1) P (X = 0) E (X) D2(X) = = = = p q = 1 - p p p * (1 - p) Możemy teraz zapisać dane z naszego przykładu stosując tę właśnie symbolikę: n = 900 p'= x = 721/900 = 0.80111 = 0.05, zatem poziom ufności 1 - = 0.95 Granice przedziału ufności dla średniej w populacji dane są znanym wzorem. Kolejno określimy wartości występujących tam wielkości. Rozpoczniemy od wartości funkcji dla =0.05. Odszukujemy w tablicy dystrybuanty zmiennej U o rozkładzie N (0, 1) dla jakiej to liczby dystrybuanta ta jest równa (1 - 0.05/2) = 0.975 i znajdujemy: (1.96) = 0.975, zatem 0.05 = 1.96 Nie znamy odchylenia standardowego zmiennej X w populacji. Ponieważ liczebność próby jest dostatecznie duża, oceniamy je przy użyciu odchylenia standardowego tej zmiennej w wylosowanej próbie. Wartość tę oznaczymy s: = s = (721/900 * 179/900) Będziemy twierdzić, że średnia zmiennej X w populacji, czyli częstość występowania tam osób zadowolonych z pracy, jest liczbą należącą do przedziału: s od x - = 0.80111 - 1.96 * n 0.3991641 = 0.775 900 do x + s = 0.80111 + 1.96 * n 0.3991641 = 0.822 900 82 co można zapisać m < 0.775, 0.822 > Częstość występowania w populacji osób zadowolonych z pracy należy do przedziału od 0.775 do 0.822. Wniosek ten uzyskaliśmy za pomocą metody, która prowadzi do poprawnej oceny częstości w populacji z prawdopodobieństwem równym poziomowi ufności 0.95, a do błędnej oceny tej częstości z prawdopodobieństwem równym poziomowi ryzyka 0.05. Jest on obarczony dodatkowym błędem wynikającym z zastąpienia nieznanego odchylenia standardowego zmiennej X w populacji przez odchylenie standardowe tej zmiennej w próbie. Ponieważ odchylenie standardowe zmiennej zero-jedynkowej nie przekracza liczby 0.5, zatem istnieje maksymalna długość przedziału ufności dla średniej takiej zmiennej oszacowanego przy użyciu próby liczącej 900 elementow. s 0.5 = 1.96 * = 0.032666 n 900 Długości tej przedział ufności przekroczyć nie może bez względu na to, jakie odchylenie standardowe w populacji ma znienna zero-jedynkowa X. Podstawiając maksymalną wartość odchylenia standardowego zmiennej X w miejsce nieznanej jego prawdziwej wartości otrzymujemy granice takiego przedziału, który z pewnością nie jest za wąski: s od x - = 0.80111 - 1.96 * n 0.5 = 0.768 900 s do x + = 0.80111 + 1.96 * n 0.5 = 0.834 900 co można zapisać m < 0.768, 0.834 > Porównując ten przedział, o maksymalnej długości, z wyznaczonym wcześniej możemy zauważyć, że przy tak licznej próbie nawet znaczny ewentualny błąd w ocenie odchylenia w populacji nie odbija się w sposób rzucający się w oczy na ocenie częstości w populacji. Ponieważ szacowanie częstości w populacji za pomocą częstości w próbie jest w praktyce badawczej zadaniem czesto wykonywanym, zapiszemy odpowiednie wzory pozwalające na pomijanie zero-jedynkowej zmiennej X, co upraszcza procedurę szacowania. Najpierw zapiszemy przedział ufności dla średniej w postaci ogólnej i dobrze już znanej: m < x - , n x + > n gdy odchylenie standardowe zmiennej w populacji nie jest znane i liczebność próby jest duża: 83 s m < x - , n (i) s x + > n gdy zmienna X jest zmienną zero-jedynkową, wówczas: średnia w populacji p=E(X) średnia w próbie p'= x odchylenie standardowe w próbie p'*(1-p') = s Podstawimy to do (i) i otrzymujemy przedział ufności dla czestości: p < p- pq , n p+ pq > n Przykład 3. Wyznaczanie minimalnej liczebności próby. Zamierzamy ocenić częstość występowania jakiejś cechy w populacji. Dokładność tej oceny powinna być co najmniej taka, by długość przedziału nie była większa od 0.02. Niezawodność oceny nie powinna być gorsza od danej przez poziom ufności równy 0.95. Jak liczną powinna być próba losowana w sposób prosty i niezależny pozwalająca spełnić te warunki? Długość przedziału ufności dla częstości otrzymujemy z długości przedziału ufności dla średniej podstawiając iloczyn p*(1-p) w miejsce s. Oznaczymy długość przedziału zgodnie ze zwyczajem 2d, samo d jest połową długości. d = p(1-p) n zatem liczebność próby można przedstawić jako funkcję długości przedziału d: n p(1-p) = d2 W naszym przykładzie: 2d = 0.02, = 0.05, zatem zatem d = 0.01 = 1.96 stąd: n = 1.96 * p * (1-p) 0.0004 Jeżeli niczego nie wiemy o częstości występowania cechy w populacji, przyjmiemy najmniej korzystną wartość iloczynu p(1-p) maksymalizującą niezbędną liczebność próby. Pamiętamy, że maksymalna wartość iloczynu p(1-p) jest równa 0.25. W ten sposób wyznaczona liczebność pozwoli spełnić postawione wymagania bez względu na to, jaka jest rzeczywiście czestość cechy w populacji. n = 1.96 * 0.25 = 9604 0.0004 84 gdyby obliczona liczebność nie była całkowita, wzięlibyśmy najmniejszą liczbę całkowitą większą od liczby w ten sposób wyznaczonej Gdybyśmy byli pewni, że częstość cechy w populacji nie przekracza 0.2, wówczas moglibyśmy posłużyć się mniejszą próbą: ponieważ p(1-p) 0.16, przyjmujemy p(1-p) = 0.16 i obliczamy niezbędną w tych warunkach liczebnośc próby: n = 1.96 * 0.16 = 6146.56 0.0004 Jeżeli częstość występowania cechy w populacji nie przekracza 0.2, wystarczy wylosować próbę liczącą 6147 elementow. Wyznaczając minimalną liczebność próby zapewniającą ustalony poziom dokładności i niezawodności oceny średniej lub częstości, należy w miejsce odchylenia standardowego w populacji podstawić jego prawdziwą wartość, lub jeżeli nie jest ona znaną - maksymalną jego wartość wedle najlepszej wiedzy, jaką dysponujemy. W przypadku oceny częstości, jeżeli wiemy, że częstość w populacji jest mniejsza od r i to r jest mniejsze od 0.5, w miejsce p(1-p) podstawiamy r(1-r). Jeżeli wiemy, że czestość w populacji jest większa od r i to r jest większe od 0.5, w miejsce p(1-p) podstawiamy także r(1-r), w pozostałych przypadkach estymacji czestości podstawiamy 0.25. Na zakończenie porównajmy przedstawioną tu koncepcję estymacji z inną. Dla tej, którą zajmowaliśmy się dotąd, istotnym jest traktowanie ocenianego parametru populacyjnego jako stałej, przedziału ufności jako swoistej zmiennej określonej w przestrzeni prób i możliwość utożsamiania poziomu ufności z częstością w tej przestrzeni prób, czestością z jaką wystęują w niej próby, którym przyporządkowane są "trafne" przedziały ufności. Autorstwo tej koncepcji przypisuje się Jerzemu Neymanowi. Możliwym jest jednak inne podejście do problemu estymacji, które tutaj zostanie jedynie zarysowane i to w wielkim skrócie. Wedle tej koncepcji parametr rozkładu zmiennej w populacji jest zmienną losową i istnuieje łączny rozkład zmiennej i zmiennych X1, X2, X3, ..., Xn wartości zmiennej X dla kolejnych elementów próby. Istnieje zatem rozkład brzegowej zmiennej . Rozkład ten nazywany jest rozkładem a priori tego parametru. Po wylosowaniu próby dysponujemy wartościami zmiennych X1, X2, X3, ..., Xn w wylosowanej próbie. Można znając rozkład łączny wyznaczyć warunkowy rozkład zmiennej przy założeniu, że zmienna X1, X2, X3, ..., Xn przyjmują wartości z wylosowanej próby. Ten warunkowy rozkład zmiennej nazywamy rozkładem a posteriori. Dla tego warunkowego a posteriori rozkładu parametru należy poszukać najkrótszego przedziału (a,b) takiego, że prawdopodobieństwo, iż parametr przyjmie wartość z tego przedziału jest równe przyjętemu poziomowi ufności. Ze względu na użycie twierdzenia Bayesa, taki przedział ufnosci nazywamy przedziałem baysowskim. Jego interpretacja jest inna niż przedziału neymanowskiego. Tutaj poziom ufności jest prawdopodobieństwem przyjęcia przez parametr wartości należącej do przedziału, a nie prawdopodobieństwem przejęcia przez przedział takiej postaci, ze zawiera on w sobie wartość tego parametru. Jest możliwa estymacja punktowa prowadzona wedle analogicznego rozumowania. Poświęciliśmy kilka zdań koncepcji baysowskiej tylko po to, by unaocznić raz jeszcze istotne własności estymacji metodą Neymana. 85 Rozdział 5 WERYFIKACJA HIPOTEZ hipotezy: statystyczna prosta, złożona, zerowa, konkurencyjna, parametryczna, nieparametryczna, błędy I-go i II-go rodzaju funkcja decezyjna warunkowe prawdopodobieństwa popełnienia błędów wybór optymalnej funkcji decyzyjnej poziom istotności weryfikacja dwu prostych hipotez dotyczących średniej weryfikacja prostej i złożonej hipotez dotyczących średniej weryfikacja hipotez nieparametrycznych Każde przypuszczenie dotyczące stanu rzeczywistości nazywać będziemy hipotezą. W tym sensie zdania: "pada deszcz", "średnia zarobków mieszkańców miejscowości N jest równa 14 721 $", "jutro będzie cieplej niż dzisiaj" są hipotezami. Hipotezę dotyczącą rozkładu jakiejś zmiennej losowej lub łącznego rozkładu wielu zmiennych losowych nazywać będziemy hipotezami statystycznymi. Prosta hipoteza statystyczna to taka hipoteza statystyczna, która określa rozkład zmiennej lub zmiennych losowych w sposób jednoznaczny. Złożona hipoteza statystyczna to taka hipoteza statystyczna, która jest alternatywą dwu lub więcej prostych i różnych hipotez statystycznych. Każda hipoteza statystyczna, która nie jest hipotezą prostą jest hipotezą złożoną. Zatem może być przedstawiona jako alternatywa hipotez prostych, często nieskończenie wielu. Nie będziemy tu tego dowodzić, gdyż wymagałoby to bardziej precyzyjnego zdefiniowania wprowadzonych terminów, co nie jest konieczne dla dalszego wywodu. Później wprowadzimy jednak nieco precyzyjniejszą definicję hipotezy prostej. Weźmy jakikolwiek zbiór hipotez, niekoniecznie statystycznych, dotyczących stanu tej samej rzeczy. Niech ten zbiór hipotez spełnia warunek, wedle którego dokładnie jedna spośród należących do tego zbioru hipotez jest prawdziwa. Dalej będziemy się zajmowali tylko takimi zbiorami hipotez, które ten warunek spełniają. Najprostszym zbiorem zdań tego typu jest para zdań, z których jedno jest zaprzeczeniem drugiego. Zbiór takich hipotez, z których dokładnie jedna jest prawdziwa, oznaczymy literą H, a kolejne należące doń hipotezy ponumerujemy i oznaczymy: h0, h1, h2,...: H = {h0, h1, h2, ...} Literą A oznaczymy zbiór działań zawierający tyle samo działań, ile hipotez jest w zbiorze H. W zbiorze A każdej hipotezie hi należącej do zbioru hipotez H przyporządkowane jest działanie ai takie, że jest ono najlepszym spośród działań należących do A, gdy prawdziwą jest hipoteza hi. Ponadto różnym hipotezom przyporządkowane są różne działania, każdej hipotezie dokładnie jedno działanie. A = {a0, a1, a2, ...} Dla przykładu, niech hipotezy dotyczą pogody i wedle jednej z nich niech ma padać, a wedle innej - nie. Działania niech polegają na wzięciu ze sobą parasola lub zostawieniu go w domu. Hipotezie, wedle której będzie padało, przyporządkowane jest działanie polegające na wzięciu ze sobą parasola, gdyż jest ono najlepsze w sytuacji, gdy pada i odwrotnie, zostawienie parasola jest najlepszym, gdy prawdziwą jest hipoteza, że nie pada. Weryfikacja hipotez, niekoniecznie statystycznych, polega na wyborze jednego działania ze zbioru A w sytuacji, gdy koniecznym jest wybranie dokładnie jednego spośród tych działań. Ponieważ z każdym działaniem ze zbior A związana jest dokładnie jedna hipoteza ze zbioru H, wybór 86 działania jest równoważny ze wskazaniem jednej z hipotez ze zbioru H i uznaniu, że należy postępować tak, jak gdyby ta właśnie hipoteza była prawdziwa. Decydując się na wzięcie parasola postępujemy tak, jak gdyby hipoteza, wedle której będzie padało, była prawdziwa. Zostawiając parasol postępujemy tak, jak gdyby hipoteza ta była fałszywa, a prawdziwą była hipoteza, wedle której padać nie będzie. Należy wyraźnie powiedzieć, że wzięcie parasola nie jest równoważnym z uznaniem zdania "będzie padało" za prawdziwe i zdania "nie będzie padało" za fałszywe. Działanie tak, jak gdyby hipoteza była fałszywa nie jest równoważne z uznaniem jej za fałszywą w sposób bezapelacyjny. Podobnie, działanie tak, jak gdyby jakaś hipoteza była prawdziwa nie oznacza, iż uznaje się ją za niewątpliwie prawdziwą. Należy o tym pamiętać, gdyż często zamiast posługiwać się przydługą formułą "działać tak, jak gdyby hipoteza hi była falszywa" mówimy niezbyt precyzyjnie, że "odrzucamy hipotezę h" lub w wypadku przeciwnym, że ją "przyjmujemy". Przeprowadzając weryfikację hipotez w sposób racjonalny będziemy się starali uzależnić wybór działania od jakichś przesłanek pozwalających na unikanie błędów, polegających w naszym przykładzie na moknięciu bez parasola lub spacerowaniu z nim w dzień pogodny. Będziemy się starali uzależnić naszą decyzję dotyczącą działania od wyniku jakiegoś doświadczenia, np. od wyniku pomiaru ciśnienia atmosferycznego. Jeżeli ciśnienie spada, weźmiemy ze sobą parasol, w przeciwnym wypadku, zostawimy go w domu. Są z tym związane dwie kwestie: wyboru takiego doświadczenia i wyboru sposobu uzależnienia działania od wyniku takiego doświadczenia. Doświadczenie powinno być takie, by jego wynik zależał w znany nam sposób od tego, która z hipotez jest prawdziwą. Nie wydaje się sensownym uzależniać zabrania ze sobą parasola od wyniku rzutu kostką do gry, gdyż wynik tego doświadczenia nie zależy w żaden znany nam sposób od (przyszłej) pogody. Funkcja decyzyjna to taka funkcja, która każdemu wynikowi doświadczenia przyporządkowuje wybierane działanie. Dla tego samego zbioru hipotez H i związanego z nim zbioru działań A oraz tego samego doświadczenia o ustalonym zbiorze możliwych wyników istnieje wiele różnych funkcji decyzyjnych. W najprostszym przypadku, gdy zbiory hipotez H i działań A są dwuelementowe, istnieje 2k różnych funkcji decyzyjnych, gdzie k jest liczbą możliwych wyników doświadczenia. W naszym przykładzie rozróżniamy dwa tylko wyniki doświadczenia z barometrami: "ciśnienie spada" i "ciśnienie nie spada". Mamy zatem do dyspozycji 22=4 różne funkcje decyzyjne. Przedstawia je tablica 1. tablica 1 działanie przyporządkowane wynikowi doświadczenia numer funkcji decyzyjnej 1 2 3 4 ciśnienie spada a0 a1 a0 a1 ciśnienie nie spada a0 a0 a1 a1 Zauważmy, że dwie spośród funkcji, pierwsza i ostatnia, prowadzą do wybierania zawsze tych samych działań, niezależnie od wyniku doświadczenia. Pierwsza prowadzi zawsze do wybierania działania a0, ostatnia do wybierania zawsze działania a1. Posługując się jedną z nich nigdy nie zmokniemy, gdyż zawsze będziemy chodzili z parasolem, posługując się drugą nigdy nie będziemy chodzili z parasolem w dzień pogodny. Obie mają jednak swoje wady. Zanim zajmiemy się wybieraniem optymalnej funkcji decyzyjnej rozważmy możliwe do popełnienia błędy. Rozważmy sytuację, gdzie zbiory hipotez 87 i działań są dwuelementowe: H = {h0, h1}. Przy takich ograniczeniach możliwe do popełnienia są tylko błędy dwu rodzajów: (a1, h0) - prawdziwą jest hipoteza h0 podejmujemy działanie a1, które byłoby działaniem odpowiednim, gdyby prawdziwą była hipoteza h1, (a0, h1) - prawdziwą jest hipoteza h1 i podejmujemy działanie a0, które byłoby działaniem odpowiednim, gdyby prawdziwą była hipoteza h0. Załóżmy, że koszty lub inaczej mówiąc przykrości związane z popełnieniem tych błędów można w rozważanej sytuacji ze sobą porównywać. Starać się będziemy tak oznaczać indeksami "0" i "1" hipotezy i działania, by błąd bardziej dla nas kosztowny był błędem pierwszego rodzaju (a1, h0), a błąd mniej kosztowny błędem drugiego rodzaju (a0, h1). Jeżeli mokniecie na deszczu bez parasola jest bardziej przykre od spacerowania z nim w dzień pogodny, to hipoteza, wedle której będzie padało powinna być nazwaną hipotezą zerową h0, a hipoteza przeciwna, wedle której padać nie będzie - hipotezą h1. Wówczas błędem I-go rodzaju będzie właśnie moknięcie bez parasola (a1, h0), czego się bardziej obawiamy, a spacerowanie z parasolem w dzień pogodny (a0, h1) będzie błędem II-go rodzaju. Przyjmujemy następującą konwencję językową określającą sposób indeksowania hipotez, działań i błędów: Błędem I-go rodzaju nazywamy podjęcie działania a1 sytuacji, gdy rzeczywistość jest zgodna z treścią hipotezy h0. Błędem II-go rodzaju nazywamy podjęcie działania a0 sytuacji, gdy rzeczywistość jest zgodna z treścią hipotezy h1. Jeżeli nie staną temu na przeszkodzie jakieś inne względy, o których jeszcze będzie mowa, będziemy starali się tak oznaczać hipotezy, by błędem I-go rodzaju okazywał się być ten błąd, którego popełnienie jest dla nas bardziej przykre lub kosztowne. Hipotezę oznaczoną h0 nazywamy hipotezą zerową. Hipotezę oznaczoną h1 natomiast nazywamy hipotezą konkurencyjną. Działanie a0 jest działaniem właściwym wtedy, gdy prawdziwą jest hipoteza zerowa. Działanie a1 jest działaniem właściwym wtedy, gdy prawdziwą jest hipoteza konkurencyjna. Jeżeli udało nam się przy nazywaniu hipotez uwzględnić koszty błędów, to hipotezą zerową jest ta spośród hipotez, której błędne odrzucenie jest bardziej dla nas kosztowne. Pamiętamy, że "odrzucenie" hipotezy polega na postępowaniu w taki sposób, jak gdyby była ona fałszywa. Działanie a0 jest "odrzuceniem" hipotezy konkurencyjnej h1. W analogiczny sposób posługujemy się terminem "przyjęcia" hipotezy. Działanie a1 jest "przyjęciem" hipotezy konkurencyjnej h1. Działanie a0 jest "przyjęciem" hipotezy zerowej h0. Dalej terminami "przyjęcie" i "odrzucenie" będziemy się posługiwali właśnie w ten sposób. Tablica 2 zdaje sprawę z relacji między dopiero co wprowadzonymi terminami. tablica 2 | stan rzeczy jest zgodny | z treścią hipotezy działalność h0 h1 a0 + błąd II-go rodzaju a1 błąd I-go + rodzaju 88 Mając na uwadze relację kosztów związanych z popełnieniem błędów będziemy się starali przede wszystkim unikać popełniania błędu I-go rodzaju, wszelako nie za każdą cenę. Moglibyśmy chodząc stale z parasolem a0 nie popełniać go w naszym przykładzie nigdy. Wówczas jednak, ilekroć by to tylko było możliwe, gdyż prawdziwą by była hipoteza konkurencyjna h1, popełnialibyśmy błąd II-go rodzaju chodząc z parasolem w dzień pogodny. Prawie nikt się tak daleko w tym kierunku nie posuwa. Podstawowym dla weryfikacji hipotez jest problem wyboru optymalnej funkcji decyzyjnej ze zbioru wszystkich możliwych funkcji decyzyjnych. Dla weryfikacji hipotez statystycznych regułę wyboru optymalnej funkcji sformułował Jerzy Spława-Neyman. Wedle niego należy starać się ograniczyć ryzyko popełnienia błędu I-go rodzaju do jakiegoś akceptowalnego poziomu, a jednocześnie w miarę możliwości zminimalizować ryzyko popełnienia błędu II-go rodzaju. Ta metoda weryfikacji hipotez statystycznych jest dziś powszechnie stosowaną w naukach empirycznych. Istnieją rozwiązania konkurencyjne, które w zarysie przedstawimy później. Domagają się one bogatszej informacji o rzeczywistości lub jej brak zastępują arbitralnymi założeniami. Stosowanie metody Neymana-Pearsona (pod taką nazwą występuje ona w literaturze ze względu na równoczesne jej opracowanie przez dwu uczonych) jest ograniczone do weryfikacji dwu hipotez statystycznych, z których co najmniej jedna jest hipotezą prostą. Jeżeli tylko jedna z hipotez jest hipotezą prostą, wówczas bez względu na relację między kosztami ewentualnych błędów, ta prosta hipoteza musi zostać uznaną za hipotezę zerową. Najpierw rozważymy jednak przypadek klasyczny, gdzie obie hipotezy są prostymi hipotezami statystycznymi. Wcześniej wprowadzone terminy znajdują w koncepcji Neymana - Pearsona swoje właściwe zastosowanie. Będziemy się nimi posługiwać przedstawiając następny przykład. Niech weryfikowanymi hipotezami będą dwa zdania: "płuca pacjenta są zdrowe" i "płuca pacjenta są chore". Dla każdego konkretnego pacjenta dokładnie jedna z tych hipotez jest prawdziwa. Później przyjmiemy taką ich interpretację, przy której będą one dwiema prostymi hipotezami statystycznymi. Mając swobodę w wyborze hipotezy zerowej, gdyż obie hipotezy są hipotezami prostymi, powinniśmy rozważyć, czy bardziej kosztownym jest postępować z pacjentem zdrowym tak, jak gdyby był on chory, czy też bardziej kosztownym jest postępować z chorym tak, jak gdyby był on zdrowy. Przyjmijmy, zapewne w większości przypadków słusznie, że traktowanie chorego tak jak zdrowego jest bardziej dla niego kosztowne niż traktowanie zdrowego tak, jak gdyby był on chory. Chory pozbawiony pomocy lekarskiej może utracić życie, zdrowy traktowany tak jak chory nie powinien niczego utracić poza odrobiną czasu na dodatkowe badania. Zatem hipotezę, wedle której pacjent jest chory, uznamy za zerową, a błąd polegający na uznaniu takiego chorego pacjenta za zdrowego nazwiemy błędem I-go rodzaju. Jest to ten błąd, którego popełnienia bardziej się obawiamy. Natomiast hipotezę, wedle której pacjent jest zdrowy nazwiemy hipotezą konkurencyjną a traktowanie zdrowego tak, jak gdyby był on chory, nazwiemy błędem II-go rodzaju. Ocenę zdrowia pacjenta opierać można na wynikach rozmaitych doświadczeń, pod warunkiem, że wyniki tych doświadczeń zależą od stanu zdrowia pacjenta. Jedno z takich doświadczeń mogłoby mieć postać następującą. Wykonujemy trzy rentgenowskie zdjęcia płuc pacjenta i przedstawiamy je do oceny lekarzowi. Ocenia on te zdjęcia uporządkowane w sposób losowy wraz ze zdjęciami innych pacjentów i o każdym zdjęciu orzeka, czy wskazuje ono na chorobę płuc. Możemy przyjąć, że oceny poszczególnych zdjęć będą niezależne. Załóżmy ponadto, że: - Prawdopodobieństwo tego, że lekarz potraktuje zdjęcie chorego jako wskazujące na chorobę jest równe 0.9. - Prawdopodobieństwo tego, że lekarz potraktuje zdjęcie zdrowego pacjenta jako wskazujące na chorobę, jest równe 0.2. Jako wynik doświadczenia rozumieć będziemy liczbę zdjęć pacjenta uznanych przez lekarza za wskazujące na chorobę. Liczba ta jest zmienną losową przyjmującą wartości ze zbioru {0, 1, 2, 3}. Oznaczymy tę zmienną L. 89 Na podstawie wyniku tego doświadczenia mamy orzekać, czy pacjenta należy traktować jako chorego, czy jako zdrowego. W tym miejscu należy zauważyć, że uzależniając decyzję od wyniku takiego doświadczenia traktujemy hipotezę h0 brzmiącą "płuca pacjenta są chore" jako równoważną hipotezie statystycznej: "Prawdopodobieństwo tego, że zdjęcie pacjenta zostanie uznane przez lekarza za zdjęcie wskazujące na chorobę jest równe 0.9", a hipotezie h1 brzmiąca "płuca pacjenta są zdrowe" jako równoważną hipotezie statystycznej: "Prawdopodobieństwo tego, że zdjęcie pacjenta zostanie przez lekarza uznane za zdjęcie wskazujące na chorobę jest równe 0.2". Obie te hipotezy są prostymi hipotezami statystycznymi. Każda z nich w sposób jednoznaczny określa rozkład dwuwartościowej zmiennej zdającej sprawę z oceny zdjęcia płuc pacjenta. Nadal jednak, dla uproszczenia, będziemy mówili, że hipotezy dotyczą stanu zdrowia pacjenta. Będziemy jednak pamiętać, że utożsamiamy stan zdrowia pacjenta z prawdopodobieństwem uznania jego zdjęcia za wskazujące na chorobę. Powiedzieliśmy, że wynik takiego doświadczenia, od którego uzależniamy działanie, winien zależeć od stanu rzeczy będącej przedmiotem weryfikowanych hipotez. Wynikiem naszego doświadczenia jest liczba zdjęć wskazujących zdaniem lekarza na chorobę. Oznaczyliśmy tę liczbę zdjęć L. Porównajmy zatem warunkowy rozkład zmiennej L przy założeniu, że prawdziwą jest hipoteza zerowa i są to zdjęcia płuc pacjenta chorego z warunkowym rozkładem zmiennej L przy założeniu, że prawdziwą jest hipoteza konkurencyjna i są to zdjęcia płuc pacjenta zdrowego. Oba rozkłady warunkowe wyznaczymy bez trudu korzystając z treści hipotez: zerowej i konkurencyjnej oraz niezależności ocen kolejnych zdjęć. Zmienna L ma rozkład dwumianowy, liczba doświadczeń elementarnych jest równa 3, prawdopodobieństwo sukcesu w pojedyńczym doświadczeniu elementarnym czyli uznania zdjęcia za wskazujące na chorobę jest dana przez odpowiednią hipotezę i stałe dla wszystkich zdjęć tego samego pacjenta, wyniki kolejnych doświadczeń elementarnych są niezależne. Prawdopodobieństwo warunkowe tego, że lekarz uzna dokładnie jedno zdjęcie pacjenta za wskazujące na chorobę pod warunkiem, że prawdziwą jest hipoteza zerowa "pacjent jest zdrowy" dane jest wzorem: P(L=1|h0) 3 = * P(L=1|n=3,p=0.9) = 3 * 0.91 * 0.1(3-1) = 1 = 3 * 0.9 * 0.12 = 3 * 0.9 * 0.01 = 0.027 Prawdopodobieństwo warunkowe tego, że lekarz uzna dokładnie jedno z trzech zdjęć pacjenta za wskazujące na chorobę pod warunkiem, że prawdziwąjest hipoteza konkurencyjna h1: "pacjent jest zdrowy", dane jest wzorem: P(L=1|h1) = 3 = * P(L=1|n=3,p=0.2) = 3 * 0.21 * 0.8(3-1) = 1 3 * 0.2 * 0.82 = 3 * 0.2 * 0.64 = 0.384 Tablica 3 przedstawia warunkowe rozkłady zmiennej L "wynik doświadczenia" przy założeniu, że stan rzeczy zgodny jest z treścią hipotezy h0 oraz przy założeniu, że zgodny jest z treścią hipotezy h1. 90 tablica 3 Wynik doświadczenia stan rzeczy pacjent chory pacjent zdrowy wartość zmiennej L zgodnie z h0 zgodnie z h1 l P(L=l|h0) P(L=l|h1) 0 0.001 0.512 1 0.027 0.384 2 0.243 0.095 3 0.729 0.008 1.000 1.000 Rozkłady warunkowe zmiennej L nie są identyczne. Zatem znajomość wyniku doświadczenia może być pomocna przy wnioskowaniu o stanie zdrowia pacjenta. Na uwagę zasługuje jednak fakt następujący: każdy wynik doświadczenia jest możliwy do osiągnięcia w każdym ze stanów rzeczy. Np. L=0 może zdarzyć się zarówno wtedy, gdy pacjent jest chory (h0) jak i wtedy, gdy jest on zdrowy (h1). W tym ostatnim przypadku taki rezultat doświadczenia jest jednak dużo bardziej prawdopodobny. Wnioskowanie o stanie pacjenta na podstawie wyniku tego doświadczenia jest możliwe, lecz jest zawodne. Rozważmy teraz wszystkie możliwe funkcje decyzyjne. Jest ich 24=16, gdyż posługujemy się doświadczeniem o 4 możliwych wynikach. Każdej funkcji decyzyjnej przyporządkowujemy warunkowe prawdopodobieństwa popełnienia błędów obu rodzajów. Weźmy funkcję decyzyjną d9 wedle numeracji z tablicy 4, gdzie przedstawione są wszystkie funkcje decyzyjne. Funkcja d9 przyporzadkowuje działanie a0 wynikom doświadczenia polegającym na tym, że dokładnie jedno lub dokładnie dwa zdjęcia pacjenta zostają uznane przez lekarza za wskazujące na chorobę (L=1 lub L=2), a pozostałym wynikom doświadczenia (L=0 lub L=3) przyporządkowuje działanie a1. Zbiór takich wyników doświadczenia, którym funkcja decyzyjna d przyporządkowuje działania a1 nazywamy obszarem krytycznym funkcji decyzyjnej d. Obszar krytyczny oznaczymy literą K. Jeżeli to będzie konieczne, będziemy uzupełniać literę K indeksem - numerem funkcji decyzyjnej: np. obszar krytyczny funkcji decyzyjnej d9 oznaczymy K9. Zbiór {0, 3} jest obszarem krytycznym funkcji decyzyjnej d9. Zapiszemy to stosując przyjętą symbolikę. K9 = {0, 3} Obszar krytyczny K jest obszarem krytycznym dla hipotezy zerowej, gdyż uzyskanie wyniku doświadczenia należącego do tego obszaru skłania do traktowania tej właśnie hipotezy jako fałszywej, do jej "odrzucenia" i traktowania hipotezy konkurencyjnej jako prawdziwej, do jej "przyjęcia". Każdemu wynikowi doświadczenia, który do obszaru krytycznego funkcji decyzyjnej nie należy, funkcja ta przyporządkowuje działanie a0, "przyjęcie" hipotezy zerowej, "odrzucenie" hipotezy konkurencyjnej. Oznaczając wynik doświadczenia małą literą l możemy napisać: l Kd l Kd d(l) = a1 d(l) = a0 Znając rozkład warunkowy zmiennej L "wynik doświadczenia" przy założeniu, że stan rzeczy jest zgodny z treścią hipotezy zerowej h0 możemy obliczyć dla każdej funkcji decyzyjnej d warunkowe prawdopodobieństwo Pd(a1|h0). Jest to prawdopodobieństwo podjęcia działania a1 czyli "odrzucenia" hipotezy zerowej h0 pod warunkiem, że jest ona prawdziwa, a my przy wyborze działania posługujemy się funkcją decyzyjną d. Inaczej mówiąc jest to warunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju 91 przy stosowaniu funkcji decyzyjnej d pod warunkiem, że stan rzeczy zgodny jest z treścią hipotezy h0. Błąd I-go rodzaju posługując się funkcją decyzyjną d popełniamy wtedy, gdy uzyskujemy taki wynik doświadczenia, który należy do obszaru krytycznego K tej funkcji decyzyjnej d, a jednocześnie stan rzeczy zgodny jest z treścią hipotezy h0 Warunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju przy posługiwaniu się funkcją decyzyjną d oznaczymy d: d = Pd(a1|h0) = P(LKd|h0) Znając rozkład warunkowy zmiennej L "wynik doświadczenia" przy założeniu, że stan rzeczy zgodny jest z treścią hipotezy konkurencyjnej h1, możemy obliczyć dla każdej funkcji decyzyjnej d prawdopodobieństwo warunkowe popełnienia błędu II-go rodzaju przy warunku, że prawdziwą jest hipoteza konkurencyjna h1. Błąd II-go rodzaju popełniamy stosując funkcję decyzyjną d wtedy, gdy uzyskujemy taki wynik doświadczenia, który nie należy do obszaru krytycznego K tej funkcji decyzyjnej d, a jednocześnie stan rzeczy zgodny jest z treścią hipotezy konkurencyjnej h1. Warunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju przy posługiwaniu funkcją decyzyjną d oznaczymy d: d = Pd(a0|h1) = P(LKd|h1) Błąd I-go rodzaju przy posługiwaniu się funkcją decyzyjną d9 popełniamy w naszym przykładzie wtedy, gdy przeprowadziwszy doświadczenie uzyskujemy wartość zmiennej L równą 0 lub 3 i pacjent jest rzeczywiście chory. Wybierając działanie zgodnie z funkcją decyzyjną d9 postępować będziemy wówczas tak, jak gdyby był on zdrowy a1. Warunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju przy posługiwaniu się funkcją decyzyjną d9 obliczymy w sposób przedstawiony wcześniej. K9 = {0, 3} zatem d = Pd(a1|h0) = P(LKd|h0) = P(L{0,3}|h0) = = P(L=0|h0) + P(L=3|h0) = 0.001 + 0.729 = 0.73 W podobny sposób obliczymy warunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju przy posługiwaniu się tą funkcją decyzyjną. d = Pd(a0|h1) = P(LKd|h1) = P(L{1,2}|h1) = = P(L=1|h1) + P(L=2|h1) = 0.384 + 0.096 = 0.48 Dysponujemy teraz wystarczającą charakterystką funkcji decyzyjnej d9. Warunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju przy stosowaniu tej funkcji jest równe 0.73, a warunkowe prawdopodobieństwo błędu IIgo rodzaju przy jej stosowaniu jest równe 0.48. Możemy się spodziewać, iż na każdych 100 chorych pacjentów około 73 uznawać będziemy za zdrowych i popełniać błąd I-go rodzaju. Podobnie, na każdych 100 zdrowych pacjentów będziemy około 48 uznawać za chorych i popełniać błąd II-go rodzaju. Nie znając prawdopodobieństw stanów rzeczy P(h0), P(h1) nie możemy jednak odpowiedzieć na pytania: "jakie jest bezwarunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju przy posługiwaniu się funkcją decyzyjną d9?" i "jakie jest bezwarunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju przy posługiwaniu się tą funkcją?". Inaczej mówiąc, nie umiemy przewidzieć, jak często na 100 osób badanych popełniać będziemy błąd I-go rodzaju, a jak często błąd II-go rodzaju. 92 Nie umiemy odpowiedzieć też na pytanie, jakie jest dokładnie prawdopodobieństwo tego, że posługując się funkcją d9 popełnimi jakikolwiek błąd. (Możemy tylko powiedzieć, korzystajac z twierdzenia o prawdopodobieństwie całkowitym, że to bezwarunkowe prawdopodobieństwo popełnienia jakiegokolwiek błędu będzie liczbą z przedziału wyznaczonego przez oba prawdopodobieństaa warunkowe popełnienia błędu I-go i II-go rodzaju.) Takie warunkowe prawdopodobieństwajednak umożliwią porównanie wybranej funkcji decyzyjnej z innymi funkcjami decyzyjnymi i w konsekwencji wyłonienie funkcji optymalnej. W podobny do przedstawionego sposób można obliczyć warunkowe prawdopodobieństwa popełnienia błędów obu rodzajów przy posługiwaniu się pozostałymi 15-ma funkcjami decyzyjnymi. Rezultaty tych nieskomplikowanych rachunków przedstawia tablica 4. tablica 4 Warunkowe prawdopodobieństwa popełniania błędów I-go i II-go rodzaju numer zawartość zawartość warunkowe prawdop. funkcji obszaru dopełnienia popełnienia błędu decyzyjkrytyczobszaru nej nego krytycznego I-go rodzaju II-rodzaju j Kj ~Kj j j 1 0,1,2,3 1.000 0.000 2 1,2,3 0 0.999 0.512 3 0,2,3 1 0.973 0.384 4 0,1,3 2 0.757 0.096 5 0,1,2 3 0.271 0.008 6 2,3 0,1 0.972 0.896 7 1,3 0,2 0.756 0.608 8 1,2 0,3 0.270 0.520 9 0,3 1,2 0.730 0.480 10 0,2 1,3 0.244 0.392 11 0,1 2,3 0.028 0.104 12 3 0,1,2 0.729 0.992 13 2 0,1,3 0.243 0.904 14 1 0,2,3 0.027 0.616 15 0 1,2,3 0.001 0.488 16 0,1,2,3 0.000 1.000 Chcąc wnioskować o stanie rzeczy z wyniku doświadczenia, trzeba ze wszystkich dostępnych funkcji decyzyjnych wybrać jedną i od niej i wyniku doświadczenia uzależniać działanie. Wybór taki powinien być pod jakimś względem najlepszy. Możliwych jest wiele rozmaitych reguł wyboru optymalnej funkcji decyzji. Przedstawimy regułę stosowaną przy weryfikacji hipotez metodą Neymana-Pearsona: Zasady postępowania przy wyborze optymalnej funkcji decyzyjnej: 1. Wybierz maksymalną wartość warunkowego prawdopodobieństwa popełnienia błędu I-go rodzaju, na jaką to wartość tego prawdopodobieństwa możesz się zgodzić, biorąc pod uwagę ewentualne skutki takiego błędu. Oznaczymy to jeszcze akceptowalne prawdopodobieństwo *. 2. Dla każdej z możliwych funkcji decyzyjnych oblicz warunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju przy posługiwaniu się tą funkcją d 93 3. Wybierz wszystkie takie funkcje decyzyjne dla których warunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju d jest mniejsze lub równe przyjętemu wcześniej maksymalnemu, jeszcze akceptowalnemu poziomowi tego prawdopodobieństwa *. 4. Dla wszystkich tych funkcji decyzyjnych, które zostały w ten sposób wybrane oblicz prawdopodobieństwa popełniania błędu II-go rodzaju d. 5. Optymalną funkcją decyzyjną jest ta spośród funkcji spełniających warunek trzeci, którą charakteryzuje najmniejsze warunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju. Będziemy mówili, że jest to funkcja optymalna w sensie Neymana - Pearsona przy ustalonym maksymalnym prawdopodobieństwiepo pełnienia błędu I-go rodzaju lub krótko - optymalna funkcja decyzyjna. Zapiszemy to raz jeszcze w sposób bardziej zwięzły: Funkcja d* jest optymalną funkcją decyzyjną w sensie Neymana - Pearsona przy ustalonej jeszcze akceptowalnej wartości warunkowego prawdopodobieństwa popełnienia błędu I-go rodzaju * wtedy i tylko wtedy, gdy prawdopodobieństwo warunkowe popełnienia błędu I-go rodzaju przy posługiwaniu się tą funkcją d* nie jest większe od * i jednocześnie warunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju przy posługiwaniu się tą funkcją d jest możliwie najmniejsze. Ten złożony warunek zapisany symbolicznie jest bardziej czytelny: d* : d* * & d* d d:d * W praktycznych zastosowaniach weryfikacji hipotez często zmienna zdająca sprawę z wyniku doświadczenia jest zmienną o rozkładzie ciągłym (zarówno wtedy, gdy prawdziwą jest hipoteza zerowa jak i wtedy, gdy prawdziwą jest hipoteza konkurencyjna). Wówczas, a przekonamy się o tym w dalszych przykładach, prawdopodobieństwo d* popełnienia błędu I-go rodzaju przy posługiwaniu się funkcją decyzyjną optymalną przy przyjętym jeszcze akceptowalnym poziomie prawdopodobieństwa popełnienia tego błędu * jest równe owemu jeszcze akceptowalnemu prawdopodobieństwu * czyli d* *. Prawdopodobieństwo popełnienia błędu I-go rodzaju przy posługiwaniu się optymalną funkcją decyzyjną d* nazywamy jej, tej funkcji decyzyjnej, poziomem istotności. Wobec równości tego prawdopodobieństwa d* dla optymalnej funkcji decyzyjnej i jeszcze akceptowalnego poziomu tego prawdopodobieństwa *, przy którym dana funkcja jest optymalną, często oba te prawdopodobieństwa nazywa się poziomem istotności i mówi o funkcji decyzyjnej, że jest optymalną przy (na) pewnym poziomie istotności. Taki sposób mówienia zaciera różnicę między obu pojęciami: charakterystyką wybranej optymalnej funkcji - d* i kryterium * wyznaczającym podzbiór funkcji decyzyjnych, z którego owa optymalna funkcja pochodzi. Jest to jednak wygodny sposób mówienia, który można tolerować wtedy, gdy jesteśmy pewni, że prawdopodobieństwo d* cechujące optymalną funkcję decyzyjną w sposób konieczny jest równe maksymalnemu poziomowi prawdopodobieństwa popełnienia błędu I-go rodzaju *, przy którym ta funkcja jest optymalną. Działania a0 i a1, o których powiedzieliśmy, że polegają na postępowaniu tak, jak gdyby stan rzeczy był zgodny z treścią hipotez h0 lub h1, mówimy często, że: a0 polega na przyjęciu hipotezy zerowej lub na odrzuceniu hipotezy konkurencyjnej, natomiast a1 polega na odrzuceniu hipotezy zerowej lub przyjęciu konkurencyjnej. 94 Pierwsze (podkreślone) z tych określeń używane są częściej i ma to pewne uzasadnienie, do którego jeszcze wrócimy. Sens wszystkich jest jednak taki sam jak wprowadzonych wcześniej omówień. Przyjąć hipotezę to znaczy postępować w pewnej sytuacji tak, jak gdyby była ona prawdziwa. W rozmaitych sytuacjach może to oznaczać rozmaite działania; w sytuacjach badawczych: od uznania, że "przyjęta" hipoteza zasługuje na to, by podnieść koszty jej ponownego sprawdzenia w zmienionych warunkach, czego byśmy poniechali, gdyby została "odrzucona", po postanowienie zaprzestania dalszego jej sprawdzania i traktowania jej w dającej się przewidzieć przyszłości jako prawdziwej niewątpliwie. Podejmując się weryfikacji hipotez, wybierając sposób jej przeprowadzenia czyli rodzaj doświadczenia i maksymalne prawdopodobieństwo popełnienia błędu I-go rodzaju * powinniśmy brać pod uwagę rodzaj podejmowanych działań a0, a1 i rzeczywiste skutki, jakie mogą wyniknąć z błędów w ich wyborze czyli w ocenie stanu rzeczy. Doświadczenie służące do weryfikacji hipotez, od wyniku którego uzależniamy wybór działania a0 lub a1 należałoby nazywać testem. W literaturze statystycznej skoncentrowanej na formalnej stronie zagadnienia testem nazywa się zmienną losową zdającą sprawę z wyniku doświadczenia. Jeżeli mówimy, że do weryfikacji jakichś hipotez posługujemy się testem 2 to znaczy to, że zmienna zdająca sprawę z wyniku doświadczenia służącego do weryfikacji hipotez ma, przynajmniej przy założeniu, że jedna z tych hipotez jest prawdziwa, rozkład 2 lub do niego zbliżony. Wróćmy teraz do naszego przykładu medyczmnego. Niech maksymalną wartość warunkowego prawdopodobieństwa popełnienia błędu I-go rodzaju * zostanie ustalona na poziomie 0.1. Przyjęcie takiego maksymalnego ryzyka popełnienia błędu I-go rodzaju oznacza godzenie się na uznawanie 10% pacjentów chorych za zdrowych. Optymalnej funkcji decyzyjnej będziemy poszukiwać wśród takich funkcji, które gwarantują ryzyko popełnienia takiego błędu nie większe od 0.1. Ograniczenie to spełniają tylko 4 spośród 16 funkcji decyzyjnych. Są to funkcje: d11, d14, d15, d16 (zob. tab.4). Wśród tych 4 funkcji decyzyjnych najmniejszym warunkowym prawdopodobieństwem popełnienia błędu II-go rodzaju charakteryzuje się funkcja d11, wedle której za chorego należy uznawać każdego takiego pacjenta, którego co najmniej dwa (dwa lub trzy) zdjęcia zostaną uznane przez lekarza za wskazujące na chorobę. Gdy takich zdjęć nie będzie wcale lub będzie tylko jedno, pacjenta zgodnie z tą funkcją należy uznać za zdrowego. Przy weryfikacji hipotez o stanie zdrowia za pomocą funkcji decyzyjnej d11 prawdopodobieństwo dla chorego, że zostanie on uznany za zdrowego P11(a1|h0) jest równe 0.028. Prawdopodobieństwo dla zdrowego, że zostanie on uznany za chorego P11(a0|h1) jest równe 0.104. Warunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju przy posługiwaniu się do weryfikacji hipotez optymalną funkcją decyzyjną nazwaliśmy poziom istotności i oznaczamy , tutaj =0.028. Warunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju przy posługiwaniu się optymalną funkcją decyzyjną oznaczamy , tutaj =0.104. Zauważmy, że tutaj poziom istotności charakteryzujący optymalną funkcję decyzyjną nie jest równy maksymalnemu warunkowemu prawdopodobieństwu popełnienia błędu I-go rodzaju, na jakie się zgodziliśmy. Taka nierówność jest możliwe wtedy, gdy zmienna zdająca sprawę z wyniku doświadczenia (tutaj oznaczona L) nie jest zmienną o rozkładzie ciągłym. Znaczenie parametrów , można w naszym przykładzie przybliżyć dzięki ich naturalnej częstościowej interpretacji: =0.028, zatem należy się spodziewać uznawania za zdrowych przeciętnie 28 pacjentów z każdego 1000 pacjentów chorych, =0.104, zatem należy się spodziewać uznawania za chorych przeciętnie 104 pacjentów z każdego 1000 pacjentów zdrowych. 95 Na pytanie, ilu błędnych diagnoz należy się spodziewać na 1000 badanych pacjentów, nie można udzielić dokładnej odpowiedzi - od 28 do 104 (przeciętnie), zależnie od proporcji rzeczywiście chorych i rzeczywiście zdrowych w badanym tysiącu pacjentów. Na uwagę zasługują następujące fakty: W zbiorze funkcji decyzyjnych istnieje zawsze funkcja decyzyjna, w omawianym przykładzie jest to funkcja d16, dla której warunkowe, a zatem i bezwarunkowe, prawdopodobieństwa popełnienia błędu I-go rodzaju są równe 0.w omawianym przykładzie jest to funkcja d1, dla której warunkowe, a zatem i bezwarunkowe, prawdopodobieństwa popełnienia błędu II-go rodzaju są równe 0. W zbiorze funkcji decyzyjnych istnieje zawsze taka funkcja decyzyjna, Jeżeli dla jakiejś funkcji decyzyjnej warunkowe prawdopodobieństwo popełnienia błędu jednego rodzaju jest równe 0, to dla tej funkcji warunkowe prawdopodobieństwo popełnienia błędu innego rodzaju jest równe 1. Jeżeli obniżymy maksymalne warunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju * i posługując się regułą Neymana - Pearsona wyznaczymy inną niż uprzednio optymalną funkcję decyzyjną charakteryzującą się niższym poziomem istotności, to warunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju przy stosowaniu tej nowej optymalnej funkcji decyzyjnej będzie większe (lub równe w szczególnym przypadku), niż analogiczne prawdopodobieństwo charakteryzujące funkcję decyzyjną optymalną przy wyższej wartości *. Poprzestaniemy na ilustracji tego twierdzenia. Przyjmijmy obniżoną wartość maksymalnego prawdopodobieństwa popełnienia błędu I-go rodzaju *=0.001. W rozważanym zbiorze 16 funkcji decyzyjnych spełniają ten warunek dwie: d15 i d16. Funkcje d11 i d14 spełniające warunek poprzedni tego już nie spełniają. Funkcje d15 i d16 spełniają oba. Warunkowe prawdopodobieństwa popełnienia błędu I-go rodzaju są dla nich odpowiednio równe: 0.001 i 0.000. {d: d 0.1} = {d11, d14, d15, d16} {d: d 0.001} = {d15, d16} {d: d 0.001} {d: d 0.1} Mniejsze warunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju charakteryzuje funkcję d15. Jest ono dla niej równe 0.488, dla funkcji d16 jest równe dokładnie 1. Zatem przy * = 0.001 funkcja d15 jest optymalną funkcją decyzyjną. Pamiętamy, że funkcja d11, optymalna przy * = 0.1 gwarantowała prawdopodobieństwo popełnienia błędu I-go rodzaju =0.026 i prawdopodobieństwo popełnienia błędu II-go rodzaju =0.104. Po obniżeniu * do 0.001 uzyskaliśmy poziom istotności =0.001 dla funkcji optymalnej w tej zmienionej sytuacji. Ryzyko popełnienia błędu II-go rodzaju jest teraz wyższe i =0.488. Można dowolnie, aż do zera włącznie obniżać warunkowe prawdopodobieństwo popełniania błędu I-go rodzaju za cenę zwiększenia warunkowego prawdopodobieństwa popełniania błędu II-go rodzaju do wartości równej jeden, włącznie. W naszym przypadku osiągnie wartość 1.0, gdy zechcemy obniżyć maksymalne prawdopodobieństwo popełnienia błędu I-go rodzaju * poniżej 0.001. Zostanie wówczas jedna tylko funkcja decyzyjna spełniająca warunek nałożony na prawdopodobieństwo popełnienia błędu I-go rodzaju i będzie to funkcja d16 zalecająca uznawanie za chorego każdego pacjenta, bez względu na wynik doświadczenia. Przy jej stosowaniu błąd II-go rodzaju popełnimy zawsze, ilekroć będzie to możliwym bo badany jest osobą zdrową. Wybrawszy optymalną funkcję decyzyjną nie możemy tak zmienić swego postępowania, by jednocześnie zmniejszyć oba warunkowe prawdopodobieństwa popełniania błędów: I-go i II-go rodzaju, bez zmiany doświadczenia, od rezultatu którego uzależniamy działanie. By cel taki osiągnąć i zredukować 96 prawdopodobieństwa obu błędów, należy zastąpić stosowane doświadczenie jakimś innym. W naszym przykładzie możnaby zmniejszyć oba prawdopodobieństwa zwiększając liczbę analizowanych przez lekarza zdjęć, na przykład do 4. Przeprowadzenie odpowiednich rachunków pozostawimy jednak Czytelnikom, którym wypadnie, jeżeli zechcą, analizować 25=32 różnych funkcji decyzyjnych. Moglibyśmy też zwrócić się z prośbą o ocenę zdjęć do lepszego diagnosty, który błędy w stosunku do pojedynczych zdjęć popełnia z mniejszymi prawdopodobieństwami. Przedstawiony przykład weryfikacji hipotez pozwolił wprowadzić podstawowe idee i pojęcia przy dość elementarnym rachunku i bez odwoływania się do twierdzeń granicznych. Niewielka liczba możliwych funkcji decyzyjnych umożliwiła zbadanie ich wszystkich. W zastosowaniach praktycznych same rachunki są wprawdzie jeszcze prostsze lecz rozumowania związane z wyborem funkcji optymalnej są bardziej złożone. Zanim przejdziemy do typowych zastosowań weryfikacji hipotez, przedstawimy niektóre inne sposoby pojmowania tego zadania. Celem tej ekspozycji będzie głównie uwypuklenie istotnych cech metody Neymana-Pearsona. To, która z hipotez o stanie rzeczy jest prawdziwą przy właśnie dokonywanej weryfikacji, jest sprawą przypadku. Nie popełnimy błędu przyjmując, że stan rzeczy jest zmienną losową mającą tyle wartości, ile elementów liczy zbiór hipotez. Bez trudu damy sobie radę z określeniem liczbowych wartości tej zmiennej, w ostateczności możemy po prostu hipotezy ponumerować. Oznaczmy P(hi) prawdopodobieństwo tego, że weryfikując hipotezy zetkniemy się z rzeczywistością zgodną z treścią hipotezy hi. W naszym medycznym przykładzie P(h0) można utożsamiać z częstością występowania osób chorych wśród osób badanych, a P(h1) z częstością występowania wśród badanych osób zdrowych. Dwa te prawdopodobieństwa określają rozkład zmiennej losowej "stan rzeczy". Gdybyśmy znali te prawdopodobieństwa, moglibyśmy dla każdej funkcji decyzyjnej d obliczyć bezwarunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju: Pd (a1h0) = P(h0) * Pd (a1|h0) = P(h0) * d oraz bezwarunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju: Pd (a0h1) = P(h1) * Pd (a0|h1) = P(h1) * d a także bezwarunkowe prawdopodobieństwo popełnienia jakiegokolwiek błędu, niech B oznacza błąd I-go lub II-go rodzaju: B = a0h1 + a1h0 Pd (B) = Pd (a0h1) + Pd (a1h0) = P(h1) * d + P(h0) * d W dwu czteropolowych tabelkach tablicy 5 zestawiono warunkowe i bezwarunkowe prawdopodobieństwa charakteryzujące weryfikację hipotez przy użyciu jakiejś konkretnej funkcji decyzyjnej d. Prawdopodobieństwa oznaczone indeksem d są związane z tą konkretną funkcją d, ich wartości dla innych funkcji decyzyjnych mogą być inne. Pozostałe prawdopodobieństwa mają te same wartości dla każdej funkcji decyzyjnej. tablica 5 Prawdopodobieństwa warunkowe | h0 h1 a0 Pd(a0h0) Pd(a0|h1) a1 Pd(a1|h0) Pd(a1|h1) 1.0 1.0 97 Prawdopodobieństwa bezwarunkowe h0 h1 a0 Pd(a0h0) Pd(a0h1) Pd(a0) a1 Pd(a1h0) Pd(a1h1) Pd(a1) P(h0) P(h1) 1.0 Oznaczymy kI koszt popełnienia błędu I-go rodzaju i kII koszt popełnienia błędu II-go rodzaju. Łatwo można skonstruować dwie nowe metody weryfikacji hipotez różniące się sposobem wybierania optymalnej funkcji decyzyjnej od dopiero co przedstawionej metody Neymana-Pearsona. Wybór funkcji decyzyjnej minimalizującej koszt średni. Jeżeli koszty popełnienia błędu I-go i II-go rodzaju kI i kII są znane i dla każdej funkcji decyzyjnej znane są ponadto bezwarunkowe prawdopodobieństwa popełnienia błędu I-go rodzaju i popełnienia błędu II-go rodzaju, wówczas można dla każdej funkcji decyzyjnej d obliczyć średni koszt błędu przy posługiwaniu się daną funkcją decyzyjną Ed(k), gdzie k jest zmienną "koszt" przyjmującą wartość 0 dla decyzji bezbłędnych i kI lub kII dla błędów I-go i II-go rodzaju. Ed(k) = kI * Pd(a1h0) + kII * Pd(a0h1) Znając średni koszt ponoszony przy posługiwaniu się każdą z dostępnych funkcji decyzyjnych, możemy wybrać tę jedną, dla której ten średni koszt jest najmniejszy i uznać ją za optymalną funkcję decyzyjną. Wybór funkcji decyzyjnej minimalizującej prawdopodobieństwo popełnienia jakiegokolwiek błędu. Tę regułę wyboru optymalnej funkcji decyzyjnej można stosować wtedy, gdy koszty kI, kII nie są znane lub, gdy są sobie równe. Regułę tę można stosować tylko wtedy, gdy dla każdej funkcji decyzyjnej znane są bezwarunkowe prawdopodobieństwa popełniania błędów obu rodzajów lub znane jest bezwarunkowe prawdopodobieństwo popełnienia jakiegokolwiek błędu. Znając bezwarunkowe prawdopodobieństwo popełnienia jakiegokolwiek błędu B przy posługiwaniu się każdą z dostępnych funkcji decyzyjnych d, możemy wybrać tę jedną funkcję decyzyjną, dla której to prawdopodobieństwo jest najmniejsze i uznać tę jedną za optymalną funkcję decyzyjną. Często koszty kI, kII nie są nam dokładnie znane, umiemy jedynie wskazać, który z nich jest wyższy. Bezwarunkowe prawdopodobieństwa popełniania jakiegokolwiek błędu przy posługiwaniu się poszczególnymi funkcjami decyzyjnymi trudno określić bez znajomości prawdopodobieństw możliwych stanów rzeczy. Dla zastosowania metody Neymana-Pearsona wystarczy znajomość warunkowych prawdopodobieństw popełniania błędów i relacji między wielkościami kosztów związanych z ich popełnianiem. Posługując się tą metodą nie określamy ani prawdopodobieństwa popełnienia jakiegokolwiek błędu, ani prawdopodobieństwa popełnienia błędu określonego rodzaju, ani średniego kosztu błędu, poprzestajemy na warunkowych prawdopodobieństwach błędów obu rodzajów (później się okaże, że niekiedy musimy się ograniczyć do warunkowego prawdopodobieństwa błędu jednego tylko rodzaju). Terminem "weryfikacja hipotez" określa się także postępowanie całkiem odmienne od dotąd opisywanych. Wspólną cechą trzech przedstawionych metod było to, że rezultatem postępowania weryfikacyjnego było w nich traktowanie jednej z hipotez tak, jak gdyby była ona prawdziwa a drugiej tak, jak gdyby ona była fałszywa. Wedle tej innej koncepcji przed przystąpieniem do weryfikacji hipotezom są przypisywane pewne prawdopodobieństwa prawdziwości, które są modyfikowane w wyniku procesu weryfikacyjnego. Rezultatem postępowania weryfikacyjnego jest przypisanie weryfikowanym hipotezom nowych prawdopodobieństw. 98 Ze względu na wykorzystanie w tej metodzie twierdzenia Bayesa, metodę tę nazywa się wnioskowamiem bayesowskim. Przedstawimy ją na przykładzie weryfikacji hipotez dotyczącuch stanu zdrowia naszych pacjentów. Wymaga to uzupełnienia naszego przykładu istotnym założeniem. Załóżmy że wiadomo, iż wśród badanych pacjentów 10% stanowią osoby chore a reszta to zdrowi. Zatem prawdopodobieństwa obu stanów rzeczy są znane przed przeprowadzeniem doświadczenia. Są to tak zwane prawdopodobienstwa a priori: P(h0)=0.1 i P(h1)=0.9. Znamy warunkowe prawdopodobienstwa poszczególnych wyników doświadczenia przy założeniu prawdziwości obu hipotez (zob. tablica 3). Możemy zatem obliczyć warunkowe prawdopodobieństwa każdej z hipotez o stanie rzeczy przy założeniu każdego z wyników doświadczenia P(hi|L=l). Prawdopodobieństwa te nazywamy prawdopodobieństwami a posteriori. Takim prawdopodobieństwem jest np. prawdopodobieństwo tego, że badany pacjent jest chory pod warunkiem, że trzy jego zdjęcia uznano za wskazujące na chorobę P(hi|L=l). Obliczymy je na podstawie twierdzenia Bayesa: P(h0 & L=3) ` P(L=3 | h0) * P(h0) P(h0|L=3) = = = P(L=3) P(L=3 | h0) * P(h0) + P(L=3 | h1) * P(h1) 0.729 * 0.1 = = 0.910112 0.729 * 0.1 + 0.008 * 0.9 Natomiast prawdopodobieństwo tego, że pacjent jest zdrowy pod warunkiem, że trzy jego zdjęcia uznano za wskazujące na chorobę P(h1|L=0) jest równe 0.099888, gdyż oba te zdarzenia dopełniają się. Jeżeli zatem weryfikując hipotezy h0, h1 o stanie zdrowia pacjenta, przeprowadzimy doświadczenie i uzyskamy wynik: "trzy zdjęcia wskazujące na chorobę", to wedle metody bayesowskiej wnioskować będziemy, że prawdopodobieństwo, iż ten właśnie pacjent jest zdrowy jest równe w przybliżeniu 0.09, a prawdopodobieństwo tego, iż jest on chory jest równe, również w przybliżeniu, 0.91. Każdemyu wynikowi doświadczenia możemy przypisać warunkowe prawdopodobieństwo obu hipotez: że pacjent jest chory i że pacjent jest zdrowy: tablica 6 Prawdopodobieństwa a posteriori wynik doświadczenia l P(h0|L=l) P(h1|L=l) 0 0.000217 0.999783 1 0.072464 0.927336 2 0.213115 0.786885 3 0.910112 0.089888 Prawdopodobieństwa a posteriori przedstawione w tablicy 6 można interpretować w naszej sytuacji częstościowo. Jeżeli chorzy stanowią 10% zbiorowości badanych pacjentów, to wśród tych pacjentów, którzy uzyskują wynik badania L=3, chorzy stanowią 81.01%. Wśród tych, którzy uzyskują wynik badania L=2, chorzy stanowią 21.31%, wśród tych, kytórzy uzyskują wynik L=1, chorzy stanowią 7.25%, a wśród tych, którzy uzyskują wynik L=0, chorzy stanowią 0.02%. Pozostali w każdej z tych grup to zdrowi. 99 Ocena stanu zdrowia pojedyńczego pacjenta na podstawie wyniku doświadczenia ma zatem charakter w pewnym sensie stopniowalny. Jeżeli dla jakiegoś pacjenta uzyskujemy wynik badania L=3, możemy twierdzić, że prawdopodobieństwo tego, że jest on chory jest równe 0.91, a prawdopodobieństwo tego, że jest zdrowy wynosi 0.09, gdyż w grupie pacjentów uzyskujących wynik L=3 chorzy stanowią 91%, a zdrowi 9%. Prawdopodobieństwa przypisywane stanowi rzeczy po przeprowadzeniu doświadczenia - prawdopodobieństwa a posteriori - zależą od wyniku doświadczenia, ale także od prawdopodobieństw przypisywanych stanom rzeczy przed przeprowadzeniem doświadczenia, od prawdopodobieństw a priori. W przypadku, gdy mamy do czynienia ze skończonym zbiorem obiektów, o których wnioskujemy, częstościowa interpretacja prawdopodobieństw a priori nie nastręcza poważniejszych trudności. Napotykamy je wtedy, gdy próbujemy stosować metodę bayesowską do weryfikacji hipotez dotyczących pojedyńczego obiektu, gdzie częstościowa interpretacja prawdopodobieństwa nie znajduje naturalnego zastosowania. Hipotezy statystyczne zwykle mają taki charakter. Istnieją sposoby radzenia sobie z tymi trudnościami, nie zyskały one jednak powszechnej aprobaty. Weryfikacja dwu prostych hipotez dotyczących średniej Weryfikacja dwu prostych hipotez statystycznych dotyczących średniej przedstawimy na komkretnym przykładzie. Niech będzie zbiorowość złożona z ludzi i niech w tej zbiorowości będzie określona zmienna statystyczna X -"wysokość zarobków". Rozkład zmiennej X w tej zbiorowości nie jest nam znany, wiadomo jedynie, że odchylenie standardowe zmiennej X z zbiorowości D(X) jest równe 2000 $. Niech zbiór hipotez składa się z dwu zdań: "średnia zarobków w zbiorowości jest równa 15 000 $" i "średnia zarobków w zbiorowości jest równa 14 750 $". Z jakiegoś powodu niesłuszne odrzucenie pierwszej z tych hipotez jest bardziej kosztowne od niesłusznego odrzucenia drugiej. Chcielibyśmy weryfikację przeprowadzić w taki sposób, by zagwarantować sobie, że ryzyko popełnienia błędu I-go rodzaju nie przekroczy * = 0.05. Weryfikację przeprowadzimy przy pomocy doświadczenia polegającego na wylosowaniu z zbiorowości będącej przedmiotem hipotez zwrotnej próby liczącej n=400 elementów. Losowanie elementów próby prowadzić będziemy w taki sposób, by każda osoba miała tę samą szansę bycia wylosowaną przy losowaniu każdego elementu próby i, by wyniki kolejnych losowań były niezależne. Średnią zarobków w wylosowanej próbie będziemy traktować jako wynik tego doświadczenia. Dość liczny podzbiór zbioru liczb rzeczywistych jest zbiorem możliwych wyników tego doświadczenia, zbiorem wartości zmiennej X "średnia z próby". Należy wyznaczyć optymalną wedle koncepcji Neymana-Pearsona funkcję decyzyjną przyporządkowującą każdej liczbie mogącej być średnią zarobków w 400-elementowej próbie jedno z możliwych działań: a0 - traktować hipotezę zerową, wedle której średnia zarobków w zbiorowości jest równa 15 000 $ tak, jak gdyby była ona prawdziwa, a1 - traktować hipotezę konkurencyjną, wedle której średnia zarobków w zbiorowości jest równa 14 750 $ tak, jak gdyby ona była prawdziwa. Stosując wcześniej przyjęte oznaczenia zapiszemy: zbiór hipotez H = {h0, h1} h0 : E(X) h1 : E(X) = 15 000 $ = m0 = 14 750 $ = m1 zbiór działań A = {a0, a1} a0 : przyjęcie, że E(X) = 15 000 $ a1 : przyjęcie, że E(X) = 14 750 $ maksymalne, jeszcze akceptowalne, warunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju * = 0.05 100 Zbiór wyników doświadczenia X, czyli zbiór wartości zmiennej X - "średnia z próby", która zdaje sprawę z wyniku doświadczenia, zbiór ten jest podzbiorem zbioru liczb rzeczywistych . Postępując zgodnie z przedstawionym wcześniej schematem należy najpierw wyznaczyć rozkład warunkowy zmiennej X - "średnia zarobków z wylosowanej próby", przy założeniu, że prawdziwa jest hipoteza h0 i drugi warunkowy rozkład tej zmiennej przy założeniu, że prawdziwą jest hipoteza konkurencyjna h1. W obu przypadkach są to rozkłady zmiennej X "średnia z próby" w zbiorze prób możliwych do wylosowania ze zbiorowości o znanej średniej i znanej wariancji. Ponieważ liczebność próby jest duża (n=400) znajduje tu zastosowanie centralne twierdzenie graniczne. Zgodnie z treścią tego twierdzenia możemy przyjąć, że: jeżeli prawdziwą jest hipoteza zerowa h0 i średnia zmiennej X w zbiorowości jest równe 15 000 $, to zmienna U0 - "standaryzowana przy założeniu prawdziwości hipotezy zerowej średnia z próby" U0 = X - E(X) = D(X) n X - 15000 2000 20 ma rozkład zbliżony do rozkładu normalnego standaryzowanego lub, co jest równoważne, że zmienna X "średnia z próby" ma rozkład zbliżony do rozkładu normalnego o średniej E( X ) = m0 = 15000 i odchyleniu standardowym D( X ) = D(X)/n = 100, natomiast jeżeli prawdziwą jest hipoteza konkurencyjna h1 i średnia zmiennej X w zbiorowości jest równa 14 750 $, to zmienna U1 - "standaryzowana przy założeniu prawdziwości hipotezy konkurencyjnej średnia z próby" U1 = X - E(X) = D(X) n X - 14750 2000 20 ma rozkład zbliżony do normalnego standaryzowanego lub, co jest równoważne, zmienna X "średnia z próby" ma rozkład zbliżony do rozkładu normalnego o średniej E( X ) = m1= 14750 i odchyleniu standardowym D( X ) = D(X)/n = 100. Dalej będziemy mówić, że zmienne te mają rozkłady normalne i będziemy tak postępować, jak gdyby te rozkłady były normalne, pamiętając wszelako o przybliżonym charakterze uzyskiwanych wielkości. Zmienna X , której wartość jest wynikiem doświadczenia służącego do weryfikacji hipotez, ma inny rozkład w sytuacji, gdy prawdziwą jest hipoteza zerowa h0 i inny, gdy prawdziwą jest hipoteza konkurencyjna h1. W obu wypadkach są to jednak rozkłady normalne i o tym samym odchyleniu standardowym, różniące się jedynie średnimi. Posługując się symboliką parametrów warunkowych zapisujemy: E( X |h0) = m0 = 15000; D( X |h0) = 2000/400 = 100 E( X |h1) = m1 = 14750; D( X |h1) = 2000/400 = 100 Warunkowe funkcje gęstości obu tych rozkładów f( X |h0), f( X |h1) przedstawimy na jednym rysunku: 101 Korzystając z centralnego twierdzenia, konsekwentnie będziemy zakładać, że zbiór możliwych wyników doświadczenia, czyli zbiór wartości zmiennej X - "średnia zarobków z wylosowanej próby" jest zbiorem wszystkich liczb rzeczywistych. Przyjęliśmy przecież, że zmienna ta ma rozkład normalny. Wykresy funkcji gęstości świadczą jednak o tym, że dla takich wartości zmiennej X, których ona na pewno nigdy nie przyjmie, funkcja gęstości przyjmuje wartości pomijalnie małe. Funkcja decyzyjna powinna jednak być określona dla każdej liczby rzeczywistej i przyporządkować jej działanie a0 lub a1. Funkcji decyzyjnej określonej na zbiorze liczb rzeczywistych nie będziemy mogli, tak jak to czyniliśmy poprzednio, przedstawić przez wymienienie wszystkich par "argument - wartość" czyli "liczba rzeczywista - działanie". Zważywszy rozmiar zbioru możliwych wyników doświadczenia, można się spodziewać, że zbiór wszystkich funkcji decyzyjnych będzie zbyt wielki, byśmy mogli kolejno analizować własności wszystkich funkcji decyzyjnych tak, jak to czyniliśmy w poprzednim przykładzie medycznym. Rozważmy jednak najpierw jedną funkcję decyzyjną d mającą taką postać: d(x) = a0, gdy x (14900, 15200> a1, gdy x (14900, 15200> Inaczej mówiąc, obszar krytyczny Kd funkcji decyzyjnej d składa się z liczb mniejszych lub równych 14900 oraz z liczb większych od 15200. Kd = (-, 14900> (15200, +) Jeżeli w wyniku doświadczenia zmienna losowa X będąca wynikiem tego doświadczenia przyjmie wartość ze zbioru Kd, to postępując zgodnie z funkcją decyzyjną d należy podjąć działanie a1 przyjmując hipotezę h1 i odrzucając h0. Znając warunkowy rozkład zmiennej X - "średnia zarobków z próby" przy założeniu prawdziwości hipotezy zerowej h0, można obliczyć warunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju. Błąd ten popełniamy podejmując działanie a1 w stanie rzeczy zgodnym z hipotezą h0. Działanie a1 podejmujemy wtedy, gdy wynik doświadczenia trafia do obszaru krytycznego. Wynik doświadczenia trafia do obszaru krytycznego, gdy X - "średnia z próby" przyjmuje wartość mniejszą lub równą 14900 albo wartość większą od 15200. Warunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju przy posługiwaniu się funkcją decyzyjną d obliczymy bez trudu: 102 P(a1|h0) = P( X Kd | h0) = P( X 14900 X >15200 | h0) = = P( X 14900 | h0) + P( X >15200 | h0) = = P( X 14900 | h0) + 1 - P( X 15200 | h0) = = X -E( X ) 14900-15000 P( | h0 ) + D( X ) 100 + 1 - X -E( X ) P( D( X ) 15200-15000 | h0 )= 100 = (-1) + 1 - (2) = 0.1587 + 1 - 0.97725) = 0.18145 W podobny sposób możemy obliczyć warunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju przy posługiwaniu się funkcją decyzyjną d. Błąd II-go rodzaju popełniamy wtedy, gdy podejmujemy działanie a0 w stanie rzeczy zgodnym z hipotezą h1. Działanie a0 podejmujemy wtedy, gdy wynik doświadczenia nie trafia do obszaru krytycznego, gdy X "średnia z próby przyjmuje wartość większą od 14900 lecz co najwyżej równą 15200. P(a0|h1 = P( X Kd | h1) = P(14900 < X 15200 | h1) = = P( 14900-14750 < 100 X -E( X ) 15200-14750 | h1 )= D( X ) 100 = (4.5) - (1.5) = 0.999996602 - 0.93319 = 0.06688066 Obliczone w ten sposób prawdopodobieństwa obarczone są błędami wynikającymi z zastosowania centralnego twierdzenia granicznego. Mówiąc dość nieprecyzyjnie: można się spodziewać tym większych błędów, im bardziej rozkład zmiennej X w zbiorowości różni się od rozkładu normalnego i im mniejsza jest liczebność prób n. Przy kilkusetelementowych próbach błędy te są pomijalne i to chyba dla każdego praktycznego zastosowania. Uzyskane rezultaty można przedstawić graficznie. W tym celu na wykresie funkcji gęstości zmiennej X zaznaczymy granice obszaru krytycznego Kd, który będzie reprezentował funkcję decyzyjną d. Obszar ten składa się z dwu półprostych. Oznaczymy następnie pole pod funkcję gęstości zmiennej X przy założeniu, że prawdziwą jest hipoteza zerowa h0, znajdujące się nad obszarem krytycznym Kd. Pole to jest miarą prawdopodobieństwa wylosowania ze zbiorowości, w której średnia ma wartość zgodną z treścią hipotezy zerowej, takiej próby, że średnia z tej próby należeć będzie do obszaru krytycznego. Przy stosowaniu funkcji decyzyjnej d zmusza to do podjęcia działania a1. Pole to jest zatem miarą warunkowego prawdopodobieństwa popełnienia błędu I-go rodzaju. Następnie oznaczymy pole pod warunkową funkcją gęstości zmiennej X przy założeniu, że prawdziwą jest hipoteza h1, znajdujące się nad dopełnieniem obszaru krytycznego. To pole jest miarą prawdopodobieństwa wylosowania ze zbiorowości, w której średnia jest zgodna z treścią hipotezy konkurencyjnej takiej próby, że średnia z tej próby nie trafi do obszaru krytycznego. Przy stosowaniu funkcji decyzyjnej d zmusza to do podjęcia działania a0, czyli do odrzucenia prawdziwej hipotezy h1 i przyjęcia h0. Pole to jest miarą warunkowego prawdopodobieństwa popełnienia błędu II-go rodzaju. 103 W analogiczny sposób możemy określić warunkowe prawdopodobieństwa popełniania obu rodzajów błędów przy stosowaniu dowolnej funkcji decyzyjnej, jeżeli tylko obszar krytyczny tej funkcji lub jego dopełnienie można przedstawić jako sumę skończonej liczby odcinków. Ograniczymy się do analizowania takich funkcji decyzyjnych, jest ich i tak nieskończenie wiele. Zatem zbadanie kolejno wszystkich nie jest możliwe. Wybieranie optymalnej w sensie Neymana-Pearsona funkcji decyzyjnej przy ustalonej wartości maksymalnej ryzyka popełnienia błędu I-go rodzaju polega na poszukiwaniu takiego obszaru krytycznego K, który spełnia dwa znane warunki: Prawdopodobieństwo tego, że średnia z próby X przyjmie wartość należącą do obszaru krytycznego pod warunkiem, że prawdziwą jest hipoteza zerowa, nie jest większa od * Prawdopodobieństwo tego, że średnia z próby X przyjmie wartość, która do obszaru krytycznego nie należy, pod warunkiem, że prawdziwą jest hipoteza konkurencyjna jest, przy spełnieniu warunku poprzedniego, możliwie najmniejsze. Zbiór funkcji decyzyjnych jest tak liczny, że nie możemy najpierw każdej funkcji decyzyjnej przyporządkować warunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju, a następnie wybrać te funkcje, dla których to prawdopodobieństwo jest mniejsze lub równe przyjętemu maksymalnemu prawdopodobieństwu tego rodzaju *; następnie dla tych wybranych funkcji decyzyjnych poobliczać warunkowe prawdopodobieństwa popełnienia błędu II-go rodzaju, by na koniec wskazać tę spośród nich, dla której to prawdopodobieństwo jest najmniejsze. Mając na uwadze tę trudność, najpierw - bez dowodu - wskażemy funkcję decyzyjną optymalną w sensie Neymana-Pearsona, a następnie przytoczymy kilka argumentów przemawiających za takim wyborem. Nie będzie to jednak pełny dowód. Optymalną funkcję decyzyjną będzie reprezentował jej obszar krytyczny. Jeżeli wedle hipotezy zerowej h0 średnia zmiennej X w zbiorowości E(X) jest równa liczbie m0, a wedle hipotezy konkurencyjnej h1 średnia ta jest równa liczbie m1 i zachodzi nierówność m1 < m0; jeżeli ponadto akceptowalny poziom warunkowego prawdopodobieństwa popełnienia błędu I-go rodzaju przy założeniu prawdziwości hipotezy h0 jest równy liczbie * i wariancja zmiennej X w zbiorowości jest dana, wówczas obszar krytyczny K optymalnej funkcji decyzyjnej dla średniej z n-elementowej próby losowej jest półprostą (-, k>, gdzie liczba k spełnia następujący warunek: k: P ( X k | h0) = * Prawdopodobieństwo warunkowe popełnienia błędu I-go rodzaju przy posługiwaniu się taką optymalną funkcją decyzyjną (poziom istotności) jest równe jeszcze akceptowalnemu * poziomowi tego prawdopodobieństwa. Jeżeli liczebność próby jest dostatecznie duża dla zastosowania centralnego twierdzenia granicznego, liczbę k wyznaczamy w sposób następujący: 104 k: P( X k | h0) = P( X k | E(X) = m0 k: P ( X -m0 D(X) n & D(X) D(x)= n ) = * k-m0 | h0) = * D(X) n Występująca w nierówności zmienna U0 "standaryzowana przy założeniu prawdziwości hipotezy zerowej średnia z próby" ma przy założeniu, że h0 jest prawdziwa, rozkład standaryzowany o średniej równej 0 i odchyleniu standardowym równym 1. Ze względu na treść centralnego twierdzenia granicznego, gdy liczebność próby n jest duża, przyjmujemy, że rozkład tej zmiennej jest rozkładem normalnym. Zatem wielkość k znajdujemy z równości U0 = X -m0 ; D(X) n (r) P(U0 r) k-m0 k: ( ) = * D(X) n W naszym przykładzie przyjęliśmy * = 0.05. W tablicy dystrybuanty zmiennej o rozkładzie normalnym standaryzowanym odczytujemy, że (-1.64) = 0.05 Ponieważ dystrybuanta zmiennej o rozkładzie normalnym standaryzowanym jest funkcją rosnącą czyli różnowartościową, mamy: k-15000 = -1.64 2000 n k = -1.64 * 100 + 15000 = 14836.0 Oznaczając u taką liczbę, dla której dystrybuanta zmiennej o rozkładzie normalnym standaryzowanym jest równa 1- moglibyśmy zapisać uzyskane rozwiązanie w postaci ogólnej: k = m0 - u * D(X) n u: (u) = 1- W ostatnim wyrażeniu zastąpiliśmy * przez korzystając z tego, że w przypadku, gdy rozkład zmiennej zdającej sprawę z wyniku doświad- 105 czenia jest ciągły, prawdopodobieństwo charakteryzujące optymalną funkcję decyzyjną jest równe maksymalnej dopuszczalnej jego wartości *, przy jakiej dana funkcja jest optymalną. Optymalna funkcja decyzyjna zaleca, by odrzucać hipotezę zerową h0 wtedy i tylko wtedy, gdy średnia x obliczona dla wylosowanej próby należeć będzie do obszaru krytycznego K, czyli będzie mniejszą lub równą k = 14836.0. Jeżeli średnia w wylosowanej próbie będzie większa od k, wówczas odrzucić należy hipotezę h1 i przyjąć h0. Wyznaczywszy granice obszaru krytycznego możemy obliczyć prawdopodobieństwo popełnienia błędu II-go rodzaju pod warunkiem, że prawdziwą jest hipoteza konkurencyjna h1 i posługujemy się wybraną optymalną funkcją decyzyjną. Jest to prawdopodobieństwo tego, że średnia z próby X przyjmie wartość nienależącą do obszaru krytycznego pod warunkiem, że prawdziwą jest hipoteza h1. = P(a0|h1) = P( X K | h1) = = P( X < k | E(X)=m1 & = X -m1 P( > D(X) n D(X) D( X )= ) = n k-m1 | h1 ) = D(X) n X -m1 k-m1 k-m1 = 1 - P( | h1 ) = 1 - ( ) D(X) D(X) D(X) n n n Przy k = 14836 otrzymujemy prawdopodobieństwo popełnienia błędu II-go rodzaju przy posługiwaniu się optymalną funkcją decyzyjną i przy założeniu, że prawdziwą jest hipoteza konkurencyjna 14836-14750 = 1 - ( ) = 1 - (0.86) = 1 - 0.8051 = 0.1949 2000 400 Oba prawdopodobieństwa i oraz granice obszaru krytycznego K przedstawia następny rysunek, na którym odpowiednio oznaczone pola są miarami tych prawdopodobieństw. 106 Przytoczymy następujące argumenty przemawiające za uznaniem wyznaczonego obszaru krytycznego K = (-, 14836> za optymalny obszar krytyczny wedle koncepcji Neymana-Pearsona i przy przyjętych wcześniej założeniach (*=0.05, m0=15000, m1=14750, n=400, D(X)=2000). Gdybyśmy granicę obszaru krytycznego przesunęli w lewo od punktu k do jakiegoś punktu k', gdzie k' < k=14836, wówczas prawdopodobieństwo popełnienia błędu I-go rodzaju charakteryzujące związaną z tym nowym obszarem krytycznym funkcję decyzyjną byłoby mniejsze od *=0.05. Byłaby to zatem funkcja decyzyjna dopuszczalna ze względu na pierwszy warunek domagający się, by *. Prawdopodobieństwo popełnienia błędu II-go rodzaju byłoby jednak dla tej nowej funkcji decyzyjnej większe od wyznaczonego dla optymalnej funkcji decyzyjnej danej przez obszar K. Łatwo tego dowieść, a jeszcze łatwiej zauważyć analizując przedstawiony wcześniej rysunek. Obszar krytyczny K' = (-, k'>, jest zatem gorszy w sensie ustalonym przez Neymana-Pearsona od obszaru K' = (-, 14838>. Wynika to z treści warunku drugiego, który domaga się minimalizacji prawdopodobieństwa popełnienia błędu II-go rodzaju. Przesuwanie granicy obszaru krytycznego w prawo od punktu k do jakiegoś innego punktu k', dla którego tym razem zachodziłaby nierówność k' > k=14836 nie jest celowe, gdyż w ten sposób wyznaczony obszar krytyczny charakteryzowałby się prawdopodobieństwem popełnienia błędu I-go rodzaju większy od *=0.05, co wyklucza jego optymalność ze względu na treść pierwszego warunku. Gdybyśmy obszar krytyczny K' skonstruowali w sposób analogiczny do tego, jakim posłużyliśmy się przy konstrukcji obszaru K, lecz jako prawostronny, czyli rozciągający się w prawo od jakiegoś punktu k' spełniającego warunek k': P ( X > k' | h0) = * wówczas prawdopodobieństwo popełnienia błędu II-go rodzaju również byłoby wyższe od uzyskanego wcześniej . Zamiast prostego rachunku przedstawimy jeszcze jeden rysunek. 107 Łatwo zauważyć, że przesuwając granicę tego obszaru krytycznego K' dalej w prawo możemy spowodować jedynie wzrost wprawdzie nieznaczny i tak dużego prawdopodobieństwa popełnienia błędu II-go rodzaju związanego z tym obszarem krytycznym. Będzie temu towarzyszyć spadek prawdopodobieństwa popełnienia błędu I-go rodzaju poniżej maksymalnego jego poziomu *. Nie zmieni to jednak oceny takich prawostronnych obszarów krytycznych. Wszystkie one mieć będą prawdopodobieństwa popełnienia błędu II-go rodzaju większe od takiego prawdopodobieństwa obliczonego dla lewostronnego obszaru K. Moglibyśmy obszar krytyczny skonstruować jako odcinek ograniczony dwoma punktami k1, k2 takimi, że zachodziłaby równość: P ( k1 < X k2 | h0) = * Weźmy jakiś obszar krytyczny skonstruowany w taki sposób i przedstawmy go na rysunku. Rozważmy możliwe zmiany granic tego obszaru (k1, k2> a. Jego skrócenie spowodowane przesunięciem jednego tylko końca w stronę drugiego, przy niezmienionym położeniu tego drugiego końca 108 spowoduje zwiększenie prawdopodobieństwa popełnienia błędu II-go rodzaju i spadek prawdopodobieństwa popełnienia błędu I-go rodzaju poniżej *. b. Przesunięcie odcinka w prawo z jednoczesną taką zmianą jego długości, dzięki której prawdopodobieństwo popełnienia błędu I-go rodzaju pozostanie niezmienione. Dopóki środek odcinka (k1+k2)/2 nie przekroczy m0 odcinek taki ulega skracaniu, punkt k1, przesuwa się daklej niż k2, przyrost prawdopodobieństwa wynikający z przesunięcia k1 jest większy niż jego ubytek wynikający z przesunięcia k2, prawdopodobieństwo popełnienia błędu II-go rodzaju rośnie. Jeśli weźmiemy jakikolwiek odcinek (k1, k2> spełniający warunek, że P(k1 < X k2 | h0) = *, którego środek znajduje się powyżej (w prawo od) m0, to prawdopodobieństwo popełniemia błędu drugiego rodzaju przy traktowaniu go jako obszaru krytycznego będzie większe niż prawdopodobieństwo popełnienia błędu II-go rodzaju przy użyciu jako obszaru krytycznego odcinka (m0-(k2-m0), m0+(k1m0)> symetrycznego względem punktu m0 dla odcinka (k1, k2>, którego środek znajduje się jednak poniżej (w lewo od) m0. Zatem przesuwając odcinek (k1, k2> w prawo nie uczynimy zeń optymalnego obszaru krytycznego. c. Przesunięcie odcinka w lewo i taka zmiana jego długości, dzięki której prawdopodobieństwo popełnienia błędu I-go rodzaju pozostanie bez zmian. Odcinek zostanie wydłużony i przesunięty na obszar w którym funkcja gęstości f( X |h1) ma większe wartości. Prawdopodobieństwo popełnienia błędu II-go rodzaju zmaleje. Gdyby przesuwanie odcinka w lewo kontynuować dbając o stałe prawdopodobieństwo popełnieia błędu I-go rodzaju, w pewnym momencie stanie się koniecznym przeniesienie początku odcinka k1 do -. Prawdopodobieństwo popełnienia błędu II-go rodzaju będzie wówczas najmniejsze. Będzie to znany nam już optymalny obszar krytyczny K = (-, k>. W rozumowaniu tym pominęliśmy niespójne obszary krytyczne zbudowane z kilku rozłącznych odcinków, ale nie zamierzaliśmy przeprowadzać formalnego, pełnego dowodu a jedynie jego szkic, wskazać niektóre argumenty przemawiające za twierdzeniem o optymalności w omawianej sytuacji lewostronnego obszaru krytycznego W analogiczny sposób moglibyśmy uzasadnić następne twierdzenie dotyczące weryfikacji dwu innych hipotez. Niech tym razem hipoteza zerowa głosi, że średnia w populacji jest równa 14750 $., a hipoteza konkurencyjna, że jest ona równa 15000 $. Pozostałe warunki niech będą jak w poprzednim przykładzie: odchylenie standardowe w zbiorowości równe 2000, maksymalna wartość prawdopodobieństwa popełnienia błędu I-go rodzaju przy założeniu, że prawdziwą jest h0, równa 0.05, wnioskujemy na podstawie średniej z 400 elementowej próby. Twierdzenie sformułujemy w sposób ogólny. Jeżeli wedle hipotezy zerowej h0 średnia zmiennej X w zbiorowości oznaczona E(X) jest równa m0 a wedle hipotezy konkurencyjnej h1, średnia ta jest równa m1 i zachodzi nierówność m1 > m0, jeżeli ponadto akceptowalny poziom warunkowego prawdopodobieństwa popełnienia błędu I-go rodzaju przy założeniu prawdziwości hipotezy h0 jest równy * i wariancja zmiennej X w zbiorowości D2(X) jest dana, wówczas obszar krytyczny K optymalnej w sensie Neymana-Pearsona funkcji decyzyjnej dla średniej z n-elementowej próby losowej jest półprostą (k, ), gdzie liczba k spełnia następujący warunek: k: P ( X > k | h0 ) = * Gdy liczebność próby jest dostatecznie duża, by posłużyć się centralnym twierdzeniem granicznym, wielkość k wyznaczymy bez trudu w znany już sposób: k = m0 + u * D(X) n 109 W naszym przykładzie k = 14750 + 1.64* 2000 = 14914 400 Prawdopodobieństwo popełnienia błędu I-go rodzaju przy posługiwaniu się tą optymalną funkcją decezyjną jest równe (nieprzypadkowo) maksymalnemu prawdopodobieństwu *. Prawdopodobieństwo popełnienia błedu II-go rodzaju obliczamy w sposób podobny do zastosowanego uprzednio: = P( a0 | h1 ) = P ( X k | h1 ) = = k-m1 ( ) = D(X) n 14914-15000 ( ) = (-0.86 ) = 0.1949 2000 400 Oba prawdopodobieństwa i wraz z prawostronnym obszarem krytycznym przedstawia rysunek; Problem i jego rozwiązanie jest "lustrzanym odbiciem" omówionych wcześniej, gdzie m1 było mniejsze od m0. Wówczas konstruowaliśmy lewostronny obszar krytyczny: małe średnie z próby "świadczyły" przeciwko hiptezie zerowej, a duże na rzecz tej hipotezy. Gdy wedle hipotez m1 jest większe od m0, konstruujemy prawostronny obszar krytyczny i duże średnie z próby "świadczą" przeciw hipotezie zerowej, a małe na jej rzecz. Na koniec zbadajmy konsekwencje zmian niektórych parametrów sytuacji, w której weryfikuje się hipotezy. W naszym ostatnim przykładzie parametry te były następujące: h0 : h1 : E(X) E(X) D(X) n * K = = = = = = = m0 = 14750 m1 = 15000 2000 400 0.05 (14914, ) 0.1949 110 Konsekwencje, o których będzie mowa, mają charakter uniwersalny. Czytelnik łatwo może sprawdzić, czy rzeczywiście zachodzą w sytuacji przykładowej a następnie dowieść, że zachodzą we wszystkich sytuacjach analogicznych. Jeżeli zmienimy treść hipotez tak, że różnica między m1 a m0 zmaleje, wówczas przy niezmienionych pozostałych parametrach sytuacji wzrośnie prawdopodobieństwo popełnienia błędu II-go rodzaju . Jeżeli zwiększymy liczebność próby n, wówczas obszar krytyczny K będzie nadal optymalnym obszarem krytycznym tylko przy innym, mniejszym od poprzedniego maksymalnym prawdopodobieństwem popełnienia błędu I-go rodzaju, jednocześnie zmaleje warunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju. Gdyby wariancja zmiennej X w zbiorowości zmalała, skutek byłby taki sam jak przy wzroście liczebności próby. (Jedno i drugie powoduje spadek odchylenia standardowego zmiennej X "średnia z próby", czego konsekwencji łatwo się domyśleć spojrzawszy na wcześniejsze rysunki.) Jeżeli zwiększymy liczebność próby n i ustalimy nowy optymalny obszar krytyczny przy niezmienionym maksymalnym prawdopodobieństwie *, wówczas zmaleje prawdopodobieństwo a nowowyznaczony obszar krytyczny okaże się być szerszym od poprzedniego. Gdyby zmalała wariancja zmiennej X w zbiorowości i ustalony został nowy obszar krytyczny przy niezmienionym maksymalnym prawdopodobieństwie *, wówczas skutki byłyby takie same jak przy wzroście liczebności próby. Gdybyśmy zgodzili się na nową, wyższą wartość maksymalnego prawdopodobieństwa popełnienia błędu I-go rodzaju *, wówczas zostałby ustalony nowy, szerszy obszar krytyczny i zmalałoby prawdopodobieństwo popełnienia błędu II-go rodzaju . Gdybyśmy chcieli zmniejszyć prawdopodobieństwo popełnienia błędu II-go rodzaju , moglibyśmy to osiągnąć za cenę powiększenia prawdopodobieństwa popełnienia błędu I-go rodzaju. Towarzyszyłoby temu rozszerzenie obszaru krytycznego. Jednoczesne zmniejszenie prawdopodobieństwa popełnienia błędu I-go rodzaju i prawdopodbieństwa popełnienia błędu II-go rodzaju jest możliwe tylko przez zwiększenie liczebności próby; jeżeli nie zamierzamy zmienić treści hipotez i wariancji zmiennej w zbiorowości, co zwykle od nas nie zależy. Jeżeli warunkowe rozkłady zmiennej będącej wynikiem doświadczenia są ciągłe, to warunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju przy posługiwaniu się optymalną funkcją decyzyjną d jest równe maksymalnemu prawdopodobieństwu *, przy którym owa funkcja decyzyjna d jest optymalną. Wynika to z przedstawionych sposobów wyznaczania krańców obszarów krytycznych: lewo i prawostronnego. Nie było tak w omawianym przykładzie medycznym, gdzie zmienna L "liczba zdjęć" nie miała rozkładu ciągłego lecz skokowy. Było tak w dwu ostatnich przykładach i jest tak w większości praktycznych zastosowań weryfikacji hipotez statystycznych. Wszędzie tam, gdzie obie te wielkości są sobie w sposób konieczny równe dla oznaczenia obu tych prawdopodobieństw używamy terminu "poziom istotności" i mówimy, że przeprowadzamy weryfikację jakichś hipotez na pewnym poziomie istotności równym , co znaczy, że wybieramy obszar krytyczny w taki sposób, by prawdopodobieństwo popełnienia błędu I-go rodzaju nie było większe od , i że to prawdopodobieństwo jest dla optymalnego obszaru krytycznego równe . Wszystkie hipotezy, którymi dotąd się zajmowliśmy były to tzw. hipotezy parametryczne. Statystyczna hipoteza jest hipotezą parametryczną jeżeli jej przedmiotem jest wartość parametryczna rozkładu zmiennej lub zmiennych losowych. Ostatnio weryfikowane przez nas hipotezy określały wartość średniej zmiennej X w zbiorowości. Wcześniejsze hipotezy medyczne określały wartość 111 prawdopodobieństwa tego, że zdjęcie pacjenta zostanie uznane za wskazujące na chorobę. Rzeczywistością będącą przedmiotem hipotez w przykładzie medycznym był, formalnie rzecz biorąc, rozkład dwuwartościowej zmiennej -"uznanie zdjęcia za wskazujące na chorobę". Zmienna ta ma dwie możliwe wartości i określenie prawdopodobieństwa jednej z nich określa ten rozkład w sposób jednoznaczny. Rzeczywistością będącą przedmiotem hipotez w ostatnich przykładach był rozkład zmiennej X "wysokość zarobków " w pewnej zbiorowości. Zmienna ta, można się domyślać, ma wiele różnych wartości. Hipotezy przypisywały wartość średniej zmiennej X i nie określały rozkładu zmiennej X w zbiorowości w sposób jednoznaczny. mimo to i jedne i drugie hipotezy słusznie traktujemy jako hipotezy proste. Jest tak dla tego, że hipotezy te, wraz z dodatkowymi informacjami, które traktowaliśmy jako niewątpliwe, w sposób jednoznaczny określały rozkład zmiennej zdającej sprawę z wynikow doświadczenia służącego do weryfikacji hipotez. Hipotezy medyczne określały jednoznacznie dwumianowy rozkład zmiennj L, a hipotezy o średniej w zbiorowości jednoznacznie określały rozkład zmiennej X "średnia z próby". Wszystkie te hipotezy były statystycznymi hipotezami parametrycznymi, gdy przypisywały wartość parametrowi charakteryzującemu rozkład zmiennej traktowany jako rzeczywistość będąca przedmiotem weryfikowanych hipotez; były hipotezami prostymi, gdyż określały w sposób jednoznaczny rozkład wyników doświadczenia służącego do ich weryfikacji. Dodajmy, że jeżeli hipoteza w sposób niejednoznaczny określa wartość parametru charakteryzującego rzeczywistość, to niejednoznacznie określa rozkład wyników doświadczenia i nie jest wówczas hipotezą prostą. Dwie hipotezy proste są różne, jeżeli warunkowe rozkłady wyników doświadczenia przy założeniu prawdziwości każdej z nich nie są identyczne. Hipotezą złożoną jest każda taka hipoteza, która jest równoważna alternatywnie co najmniej dwu różnych hipotez prostych. Weryfikacja prostej i złożonej hipotezy dotyczących średniej Przy weryfikacji hipotez metodą Neymana-Pearsona rozkład wyników doświadczenia przy założeniu prawdziwości hipotezy zerowej musi być znany. Zatem tylko hipoteza prosta może być hipotezą zerową, a hipoteza złożona może być tylko hipotezą konkurencyjną. Spełnienie tego ograniczenia jest koniecze; nawet wbrew zasadzie domagającej się, by traktować jako zerową tę hipotezę, której niesłusznego odrzucenia bardziej się obawiamy. Weryfikację hipotez, z których jedna jest hipotezą prostą, a druga jest hipotezą złożoną, przedstawimy na przykładzie weryfikacji takich hipotez dotyczących średniej wartości zmiennej w zbiorowości. Niech wedle hipotezy zerowej średnia zmiennej X w zbiorowości będzie równa m0. Jest to hipoteza prosta. Rozważymy trzy możliwe hipotezy konkurencyjne, złożone: - średnia w zbiorowości jest mniejsza od m0, - średnia w zbiorowości jest większa od m0, - średnia w zbiorowości nie jest równa m0, jest mniejsza lub większa od m0 Założymy, podobnie jak to czyniliśmy poprzednio, że liczebność próby n jest dostatecznie wielka dla zastosowania centralnego twierdzenia granicznego i średnia z próby X ma rozkład zbliżony do normalnego, a więc ciągły. Ponadto dana jest wariancja zmiennej X w zbiorowości i ustalony jest pewien maksymalny poziom prawdopodobieństwa warunkowego błędu I-go rodzaju, na jakie się jeszcze godzimy. Rozpoczniemy od sytuacji pierwszej i zapiszemy obie hipotezy: Hipotezę konkurencyjną h1 można traktować jako alternatywę prostych hipotez hi, z których każda ma postać następującą: 112 hi: E(X) = mi, gdzie mi < m0 Jest takich hipotez tyle, ile jest liczb rzeczywistych mniejszych od m0. Weźmy jakąkolwiek parę prostych hipotez: h0, hi. Ponieważ mi < m0 dla ich weryfikacji posłużymy się lewostronnym obszarem krytycznym Ki, którego granice wyznaczymy wedle wcześniej poznanej metody: Ki = (-, ki> ki : P (X ki | h0) = * Łatwo zauważyć, że granice tego obszaru krytycznego (-, ki> będą takie same bez względu na to, która z prostych hipotez hi wystąpi w weryfikowanej parze. Inaczej mówiąc granica obszaru krytycznego (-, ki> nie zależą od konkretnej wartości średniej mi pod warunkiem, że jest to liczba mniejsza od m0. We wszystkich przypadkach obszar krytyczny będzie lewostronnym obszarem krytycznym gwarantującym warunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju równe *. W przypadku weryfikacji każdej z prostych hipotez hi składających się na naszą złożoną hipotezę h1 ten sam dla każdego i lewostronny obszar krytyczny K = (-, ki> jest optymalnym obszarem krytycznym minimalizującym prawdopodobieństwo popełnienia błędu II-go rodzaju przy ustalonym maksymalnym prawdopodobieństwie popełnienia błędu I-go rodzaju równym *. Będziemy się lewostronnym obszarem krytycznym K posługiwać przy weryfikacji prostej hipotezy zerowej h0 przeciwko hipotezie konkurencyjnej h1 będącej alternatywą prostych hipotez hi. Jeżeli hipoteza zerowa głosi, że średnia w zbiorowości jest równa m0 a hipoteza konkurencyjna głosi, że średnia ta jest od m0 mniejsza i maksymalne prawdopodobieństwo popełnienia błędu I-go rodzaju jest równe *, to optymalnym obszarem krytycznym jest lewostronny obszar krytyczny K, który wyznaczamy, w sposób następujący: K = {-, k> k: P ( X k | h0) = * Ponieważ wariancja zmiennej X w zbiorowości jest znana i liczebność próby jest dostatecznie duża, granicę k obszaru krytycznego K wyznaczamy w znany sposób, korzystając z centralnego twierdzenia granicznego. Sytuacja druga jest symetryczną względem pierwszwj. Zapiszemy treść hipotez i końcowy wniosek: h0: E(X) = m0 h1: E(X) > m0 Jeżeli hipoteza zerowa głosi, że średnia w zbiorowości jest równa m0 a hipoteza komkurencyjna głosi, że średnia ta jest od m0 większa i maksymalne prawdopodobieństwo popełnienia błędu I-go rodzaju jest równe *, to optymalnym obszarem krytycznym jest prawostronny obszar krytyczny K, który wyznaczamy w sposób następujący: K = {k, ) k: P ( X > k | h0) = * Obszar krytyczny K optymalny dla weryfikacji prostej hipotezy h0 przeciwko złożonej hipotezie h1 omawianego typu (wedle której E(X) jest mniejsze od m0 lub wedle której E(X) jest większe od m0) jest optymalnym obszarem krytycznym do weryfikacji tej hipotezy h0 przeciwko każdej hipotezie konkurencyjnej hi wchodzącej w skład złożonej hipotezy h1. Mówiąc inaczej, obszar krytyczny optymalny w stosunku do hipotezy złożonej jest optymalnym w stosunku do każdej hipotezy prostej wchodzącej w skład tej hipotezy złożonej. Z każdą z tych hipotez prostych związany jest bowiem ten sam obszar krytyczny, który jest jednocześnie obszarem 113 krytycznym optymalnym dla hipotezy złożonej będącej alternatywą tych hipotez prostych. Tak jest dla dwu pierwszych sytuacji. Sytuacja trzecia różni się od poprzednich. Hipoteza zerowa, tak jak poprzednio głosi, że średnia w zbiorowości jest rowna m0. Hipoteza konkurencyjna natomiast głosi, że średnia w zbiorowości nie jest równa m0 (jest od m0 mniejsza lub wieksza): h0: E(X) = m0 h1: E(X) m0 W tej sytuacji, tak jak i poprzednio, nie jest możliwym wyznaczenie prawdopodobieństwa popełnienia błędu II-go rodzaju dla każdej z nietrywialnych funkcji decyzyjnych. Bez znajomości rozkładu średniej z próby przy założeniu prawdziwości hipotezy konkurencyjnej można tylko powiedzieć, że prawdopodobieństwa popełnienia błędu II-go rodzaju jest równe 1, gdy obszar krytyczny jest równy całemu zbiorowi liczb rzeczywistych i zawsze odrzucamy h0 utrzymując h1. Prawdopodobieństwo to jest natomiast równe 0, gdy obszar krytyczny jest pusty. Wtedy zawsze utrzymujemy h0 i odrzucamy h1. Są to jednak reguły postępowania, które nie biorą pod uwgę wyniku doświadczenia. Poprzednie dwa problemy weryfikacji mimo to rozwiązaliśmy dzięki temu, że obszar krytyczny, który był optymalny przy weryfikacji h0 przeciwko jednej z prostych hipotez wchodzących w skład h1 był także optymalnym przy weryfikacji h0 przeciwko każdej innej prostej wchodzacej w skład h1 i dlatego uznaliśmy ten obszar krytyczny za optymalny przy weryfikacji h0 przeciwko złożonej hipotezie h1 będącej alternatywą owych hipotez prostych. Tym razem tak nie jest. Lewostronny obszar krytyczny (-, k>, k: P( X k|h0)=* jest optymalny przy weryfikacji h1, wedle której średnia E(X) jest mniejsza od m0. Ten obszar krytyczny nie jest jednak optymalnym przy weryfikacji h0 przeciwko prostej hipotezie konkurencyjnej, wedle której średnia E(X) jest większa od m0. Hipotezy proste obu tych typów wchodzą w skład złożonej hipotezy konkurencyjnej h1, wedle której średnia E(X) nie jest równa m0. Zatem musimy dokonać jakiejś rozszerzającej interpretacji zasady wyboru optymalnej funkcji decyzyjnej. Zauważmy, że każdy obszar krytyczny (czyli każdą funkcję decyzyjną) można charakteryzować przez podanie dwu wielkości. Pierwszą z nich jest dobrze nam znane prawdopodobieństwo popełnienia błędu I-go rodzaju. Drugą wyznaczamy w sposób następujący. Możemy zbadać, jakie byłoby warunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju przy stosowaniu danego obszaru krytycznego do weryfikacji h0 przeciwko każdej prostej hipotezie wchodzącej w skład złożonej hipotezy konkurencyjnej h1. Następnie możemy wskazać maksymalną wartość tego prawdopodobieństwa. Oznaczmy ją m. Optymalnym obszarem krytycznym do weryfikacji hipotezy h0 przeciwko hipotezie h1 jest obszar krytyczny spełniający dwa warunki. Pierwszy jest znanym warunkiem nałożonym na prawdopodobieństwo warunkowe popełnienia błędu I-go rodzaju, by nie było ono wyższe od przyjętej wartości *. Warunek drugi jest uogólnieniem warunku domagającvego się minimalizacji warunkowego prawdopodobieństwa popełnienia błędu II-go rodzaju - optymalny obszar krytyczny to taki, który spełniając warunek pierwszy ( <* ) minimalizuje maksymalne prawdopodobieństwo popełnienia błędu II-go rodzaju m. W przypadku, gdy hipoteza konkurencyjna jest hipotezą prostą m wyznaczone dla jakiegoś obszaru krytycznego K służącego do weryfikacji h0 przeciwko h1 jest równe obliczanemu przez nas wcześniej prawdopodobieństwu popełnienia błędu II-go rodzaju , gdyż w skład prostej hipotezy h1 wchodzi jedna tylko hipoteza prosta i jest maksymalną wartością w jednoelementowym zbiorze zawierającym tylko . Zatem rozszerzona wersja reguły optymalnej funkcji decyzyjnej w przypadku weryfikacji dwu prostych hipotez prowadzi do wybrania tej 114 samej optymalnej funkcji decyzyjnej, którą byśmy wybrali korzystając z reguły wyboru w jej wersji podstawowej. Jezeli hipoteza konkurencyjna h1 jest hipotezą złożoną o postaci znanej nam z dwu pierwszych sytuacji, to można pokazać, że: - w pierwszej sytuacji, gdy h1 głosi, że E(X)<m0, minimalną wartością m równą 1-* charakteryzuje się lewostronny obszar krytyczny i dla każdego innego obszaru krytycznego spośród spełniających warunek nałożony na prawdopodobieństwo m będzie większe, - w drugiej sytuacji, gdy h1 głosi, że E(X)>m0, minimalną wartością m charakteryzuje się prawostronny obszar krytyczny. Nie będziemy tego badać i przejdziemy od razu do analizy sytuacji trzeciej, gdzie hipoteza konkurencyjna jest złożona i głosi, że E(X) m0. Lewostronny obszar krytyczny (-, k>, k: P( X k | h0) = * spełnia warunek pierwszy ( < *), charakteryzuje się jednak wysokim m praktycznie równym 1. Dokładniej mówiąc: posługując się lewostronnym obszarem do weryfikacji hipotezy h0 przeciwko różnym hipotezom hi (wchodzącym w skład hipotezy h1) głoszącym, że średnia E(X) jest coraz większa znajdujemy, że warunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju rośnie do 1. h0: E(X) hi: E(X) = m0 = mi > m0 lim P( X > k | hi) = 1 mi Fakt ten dobrze ilustruje następny rysunek przedstwiający lewostronny obszar krytyczny K, funkcję gęstości rozkładu zmiennej X - "średnia z próby" przy założeniu, że prawdziwą jest hipoteza zerowa i funkcję gęstości zmiennej X przy założeniu, że średnia w zbiorowości X jest równa pewnej liczbie m1 większej od m0. Łatwo zauważyć, że zwiększając wielkość mi zwiększamy prawdopodobieństwo popełnienia błędu II-go rodzaju, którego wielkość nie może jednak przekroczyć liczby 1. Także prawostronny obszar krytyczny <k, ), k: P( X >k|h0)=* spełnia warunek nałożony na prawdopodobieństwo popełnienia błędu I-go rodzaju ( * ). Posługując się tym obszarem krytycznym kolejno do weryfikacji hipotezy h0 przeciwko prostym hipotezom hi wchodzącym w skład hipotezy h1 i głoszącym, że średnia E(X) ma coraz mniejsze wartości znajdujemy, że warunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju rosną do 1. Dla prawostronnego obszaru krytycznego m też jest równe 1. 115 h0: E(X) = m0 hi: E(X) = mi < m0 lim P( X < k | hi) = 1 mi- Fakt ten ilustruje następny rysunek, którego sens jest podobny do poprzedniego. Hipoteza h1 zawiera w sobie wszystkie hipotezy proste o postaci E(X)=r, gdzie r jest dowolną liczbą rzeczywistą z wyjątkiem liczbny m0. Prawdopodobieństwo m charakteryzujące dany obszar krytyczny K jest polem nad dopełnieniem tego obszaru pod taką funkcją gęstości f( X |hi), dla której pole to jest największe. Każdej liczbie rzeczywistej z wyjątkiem m0 przyporządkowana jest hipoteza hi, wedle której E(X) jest równe tej liczbie. Chcąc zminimalizować prawdopodobieństwo m należy zatem skonstruować taki obszar krytyczny, którego dopełnienie będzie najkrótsze. To, gdzie się ono znajduje na osi liczbowej, nie ma znaczenia dla realizacji tego celu. Optymalny obszar krytyczny musi spełniać warunek nałożony na prawdopodobieństwo popełnienia błędu I-go rodzaju. Dopełnienie obszaru krytycznego będzie najkrótsze, pod warunkiem spełnienia tego warunku, gdy rozciągać się będzie między dwoma punktami symetrycznymi względem m0: (m0-c, m0+c>. Rozważaliśmy analogiczny problem przy okazji estymacji przedziałowej. Obszar krytyczny składał się będzie wówczas z dwu półprostych K = (-, m0-c> ( m0+c, ). Optymalnym obszarem krytycznym K przy weryfikacji hipotezy zerowej, wedle której średnia zmiennej X w zbiorowości jest równa m0, przeciwko hipotezie konkurencyjnej, wedle której tak nie jest, jest dwuczęściowy obszar krytyczny symetryczny względem m0: h0: E(X) = m0 h1: E(X) m0 K = (-, m0-c> ( m0+c, ) c: P( X K | h0) = * 116 Maksymalne prawdopodobieństwo popełnienia błędu II-go rodzaju m przy weryfikacji takich hipotez h0, h1 przy użyciu dwustronnego obszaru krytycznego K jest równe 1-. Jeżeli spełnione są warunki umożliwiające zastosowanie centralnego twierdzenia granicznego, a przyjęliśmy takie założenie, to granice obszaru krytycznego k1=m0-c, k2=m0+c wyznaczamy w sposób następujący: c: P ( X m0-c X > m0+c | h0) = * c: P (m0-c X m0+c | h0) c: m0-c-m0 P ( D(X) n X -m0 D(X) n = 1-* m0+c-m0 | h0) = 1-* D(X) n zatem c ( ) = 1 - */2 D(X) n i zgodnie z definicją : () = 1-/2 c = D(X) n stąd D(X) c = * n co pozwala zapisać granice obszaru krytycznego K K = (-, D(X) m0 - * n > ( D(X) m0 + * , ) n W ostatnich wierszach zastąpiliśmy * przez , gdyż w rozważanym przypadku obie te wielkości są w sposób konieczny równe. P ( X K | h0) = = * Weźmy podstawowe dane z poprzedniego przykładu i wyznaczmy granice optymalnego obszaru krytycznego dla weryfikacji dwu następujących hipotez: 117 h0: E(X) = m0 = 15000 h1: E(X) m1 * = 0.05; Ponieważ jąco: c = n = 400; D(X) = 2000 = 1.96, granice obszaru krytycznego wyznaczymy następu- 2000 1.96 = 196 400 k1 = 15000 - 196 = 14804 k2 = 15000 + 196 = 15196 K = (-, 14804> (15196, ) Przyjęcie takiego obszaru krytycznego równoważne jest z przyjęciem następującej funkcji decyzyjnej: jeżeli średnia z próby X przyjmie wartość mniejszą lub równą 14 804 albo jeżeli przyjmie wartość większą od 15 196, wówczas hipotezę zerową, wedle której średnia w zbiorowości jest równa 15 000 odrzucimy, w przeciwnym przypadku, gdy średnia z próby przyjmie wartość z przedziału od 14 804 do 15 196, hipotezę zerową utrzymamy. Natępny rysunek ilustruje rezultat przeprowadzonych obliczeń i przedstawia obszar krytyczny K wraz z warunkową funkcją gęstości zmiennej X - "średnia z próby" przy założeniu, że prawdziwa jest hipoteza zerowa. Podsumujmy, dwustronny (czasem mówimy obustronny) obszar krytyczny wyznaczony w przedstawiony sposób ma następujące właściwości: Warunkowe prawdopodobieństwo popełniania błędu I-go rodzaju przy posługiwaniu się tym obszarem krytycznym jest równe *, czyli jeszcze akceptowalnemu poziomowi tego prawdopodobieństwa. Spośród wszystkich obszarów krytycznych spełniających warunek poprzedni jest to obszar najdłuższy (dokładniej, jest to obszar o najkrótszym dopełnieniu). Obszar ten jest obszarem symetrycznym względem m0 - średniej w zbiorowości wedle hipotezy zerowej. 118 Maksymalna wartość warunkowego prawdopodobieństwa popełnienia błędu II-go rodzaju m przy użyciu tego obszaru krytycznego do weryfikacji hipotezy h0 przeciwko jakiejkolwiek prostej hipotezie będącej składnikiem hipotezy konkurencyjnej h1 jest równa 1-. To maksymalne warunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju m nie zależy od innych parametrów sytuacji poza *. Nie jest zatem dobrą charakterystyką ryzyka popełnienia błędu II-go rodzaju. Jeżeli hipoteza konkurencyjna jest hipotezą złożoną i nie możemy funkcji decyzyjnej charakteryzować przez podanie warunkowego prawdopodobieństwa popełnienia błędu II-go rodzaju, ryzyko popełnienia takiego błędu przedstawimy za pomocą funkcji mocy charakteryzującej stosowaną regułę wnioskowania. Zwykle mówimy o funkcji mocy, że jest to funkcja mody testu, rozumiejąc przez test całość postępowania weryfikacyjnego. Funkcja mocy testu przyporządkowuje każdej prostej hipotezie wchodzącej w skład złożonej hipotezy konkurencyjnej warunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju przy weryfikacji tej hipotezy prostej przy użyciu obszaru krytycznego optymalnego dla weryfikacji złożonej hipotezy h1. Wróćmy do naszego przykładu. Dane są dwie hipotezy: h0: E(X) = m0 = 15000 h1: E(X) m1 wyznaczyliśmy optymalny przy * obszar krytyczny K: K = (-, 14804> + (15196, ) Funkcja mocy test przyporządkowuje każdej hipotezie prostej wchodzącej w skład złożonej hipotezy konkurencyjnej h1, a więc każdej liczbie rzeczywistej r różnej od m0 prawdopodobieństwo tego, że średnia z próby X przyjmie wartość nienależącą do K pod warunkiem, że średnia w zbiorowości jest równa r. Jest to warunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju przy założeniu, że prawdziwa jest hipoteza wedle której średnia w zbiorowości jest równa r. Oznaczmy to prawdopodobieństwo r. r = rm0 P( X K | E(X)=r) W omawianym przykładzie wyznaczenie wartości funkcji mody test dla dowolnego rm0 nie przedstawia żadnej trudności. Dalej przedstawimy wykres tej funkcji. Funkcja ta nie jest określona w punkcie 15000, gdyż jest to punkt równy m0, a hipoteza, wedle której średnia w zbiorowości jest równa m0 jest hipotezą zerową i nie wchodzi w skład hipotezy komkurencyjnej h1. Uważa się za korzystne, gdy warunkowe prawdopodobieństwa popełniania błędów nie są wysokie. Konsekwentnie, z dwu różnych sposobów weryfikacji tych samych hipotez charakteryzujących się tymi samymi warunkowymi prawdopodobieństwami popełnienia błędu I-go rodzaju za lepszy uznalibyśmy sposób, dla którego funkcja mocy test nigdy nie przyjmuje wartości wyższych a niekiedy przyjmuje wartości niższe od tych, które przyjmuje funkcja mocy test dla tego gorszego sposobu. Zapiszemy to utożsamiając pierwszy sposób weryfikowania hipotez z obszarem krytycznym K1, a drugi z obszarem krytycznym K2, średnią z próby dla pierwszego sposobu oznaczonym X 1, a dla drugiego X 2. 119 Pierwszy sposób jest lepszy od drugiego wtedy i tylko wtedy, gdy P( X 1 K1 | E(X)=r) P( X 2 K2 | E(X)=r) & rm0 & P( X 1 K1 | E(X)=r) < P( X 2 K2 | E(X) = r) rm0 Oczywiście oba sposoby weryfikacji są optymalne i ich obszary krytyczne wyznaczone są przedstawionym wcześniej sposobem. Pokażmy teraz, że lepszym od przedstawionego sposobem weryfikacji hipotez z naszego przykładu jest posłużenie się próbą 900 elementową. Przedstawimy funkcje mocy test dla obu sposobów weryfikacji. W obu przypadkach przyjmujemy oczywiście ten sam maksymalny poziom ryzyka popełnienia błędu I-go rodzaju *. Gdy weryfikację prowadzimy przy użyciu próby 900 elementowej otrzymujemy inny, rozleglejszy obszar krytyczny: c = * D(X) = 1.96 * n 2000 = 130.67 900 k1 = 15000 - 130.67 = 14869.33 k2 = 15000 + 130.67 = 15130.67 K = (-, 14869.33> (15130.67, ) Obie funkcje mocy wyznaczamy obliczając prawdopodobieństwa warunkowe (1) dla funkcji mocy charakteryzującej weryfikację przy użyciu próby 400 elementowej r15000 P(14804 < X 15196 | E(X) = r) (2) dla funkcji mocy charakteryzującej weryfikację przy użyciu próby 900 elementowej r15000 P(14869.33 < X 15130.67 | E(X) = r) Pomijając obliczenia poprzestaniemy na przedstawieniu wykresów obu funkcji mocy testu na jednym rysunku. 120 Maksymalna wartość warunkowego prawdopodobieństwa popełnienia błędu II-go rodzaju dla obu sposobów weryfikacji jest równa 0.95. Dokładniej, jest dowolnie bliska 0.95. Tak duże ryzyko popełnienia błędu II-go rodzaju wiąże się z hipotezami prostymi wchodzącymi w skład hipotezy konkurencyjnej, które głoszą, że średnia w zbiorowości jest liczbą bliską 15000 = m0. Przy weryfikacji hipotezy, wedle której tak nie jest, posługiwanie sie próbą liczącą 900 elementów jest sposobem lepszym niż posługiwanie się próbą liczącą 400 elementow. Przekonują nas o tym wykresy funkcji mocy charakteryzujących oba sposoby. Dla każdej pary hipotez, z których pierwszą jest hipoteza h0 a drugą hipoteza hr, wedle której średnia w zbiorowości E(X) jest równa r m0, warunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju przy posługiwaniu się próbą 900 elementową jest niższe niż przy posługiwaniu się próbą 400 elementową; rzecz jasna pod warunkiem, że w obu przypadkach używamy odpowiedniego optymalnego obszaru krytycznego. Rozważyliśmy pięć przykładów weryfikacji hipotez dotyczących średniej zmiennej X w zbiorowości. Wypiszemy kolejno pary weryfikowanych hipotez w postaci ogólnej: 1. h0: E(X) = m0 h1: E(X) = m1, m1 < m0 2. h0: E(X) = m0 h1: E(X) < m0 3. h0: E(X) = m0 h1: E(X) m0 4. h0: E(X) = m0 h1: E(X) > m0 5. h0: E(X) = m0 h1: E(X) = m1, m1 > m0 Jeżeli liczebność próby n jest dostatecznie duża dla zastosowania centralnego twierdzenia granicznego zmienna X "średnia z próby" ma rozkład praktycznie ciągły i zbliżony do normalnego. Obszary krytyczne wyznaczamy wówczas w sposób następujący: W dwu pierwszych sytuacjach optymalnym jest lewostronny obszar krytyczny: K = (-, k: P ( X k = m0 - k> k | h0) = * = u * D(X)/n W dwu ostatnich sytuacja optymalnym jest lewostronny obszar krytyczny K = (k, ) k: P ( X > k | h0) = * = k = m0 + u * D(X)/n W trzeciej sytuacji optymalnym jest obustronny obszar krytyczny: K = (-, k1> + ( k2, ) k1= m0-c k2= m0+c c: P (m0 - c < X m0 + c | h0) = 1-* = 1- c = * D(X)/n 121 Zakładaliśmy dotąd, że wariancja zmiennej X w zbiorowości jest znana. Założenie to jest założeniem nierealistycznym. Posługując się dużą próbą, a tylko o takich była tutaj mowa, możemy, ryzykując popełnienie raczej niewielkiego błędu, utożsamiać wariancję zmiennej X w wylosowanej próbie z wariancją zmiennej X w zbiorowości, z której ta próba pochodzi. W praktyce zawsze tak postępujemy. Trzeba jednak pamiętać, że zastępowanie nieznanego odchylenia D(X) - odchyleniem standardowym w wylosowanej próbie s(X) jest źródłem, zwykle niewielkiego, błędu w określeniu granic obszaru krytycznego. Z podobnym problemem zetknęliśmy się przy estymacji przedziałowej średniej w zbiorowości. Kilka uwag na temat formułowania wniosku Rezultatem postępowania weryfikacyjnego jest wybranie jednego z dwu działań a0 - postępowanie tak, jak gdyby prawdziwą była hipoteza zerowa lub a1 - postępowanie tak, jak gdyby prawdziwą była hipoteza konkurencyjna. Poza ściśle praktycznymi zastosowaniami weryfikacji hipotez działania takie polegają zwykle na uznaniu jednej z hipotez za prawdziwą, przyjęciu jej lub odrzuceniu w sposób mniej lub bardziej trwały, co ma konsekwencje dla dalszego postępowanie poznawczego. Takie przyjęcie lub odrzucenie hipotezy ani nie ma charakteru decyzji ostatecznej ani niezawodnej. Kwestię ostateczności, trwałości przekonań dotyczących hipotez w nauce należy rozważyć w innym miejscu. Tutaj zajmiemy się tylko oceną ich niezawodności. Inna jest ocena niezawodności odrzucenia hipotezy zerowej i inna jej przyjęcia. Wynika to z niesymetrycznego traktowania ryzyka popełnienia błędu I-go rodzaju i II-go rodzaju. Jeżeli w wyniku doświadczenia uzyskujemy wynik należący do obszaru krytycznego, który to wynik zmusza nas do odrzucenia hipotezy zerowej, wówczas musimy się liczyć z tym, że być może popełniamy błąd I-go rodzaju. Bezwarunkowe prawdopodobieństwo popełnienia takiego błędu P(a1h0) i warunkowe prawdopodobieństwo jego popełnienia przy założeniu, że odrzucamy hipotezę zerową P(a1h0|a1) nie są nam znane. Znamy jedynie prawdopodobieństwo warunkowe popełnienia błędu przy założeniu, że prawdziwą jest hipoteza zerowa P(a1h0|h0). O wielkości tego ostatniego prawdopodobieństwa sami zdecydowaliśmy. Odrzucając hipotezę zerową jesteśmy zatem uprawnieni do przeprowadzenia tylko takiego rozumowania: a. Możliwy wynik doświadczenia należy albo do obszaru krytycznego K albo do niego nie należy. b. Jeżeli prawdziwa jest hipoteza zerowa, to prawdopodobieństwo uzyskania takiego wyniku doświadczenia, który do obszaru krytycznego K należy jest równe i jest to prawdopodobieństwo małe. c. Przeprowadziliśmy doświadczenie i uzyskaliśmy jeden z możliwych wyników należących do obszaru K. d. Uznajemy zatem założenie h0 za fałszywe i postępujemy tak, jak gdyby prawdziwą była hipoteza konkurencyjna - odrzucamy hipotezę zerową. e. Być może popełniamy błąd. Jeżeli tak, to jest to błąd I-go rodzaju. f. Jakie jest prawdopodobieństwo tego, że h0 jest prawdziwa wtedy, gdy wynik doświadczenia trafia do obszaru krytycznego, nie wiemy. g. Wiemy, jakie jest prawdopodobieństwo tego, że wynik trafi do obszaru krytycznego, gdy h0 jest prawdziwa. h. Jeżeli popełniamy błąd, to popełniamy błąd w takiej sytuacji, w której prawdopodobieństwo popełnienia błędu jest równe . Możliwe jest jednak inne zakończenie doświadczenia. Jeżeli uzyskaliśmy taki jego wynik, który nie należy do obszaru krytycznego, co skłoni nas do utrzymania hipotezy zerowej, wówczas też musimy się liczyć z tym, że być może popełniamy błąd - błąd II-go rodzaju. Nie znamy ani bezwarunkowego prawdopodobieństwa popełnienia tego błędu P (a0h1), ani warunkowego jego prawdopodobieństwa przy założeniu, że wynik doświadczenia skłania nas do utrzymania hipotezy zerowej P(a0h1|a0). Jezeli hipoteza konkurencyjna jest hipotezą prostą, wówczas znamy warunkowe prawdopodobieństwo popełnienia tego błędu przy założeniu, 122 że hipoteza konkurencyjna jest prawdziwą P(a0h1|h1). Odrzucając hipotezę konkurencyjną jesteśmy uprawnieni do przeprowadzenia takiego rozumowania: a. Jeżeli prawdziwą jest hipoteza konkurencyjna h1, to prawdopodobieństwo uzyskania wyniku doświadczenia należącego do dopełnienia obszaru krytycznego jest równe . b. Wybierając ryzyko popełnienia błędu I-go rodzaju równe , zdecydowaliśmy się jednocześnie ponosić ryzyko popełnienia błędu II-go rodzaju równe , czyli traktować to prawdopodobieństwo jako dostatecznie małe, by w sytuacji, gdy wynik doświadczenia nie należy do obszaru krytycznego raczej odrzucić hipotezę konkurencyjną, niż uznać, że jest ona prawdziwa, tylko my mieliśmy pecha. c. Być może odrzucając hipotezę h1 popełniamy błąd. Jeżeli tak, to jest to błąd II-go rodzaju. d. Jakie jest prawdopodobieństwo tego, że h1 jest prawdziwą wtedy, gdy wynik doświadczenia nie trafia do obszaru krytycznego, nie wiemy. e. Wiemy, jakie jest prawdopodobieństwo tego, że wynik doświadczenia nie trafi do obszaru krytycznego, gdy prawdziwą jest hipoteza h1. f. Jeżeli popełniamy błąd, to w takiej sytuacji, gdzie prawdopodobieństwo popełnienia błędu jest równe . Jedyna różnica między tymi dwoma możliwymi zakończeniami doświadczenia polega na tym, że o wielkości prawdopodobieństwa związanego z trafieniem wyniku do obszaru krytycznego i odrzuceniem hipotezy zerowej decyduje wnioskujący, a wielkość prwdopodobieństwa związanego z trafieniem wyniku doświadczenia poza obszar krytyczny i odrzuceniem hipotezy konkurencyjnej jest konsekwencją tamtej decyzji dotyczącej . Jest inaczej, gdy hipoteza konkurencyjna jest hipotezą złożoną. Wówczas, jeżeli jesteśmy zmuszeni przez wynik doświadczenia do utrzymania hipotezy zerowej i odrzucenia tym samym hipotezy konkurencyjnej, nie możemy z tym wiązać żadnego konkretnego prawdopodobieństwa popełnienia błędu. Utrzymując hipotezę zerową być może popełniamy błąd II-go rodzaju, nie znamy jednak żadnego prawdopodobieństwa związanego z tym błędem, ani bezwarunkowego P(a0h1), ani żadnego z warunkowych: P(a0|h1), P(h1|a0). Niemożność powiązania z wnioskiem a0 żadnego prawdopodobieństwa błędu jest słabością tego wniosku. Podkreślamy ją i zamiast mówić "uznajemy hipotezę zerową za prawdziwą" czy też "będziemy postępować tak, jak gdyby hipoteza zerowa była prawdziwą", mówimy to samo lecz innymi słowami: "nie mamy podstaw do odrzucenia hipotezy zerowej". Powinniśmy tak samo postępować wtedy, gdy ryzyko popełnienia błędu drugiego rodzaju jest nam znane, lecz wedle naszej oceny jest duże. Mając to wszystko na uwadze można sformułować taką radę praktyczną: należy starać się tak konstruować hipotezy statystyczne weryfikowane w badaniu reprezentacyjnym, by odrzucenie statystycznej hipotezy zerowej stanowiło potwierdzenie dla sprawdzanej przez nas teorii dotyczącej badanego fragmentu rzeczywistości. Wówczas z interesującym nas odrzuceniem h0 potwierdzającym naszą teorię będziemy w stanie wiązać, wprawdzie tylko warunkowe, prawdopodobieństwo popełnienia błędu i sami będziemy mogli decydować o jego wysokości. Weryfikacja hipotez nieparametrycznych Wszystkie dotąd przedstawiane hipotezy były hipotezami parametrycznymi. Drugą, zasdniczą ze względu na przedmiot, kategorię hipotez statystycznych jest kategoria hipotez nieparametrycznych. Mówiąc najprościej: Hipoteza nieparametryczna jest to taka hipoteza statystyczna, wedle której rozkład jakiejś zmiennej lub jakichś zmiennych należy do określonej w tej hipotezie klasy rozkładów. Hipoteza ta może lecz nie musi przypisywać wartości parametrowi lub parametrom tego rozkładu. 123 Dalej rozważymy trzy typy hipotez nieparametrycznych: - hipotezy o stochastycznej za- lub nie- zależności zmiennych, - hipotezy o równości lub nierowności rozkładów zmiennej w dwu lub więcej różnych zbiorowościach, - hipotezy wedle których rozkład zmiennej w zbiorowości jest lub nie jest rozkładem należącym do pewnej klasy rozkładów. Niech będą dwie zmienne losowe X i Y skokowe, X o w wartościach i Y o k wartościach. Weryfikowane hipotezy niech głoszą: jedna, że zmienne te są stochastycznie niezależne, a druga, że są one stochastycznie zależne. Ponieważ druga z tych hipotez jest hipotezą złożoną a pierwsza prostą (dwie zmienne mogą być zależne na wiele rozmaitych sposobów, a niezależne tylko w jeden sposób). Pierwszą hipotezę uznamy za hipotezę zerową, a drugą za konkurencyjną. Pamiętając definicję niezależności stochastycznej zapiszemy: h0: i j h1: i,j P (X=xi & Y=yj) = P(X=xi) * P(Y=yj) P (X=xi & Y=yj) P(X=xi) * P(Y=yj) Dla weryfikacji hipotezy o niezależności przeciwko hipotezie o zależności przeprowadzamy doświadczenie polegające na wylosowaniu ze zbiorowości będącej przedmiotem hipotez próby losowej liczacej n elementów. W próbie tej można wyodrębnić podzbiory obiektów charakteryzujących się wszystkimi w*k kombinacjami wartości obu zmiennych. Oznaczymy liczebności tych podzbiorów nij. nij = N(X=xi & Y=yj) Analogicznie oznaczymy pij odpowiednie prawdopodobieństwa występujące w treści obu hipotez: pij = P(X=xi & Y=yj) Wartości prawdopodobieństw pij nie wynikają bezpośrednio z samej treści hipotez (ani zerowej ani konkurencyjnej). Przy założeniu prawdziwości hipotezy zerowej można jednak wyznaczyć je szacując uprzednio prawdopodobieństwa P(X=xi), dla i=1,2,..,w oraz P(Y=yj), dla j=1,2,..,k. Brzegowe rozkłady prawdopodobieństw zmiennych X i Y szacujemy na podstawie danych z próby: P(X=xi) = N(X=xi) , n P(Y=yj) = N(Y=yj) , n dla i=1,2,..,w dla j=1,2,..,k Ponieważ suma prawdopodobieństw dla każdego z rozkładów brzegowych jest równa 1, wystarczy oszacować w-1 prawdopodobieństw z rozkładu zmiennej X oraz k-1 prawdopodobieństw z rozkładu zmiennej Y. Dysponując oszacowaniami rozkładów brzegowych obu zmiennych X i Y (prawdopodobieństwami P(X=xi) oraz P(Y=yj) ) możemy wyznaczyć łączny rozkład zmiennych X i Y wedle hipotezy głoszącej, że zmienne te są stochastycznie niezależne. i j P (X=xi & Y=yj) = P(X=xi) * P(Y=yj) = N(X=xi) n * N(Y=yj) n 124 W ten sposób określony rozkład łączny nazywamy rozkładem hipotetycznym. Prawdopodobieństwa, które go tworzą nazywamy prawdopodobieństwami hipotetycznymi. Natomiast iloczyny liczebności próby n i prawdopodobieństw hipotetycznych nazywamy liczebnościami hipotetycznymi i oznaczamy hij: hij = n * P(X=xi & Y=yj | h0) Liczebnością hipotetyczną podzbioru próby jest iloczyn liczebności całkowitej próby n i prawdopodobieństwa tego, że zmienna lub zmienne przyjmą wartość lub wartości pozwalające zaliczyć obiekt do tego podzbioru, gdy prawdopodobieństwa te wyznaczone są w zgodzie z treścią hipotezy zerowej. W omawianej przez nas sytuacji prawdopodobieństwa wyznaczane są w zgodzie z treścią hipotezy zerowej na podstawie także pewnych dodatkowych informacji. Zmienną będącą sumą kwadratów różnic między zaobserwowanymi liczebnościami podzbiorów próby i ich liczebnościami hipotetycznymi dzielonych przez odpowiednie liczebności nazywamy zmienną 2; 2 = gdzie (ni-hi)2 i hi ni - zaobserwowana liczebność i-tego podzbioru próby, hi - hipotetyczna liczebność i-tego podzbioru próby, a sumowanie przebiega po wszystkich podzbiorach próby wyodrębnionych ze względu na wartości jakiejś zmiennej lub zmiennych. Zmienna 2 jest zmienną losową określoną w zbiorze prób czyli statystyką z próby. Rozkład zmiennej 2 przy założeniu, że hipoteza, zgodnie z którą wyznaczono liczebności hipotetyczne, jest prawdziwa, jest zbieżny do rozkładu 2 przy liczebności próby n rosnącej nieograniczenie. Dla dużych prób przyjmuje się, że statystyka z próby, zmienna 2 ma rozkład 2 jeżeli tylko hipoteza zerowa jest prawdziwa. Stosując najostrzejsze z postulowanych przez rozmaitych autorów kryterium, można przyjąć, że jeżeli tylko żadna z liczebności hipotetycznych nie jest mniejsza od 10, to próba jest dostatecznie duża, by traktować rozkład warunkowy statystyki 2 przy założeniu, że prawdziwą jest hipoteza zerowa, jako rozkład 2. Liczbę stopni swobody tego rozkładu oznaczamy r i znajdujemy odejmując od liczby składników sumy 1 i minimalną liczbę parametrów, które trzeba było niezbędnie oszacować, by na podstawie treści hipotezy zerowej wyznaczyć przy ich pomocy prawdopodobieństwa a następnie liczebności hipotetyczne. Do weryfikacji hipotezy o niezależności dwu zmiennych przeciwko hipotezie o ich zależności posługujemy się zmienną 2, którą w tej sytuacji zapisujemy w sposób następujący: w 2 = i=1 (nij-hij)2 j=1 hij k 125 gdzie hij N(X=xi) = * n N(Y=yj) n w jest liczbą wartości zmiennej X, k jest liczbą wartości zmiennej Y, nij = N(X=xi&Y=yj) Jeżeli tylko każda z liczebności hipotetycznych hij jest co najmniej równa 10, to statystyka z próby 2 ma przy założeniu, że prawdziwą jest hipoteza zerowa, rozkład 2 o r stopniach swobody. r = w * k - 1 - (w-1) - (k-1) = (w-1) * (k-1) Wartość statystyki 2 traktujemy jako wynik doświadczenia służącego do weryfikacji hipotez. Przyjmiemy bez dodatkowych uzasadnień, że raczej duże wartości tej zmiennej świadczyć będą przeciwko hipotezie zerowej, a małe na jej rzecz. Skonstruujemy zatem prawostronny obszar krytyczny. Granicę tego obszaru krytycznego odczytamy z tablicy przedstawiającej dystrybuantę zmiennej o rozkładzie 2 i r stopniach swobody. Będzie to wielkość 2,r taka, że prawdopodobieństwo tego, iż zmienna mająca rozkład 2 o r stopniach swobody przyjmie wartość większą od niej jest równe . P (2 > 2,r) = lub P (2 2,r) = 1- Zgodnie z dość niefortunną tradycją posługujemy się tutaj symbolem 2 dla oznaczenia rozmaitych obiektów, są to: a. wcześniej zdefiniowana statystyka z próby będąca funkcją liczebności hipotetycznych hij i zaobserwowanych w próbie nij, b. jakaś zmienna mająca rozkład 2, c. teoretyczny rozkład 2. W dwu ostatnich równościach występowała zmienna mająca rozkład 2. Nasza statystyka z próby ma rozkład 2 wtedy, gdy prawdziwą jest hipoteza zerowa, gdy próby pochodzą ze zbiorowości, w której prawdziwą jest hipoteza zerowa. Zatem o statystyce 2 możemy napisać, że P (2 > 2,r | h0) = Przy weryfikacji hipotez o niezależności posługujemy się następującą funkcją decyzyjną: Jeżeli uzyskana w wylosowanej próbie wartość statystyki 2 jest większa od wartości krytycznej 2,r, wówczas odrzucamy hipotezę zerową. Jeżeli natomiast uzyskana w wylosowanej próbie wartość statystyki 2 nie jest większa od wartości krytycznej, wówczas utrzymujemy hipotezę zerową. Nie znając ryzyka popełnienia błędu II-go rodzaju (hipoteza komkurencyjna jest hipotezą złożoną) powinniśmy raczej mówić, że nie mamy podstaw do odrzucenia hipotezy zerowej. 126 Ponieważ zmienna 2 ma rozkład ciągły, warunkowe prawdopodobieństwo popełnienia błędu I-tego rodzaju przy posługiwaniu się obszarem krytycznym (2,r, ) optymalnym dla maksymalnego prawdopodobieństwa popełnienia tego błędu równego * jest równe temu właśnie maksymalnemu prawdopodobieństwu *. Przy weryfikacji dwu pozostałych typów par hipotez nieparametrycznych, o równości rozkładów i o rozkładzie, postępujemy w sposób analogiczny. Po sformuowaniu hipotez zerowej i konkurencyjnej, ustaleniu maksymalnego prawdopodobieństwa popełnienia błędu I-go rodzaju, który okaże się być poziomem istotności optymalnej funkcji decyzyjnej, ustalamy liczebność próby n i losujemy próbę. Następnie, jeżeli jest to konieczne, szacujemy z danych uzyskanych z wylosowanej próby wartości parametrów niezbędnych dla wyznaczenia przy użyciu hipotezy zerowej liczebności hipotetycznych. Dysponując liczebnościami hipotetycznymi i zaobserwowanymi w próbie obliczamy wartość statystyki 2 w wylosowanej próbie. Jednocześnie sprawdzamy, czy liczebności hipotetyczne są dostatecznie duże, by spełnione było twierdzenie o rozkładzie tej statystyki. Znając liczbę szacowanych parametrów i liczbę składników sumy, którą utworzyliśmy obliczając wartość statystyki, wyznaczamy liczbę stopni swobody r. Znając liczbę stopni swobody r i prawdopodobieństwo odczytujemy w tablicy dystrybuanty rozkładu 2 wartość krytyczną 2,r. Jeżeli obliczona wartość statystyki 2 jest większa od odczytanej wartości krytycznej, odrzucamy hipotezę zerową. W przeciwnym przypadku nie mamy podstaw do jej odrzucenia. Cztery przykłady liczbowe zilustrują zastosowanie tego tzw. testu 2 do weryfikacji hipotez nieparametrycznych. Weryfikacja hipotezy o niezależności. Hipoteza zerowa głosi, że dwie zmienne X i Y są w zbiorowości niezależne stochastycznie, hipoteza konkurencyjna głosi, że tak nie jest. Przyjmijmy dopuszcalną wartość warunkowego prawdopodobieństwa popełnienia błędu i-go rodzaju, która tu będzie równa poziomowi istotności * = = 0.01. Doświadczenie, które posłuży do weryfikacji hipotez niech polega na wylosowaniu ze zbiorowości próby liczącej 80 elementów. Pobrano próbę, uzyskano następujący łączny rozkład zmiennych X i Y w próbie: tablica 7 Łączny rozkład zmiennych X i Y w próbie (liczebności zaobserwowane czyli empiryczne) Y 0 1 0 25 23 1 7 25 32 48 48 32 80 Szacujemy jedno z dwu prawdopodobieństwo określających rozkład zmiennej X w zbiorowości i także jedno z dwu prawdopodobieństw określających rozkład w zbiorowości zmiennej Y. P(X = 0) = 32/80 = 0.4 P(Y = 1) = 48/80 = 0.6 Stąd, korzystając z treści hipotezy zerowej, otrzymujemy prawdopodobieństwa hipotetyczne tworzące łączny rozkład stochastycznie niezależnych zmiennych X i Y oszacowany na podstawie treści h0 z pomocą dwu wcześniej oszacowanych parametrów. 127 Łączny rozkład zmiennych X i Y wedle hipotezy zerowej (prawdopodobieństwa hipotetyczne) Y 0 1 0 0.24 0.36 0.6 1 0.16 0.24 0.4 0.4 0.6 1.0 Mnożąc prawdopodbieństwa hipotetyczne przez liczebność całej próby n = 80 trzymujemy liczebności hipotetyczne hij. tablica 9 Łączny rozkład zmiennych X i Y wedle hipotezy zerowej (liczebności hipotetyczne) Y 0 1 0 19.2 25.8 48 1 12.8 19.2 32 32 48 80 Dysponujemy teraz danymi umożliwiającymi obliczenie wartości statystyki 2 w wylosowanej próbie: 2 = = (25-19.2)2 19.2 1.752 + (23-25.8)2 25.8 + 1.168 + ( 7-12.8)2 12.8 + + 2.628 + (25-19.2)2 = 19.2 1.752 = 7.3 Suma miała 4 składniki - w próbie wyodrębniliśmy 4 podzbiory odpowiadające czterem możliwym kombinacjom wartości zmiennych X i Y. Szacowano wartości dwu parametrów. Zatem liczba stopni swobody jest równa 4-1-2 = 1. W tablicy dystrybuanty zmiennej o rozkładzie 2 i jednym stopniu swobody odczytujemy graniczną wartość prawostronnego obszaru krytycznego 2,r. Żadna z liczebności hipotetycznych nie była mniejsza od 10. Zatem przyjmujemy, że badana przez nas statystyka z próby ma przy założeniu prawdziwości hipotezy zerowej rozkład 2 o jednym stopniu swobody. Prawdopodobieństwo tego, że przy założeniu h0 przekroczy ona wartość 6.635 jest równe 0.01. Wartość statystyki w wylosowanej próbie przekroczyła tę wartość krytyczną. Zatem hipotezę odrzucamy, licząc się z warunkowym prawdopodobieństwem popełnienia błędu I-go rodzaju równym 0.01. Weryfikacja hipotezy o równości dwu rozkładów. Hipoteza zerowa głosi, że rozkład zmiennej X w jakiejś zbiorowości A jest taki sam jak rozkład zmiennej X w innej zbiorowości B. Hipoteza konkurencyjna głosi, że rozkłady te nie są identyczne. Posługując się symboliką prawdopodobieństw warunkowych zapiszemy obie hipotezy: 128 h0: i P (X=xi | A) = P (X=xi | B) h1: i P (X=xi | A) P (X=xi | B) Przyjmijmy poziom istotności = 0.01. Dla weryfikacji hipotez pobierzemy dwie próby losowe, jedną ze zbiorowości A, ta niech liczy 80 elementów, drugą liczącą 120 elementów ze zbiorowości B. Próby zostały pobrane. Rozkłady zmiennej X w obu próbach przedstawia tablica: tablica 10 Rozkłady zmiennej X w próbach losowych ze zbiorowości A i B (liczebności empiryczne) xi nAi nBi x1 15 35 x2 25 25 x3 25 35 x4 15 25 80 120 nAi nBi - liczebność w próbie ze zbiorowości A, - liczebność w próbie ze zbiorowości B. Hipoteza zerowa nie mówi, jaki jest wspólny dla obu zbiorowości A i B rozkład zmiennej X, poprzestaje na stwierdzeniu, że jest on w obu zbiorowościach taki sam. Jeżeli hipoteza zerowa jest prawdziwa, to możemy funkcję prawdopodobieństawa tego wspólnego dla obu zbiorowości rozkładu zmiennej X szacować na podstawie obu prób połączonych w jedną. tablica 11 Rozkład zmiennej X wyznaczony dla obu prób połączonych w jedną xi ni x1 50 x2 50 x3 60 x4 40 200 Chcąc na podstawie hipotezy zerowej wyznaczyć najpierw prawdopodobieństwa a później liczebności hipotetyczne, należy najpierw oszacować trzy różne prawdopodobieństwa ze wspólnego dla obu zbiorowościu rozkładu zmiennej X. Szacujemy je bez trudu z rozkładu liczebności w połączonych próbach. 129 P (X=x1) P (X=x2) P (X=x3) = .25 = .25 = .30 Wedle hipotezy zerowej rozkłady zmiennej X w obu zbiorowościach są takie same. Przedstawia je następna tablica. tablica 12 Rozkłady zmiennej X w obu zbiorowościach oszacowane z uwzględnieniem treści hipotezy zerowej (prawdopodobieństwa hipotetyczne) xi pAi pBi x1 0.25 0.25 x2 0.25 0.25 x3 0.30 0.39 x4 0.20 0.20 1.00 1.00 Mając prawdopodobieństwa hipotetyczne obliczamy hipotetyczne liczebności mnożąc te prawdopodobieństwa przez liczebności odpowiednich prób. tablica 13 Rozkłady zmiennej X w próbach ze zbiorowości A i B wedle hipotezy zerowej (liczebności hipotetyczne) xi hAi hBi x1 20 30 x2 20 30 x3 24 36 x4 16 24 80 120 Następnie obliczamy wartość statystyki 2 2 = obu prób łącznie: (nij-hij)2 = i j hij (15-20)2 = 20 + (25-20)2 + 20 (25-24)2 + 24 (15-16)2 + 16 (35-30)2 + 30 130 + (25-30)2 + 30 (35-36)2 + 36 (25-24)2 = 4.34 24 Suma miała 8 składników, oszacowano wartość 3 parametrów. Liczba stopni swobody r jest zatem równa 8-1-3=4. Żadna z liczebności hipotetycznych nie była mniejsza od 10. Zatem statystyka z próby przy założeniu, że h0 jest prawdziwa, ma rozkład 2 o 4 stopniach swobody. W tablicy przedstawiającej dystrybuantę zmiennej o rozkładzie 2 i 4 stopniach swobody znajdujemy wartość 2 0.01, 4 = 13.277 wyznaczającą prawostronny obszar krytyczny. Ponieważ obliczona dla wylosowanych prób wartość statystyki 2=4.34 nie jest większa od wartości krytycznej i nie należy do obszaru krytycznego, nie mamy podstaw do odrzucenia hipotezy zerowej, wedle której rozkład zmiennej X w obu zbiorowościach A i B jest taki sam. Warunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju, który być może popełniamy, nie jest znane, gdyż hipoteza konkurencyjna nie jest hipotezą prostą. Weryfikacja hipotezy o rozkładzie. Skonstruowano mechanizm do rzucania monetami. Rzuca on trzema monetami jednocześnie. Wedle hipotezy zerowej mechanizm działa zgodnie ze schematem Bernoulliego i moneta jest monetą rzetelną. Hipoteza konkurencyjna głosi, że tak nie jest. Przyjmijmy, że przedmiotem hipotezy jest zbiorowość złożona z wszystkich możliwych do wykonania przy użyciu tego mechanizmu potrójnych rzutów monetami. Hipotezy możemy zapisać stosując standardową symbolikę: h0: p=0.5 & P (K=k | n=3, p) = n * pk * (1-p)(n-k) k h1: nie jest prawdą, że h0 Niech poziom istotności = 0.01. Dokonano 120 potrójnych rzutów monetami za pomocą testowanego mechanizmu. Rzuty te będziemy traktować jako próbę losową ze zbioru wszystkich możliwych do wykonania z pomocą tej maszyny rzutów. Uzyskano następujące wyniki: tablica 14 Rozkład zmiennej K "liczba reszek w rzucie trzema monetami" w próbie złożonej ze 120 takich rzutów (liczebności empiryczne) ki ni 0 16 1 36 2 40 3 28 120 Prawdopodobieństwo uzyskania za pomocą mechanizmu serii zawierających dokładnie k reszek można obliczyć na podstawie samej treści hipotezy zerowej bez szacowania jakichkolwiek parametrów. 131 tablica 15 Rozkład zmiennej K wedle hipotezy zerowej (prawdopodobieństwa hipotetyczne) ki pi 0 0.125 1 0.375 2 0.375 3 0.125 1.000 Z prawdopodobieństw hipotetycznych obliczymy liczebności hipotetyczne mnożąc te prawdopodobieństwa przez liczebność próby n=120. tablica 16 Rozkład zmiennej K w próbie wedle hipotezy zerowej (liczebności hipotetyczne) ki hi 0 15 1 45 2 45 3 15 120 Wartość statystyki 2 obliczamy jako sumę czterech składników: 2 = = ni-hi)2 = i=1 hi 16-15)2 15 + (36-45)2 + 45 (40-45)2 + 45 (28-15)2 = 15 13.69 Ponieważ nie szacowaliśmy żadnego parametru, liczba stopni swobody r=4-1-0=3. Żadna z liczebności hipotetycznych nie była mniejsza od 10. Zatem przyjmujemy, że statystyka z próby ma przy załóżeniu prawdziwości hipotezy zerowej rozkład 2 o 3 stopniach swobody. Graniczna wartość prawostronnego obszaru krytycznego 2 0.01, 3 = 11.345. Ponieważ uzyskana wartość statystyki 2 = 13.69 jest większa od wartości krytycznej i trafia do obszaru krytycznego, hipotezę zerową należy odrzucić: albo mechanizm nie działa zgodnie ze schematem Bernoulliego, albo monety nie są rzetelne. Warunkowe prawdopodobieństwo niesłusznego odrzucenia hipotezy zerowej przy stosowaniu przyjętej funkcji decyzyjnej wynosi 0.01. Weryfikacja hipotez o rozkładzie z szacowaniem parametrów tego rozkładu. Przykład ten będzie modyfikacją poprzedniego. Załóżmy, że nie wiemy, czy krążki, którymi rzuca nasz mechanizm są rzetelnymi monetami. Są natomiast identyczne. Interesuje nas, czy mechanizm działa zgodnie ze schematem Bernoulliego. Hipoteza zerowa nie będzie zatem specyfikowała wartości parametru p - prawdopodobieństwa uzyskania "reszki" za pomocą rzucanej "monety". Treść obu hipotez zapiszemy w sposób następujący. 132 h0: P (K=k | n=3, p) = n * pk * (1-p)(n-k) k h1: nie jest prawdą, że h0 Jak we wszystkich poprzednich przykładach zastosowania testu 2 przyjmiemy poziom istotności = 0.01. Dla weryfikacji hipotez posłużymy się wynikami doświadczenia przedstwionymi w poprzednim przykładzie (tablica 14). Chcąc obliczyć prawdopodobieństwa a następnie liczebności hipotetyczne, należy najpierw oszacować prawdopodobieństwo p uzyskania reszki za pomocą "monet", którymi rzuca testowany mechanizm. W 120 rzutach trzema monetami uzyskano 200 razy reszkę. Pozwala to oszacować p na podstawie wyników 360 pojedyńczych rzutów. p = 16*0 + 36*1 + 40*2 + 28*3 = 120 * 3 200 360 = 5 = 0.555... 9 Prawdopodobieństwo uzyskania za pomocą mechanizmu serii zawierającej dokładnie k reszek można obliczyć na podstawie treści hipotezy zerowej podstawiając w miejsce nieznanej wartości parametru p jego wartość (5/9) oszacowaną przy pomocy wykonanego doświadczenia. tablica 17 Rozkład zmiennej K wedle hipotezy zerowej (prawdopodobieństwa hipotetyczne) ki pi 0 0.0878 1 0.3292 2 0.4115 3 0.1715 1.0000 Dysponując tymi prawdopodobieństwami obliczamy liczebności hipotetyczne mnożąc prawdopodobieństwa hipotetyczne przez liczebność próby n=120. tablica 18 Rozkład zmiennej K w próbie na podstawie hipotezy zerowej (liczebności hipotetyczne) ki hi 0 10.535 1 39.506 2 49.383 3 20.576 120 Następnie obliczamy wartość statystyki 2 dla przeprowadzonej serii doświadczeń: 133 2 = 2 4 (ni-hi) = i=1 hi = (16-10.535)2 + 10.535 = 7.61 (36-39.506)2 + 39.506 (40-49.383)2 + 49.383 (28-20.576)2 = 20.576 Suma ma 4 składniki. Szacowaliśmy wartość jednego parametru. Liczba stopni swobody jest zatem równa r = 4-1-1 = 2. Żadna z liczebności hipotetycznych nie była mniejsza od 10. Zatem możemy przyjąć, że statystyka z próby ma przy założeniu prawdziwości hipotezy zerowej rozkład 2 o 2 stopniach swobody. Wartość graniczna prawostronnego obszaru krytycznego 2 0.01, 2 = 9.210. Ponieważ uzyskana wartość statystyki 7.61 nie jest większa od wartości krytycznej 9.21, nie mamy podstaw do odrzucenia hipotezy zerowej, wedle której mechanizm działa zgodnie ze schematem Bernoulliego, jeżeli dopuszczamy nierzetelność monet, którymi się posługujemy. Ryzyko błędu II-go rodzaju polegającego właśnie na niesłusznym utrzymaniu hipotezy zerowej nie jest jednak znane, gdyż hipoteza konkurencyjna jest hipotezą złożoną. Omawiając weryfikację hipotez nieparametrycznych przy użyciu statystyki z próby mającej rozkład 2 skoncentrowaliśmy się na próbach technicznych pomijając kwestie teoretyczne, dotyczące wyboru optymalnej funkcji decyzyjnej i warunkowych rozkładów statystyki z próby. Tak jednak, choć zwykle bardziej skrótowa, przedstawia się w literaturze metody weryfikacji rozmaitych hipotez statystycznych. Opis metody weryfikacji zawiera zawsze: - charakterystykę obu weryfikowanych hipotez, - definicję statystyki z próby czyli doświadczenia służącego do weryfikacji hipotez, - twierdzenie o rozkładzie tej statystyki przy założeniu, że prawdziwą jest hipoteza zerowa, - regułę pozwalającą na ustalenie granic obszaru krytycznego dla tej statystyki przy założonym ryzyku popełnienia błędu I-go rodzaju. Takie techniczne opisy weryfikacji hipotez pomijają kwestię interpretacji jej rezultatów i nie zawierają uzasadnienia dla optymalności funkcji decyzyjnej. Nie przypomina się też tego, na czym ta optymalność polega. Jest tak dlatego, że interpretacje te i uzasadnienia są zasadniczo identyczne dla wszystkich weryfikacji hipotez prowadzonych metodą Neymana-Pearsona.