Marek Styczeń WNIOSKOWANIE STATYSTYCZNE Rozdział 1

Transkrypt

Marek Styczeń WNIOSKOWANIE STATYSTYCZNE Rozdział 1
Marek Styczeń
WNIOSKOWANIE STATYSTYCZNE
Rozdział 1
RACHUNEK PRAWDOPODOBIEŃSTWA
terminy i postulaty
podstawowe twierdzenia
prawdopodobieństwo warunkowe
niezależność stochastyczna
interpretacja funkcji prawdopodobieństwa
Uwaga: Rozdział ten w istotny sposób różni się od pozostałych tym,
że jego przedmiot jest znany czytelnikowi ze szkolnego kursu matematyki
i jako taki nie należy do kursu statystyki. Stąd brak w nim dowodów
i przykładów poza nielicznymi. Przypomnienie niezbędnych wiadomości w tym
właśnie miejscu wydało się autorowi jednak koniecznym. Osoby, które
wcześniej z rachunkiem prawdopodobieństwa się nie zetknęły, powinny
opanować ten dział matematyki w zakresie objętym przez ten rozdział
korzystając z odpowiedniego podręcznika. Pozostałyn posłuży do przypomnienia sobie wcześniej zdobytej wiedzy.
Są trzy terminy dla rachunku prawdopodobieństwa podstawowe: "przestrzeń
", "zbiór S" i "funkcja P". Mając na uwadze podstawowe zastosowanie rachunku prawdopodobieństwa, o przestrzeni  mówimy zwykle, że jest to
przestrzeń wyników doświadczenia losowego, o zbiorze S, że jest to zbiór
zdarzeń, a o funkcji P, że jest to funkcja prawdopodobieństwa. Znaczenie
tych terminów w teorii jest określane przez postulaty. W postulatach
będziemy się posługiwali tymi bardziej ascetycznymi formami terminów.
Przyjmijmy pierwszy postulat wprowadzający termin "przestrzeń ":
Przestrzeń  jest zbiorem niepustym.
Trzy następne postulaty wprowadzają termin "zbiór S".
Postulat niepustości: Zbiór S jest niepustym zbiorem podzbiorów
przestrzeni .
( AS ) & ( AS  A )
A
A
Postulat komplementarności: Jeżeli jakiś podzbiór przestrzeni 
oznaczony A należy do zbioru S, to również jego dopełnienie w przestrzeni
 oznaczone A należy do zbioru S.

AS  A'S
A
Postulat addytywności: Jeżeli każdy z dwu zbiorów A i B będących
podzbiorami przestrzeni  należy do zbioru S,to również zbiór AB będący
ich sumą należy do zbioru S.
AS & BS

AB  S
Jest to "najłagodniejsza" wersja postulatu addytywności, który
w bardziej rozwiniętej wersji rachunku prawdopodobieństwa jest zastępowany
przez postulat przeliczanej addytywności.
2
Postulat przeliczanej addytywności: Jeżeli każdy zbiór z przeliczanego
ciągu podzbiorów przestrzeni : A1, A2, A3, ... należy do zbioru S,
to także zbiór będący sumą wszystkich zbiorów tego ciągu należy do S.
(A1S & A2S & A3S & ...)  (A1A2A3...)  S
Zbiór S jest zatem niepustą, komplementarną i addytywną (lub
przeliczalnie addytywną) klasą podzbiorów przestrzeni . Pozostałe
własności zbioru S można wyprowadzić z postulatów.
Jeżeli dwa podzbiory przestrzeni  oznaczone A i B należą do zbioru S,
to do zbioru S należą również te zbiory, które można utworzyć ze zbiorów A
i B za pomocą operacji negacji, dodawania i mnożenia zbiorów.
a.
b.
c.
d.
e.
f.
g.
h.
i.
j.
AS
AS
AS
AS
AS
AS
AS
AS
AS
AS
&
&
&
&
&
&
&
&
&
&
BS
BS
BS
BS
BS
BS
BS
BS
BS
BS
 AB
 AB'
 A'B
 A'B'
 AB
 A'B
 AB'
 A'B'
(A'B')
(A'B)










S
S
S
S
S
S
S
S
(AB)  S
(AB')  S
Podstawiając do implikacji (a) w miejsce B dopełnienie zbioru A łatwo
otrzymujemy twierdzenie następne:
Podzbiór przestrzeni  zawierający wszystkie jej elementy należy do
zbioru S.
  S
Ponieważ dopełnieniem zbioru  jest zbiór pusty, prawdziwym jest
twierdzenie:
Zbiór pusty należy do zbioru S.
  S
Funkcja P przyporządkowuje każdemu podzbiorowi przestrzeni 
należącemu do S liczbę rzeczywistą.
P: S  
Zbiorem argumentów tej funkcji jest zbiór S, a wartości należą do
zbioru liczb rzeczywistych . Własności funkcji P określają trzy postulaty.
1. Wartość funkcji P dla dowolnego podzbioru przestrzeni  należącego
do zbioru S jest nieujemna.
P(A)  0
2. Warość funkcji P przyporządkowana należącemu do S podzbiorowi
przestrzeni  złożonemu ze wszystkich jej elementów jest równa 1.
P() = 1
3
3. Jeżeli dwa podzbiory przestrzeni  oznaczone A i B są rozłączne
i każdy z nich należy do zbioru S, to wartość funkcji P przyporządkowana
zbiorowi A  B jest równa sumie wartości funkcji P przyporządkowanych
osobno A oraz B.
AS & BS & AB=  P(AB) = P(A) + P(B)
Ten ostatni postulat nazywamy postulatem addytywności funkcji P. Jeżeli
zbiór S konstruujemy korzystając z postulatu przeliczanej addytywności,
to od funkcji P domagamy się, by spełniała swój postulat addytywności
w wersji rozszerzonej.
Postulat przeliczanej addytywności funkcji P: Jeżeli każdy zbiór
z przeliczalnego ciągu parami rozłącznych zbiorów A1, A2, A3,... jest
podzbiorem przestrzeni  i należy do S, to wartość funkcji P przyporządkowana zbiorowi będącemu ich sumą, jest równa sumie wartości funkcji
P przyporządkowanych każdemu z tych zbiorów z osobna:
( (Ai S & ( AiAj =  )) 
i
j i

P(A1  A2  A3  A4 

 )
 P(A1)+P(A2)+P(A3 )+
. . . .
Jeżeli przestrzeń  składa się ze skończonej liczby elementów i zbiór
S oraz funkcję P skonstruowano posługując się postulatami zwyczajnej addytywności, to zastąpienie ich postulatami addytywności przeliczalnej
doprowadziłoby do uzyskania tej samej klasy S i tej samej funkcji P.
Dopiero, gdy przestrzeń  jest zbiorem nieprzeliczalnym zastąpienie
postolutów addytywności postulatami przeliczalnej addytywności mogłoby doprowadzić do powiększenia zbioru S i tym samym zbioru argumentów funkcji
P.
O funkcji P mówimy, że jest nieujemną, unormowaną - przyjmuje wartości
nie większe od 1, addytywną (lub przeliczalnie addytywną) miarą zbiorów
należących do klasy S.
Obiektom, o których była tu mowa, nadano nazwy związane z podstawowym
zastosowaniem rachunku prawdopodobieństwa. Element zbioru S nazywamy
zdarzeniem, a sam zbiór S zbiorem zdarzeń. Zauważamy, że nie każdy
podzbiór przestrzeni  jest zdarzeniem, a tylko taki, który jest elementem niepustej, komplementarnej i addytywnej klasy jej podzbiorów.
Podzbiór przestrzeni  jest zatem zdarzeniem ze względu na swoją przynależność do jakiejś klasy S. Mówiąc o zdarzeniu należy zawsze wiedzieć,
czy i do jakiej klasy S ono należy.
Element zbioru S będący pustym podzbiorem przestrzeni  nazywamy
zdarzeniem niemożliwym.
Element zbioru S będący podzbiorem przestrzeni  złożonym z jej
wszystkich elementów nazywamy zdarzeniem pewnym.
Wartość funkcji P przyporządkowaną podzbiorowi przestrzeni 
oznaczonemu A i należącemu do zbioru S nazywamy prawdopodobieństwem
zdarzenia A. Samą funkcję P nazywamy funkcją prawdopodobieństwa.
Teoria prawdopodobieństwa lub inaczej mówiąc rachunek prawdopodobieństwa jest teorią matematyczną. Zawiera twierdzenie, które można
wprowadzić z przyjętych postulatów. Twierdzenia te pozwalają na podstawie
prawdopodobieństw przypisanych jednym zdarzeniom określać prawdopodobieństwa innych zdarzeń. Teoria ta nie daje jednak odpowiedzi ani na pytanie, co to jest prawdopodobieństwo, ani jak je mierzyć. Podobnie, geometria nie mówi, jak mierzyć odległości, a tylko jak na podstawie jednych
(danych już) odległości wyznaczać inne.
Rachunek prawdopodobieństwa ma zastosowanie wszędzie tam, gdzie
określona jest trójka obiektów: przestrzeń , zbiór S i funkcja P
spełniających podane wyżej postulaty.
4
Przedstawimy teraz elementarne twierdzenia dotyczące funkcji P, które
można wyprowadzić prosto z postulatów. Przedstawimy po dwa sformuowania
każdego z tych twierdzeń: jedno "ascetyczne", gdzie będzie mowa o wartościach funkcji P i elementach zbioru S i drugie, gdzie będzie mowa
o prawdopodobieństwach i zdarzeniach. Ze ściśle formalnego punktu widzenia
są one całkowicie równoważne. Sformułowania mniej ascetyczne, a przez to
bardziej intuicyjne, sugerują jednak jedno tylko zastosowanie rachunku
prawdopodobieństwa - dla opisu zjawisk losowych i to jest ich wadą.
Zważywszy na zalety będziemy się jednak nimi posługiwać.
Wartość funkcji P przyporządkowana należącemu do zbioru S zbiorowi A'
jest równa różnicy między liczbą 1 a wartością funkcji P przyporządkowaną
zbiorowi A. Inaczej mówiąc, prawdopodobieństwo zdarzenia A' jest równe 1
minus prawdopodobieństwo zdarzenia A.
P(A') = 1-P(A)
Funkcja P przyporządkowuje zbiorowi pustemu liczbę 0, czyli prawdopodobieństwo zdarzenia niemożliwego jest równe 0.
P() = 0
Jeżeli zbiory A oraz B należą do zbioru S i zbiór A jest podzbiorem
zbioru B, to funkcja P przyporządkowuje zbiorowi A wartość nie większą niż
zbiorowi B. Inaczej mówiąc, jeżeli zdarzenie A jest podzbiorem zdarzenia
B, to prawdopodobieństwo zdarzenia A nie jest większe od prawdopodobieństwa zdarzenia B.
A  B

P(A)  P(B)
Jeżeli zbiory A oraz B należą do zbioru S, to funkcja P rzyporządkowuje
zbiorowi A  B wartość równą sumie wartości przyporządkowanych przez
funkcję P każdemu z tych zbiorów z osobna, pomniejszoną o wartość przyporządkowaną przez nią zbiorowi AB będącemu ich iloczynem. To samo,
inaczej, można powiedzieć tak:
prawdopodobieństwo alternatywy dwu
zdarzeń A oraz B jest równe sumie ich prawdopodobieństw pomniejszonej
o prawdopodobieństwo ich iloczynu.
A  S & B  S

P(AB) = P(A) + P(B) - P(AB)
Łatwą do dowiedzenia konsekwencją tego twierdzenia jest następne
twierdzenie o prawdopodobieństwie sumy trzech zdarzeń. Zapiszemy je tylko
w postaci symbolicznej.
Twierdzenie o sumie trzech zdarzeń:
A  S & B  S & C  S 
P(ABC) = P(A) + P(B) + P(C) - P(AB) - P(AC) - P(BC) + P(ABC)
Dalsze twierdzenia i definicje będziemy formułować tylko w tym języku
bardziej intuicyjnym a mniej ascetycznym. Stosowany jednocześnie zapis
symboliczny powinien nas uchronić od nieporozumień. O wszystkich
zdarzeniach, o których będzie mowa dalej, zakładamy, że należą do tego
samego zbioru zdarzeń S. Nie będziemy tego założenia przypominać. Będziemy
pomijać kwantyfikatory i pisząc np. A, będziemy mieli na myśli każde A
należące do klasy S, chyba że wyraźnie zaznaczymy, że jest inaczej.
Prawdopodobieństwem zdarzenia A przy warunku, że zachodzi zdarzenie B
nazywamy iloraz prawdopodobieństwa iloczynu zdarzeń A i B oraz prawdopodobieństwa zdarzenia B. Prawdopodobieństwo to oznaczamy P(A|B). Nie jest ono
określone, gdy P(B) = 0.
5
P(A|B)=
P(AB)
 ,
P(B)
gdzie P(B)>0
O prawdopodobieństwie tym mówimy, że jest to "warunkowe prawdopodobieństwo A przy warunku B". Zdarzenie B nazywamy w tej sytuacji warunkiem,
a jego prawdopodobieństwo - prawdopodobieństwem warunku. Często zamiast
mówić "A przy warunku B" mówimy "A przy założeniu B", co znaczy to samo.
B nazywamy wówczas założeniem, a jego prawdopodobieństwo - prawdopodobieństwem założenia.
Prawdopodobieństwo warunkowe przy założeniu B, jeżeli tylko P(B) > 0,
jest funkcją przyporządkowującą liczby rzeczywiste wszystkim zdarzeniom
należącym do zbioru S. Badając własności tej funkcji musimy dojść do
wniosku, że spełnia ona wszystkie postulaty nałożone na funkcję P.
Prawdopodobieństwo warunkowe P(A|B), jeżeli tylko P(B) jest większe od
zera, jest prawdopodobieństwem, gdyż dla każdego A należącego do klasy S
spełnia trzy następujące postulaty:
P(A|B)
 0
P(|B)
= 1
AC =   P(AC|B) = P(A|B) + P(C|B)
Jeżeli prawdopodobieństwo warunkowe jest prawdopodobieństwem,
to wszystkie twierdzenia dotyczące prawdopodobieństwa dotyczą także prawdopodobieństw warunkowych, oczywiście prawdopodobieństw warunkowych o tym
samym warunku. Np. twierdzenie o prawdopodobieństwie sumy dwu zdarzeń A
oraz B:
P(AB) = P(A) + P(B) - P(AB)
może być stosowane także dla prawdopodobieństw warunkowych przy tym samym
warunku o niezerowym prawdopodobieństwie, np. C:
P(C)>0  P(AB|C) = P(A|C) + P(B|C) - P(AB|C)
W kilku następnych twierdzeniach występować będą prawdopodobieństwa
warunkowe. Załóżmy, że są określone, czyli że twierdzenia dotyczą takich
zdarzeń - warunków, których prawdopodobieństwa są większe od zera.
Będziemy o tym przypominać tylko w zapisie formalnym.
Prawdopodobieństwo iloczynu dwu zdarzeń A oraz B jest równe iloczynowi
prawdopodobieństwa warunkowego i prawdopodobieństwa warunku. Są możliwe
dwa takie iloczyny:
P(AB) = P(A|B) * P(B)
P(AB) = P(B|A) * P(A)
Prawdopodobieństwo zdarzenia A jest sumą dwu iloczynów prawdopodobieństw: warunkowego i warunku. Warunki z obu iloczynów są zdarzeniami
dopełniającymi się:
P(A) = P(A|B)*P(B) + P(A|B')*P(B')
Równość ta bywa nazywana "wzorem na prawdopodobieństwo całkowite"
w jego najprostszej postaci.
Najprostszą postacią tzw. twierdzenia Bayesa jest następna równość
przedstawiająca jedno prawdopodobieństwo warunkowe jako funkcję innych
prawdopodobieństw warunkowych.
Twierdzenie Bayesa w najprostszej postaci:
6
P(B|A)
P(A|B) * P(B)
= 
P(A|B) * P(B) + P(A|B') * P(B')
To samo twierdzenie Bayesa w bardziej rozwiniętej postaci przyjmuje
taką formę:
Niech {B1, B2, B3, ..., Bn} będzie skończonym zbiorem zdarzeń parami
rozłącznych:

ij
BiBj = 
i wyczerpujących przestrzeń 
B1  B2  B3  ...  Bn = 
o prawdopodobieństwach większych od zera
 P(Bi) > 0
i
Wówczas prawdopodobieństwo zdarzenia A:
n
(i)
P(A)=
 P(A|Bi) P(Bi)
i=1
Stąd warunkowe prawdopodobieństwo zdarzenia B przy warunku A, jeżeli
tylko prawdopodobieństwo A jest większe od zera, jest dane wzorem:
(ii)
P(Bj|A)
P(A|Bj) P(Bj)
= 
n
 P(A|Bi) P(Bi)
i=1
Twierdzenie to z pierwszym następnikiem (i) określającym wartość prawdopodobieństwa zdarzenia A jest znane jako rozwinięta postać twierdzenia
o prawdopodobieństwie całkowitym.
Najważniejszym chyba pojęciem definiowanym w rachunku prawdopodobieństwa jest pojęcie niezależności stochastycznej.
Dwa zdarzenia A oraz B są niezależne stochastycznie wtedy i tylko
wtedy, gdy prawdopodobieństwo zdarzenia będącego ich iloczynem jest równe
iloczynowi prawdopodobieństw każdego z nich z osobna
A i B są niezależne stochastycznie
df
 P(AB) =
P(A) * P(B)
Jeżeli A i B nie są niezależne stochastyczne, to są zależne stochastycznie.
Jeżeli prawdopodobieństwa żadnego ze zdarzeń A oraz B nie są równe ani
0 ani 1, to zachodzą następujące równoważności:
a. P(AB) = P(A)*P(B)  P(A|B) = P(A)
b. P(AB) = P(A)*P(B)  P(A|B) = P(A|B')
c. P(AB) = P(A)*P(B)  P(B|A) = P(B)
7
d. P(AB) = P(A)*P(B)  P(B|A) = P(B|A')
Dwa zdarzenia A i B są pozytywnie zależne stochastycznie wtedy i tylko
wtedy, gdy prawdopodobieństwo zdarzenia będącego ich iloczynem jest
większe od iloczynu prawdopodobieństw każdego z nich z osobna.
A i B są zależne stochastycznie pozytywnie
df
 P(AB) > P(A) * P(B)
Jeżeli prawdopodobieństwa żadnego ze zdarzeń A oraz B nie jest równe
ani 0, ani 1, to zachodzą następujące równoważności:
a.
b.
c.
d.
P(AB)
P(AB)
P(AB)
P(AB)
>
>
>
>
P(A)*P(B)
P(A)*P(B)
P(A)*P(B)
P(A)*P(B)




P(A|B)
P(A|B)
P(B|A)
P(B|A)
>
>
>
>
P(A)
P(A|B')
P(B)
P(B|A')
Dwa zdarzenia A i B są negatywnie zależne stochastycznie wtedy i tylko
wtedy, gdy prawdopodobieństwo zdarzenia będącego ich iloczynem jest
mniejsze od iloczynu prawdopodobieństw każdego z nich z osobna.
df
A i B są negatywnie zależne stochastycznie
 P(AB) < P(A) * P(B)
Jeżeli prawdopodobieństwa żadnego ze zdarzeń A oraz B nie są równe ani
0, ani 1, to zachodzą następujące równoważności:
a.
b.
c.
d.
P(AB)
P(AB)
P(AB)
P(AB)
<
<
<
<
P(A)*P(B)
P(A)*P(B)
P(A)*P(B)
P(A)*P(B)




P(A|B)
P(A|B)
P(B|A)
P(B|A)
<
<
<
<
P(A)
P(A|B')
P(B)
P(B|A')
Oznaczając znakiem "+" zależność pozytywną, a znakiem "-" zależność
negatywną i zachowując 0 dla oznaczenia niezależności można sformuować
praktyczne twierdzenie, wedle którego zastępując w parze zdarzeń jedno
z nich przez jego dopełnienie, otrzymuje się parę zdarzeń o przeciwnym
znaku (zależności).
Zgodnie z tym twierdzeniem, jeżeli dwa zdarzenia A oraz B są stochastycznie niezależne (oznaczone 0), to para zdarzeń A oraz B' jest też parą
zdarzeń niezależnych sochastycznie.
Jeżeli para zdarzeń B oraz C jest parą zdarzeń zależnych pozytywnie
(oznaczonych "+"), to para zdarzeń B' i C jest parą zdarzeń zależnych
negatywnie (oznaczonych "-"), a para zdarzeń B' i C' jest parą zdarzeń
zależnych pozytywnie (oznaczonych "+") itd.
Zdarzenia A1, A2, A3,....,An są n-ką zdarzeń stochastycznych
niezależnych wtedy i tylko wtedy, gdy prawdopodobieństwo zdarzenia
będącego iloczynem ich wszystkich jest równe iloczynowi prawdopodobieństw
każdego z tych zdarzeń z osobna.
df
A1, A2, A3, ..., An są n-ką zdarzeń niezależnych stochastycznie

 P(A1  A2  A3 ... An) = P(A1) * P(A2) * P(A3) *
... * P(An)
Dwa zdarzenia A i B, które są niezależne stochastycznie stanowią zatem
2-kę zdarzeń niezależnych stochastycznie. Z tego, że n>2 zdarzeń stanowi
n-kę zdarzeń niezależnych stochastycznie nie wynika, że dowolna para
spośród nich jest parą zdarzeń stochastycznie niezależnych. Podobnie,
z tego, że jakieś n>2 zdarzeń są to zdarzenia parami stochastycznie
niezależne, nie wynika, że stanowią one n-kę zdarzeń niezależnych stochastycznie.
8
Jeżeli zdarzenia A1, A2, A3, ..., An nie są n-ką zdarzeń niezależnych
stochastycznie, to są n-ką zdarzeń zależnych stochastycznie.
O zdarzeniach A1, A2, A3, ..., An mówimy, że są one kompletnie stochastycznie niezależne wtedy i tylko wtedy, gdy każdy ich m-elementowy
podzbiór zawierający co najmniej dwa zdarzenia jest m-ką zdarzeń stochastycznie niezależnych.
Relacje stochastycznej niezależności, zależności pozytywnej
i zależności negatywnej są relacjami symetrycznymi:
a. P(AB) = P(A)*P(B)  P(BA) = P(B)*P(A)
b. P(AB) < P(A)*P(B)  P(BA) < P(B)*P(A)
c. P(AB) > P(A)*P(B)  P(BA) > P(B)*P(A)
Relacje kompletnej niezależności i kompletnej niezależności oraz
niezależności n-ki zdarzeń i ich zależności są także relacjami symetrycznymi.
Relacje stochastycznej niezależności, zależności pozytywnej
i zależności negatywnej nie są relacjami przechodnimi.
Na przykład z tego, że zdarzenia A i B są stochastycznie niezależne
oraz zdarzenia B i C są stochastycznie niezależne, nic nie wynika na temat
zależności zdarzeń A i C, które mogą być zarówno zależne jak i niezależne
stochastycznie. Podobnie, gdyby zdarzenia A i B były zależne pozytywnie
oraz zdarzenia B i C również zależne pozytywnie, wówczas także nic by
z tego nie wynikało na temat zależności zdarzeń A i C.
Tę ostatnią własność relacji między zdarzeniami zilustrujemy za pomocą
przykładu. Niech przestrzeń  składa się z 6 elementów:
 = {w1, w2, w3, w4, w5, w6}
Do zbioru S niech należą wszystkie jednoelementowe podzbiory
przestrzeni 
{w1}  S,
{w2}  S,
{w3}  S,
{w4}  S,
{w5}  S,
{w6}  S
oraz inne jej podzbiory, które do zbioru S należą ze względu ne jego komplementarność i addytywność. Łatwo można pokazać, że każdy podzbiór
przestrzeni  należy do zbioru S, gdy każdy podzbiór  jest sumą
skończonej liczby należących do S jednoelementowych podzbiorów
przestrzeni .
Niech funkcja P każdemu jednoelementowemu podzbiorowi przestrzeni 
należącemu do S przyporządkowuje liczbę 1/6, a innym elementom S -liczby
zgodnie z treścią postulatów, które tę funkcję określają.
P({w1}) = P({w2}) = P({w3}) = P({w4}) = P({w5}) = P({w6}) = 1/6
Funkcja P przyporządkowuje każdemu należącemu do S podzbiorowi
przestrzeni  liczbę, która jest równa iloczynowi 1/6 i liczby elementów
przestrzeni należących do danego podzbioru. Wynika to z nałożonego na tę
funkcję postulatu addytywności.
Do zbioru S należą między innymi trzy następujące podzbiory
przestrzeni:
A = {w1}
B = {w1, w2}
C = {w2, w3}
Prawdopodobieństwa przypisane tym podzbiorom są łatwe do wyznaczenia na
podstawie tego, co już powiedzieliśmy:
9
P(A)=1/6
P(B)=2/6
P(C)=2/6
Do zbioru S należą również zbiory
AB, AC i BC:
AB = {w1}
AC = {}
BC = {w2}
Zbiorom tym funkcja P przyporządkowuje odpowiednie wartości:
P(AB)=1/6
P(AC)=0
P(BC)=1/6
Zdarzenia A i B są pozytywnie zależne stochastycznie, gdyż
1/6 = P(AB)
>
P(A)*P(B) = 1/6 * 2/6 = 1/18
Zdarzenia B i C są również pozytywnie zależne stochastycznie, gdyż
1/6 = P(BC)
>
P(B) * P(C) = 2/6 * 2/6 = 1/9
Natomiast zdarzenia A i C są negatywnie zależne stochastycznie, gdyż
0 = P(AC)
<
P(A) * P(C) = 1/6 * 2/6 = 1/18
Jest to dostateczny dowód nieprzechodniości relacji zależności stochastycznej pozytywnej. Podobne przykłady mogłyby dowieść nieprzechodniości innych relacji tego typu.
W podręcznikach rachunku prawdopodobieństwa, których ten kilkunastostronicowy rozdział nie zamierza zastąpić, Czytelnik znajdzie przykłady
zastosowań rachunku prawdopodobieństwa do opisu czy też analizy tzw.
doświadczenia losowego.
Z takim doświadczeniem losowym (jak np. rzut kostką do gry) wiąże się
pewien zbiór jego wyników taki, że w rezultacie przeprowadzenia doświadczenia zachodzi zawsze dokładnie jeden z wyników należących do tego
zbioru. Zbiór ten jest przestrzenią . Zdarzeniami są podzbiory tej
przestrzeni stanowiące klasę S.
Jeżeli wynikom z tego zbioru wyników przypisuje się "jednakowe szanse
realizacji", wówczas określa się prawdopodobieństwo zdarzenia na gruncie
tzw. klasycznej jego definicji - jako iloraz liczby wyników, które należą
do podzbioru tworzącego to zdarzenie oraz liczby wszystkich wyników
należących do zbioru wyników. Znane są ograniczenia takiego pojmowania
prawdopodobieństwa wynikające z popełnienia przy jego definiowaniu błędu
"idem per idem" - definiowania prawdopodobieństwa przez równość szans
czyli prawdopodobieństw - oraz konieczność ograniczenia się do skończonych
przestrzeni wyników doświadczenia.
Próby uniknięcia tych trudności prowadzą przez tzw. geometryczną definicję prawdopodobieństwa, która dopuszcza nieskończone zbiory wyników
doświadczenia, cierpi jednak na tę samą chorobę "idem per idem", co definicja klasyczna, do ujęcia częstościowego, które nakazuje traktować jako
prawdopodobieństwo zdarzenia częstość jego występowania w długiej serii
powtórzeń tego samego doświadczenia. Zaobserwowane częstości w długich
lecz skończonych przecież seriach doświadczeń same podlegają jednak
losowym wahaniom, które można opisywać posługując się aparaturą pojęciową
rachunku prawdopodobieństwa.
We współczesnych zastosowaniach rachunku prawdopodobieństwa przyjmuje
się, że prawdopodobieństwo zdarzenia losowego nie może być zamierzone
bezpośrednio. Zakładając istnienie takiego prawdopodobieństwa możemy jego
wartość szacować na podstawie obserwacji wyników uzyskiwanych w długich
10
seriach doświadczeń. O prawdopodobieństwach różnych zdarzeń związanych
z obserwowanym doświadczeniem zakłada się - mimo, że same te prawdopodobieństwa nie są znane - że spełniają one warunki nakładane przez postulaty
na funkcję P.
Tutaj chcielibyśmy tylko zwrócić uwagę na inne, "nieprobabilistyczne"
zastosowanie rachunku prawdopodobieństwa. Nie jest ono związane z żadnym
powtarzalnym doświadczeniem losowym. Taka interpretacja rachunku prawdopodobieństwa pozwoli stosować ten rachunek do opisu skończonej zbiorowości
statystycznej. Ograniczenie się do zbiorowości skończonych jest tu wygodne
ale nie jest konieczne. Zostaniemy przy nim, gdyż wcześniej rozważaliśmy
tylko skończone zbiorowości statystyczne.
Niech zatem będzie jakaś skończona zbiorowość statystyczna. Dla ustalenia uwagi niech będzie to zbiorowość złożona z ludzi. Niech będzie klasa
podzbiorów tej zbiorowości: niepusta, komplementarna i addytywna. Zgodnie
z przedstawionymi na wstępie postulatami taką klasę podzbiorów można traktować jako zbiór S, a całą zbiorowość statystyczną, z której pochodzą
te zbiory, jako przestrzeń .
Taka klasa podzbiorów zbiorowości statystycznej niech zawiera zbiór
jednostek statystycznych (osób) posiadających cechę B. Ze względu na komplementarność i addytywność klasa ta będzie zawierać również inne
podzbiory zbiorowości statystycznej zdefiniowane przez posiadanie lub
nieposiadanie przez poszczególne osoby cech A i B. Są to znane
z twierdzenia (s.
) zbiory: AB, AB', A'B, A'B', AB, AB', A'B,
A'B', A'B'AB i A'BAB', Ponadto do tej klasy należą zbiory: złożone
z osób nieposiadających cechy A czyli A' oraz złożony z osób
nieposiadających cechy B czyli B', zbiór pusty O oraz zbiór złożony
z wszystkich osób należących do zbiorowości statystycznej . Gdybyśmy
wzięli pod uwagę więcej niż dwie cechy badanych osób, klasa podzbiorów
byłaby odpowiednio bogatsza.
Brak nam jeszcze funkcji P, która przyporządkowywałaby liczby
podzbiorom zbiorowości statystycznej należącym do klasy S. Znamy dwie
funkcje przyporządkowujące liczby zbiorom. Funkcja N liczebność
- przyporządkowuje podzbiorom zbiorowości statystycznej ich liczebności.
Sprawdzimy, czy funkcja ta spełnia postulaty nałożone w rachunku prawdopodobieństwa na funkcję P.
Funkcja P jest określoną i nieujemną dla każdego podzbioru przestrzeni
należącego do S. Funkcja N - liczebność zbioru - też jest dla każdego
podzbioru zbiorowości statystycznej należącego do S określoną i nieujemną.
N(A)  0
Jeżeli dwa podzbiory przestrzeni  należące do S są rozłączne, to wartość funkcji P przyporządkowana zbiorowi będącemu ich sumą jest równa
sumie wartości funkcji P dla każdego z nich z osobna. Liczebność zbioru
będącego sumą dwu zbiorów rozłącznych jest także sumą liczebności każdego
ze zbiorów z osobna.
AB=  N(AB) = N(A) + N(B)
Wartość funkcji P przyporządkowana zbiorowi złożonemu ze wszystkich
elementów przestrzeni jest równa 1. Funkcja N tego warunku nie spełnia,
zbiór jej wartości nie jest ograniczony do zbioru liczb rzeczywistych
z przedziału [0,1] lecz jest zbiorem liczb naturalnych.
Funkcja N spełnia dwa postulaty nałożone na funkcję P w rachunku prawdopodobieństwa: postulat nieujemności i addytywności. Nie spełnia natomiast postulatu unormowania, wedle którego wartości funkcji P nie
przekraczają liczby 1.
Zatem funkcja N - liczebnośc - nie jest funkcją P.
Każdemu podzbiorowi zbiorowości statystycznej przyporządkowana jest
częstość z jaką jego elementy występują w całej zbiorowości. W pierwszym
11
zeszycie skryptu oznaczono częstość przyporządkowaną zbiorowi A jako P(A).
Tutaj chwilowo dla uniknięcia nieporozumień oznaczymy tę częstość (A).
Częstość jest funkcją liczebności:
(A) =
N(A)

N()
Częstość A to iloraz liczebności zbioru A oraz liczebności całej
zbiorowości statystycznej. Czętość ta jest funkcją, która każdemu
podzbiorowi zbiorowości statystycznej przyporządkowuje liczbę rzeczywistą
z przedziału [0,1]. Funkcja ta spełnia wszystkie trzy postulaty nałożone
na funkcję P w rachunku prawdopodobieństwa.
Częstość (A) dla każdego A będącego podzbiorem zbiorowości
statystycznej należącym do klasy S jest określona i nieujemna:
(A)  0
Częstość (A) przyporządkowana zbiorowi złożonemu ze wszystkich jednostek zbiorowości statystycznej jest równa 1:
() =
N()

=
N()
1
Częstość (AB) przyporządkowana zbiorowi będącemu sumą dwu podzbiorów
zbiorowości statystycznej rozłącznych i należących do S jest równa sumie
wartości tej funkcji dla każdego z tych zbiorów z osobna:
AB=  (AB) =
(A) + (B)
gdyż
(AB)
=
N(AB)
 =
N()
N(A)+N(B)

N()
=
N(A)

+
N()
N(B)

= (A) + (B)
N()
Zatem funkcja  - częstość - jest funkcją P w sensie określonym przez
postulaty rachunku prawdopodobieństwa. Skończoną zbiorowość statystyczną
oraz niepustą, komplementarną i addytywną klasę jej podzbiorów i funkcję 
można utożsamiać z trzema przedmiotami rachunku prawdopodobieństwa:
przestrzenią , zbiorem S i funkcją P. Można stosować twierdzenia rachunku prawdopodobieństwa do tych obiektów statystycznych, które są równoważne
trzem przedmiotom rachunku prawdopodobieństwa.
W ujęciu teoriomnogościowym utożsamia się cechę z jej denotacją - ze
zbiorem obiektów, którym ta cecha przysługuje, a relację między zbiorami
z relacjami między odpowiednimi cechami. Mówimy np., że dwie cechy się
wykluczają, jeżeli zbiory obiektow, którym one przysługują, nie zawierają
elementów wspólnych. Przy konotacyjnej interpretacji cech, dla stwierdzenia, że jakieś dwie cechy się wykluczają nie wystarczy pokazać, że
w jakimś universum zakresy odpowiednich zbiorów na siebie nie zachodzą,
trzeba pokazać, że na gruncie pewnej teorii (pewnego języka) z posiadania
jednej z tych cech wynika nieposiadanie drugiej.
Przy interpretacji denotacyjnej relacja między cechami zachodzi ze
względu na pewną zbiorowość uniwersalną jako relacja między odpowiednimi
zbiorami. W interpretacji konotacyjnej realacja między cechami zachodzi ze
względu na pewną teorię jako relacja między odpowiednimi zdaniami tej
teorii.
Rachunek prawdopodobieństwa wzbogaca zbiór relacji między cechami
pojmowanymi denotacyjnie, zawierający wszystkie relacje między zbiorami
12
określone w teorii mnogości, o ważną relację niezależności stochastycznej
i inne relacje zdefiniowane przy jej pomocy.
Mówiąc, że w zbiorowości statystycznej określone są cechy A, B, C, ...,
X zakładamy, że są w tej zbiorowości wyodrębnione podzbiory (oznaczamy je
tymi samymi symbolami A, B, C, ..., X) złożone z takich jednostek
statystycznych, którym przysługują odpowiednie cechy. Ze skończonym
zbiorem cech związana jest klasa podzbiorów zbiorowości statystycznej
zawierająca zbiory będące denotacjami tych cech w zbiorowości statystycznej traktowanej jako univesum.
Jeżeli do tej klasy podzbiorów zaliczymy ponadto zbiory, które z tych
wymienionych można uzyskać poprzez operacje dodawania, mnożenia i negacji,
to klasa ta będzie niepustą, komplementarną i addytywną klasą podzbiorów
zbiorowości statystycznej. Każdemu podzbiorowi należącemu do tej klasy
przyporządkowana jest liczebnośc i częstość. Zatem, jeżeli w zbiorowości
statystycznej określone są cechy A, B, C, ..., X, to określona trójka
przedmiotów rachunku prawdopodobieństwa: przestrzeń  - zbiorowość ststystyczna, klasa S podzbiorów tej przestrzeni wyznaczonych przez cechy A,
B, C, ..., X oraz funkcja P - częstość.
Stwierdzając zachodzenie jakiejś relacji między elementami klasy S
mówimy, że relacja ta zachodzi między cechami wyodrębniającymi należące do
S podzbiory, między którymi ta relacja zachodzi. Mówimy, że cechy A i B są
rozłączone, jeżeli odpowiednie należące do S podzbiory A i B są rozłączne.
Mówimy, że cechy A i B są stochastycznie niezależne, gdy zachodzi znana
relacja między zbiorami jednostek wyodrębnionych ze względu na te cechy.
Relację tę wyrażamy przy użyciu funkcji częstości: (AB) = (A) * (B).
Tak rozumiane relacje między cechami zachodzą w konkretnej zbiorowości
statystycznej. Niezależność stochastyczna cech, podobnie jak i relacje
teoriomnogościowe mogące między cechami zachodzić, jest własnością struktury zbiorowości statystycznej.
Można inaczej uzasadniać stosowanie rachunku prawdopodobieństwa do
opisu zbiorowości statystycznej. Zakładamy wówczas przeprowadzenie fikcyjnego doświadczenia polegającego na losowaniu ze skończonej zbiorowości
statystycznej jednego jej elementu w sposób dający każdemu elementowi
takie samo prawdopodobieństwo bycia wylosowanym. (Wobec fikcyjności
doświadczenia możemy pominąć kwestię sposobu spełnienia tego warunku.)
Zbiorowość statystyczna jest przestrzenią . Do zbioru S należą wszystkie
jej jednoelementowe podzbiory, gdyż określiliśmy już przypisane im prawdopodobieństwa. Ponieważ zbiorowość statystyczna jest skończona, a zbiór S
jest klasą addytywną, zatem do S należą wszystkie podzbiory zbiorowości
statystycznej. Każdy z nich jest sumą skończonej liczby podzbiorów jednoelemntowych.
Funkcja P przyporządkowuje każdemu podzbiorowi zbiorowości statystycznej iloraz jego liczebności i liczebności całej zbiorowości statystycznej,
czyli jego częstość.
W zbiorowości statystycznej są wyodrębnione podzbiory jednostek posiadających pewne cechy. Weźmy dowolną z nich i oznaczmy A. Cesze A przyporządkowane jest prawdopodobieństwo tego, że w wyniku losowania zostanie
wylosowana taka jednostka statystyczna, której przysługuje cecha A. Jest
to ta sama, co uprzednio, częstość występowania jednostek z cechą A
w zbiorowości. Tym razem zamiast mówić wprost o strukturze zbiorowości
określonej przez częstości, mówimy o prawdopodobieństwach rozmaitych
wyników fikcyjnego doświadczenia losowego, które to prawdopodobieństwa są
jednak przez tę strukturę określone w sposób jednoznaczny.
Interpretacja ta, bliska zasadniczemu zastosowaniu rachunku prawdopodobieństwa, jakim jest opis doświadczenia losowego, jest dość rozpowszechniona. Jej niewątpliwą wadą jest powoływanie do życia fikcyjnego doświadczenia losowego. Pokazaliśmy, że wprowadzanie tego doświadczenia nie jest
koniecznym.
13
Rozdział 2
ZMIENNA LOSOWA
dystrybuanta
funkcja prawdopodobieństwa
rozkład prawdopodobieństwa
zmienna losowa skokowa
zmienna losowa ciągła
funkcja gęstości prawdopodobieństwa
parametry rozkładu zmiennej losowej
rozkład prostokątny
rozkład normalny
rozkład 2
Pierwszych 10 stron tego rozdziału przedstawia przy użyciu skromnego
aparatu formalnego względnie kompletna definicje zmiennej losowej.
Dysponowanie taką definicją nie jest niezbędnym dla zrozumienia dalszych
kwestii bedących przedmiotem tego tekstu, byłoby przydatne przy lekturze
opracowań bardziej zaawansowanych. Czytelnik może początkowo pominać ten
fragment poprzestając na nastepującym wprowadzeniu:
Dane jest doświadczenie losowe i zbiór możliwych jego wynikow takich,
że przeprowadzając to doświadczenie możemy być pewni, że wystapi dokładnie
jeden z tych wyników. Funkcj P, ktora każdemu z tych wynikow
przyporządkowuje liczbę rzeczywistą r nazwać będziemy zmienną losową,
jeżeli spełnia co najmniej jeden z dwu warunków.
1. Określona jest dla zbioru wartości funkcji X funkcja prawdopodobienstwa P, która każdej wartości xi zminnej X przyporządkowuje
prawdopodobienstwo zdarzenia polegającego na tym, ze doświadczenie losowe
zakończy sie takim wynikiem, któremu zmienna losowa X przyporządkowuje tę
właśnie wartość xi.
2. Określona jest dla zbioru liczb rzeczywistych funkcja F (nazywana
dystrybuanta), która każdej liczbie rzeczywistej r przyporządkowuje
prawdopodobieństwo zdarzenia polegającego na tym, że doświadczenie losowe
zakończy się takim wynikiem, któremu ta zmienna losowa X przyporządkowuje
wartość x mniejszą lub równą od danej liczby r.
Zmienna losowa, dla której można określić funkcję prawdopodobieństwa,
ma skończona lub co najwyżej przeliczalną liczbę różnych wartości i jest
nazywana skokową albo dyskretna. Można dla niej wyznaczyć dystrybuantę.
Zmienna losowa mająca więcej niż przeliczalną ilość wartości jest
nazywana ciągłą i nie można dla niej określić funkcji prawdopodobieństwa
a jedynie dystrubuantę.
Będziemy mówili, że znamy rozkład prawdopodobieństwa jakiejś zmiennej
losowej, jeżeli umiemy odpowiadać na pytania o prawdopodobieństwo tego,
że zmienna przyjmie wartość należącą do dowolnego przedziału liczb
rzeczywistych lub obszaru będącego suma i/lub iloczynem takich
przedziałów.
Czytelnik wyposażony w takie informacje może zaryzykowac pobieżną tylko
lekture następnych stron i narażając się na pewne niedogodności przejść do
dalszej systematycznej lektury poczynajac od strony 27. (Tekst, który może
opuścić ujęto w nawiasy
{{{{ .... }}}}.
14
{{{{
Niech będzie daną przestrzeń  i funkcja X przyporządkowująca elementom tej przestrzeni liczby rzeczywiste.
 = {w1, w2, ... }
X:   

w

x
X(w) = x
Oznaczymy G(r) podzbiór takich elementów przestrzeni , którym funkcja
X przyporządkowuje liczbę rzeczywistą r
G(r) = {w: X(w)=r}
Symbolem Gx oznaczymy klasę składającą się z podzbiorów G(r)
utworzonych ze względu na funkcję X dla wszystkich liczb rzeczywistych
( G(r)  Gx
r
&
A  Gx )

 A=G(s)
s
Mimo, że zbiór liczb rzeczywistych nie jest skończony, klasa Gx może
zawierać skończoną liczbę różnych elementów - podzbiorów G(r). Z tego,
że dwie liczby rzeczywiste r1 i r2 nie są równe, nie wynika bowiem,
że przyporządkowane im podzbiory G(r1) i G(r2) są różne, mogą być identyczne - puste.
Zbiór liczb rzeczywistych, którym przyporządkowane są niepuste
podzbiory G(r) jest zbiorem wartości funkcji X. Oznaczać go będziemy zgodnie z przyjętą wcześniej konwencją X.
X = { r: X(w)=r }
Poszczególne wartości funkcji X oznaczać będziemy x1, x2, ..., xi,...
X = {x1, x2, ..., xi, ... }
Nie zakładamy, że zbiór ten jest zbiorem skończonym lub co najwyżej
przeliczalnym.
Oznaczymy H(r) podzbiór złożony z takich elementów przestrzeni ,
którym funkcja X przyporządkowuje liczby rzeczywiste mniejsze od lub
równe r.
H(r) = {w: X(w)  r}
Symbolem Hx oznaczymy klasę składającą się z podzbiorów H(r) utworzonych ze względu na funkcję X dla wszystkich liczb rzeczywistych.
( 
r
H(r)  Hx
&
A  Hx )

 A = H(s)
s
Podobnie jak poprzednio: mimo, że zbiór liczb rzeczywistych nie jest
skończony, klasa Hx może niekiedy zawierać skończoną tylko liczbę różnych
elementów - podzbiorów H(r).
Funkcja X przyporządkowująca liczby rzeczywiste elementom przestrzeni
 jest zmienną losową, jeżeli istnieje taka klasa podzbiorów przestrzeni
, która zawiera w sobie klasę Hx złożoną z podzbiorów H(r) utworzonych
ze względu na tę zmienną X i jest to klasa niepusta, komplementarna
i addytywna lub przeliczalnie addytywna, oraz na elementach tej klasy
15
określona jest funkcja prawdopodobieństwa P addytywna lub przeliczalnie
addytywna o wartościach rzeczywistych z przedziału <0, 1>.
Załóżmy, że funkcja X, o której będzie dalej mowa, spełnia te warunki,
a zatem jest zmienną losową:

r

AS
{w: X(w)  r}  S

r<0,1>
P(A) = r
Niepustą, komplementarną i addytywną lub przeliczalnie addytywną klasę
podzbiorów , która zawiera w sobie klasę Hx podzbiorów H(r) utworzonych
ze względu na funkcję X i tylko takie inne podzbiory przestrzeni , które
do niej należeć muszą ze względu na jej komplementarność i addytywność lub
przeliczalną addytywność nazywać będziemy minimalną ze względu na tę
zmienną X klasę S i oznaczać Sx.
Minimalna ze względu na zmienną X klasa Sx jest zawarta w każdej klasie
S, która zawiera klasę Hx.
Hx  Sx
Hx  Sx  Sx  S
Funkcja prawdopodobieństwa P jest określona na klasie S. Założyliśmy,
że klasa Hx jest zawarta w klasie S. Zatem minimalna ze względu na X klasa
Sx jest zawarta w klasie S. Zatem funkcja prawdopodobieństwa P jest
określona w klasie Sx.
Funkcję P określoną na minimalnej ze względu na zmienną X klasie Sx
nazywać będziemy rozkładem prawdopodobieństwa zmiennej losowej X i
oznaczać Px.(Uwaga: Duża litera P.)
Px : Sx  <0,1>
Jeżeli jest określona funkcja prawdopodobieństwa P na klasie S
i minimalna ze względu na zmienną X klasa Sx jest w S zawarta, to

Px(A) = P(A)
AS
n
Będziemy mówili, że rozkład prawdopodobieństwa zmiennej losowej X jest
obcięciem funkcji prawdopodobieństwa P określonej na klasie S do klasy Sx
zawartej w S.
Dystrybuantą Fx zmiennej losowej X nazywamy taką funkcję, która każdej
liczbie rzeczywistej r przyporządkowuje tę liczbę, którą funkcja prawdopodobieństwa P przyporządkowuje zbiorowi H(r).
Fx:

r
  <0, 1>
Fx(r) = P(H(r) = P({w: X(w)  r})
Można dystrybuantę traktować jako złożenie dwu funkcji. Pierwsza przyporządkowuje liczbie rzeczywistej r podzbiór H(r), druga podzbiorowi H(r)
przyporządkowuje wartość funkcji P.
Fx:
  Hx  <0, 1>
Druga z tych funkcji jest obcięciem funkcji P określonej na klasie S do
klasy Hx zawartej w S. Jest ona jednocześnie obcięciem funkcji Px
16
- rozkład prawdopodobieństwa zmiennej losowej X - określonej na klasie Sx
do klasy Hx zawartej w Sx.
Mówiąc o dystrybuancie zmiennej X nieco swobodniej powiemy, że każdej
liczbie rzeczywistej r przyporządkowuje ona prawdopodobieństwo tego, że
zmienna X przyjmie (lub ma) wartość mniejszą lub równą r. Oznaczając zbiór
elementów przestrzeni  spełniających warunek X(w)  r (skrótowo Xr)
możemy definicję dystrybuanty zapisać w sposób prostszy:
Fx (r) = P (X  r)
Funkcją prawdopodobieństwa px zmiennej losowej X nazywać będziemy taką
funkcję, która każdej liczbie rzeczywistej r przyporządkowuje tę liczbę,
którą funkcja prawdopodobieństwa P przyporządkowuje zbiorowi G(r):
px:
  <0, 1>
(Uwaga: Funkcję prawdopodobieństwa w odróżnieniu od rozkładu prawdopodobienstwa oznaczylismy małą literą p.)

px(r) = P(G(r)) = P({w: X(w) = r})
r
Funkcja prawdopodobieństwa zmiennej X może być traktowana jako
złożenie dwu funkcji. Pierwsza przyporządkowuje liczbie rzeczywistej r
podzbiór G(r). Druga podzbiorowi G(r) przyporządkowuje wartość funkcji P:
px:
  Gx  <0, 1>
Druga z tych funkcji jest obcięciem funkcji P określonej na klasie S do
klasy Gx. Funkcja ta jest jednocześnie obcięciem funkcji Px - rozkład
prawdopodobieństwa zmiennej X - określonej na klasie Sx do klasy Gx.
Kwestia, czy dla każdej zmiennej losowej jest określona funkcja prawdopodobieństwa zmiennej musi pozostać na razie otwartą. Nie ustaliliśmy
jeszcze, czy klasa G utworzona ze względu na zmienną jest zawsze zawarta
w minimalnej ze względu na tę zmienną klasie S. Gdyby klasa Gx zmiennej X
nie była zawarta w klasie Sx, wówczas jej funkcja prawdopodobieństwa px
nie byłaby określona przez funkcję P, a zatem i przez funkcję Px.
Funkcja prawdopodobieństwa zmiennej losowej przyjmuje wartości
z przedziału <0, 1>.

0  px(r)  1
r
Dystrybuanta zmiennej losowej przyjmuje wartości z przedziału <0, 1>.

0  Fx(r)  1
r
Wartościami obu funkcji są bowiem wartości funkcji prawdopodobieństwa P.
Dystrybuanta zmiennej losowej jest funkcją niemalejącą:

r>s
Fx (r)  Fx (s)
Wynika to z relacji między odpowiednimi podzbiorami należącymi do klasy
Hx:
17

r>s
H(r) = {w: X(w)r}

H(s) = {w: X(w)s}
która pociąga za sobą relację przypisanych im przez funkcję P wartości:

r>s
P(H(r)) = P({w: X(w)r})
 P({w: X(w)s}) = P(H(s))
Powiedzieliśmy, że zmienna losowa jest taką funkcją przyporządkowującą
liczby rzeczywiste elementom przestrzeni , która spełnia pewne dodatkowe
warunki. Należy się zatem spodziewać, że są do pomyślenia funkcje przyporządkowujące liczby rzeczywiste elementom przestrzeni , które nie są
zmiennymi losowymi, gdyż nie spełniają owych warunków.
Jeżeli przestrzeń  ma skończoną liczbę elementów, to każda funkcja
przyporządkowująca jej elementom liczby rzeczywiste jest zmienną losową.
Jest tak, gdyż dla skończonej przestrzeni  klasa wszystkich jej
podzbiorów jest niepustą, komplementarną i addytywną klasą S. Klasa
wszystkich podzbiorów zawiera w sobie klasę H podzbiorów H(r) utworzonych
ze względu na dowolną funkcję określoną na . Zatem każda funkcja rzeczywista określona na skończonej przestrzeni  jest zmienną losową w sensie
przyjętej definicji.
Warunek wymieniony w tej definicji (HxS) może nie być spełniony dopiero wtedy, gdy przestrzeń  jest zbiorem liczniejszym od zbioru
przeliczalnego i liczniejszym od zbioru przeliczalnego jest zbiór wartości
funkcji X. Tylko wtedy klasa Hx utworzona ze względu na tę funkcję może
"nie zmieścić się" w żadnej komplementarnej i przeliczalnie addytywnej
klasie podzbiorów przestrzeni . Takimi funkcjami nie będziemy się
musieli zajmować.
Na szczególną uwagę zasługują dwa typy zmiennych losowych. Zmienne
pierwszego typu tym się odznaczają, że zbiór wartości każdej z nich jest
skończony.
Zmienną losową mającą zbiór wartości o skończonej ich liczbie będziemy
nazywali zmienną losową skokową.
W literaturze terminem tym zwykle określa się nieco szerszą klasę
zmiennych mających najwyżej przeliczalne zbiory wartości. Własności zmiennych o przeliczalnych zbiorach wartości i o skończonych zbiorach wartości
są podobne. Tutaj zmiennymi o przeliczalnych zbiorach wartości zajmować
się nie będziemy.
Zmienne drugiego typu to takie, których zbiory wartości są
nieprzeliczalne.
Ograniczymy się do bardziej jednorodnego ich podzbioru:
Zmienną losową przyjmującą wszystkie wartości z pewnego przedziału
liczb rzeczywistych o niezerowej długości nazywać będziemy zmienną losową
ciągłą:

r<a,b>
a<b
 X(w)=r
w
&
 X(w)=s
w

s <a, b>
Dalej definicję tę uzupełnimy dodatkowym warunkiem (s.
).
Zmienne losowe skokowe i ciągłe w rozumieniu przyjętych tu definicji
nie wyczerpują zbioru wszystkich zmiennych losowych. Np. zmienna przyjmująca wartość 0 i wszystkie z przedziału od 2 do 10 nie jest zmienną
ciągłą, gdyż zbiór jej wartości nie wyczerpuje przedziału <0, 10> i nie
jest skokową, gdyż zbiór jej wartości nie jest skończony.
Ograniczając się tylko do dwu przedstawionych typów zmiennych
będziemy jednak mogli przedstawić istotne problemy bez pokonywania dodatkowych trudności formalnych. Do takich zmiennych ogranicza się zresztą
większość interesujących nas zastosowań, choć nie wszystkie.
18
Zanim przystąpimy do dalszych kwestii, zilustrujemy wprowadzone pojęcia
na prostym przykładzie zmiennej losowej skokowej. Niech przestrzeń 
składa się z 6 elementów:
 = {w1, w2, w3, w4, w5, w6}
Niech będzie określona funkcja X przyporządkowująca elementom
przestrzeni liczby rzeczywiste w sposób następujący:
wi
X(wi)
|
|
w1
2
|
|
w2
4
| w3 |
|3.5 |
w4
2
|
|
w5
1
|
|
w6
1
|
|
Klasa Hx zbiorów H(r) utworzonych ze względu na zmienną X składa się
z 5 zbiorów:
dla
dla 1
dla 2
dla 3.5
dla
r
r
r
r
r



<
<
<
<

1
2
3.5
4
4
H(r)
H(r)
H(r)
H(r)
H(r)
=
=
=
=
=
O
{w5,
{w5,
{w5,
{w5,
w6}
w6, w1, w4}
w6, w1, w4, w3}
w6, w1, w4, w3, w2}
=
=
=
=
=
A0
A1
A2
A3
A4
Klasę Gx zbiorów G(r) utworzonych ze względu na zmienną X tworzy również 5
zbiorów:
G(1)
G(2)
G(3.5)
G(4)
=
=
=
=
{w5, w6}
{w1, w4}
{w3}
{w2}
dla r  {1, 2, 3.5, 4}
=
=
=
=
A1
A5
A6
A7
G(r) =  = A0
Zbiór wartości funkcji X składa się zatem z 4 elementów:
X = { 1, 2, 3.5, 4 }
Klasa złożona z wszystkich podzbiorów przestrzeni  złożona z 26 = 64
podzbiorów jest niepustą, komplementarną i addytywną klasą S. Zawiera ona
klasę Hx.
Minimalna ze względu na zmienną X klasa Sx składa się z 16-tu
podzbiorów przestrzeni . Należą do niej podzbiory H(r) tworzące klasę
Hx:
A0
A1
A2
A3
A4
=
=
=
=
=

{w5,
{w5,
{w5,
{w5,
w6}
w6, w1, w4}
w6, w1, w4, w3}
w6, w1, w4, w3, w2} = 
Ze względu na komplementarność i addytywność klasy Sx należą do niej także
podzbiory należące do klasy Gx :
A1
A5
A6
A7
=
=
=
=
G(1)
G(2)
= A2 & A'1
G(3.5) = A3 & A'2
G(4)
= A4 & A'3
=
=
=
=
{w5, w6}
{w1, w4}
{w3}
{w2}
oraz inne podzbiory przestrzeni będące sumami podzbiorów już do Sx
zaliczonych:
19
A8
A9
A10
A11
A12
A13
A14
A15
=
=
=
=
=
=
=
=
A1
A1
A5
A5
A6
A1
A1
A5








A6
A7
A6
A7
A7
A11
A12
A12
=
=
=
=
=
=
=
=
{w5,
{w5,
{w1,
{w1,
{w3,
{w5,
{w5,
{w1,
w6,
w6,
w4,
w4,
w2}
w6,
w6,
w4,
w3}
w2}
w3}
w2}
w1, w4, w2}
w3, w2}
w3, w2}
Klasa Hx jest zawarta w klasie wszystkich podzbiorów przestrzeni 
oznaczonej S. Zatem minimalna ze względu zmienną X klasa Sx jest zawarta
w klasie S.
X:
Załóżmy, że znana jest funkcja prawdopodobieństwa Px zmiennej losowej
r
Px(r)
|
|
1
0.20
|
|
2
0.30
|
|
3.5
0.25
|
|
4
0.25
|
|
dla każdego innego r wartość funkcji prawdopodobieństwa zmiennej X jest
równa 0:

r{1,2,3.5,4}
px(r) = 0
Wykres funkcji prawdopodobieństwa px ma postać następującą:
Funkcja prawdopodobieñstwa
Px(r)
0.3
0.2
0.1
0
1
2
3
4
r
Wartość funkcji prawdopodobieństwa px są jednocześnie wartościami
funkcji Px - rozkład prawdopodobieństwa zmiennej losowej X - i funkcji
prawdopodobieństwa P. Pamiętamy, że funkcja px jest obcięciem funkcji Px
i P do klasy argumentów Gx.
px(1)
px(2)
px(3.5)
px(4)
px(3.1)
=
=
=
=
=
Px({w5, w6})
Px({w1, w4})
Px({w3})
Px({w2})
Px({})
=
=
=
=
=
P({w5, w6})
P({w1, w4})
P({w3})
P({w2})
P({})
=
=
=
=
=
0.2
0.3
0.25
0.25
0.0
gdyż
gdyż
gdyż
gdyż
gdyż
G(1)
G(2)
G(3.5)
G(4)
G(3.1)
={w5, w6}= A1
={w1, w4}= A5
={w3}
= A6
={w2
= A7
={}
= A0
Nieprzypadkowo okaże się, że pozwalają one odtworzyć rozkład prawdopodobieństwa zmiennej losowej X w całości:
A2 =A1A5
A3 =A2a6
A4 =A3A7
&
&
&
A1&A5 = 
A2&a6 = 
A3&A7 = 



Px(A2 ) = Px(A1) + Px(A5 ) = .2 +.3 = .5
Px(A3 ) = Px(A2) + Px(a6 ) = .5 +.25= .75
Px(A4 ) = Px(A3) + Px(A7 ) = .75+.25=1.00
20
A8 =A1A6
A9 =A1A7
A10=A5A6
A11=A5A7
A12=A6A7
A13=A1A11
A14=A1A12
A15=A5A12
&
&
&
&
&
&
&
&
A1&A6 =
A1&A7 =
A5&A6 =
A5&A7 =
A6&A7 =
A1&A11=
A1&A12=
A5&A12=
















Px(A8 )
Px(A9 )
Px(A10)
Px(A11)
Px(A12)
Px(A13)
Px(A14)
Px(A15)
=
=
=
=
=
=
=
=
Px(A1)
Px(A1)
Px(A5)
Px(A5)
Px(A6)
Px(A1)
Px(A1)
Px(A5)
+
+
+
+
+
+
+
+
Px(A6 )
Px(A7 )
Px(A6 )
Px(A7 )
Px(A7 )
Px(A11)
Px(A12)
Px(A12)
=
=
=
=
=
=
=
=
.2 +.25=
.2 +.25=
.3 +.25=
.3 +.25=
.25+.25=
.2 +.55=
.2 +.5 =
.3 +.5 =
.45
.45
.55
.55
.5
.75
.7
.8
Dysponując rozkładem prawdopodobieństwa zmiennej losowej X możemy
wyznaczyć dystrybuantę Fx tej zmiennej:
Fx =





0.
= Px(A0), gdy
0.20 = Px(A1), gdy 1
r < 1,
 r < 2,
a zatem H(r) = A0 = 
a zatem H(r) = A1
0.50 = Px(A2), gdy 2
 r < 3.5, a zatem H(r) = A2
0.75 = Px(A3), gdy 3.5  r < 4,
a zatem H(r) = A3
1.00 = Px(A4), gdy 4
 r,
a zatem H(r) = A4 = 
Dystrybuanta Fx zmiennej X jest, jak dystrybuanta każdej zmiennej,
funkcją niemalejącą. Nieprzypadkowo jest funkcją przedziałami stałą
o skończonej liczbie punktów nieciągłości. Tym, jak się przekonamy,
charakteryzuje się dystrybuanta każdej zmiennej skokowej. Wykres dystrybuanty Fx jest następujący:
Znajomość rozkładu prawdopodobieństwa zmiennej losowej X jest
równoważna ze znajomością wartości funkcji prawdopodobieństwa P dla
wszystkich elementów minimalnej ze względu na zmienną X klasy Sx.
Nie wystarcza jednak dla przypisania wartości tej funkcji tym elementom
klasy S, które nie należą do klasy Sx. Np. jednoelementowy podzbiór
przestrzeni  ={w5} należy do klasy S wszystkich jej podzbiorów lecz nie
należy do minimalnej ze względu na X klasy Sx. Zatem wartość funkcji Px
- rozkład prawdopodobieństwa zmiennej losowej X - nie jest dla tego
podzbioru przestrzeni określona. Znajomość funkcji Px nie wystarcza dla
określenia wartości jaką temu podzbiorowi winna przyporządkować funkcji P.
{w5}  S
&
{w5}  Sx
&
P({w5}) = ?
Będziemy nadal się zajmowali zmiennymi losowymi o skończonej liczbie
wartości. Przyjmijmy, że zmienna X ma w różnych wartości.
X
= { x1, x2, x3, ...., xw )
21
|X| = w
Zatem w klasie Gx utworzonej ze względu na tę zmienną znajduje się
w+1 różnych podzbiorów przestrzeni , w tym zbiór pusty:
Gx = {, G(x1), G(x2), ..., G(xw)}
Podzbiory należące do klasy Gx są parami rozłączne a ich suma wyczerpuje całą przestrzeń .

ij
G(xi)  G(xj) = 
w

G(xi) = 
i=1
Załóżmy, że wartości zmiennej X są uporządkowane rosnąco:
xi > xi-1
Rozważmy ciąg sum zbiorów G(xi) z klasy Gx:
G(x1)
G(x1)G(x2)
G(x1)G(x2)G(x3)
. . . . . . . . . .
. . . . . . . . . . . . . .
G(x1)G(x2)G(x3)... G(xw)
Każda z tych sum jest zbiorem należącym do klasy Hx
k
 H(xk) =
x X
k

G(xi)
i=1
Jeżeli w klasie S podzbiorów przestrzeni  zawarta jest klasa Hx
zmiennej X o skończonej liczbie wartości, to jest w tej klasie S zawarta
także klasa Gx tej zmiennej.
Hx  S
&
|X|=w

Gx  S
Każdy podzbiór G(r) należący do klasy Gx takiej zmiennej może być
bowiem przedstawiony jako iloczyn zbioru należącego do klasy Hx
i dopełnienia innego takiego zbioru.

 G(xi) = 
xiX

H(xi),
gdy i=1
H(xi)  ~H(xi-1),
gdy i>1
uwaga:   Hx
H(x1) = H(x1)  ~
natomiast
22

rX
jeżeli G(r) =
to
G(r) = H(x1)  ~H(x1)
Jeżeli w klasie S podzbiorów przestrzeni  zawarta jest klasa Gx
zmiennej X o skończonej liczbie wartości, to jest w klasie S zawarta także
klasa Hx tej zmiennej.
Gx S & |X|=w
 Hx  S
Każdy podzbiór  należący do klasy Hx może być przedstawiony jako suma
podzbiorów przestrzeni  należących do klasy Gx. Są to cztery możliwości:
a. Jeżeli
r < x1,
to H(r) =
b. Jeżeli
r = xk,
to H(r)
,
a zbiór pusty należy do Gx
k
=
G(xi)
i=1
k
c. Jeżeli
xk < r < xk+1, to H(r)
=

G(xi)
i=1
w
d. Jeżeli
xw < r,
to H(r)
=

G(xi) = 
i=1
Zatem każdy zbiór należący do klasy Hx jest sumą zbiorów należących do
klasy Gx:
H(r)
=  G(xi)
xir
(i)
Jeżeli do minimalnej ze względu na zmienną X klasy Sx należy
podzbiór A przestrzeni , to jest on sumą jednego lub więcej podzbiorów
należących do klasy Gx i odwrotnie.
(ii) Jeżeli jakiś podzbiór A przestrzeni  jest sumą jednego lub więcej
podzbiorów należących do klasy Gx, to należy on do minimalnej ze względu
na zmienną X klasy Sx.
Mówiąc nieco swobodniej powiemy, że do klasy Sx należą wszystkie takie
i tylko takie podzbiory przestrzeni , które można wyodrębnić ze względu
wartości funkcji X przyporządkowane ich elementom.
Drugie z tych twierdzeń (ii) jest oczywiste. Ponieważ w Sx zawarta jest
klasa Hx, co wynika z definicji zmiennej losowej, jest zawarta w Sx także
klasa Gx. Natomiast, jeżeli do Sx należą podzbiory stanowiące klasę Gx, to
należą także do niej ich sumy, gdyż jest ona klasą addytywną.
Prawdziwość twierdzenia poprzedniego wynika stąd, że:
a. klasa Gx jest zawarta w Sx,
b. każdy zbiór będący iloczynem zbiorów należących do klasy
Hx sam do klasy tej należy,
c. każdy element klasy Hx jest sumą zbiorów z klasy Gx,
d. klasa Gx składa się ze zbiorów parami rozłącznych, a suma
wszystkich jest równa przestrzeni ,
e. każdy zbiór, który do Sx należy dlatego, że jest
dopełnieniem lub sumą zbiorów z klasy Hx jest sumą
zbiorów z klasy Gx.
Zatem każdy element Sx jest sumą elementów klasy Gx i każda taka suma
należy do Sx.
23
Jeżeli dla jakiejś zmiennej X o skończonej liczbie wartości określony
jest rozkład prawdopodobieństwa zmiennej, to określona jest funkcja prawdopodobieństwa px oraz dystrybuanta Fx.
W minimalnej ze względu na zmienną X klasie Sx zawarta jest klasa Hx.
Zatem jest w niej zawarta klasa Gx. Funkcja prawdopodobieństwa px jest
obcięciem rozkładu zmiennej X do klasy Hx.
Jeżeli dla jakiejś zmiennej losowej X o skończonej liczbie wartości
określona jest funkcja prawdopodobieństwa px, to jest dla niej określona
także dystrybuanta Fx.
 Fx(r) = 
px(xi)
r
xir
Jeżeli dla jakiejś zmiennej X o skończonej liczbie wartości określona
jest dystrybuanta Fx, to jest dla niej określona funkcja prawdopodobieństwa px:
px(x1) = Fx(x1)
 px(xi) = Fx(xi) - Fx(xi-1)
i>1
Wynika to z relacji zachodzących między zbiorami należącymi do klas Gx
oraz Hx:
H(x1)= G(x1), stąd px(x1) = Fx (x1)
 G(xi)+H(xi-1) = H(xi)  G(xi)  H(xi-1) = 
i>1
stąd
 p (xi) + Fx(xi-1) = Fx(xi)
i>1 x
Jeżeli dla jakiejś zmiennej X o skończonej liczbie wartości określona
jest dystrybuanta Fx, to jest określona funkcja Px - rozkład prawdopodobieństwa tej zmiennej.
Inaczej mówiąc znajomość dystrybuanty Fx wystarcza dla przyporządkowania wartości funkcji P każdemu podzbiorowi przestrzeni 
należącemu do klasy Sx. Każdy podzbiór przestrzeni  należący do Sx może
być przedstawiony jako suma rozłącznych podzbiorów należących do klasy Gx.
Funkcja prawdopodobieństwa px przyporządkowuje prawdopodobieństwa
wszystkim elementom klasy Gx. Funkcja px jest określona, jeżeli jest
określona dystrybuanta Fx.
Wynika z tego, że zarówno dystrybuanta Fx jak i funkcja prawdopodobieństwa px wyznaczają rozkład prawdopodobieństwa Px zmiennej X
o skończonej liczbie wartości.
Żadna z tych trzech funkcji: px, Fx, Px nie określa wartości P dla
takich podzbiorów przestrzeni , które należą do klasy S lecz nie należą
do minimalnej ze względu na zmienną X klasy Sx.
Jest do pomyślenia sytuacja, gdzie na tej samej przestrzeni 
określone są dwie funkcje X i Y. Niech klasa S zawiera w sobie klasę Sx
minimalną ze względu na zmienną X oraz klasę Sy minimalną ze względu na
zmienną Y.
Na przykład zbiór elementów przestrzeni , którym funkcja Y przyporządkowuje wartość y2 należy do klasy Sy, zatem należy do klasy S.
Znając tylko rozkład prawdopodobieństwa zmiennej X określony na klasie Sx
nie możemy określić wartości funkcji P przyporządkowanej zbiorowi {w:
Y(w)=y2} należącemu do Sy z wyjątkiem przypadku, gdy zbiór ten ze względu
24
na przyporządkowane jego elementom wartości zmiennej X należy do klasy Sx,
co miałoby miejsce np. wtedy, gdy zachodziłaby równość:
{w: Y(w) = y2} = {w: X(w)=x1  X(w)=x3}
Wówczas zachodziłaby bowiem równość następująca:
Py ({w: Y(w)=y2}) = Px ({w: X(w)=x1  X(w)=x3})
Dysponując dwiema (lub większą ich liczbą) zmiennymi określonymi na tej
samej przestrzeni  moglibyśmy chcieć rozważać je łącznie. Są dwa sposoby
postępowania w takiej sytuacji. Są one całkowicie równoważne.
Można dwie zmienne traktować jako jedną, której wartościami są pary
liczb. Zamiast pisać, że X(w)=xi & Y(w)=yj można zmienne te oznaczyć jednym symbolem XY i pisać XY(w)= <xi,yj> . O zmiennej XY mówimy, że jest ona
zmienną dwuwymiarową. Dla takiej dwuwymiarowej zmiennej można zdefiniować
klasę Gxy złożoną z podzbiorów przestrzeni  zawierających elementy
przestrzeni, którym funkcja XY przyporządkowuje tę samą parę liczb.
G(r,s) = {w: XY(w) = <r,s>}
 G(r,s)  Gxy
r,s
W analogiczny sposób można zdefiniować klasę Hxy złożoną z podzbiorów:
H(r,s) = {w: XY(w)  <r,s>}

r,s
H(r,s)  Hxy
gdzie relacja <a,b>  <r,s> zachodzi wtedy i tylko wtedy, gdy
ar & bs.
Pozwala to zdefiniować funkcje: rozkład prawdopodobieństwa zmiennej XY,
dystrybuantę zmiennej XY oraz jej funkcję prawdopodobieństwa.
pxy(r,s) = P(G(r,s))
Fxy(r,s) = P(H(r,s))
Pxy(A)
= P(A)
gdzie A jest elementem minimalnej ze względu na zmienną XY klasą Sxy
Można postępować inaczej i zmienne te konsekwentnie traktować jako dwie
różne funkcje X oraz Y, a definiować nowe obiekty: klasę Gxy złożoną
z podzbiorów G(r,s) wyznaczonych ze względu na dwie zmienne X i Y jednocześnie:
G(r,s) = {w: X(w)=r & Y(w)=s}
klasę Hx,y złożoną z podzbiorów H(r,s) wyznaczonych ze względu na dwie
zmienne X i Y jednocześnie:
H(r,s) = {w: X(w)r & Y(w)s}
Różnice mają charakter stylistyczny, oba podejścia są równoważne.
Będziemy stosować drugie i mówić o łącznym rozkładzie dwu zmiennych X i Y
a nie o rozkładzie dwuwymiarowej zmiennej XY. Ten łączny rozkład dwu
zmiennych jest jednoznacznie określony przez łączną dystrybuantę tych
zmiennych Fx,y:
Fx,y(r,s) = P(H(r,s)) = P({w: X(w)r & Y(w)s})
25
co można zapisać inaczej
Fx,y(r,s) = P(Xr & Ys)
Łączny rozkład dwu zmiennych jest też jednoznacznie określony przez
łączną funkcję prawdopodobieństwa tych zmiennych px,y:
pxy(r,s) = P(G(r,s)) =
P({w: X(w)=r & Y(w)=s})
którą też można zapisać inaczej
pxy (r,s) = P(X=r & Y=s)
Odpowiednią minimalną ze względu na dwie zmienne X i Y łącznie klasę S
zawierającą klasę Hx,y oznaczymy Sx,y.
Zmienna losowa (jedna lub więcej) związana jest z trójką obiektów
spełniających postulaty rachunku prawdopodobieństwa. Są nimi przestrzeń
, na której zmienna ta jest określona. Minimalna ze względu na tę
zmienną klasę S podzbiorów przestrzeni oraz funkcja - rozkład prawdopodobieństwa zmiennej losowej - określona na tej minimalnej klasie S i
spełniająca postulaty nałożone na funkcję P.
W przypadku jednej zmiennej X elementy tej trójki oznaczymy: , Sx,
Px. Trójka taka może być "zanurzona" w obszerniejszej trójce: , S, P,
gdzie np. S jest klasą wszystkich podzbiorów przestrzeni  o skończonej
liczbie elementów, a funkcja P jest funkcją prawdopodobieństwa określoną
na S. Trójka , S, P określa w sposób jednoznaczny trójkę , St, Pt dla
każdej zmiennej losowej T określonej na przestrzeni  pod warunkiem,
że klasa St tej zmiennej jest zawarta w klasie S. Rozkład zmiennej T
oznaczony Pt jest wtedy obcięciem funkcji P określonej na S do St,
a przestrzenie obu trójek są identyczne.
}}}}
W poprzednim rozdziale przedstawiliśmy dwie rózne interpretacje przestrzeni . Wedle jednej mogłaby to być zbiorowość statystyczna, wedle
drugiej - zbiór możliwych wyników doświadczenia losowego.
Utożsamianie przestrzeni  ze zbiorowością statystyczną pozwala na
naturalne traktowanie zmiennej statystycznej będącej funkcją rzeczywistą
określaną na tej skończonej zbiorowości jako zmiennej losowej. Wówczas
rozkład zmiennej statystycznej może być traktowany jako rozkład prawdopodobieństwa zmiennej statystycznej, która jest zmienną losową.
Pokazaliśmy bowiem wcześniej, że znana ze statystyki opisowej funkcja
częstość P posiada własności funkcji P z rachunku prawdopodobieństwa.
Moglibyśmy łatwo pokazać, że rozkład częstości zmiennej statystycznej
jest funkcją prawdopodobieństwa tej zmiennej traktowanej jako losowa,
a dystrybuanta zmiennej statystycznej i dystrybuanta zmiennej losowej są
identyczne.
Wypada w tym miejscu napisać, choć to oczywiste, że zmienna statystyczna określona w skończonej zbiorowości statystycznej jest zawsze zmienną
losową skokową mającą skończoną liczbę wartości.
Znamy inne uzasdnienie dla traktowania zmiennej statystycznej jako
losowej. Jego ideę również przedstawiliśmy w poprzednim rozdziale. Należy
zdefiniować fikcyjne doświadczenie polegające na losowaniu ze zbiorowości
statystycznej pojedyńczej jednostki w sposób gwarantujący każdej jednostce
takie samo prawdopodobieństwo bycia wylosowaną. Przestrzeń wyników takiego
doświadczenia składa się z tylu elementów, z ilu składa się zbiorowość
statystyczna. Wygodnie jest przyjmować, że i-tym elementem przestrzeni
możliwych wyników takiego doświadczenia jest wynik polegający na wylosowaniu i-tego elementu zbiorowości statystycznej. Zmienna losowa przyporządkowuje i-temu elementowi przestrzeni wyników doświadczenia tę samą
liczbę rzeczywistą, którą i-temu elementowi zbiorowości statystycznej
przyporządkowuje zmienna statystyczna. Nie jest nadużyciem oznaczanie obu
tych zmiennych tym samym symbolem i utożsamianie obu tych przestrzeni.
26
Odpowiednim elementom obu przestrzeni obie zmienne przyporządkowują te
same wartości.
Dla skończonego zbioru możliwych wyników takiego fikcyjnego doświadczenia losowego  istnieje klasa S wszystkich jego podzbiorów. Do tej
klasy należą wszystkie jednoelemtowe podzbiory przestrzeni .
Założyliśmy, że w tym fikcyjnym losowaniu każda jednostka statystyczna ma
to samo prawdopodobieństwo bycia wylosowaną. Każdemu jednoelementowemu
podzbiorowi jest zatem przyporządkowana ta sama wartość funkcji P.
Liczebność zbiorowości statystycznej oznaczyliśmy n, zatem przestrzeń
możliwych wyników doświadczenia też liczy n elementów.
 = {w1, w2, ..., wn},

i
{wi}  S, zatem

i
P({wi}) = c

A
|  N()  n
A  S
n
 P({wi}) = n*c =1
i=1
zatem

i
P ({wi}) = 1/n
Pozwala to na odtworzenie wartości funkcji P przyporządkowanych każdemu
podzbiorowi przestrzeni , gdyż każdy z nich jest sumą rozłącznych
podzbiorów jednoelementowych.
 P(A)
AS
=
N(A)
 =
N()
|A| / n
Jeżeli na zbiorowości statystycznej określona jest zmienna statystyczna
X, to na przestrzeni wyników naszego fikcyjnego doświadczenia określona
jest zmienna losowa o tych samych wartościach. Będziemy o niej mówili jak
o zmiennej losowej X. Jest dla niej określona trójka: , Sx, Px
"zanurzona w trójce: , S, P o ustalonych już własnościach.
Funkcja prawdopodobieństwa tej zmiennej losowej X jest identyczna
z rozkładem częstości zmiennej statystycznej X:

i
px (xi)
=
wartość funkcji prawdopodobieństwa
zmiennej losowej X
P (X = xi)
częstość z rozkładu częstości
zmiennej statystycznej X
Podobnie, dystrybuanta zmiennej losowej X jest identyczna z rozkładem
częstości skumulowanych zmiennej statystycznej X:

r
Fx (r)
wartość dystrubuanty w punkcie r
zmiennej losowej X
=
P (X 
r)
częstość skumulowana dla
r zmiennej statystycznej X
Można mówić o rozkładzie zmiennej statystycznej X w zbiorowości
statystycznej jako o funkcji przyporządkowującej częstości podzbiorom
zbiorowości statystycznej wyodrębnionym ze względu na wartości tej zmien-
27
nej.
X.
Jest on identyczny z rozkładem prawdopodobieństwa zmiennej losowej
Mając to wszystko na uwadze będziemy zmienną statystyczną traktowali
jako szczególny przypadek zmiennej losowej skokowej. Kończąc tę kwestię
należy zauważyć, że z jakąś jedną zmienną statystyczną X określoną
w pewnej zbiorowości statystycznej związanych może być kilka zmiennych
losowych mających identyczne wartości lecz różne rozkłady prawdopodobieństwa. Niech będzie zbiorowość złożona z 10 osób i określona w niej
zmienna statystyczna X - wiek osoby. Wyobraź sobie trzy różne doświadczenia losowe: pierwsze z nich niech polega na losowaniu jednej osoby
z jednakowymi dla wszystkich prawdopodobieństwami, drugie na losowaniu
jednej osoby z prawdopodobieństwami proporcjonalnymi do ich wagi,
a trzecie z prawdopodobieństwami proporcjonalnymi do ich wzrostu. Rozkłady
prawdopodobieństw zmiennej wzrost osoby wyznaczone dla każdego z tych
doświadczeń byłyby różne i tylko pierwszy z nich byłby identyczny
z rozkładem częstości zmiennej X w zbiorowości statystycznej. Dwa
pozostałe będą się od tego rozkładu różnić, poza przypadkiem, gdzie i wiek
i waga oraz wiek i ciężar są zmiennymi w zbiorowości statystycznej
stochastycznie niezależnymi.
O dwu zmiennych mówimy tutaj, że są one identyczne, jeżeli są określone
na elementach tej samej przestrzeni i przyporządkowują im obie te same
wartości. W kosekwencji ich rozkłady prawdopodobieństw są identyczne.
W omawianym przypadku mamy do czynienia z pozorną identycznością kilku
zmiennych "wiek" określonych w przestrzeniach możliwych wyników trzech
różnych doświadczeń. Przestrzenie te są równoliczne lecz nie są identyczne. Np. pierwsza zawiera element "wylosowano osobę nr 3 w losowaniu
z jednakowymi prawdopodobieństwami". Odpowiednikiem tego elementu
w przestrzeni wyników drugiego doświadczenia jest element "wylosowano
osobę 3 w losowaniu z prawdopodobieństwami proporcjonalnymi do wagi osób".
Nie są to elementy identyczne. Zatem przestrzenie te nie są tą samą jedną
przestrzenią, a zmienne nie są identyczne. W kosekwencji mogą mieć różne
rozkłady.
Wprowadziwszy pojęcie zmiennej losowej i rozkładu prawdopodobieństwa
tej zmiennej należałoby zdefiniować parametry charakteryzujące ten
rozkład. Nie będziemy musieli tego robić teraz, gdyż zostały one zdefiniowane we wcześniejszych rozdziałach tego skryptu jako parametry rozkładu
zmiennej statystycznej w skończonej zbiorowości statystycznej. Należy
tylko we wszystkich przedstawionych tam definicjach zastąpić częstości
przez prawdopodobieństwa. co jest zabiegiem jedynie stylistycznym wobec
tego, że częstość jest prawdopodobieństwem.
Np. średnią zmiennej statystycznej oznaczono tam E(X) i zdefiniowano
jako wartość wyrażenia arytmetycznego:
E(X)
=
k
 xi * P(X=xi)
i=1
gdzie P(X=xi) interpretowano jako częstości w całej zbiorowości
statystycznej takich jednostek obserwacji, którym zmienna X przypisuje wartość xi:
P(X=xi) = N(X=xi)/N()
Średnia zmiennej losowej X, którą również oznaczamy E(X) , nazywamy
wartość wyrażenia arytmetycznego, którego zapis niczym nie różni się od
poprzedniego:
28
E(X)
=
k
 xi * P(X=xi)
i=1
gdzie P(X=xi) interpretuje się jako prawdopodobieństwo zdarzenia
polegającego na tym, że zmienna losowa przyjmuje (ma) wartość xi,
czyli jako wartość funkcji prawdopodobieństwa px zmiennej losowej X
w punkcie xi:
Należy zalecić Czytelnikowi, by zechciał pamiętać, że zmienne statystyczne, o których była mowa we wcześniejszych rozdziałach są szczególnym
przypadkiem zmiennych losowych. Przedstawione tam definicje i twierdzenia
dotyczące zmiennych statystycznych należy ekstrapolować na wszelkie losowe
zmienne skokowe. Jedynymi wyjątkami są te definicje i twierdzenia,
w których zamiast częstości występują liczebności. Trzeba bowiem pamiętać,
że zmienna losowa o skończonej liczbie wartości może być określona
w przestrzeni o nieskończonej liczbie elementów, gdzie podzbiorom nie
przyporządkowujemy liczebności.
Na szczególną uwagę zasługują takie bardzo ogólne twierdzenia mówiące,
że funkcja zmiennej losowej jest sama zmienną losową, definicje wprowadzające pojęcia: łącznego rozkładu zmiennych losowych, brzegowego rozkładu
zmiennej losowej i warunkowych rozkładów zmiennej losowej, definicje
różnych typów relacji między zmiennymi losowymi itd.
Po tej obszernej dygresji wrócimy do zasadniczego toku wykładu
i zajmiemy się zmiennymi losowymi, które przyjmują wszystkie wartości
z pewnego przedziału liczb rzeczywistych.
Zmienną losową X będziemy nazywać zmienną losową ciągłą wtedy i tylko
wtedy, gdy zbiór jej wartości jest zbiorem wszystkich liczb rzeczywistych
z przedziału o niezerowej długości,


X(w)=r
&

a  X(w)  b
r<a,b) w
w
a<b
r
oraz jej dystrybuanta jest funkcją w tym przedziale ciągłą.
Nie jest tak, by każda zmienna losowa była albo zmienną skokową
o skończonej liczbie wartości albo zmienną ciągłą w znaczeniu wprowadzonym
przez tę definicję. Np. zmienna losowa, której zbiór wartości składa się
z liczby 0 oraz wszystkich liczb z przedziału od 5.1 do 6.7 nie jest ani
zmienną o skończonej liczbie wartości, ani zmienną ciągłą. Nawet zmienna
przyjmująca wszystkie wartości z przedziału od 5.1 do 6.7 i tylko takie
wartości mogłaby nie być zmienną losową ciągłą w rozumieniu tej definicji,
gdyby jej dystrybuanta nie była w tym przedziale funkcją ciągłą.
Znajomość tych dwu wyróżnionych typów zmiennych wystarczy jednak dla
zrozumienia podstawowych idei wnioskowania statystycznego i daje wyobrażenie o różnorodności zmiennych. Tylko ku temu zmierzamy.
Ciągła zmienna przyporządkowuje każdemu elementowi przestrzeni liczbę
rzeczywistą z przedziału od jakiegoś a do jakiegoś b. Dla każdej liczby
rzeczywistej z tego przedziału istnieje co najmniej jeden taki element
przestrzeni , któremu zmienna ta przyporządkowuje tę właśnie wartość.
Jeżeli X jest zmienną losową ciągłą, to istnieje klasa S0 podzbiorów
przestrzeni  minimalna ze względu na tę zmienną zawierającą wszystkie
podzbiory H(r) określone dla tej zmiennej:
(a)
 H(r) = {w: X(w)  r}  S0
r
i tylko takie inne podzbiory przestrzeni, które do niej należeć muszą ze
względu na jej komplementarność i addytywność.
29
Ze względu na komplementarność należą do tej klasy S0 także dopełnienia
każdego zbioru H(r):
(b)

~H(r) = {w: X(w) > r}  S0
r
Ze względu na komplementarność i addytywność należą do S0 iloczyny każdego
zbioru H(r) z dopełnieniem każdego takiego zbioru:
(c)

H(s) & ~H(r) = ~(~H(s)  H(r))  S0
s,r
Ze względu na addytywność należą do S0 sumy każdej skończonej liczby
zbiorów już należących do S0:
(d)

i
Ai  S0  A1  A2  ...  An  S0
Minimalną ze względu na zmienną X klasę oznaczyliśmy wcześniej symbolem
Sx. Wówczas nie precyzowaliśmy jednak, czy klasa ta ma być addytywną czy
przeliczalnie addytywną. Klasa S0 jest tylko addytywną. Przyjmując
rozszerzoną wersję postulatu addytywności - addytywność przeliczalną
zdefiniujemy klasę S1 rozszerzając klasę S0 minimalną ze względu na
zmienną X do postaci zawierającej, poza wymienionymi już zbiorami, także
inne, które są ich przeliczalnymi sumami oraz ich dopełnieniami.
Jeżeli X jest zmienną losową ciągłą, to istnieje klas S1 podzbiorów
przestrzeni  minimalna ze względu na tę zmienną zawierającą wszystkie
podzbiory Hr określone dla tej zmiennej i tylko takie inne podzbiory
przestrzeni, które do niej należeć muszą ze względu na jej komplementarność i przeliczalną addytywność.
Klasa S1 poza zbiorami wymienionymi w punktach (a), (b), (c), (d)
i należącymi do S0 zawiera także następujące inne zbiory:
podzbiory G(r) należące do klasy Gx
(e)
 G(r) = {w: X(w) = r}  S1
r
podzbiory przestrzeni  złożone z elementów, którym zmienna X przyporządkowuje liczby z pewnego przedziału:
(f)
 {w: X(w)  r}  S1
r
(g)
 {w: X(w) < r}  S1
r<s
(h)
 {w: s  X(w) < r}  S1
r<s
(i)
 {w: s  X(w)  r}  S1
r<s
(j)

{w: s < X(w) < r}  S1
r<s
przeliczalne sumy zbiorów wymienionych typów oraz ich dopełnienia.
Nie należą do S1 nieprzeliczalne sumy takich zbiorów. Np. nie należy do
S1 podzbiór takich elementów przestrzeni , którym zmienna X przyporządkowuje liczby wymierne. Podzbiór ten jest sumą zbiorów z klasy Gx,
30
każdy z nich należy do S1. Jest on jednak sumą nieprzeliczalnej ilości
takich zbiorów. Zatem do S1 nie należy.
Nie będziemy uzasadniać przedstawionych konsekwencji przyjęcia
przeliczalnej addytywności jako własności minimalmej ze względu na zmienną
X klasy S. Wskażemy jedynie na dające się teraz zauważyć różnice między
zmiennymi skokowymi a ciągłymi.
Dla zmiennej skokowej X minimalna ze względu na tę zmienną klasa Sx
składa się z tych samych podzbiorów przestrzeni bez względu na to, czy
jest ona przeliczalnie addytywna, czy tylko addytywna. Klasa Hx takiej
zmiennej składa się bowiem ze skończonej liczby zbiorów, a przeliczalna
suma takich zbiorów, których liczba jest skończona, jest zawsze równa
jakiejś sumie skończonej liczby takich zbiorów. Inaczej mówiąc klasy S0
i S1 utworzone dla zmiennej skokowej byłyby identyczne. Dla zmiennej
ciągłej tak nie jest.
Dla ciągłej zmiennej X można określić, różną od S0, minimalną klasę S1
zawierającą prócz podzbiorów należących do S0 także inne, które są do niej
dołączone ze względu na przeliczalną addytywność klasy S1.
Klasa Sx minimalna ze względu na skokową zmienną X zawiera wszystkie
podzbiory przestrzeni, które można wyodrębnić ze względu na wartości przyporządkowane ich elementom przez tę zmienną.
Klasa S0 minimalna ze względu na ciągłą zmienną X nie zawiera wszystkich podzbiorów przestrzeni , które można wyodrębnić ze względu na tę
zmienną. Także klasa S1 określona ze względu na tę ciągłą zmienną X nie
zawiera wszystkich takich podzbiorów przestrzeni. Przykładem może być
wspomniany już zbiór elementów przestrzeni, którym zmienna przyporządkowuje liczby wymierne.
Jeżeli funkcja P jest określona na klasie S0 zmiennej losowej ciągłej
X, to jest ona także określona na klasie S1 tej zmiennej pod warunkiem,
że przyjmiemy przeliczalną addytywność funkcji P. Ponieważ nie wszystkie
dające się za pomocą funkcji X wyodrębnić podzbiory przestrzeni  należą
do S1, nie dla wszystkich podzbiorów przestrzeni wyodrębnionych ze względu
na wartości zmiennej wartość funkcji P może być określona. Pytanie, jakie
jest prawdopodobieństwo tego, że zmienna ciągła przyjmie wartość będącą
liczbą rzeczywistą musi pozostać otwartym.
Pamiętamy, że funkcja P może być określona na dowolnej klasie S
zawierającej w sobie klasę S1 interesującej nas zmiennej X. Funkcję P
obciętą do klasy S1 określonej ze względu na ciągłą zmienną losową X nazywamy rozkładem prawdopodobieństwa tej zmiennej.
Dystrybuanty ciągłej zmiennej losowej X będąca obcięciem funkcji P
określonej na klasie S do klasy Hx pozwala odtworzyć wartości funkcji P
dla wszystkich elementów klasy S1. Inaczej mówiąc, dystrybuanta zmiennej
ciągłej, podobnie jak dystrybuanta zmiennej skokowej, określa jednoznacznie rozkład prawdopodobieństwa zmiennej losowej.
Załóżmy, że znamy dystrybuantę zmiennej X, czyli funkcję, która każdej
liczbie rzeczywistej przyporządkowuje wartość funkcji P, która jest przypisana przez funkcję P odpowiedniemu zbiorowi Hr.
Fx(r) = P(H(r)) = P({w: X(w)  r})
Korzystając ze znanych własności funkcji P możemy na podstawie informacji zawartych w dystrybuancie odtworzyć wartości P dla wszystkich
podzbiorów przestrzeni  należących do klasy S0:
(a)
P (H(r)) = Fx (r)
(b)
P (~H(r)) = 1 - Fx (r)
(c)
P ({w: r < X(w)  s}) = Fx (s) - Fx (r)
(d)
Wartość funkcji P przyporządkowana skończonej sumie "odcinków"
jest równa sumie wartości funkcji P przyporządkowanych "odcinkom"
rozłącznym, które tamte dokładnie pokrywają.
Bez dowodu przyjmiemy twierdzenie następujące:
Jeżeli zmienna X jest zmienną losową ciągłą, to jej funkcja prawdopodobieństwa jest funkcją stałą i równą 0.
31
(e)
 px(r) = P(G(r)) = P({w: X(w)r}) = 0
r
Korzystając z tego twierdzenia możemy wyznaczyć wartość funkcji P dla
podzbiorów należących do S1, które nie należały do S0
(f)
P({w: X(w)  r})
=
P({w: X(w) > r})
= 1 - Fx(r)
(g)
P({w: X(w) < r})
=
P({w: X(w)  r})
= Fx(r)
(h)
P({w: s  X(w) < r})
=
P({w: s  X(w)  r}) = Fx(s) - Fx(r)
(i)
P({w: s  X(w)  r})
=
P({w: s < X(w)  r}) = Fx(s) - Fx(r)
(j)
P({w: s < X(w) < r})
=
P({w: s < X(w)  r}) = Fx(s) - Fx(r)
Korzystając z tzw. twierdzenia o rozszerzeniu miary można pokazać,
że dystrybuanta zmiennej losowej ciągłej jednoznacznie określa wartości
funkcji P dla wszystkich pozostałych podzbiorów przestrzeni należących do
S1. Wykracza to jednak poza granice tego kursu.
Gęstość prawdopodobieństwa zmiennej losowej X w przedziale <c,s>
oznaczona gx (c,s) jest to iloraz wartości funkcji P przyporzadkowanej
zbiorowi elementów przestrzeni, którym zmienna X przypisuje wartości
z tego przedziału oraz jego długości:
gx(c,s) =
P({w: c < X(w)  s})

s - c
=
Fx(s) - Fx(r)

s - c
Gęstością prawdopodobieństwa zmiennej X w jakimś przedziale jest zatem
prawdopodobieństwo tego, że zmienna X przyjmie (lub ma) wartość z tego
przedziału podzielone przez jego długość.
Rozważmy teraz gęstość prawdopodobieństwa zmiennej X w przedziale
<x0, x0->. należącym do lewostronnego otoczenia punktu x0. Długość tego
przedziału jest równa .
P({w: x0- < X(w)  x0})
gx (x0,x0-) = 

=
Fx(x0) - Fx(x0-)


Granicę tego ilorazu dla  dążącego do zera nazywamy gęstością prawdopodobieństwa zmiennej X w lewostronnym otoczeniu punktu x0.
Jeżeli istnieje gęstość prawdopodobieństwa zmiennej X w lewostronnym
otoczeniu punktu x0 i istnieje gęstość prawdopodobieństwa tej zmiennej
w prawostronnym otoczeniu punktu x0 i obie te gęstości są sobie równe,
to ich wspólną wielkość nazywamy gęstością prawdopodobieństwa zmiennej X
w punkcie x0 i oznaczamy fx(x0)

lim
0
=
P({w: x0- < X(w)  x0})
 = lim
0

Fx (x0) - Fx (x0-)
 = fx(x0)

Funkcję, która każdej liczbie rzeczywistej r przyporządkowuje gęstość
prawdopodobieństwa zmiennej X w tym punkcie r nazywamy funkcją gęstości
prawdopodobieństwa zmiennej X i oznaczamy f.
Następne twierdzenia, które przyjmiemy bez dowodów, przedstawiają
własności funkcji gęstości prawdopodobieństwa. Później przedstawimy
graficzną interpretację tych twierdzeń.
32
Funkcja gęstości prawdopodobieństwa zmiennej X jest pochodną dystrybuanty tej zmiennej.
fx(r) = Fx'(r)
Zatem wartość funkcji fx w punkcie r zdaje sprawę z nachylenia funkcji Fx
w tym punkcie.
Całka oznaczona funkcji gęstości prawdopodobieństwa zmiennej X
w przedziale <- ,+> jest równa 1.
+

fx(t) dt = 1
-
Czyli pole pod wykresem funkcji gęstości prawdopodobieństwa a nad osią X
jest równe 1.
Wartość dystrybuanty zmiennej losowej X w punkcie r jest równa całce
oznaczonej funkcji gęstości prawdopodobieństwa tej zmiennej w przedziale
<-,r) czyli polu pod funkcją gęstości nad tym przedziałem.
Fx(r)
r
=  fx(t) dt = 1
-
Zatem prawdziwym jest następujące twierdzenie:
Prawdopodobieństwo tego, że zmienna losowa X przyjmie (lub ma) wartość
z przedziału <c, s> jest równe całce oznaczonej funkcji gęstości tej
zmiennej w przedziale <c, s> czyli polu pod tą funkcją nad tym
przedziałem.
P(c < X  s) = Fx(s) - Fx(r) =
s
 fx(t) dt = 1
c
Zmienna losowa ciągłą swą nazwę zawdzięcza temu, że jej dystrybuanta
jest funkcją ciągłą. Istnieje pochodna tej ciągłej dystrubuanty, jest nią
funkcja gęstości prawdopodobieństwa.
Zmienna losowa o skończonej liczbie wartości ma dystrubuantę nieciągłą,
o skończonej liczbie punktów nieciągłości. Liczba punktów nieciągłości
jest równa liczbie wartości tej zmiennej. Gdyby dla zmiennej skokowej
usiłować określić funkcję gęstości prawdopodobieństwa okazała by się ona
prawie wszędzie równą 0, a w punktach nieciągłości dystrybuanty byłaby
nieokreśloną. Dystrybuantę zmiennej skokowej można przedstawić jako sumę
wartości funkcji prawdopodobieństwa. Dystrybuantę zmiennej ciągłej - jako
całkę funkcji gęstości.
Rozkład zmiennej losowej ciągłej charakteryzujemy za pomocą tych samych
parametrów, które służą do opisu rozkładu zmiennej o skokowej liczbie
wartości. Znane nam ich definicje zdają się być nieprzydatne do
wyznaczenia parametrów zmiennej ciągłej ze względu na występujące w nich
wartości funkcji prawdopodobieństwa zmiennej. Funkcja ta dla zmiennej
ciągłej jest funkcją stałą i równą 0, rozkładu takiej zmiennej nie
charakteryzuje wcale. Nie popełnimy jednak błędu mówiąc, że definicje te
są wystarczające dla obliczenia parametrów rozkładu zmiennej ciągłej
z dowolnie małym choć zwykle niezerowym błędem.
Rozważmy dla przykładu obliczanie średniej wartości zmiennej X,
ciągłej, która przyjmuje wszystkie wartości z jakiegoś przedziału od a do
b, powiedzmy od 10 do 15. Zakładamy, że znamy dystrybuantę zmiennej X.
Podzielmy zatem obszar zmienności na w=5 przedziałów o równej długości.
Długość każdego z nich jest równa (b-a)/w = 1. Znając dystrybuantę zmiennej X możemy każdemu przedziałowi przypisać prawdopodobieństwo tego, że
zmienna przyjmie lub ma wartość z tego przedziału. Biorąc jakikolwiek
33
przedział musimy pamiętać, że należą doń różne wartości zmiennej X.
Zastępując wszystkie wartości jedną liczbą będziemy popełniali błędy.
Jeżeli w każdym przedziale zastąpimy należące do niego wartości zmiennej
przez środek tego przedziału, będziemy się musieli liczyć z błędami, które
nie będą jednak większe od połowy długości tego przedziału.
Zastąpiwszy wartości zmiennej przez środki przedziałów, z czym wiążą
się znane błędy, możemy dla obliczenia średniej posłużyć się definicją
skonstruowaną dla zmiennej o skończonej liczbie wartości. Obliczymy
średnią zmiennej X jako sumę iloczynów środków przedziałów xi oraz prawdopodobieństw należenia do tych przedziałów pi. Błąd w oszacowaniu średniej
E(X) nie będzie większy od połowy długości przedziału (b-a)/w:
|E(X) -
w
 xi*pi|
i=1

0.5*(b-a)/w
W naszym przykładzie wartość bezwzględna błędu nie przekroczy 0.5.
Zwiększając liczbę przedziałów, czyli skracając ich długość, możemy
wielkość tego błędu, a właściwie jego górnej granicy, zmniejszać nieograniczenie nie osiągając nigdy zera.
Przez średnią zmiennej ciągłej X rozumiemy zatem granicę sum iloczynów
xi*pi dla w, będącego liczbą przedziałów o równej długości pokrywających
obszar zmienności losowej X, rosnącego nieograniczenie.
E(X)
=
lim
w
w
 xi pi
i=1
Osoby znające nieco analizę matematyczną zauważyły, że średnią zmiennej
X, ciągłej, można było zdefiniować inaczej, jako całka oznaczoną iloczynu
x * fx(x):
+
E(X) =
 x * fx(x) dx
-
Na koniec przedstawimy definicję kwantyla i modalnej skonstruowane
z myślą o zmiennych ciągłych.
Modalną Mo(X) zmiennej X jest taka liczba, dla której funkcja gęstości
prawdopodobieństwa zmiennej X osiąga wartość maksymalną.
r jest modalną zm.X
df


fx(r)  fx(s)
s
Modalna zmiennej ciągłej, podobnie jak modalna zmiennej skokowej, jest
zatem szczególnym rodzajem funkcji - przyporządkowuje rozkładowi zmiennej
zbiór liczb spełniających pewien warunek. Każda z nich zasługuje na to,
by ją nazywać wartością modalną zmiennej. W praktyce najczęściej spotykamy
się z takimi zmiennymi, które mają rozkłady jednomodalne, mają jedną tylko
modalną. Mówimy, że zmienna ma rozkład wielomodalny nie tylko wtedy, gdy
ma ona więcej niż jedną modalną, ale także wtedy, gdy jej funkcja gęstości
ma więcej niż jedno lokalne maksimum.
Kwantylnym k-tym rzędu n-tego Qk,n ciągłej zmiennej losowej X jest taka
liczba rzeczywista r, której dystrubuanta tej zmiennej przyporządkowuje
wartość k/n.
r jest k-tym kwantylem rzędu n
df
 Fx(r) = k/n
Podobnie jak w przypadku modalnej może być więcej niż jedna liczba
spełniająca ten warunek. Jest to możliwe, gdy nad pewnym wycinkiem obszaru
34
zmienności zmiennej X jej dystrybuanta jest funkcją stałą, a zatem funkcja
gęstości prawdopodobieństwa jest równa 0.
Kwantyle rzędu 4-go nazywamy kwartylami, kwantyle rzędu 10 - decylami.
Mediana jest kwantylem pierwszym rzędu drugiego. Jednocześnie jest 2-gim
kwartylem, 5-tym decylem, 50-tym centylem itd.
Ponieważ dalej nie będziemy musieli obliczać parametrów interesujących
nas zmiennych ciągłych, poprzestaniemy na stwierdzeniu, że rozkład zmiennej lub zmiennych ciągłych charakteryzujemy za pomocą tych zmiennych
parametrów, co rozkład zmiennej lub zmiennych o skończonej liczbie wartości i że sens tych parametrów jest w obu przypadkach identyczny.
Przedstawimy teraz przykłady trzech zmiennych ciągłych. Będą to zmienne
o rozkładach: prostokątnym, normalnym i 2.
Zmienną losową X przyjmującą wszystkie wartości z jakiegoś przedziału
(a, b> nazywamy zmienną losową o rozkładzie prostokątnym wtedy i tylko
wtedy, gdy dystrybuanta tej zmiennej jest w przedziale (a, b> funkcją
liniową, a poza tym przedziałem jest funkcją stałą.
Pamiętając o ogólnych własnościach dystrybuanty wyznaczymy dystrybuantę
zmiennej X o rozkładzie prostokątnym w sposób następujący. Dla każdej
liczby rzeczywistej r mniejszej od a, wartość dystrubuanty zmiennej X jest
równa 0, gdyż zbiór H(r) dla każdego r<a jest zbiorem pustym.
 P(H(r)) = P({w: X(w)  r} = P() = 0
r<a
Dla każdej liczby rzeczywistej r większej lub równej b, wartość dystrybuanty zmiennej X jest równa 1, gdyż zbiór H(r) dla każdego rb zawiera
całą przestrzeń  i przyporządkowana mu wartość funkcji P jest równa 1.
 P(H(r)) = P ({w: X(w)  r} = P () = 1
rb
Ponieważ dwa punkty wyznaczają prostą, dystrubuanta jest funkcją ciągłą
a w przedziale od a do b dystrybuanta zmiennej X jest właśnie prostą,
zatem została określona w całości:
Fx(r) =







0,
gdy r < a
r-a

b-a
=
a
1
 + r * ,
b-a
b-a
1,
gdy r  (a, b>
gdy
Funkcja gęstości prawdopodobieństwa zmiennej X
fx jest pochodną wyznaczonej już dystrubuanty
gdzie dystybuanta jest funkcją stałą, dodatnią
jest funkcją rosnącą i stałą, tam gdzie wzrost
funkcją gęstości jest równe 1. Zatem:
fx(r)=Fx'(r)
=







r  b
o rozkładzie prostokątnym
Fx. Jest ona równą 0 tam,
tam, gdzie dystrybuanta
ten jest liniowy. Pole pod
0,
gdy r < a
1
 ,
b-a
gdy r  (a, b)
0,
gdy r > b
Zgodnie z przyjętą definicją, funkcja gęstości nie jest określona
w punktach a i b, gdyż w tych punktach granica prawdopodobieństwa
w lewostronnym otoczeniu punktu nie jest równa granicy gęstości prawdopodobieństwa w prawostronnym jego otoczeniu.
35
Gęstość prawdopodobieństwa w każdym przedziale (c, s> zawartym
w przedziale (a, b> jest równa 1/(b-a).
 
c<s & c(a,b> & s(a,b>
s-a
c-a

- 
b-a
b-a
= 
s - c
=
s-c

b-a
 =
s-c
P({w: c<X(w)s})
 =
s-c
1

b-a
Zatem dla każdego punktu należącego do przedziału (a, b>
dopodobieństwa w punkcie jest równa 1/(b-a)

r(a,b)
fx(r) =
gęstość praw-
1

b-a
Poza obszarem (a, b> gęstość prawdopodobieństwa w każdym przedziale
(a, b) jest równa 0, gdyż prawdopodobieństwo tego, że zmienna X przyjmie
wartość z przedziału w całości leżącego poza obszarem (a, b) jest równa 0.
(c<s & sa  c>b)  P ({w: c < X(w)  s}) = 0
Zatem dla każdego punktu nie należącego do przedziału (a, b>
prawdopodobieństwa jest równa 0.

r(a,b)
gęstość
fx(r) = 0
Pozwala to uzasadnić twierdzenie o nieokreślonej funkcji gęstości
prawdopodobieństwa zmiennej losowej X w punktach a i b:
Fx(a) - Fx(a-)

 =
>0

<(b-a)
Fx(b) - Fx(b-)

 =
>0

<(b-a)
0
1
  =
b-a
1

b-a
 0 =
Fx(a+) - Fx(a)


Fx(b+) - Fx(b)


Przedstawimy teraz funkcję gęstości prawdopodobieństwa zmiennej X oraz
jej dystrybuantę na dwu sąsiednich wykresach.
36
Patrząc na oba rysunki przypomnijmy jeszcze raz własności funkcji gęstości
prawdopodobieństwa. Jest ona pochodną dystrybuanty, czyli zdaje sprawę
z jej nachylenia. Jest równa 0 tam, gdzie dystrybuanta jest funkcją stałą,
jest stała i dodatnia tam, gdzie dystrybuanta ma stałe nachylenie (liniowo
rośnie).
Pole pod funkcją gęstości a nad osią X to pole prostokąta o wysokości
1/(b-a) i długości podstawy równej (b-a), zatem pole to jest równe 1. Pole
nad jakimś przedziałem pod funkcją gęstości jest równe prawdopodobieństwu
tego, że zmienna przyjmie wartość z tego przedziału. Na rysunku zaznaczono
granice takiego przedziału (c, s> leżącego wewnątrz obszaru wartości
zmiennej X. Prawdopodobieństwo tego, że zmienna przyjmie wartość z tego
przedziału oznaczone jest na wykresie dystrybuanty jako Q - różnica wartości dystrybuanty Fx w punktach s oraz c. Na wykresie funkcji gęstości
prawdopodobieństwo to jest też oznaczone literą Q - jest to pole pod
funkcją gęstości a nad odcinkiem (c, s>. Łatwo sprawdzić, że miarą pola Q
i odcinka Q jest ta sama liczba (s-c)/(b-a).
Obliczymy teraz średnią wartość zmiennej X przyjmując, że jej wartość
maksymalna b=10, a od dołu zbiór jej wartości jest ograniczony przez
liczbę a=5. Podzielimy obszar zmienności (5, 10> na w=10 przedziałów
o równej długości. Każdy przedział ma swój numer i, dolną granicę di,
górną granicę gi, środek przedziału xi, prawdopodobieństwo tego,
że zmienna X przyjmie wartość należącą do tego przedziału pi.
To prawdopodobieństwo pi jest równe różnicy dystrybuanty w punktach gi
oraz pi. Wszystkie te wielkości umieszczone są w tablicy. Dwie ostatnie
jej kolumny zawierają składniki sum, które są oszacowaniami średniej
zmiennej X oraz wariancji tej zmiennej.
37
Obliczanie średniej i wariancji zmiennej X
(aproksymacja)
i di
gi
xi pi
xi*pi (xi-7.5)2*pi

1 5.0 5.5 5.25 0.1
0.525
0.50626
2 5.5 6.0 5.75 0.1
0.575
0.30525
3 6.0 6.5 6.25 0.1
0.625
0.15625
4 6.5 7.0 6.75 0.1
0.675
0.05625
5 7.0 7.5 7.25 0.1
0.725
0.00625
6 7.5 8.0 7.75 0.1
0.775
0.00625
7 8.0 8.5 8.25 0.1
0.825
0.05625
8 8.5 9.0 8.75 0.1
0.875
0.15625
9 9.0 9.5 9.25 0.1
0.925
0.30625
10 9.5 10.0 9.75 0.1
0.975
0.50625

7.500
2.06250
Średnia zmiennej X o rozkładzie prostokątnym przyjmująca wartości
z przedziału od 5 do 10 rzeczywiście jest równa środkowi tego obszaru
zmienności i wynosi 7.5. Uzyskaliśmy zatem dokładny rezultat.
Wariancja tej zmiennej została przez nas oszacowana jako 2.0625.
Zapewne dokładniejszy rezultat uzyskalibyśmy dzieląc obszar zmienności na
więcej niż 10 przedziałów. Np. dla w=20 uzyskalibyśmy przybliżoną wartość
wariancji zmiennej X równą 2.078125. W rzeczywistości wariancja jest
jeszcze nieco wyższa.
Medianą zmiennej X o rozkładzie prostokątnym jest zawsze środek jej
obszaru zmienności (a, b>:
Me(x) = (a+b)/2
Ogólnie, k-ty kwantyl rzędu n-tego takiej zmiennej wyznaczamy bez trudu
pamiętając o tym , że dystrybuanta jest w obszarze zmienności funkcją
liniową:
Qk,n = a + k*(b-a)/n
Modalną zmiennej X o rozkładzie prostokątnym jest każda liczba będąca
jej możliwą wartością, gdyż funkcja gęstości takiej zmiennej jest stałą
w całym obszarze zmienności

r(a,b>

s(a,b>
fx(r)  fx(s)
Zmienną losową X przyjmującą wszystkie wartości z przedziału (-, +)
nazywamy zmienną losową o rozkładzie normalnym wtedy i tylko wtedy, gdy
jej funkcja gęstości dana jest wzorem:
fx(r) =
1
 e
2
-(r-m)2

2
Krzywa opisana tym wzorem jest znana jako krzywa Gaussa. Jest symetryczna względem stałej m i przypomina kształtem dzwon, którego
spłaszczenie zależy od stałej . Funkcja ta ma jedno maksimum w punkcie m,
w obie strony od tego punktu maleje nie osiągając nigdzie zera.
Na dwu sąsiednich wykresach przedstawimy funkcję gęstości fx zmiennej
o rozkładzie normalnym oraz dystrubuantę Fx takiej zmiennej.
38
Średnia zmiennej X o rozkładzie normalnym jest równa parametrowi m jej
funkcji gęstości, a odchylenie standardowe jest równe parametrowi s tej
funkcji.
Nie będziemy tych własności dowodzić. Zauważymy tylko, że do pomyślenia
jest tyle zmiennych o różnych rozkładach normalnych, ile jest par liczb
rzeczywistych, z których druga jest liczbą dodatnią, średnia może być
liczbą ujemną, odchylenie standardowe tylko dodatnią. W dalszej części
tego skryptu będziemy korzystać z dwu twierdzeń o zmiennych mających
rozkłady normalne. Oba przyjmiemy bez dowodów.
Jeżeli funkcja X ma rozkład normalny, to zmienna Y = a + b*X będąca jej
liniową funkcją jest również zmienną o rozkładzie normalnym.
Jeżeli zmienne X i Y mają rozkłady normalne o tej samej średniej i tym
samym odchyleniu standardowym i są stochastycznie niezależne, to zmienna
W = X + Y będąca ich sumą jest również zmienną o rozkładzie normalnym.
Swoją nazwę rozkład normalny zawdzięcza błędnemu, jak się poźniej
okazało, przekonaniu, że rozkłady wszystkich zmiennych losowych występujących w przyrodzie są podobne do tego rozkładu. Dziś znamy wiele zmiennych, których rozkład nie jest podobny do rozkładu normalnego. Jest jednak
dostatecznie wiele takich, których rozkład jest do normalnego podobny, by
zachować jego dotychczasową nazwę.
Wypada w tym miejscu przybliżyć sens pojęcia podobieństwa dwu
rozkładów. Zwykle mówiąc o podobieństwie rozkładów dwu zmiennych X i Y
mamy na myśli jakąś ocenę funkcji będącej różnicą ich dystrybuant:
G(r) = Fx(r) - Fy(r)|
Jeżeli funkcja G dla każdego rzeczywistego r jest równa 0, mówimy,
że rozkłady zmiennych X i Y są identyczne. Moglibyśmy mówić, że ich
rozkłady są bardzo podobne, gdyby funkcja G dla każdego r nie przekraczała
jakiejś niewielkiej wartości. Jeżeli rozkłady dwu zmiennych są do siebie
podobne, to rozkład jednej bywa traktowany jako przybliżenie rozkładu
drugiej. Dokładniej mówiąc, dystrybuanty jednej z nich mogą być traktowane
jako oszacowania odpowiednich wartości dystrybuanty drugiej. Z tego,
że rozkłady dwu zmiennych są do siebie podobne lub nawet identyczne nie
wynika, że zmienne te są identyczne.
Zakończymy ten rozdział wzmianką o zmiennej mającej rozkład 2. Weźmy
k zmiennych losowych: U1, U2, U3, ... ,Uk. Niech każda z nich ma rozkład
normalny o średniej równej 0 i odchyleniu standardowym równym 1.
Niech zmienne te będą liniowo nieskorelowane:
39

i
E(Ui)=0
&
D2(Ui)=1
 rij = 0
ij
Rozkład zmiennej Yk będącej sumą kwadratów k zmiennych Ui nazywamy
rozkładem 2 o k stopniach swobody. Każdą zmienną mającą taki rozkład
nazywać będziemy zmienną o rozkładzie 2 i k stopniach swobody.
Y(k) =
k
 Ui2
i=1
Zmienna losowa mająca rozkład 2 o k stopniach swobody ma średnią równą
k i wariancję równą 2*k.
E(Y(k)) = k
D2(Y(k))= 2 * k
Zmienna mająca rozkład 2 przyjmuje tylko wartości nieujemne, zmienna
Y(k) jest sumą kwadratów. Przebieg funkcji gęstości prawdopodobieństwa
zmiennej o takim rozkładzie zależy tylko od jednego parametru - liczby
stopni swobody k - przyjmującego wartości naturalne: 1,2,3... . W miarę
jak k rośnie, rozkład 2 upodabnia się do rozkładu normalnego
o odpowiednich parametrach: średniej m=k i odchyleniu standardowym
s = 2*k. W praktyce przyjmuje się, że dla k  30 dystrybuanta zmiennej
o rozkładzie 2 jest dostatecznie podobna do dystrybuanty zmiennej
o odpowiednim rozkładzie normalnym, by dystrybuanty te utożsamiać i jedną
traktować jako przybliżenie drugiej.
Następny rysunek przedstawia funkcję gęstości prawdopodobieństwa zmiennej Y(k) dla kilku wartości k, dość jeszcze odległych od 30. Można jednak
już zauważyć stopniową symetryzację funkcji gęstości w miarę wzrostu k.
Rozklady CHI kwadrat
Analitycznej postaci funkcji gęstości prawdopodobieństwa podobnie jak
dystrybuanty dla zmiennej o rozkładzie 2 podawać nie będziemy.
przyszłości ograniczymy się i tak do odczytania potrzebnych wielkości
tablic przedstawiwjących funkcje odwrotne względem dystrybuant zmiennych
rozkładach 2 o różnych liczbach stopni swobody.
Termin liczba stopni "swobody" znajduje uzasadnienie w tym, że zmienna
mająca rozkład 2 może być przedstawiona jako suma innych k nieskorelowanych zmiennych.
i
W
z
o
40
Rozdział 3
POPULACJA I PRÓBA LOSOWA
rozkład zmiennej w populacji
rozkład zmiennej w konkretnej próbie
rozkład statystyki z próby w przestrzeni prób
parametry rozkładu średniej z próby
twierdzenie Czebyszewa
centralne twierdzenie graniczne
W dwu pierwszych częściach tego skryptu przyjmowano, że przedmiotem
badania statystycznego jest zbiorowość statystyczna, że jest ona badana
w całości i jej dotyczą sądy będące wynikiem badania. Takie badania
statystyczne, w którym zbiorowość badana i zbiorowość, której dotyczą sądy
będące wynikiem tego badania są tą samą zbiorowością, nazywamy badaniem
wyczerpującym.
Zbiorowość, której dotyczą sądy, będące wynikiem badania, nazywamy
populacją.
Populacja jest zatem przedmiotem badania statystycznego. W badaniu
wyczerpującym cała populacja zostaje zbadana.
Często zbadanie całej populacji nie jest możliwe. Wówczas badanie
statystyczne prowadzi się metodą reprezentacyjną. W metodzie reprezentacyjnej bada się podzbiór populacji i na podstawie wyników badania
statystycznego podzbioru populacji wypowiada się sądy o całej populacji.
Podzbiór populacji służący w metodzie reprezentacyjnej za podstawę dla
sądów o całej populacji nazywamy próbą z tej populacji.
Spośród wielu sposobów dobierania elementów populacji do próby zajmiemy
się tylko jednym - losowym doborem elementów próby. Wnioskowanie o pupulacji na podstawie wyników statystycznego badania próby złożonej z elementów wylosowanych z populacji prowadzone jest pod kontrolą rachunku
prawdopodobieństwa, jest w znacznym stopniu sformalizowane i dzięki temu
ma charakter intersubiektywny. Stopień zawodności i niedokładność takiego
wnioskowania podlegają jawnej ocenie przy użyciu porównywalnych mierników.
Próbę złożoną z elementów wylosowanych z populacji nazywamy próbą
losową.
Dalej będziemy się zajmowali wnioskowaniem o własnościach populacji na
podstawie wyników statystycznego badania próby wylosowanej z tej populacji. Należy zwrócić uwagę na to, że mówimy tu jednocześnie o dwu różnych
badaniach statystycznych. Pierwsze z nich jest wyczerpującym badaniem
próby losowej. Drugie obejmuje proces doboru próby oraz rozumowanie
prowadzące od wyników badania próby do sądów o całej populacji i jest
badaniem reprezentacyjnym. W skład tego drugiego badania wchodzi w całości
pierwsze - badanie próby.
Zanim przystąpimy do bardziej szczegółowego omówienia podstawowych
wiadomości o metodzie reprezentacyjnej przyjmijmy pewną wygodną umowę
terminologiczną.
Z jednej populacji  można wylosować wiele równolicznych lecz
różniących się składem lub porządkiem prób losowych.
Funkcję, która każdej n-elementowej próbie losowej pochodzącej z tej
samej populacji przyporządkowuje liczbę rzeczywistą nazywamy statystyką
z n-elementowej próby.
Z populacji  liczącej 50 osób można wylosować w sposób zwrotny 5010
różnych liczących po 10 elementów prób. Jeżeli w populacji określona jest
zmienna X - "wysokość zarobków", to każdej z tych prób przyporządkowana
jest wartość funkcji "średnia zarobków z dziesięcioelementowej próby".
Funkcja ta jest zgodnie z wprowa-dzoną definicją statystyką z próby.
Wartość funkcji - "statystyka z próby"- przyporządkowaną konkretnej
próbie nazywać będziemy "statystyką w próbie".
O średniej zarobków w konkretnej wylosowanej próbie będziemy zatem
mówili, że jest to "średnia zarobków w próbie". Jest ona wartością funkcji
"średnia zarobków z próby" określonej na zbiorze wszystkich możliwych do
wylosowania prób.
41
Zgłoski "z" oraz "w" odróżniać będą funkcję z próby od jej wartości
w próbie. Pokażemy później, że statystyka z próby jest zmienną losową,
a zatem statystyka w próbie jest wartością zmiennej losowej.
Dla jasnego zrozumienia mechanizmu umożliwiającego wnioskowanie
w badaniu reprezentacyjnym należy rozróżniać trzy typy rozkładów:
- rozkład zmiennej X w populacji,
- rozkład tej zmiennej X w konkretnej n-elementowej próbie wylosowanej z populacji,
- rozkład statystyki z n-elementowej próby w zbiorowości
złożonej ze wszystkich n-elementowych prób, które można wylosować z populacji.
Następnie należy zbadać związki łączące rozkłady należące do różnych
typów. Istnienie tych związków umożliwia wnioskowanie o populacji na podstawie wyników badania próby losowej.
Przedstawioną klasyfikację rozkładów zilustrujemy przykładem.
Wyobraźmy sobie maleńką populację
złożoną z czterech tylko jednostek:
 = {w1, w2, w3, w4}
Liczebność populacji oznaczymy literą m, żeby n zachować zgodnie
z tradycją dla oznaczenia liczebności próby.
N() = m = 4
Niech w populacji będzie określona zmienna X przyporządkowująca
poszczególnym jednostkom następujące wartości:
X(w1) = 0,
X(w2) = 1,
X(w3) = 2,
X(w3) = 3
Zbiór wartości zmiennej X składa się zatem z czterech elementów, jest
to zmienna o skończonej liczbie wartości, skokowa.
X = {0, 1, 2, 3}
Rozkład zmiennej X w populacji dany jest przez funkcję
prawdopodobieństwa px. Wyznaczymy ją bez trudu przyjmując, że funkcja częstości jest
funkcją prawdopodobieństwa.

xi
px(xi) = P(X=xi)

0
0.25
1
0.25
2
0.25
3
0.25

1.00
Równie łatwo możemy obliczyć parametry rozkładu zmiennej X w populacji
. Obliczymy średnią i wariancję.
E(X) =
E(X2)=
D2(X)=
 xi * px(xi)
 xi2 * px(xi)
E(X2) - (E(X))2
= 2.5
= 3.5
= 3.5 - 2.52 = 1.25
Z tej czteroelementowej populacji losować będziemy dwuelementowe próby.
Losować je będziemy ze zwracaniem i tak, by każda jednostka z populacji
miała w każdym losowaniu tę samą szansę bycia wylosowaną. Takie losowanie
nazywa się zwykle prostym i niezależnym. Wynikiem takiego losowania jest
zawsze n-elementowy ciąg utworzony z jednostek należących do m-elementowej populacji. Te same jednostki mogą w tym ciągu występować dzięki
zwrotności losowania wielokrotnie.
42
Istnieje zatem przestrzeń * możliwych wyników losowania
n-elementowej próby licząca mn różnych prób. Jest tak, gdyż każdym spośród
n elementów próby może być każda spośród m jednostek należących do populacji. W naszym przykładzie przestrzeń * składa się z 42=16 prób.
* = {<w1,w1>,
<w2,w1>,
<w3,w1>,
<w4,w1>,
<w1,w2>,
<w2,w2>,
<w3,w2>,
<w4,w2>,
<w1,w3>,
<w2,w3>,
<w3,w3>,
<w4,w3>,
<w1,w4>,
<w2,w4>,
<w3,w4>,
<w4,w4>}
Jeżeli populacja  jest skończona to i przestrzeń wszystkich
n-elementowych prób z tej populacji jest skończona.
Wówczas klasa podzbiorów przestrzeni prób * zawierająca wszytkie jej
podzbiory jest klasą S w rozumieniu rachunku prawdopodobieństwa. Klasę S
podzbiorów przestrzeni prób * oznaczymy symbolem S*.
Jeżeli do klasy S* należą wszystkie podzbiory przestrzeni *, to
należą do niej także wszystkie jej jednoelementowe podzbiory. Taki jednoelementowy podzbiór przestrzeni prób * zawiera jedną próbę:
{<wl1, wl2, wl3, ..., wln>}
gdzie li jest numerem tego elementu populacji , który został
wylosowany jako i-ty element l-tej próby.
Oznaczymy Lk,i zbiór prób tym się wyróżniających, że k-tym elementem
każdej z nich jest i-ty element populacji.
W naszym przykładzie zbiór na przykład L2,4 składa się z czterech prób,
drugim elementem każdej z nich jest czwarta jednostka z populacji .
L2,4 = {<w1,w4>, <w2,w4>, <w3,w4>, <w4,w4>}
Każdy zbiór Lk,i należy do klasy S* wszystkich podzbiorów przestrzeni
prób *.
Lk,i  S*
O losowaniu prób zakładamy tutaj, że jest to losowanie proste
i niezależne. Każdy element populacji ma w losowaniu każdego elementu
próby tę samą szansę bycia wylosowanym. Jest ona zatem równa 1/m.
W losowaniu zwrotnym wyniki losowania kolejnych elementów próby są kompletnie niezależne.
Sposób losowania w pełni określa funkcję prawdopodobieństwa P*
określoną na klasie S* podzbiorów przestrzeni prób *. Funkcja ta
spełnia dwa warunki, które przedstawimy wraz z ich ważniejszymi konsekwencjami.
Prawdopodobieństwo wylosowania takiej próby, której k-tym elementem
jest i-ta jednostka populacji P(Lk,i) jest takie samo dla każdego k-tego
elementu próby i każdej i-tej jednostki populacjii.

c

k

i
P(Lk,i) = c
Prawdopodobieństwo to jest równe 1/m, gdzie m jest liczebnością populacji , gdyż

k
m

i=1
P(Lk,i) = 1,
stąd
  P(Lk,i) = 1/m
k i
43
Zdarzenia L1,l1, L2,l2, L3,l3, ..., Ln,ln są kompletnie niezależne.
Każde ze zdarzeń Li,j polega na wylosowaniu takiej próby, której i-tym
elementem jest jakaś konkretna wj jednostka populacji . Iloczynem
n zdarzeń Li,li dla i=1,2,3,..., n jest zdarzenie polegające na wylosowaniu konkretnej próby <wl1, wl2, wl3, ..., wln>.
Prawdopodobieństwo wylosowania każdej konkretnej próby spośród mn
wszystkich prób jest takie samo i wynosi (1/m)n.


<l1,l2,l3,...,ln>
P (<wl1, wl2, wl3, ..., wln>) =
=
=
P (L1,l1 & L2,l2 & L3,l3 & .... & Ln,ln) =
P(L1,l1)*P(L2,l2)*P(L3,l3)* ... *P(Ln,ln) =
(1/m)n.
gdzie <l1, l2, l3, ..., ln> jest dowolnym ciągiem złożonym
z liczb naturalnych nie większych od m, w których te same
liczby mogą występować wielokrotnie.
Sens tych warunków zilustruje losowania dwuelementowych prób
z czteroelementowej populacji. Warunek pierwszy: dla każdego i=1,2,3,4
prawdopodobieństwo wylosowania i-tej jednostki populacji jako pierwszego
elementu próby jest takie samo jak prawdopodobieństwo wylosowania i-tej
jednostki jako drugiego elementu próby i jest równe 1/4. Dla i=1:
P({<w1,w1>, <w1,w2>, <w1,w3>, <w1,w4>}) =
= P({<w1,w1>, <w2,w1>, <w3,w1>, <w4,w1>}) = 1/4
co zgodnie z wprowadzonymi oznaczeniami zapisujemy:
P(L1,1) = P(L2,1) = 1/4
Jednocześnie prawdopodobieństwo wylosowania takiej próby, gdzie pierwszym
elementem jest i-ta jednostka populacji dla każdego i=1,2,3,4 jest równe
1/4.
P(L1,1) = P(L1,2) =P(L1,3) = P(L1,4) = 1/4
Podobnie, prawdopodobieństwo wylosowania takiej próby, gdzie drugim elementem jest jednostka i-ta, dla i=1,2,3,4 jest też równe 1/4.
P(L2,1) = P(L2,2) =P(L2,3) = P(L2,4) = 1/4
Warunek drugi ma dla naszego przykładu następujące konsekwencje: prawdopodobieństwo wylosowania takiej próby, w której pierwszym elementem
będzie i-ta jednostka populacji i jednocześnie drugim elementem będzie
jednostka j-ta, niekoniecznie różna od i-tej, jest równe iloczynowi prawdopodobieństwa wylosowania takiej próby, w której pierwszym elementem
będzie jednostka i-ta i prawdopodobieństwa wylosowania takiej próby,
w której drugim elementem będzie jednostka j-ta. Dla i=1 i j=3:
P ({<w1,w3>}) =
= P({<w1,w1>, <w1,w2>, <w1,w3>, <w1,w4>} &
{<w1,w3>, <w2,w3>, <w3,w3>, <w3,w3>}) =
= P({<w1,w1>, <w1,w2>, <w1,w3>, <w1,w4>}) *
P({<w1,w3>, <w2,w3>, <w3,w3>, <w3,w3>}) =
= 1/4 * 1/4 = 1/16
co można zapisać stosując przyjętą konwencję prościej:
P (L1,1 & L2,3) =P(L1,1) * P(L2,3) = 1/4 * 1/4 = 1/16
44
Sama fizyczna czynność losowania mogłaby mieć przebieg następujący.
Przygotowujemy m nierozróżnialnych kul oznaczonych numerami od 1 do m
i wrzucamy je do urny. Następnie losujemy z tej urny po jednej kuli,
n razy. Za każdym razem wylosowaną kulę po zapisaniu jej numeru zwracamy
urnie. Ciąg n numerów uzyskanych w ten sposób definiuje n-elementową próbę
wylosowaną w sposób prosty i niezależny. (Uwaga: kule muszą być
nierozróżnialne dla losującego i jednocześnie oznaczone dla zapisującego
numery.)
Rozważmy teraz wszystkie możliwe wyniki losowania dwuelementowej próby
z czteroelementowej populacji. Populacja i sposób losowania zostały
opisane wcześniej. Charakterystyki wszystich szesnastu możliwych do
wylosowania prób zostały umieszczone w tablicy. Jej zawartość zanalizujemy
na przykładzie jednej z prób, np trzeciej.
Próba losowa nr 3 jest zbiorowością statystyczną, oznaczamy ją 3.
Składa się z dwu jednostek należących do populacji .
3 = {w1, w3}
W próbie tej określona jest zmienna X. Zbiór jej wartości w tej próbie
jest dwuelementowy.
X(w1) = 0,
X(w3) = 2,
X = {0,2}
Dwuelementowe próby z czteroelementowej populacji
pierwszy
drugi
wartości
średnia
wariancja
element
element zmiennej X
zmiennej X
zmiennej X
próby
próby
w próbie
w próbie
w próbie
i
X(w1) X(w2)
xi
s2i
s*2i

1
w1
w1
0
0
0
0
0
2
w1
w2
0
1
0.5
0.25
0.5
3
w1
w3
0
2
1
1
2
4
w1
w4
0
3
1.5
2.25
4.5
5
w2
w1
1
0
0.5
0.25
0.5
6
w2
w2
1
1
1
0
0
7
w2
w3
1
2
1.5
0.25
0.5
8
w2
w4
1
3
2
1
2
9
w3
w1
2
0
1
1
2
10
w3
w2
2
1
1.5
0.25
0.5
11
w3
w3
2
2
2
0
0
12
w3
w4
2
3
2.5
0.25
0.5
13
w4
w1
3
0
1.5
2.25
4.5
14
w4
w2
3
1
2
1
2
15
w4
w3
3
2
2.5
0.25
0.5
16
w4
w4
3
3
3
0
0

nr
próby
Bez trudu wyznaczamy funkcję prawdopodobieństwa zmiennej X w tej
próbie. Przyjmujemy częstość jako prawdopodobieństwo.
xi Px(xi) = P(X=xi)

0
0.5
1
0.5

1.0
Możemy teraz policzyć parametry rozkładu zmiennej X w próbie. Średnia
zmiennej X w tej próbie jest równa 0*0.5 + 2*0.5 = 1. Średnia kwadratów
zmiennej X jest równa 02*0.5 + 22*0.5 = 2. Wariancja zmiennej X w tej
próbie jest zatem równa 2 - 12 = 1. Średnia i wariancja zostały wpisane
w odpowiednie kolumny trzeciego wiersza tablicy. Zawartością ostatniej
kolumny tablicy zajmiemy się nieco później.
45
Średnia zmiennej X w trzeciej próbie jest wartością funkcji "średnia
zmiennej X z dwuelementowej próby". Funkcja ta każdej z 16-tu prób przyporządkowuje liczbę będącą średnią zmiennej X w tej próbie. Średnia zmiennej X z dwuelementowej próby jest statystyką z próby. Funkcję "średnia
zmiennej X z n-elementowej próby" oznaczać będziemy X .
X : *  
Wartości zmiennej X dla kolejnych prób oznaczyliśmy w tablicy
x 1, x 2, x 3,.. . Wartością funkcji X "średnia zmiennej X z dwuelementowej
próby" dla trzeciej próby z naszego przykładu jest średnią zmiennej X
w tej trzeciej próbie.
X (<w1,w3>) = x 3 = 1
Podobnie, statystyką z próby jest "średnia kwadratu zmiennej X
z próby", obliczyliśmy jej wartość dla trzeciej próby. "Wariancja zmiennej
X z próby" jest również statystyką z próby. Tę ostatnią funkcję
oznaczyliśmy S2x. Gdy nie zachodzi obawa pomyłki, pomijamy symbol zmiennej
i piszemy S2. Wartość wariancji z próby dla próby trzeciej również
policzyliśmy:
S2 (<w1,w3>) = s23 = 1
W tablicy, w ostatniej kolumnie, przedstawiono wartości jeszcze jednej
statystyki z próby. Jest nią tzw. nieobciążony estymator wariancji zmiennej X w populacji. Oznaczyliśmy go tutaj S*2i. Wartość jego obliczmy w
każdej próbie jako sumę kwadratów odchyleń wartości zmiennej X dla
poszczególnych elementów próby od średniej zmiennej X w próbie podzieloną
przez liczebność próby zmniejszoną o 1.
 ((X(wli) - x k)2
2
S x (<wl1, wl2, wl3, ..., wln >) = 
n - 1
gdzie k jest numerem próby złożonej z elementów <wl1, wl2, wl3, ...,
wln>
Każda statystyka z n-elementowej próby jest zmienną losową.
Statystyka z próby jest funkcją przyporządkowującą liczby rzeczywiste
elementom przestrzeni prób *. Dla skończonej populacji  przestrzeń prób
* jest skończona. Wcześniej dowiedliśmy, że każda funkcja rzeczywista
określona na skończonej przestrzeni jest zmienną losową. Statystyka
z próby jest w przypadku skończonej populacji taką funkcją.
Przypadek populacji o nieskończonej liczbie elementów możemy tu
pominąć. Chcąc go rozważyć należałoby nałożyć dodatkowe warunki na funkcję
rzeczywistą będącą statystyką z próby i wyraźnie związać statystykę z
próby ze zmiennymi losowymi określonymi w nieskończonej populacji.
Zapowiedzieliśmy wcześniej przedstawienie trzech typów rozkładów. Dotąd
rozważyliśmy jeden rozkład typu pierwszego - rozkład zmiennej X
w czteroelementowej populacji, szesnaście rozkładow drugiego typu - były
to rozkłady zmiennej X we wszystkich dwuelementowych próbach, które można
było wylosować z owej czteroelementowej populacji. Dokładniej:
rozważyliśmy jeden taki rozkład, informacje o pozostałych znajdują się
w tablicy. Teraz zajmiemy się rozkładem zmiennej, która jest statystyką
z próby, a zatem jest określona w przestrzeni możliwych do wylosowania
prób. Niech tą statystyką z próby będzie średnia z próby X . Znamy wartości tej funkcji dla każdej z 16 prób. Zbiór wartości zmiennej X składa
się z 7 elementów;
X = { 0, 0.5, 1, 1.5, 2, 2.5, 3 }
46
W naszym przykładzie prawdopodobieństwo wylosowania każdej z 16 prób
jest takie samo i wynosi 1/16. Bez trudu zatem wyznaczymy funkcję prawdopodobieństwa zmiennej losowej X - "średnia zmiennej X z dwuelementowej
próby":
i xi
ni
P( X = x i)
xi * P( X = x i)
x 2i * P( X = x i)

1 0
1
1/16
0/16
0.0/16
2 0.5
2
2/16
1/16
0.5/16
3 1
3
3/16
3/16
3.0/16
4 1.5
4
4/16
6/16
9.0/16
5 2
3
3/16
6/16
12.0/16
6 2.5
2
2/16
5/16
12.5/16
7 3
1
1/16
3/16
9.0/16

16
1.0
1.5
46.0/16 = 2.875
Przyjęte w tablicy oznaczenia nie odbiegają od standardowych: x i
oznacza i-tą z możliwych wartości zmiennej X , ni - liczbę prób, w których
zmienna X jest równa x i. Trzecia kolumna zawiera wartości funkcji
prawdopodobieństwa zmiennej X , a dwie ostatnie kolumny posłużyły do
obliczenia średniej zmiennej X oraz średniej kwadratu tej zmiennej.
Średnia zmiennej "średnia z próby"
E( X ) =  xi*P( X = x i) = 1.5
Średnia zmiennej "kwadrat średniej z próby"
E( X 2) =  x2i*P( X = x i) = 2.875
Wariancja zmiennej "średnia z próby"
D2( X ) = E( X
- E( X ))2 =
2
= E( X ) - (E( X ))2 = 2.875 -1.52 = 0.625
Zwykle nazwy tych parametrów skracamy jeszce bardziej i mówimy "średnia
średniej z próby", "średnia kwadratów średniej z próby" i "wariancja średniej z próby".
Określiliśmy zatem rozkład zmiennej będącej statystyką z próby
w zbiorze wszystkich dwuelementowych prób możliwych do wylosowania
z czteroelementowej populacji . Znając ten rozkład policzyliśmy niektóre
jego parametry. Dla określenia tego rozkładu były nam potrzebne wartości
statystyki z próby dla poszczególnych prób należących do przestrzeni prób
i prawdopodobieństwa wylosowania tych prób. Wartości statystyki dla
poszczególnych prób mogliśmy łatwo obliczyć znając skład tych prób. Znając
sposób losowania prób mogliśmy obliczyć prawdopodobieństwa wylosowania
każdej z nich.
W podobny sposób możemy wyznaczać rozkłady innych statystyk z próby.
Wariancja zmiennej X z próby oznaczona symbolem S2 ma czteroelementowy
zbiór wartości:
S2 = {0.00, 0.25, 1.00, 2.25}
47
Funkcja prawdopodobieństwa zmiennej S2 dana jest w tablicy:
i
s2i
ni
P(S2=s2i)
s2i * P(S2=s2i)
(s2i)2 * P(S2=s2i)

1 0.00
4
4/16
0.0/16
0.000/16
2 0.25
6
6/16
1.5/16
0.375/16
3 1.00
4
4/16
4.0/16
4.000/16
4 2.25
2
2/16
4.5/16
10.125/16

16
1.0
10.0/16=0.625
14.500/16 = 0.90625
Oznaczenia w tablicy nie odbiegają od standardowych:
s2i oznacza i-tą z możliwych wartości zmiennej S2, ni - liczbę takich
prób, w których zmienna S2 przyjmuje wartości s2i. Trzecia kolumna zawiera
wartości funkcji prawdopodobieństwa zmiennej S2, dwie następne kolumny
posłużyły do obliczenia średniej zmiennej S2 oraz średniej kwadratu tej
zmiennej.
Średnia wariancji z próby
E(S2)
Średnia kwadratu wariancji z próby
E((S2)2) =
0.90625
Wariancja wariancji z próby
D2(S2)
0.90625-0.6252= .515625
=
=
0.625
Wyznaczymy także rozkład "nieobciążonego estymatora wariancji zmiennej
X z dwuelementowej próby" zdefiniowanego wcześniej i oznaczonego S*2.
Bliżej tą statystyką z próby zajmiemy się w następnym rozdziale, gdzie wyjaśnione zostanie także znaczenie terminu "estymator". Statystyka S*2
w przestrzeni dwuelementowych prób * przyjmuje 4 różne wartości:
S*2 = {0.0, 0.5, 2.0, 4.5}
Funkcja prawdopodobieństwa zmiennej S*2 dana jest w tablicy:
i s*2i ni
P(S*2=s*2i)
s*2i * P(S*2=s2i)
(s*2i)2 * P(S*2=s*2i)

1 0.0
6
6/16
3/16
1.5/16
3 2.0
4
4/16
8/16
16.0/16
4 4.5
2
2/16
9/16
40.5/16

16
1
20/16=1.25
58.0/16=3.625
Oznaczenia w tej tablicy również nie odbiegają od standardowych i nie
będziemy ich przypominać.
Średnia statystyki S*2:
E(S*2) = 1.25
Średnia kwadratów statystyki S*2:
E(S*2)2 = 3.625
Wariancja statystyki S*2:
D2(S*2) = 3.625-(1.25)2=2.0625
Dysponując rozkładem zmiennej w populacji możemy w podobny sposób
wyznaczyć rozkład dowolnej statystyki z próby będącej funkcją wartości tej
zmiennej dla poszczególnych elementów próby. Jedyna trudność mogłaby powstać z tej przyczyny, że zbiór wszystkich n-elementowych prób losowych
pochodzących z m-elementowej populacji niekiedy jest dość liczny.
Istnieją statystyki z próby, które są funkcjami dwu lub więcej zmiennych jednocześnie. Powyższa uwaga ich również dotyczy. Rozkład statystyki
48
z próby jest funkcją sposobu losowania próby i rozkładów zmiennej lub
zmiennych, których funkcją jest dana statystyka z próby.
Rozkład statystyki z próby - "średnia zmiennej X z próby" jest funkcją
rozkładu zmiennej X w populacji i sposobu losowania próby. Rozkład
statystyki z próby -"współczynnik korelacji liniowej zmiennych X i Y
z próby" jest funkcją łącznego rozkładu zmiennych X i Y w populacji
i sposobu losowania próby.
Badając zależność rozkładu statystyki z próby od rozkładu zmiennej
w populacji nie zajmujemy się jeszcze wnioskowaniem statystycznym,
nie na tym ono polega. Formułujemy dopiero twierdzenia umożliwiające takie
wnioskowanie. Wnioskowanie statystyczne, najogólniej mówiąc, polega wypowiadaniu się o rozkładzie zmiennej w populacji na podstawie zaobserwowanej w wylosowanej próbie wartości statystyki z próby.
Przedstawimy teraz pewne związki między rozkładami statystyk z próby
a rozkładem zmiennej w populacji. Dotyczą one wartości kilku parametrów
tych rozkładów. Ograniczymy się do prób losowanych w sposób zwrotny
i z jednakowym dla wszystkich jednostek szansami.
Średnia statystyki z n-elementowej próby "średnia zmiennej X z próby"
jest równa średniej zmiennej w populacji.
E( X ) = E(X)
Dowód tego twierdzenia wymaga wprowadzenia nowej zmiennej "wartość
zmiennej X dla k-tego elementu próby losowej". Oznaczmy X1 funkcję, której
wartością dla danej próby jest wartość zmiennej X przyporządkowana jej
pierwszemu elementowi.
X1 : *  X
X1 (<wl1, wl2, wl3, ..., wln>) = X(wl1)
Każdy element populacji może zostać wylosowany jako pierwszy element
próby. Zbiór wartości funkcji X1 jest zatem równy zbiorowi wartości zmiennej X w populacji.
X1 = X
Funkcja X1 jest statystyką z próby, a zatem jest zmienną losową.
Ponieważ prawdopodobieństwo, że pierwszym elementem próby będzie i-ty
element populacji dla każdego i jest takie samo, więc funkcja prawdopodobieństwa zmiennej X1 jest taka sama jak funkcja częstości zmiennej X w
populacji.
Losując drugi element próby, lub jakikolwiek następny, znajdujemy się
dzięki zwrotności losowania w dokładnie takiej samej sytuacji jak losując
element pierwszy. Oznaczmy zatem Xk funkcję, której wartością jest wartość zmiennej X dla k-tego elementu próby. Prawdopodobieństwo wylosowania
takiej próby, której k-tym elementem będzie i-ta jednostka populacji jest
równe 1/m, gdzie m jest liczebnością populacji.
P(Lk,i) = 1/m
Dla każdej wartości xi zmiennej X prawdopodobieństwo, że zmienna Xk
dla wylosowanej próby przyjmie tę właśnie wartość jest równe częstości
występowania tej wartości zmiennej X w całej populacji, i jest tak dla
k=1,2,...,n.
P(Xk=xi) =

l: X(wl)=xi
N(X=xi)
P(Lk,l)= 
m
=
P(X=xi)
Sumowanie przebiegu po numerach wszystkich takich jednostek populacji,
którym zmienna X przyporządkowuje wartość xi.
49
Wszytkie zmienne Xk dla k=1,2,3,...,n mają identyczne rozkłady, równe
rozkładowi zmiennej X w populacji.
Pokazaliśmy już, że funkcje prawdopodobieństwa tych zmiennych są
identyczne i równe rozkładowi częstości zmiennej X w populacji. Zatem
odpowiednie parametry rozkładów tych zmiennych są także identyczne i równe
parametrom rozkładu zmiennej X w populacji. W szczególności:
E(Xk)
= E(X)
D2(Xk)
= D2(X)
Dowolne dwie zmienne Xq, Xk, gdzie q  k są stochastycznie niezależne.
P(Xk=xi & Xq=xj) = P(Xk=xi) * P(Xq=xj)
Dowód jest natychmiastowy i wynika z warunków nałożonych na funkcję
prawdopodobieństwa P* określoną na klasie S* podzbiorow przestrzeni prób
* przez sposób ich losowania.
P(Xk=xi & Xq=xj)
=

l: X(wl)=xi
u: X(wu)=xj
P(Lk,l & Lq,u) =
= 
P(Lk,l) * P(Lq,u) =
l: X(wl)=xi
u: X(wu)=xj
= N(X =xi) * N(X =xj) * 1/m * 1/m =
= P(X =xi) * P(X =xj)=
= P(Xk=xi) * P(Xq=xj)
Sumowanie przebiegało po wszystkich parach <l, u> numerów jednostek
populacji takich, że l-tej jednostce zmienna X przyporządkowuje wartość
xi a u-tej jednostce przyporządkowuje wartość xj. Par takich jest N(X=xi)
* N(X=xj). Zdarzenia L1,l1, L2,l2, ... Ln,ln są kompletnie niezależne
stochastycznie, zatem są też niezależne stochastycznie parami. Ponieważ
prawdopodobieństwo każdego z nich jest równe 1/m, zatem prawdopodobieństwo
iloczynu dowolnych dwu różnych spośród nich jest równe 1/m * 1/m.
Średnia zmiennej X w próbie losowej jest parametrem rozkładu zmiennej X
w konkretnej zbiorowości statystycznej, którą jest wylosowana próba.
Oznaczmy tę próbę t i niech się ona składa z elementów wt1, wt2, wt3, ...,
wtn. Średnią zmiennej X w tej próbie możemy zapisać na dwa sposoby:
X1(t) + X2(t) + ... + Xn(t)
X (t) =  =
n



X(wt1) + X(wt2) + ... + X(wtn)
= 




n
Liczba ta jest wartością zmiennej "średnia zmiennej X z próby". Zmienna
X jest zatem funkcją dopiero co wprowadzonych zmiennych X1, X2, ....,Xn:
X1 + X2 + ... + Xn
X = 
n
= 1/n *
n
 Xi
i=1
50
Średnia zmiennej "średnia z próby" jest zatem równa średniej
w populacji:
n
E( X ) = E(1/n *  Xi) = 1/n * E(  Xi) =
i=1
= 1/n *  E(Xi) = 1/n *  E(X) = 1/n * n * E(X) = E(X)
Wariancja zmiennej "średnia zmiennej X z próby" jest równa wariancji
zmiennej X w populacji podzielonej przez liczebność próby.
D2( X ) = 1/n * D2(X)
Wariancja zmiennej "średnia zmiennej X z próby" możemy przedstawić jako
funkcję wariancji zmiennych X1,X2,....,Xn.
Zmienne te są nieskorelowane i mają identyczne wariancje równe wariancji
zmiennej X w populacji.
D2(Xi)
C(Xi,Xj)
= D2(X)
= 0
n
D2( X ) = D2(1/n * Xi) = (1/n)2 * D2( Xi) =
i=1
= (1/n)2 * D2( Xi) =
= (1/n)2 * D2( X) =
= (1/n)2 * n * D2(X) =
= (1/n)
* D2(X)
Należy zauważyć, że wyznaczone przez nas wcześnie, w przykładzie
z losowaniem dwuelementowych prób z czteroelementowej populacji, parametry
rozkładu średniej z próby miały wartości zgodne z przedstawionymi
twierdzeniami:
E(X)
 E( X ) = 1.5
= 1.5
D2(X) = 1.25 & n=2
 D2( X ) = 1.25/2 = .625
Następne twierdzenie, tzw. nierówność Czebyszewa, ma znaczenie ogólniejsze. Zbadamy jednak tutaj także konsekwencje tej nierówności dla rozkładu zmiennej "średnia z próby".
Jeżeli zmienna W ma skończoną wariancję, to prawdopodobieństwo tego,
że przyjmie ona wartość różniącą się od swej średniej o  lub więcej jest
co najwyżej równe wariancji tej zmiennej podzielonej przez kwadrat .
P(|W-E(W)| )

D2(W)

2
Podstawmy za zmienną W średnią zmiennej X z n-elementowej próby losowanej w sposób prosty i niezależny. Wówczas nierówność Czebyszewa przyjmie
następującą postać:
51
P(| X -E( X )|  )

D2( X )

n2
ponieważ
W = X
E(W) = E( X ) = E(X)
i
D2(W) = D2( X ) = 1/n * D2(X)
Prawdopodobieństwo tego, że średnia z próby odchyli się od średniej
w populacji o  lub więcej nie jest większe od wariancji w populacji
podzielonej przez iloczyn liczebności próby i kwadratu stałej .
Zasadniczym problemem dla wnioskowania statystycznego jest problem
związku między rozkładem zmiennej lub zmiennych w populacji a rozkładem
statystyki z próby. Nierówność Czebyszewa ma dla tego problemu znaczenie
zasadnicze. Pokazuje bowiem związek między takimi rozkładami zachodzący
zawsze, bez względu na liczebność próby oraz typ rozkładu zmiennej
w populacji.
Praktyczne zastosowania nierówności Czebyszewa są jednak ograniczone.
Zwykle staramy się uzyskać informacje o prawdopodobieństwach dokładniejsze
od tych, jakie może ona dostarczyć.
Przedstawimy za Fellerem elegancki dowód nierówności Czebyszewa w jej
ogólnej postaci ale tylko dla zmiennych o skończonej liczbie wartości.
D2(X) =  (xi - E(X))2 * P(X-xi)
  2 * P(X=xi) =
i:|xi-E(X)|
 
(xi - E(X))2 * P(X=xi) 
i:|xi-E(X)|
2 * 
P(X=xi)
E(X)|i:|xi-
=
2 * P(|X-E(X)|)
zatem
2 * P(|X-E(X)|)  D2(X)
a stąd:
P(|X-E(X)|
 ) 
D2(X)

2
Dla zmiennych ciągłych dowód ma postać anlogiczną z tym, że sumowanie
trzeba zastąpić całkowaniem.
Istotne znaczenie, także praktyczne, ma dla wnioskowania statystycznego
tzw. centralne twierdzenie graniczne, które przedstawimy tu w mocno
uproszczonej postaci i bez dowodu.
Analizowaliśmy w tym rozdziale między innymi takie trzy obiekty:
- populację , w której określony jest rozkład zmiennej X o średniej
równej E(X) i wariancji D2(X),
- przestrzeń wszystkich możliwych do wylosowania z tej populacji prób
n-elementowych
- średnią zmiennej X z n-elementowej próby, która to średnia jest
zmienną o rozkładzie określonym w zbiorze wszystkich n-elementowych
prób. Średnia tej zmiennej X jest równa E(X) a wariancja D2(X)/n.
52
Zachowajmy populację  i rozważmy ciąg przestrzeni n-elementowych prób
dla n=1,2,3,... Pierwszą przestrzenią w tym ciągu jest zatem przestrzeń
prób jednoelementowych, drugą - przestrzeń prób dwuelementowych, trzecią
- przestrzeń prób trzyelementowych itd. W każdej z tych przestrzeni
określona jest statystyka "średnia zmiennej X z n-elementowej próby"
i dany jest rozkład tej statystyki. Rozważmy zatem ciąg rozkładów
statystyki "średnia zmiennej X z próby n-elementowej" kolejno dla
przestrzeni prób jedno-, dwu-, trój-, ... elementowych.
Już teraz możemy powiedzieć, że wszystkie rozkłady statystyk "średnia
zmiennej X z n-elementowej próby" dla n=1,2,3,...będą charakteryzować się
tą samą średnią statystyki równą średniej zmiennej X w populacji
i że kolejne rozkłady z tego ciągu rozkładów będą mieć coraz mniejsze
wariancje. W każdym przypadku będzie to przecież ta sama wariancja zmiennej X w populacji podzielona przez coraz to większą liczebność próby n.
Wedle zapowiadanego centralnego twierdzenia granicznego należy się
spodziewać, że kolejne rozkłady statystyki "średnia zmiennej X
z n-elementowej próby" w miarę wzrostu n będą coraz bardziej podobne do
rozkładu normalnego o odpowiednich parametrach: m = E(X) i  = D2(X)/n.
Ponieważ kategoria "spodziewania się" nie jest najlepiej zdefiniowana,
będziemy musieli twierdzenie to sformuować dokładniej. W tym celu najpierw
zdefiniujemy jeszcze jedną statystykę z próby, będzie nią standaryzowana
średnia z próby.
Standaryzowaną średnią zmiennej X z n-elementowej próby nazywać
będziemy następującą funkcję statystyki "średnia zmiennej X
z n-elementowej próby:
Y(n)
gdzie
X (n) - E( X (n))
= 
D( X (n))
X (n) jest zmienną "średnia zmiennej z n-elementowej próby"
Y(n) jest zmienną "standaryzowana średnia zmiennej X
z n-elementowej próby".
Operacja standaryzująca polega, jak pamiętamy, na odejmowaniu od każdej
wartości zmiennej jej średniej i dzielenie rezultatu przez odchylenie
standardowe. Zmienna w ten sposób powstała jest liniową funkcją zmiennej
pierwotnej, ma średnią równą 0 i odchylenie standardowe równe 1.
Nowopowstałą zmienną nazywamy zmienną standaryzowaną. Standaryzowana średnia z n-elementowej próby Y(n) ma zatem rozkład o następujących
parametrach:
E(Y(n))
= 0
D2(Y(n)) = 1
Możemy teraz podać treść centralnego twierdzenia granicznego w wersji
zbliżonej do wersji Lindberga - Levy'ego.
Standaryzowana średnia z n-elementowej próby losowanej zwrotnie
i z jednakowymi dla wszystkich jednostek populacji szansami ma rozkład
asymptotycznie zbieżny do rozkładu zmiennej U mającej rozkład normalny
standaryzowany.
Tę asymptotyczną zbieżność jednego rozkładu do innego rozkładu musimy
dokładnie wyjaśnić: Dla każdej liczby rzeczywistej r i dla każdej większej
od zera liczby rzeczywistej  istnieje taka liczba naturalna k, że dla
każdej liczby n większej od liczby k różnica wartości dystrybuanty zmiennej "standaryzowana średnia z n-elementowej próby" w punkcie r i wartości
dystrybuanty zmiennej U w tym samym punkcie r jest mniejsze od .

r

>0

k

| P(Y(n)  r) - P(U  r) | < 
n>k
53
Można to zapisać inaczej:

r
lim
n
P (Y(n)  r) - P(U  r)
= 0
Przedstawiając twierdzenie w ten sposób ograniczyliśmy nieco jego ogólność do obecnie interesującego nas zakresu i pominęliśmy ograniczenia,
które w obszarze naszego zainteresowania - w skończonych populacjach - są
spełnione w sposób oczywisty. Korzystając z tego twierdzenia w praktyce,
traktujemy zmienną "średnia z próby" jako mającą rozkład normalny, jeżeli
tylko jest to średnia z próby wieloelementowej - dużej. Postępując w ten
sposób musimy się jednak liczyć z tym, że potrzebne nam prawdopodobieństwa
szacujemy z błędami. Błędy te są na ogół tym większe, im mniejsza jest
liczebność próby n i im rozkład zmiennej w populacji bardziej różni się od
rozkładu normalnego to znaczy jest bardziej asymetryczny, wielomodalny
i zmienna ma w populacji mniej wartości.
Przyjmuje się, że jeżeli próba liczy kilkaset elementów, to można
utożsamiać rozkład średniej z próby z rozkładem normalnym bez względu na
kształt rozkładu zmiennej w populacji. Jeżeli rozkład w populacji jest
jednomodalny, dość symetryczny i wielowartościowy, to już rozkład średniej
z prób liczących po 30 elementów traktuje się jako wystarczająco podobny
do rozkładu normalnego, by zamiast nieznanej wartości dystrybuanty
średniej z próby w jakimś punkcie r brać odpowiednią wartość dla zmiennej
mającej rozkład normalny mając nadzieję, że błąd będzie dość mały.
Przyjmując, że dla jakiegoś n rozkład standaryzowanej średniej z próby
jest podobny do rozkładu normalnego standaryzowanego, należy konsekwentnie
przyjmować, że dla tego n rozkład średniej z próby jest podobny do
rozkładu normalnego o średniej równej średniej w populacji E(X)
i odchyleniu standardowym równym D(X)/n.
Na koniec wypada podać jeszcze jedno twierdzenie, którego poprzednik
jest w praktycznych zastosowaniach spełniany tylko w przybliżeniu.
Jeżeli zmienna X ma w populacji rozkład normalny, to standaryzowana
średnia zmiennej X z n-elementowej próby ma rozkład normalny standaryzowany i to bez względu na liczebność próby n.
Wynika to z wcześniej przedstawionego twierdzenia, wedle którego suma
niezależnych zmiennych, z których każda ma rozkład normalny o tej samej
średniej i tym samym odchyleniu standardowym, ma rozkład normalny oraz
innego twierdzenia, wedle którego zmienna będąca liniową funkcją zmiennej
o rozkładzie normalnym ma też rozkład normalny.
Poprzednik tego twierdzenia mógłby być spełniony tylko wtedy, gdybyśmy
mieli do czynienia z populacją nieskończoną i zmienną, która przyjmuje
wszystkie wartości rzeczywiste. Założenie takie może być spełnione tylko
w przybliżeniu. Wtedy jednak i następnik będzie spełniony tylko w przybliżeniu, tym lepszym im liczniejsza jest próba.
Praktycznym zastosowaniem przedstawionych tu twierdzeń zajmiemy się
w dwu następnych rozdziałach. Tu poprzestaniemy na dwu elementarnych
przykładach.
1. W populacji  określona jest zmienna X. Znamy jej średnią
i odchylenia standardowe. Są one odpowiednio równe: 69 i 14. W opisany tu
wcześniej sposób prosty i niezależny zostanie wylosowana próba z tej populacji. Próba liczyć będzie 400 elementów. Jakie jest prawdopodobieństwo
wylosowania takiej próby, w której średnia zmiennej X mieć będzie wartość
należącą do przedziału od 67.9 do 70.1.
Zapiszemy najpierw dane i pytanie korzystając z przyjętej symboliki:
54
E(X)=69,
D(X)=14,
E( X )=E(X)=69,
n=400,
D( X ) =
D(X)
 =
n
14
 = 0.7,
20
P(67.9 < X < 70.1) = ?
Spróbujemy najpierw określić wartość tego prawdopodobieństwa przy pomocy nierówności Czebyszewa. W tym celu przekształcimy tożsamościowo zapis
pytania.
P (67.9 < X < 70.1) =
P( 67.9-E(X) < X -E(X) < 70.1-E(X)) =
= P (67.9-69 < X -E(X) < 70.1-69)
=
P(-1.1 < X -E(X) < 1.1) =
= P(| X -E(X)| < 1.1)
= 1 - P(| X -E(X)|  1.1)
Przypomnijmy nierówność Czebyszewa w wersji dla średniej z próby:
P(| X -E(X)|  ) 
D2(X)

n2
i podstawmy wielkości z naszego zadania:
142
P(| X -E(X)|  1.1)   = 0.4049586
400 * 1.12
Stąd prawdopodobieństwo interesującego nas zdarzenia, które jest
dopełnieniem tego z nierówności Czebyszewa jest większe od 1-0.405 =
0.595. Dokładnie:
(| X -E(X)| < 1.1) > 1 - 0.4049586 = 0.5950414
Wedle nierówności Czebyszewa prawdopodobieństwo wylosowania próby
spełniającej nałożony w treści zadania warunek należy do przedziału
(0.595 , 1.00>.
Ponieważ liczebność próby n jest duża, możemy skorzystać z konsekwencji
centralnego twierdzenia granicznego i oznaczyć to prawdopodobieństwo z
większą dokładnością.
Zmienna "standaryzowana średnia z próby" ma w tym przypadku rozkład
zbliżony do rozkładu normalnego standaryzowanego. Zmienną o takim
rozkładzie oznaczyliśmy literą U. Tak równoważnościowo przkształcimy nasze
pytanie, by dotyczyło ono zmiennej "standaryzowana średnia z próby" a nie
zmiennej "średnia z próby".
P(67.9 < X < 70.1) = P( 67.9-E(X) < X -E(X) < 70.1-E(X)) =
= P (
67.9 - E(X)
67.9 - E(X)
= P (  <
D( X )
<
X -E(X)
X -E(X)
 <
D( X )
<
70.1-E(X) ) =
70.1-E(X)
 )
D( X )
55
Rozklady zmiennych ( X -E(X)) / D(X) oraz U są podobne. Zatem wyżej
zapisane prawdopodobieństwo jest w przybliżeniu równe następującemu:
67.9 - E(X)
P( <
D(X)
U
<
70.1 - E(X)
 ) =
D(X)
67.9 - 69
= P (  <
0.7
U
<
70.1 - 69
 ) =
0.7
= P (-1.571 < U < 1.571 ) = Fu (1,571) -
Fu (-1,571) =
= 1 - 2*Fu (-1.571) = 1 - 2*0.05821 = 0.88358
Prawdopodobieństwo wylosowania takiej próby, że średnia zmiennej X
w tej próbie mieć będzie wartość należącą do przedziału (67.9, 70.1) jest
bliskie 0.884. Ten szacunek uzyskany z pomocą centralnego twierdzenia
granicznego nie jest sprzeczny z uzyskanym przy pomocy nierówności
Czebyszewa, wielkość ta należy do przedziału uzyskanego przy pomocy
nierówności Czebyszewa:
0.88358  (0.595, 1.000)
Przyjmuje się, że oszacowanie prawdopodobieństwa przez odwołanie się do
centralnego twierdzenia granicznego przy tak dużej próbie obarczone jest
pomijalnie małym błędem. Granice dla prawdopodobieństwa wyznaczone przez
nierówność Czebyszewa nie są obarczone błędem ale wartość prawdopodobieństwa wyznaczają niedokładnie.
2. W innej populacji określona jest jakaś inna zmienna X, o której
wiadomo, że nie ma ona w tej populacji rozkładu podobnego do rozkładu
normalnego. Znana jest średnia zmiennej X i jej odchylenie standardowe.
Są one odpowiednio rowne: 43 i 8. Zostanie wylosowana w sposób prosty
i niezależny próba licząca 16 elementów. Jakie jest prawdopodobieństwo
tego, że średnia zmiennej X w wylosowanej próbie należeć będzie do
przedziału (41.5, 45.5)?
Korzystając w znany już sposób z nierówności Czebyszewa otrzymujemy:
P(| X - E(X)| 
2.5) 
64
 = 0.64
16 * 252
zatem
P(| X - E(X)| < 2.5) > 0.36
możemy to zapisać inaczej wracając do oryginalnej formy pytania:
0.36 < P (41.5 < X < 45.5 )  1
Dokładniej tego prawdopodobieństwa oszacować nie możemy, gdyż liczebność próby n=16 jest zbyt mała, by można się posłużyć centralnym
twierdzeniem granicznym a zmienna X nie ma w populacji rozkładu normalnego.
Gdyby rozkład zmiennej X w populacji był zbliżony do rozkładu normalnego, wówczas moglibyśmy posłużyć się ostatnim z tego rozdziału
twierdzeniem. Oszacowalibyśmy poszukiwane prawdopodobieństwo w sposób pod
względem technicznym identyczny jak w przypadku kiedy korzystaliśmy
z centralnego twierdzenia granicznego:
56
41.5-E(X)
P (41.5 < X < 45.5 ) = P ( 
D(X)
<
X -E(X)

D(X)
<
45.5-E(X)
 )=
D(X)
45.5-43
41.5-43
= Fu( ) - Fu(  ) = Fu (1.25) - Fu (-1.25) =
2
2
= 1 - 2 * Fu (-1.25) = 1 - 2* 0.1056 = 0.7888
Prawdopodobieństwo wylosowania próby posiadającej określoną w zadaniu
cechę byłoby równe, 0.7888, gdyby zmienna X w populacji miała rozkład
podobny do normalnego. Zgodnie z treścią zadania zmienna X nie ma w populacji rozkładu podobnego do normalnego, zatem musimy poprzestać na ocenie
wartości poszukiwanego prawdopodobieństwa za pomocą nierówności
Czebyszewa, która lokuje to prawdopodobieństwo w dość długim niestety
przedziale.
Oba przykłady nie dotyczyły wnioskowania statystycznego, gdyż ono przebiega niejako w przeciwnym kierunku: od znanych już własności wylosowanej
próby do nieznanych własności populacji, z której została wylosowana.
Tutaj poruszaliśmy się w kierunku przeciwnym.
57
Rozdział 4
ESTYMATORY I ESTYMACJA PARAMETRYCZNA
estymator nieobciążony
estymator zgodny
estymator najefektywniejszy
metoda momentów
metoda najmniejszych kwadratów
metoda największej wiarygodności
estymacja przedziałowa
poziom ufności
przedział ufności
estymacja przedziałowa średniej
Istnienie zależności między rozkładem statystyki z próby a rozkładem
zmiennej w populacji pozwala wnioskować o własnościach rozkładu zmiennej
w populacji na podstawie wartości statystyki w wylosowanej z tej populacji
próbie losowej. Jeżeli wnioskowanie to dotyczy wartości parametru rozkładu
zmiennej w populacji i polega na ocenie jego wartości, to wnioskowanie
takie nazywamy estymacją parametryczną.
Parametryczna estymacja punktowa polega na przypisaniu parametrowi
rozkładu zmiennej w populacji, którego wartości nie znamy, konkretnej
liczby jako oceny jego wielkości.
Parametryczna estymacja przedziałowa polega na szacowaniu, do jakiego
przedziału liczbowego należy nieznana wartość parametru rozkładu zmiennej
w populacji.
Ponieważ dalej zajmować się będziemy tylko estymacją parametryczną,
będziemy pomijali określenie "parametryczna".
Parametr populacyjny, o którego ocenie mowa w definicjach, może być
parametrem rozkładu jednej zmiennej lub parametrem łącznego rozkładu wielu
zmiennych. Może to być także parametr jakiegoś rozkładu warunkowego.
Niekiedy estymuje się jednocześnie wartości kilku parametrow posługując
się kilkoma statystykami z próby. Tutaj będziemy się starali ograniczać do
przypadku najprostszego - jednozmiennowych parametrów estymowanych przy
użyciu jednej statystyki z próby.
Będziemy w tym rozdziale często mówili o istnieniu pewnych rozkładów
lub ich parametrow. Czytelnik zechce zwrócić uwagę na to, iż z samego
istnienia tych rozkładów lub parametrów nie wynika, że są one nam znane.
Estymatorem parametru  rozkładu zmiennej X w populacji nazywamy taką
statystykę Tn z n-elementowej próby, której rozkład zależy od wartości
parametru .
Dana jest populacja . W tej populacji określona jest zmienna X.
Istnieje zatem rozkład zmiennej X w populacji . Rozkład ten charakteryzuje szereg parametrów, w tym parametr . Dla ustalenia uwagi, przyjmijmy, że parametrem  jest średnia zmiennej X w populacji.
Niech będzie przestrzeń wszystkich n-elementowych prób z tej populacji,
np. trójelementowych. Niech będzie określona statystyka z próby T3 i niech
tą statystyką z próby będzie mediana zmiennej X z próby. Oznaczmy tę
statystykę . Znając rozkład zmiennej X w populacji możemy ustalić rozkład
statystyki  w zbiorze wszystkich trójelementowych prób.
Załóżmy, że rozkład zmiennej X zmieni się w populacji w taki sposób,
że zmianie ulegnie także wartość parametru  = E(X). Moglibyśmy
wyznaczyć nowy rozkład statystyki T3 =  w zbiorze prób.
Jeżeli zmianie wartości parametru  rozkładu zmiennej X w populacji
towarzyszy zawsze zmiana rozkładu statystyki Tn w zbiorze prób z tej populacji, to mówimy, że rozkład statystyki Tn zależy od wartości parametru
, a zatem statystyka Tn jest estymatorem parametru .
W naszym przykładzie można dowieść, że zmiana średniej w populacji
pociąga za sobą zawsze zmianę rozkładu mediany z próby. Zatem mediana
z próby jest estymatorem średniej w populacji.
Jest do pomyślenia wiele różnych estymatorów tego samego parametru.
Dlatego dalej zajmiemy się problemem wyboru najlepszego estymatora.
58
Najpierw zdefiniujemy pewne ich pożyteczne własności. Są to takie
własności, które pewne estymatory posiadają, a inne nie.
Statystyka Tn jest nieobciążonym estymatorem parametru , jeżeli dla
każdej liczebności próby n, średnia statystyki z próby Tn w zbiorze
wszystkich n-elementowych prób jest równa parametrowi .
 E(Tn) = 
n
Statystyka Tn jest estymatorem asymptotycznie nieobciążonym parametru
, jeżeli dla każdego dodatniego  istnieje taka liczba k, że średnia
statystyki Tn w zbiorze wszystkich n-elementowych prób różni się od wartości parametru  o mnie niż  i jest tak dla każdego n > k:

>0

k
 |E(Tn) - | < 
n>k
czyli
lim
n
E(Tn) =

Wcześniej dowiedliśmy, że X - średnia z próby - jest nieobciążonym
estymatorem średniej w populacji, gdyż dla każdego będącego liczebnością
próby n zachodzi równość E( X ) = E(X). Jednocześnie nasz wcześniejszy
przykład pokazuje, że wariancja z próby S2 jest obciążonym estymatorem
wariancji w populacji, gdyż nie jest estymatorem nieobciążonym i (S2) 
D2(X). Wariancja z próby S2 jest natomiast estymatorem asymptotycznie
nieobciążonym wariancji w populacji. Można bowiem dowieść, że
E(S2) =
n-1
 D2(X)
n
a zatem
lim
n
E(S2) = D2(X)
Pomijając dowód wrócimy do wyników uzyskanych we wspomnianym przykładzie:
E(S2) =
2-1
 D2(X) = 0.5 * D2(X) = 0.5 * 1.25 = 0.625
2
i tyle samo wniosła średnia statystyki S2 policzona z rozkładu te zmiennej
w zbiorze wszystkich możliwych do wylosowania dwuelementowych prób.
Nieobciążonym estymatorem wariancj w populacji jest natomiast
statystyka *S2, zdefiniowana w poprzednim rozdziale tak:
*S2
=
n
 S2
n-1
=
1

n-1
n
 (Xi - X)2
i=1
Wartość średnia tej statystyki jest równa wariancji w populacji:
E(*S2)
=
n
E(  * S2)
n-1
=
n
n
n-1
 * E(S2) =  *  * D2(X) = D2(X)
n-1
n-1
n
W przykładzie, o którym mowa, znajdujemy E(*S2) = 1.25 = D2(X)
59
Nieobciążonym estymatorem wariancji w populacji jest również inna
jeszcze statystyka z próby, którą oznaczymy *S2. Jest ona średnią kwadratów odchyleń wartości zmiennych X1, X2, ..., Xn w próbie od średniej
zmiennej X w populacji. Z rozdziału poprzedniego pamiętamy, że wartością
zmiennej Xi dla konkretnej próby losowej jest wartość zmiennej X dla
i-tego elementu tej próby.
n
2 = 1/n *  (Xi - E(X))2
S
*
i=1
Z tego, że dwie statystyki są nieobciążonym estymatorem tego samego
parametru populacji nie wynika, że są one identyczne. Wprawdzie średnie
wartości obu estymatorów są równe:
E(*S2) = E(*S2) = D2(X)
lecz same wartości estymatorów równe nie są:
n
1/n
*
n
 (Xi - E(X))2
i=1

1/(n-1)
*
 (Xi - X)2 
i=1
2
* 2
*S  S
Dla dokonania punktowej estymacji parametru  za pomocą estymatora Tn
losujemy n-elementową próbę, obliczamy wartość statystyki Tn w wylosowanej
próbie i uzyskaną liczbę traktujemy jako ocenę wartości parametru . Nie
możemy zakładać, że ocena ta jest bezbłędna.
Jeżeli Tn jest estymatorem parametru , to statystykę (Tn - ) nazywamy błędem oceny parametru  za pomocą estymatora Tn.
Jeżeli statystyka Tn jest nieobciążonym estymatorem parametru , to
średni błąd oceny tego parametru za pomocą estymatora Tn jest równy 0:
E(Tn) = 

E(Tn - ) = 0
Jeżeli statystyka Tn jest estymatorem asymptotycznie nieobciążonym, średni
błąd jest "asymptotycznie" równy 0:
lim E(Tn) = 
n

lim
n
E(Tn - ) = 0
Ocena parametru  za pomocą wartości statystyki będącej jego
obciążonym estymatorem obarczona jest błędem systematycznym i parametr
jest przeciętnie przeceniany lub przeciętnie niedoceniany.
E(Tn)
lim E(Tn)
n
 
 
E(Tn - )  0
 
 
lim E(Tn - )  0
n
Estymator asymptotycznie nieobciążony można traktować jako obciążony,
gdy jest określony dla prób małych, zaś jako nieobciążony, gdy jest
określony w próbach dużych.
Z punktu widzenia przeprowadzającego estymację użytkownika ważnym jest
nie tylko to, by estymator był nieobciążony, czyli żeby średnia błędu
z nim związanego była równa 0. Ważnym jest także, by małe było prawdopodobieństwo uzyskania takich wartości estymatora, które dawałyby duży (ujemny
lub dodatni) błąd, by wartości estymatora dla różnych prób losowych pochodzących z tej samej populacji były do siebie podobne, a zatem bliskie
wartości parametru  będącego ich średnią.
Statystyka Tn jest zgodnym estymatorem parametru , jeżeli dla każdego
większego od zera  istnieje takie k, że dla każdego zbioru wszystkich n-
60
elementowych prób możliwych do wylosowania z populacji prawdopodobieństwo
tego, że statystyka Tn odchyli się od wartości parametru  o mniej niż 
jest równe 1, pod warunkiem, że liczebność prób n jest większa od k:

>0

k

n>k
P( |Tn - | < ) = 1
czyli

>0
P( |Tn - | < ) = 1
lim
n
Sens tej własności estymatora dobrze przybliża twierdzenie, które mówi:
Jeżeli jakiś estymator jest asymptotycznie nieobciążonym estymatorem
parametru  a jednocześnie granicą wariancji tego estymatora dla liczebności próby n rosnącej nieograniczenie jest 0, to estymator ten jest zgodnym estymatorem parametru . Pełny zapis tego twierdzenia ma postać
następującą:
(( 
>0

>0

k

k
 |E(Tn) - | < ) & ( 
n>k
>0

k

n>k
D2(Tn)<) 
 P(|Tn - | < ) = 1
n>k
Posługując się używaną tu jyż symboliką można to zapisać krócej:
lim |E(Tn) - | = 0
n
&
lim D2(Tn)=0
n
 lim P(|Tn - | < ) = 1
n
Ponieważ średnia z próby X jest nieobciążonym estymatorem średniej
w populacji, więc jest jej estymatorem asymptotycznie niobciążonym.
Jednocześnie wariancja średniej z próby jest malejącą funkcją liczebności
z próby.
E(X)
= E(X)
D2(X) = D2(X)/n
Dla n rosnącego nieograniczenie wariancja średniej z próby ma granicę
równą 0. Zatem średnia z próby jest wedle wprowadzonego twierdzenia estymatorem zgodnym średniej w populacji.
Posługując się średnią z próby dla oceny średniej w populacji słusznie
spodziewamy się, że zwiększając liczebność próby zmniejszamy ryzyko
popełniania dużych błędów w ocenie wartości tej średniej w populacji.
Dowód twierdzenia o zgodności estymatora nieobciążonego o zbieżnej do
zera wariancji przeprowadzimy korzystając z nierówności Czebyszewa.
P(| X -E(X)| > ) < D2( X )/2
zatem
P(| X -E(X)|  )  1 - D2( X )/2
Podstawmy teraz w miejsce zmiennej X statystykę Tn.
P(|Tn - E(Tn)|  )  1 - D2(Tn)/2
Rozważmy to dla n rosnącego nieograniczenie.
lim P(|Tn - E(Tn)|  ) 
n
lim (1 - D2(Tn)/2)
n
61
Korzystając z założenia o zbieżności wariancji estymatora do 0
lim
n
D2(Tn) = 0
otrzymujemy prawą stronę "granicznej" wersji nierówności równą 1:
lim (1 - D2(Tn)/2) = 1
n
Wedle pierwszego założenia estymator jest asymptotycznie nieobciążony
lim E(Tn) = 
n
Pozwala to przekształcić lewą stronę "granicznej" wersji nierówności
lim P(|Tn - E(Tn)|  )
n
=
lim P(|Tn - |  )
n
Łączymy teraz obie strony, już przekształcone zgodnie z założeniami
twierdzenia, i otrzymujemy nową wersję nierowności:
lim P(|Tn - |  )  0
n
zatem
lim P(|Tn - |  ) = 0
n
a ponieważ  jest dowolną liczbą większą od zera:
lim P(|Tn - | < ) = 0
n
Upraszczając i zarazem zubażając sens dowiedzionego twierdzenoia można
powiedzieć, że jeżeli średnia jakiegoś estymatora w miarę wzrostu liczebności próby coraz bardziej upodabnia się do wartości parametru estymowanego tak, że stać się może dowolnie mu bliska lub jest mu równa, ponadto
w miarę wzrostu liczebności próby wariancja estymatora maleje tak, że stać
się może dowolnie bliska zeru, to estymator taki jest estymatorem zgodnym.
W istocie warunki te są nieco łagodniejsze. Nie musi być tak, by każde
zwiększenie liczebności powodowało zmniejszenie różnicy (E(Tn) - ) oraz
jednoczesne zmniejszenie wariancji D2(Tn).
Ostatnią cechą estymatora jest jego efektywność. Jest to cecha,
w odróżnieniu od poprzednich, stopniowalna. Najpierw zdefiniujemy estymator najefektywniejszy, by następnie móc inne z nim porównywać.
Statystyka Tn(k) jest estymatorem najefektywniejszym ze zbioru estymatorów , jeżeli wariancja żadnego z estymatorów należących do tego zbioru
nie jest mniejsza od wariancji estymatora Tn(k).
 = {Tn(1), Tn(2), Tn(3), ..., Tn(z)}

Tn(k)
D2(Tn(k)) 
D2(Tn(i))
Iloraz wariancji estymatora najefektywniejszego w zbiorze estymatorów
i wariancji estymatora Tn(i) należącego do zbioru  jest traktowany jako
miara efektywności estymatora Tn.
62
Iloraz ten nazywamy efektywnością estymatora Tn(i) w zbiorze estymatorów  i oznaczymy en(i):
min
en(i)
Tn(k)
(D2(Tn(k)))
= 
D2(Tn(i))
Zwykle poszukujemy estymatorów o wysokiej efektywności w zbiorach estymatorów jakiegoś parametru  posiadających jakieś inne cenne własności.
Np. szukamy estymatora najefektywniejszego wśród estymatorów
nieobciążonych jakiegoś parametru . Oceniając wartość parametru  za
poomocą najefektywniejszego estymatora nieobciążonego gwarantujemy sobie,
że średnia wartość błędu oceny będzie równa 0 a jednocześnie średnia
kwadratów błędu będzie najmniejsza.
Jest do pomyślenia sytuacja, gdzie średnia wartość kwadratu błędu przy
ocenie wartości parametru  za pomocą estymatora obciążonego będzie
mniejsza od średniej kwadratu błędu przy ocenie wartości tego samego
parametru za pomocą najefektywniejszego estymatora nieobciążonego. Byłoby
tak, gdyby jakiś estymator umiarkowanie obciążony miał bardzo małą
wariancję, a w zbiorze estymatorów nieobciążonych nie było estymatorów
o małych wariancjach. W takiej sytuacji dążenia do posługiwania się
estymatorem niobciążonym i estymatorem o małej średniej kwadrat błędu
mogłyby ze sobą kolidować.
Niech będą dwa estymatory tego samego parametru  oznaczone Tn i Gn.
Pierwszy z nich niech będzie estymatorem obciążonym parametru  a drugi
jego estymatorem nieobciążonym:
(E(Tn) - )  0
(E(Gn) - ) = 0
Zatem c = E(Tn) -  jest obciążeniem estymatora Tn. Obciążenie estymatora
Gn jest oczywiście równe 0. Wariancje estymatorów oznaczymy:
D2(Tn) = E(Tn - E(Tn))2
D2(Gn) = E(Gn - E(Gn))2 = E(Gn-)2
Wariancja estymatora nieobciążonego jest jednocześnie średnią kwadratów
błędów oceny wartości parametru za pomocą tego estymatora. Znając
obciążenie estymatora Tn i jego wariancję można wyznaczyć średnią kwadratów błędów oceny wartości parametru  przy pomocy estymatora Tn:
E(Tn - )2
= E(Tn - (E(Tn) - c))2 = E(Tn - E(Tn) + c)2 =
= E((Tn - E(Tn))2 + 2 c (Tn - E(Tn)) + c2) =
= D2(Tn) + c2
Średnia kwadratów błędu estymatora obciążonego Tn mogłaby być mniejsza
od średniej wartości kwadratu błędu estymatora nieobciążonego Gn gdyby
wariancja tego ostatniego była większa od wariancji estymatora obciążonego
co najmniej o kwadrat jego obciążenia.
E(Tn - )2 <
E(Gn - )2

D2(Tn) + c2 < D2(Gn) 

D2(Gn) - D2(Tn) > c2
Posługując się jakimś estymatorem dla oceny wartości parametru
w populacji należałoby podawać dwie wielkości: kwadrat obciążenia zdający
sprawę z ryzyka błędu systematycznego oraz wariancję estymatora przedstawiającą ryzyko błędu niesystematycznego. Obie te wielkości razem informują
o średniej kwadratu błędu.
63
Estymator najefektywniejszy w zbiorze wszystkich estymatorów parametrów
może nie być w tym zbiorze estymatorem o najmniejszej średniej kwadratów
błędu. Estymator najefektywniejszy w zbiorze nieobciążonych estymatorów
parametru  jest w tym zbiorze jednocześnie estymatorem o najmniejszej
średniej kwadratu błędu.
Efektywność en(i) estymatora Tn(i) może się zmienić wraz ze zmianą
liczebności próby.
Jeżeli istnieje granica efektywności en(i) estymatora Tn(i) wyznaczanej
w zbiorze estymatorów  dla liczebności próby n rosnącej nieograniczenie,
to granicę tę nazywamy asymptotyczną efektywnością estymatora Tn(i)
w zbiorze estymatorów  i oznaczamy e(i).
Granica efektywności estymatora Tn(i) istnieje, jeżeli

e(i)

>0

k

n>k
|en(i) - e(i)| < 
i jest ona wówczas równa e(i)
e(i)
=
lim en(i)
n
Jeżeli efektywność jakiegoś estymatora nie jest stała przy zmieniającej
się liczebności próby n, lecz istnieje granica tej efektywności dla
rosnącego n, wówczas wygodnie jest charakteryzować taki estymator przez
podawanie jego efektywności asymptotycznej i traktowanie tej asymptotycznej efektywności jako przybliżonej miary jego efektywności wtedy, gdy
liczebność próby jest duża.
Ze zrozumiałych względów obok estymatorów najefektywniejszych wśród
nieobciążonych za szczególnie cenne uznaje się estymatory asymptotycznie
najefektywniejsze wśród asymptotycznie niobciążonych. Przypisuje się im te
same zalety, co tym pierwszym, lecz tylko w dużych próbach.
Estymatorem asymptotycznie najefektywniejszym w zbiorze estymatorow
jest taki estymator, którego asymptotyczna efektywność wyznaczona w tym
zbiorze jest równa 1.
Poza zdefiniowanymi trzema podstawowymi cechami "dobrego" estymatora:
nieobciążonością, zgodnością i efektywnością są jeszcze inne, które tutaj
pominiemy. Zajmiemy się natomiast podstawowymi metodami wyszukiwania
"dobrych" estymatorów. Przedstawimy idee trzech metod konstruowania estymatorów. Będą to: metoda momentów, metoda najmniejszych kwadratów i metoda
najwyższej wiarygodności.
Metoda momentów zakłada, że szacowany parametr populacyjny jest funkcją
tzw. zwykłych momentów rozkładu w populacji. Zwykłym momentem k-tego rzędu
zmiennej X w populacji jest średnia k-tej potęgi zmiennej X w populacji.
Np. wariancja zmiennej X jest funkcją zwykłych momentów zmiennej X rzędu
1-go i 2-go.
D2(X) = E(X2) - (E(X))2
Momenty rozkładu zmiennej w populacji nie są znane, zamiast nich
posługujemy się wartościami odpowiednich momentów obliczonych
w wylosowanej próbie. Zwykłe momenty zmiennej X z próby są w metodzie
momentów estymatorami zwykłych momentów zmiennej X w populacji.
Odpowiednia funkcja zwykłych momentów z próby jest estymatorem ocenianego
parametru populacyjnego, który jest funkcją tych momentów z próby.
W przypadku wariancji w populacji jej estymatorem skonstruowanym zgodnie
z metodą momentów byłaby różnica między dwiema statystykami z próby:
średnią kwadratów zmiennej X z próby i kwadratem średniej zmiennej X
z próby.
Estymatory uzyskiwane zgodnie z metodą momentów są estymatorami zgodnymi. Nie zawsze są jednak nieobciążone i najefektywniejsze. Np. wariancja
z próby będąca estymatorem wariancji w populacji wedle metody momentów
jest estymatorem obciążonym, natomiast średnia z próby, która wedle tej
64
metody jest estymatorem średniej w populacji, jest estymatorem nieobciążonym.
Metoda najmniejszych kwadratów, w skrócie MNK, służy najczęściej do
szacowania populacyjnych parametrów tzw. modeli liniowych. Parametry te są
parametrami łącznego rozkładu zmiennych określonych w populacji.
Rozważmy prosty przykład. Niech zmienna X będzie wedle modelu sumą
zmiennej Z oraz liniowej funkcji zmiennej Y. Zmienna Z niech ma średnią
równą 0 i będzie nieskorelowaną ze zmienną Y.
X = a + bY + Z
E(Z) = 0
C(Z,Y)= 0
(Zmienna Z jest w tym modelu interpretowana jako rezultat oddziaływań
na zmienną X innych niekontrolowanych w modelu czynników. Parametry a i b
modelu przedstawiają związek zmiennej X ze zmienną Y.)
Zuważmy, że funkcja liniowa a+bY sama jest zmienną określoną
w populacji. Nie znamy jej wartości, gdyż nie znamy parametrów a i b.
Z przyjętych założeń wynika, co jest istotnym dla metody, że średnia
funkcji a+bY o szacowanych parametrach jest w populacji równa średniej
zmiennej X określonej w tej populacji i mającej znane wartości.
E(X) = E(a+bY+Z) = E(a+bY) + E(Z) = E(a+bY)
Za estymatory parametrów a i b uznaje się w MNK takie statystyki
z próby, których wartości podstawione w miejsce nieznanych wartości
parametrow a i b minimalizują w każdej konkretnej n-elementowej próbie
sumę kwadratów różnic między wartościami zmiennej X dla elementow próby
a oszacowanymi dla nich w ten sposób wartościami funkcji a+bY.
Oznaczmy an poszukiwany estymator parametru a i bn estymator parametru
b. Ich wartości w konkretnej próbie oznaczymy: an i bn. Podstawowy postulat MNK możemy teraz zapisać w sposób następujący:
Statystyki z próby n-elementowej an i bn są estymatorami wedle MNK
parametrów a i b modelu wtedy, gdy:
1. model spełnia warunek, że
E(X) = E(a+bY)
2. wartości tych statystyk z próby podstawione w miejsce parametrów modelu
w każdej n-elementowej próbie minimalizuje sumę kwadratów różnic:
n
 [ E(wli) i=1
(an + bn*Y(wli)) ]2
między oszacowaną w ten sposób wartością funkcji a+bY dla elementu wh
czyli an + bn*Y(wh) a wartością zmiennej X dla tego elementu X(wh).
Znamy rozwiązanie tego problemu. W każdej n elementowej zbiorowości
liczby an i bn minimalizujące sumę kwadratów różnic wyznaczamy w ten sam
sposób:
bn jest to kowariancja zmiennych X i Y w tej zbiorowości podzielona
przez wariancję w tej zbiorowości zmiennej Y,
an jest to średnia zmiennej X w tej zbiorowości minus iloczyn bn
i średniej zmiennej Y w tej zbiorowości.
W każdej n-elementowej próbie liczby te wyznaczymy jako funkcje tych
samych statystyk z próby:
65
C(X,Y)
bn = ,
S2(Y)
an
= X - bn * Y
gdzie C(X,Y) tu wyjątkowo oznacza statytykę z próby będącą
kowariancją tych zmiennych z próby natomiast X, Y, S2(Y) są znanymi
statystykami z próby.
Ponieważ funkcje statystyk z próby same są statystykami z próby, zatem
an i bn są statystykami z próby. Wartości tych statystyk podstawione
w miejsce nieznanych parametrów populacyjnych a i b minimalizują w każdej
n-elementowej próbie sumę kwadratów różnic. Są zatem estymatorami
parametrów a i b uzyskanymi zgodnie z MNK.
Metodą najmniejszych kwadratów dokonujemy wyboru estymatorów parametrów
takiej funkcji, która sama będąc zmienną (losową, statystyczną) ma średnią
równą średniej zmiennej określonej w populacji i mającej znane wartości.
Metoda najwyższej wiarygodności, w skrócie MNW, zasługuje na uwagę
największą. Tą metodą znajduje się estymatory parametrów bardzo wielu
modeli w naukach społecznych. Terminem "model" oznaczamy tutaj łączny
rozkład zmiennych lub jednej tylko zmiennej w populacji, w której
spełnione są postulaty jakiejś teorii dotyczącej m.inn. tych zmiennych
i tej populacji. MNW zakłada, że jesteśmy w stanie określić funkcję, która
każdej możliwej do wylosowania próbie przyporządkowuje prawdopodobieństwo
jej wylosowania przy założeniu, że wartości ocenianych parametrów populacyjnych są dane przez dowolną kombinację liczb.
Rozważmy przypadek najprostszy: oceniana jest wartość jednego parametru
rozkładu jednej zmiennej X. Oznaczymy ten parametr . Niech zmienna X
przyjmuje skończoną liczbę wartości.
Prawdopodobieństwo tego, że wartość zmiennej X dla k-tego elementu
próby będzie równa xi pod warunkiem, że wartość parametru  rozkładu
zmiennej X w populacji jest równe r zapiszemy tak, jak każde inne prawdopodobieństwo warunkowe:
P (Xk = xi |  = r)
Zakładamy, że jest ono znane dla każdego rzeczywistego r oraz dla każdego
xi należącego do zbioru wartości zmiennej X.
Rozważmy teraz n-elementową próbę losową w sposób prosty i niezależny.
Prawdopodobieństwo tego, że w wylosowanej k-tej próbie zmienne X1, X2, X2,
..., Xn przyjmą odpowiednio wartości xk1, xk2, xk3, ..., xkn pod
warunkiem, że parametr rozkładu zmiennej X w populacji ma wartość równą r,
możemy zapisać jako iloczyn prawdopodobieństw:
P(X1=xk1 & X2=xk2 & .... Xn=xkn |  = r) =
= P(X1=xk1|=r) * P(X2=xk2|=r) * ... * P(Xn=xkn|=r)
Przy ustalonych wartościach zmiennej X dla kolejnych elementów k-tej próby
można poszukać, dla jakiego r będącego oceną parametru  wartość tego
prawdopodobieństwa jest najwyższa. Tę wartość r, przy której prawdopodobieństwo to osiąga wartość maksymalną, traktujemy jako najlepszą ocenę
wartości parametru  możliwą do dokonania na podstawie k-tej próby. Tym
sposobem każdej możliwej do wylosowania próbie przyporządkowana jest taka
ocena parametru , która maksymalizuje prawdopodobieństwo wylosowania
takiej właśnie próby. Funkcja ta określona na przestrzeni prób jest estymatorem najwyższej wiarygodności parametru .
Oznaczmy estymator najwyższej wiarygodności parametru  symbolem '.
jest to funkcja, która każdej k-tej próbie złożonej z n elementów przyporządkowuje liczbę r*k wedle następującej zasady:
66
r*k = '(<wk1,wk2,...wkn>) 


r
P(X1=X(wk1) & X2=X(wk2) & ... & Xn=X(wkn) | =r*k) 
P(X1=X(wk1) & X2=X(wk2) & ... & Xn=X(wkn) | =r)
Wartość estymatora przyporządkowana próbie zależy jedynie od tego, jakie
to wartości zmiennej X są przyporządkowane jej elementom. Dla dwu różnych
prób wartość estymatora będzie taka sama, jeżeli tylko wartości zmiennej X
przyporządkowane ich elementom będą takie same.
Rozważmy prosty przykład liczbowy. Mamy ocenić wartość parametru p
zmiennej X mającej w populacji rozkład zero-jedynkowy. Parametr p jest
częstością z jaką zmienna X przyjmuje w populacji wartość 1. Oceny dokonywać będziemy na podstawie dwuelementowej próby losowanej w sposób prosty
i niezależny. Z takiej populacji można wylosować cztery różne pod względem
wartości zmiennej X próby. Powinniśmy zatem czterokroć rozważyć, dla
jakiej to wartości parametru p prawdopodobieństwo wylosowania próby danego
typu jest największe.
P
P
P
P
(X1=0
(X1=1
(X1=0
(X1=1
&
&
&
&
X2=0
X2=0
X2=1
X2=1
|
|
|
|
p=r)
p=r)
p=r)
p=r)
=
=
=
=
(1-r)2
r * (1-r)
(1-r) * r
r2
Estymator najwyższej wiarygodności parametru p konstruujemy przyporządkowując każdemu z czterech możliwych typów prób taką wartość r,
która maksymalizuje prawdopodobieństwo wylosowania takiej właśnie próby.
P
P
P
P
(X1=0
(X1=1
(X1=0
(X1=1
&
&
&
&
X2=0
X2=0
X2=1
X2=1
|
|
|
|
p=r)
p=r)
p=r)
p=r)
=
=
=
=
(1-r)2
osiąga maksumum 1
r * (1-r)
0.25
(1-r) * r
0.25
r2
1
dla
dla
dla
dla
r
r
r
r
=
=
=
=
0,
0.5,
0.5,
1
Inaczej mówiąc, najwyższe jest prawdopodobieństwo wylosowania próby
pierwszego typu, w której obu elementom zmienna X przyporządkowuje wartośc
0, z takiej populacji, w której częstość p jest równa 0 i wartości zmiennej X równe 1 wogóle nie występują. Najwyższe jest prawdopodobieństwo
wylosowania próby drugiego typu, w której pierwszemu elementowi zmienna X
przyporządkowuje wartość 1 a drugiemu 0, z takiej populacji, w której p
jest równe 0.5. Najwyższe jest prawdopodobieństwo wylosowania próby
trzeciego typu też z takiej populacji, w której p jest równe 0.5 i próby
czwartego typu, w której obu elementom zmienna X przyporządkowuje wartość
1, z populacji, w której p jest równe 1 i wszystkim elementom zmienna X
przyporządkowuje wartość 1.
Dla prób dwuelementowych częstość z próby jest estymatorem MNW
czestości w populacji. Moglibyśmy dowieść, że tak jest dla prób dowolnie
licznych.
Omawiając metodę najwyższej wiarygodności ograniczyliśmy się do
przykładu najprostszego. Wedle tej metody można oceniać wartości kilku
parametrow łącznego rozkładu wielu zmiennych jednocześnie poszukując
takiej kombinacji ich domniemanych wartości, przy której prawdopodobieństwo wylosowania próby takiego typu, do jakiego należy próba przez nas
wylosowana jest największa. Zauważmy, że rozważanie prób innych typów,
poza tym do którego należy próba wyloswana, jest w istocie zbędne.
Punktowa estymacja wartości parametru populacyjnego polega na:
1. wybraniu statystyki z próby będącej najlepszym spośród
dostępnych estymatorów tego parametru,
2. określeniu w miarę możliwości dokładnie jego własności takich
jak obciążenie, średnia kwadratu błędu, efektywność,
3. wylosowaniu próby i wyznaczeniu wartości tego estymatora.
Wartość estymatora w wylosowanej próbie traktuje się następnie
jako ocenę (oszacowanie) wartości parametru populacyjnego.
67
Ocena taka praktycznie zawsze jest błędna. O rozmiarze
możliwego błędu informuje nas charkterystyka estymatora.
Aktualna wielkość błędu pozostaje rzecz jasna nieznaną.
Nie będziemy się tutaj zajmowali praktycznymi problemami estymacji
punktowej, gdyż wykracza to poza ramy naszego kursu. W bardziej praktyczny
sposób zajmiemy się natomiast estymacją przedziałową.
Estymacja przedziałowa, zgodnie z definicją polega na przypisywaniu
parametrowi rozkładu zmiennej lub zmiennych w populacji, którego wartości
nie znamy, przedziału jako oceny jego wartości. O przedziale tym twierdzi
się następnie, że nieznana wartość parametru jest w nim zawarta. Estymacja
przedziałowa, mniej od punktowej dokładna, gdyż przedziałowa, stawia jednak wyższe wymagania naszej wiedzy o estymatorze służącym do jej
przeprowadzenia. W zamian możemy określić ryzyko popełnienia błędu przy
ocenie wartości parametru szacowanego.
Jeżeli estymator Tn ma służyć do przeprowadzenia przedziałowej estymacji parametru  rozkładu zmiennej X w populacji , to powinniśmy znać
rozkład tego estymatora w zbiorze wszystkich n-elementowych prób możliwych
do wylosowania z populacji , a nie tylko jeden lub dwa najważniejsze
parametry tego rozkładu. Tak było w przypadku estymacji punktowej, gdzie
dla oceny jakości estymacji wystarczała znajomość średniej i wariancji
estymatora.
Estymacją przedziałową zajmiemy się nieco bardziej szczegółowo niż
punktową i z nastawieniem nieco bardziej technicznym. Ograniczymy się
jednak tylko do jednego przykładu. Zajmiemy się mianowicie estymacją
przedziałową parametru  za pomocą takiego estymatora Tn, który w zbiorze
n-elementowych prób z populacji  ma rozkład zbliżony do normalnego.
Parametrem  będzie średnia zmiennej X w populacji lub (co jest
równoważne) częstość p, z jaką w populacji występuje wartość 1 zmiennej
"zero-jedynkowej".
Ponieważ tu i w następnym rozdziale będziemy musieli posługiwać się
pewnymi wielkościami i operacjami związanymi z rozkładem normalnym,
przedstawimy je najpierw.
Niech zmienna X ma rozkład normalny o średniej równej m i odchyleniu
standardowym równym . Zapisujemy to zwykle skrótowo umieszczając obie
wielkości w nawiasie poprzedzonym dużą literą N. Zatem zapis "zmienna Z ma
rozkład N(124, 28)" informuje o tym, że zmienna Z ma rozkład normalny
o średniej równej 124 i odchyleniu standardowym równym 28. O naszej
zmiennej Z możemy napisać, że ma rozkład N (m,).
Literą U oznaczać będziemy zmienną, która ma rozkład N (0,1), czyli
normalny o średniej równej 0 i odchyleniu standardowym równym 1.
Dystrybuantę zmiennej o rozkładzie N (0,1) oznaczać będziemy literą .
Zatem prawdopodobieństwo tego, że zmienna U przyjmie wartość mniejszą lub
równą r zapisujemy tak:
P (U  r) = Fu(r) = (r)
W tablicach statystycznych znajdziemy tablicę przedstawiającą dystrybuantę zmiennej U mającej rozkład N (0,1). Rozkład taki nazywa się zwykle
rozkładem normalnym standaryzowanym.
W praktyce zmuszeni jesteśmy często posługiwać się zmiennymi
o rozkładzie normalnym lecz średniej różnej od 0 lub odchyleniu standardowym różnym od 1. Dla każdej takiej zmiennej istnieje jednak zmienna
będąca jej funkcją, która ma rozkład normalny standaryzowany.
Jeżeli zmienna X ma rozkład N (m,) to zmienna Z = (X-m)/ ma rozkład
N (0,1).
Przekształcenie (X-m)/ = (X-E(X))/D(X) jest znanym przekształceniem
standaryzującym. Zatem zmienna Z ma średnią równą 0 i odchylenie standardowe równe 1. Przekształcenie to jest przekształceniem liniowym, zatem
zmienna Z ma rozkład normalny, gdyż zmienna X ma rozkład normalny.
O zmiennej Z w ten sposób uzyskanej mówimy zwykle, że jest to
"standaryzowana zmienna X". Standaryzacja zmiennej X pozwala na
68
posługiwanie się tablicami dotyczącymi zmiennej U o rozkładzie N(0,1) dla
określenia prawdopodobieństw dotyczących zmiennej X.
Niech zmienna X ma średnią m=170 i odchylenie standardowe =15 i niech
ma rozkład normalny. Standaryzowana zmienna X ma zatem rozkład normalny
standaryzowany, taki sam jaki ma zmienna U. Zatem wartością dystrybuanty
zmiennej standaryzowanej X w jaimś punkcie r jest wartość dystrubuanty
w punkcie r zmiennej U. Korzystając z tego rozwiążemy kilka zadań:
X-m
a. P (Xr) = P( 


r-m
) = P ( U


r-m
 )

r-m
= ( )

gdy r =173
X-m
P (X173) = P( 

b. P(X>r) = P (
X-m



173-170
3
) = P (U  )
15
15
= (0.2) = .5793
>
r-m
 )

r-m
= 1 -  (  )

= P(U >
r-m
 )

gdy r = 175
P (X>175)
=
P
X-m
( 

>
175-170
 ) =
15
5
P (U >  )=(0.333)=
15
= 1 - 0.6293 = 0.3707
r-m
X-m
s-m
P( <    )



c. P (r < X  s)
=

s-m
= (  )   






r-m
= P ( 

s-m
< U   ) =

r-m
 (  )

gdy r =173 i s =175
P (r < X  s)
173-170
= P ( 
15
<
U

175-170
 ) = (0.33)-(0.2) =
15
= 0.6293 - 0.57926 = 0.05004
Funkcja gęstości prawdopodobieństwa zmiennej o rozkładzie normalnym
jest symetryczna względem średniej tej zmiennej. W przypadku zmiennej U
o rozkładzie N (0,1) jest ona symetryczna względem 0. Z symetrii funkcji
gęstości wynika równość pól pod tą funkcją nad przedziałami: w lewo od -a
i w prawo od +a, dla dowolnego rzeczywistego a. Pola te są równe prawdopodobieństwom: przyjęcia przez zmienną U wartosci mniejszej lub równej -a
oraz przyjęcia przez tę zmienną wartości większej lub równej +a. Zatem
prawdopodobieństwa te są równe, co zapiszemy:
P (U  -a) = P (U  a)  P(U  -a) = 1 - P (U  a)
W ten sposób uzasadniliśmy ważną własność rozkładu zmiennej U:
69
Jeżeli zmienna U ma rozkład N (0,1), to wartość jej dystrybuanty
w punkcie -r jest równa 1 minus wartość jej dytrybuanty w punkcie r.
(-r) = 1-(r)
Własność ta pozwala wyznaczyć wartości dystryubuanty zmiennej U dla liczb
ujemnych przy użyciu tablicy, w której są one określone tylko dla liczb
dodatnich.
Dytrybuanta zmiennej o rozkładzie normalnym jest funkcją rosnącą. Zatem
istnieje funkcja odwrotna względem dystrybuanty takiej zmiennej. Funkcja
ta każdej liczbie rzeczywistej p z przedziału (0, 1) przyporządkowuje
taką liczbe rzeczywistą r, której sama dystrybuanta przyporządkowuje
prawdopodobieństwo p. Dzięki temu mozliwe jest zdefiniowanie dwu wielkości
(w istocie dwu funkcji, jak się przekonamy):  i 
Symbolem  oznaczamy taką liczbę rzeczywistą, której dystrybuanta
zmiennej U mającej rozkład N (0,1) przyporządkowuje liczbę równą 1-/2.
 : P (U  ) = 1 - /2
Prawdopodobieństwo tego, że zmienna U przyjmie wartość mniejszą lub
równą  jest rowne 1 minus połowa . Określona zatem została funkcja ,
która każdej liczbie rzeczywistej  z przedziału (0, 1) przyporządkowuje
taką liczbę rzeczywistą , której dystrybuanta zmiennej U przyporządkowuje liczbę 1-/2 również należącą do przedziału (0, 1).
Należałoby właściwie zamiast  pisać (). Utrwalił się jednak zwyczaj
pomijania nawiasów.
 : (0, 1) 

Prawdopodobieństwo tego, że zmienna U mająca rozkład N (0, 1) przyjmie
wartość z przedziału (-, > jest równe 1-.
P(- < U  ) = 1-
Dowód jest natychmiastowy:
P(- < U  ) = () - (-) = () - (1-()) =
= 1-/2 - (1 - (1 - /2)) = 1 - 
Przedział (-, > o długości równej 2 jest najkrótszym przedziałem,
dla którego prawdopodobieństwo tego, że zmienna U o rozkładzie N (0,1)
przyjmie należącą do niego wartość jest równe 1-.
Wynika to z symetrii funkcji gęstości prawdopodobieństwa zmiennej U
względem 0, która to funkcja dla zera przyjmie wartość maksymalną i maleje
w miarę oddalania się od zera. Łatwy do skonstruowania dowód pozostawiamy
Czytelnikom. Przedstawimy tylko dwa przydatne rysunki, na których
zaznaczono dwa przedziały: jeden symetryczny względem 0 i drugi niesymetryczny względem 0 charakteryzujący się tym, że dla każdego z nich
prawdopodobieństwo tego, że zmienna U przyjmie wartość należącą do
przedziału jest rowne 1 - .
70


Twierdzenie o najkrótszym przedziale dla zmiennej o rozkładzie normalnym standaryzowanym można uogólnić na dowolną zmienną o rozkładzie normalnym. Dla zmiennej X mającej rozkład N (m,) istnieje nieskończenie wiele
przedziałów (a, b) spełniających warunek, że zmienna X przyjmuje wartość
z takiego przedziału z prawdopodobieństwem równym jakiemuś 1 - . Można
dowieść, że najkrótszym z nich jest przedział symetryczny względem średniej zmiennej X oznaczonej m. Jest to przedział:
(m-* , m+*>
o długości równej 2** spełniający dwa następujące warunki:
P (m -* < X  m + *) = 1 - 

r+s  2**
r,s: P(m-r< X  m+s)=1-
Prawdopodobieństwo tego, że zmienna U mająca rozkład N (0,1) przyjmie
wartość różniącą się co do modułu od 0 o więcej niż  jest równe 1-.
P (|U-0| > ) = P (|U| > ) = 
Prawdopodobienstwo tego, że taka zmienna U przyjmie wartość różniącą
sie co do modułu od 0 o mniej lub  jest równe 1 - .
P (|U-0|  ) = P( |U|  ) = 1 - 
co wynika z równoważności:
71
|U|    -  U  
natomiast zdarzenie z poprzedniego twierdzenia
|U-0| >  jest
dopełnieniem zdarzenia |U-0|   o znanym już prawdopodobienstwie.
Symbolem  oznaczamy taką liczbę rzeczywistą, której dystrybuanta
zmiennej U przyporządkowuje prawdopodobieństwo równe 1-.
 : P( U   ) = () = 1-
Prawdopodobieństwo tego, że zmienna U przyjmie wartość mniejszą lub
równą  jest równe 1-. Określona została zatem funkcja , która każdej
liczbie rzeczywistej z przedziału (0, 1) przyporządkowuje taką liczbę
rzeczywistą , której dystrybuanta zmiennej U przyporządkowuje liczbę
1- również z przedziału (0, 1).
Funkcja  pomnożona przez -1 jest funkcją odwrotną względem dystrybuanty zmiennej U.
() = 1-,
(-) = 
Prawdopodobienstwo tego, że zmienna U przyjmie wartość mniejszą lub
równą - jest równe .
P (U  - ) = (-) = 1- () = 1 - (1-) = 
Podobnie jak w przypadku funkcji  wartość funkcji  w jakimś punkcie 
powinniśmy oznaczać (). Panuje jednak powszechnie zwyczaj pomijania tych
nawiasów.
Wróćmy teraz do estymacji przedziałowej i zdefiniujemy podstawowe terminy. Powiedzieliśmy już, że estymacja przedziałowa polega na ocenie
nieznanej wartości populacyjnego parametru przez wskazanie przedziału
liczbowego zawierającego w sobie wartość tego parametru. Ocena taka
zależna od rezultatu losowania próby jest oceną zawodną.
Prawdopodobieństwo tego, że w postępowaniu mającym za cel przedziałową
estymację wartości parametru  uzyskamy przedział liczbowy zawierający
w sobie wartość tego parametru nazywamy poziomem ufności tego postępowania
(lub tego przedziału). Prawdopodobienstwo to, poziom ufności, oznaczamy
1-. Samo  jest zatem prawdopodobieństwem uzyskania w postępowaniu estymacyjnym takiego przedziału liczbowego, który nie zawiera w sobie wartości
ocenianego parametru .  jest zatem prawdopodobienstwem popełnienia
błędu, nazywamy je także poziomem ryzyka.
Sam przedział nazywamy przedziałem ufności.
W poprzednim rozdziale wprowadziliśmy pojęcie statystyki z próby. Była
to funkcja przyporządkowująca każdej próbie liczbę rzeczywistą. Przedział
ufności jest funkcją o analogicznym charakterze - każdej próbie przyporządkowuje zbiór wszystkich liczb rzeczywistych należących do pewnego
przedziału. Można zatem utożsamiać funkcję "przedział ufności" z parą
statystyk z próby: pierwsza An każdej próbie przyporządkowuje dolną granicę przedziału, a druga oznaczona Bn - górną.
Przedziałem ufności parametru populacyjnego  z n-elementowej próby na
poziomie ufności rownym 1- nazywać będziemy taką funkcję, która każdej
n-elementowej próbie przyporzadkowuje zbiór wszystkich liczb rzeczywistych
należących do pewnego przedziału (An, Bn), którego granice spełniają
następujące warunki:
1. prawdopodobieństwo wylosowania takiej próby, że zbiór liczb rzeczywistych należących do przedziału zawiera wartość szacowanego parametru
jest równe poziomowi ufności 1-:
72
P(An    Bn) = 1 - 
2. Długość tego przedziału jest najmniejszą długością przedziału
spełniającego warunek poprzedni

0<<1
gdzie

Cn,Dn: P(CnDn)=1-
Bn-An  Dn-Cn
Cn, Dn są dowolnymi statystykami z n-elementowej próby.
Pomijając wykonalność takiej procedury można wyobrażać sobie estymację
przedziałową populacyjnego parametru  jako postępowanie, w którym najpierw ustala się poziom ufności, czyli prawdopodobienstwo tego,
że postępowanie doprowadzi do uzyskania przedziału poprawnie oceniającego
wartość parametru , następnie każdej możliwej do wylosowania próbie
przyporządkowujemy wartości dwu statystyk z próby, pierwsza z nich to
dolna granica przedziału, a druga to górna jego granica. Statystyki te
powinny być tak wybrane, by:
1. wyznaczane przez nie przedziały przyporządkowane poszczególnym
próbom z prawdopodobieństwem równym 1- zawierały wartość ocenianego
parametru ; zatem próby, którym przyporządkowane są przedziały
zawierające wartość szacowanego parametru powinny stanowić 1- wszystkich
możliwych do wylosowania n-elementowych prób, natomiast pozostałym próbom,
które stanowią  wszystkich przyporządkowane są przedziały, które nie
zawierają w sobie wartości parametru,
2. długość (lub długości, jeżeli są one różne dla różnych prób) w ten
sposób wyznaczonych przedziałów powinna być najmniejszą z możliwych dla
przedziałów spełniających warunek poprzedni.
Gdy już każdej możliwej do wylosowania n-elementowej próbie przyporządkowany jest przedział ufności, wystarczy wylosować próbę
z populacji, w której oceniamy wartość parametru i uznać przyporządkowany
tej próbie przedział ufności (wartość funkcji "przedział ufności") za
ocenę parametru . Tego, czy ocena jest trafna, nie wiemy. Wiemy jedynie,
że prawdopodobienstwo wylosowania takiej próby, której przyporządkowany
jest przedział trafnie oceniający wartość parametru jest równe 1-,
a prawdopodobienstwo wylosowania takiej próby, której przyporządkowany
jest przedział błędnie oceniający wartość parametru jest równe poziomowi
ryzyka . Sami na takie właśnie ryzyko zgodziliśmy się ustalając poziom
ufności.
Przy tak ogólnym sformuowaniu zadanie wydaje się dość trudnym do realizacji. Zwłaszcza to wyszukiwanie statystyk z próby mających być granicami
przedziału nie wydaje się łatwe. Statystyki te powinny mieć przedstawine
własności i to bez względu na wartość ocenianego parametru populacji.
Przedstawimy realizację tego zadania na prostym ale mającym praktyczne
zastosowanie przykładzie. Zajmiemy się estymacją średniej zmiennej X
w populacji. Rozważać będziemy tylko taką sytuację, w której statystyka
z próby - "średnia z próby" ma rozkład zbliżony do normalnego.
Parametrem populacyjnym  jest średnia zmiennej X w populacji, którą
oznaczamy E(X). Jej estymatorem jest średnia z n-elementowej próby. Jeżeli
zmienna X ma w populacji rozkład normalny, to średnia z n-elementowej
próby losowej w sposób prosty i niezależny ma też rozkład normalny. Jest
tak na mocy twierdzenia [
]. Średnia z próby jest bowiem liniową
funkcją n zmiennych X1, X2, ..., Xn, z których każda ma rozkład normalny
o tych samych parametrach, co zmienna X w populacji. Ponadto zmienne te są
kompletnie niezależne a zatem parami nieskorelowane.
Zmienna "standaryzowana średnia zmiennej X z n-elementowej próby" ma
w zbiorze wszystkich n-elementowych prób z populacji, w której zmienna X
ma rozkład normalny też rozkład normalny.
Uzasadnienie tego twierdzenia przypomni nam podstawowe własności
rozkładu średniej z próby:
73
zmienna X ma w populacji rozkład N (m, ),
zmienne X1, X2, ..., Xn mają w zbiorze wszystkich n-elementowych prób
identyczne rozkłady N(m, ) i są kompletnie niezależne, zatem ich suma
X1+X2+...+Xn ma rozkład normalny, stąd
średnia z próby X = (Xi)/n ma też rozkład normalny,
bez względu na rozkład zmiennej X w populacji E( X ) = E(X) = m oraz
D2(X) = D2(X)/n = 2/n
zatem standaryzowana średnia z próby (X-m)/ ma w przypadku, gdy zmienna X
w populacji ma rozkład normalny, rozkład normalny standaryzowany N (0,1)
i to bez względu na liczebność próby n.
Z treści centralnego twierdzenia granicznego [
] wynika,
że standaryzowaną średnią z n-elementowej próby można traktować tak, jak
gdyby miała ona rozkład normalny standaryzowany, jeżeli tylko liczebność
próby n jest dostatecznie duża i to bez względu na to, jaki jest rozkład
zmiennej X w populacji .
Jeżeli rozkład zmiennej X w populacji nie jest normalny lecz jest to
rozkład do normalnego tak podobny, że błędy wynikające z zastępowania
wartości jego dystrybuanty wartościami dystrybuanty odpowiedniego rozkładu
normalnego są pomijalnie małe, to postępujemy tak, jak gdyby zmienna X
miała w populacji rozkład normalny.
W rzeczywistości nauk społecznych raczej nie spotykamy się
z populacjami nieskończonymi, a tylko w takich zmienne mogą mieć rozkłady
normalne. Jeżeli zatem o rozkładzie jakiejś zmiennej w jakiejś populacji
mwówi się, że ma ona tam rozkład normalny, to znaczy to, że ma ona w populacji rozkład do normalnego podobny.
Podsumujmy konsekwencje tych stwierdzeń dla naszego problemu: jeżeli
zmienna X ma w populacji rozkład normalny lub ma tam rozkład do normalnego
tak podobny, że możemy ich nie rozróżniać, lub jeżeli liczebność próby n
jest dostatecznie duża dla zastosowania centralnego twierdzenia granicznego, to standaryzowana średnia z próby ma rozkład normalny standaryzowany
lub dostatecznie do niego podobny, by ich nie rozróżniać .
W takim przypadku prawdopodobieństwo wylosowania takiej n-elementowej
próby, dla której zmienna "standaryzowana średnia zmiennej X z próby"
przyjmie wartość należącą do przedziału od - do  jest równe 1-:

P( -
X -E( X )
   ) = 1 - 
D( X )
Nierówność, zgodnie z którą standaryzowana średnia z próby ma wartość
należącą do przedziału <- > można zapisać inaczej przekształcając ją
w sposób równoważnościowy:
-

X -E( X )
 
D( X )

- * D( X )  X -E(X)   * D( X )
co można krócej zapisać tak:
| X -E( X )|   * D( X )

| X - E( X )|   *


n
lub odjąwszy od każdej ze stron nierówności średnią z próby:
- X - * D( X )  - E( X )  - X + * D( X )
74
Mnożąc obustronnie nierówność przez -1 zmieniamy znak nierówności na
przeciwny i po uporządkowaniu stron nierówności otrzymujemy jeszcze jedną
równoważną postać oryginalnej nierówności:
(2)
X - * D( X )  E( X )  X + * D( X ) 

X - *

 
n
m

X + *


n
Dwie z równoażnych postaci tej nierówności, oznaczone (1) i (2)
zasługują na szczególniejszą uwagę. Zapiszemy odpowiednie prawdopodobieństwa.
Prawdopodobieństwo wylosowania takiej próby, z której średnia X odchyli się od średniej w populacji m o mniej niż lub o  * D( X )
jest równe 1- :
P(| X -E(X)|   * D( X )) = 1 - 
Prawdopodobieństwo wylosowania takiej próby, że przedział o granicach
wyznaczonych przez średnią w tej próbie obejmie średnią w populacji m jest
równe 1 - :
P ( X - *

 
n
m
 X + *

) = 1 - 
n
Dysponujemy zatem funkcją, która przy ustalonym poziomie ufności 1-
każdej możliwej do wylosowania próbie przyporządkowuje zbiór liczb rzeczywistych zawartych w przedziale wyznaczonym przez dwie statystyki:
X -*D( X ) oraz X +*D( X ). Funkcja ta spełnia oba warunki nałożone na
funkcję "przedział ufności" zdefiniowaną wcześniej.
Prawdopodobieństwo wylosowania takiej próby, której przyporządkowany
jest w ten sposób przedział zawierający wartość parametru m rozkładu
zmiennej X w populacji jest równe 1- i to bez względu na to, jaka jest
wartość tego parametru m.
Całkowita długość tego przedziału jest równa
( X +  * D( X )) - ( X -  * D( X )) = 2 *  * D( X )
Pokażemy, że jest to najkrótszy przedział spełniający warunek nakładany
przez poziom ufności równy 1- na przedział ufności.
Z twierdzenia [s.
] wiemy, że najkrótszym przedziałem (a,b)
spełniającym dla zmiennej X o rozkładzie normalnym warunek,
że P(a < X  b) = 1- jest przedział symetryczny względem średniej zmiennej X. Stosując to twierdzenie do zmiennej X "średnia z próby" otrzymujemy:
P (E( X )-r  X  E( X )+s) = 1-
(r+s  2**D( X ) & r+s = 2**D( X )


r = s =  *D( X )
Rozważmy teraz jakiś niekoniecznie symetryczny przedział ufności
<X-s, X+r> spełniający warunek nakładany przez poziom ufności:
(a)
P (X-s  E(X)  X+r) = 1-
75
Długość tego przedziału jest rowna r + s. Tę samą relację można zapisać
inaczej:
(b)
P (E(X)-r  X  E(X)+s) = 1-
długość tego przedziału (E(X) + s) - (E(X) - r) też jest równa r+s
Minimalizując długość przedziału w (b) minimalizujemy długość przedziału
ufności (a).
Przedział (b) ma minimalną długość, gdy r = s =  *D(X). Zatem
przedział ufności na długość minimalną, gdy dolna jego granica (X-s) jest
równa (X-*D(X)), a górna (X+r) jest równa (X+*D(X)).
Jezeli parwdopodobieństwo 1- jest poziomem ufności dla estymacji
przedziałowej parametru m zmiennej X w populacji, to statystyki z próby
(X-*D(X)) oraz (X+*D(X)) wyznaczają granice przedziału ufności
spełniającego warunki nałożone na przedział ufności dla estymacji
parametru m.
Zatem dla oceny wartości parametru m należy wybrać poziom ufności 1-
lub poziom ryzyka oraz liczebność próby n. Następnie trzeba odczytać
z tablicy dystrybuanty rozkładu normalnego standaryzowanego wartość
funkcji  dla przyjętej wartości poziomu ryzyka. Należy określić odchylenie standardowe  zmiennej X w populacji. Na koniec należy wylosować
w sposób prosty i niezależny n-elementową próbę z populacji i obliczyć dla
niej wartość średniej z próby. Oznaczmy tę wartość x. Dysponując tymi
wielkościami obliczamy wartość obu statystyk określających granice
przedziału ufności. Są nimi:

x -   ,
n

x +  
n
Będziemy wnioskowali, że średnia w populacji m należy do przedziału
wyznaczonego przez te dwie liczby.
m   x -

,
n
x +

 >
n
Możemy spojrzeć na to inaczej ujmując ideę estymacji przedziałowej
innymi słowami. Wiemy, że prawdopodobieństwo tego, że średnia
z wylosowanej próby przyjmie wartość różniącą się od średniej w populacji
o mniej niż *D( X ) jest równe 1-. Natomiast prawdopodobieństwo tego,
że średnia z próby przyjmie wartość różniącą się od średniwej w populacji
o więcej niż *D( X ) jest równe .
P ( |X P ( |X -
m|   *D( X ) ) = 1-
m| >  *D( X ) ) = 
Zakładamy, że prawdopodobieństwo  jest tak małe, że godzimy się na
ryzyko popełnienia błędu z takim prawdopodobieństwem. Natomiast prawdopodobienstwo 1- wybraliśmy duże. Wylosowaliśmy jakąś n-elementową próbę
i obliczyliśmy x średnią zmiennej X w tej próbie. Rozumujemy dalej tak:
raczej zdarzyło się nam coś, co ma duże prawdopodobieństwo niż coś, co
jest mało prawdopodobne. Czyli średnia w wylosowanej przez nas próbie
raczej różni się od średniej w populacji m o mniej niż o *D(X) niż
o więcej. Zatem średnia w populacji m znajduje się w otoczeniu średniej
z wylosowanej próby wyznaczonymprzez tę wielkość:
m   x -D( X ), x +D( X ) >
76
Nie jest jednak wykluczonym, że zdarzyło się nam coś, co jest mało
prawdopodobne, co ma prawdopodobieństwo równe . Wtedy średnia w populacji
m znajduje się poza tym otoczeniem średniej w wylosowanej próbie i nasza
ocena parametru m jest błędna. Wylosowanie takiej próby, która doprowadzić
by mogła do takiej nietrafnej oceny średniej w populacji jest jednak mało
prawdopodobne. Na pewne ryzyko popełnienia błędu zgodziliśmy się
określając poziom ufności. Przyjmujemy, że średnia w populacji m raczej
znajduje się gdzieś w otoczeniu średniej w wylosowanej próbie, otoczeniu
będącym przyporządkowanym wylosowanej próbie przedziałem ufności dla średniej w populacji.
Postępując w ten sposób uzyskujemy poprawną ocenę wartości parametru
w populacji z prawdopodobieństwem równym poziomowi ufności 1-
i niepoprawne oceny z prawdopodobienstwem równym . Na pytanie, czy
konkretna ocena uzyskana przy pomocy wyznaczonego przy uzyciu właśnie
wylosowanej próby przedziału ufności jest poprawna, nie można odpowiedzieć
bez zbadania całej populacji.
Zanim przejdziemy do przykładów liczbowych ustalmy, od czego zależy
długość przedziału ufności. Będzie to zasada ogólna dotycząca nie tylko
estymacji średniej w populacji.
Długość przedziału ufności jest tym większa, im wyższy jest poziom
ufności i im bardziej zróżnicowaną jest zbiorowość. Jest natomiast tym
mniejsze, im liczniejsza jest próba.
Długość przedziału ufności jest tym większa, im wyższy jest poziom
ufności i im bardziej zróżnicowana jest zbiorowość, natomiast jest tym
mniejsza im liczniejsza jest próba.
Dla omawianego przykładu estymacji twierdzenie to nie wymaga dowodu.
Wystarczy przypomnieć, co jest długością przedziału ufności dla średniej
zmiennej X w populacji:
2 *   D( X ) = 2 *
D( X )

n
W liczniku znajduje się odchylenie standardowe zmiennej X - miara
zróżnicowania zbiorowości oraz wartość funkcji , która jest rosnącą
względem poziomu ufności, a w mianowniku jest kwadratowy pierwiastek
z liczebności próby n. () = 1-/2
zatem, gdy  rośnie  maleje i gdy
1- rośnie, to  rośnie.
Można traktować długość przedziału ufności jako miarę niedokładności
oszacowania, a poziom ufności jako miarę niezawodności tego oszacowania.
Dokładność oszacowania średniej w populacji malejąca wraz ze wzrostem
długości przedziału ufności :
a. rośnie wraz ze wzrostem liczebności próby, liniowo względem kwadratu tej liczebności,
b. maleje wraz ze wzrostem niezawodności oszacowania czyli wzrostem
poziomu ufności lub spadkiem poziomu ryzyka,
c. maleje wraz ze wzrostem odchylenia standardowego rozkładu zmiennej
X w populacji.
Poziom zróżnicowania populacji określony przez odchylenie standardowe
zmiennej X w populacji jest stały i od badacza nie zależy. Liczebność
próby zwykle jest ograniczona względami ekonomicznymi lub technicznymi
i jeżeli badacz nie może jej zmienić, to chcąc wpłynąć na dokładność oszacowania może on jedynie wybrać inny poziom ufności.
Można stąd wyznaczyć minimalną liczebość próby niezbędną do osiągnięcia
zamierzonej dokładności oszacowania i jego niezawodności jako spełniajacą
warunek:

77




n 
 D X )


gdzie jest połową długości przedziału ufności.
Jak widać niezbędna jest jednak znajomość wariancji zmiennej X
w populacji lub przynajmniej jej maksymalnej wartości.
Badacz może swobodnie wybrać odpowiednią dla siebie relację między
dokładnością oszacowania a jego niezawodnością. Za wzrost dokładności
trzeba jednak płacić spadkiem niezawodności i odwrotnie, za wzrost
niezawodności spadkiem dokładności. Jedna z tych wielkości może wzrosnąć
bez spadku drugiej lub przy jej jednoczesnym wzroście tylko za cenę
zwiększenia liczebności próby. Inną możliwością, o raczej małym praktycznym znaczeniu, byłoby zainteresowanie się jakąś inną, mniej zróżnicowaną
zbiorowością. Zmniejszając liczebność próby, zmniejszamy dokładność, albo
niezawodność, albo obie te wielkości jednocześnie.
Możliwe jest jednoczesne poprawienie dokładności i niezawodności bez
zwiększenia liczebności próby dzieki zmianie sposobu jej losowania:
nieznaczną poprawę mozna uzyskać przez zastąpienie losowania zwrotnego
przez bezzwrotne,
niekiedy znaczą poprawę mozna uzyskac przez podział populacji na segmeny charakteryzujące sie mniejszymi wariancjami zmiennej X i losowanie
segmenow próby z każdego segmenu populacji osobno. Losowanie takie nazywamy losowaniem warstwowym. Warto je stosować jednak tylko wtedy, gdy
umiemy podzielić populacje na podzbiory bardziej od calej populacji pod
wzgledem wartości zmiennej jednorodne i możemy przeprowadzić losowanie
w każdej warstwie osobno.
Można stąd wyznaczyć minimalną liczebość próby niezbędną do osiągnięcia
zamierzonej dokładności oszacowania i jego niezawodności jako spełniajacą
warunek:




n 
 D X )


gdzie jest połową długości przedziału ufności.
Jak widać niezbędna jest znajomość wariancji zmiennej X w populacji lub
przynajmniej jej maksymalna wartość.
Wróćmy do technicznych problemów estymacji średniej. Przeprowadzenie
jej w sposób opisany wymaga znajomości odchylenia standardowego
w populacji tej zmiennej, której średnią szacujemy. Odchylenia tego zwykle
nie znamy. Dla określenia maksymalnej długości przedziału ufności wystarczyłaby wiedza o maksymalnej wartości tego odchylenia.
Często, estymując średnią w populacji, niczego nie wiemy o wielkości odchylenia standardowego zmiennej. W tym przypadku musimy dokonać punktowej
estymacji tego parametru. Jeżeli taka punktowa estymacja ma być rzetelna
czyli średnia wartość kwadratu błędu z nią związanego ma być mała, to dla
jej przeprowadzenia powinniśmy się posłużyć możliwie efektywnym
i nieobciążonym estymatorem zgodnym i dużą próbą.
Wariancja z próby jest asymptotycznie nieobciążonym estymatorem
wariancji z populacji. Jeżeli liczebność próby jest duża, obciążenie jest
tak małe, że można je pomijać. Wariancja z próby jest estymatorem zgodnym.
W sytuacji, gdy nie znamy średniej w populacji, jest estymatorem optymalnym w sensie metody najwyższej wiarygodności. Nie jest wprawdzie estymatorem najefektywniwjszym w zbiorze wszystkich możliwych estymatorów, takim
estymatorem jest bowiem średnia kwadratów odchyleń wartości zmiennej
w próbie od średniej zmiennej w populacji, której jednak właśnie nie
znamy.
78
Biorąc to pod uwagę przyjmuje się pierwiastek z wariancji w dużej
próbie za estymator punktowy odchylenia standardowego w populacji.
Uzyskaną w wylosowanej próbie wartość tego estymatora traktuje się przy
wyznaczaniu granic przedziału ufności dla średniej jako ocenę odchylenia
standardowego w populacji. Tym sposobem postępowanie estymacyjne dotyczące
średniej zostaje obarczone dodatkowym błędem - błędem estymacji punktowej
odchylenia standardowego. Pocieszającym jest jednak to, że błąd ten ujawni
się w liczbach wyznaczających granice przedziału ufności podzielony przez
pierwiastek z liczebności próby. Liczebność ta wtedy, gdy dokonujemy
takiego szacunku odchylenia jest duża, zatem dzielenie to wydatnie ów błąd
zmniejsza.
Przyjmujemy, że odchylenie standardowe s w wylosowanej próbie jest
oceną odchylenia standardowego w populacji . Ocena ta obarczona jest
błędem, w konkretnym przypadku istnieje takie , że:
 = s+
s = -s
Zatem granice przedziału wyznaczonego na podstawie tej próby można
zapisać:

<

x


s
  , x

n
+
s
  
n

lub wyodrębnić błąd oceny odchylenia standardowego w populacji:




< x





-

  , x

n

+

-
 
n
>
co jest równoważne takiej ich postaci:




< x





 
  +

n

 
 ,
n

x

+

 
  n


  >
n
gdzie wielkość  * /n jest błędem w ocenie granic przedziału ufności
wynikających z estymacji parametru . W praktycznych zastosowaniach
 = 2 ± 0.5, n  20, a zatem błąd w ocenie granic przedziału ufności
jest co najmniej o rząd wielkości mniejszy od błędu w ocenie parametru .
Zapamiętajmy: jeżeli nie znamy odchylenia standardowego zmiennej
w populacji a chcemy posłużyć się opisaną metodą, to średnią zmiennej
możemy estymować jedynie przy użyciu licznej próby. Istnieje inna metoda
estymacji średniejw populacji, w której zmienna ta ma rozkład normalny lub
do normalnego bardzo podobny i nie znamy odchylenia standardowego tej
zmiennej w populacji. W metodzie tej zamiast standaryzowanej średniej
z próby używa się innej statystyki:


X -m

S/(n-1)
gdzie X jest średnią zmiennej X z próby, a S odchyleniem standardowym zmiennej X z próby.
79
Statystyka ta ma tzw. rozkład Studenta o n-1 stopniach swobody.
Analizowanie tego przypadku nie wniosłoby niczego nowego i istotnego,
a nieczęsto spotykamy populacje, w których wszystkie interesujące nas
zmienne mają rozkłady normalne lub do normalnych podobne. Ta ostatnia
uwaga dotyczy rzecz jasna głównie socjologii. Przejdźmy zatem do
przykładów.
Przykład 1. Estymacja średniej w populacji na podstawie dużej próby.
Dla oszacowania przeciętnej wagi paczki herbaty "Popularna"
o nominalnej wadze 100g z całego transportu liczącego kilkadziesiąt
tysięcy paczek wylosowano w sposób bezzwrotny 400 paczek i każdą dokładnie
zważono. Uzyskano średnią wagę paczki herbaty równą 99.2 g i odchylenie
standardowe równe 1.12 g.
Wyznaczymy przedział ufności dla średniej wagi jednej paczki w tym transporcie godząc się na ryzyko błędnej oceny równe 0.01. Najpierw zapiszemy
dane stosując przyjętą symbolikę:
n

x
s
=
=
=
=
400
0.01, zatem poziom ufności (1 - ) = 0.99
99.2 g
1.12 g
Ponieważ liczebność populacji jest wielokrotnie większa od liczebności
próby, bezzwrotne losowanie próby praktycznie w niczym nie różni się od
losowania zwrotnego. Szansa ponownego wylosowania tej samej paczki przy
losowaniu zwrotnym byłaby pomijalnie mała. Będziemy zatem traktować naszą
próbę tak, jak gdyby była wylosowana w losowaniu prostym i niezależnym.
Gdyby transport był mniejszy lub próba była dużo większa, postępowanie
takie nie byłoby uzasadnione.
Granice przedziału ufności dla średniej w populacji na podstawie wylosowanej próby dane są wzorem:
m   x -

 ,
n
x +

 >
n
Rozpoczniemy od wyznaczenia wartości funkcji 
dla  = 0.01.
(0.01) = 1-0.01/2 = 0.995
zatem odczytujemy z tablicy dystrybuanty zmiennej U o rozkładzie N (0,1),
dla jakiej to liczby wartość dystrybuanty równa się 0.995 i otrzymujemy:
(2.58) = 0.995,
zatem
0.01 = 2.58
Nie znamy odchylenia standardowego wagi paczki herbaty w całym transporcie. Ponieważ liczebność próby jest duża, przyjmujemy odchylenie standardowe w wylosowanej próbie s jako ocenę odchylenia standardowego
w populacji.
 = s = 1.12 g
Będziemy twierdzić, że średnia waga paczki herbaty z tego transportu
należy do przedziału:
80
s
x - 


n
=
99.2
-2.58

od


1.12
 = 99.05552
400
s
x + 


n
=
99.2 + 2.58

do


1.12
 = 99.94448
400
co zapisujemy tak:
m  99.05552 g,
99.34448 g>
Metoda, która doprowadziła nas do takiej oceny średniej wagi paczki
charakteryzuje się tym, że prowadzi do trafnej oceny średniej
z prawdopodonieństwem 0.99 nazywanym poziomem ufności i do nietrafnej
oceny wartości tej średniej z prawdopodobieństwem 0.01 nazywanym poziomem
ryzyka. Są to, jak pokazaliśmy wcześniej, prawdopodobieństwa wylosowania
prób, którym przyporządkowane są "trafne" i "nietrafne" przedziały
ufności.
W tym przypadku ocena obarczona jest dodatkowymi błędami wynikającymi
z traktowania próby bezzwrotnej jako zwrotnej oraz odchylenia standardowego w próbie jako odchylenia standardowego w populacji. Sprawdzimy,
jakie byłyby granice przedziału ufności, gdyby odchylenie standardowe
w populacji było dwukrotnie większe od przyjętego jako ocena odchylenia
w próbie.
Jeżeli  = 2s = 2*1.12 = 2.24, to m  98.91104g, 99.48896g >
Granice przedziału ufności nie zmieniły się w sposób równie dramatyczny
jak ocena odchylenia standardowego. Popełnienie aż tak dużego błędu
w ocenie odchylenia standardowego na podstawie próby liczącej 400 elementów jest bardzo mało prawdopodobne. Małe błędy w ocenie, których można
się spodziewać, nie powodują godnych uwagi zmian granic przedziału ufności.
Traktowanie losowania bezzwrotnego jako zwrotnego powoduje w tym przypadku minimalne poszerzenie przedziału, który wyznaczony dokładnie byłby
nieco węższy. Bezzwrotność losowania zmniejsza nieco wariancję średniej
z próby.
Wariancja średniej z próby losowanej w sposób zwrotny zależy od liczebności populacji N o od liczebności próby n:




 
2
D (X ) =  *
n
N - n

N - 1
Dla przykładu przyjmijmy, że transport składał się tylko z 40 000
paczek, a zatem losowaliśmy 1% całej populacji. Gdybyśmy uwzględnili
bezzwrotność losowania, przedział ufności byłby nieco węższy:
m   99.056243g, 99.343767g >
nie uwzględniajac bezzwrotności losowania przyjmowaliśmy, że
m  <99.05552 g,
99.34448 g>
Pomijanie tak małych różnic wydaje się w pełni uzasadnione, dokładność
wagi byłaby z pewnością gorsza.
81
Przykład 2. Estymacja częstości w dużej populacji na podstawie dużej
próby.
Należy ocenić częstość występowania w populacji osób zadowolonych
z pracy. Wylosowano w sposób prosty i niezależny próbę liczącą 900 osób.
W tej próbie było 721 osób zadowolonych z pracy. Należy ocenić częstość
występowania osób zadowolonych z pracy w całej populacji godząc się na
ryzyko błędu równe 0.05.
Częstość występowania jakiejś cechy w populacji oznaczymy p. Tym razem
p oznacza częstość występowania w populacji osób zadowolonych z pracy.
Częstośc występowania tej samej cechy w próbie oznaczamy p'. Częstość
występowania cechy jest średnią zmiennej, która przyjmie wartość 1 dla
wszystkich elementów zbiorowości, które tę cechę posiadają, a wrtość 0 dla
pozostałych elementów, które tej cechy nie posiadają.
Niech zmienna X przyjmie wartość 1 dla osób zadowolonych z pracy
i wartość 0 dla wszystkich pozostałych. W takim razie częstość, z jaką
występują w zbiorowości osoby zadowolone z pracy jest równa średniej
zmiennej X w tej zbiorowości. Zmienna X w ten sposób zdefiniowana jest
tzw. zmienną zero-jedynkową, której własności zostały przedstawione
wcześmniej [s.
]. Przypomnimy je tylko:
P (X = 1)
P (X = 0)
E (X)
D2(X)
=
=
=
=
p
q = 1 - p
p
p * (1 - p)
Możemy teraz zapisać dane z naszego przykładu stosując tę właśnie symbolikę:
n = 900
p'= x = 721/900 = 0.80111
 = 0.05, zatem poziom ufności 1 -  = 0.95
Granice przedziału ufności dla średniej w populacji dane są znanym
wzorem. Kolejno określimy wartości występujących tam wielkości.
Rozpoczniemy od wartości funkcji  dla =0.05. Odszukujemy w tablicy
dystrybuanty zmiennej U o rozkładzie N (0, 1) dla jakiej to liczby
dystrybuanta ta jest równa (1 - 0.05/2) = 0.975 i znajdujemy:
(1.96) = 0.975, zatem
0.05 = 1.96
Nie znamy odchylenia standardowego zmiennej X w populacji. Ponieważ
liczebność próby jest dostatecznie duża, oceniamy je przy użyciu odchylenia standardowego tej zmiennej w wylosowanej próbie. Wartość tę
oznaczymy s:
 = s = (721/900 * 179/900)
Będziemy twierdzić, że średnia zmiennej X w populacji, czyli częstość
występowania tam osób zadowolonych z pracy, jest liczbą należącą do
przedziału:

s
od x -  = 0.80111 - 1.96 *



n
0.3991641
 = 0.775
900

do x +



s
 = 0.80111 + 1.96 *
n
0.3991641
 = 0.822
900
82
co można zapisać
m  < 0.775, 0.822 >
Częstość występowania w populacji osób zadowolonych z pracy należy do
przedziału od 0.775 do 0.822. Wniosek ten uzyskaliśmy za pomocą metody,
która prowadzi do poprawnej oceny częstości w populacji z prawdopodobieństwem równym poziomowi ufności 0.95, a do błędnej oceny tej częstości
z prawdopodobieństwem równym poziomowi ryzyka 0.05. Jest on obarczony
dodatkowym błędem wynikającym z zastąpienia nieznanego odchylenia standardowego zmiennej X w populacji przez odchylenie standardowe tej zmiennej
w próbie.
Ponieważ odchylenie standardowe zmiennej zero-jedynkowej nie przekracza
liczby 0.5, zatem istnieje maksymalna długość przedziału ufności dla średniej takiej zmiennej oszacowanego przy użyciu próby liczącej 900 elementow.




s
0.5
 = 1.96 *  = 0.032666
n
900
Długości tej przedział ufności przekroczyć nie może bez względu na to,
jakie odchylenie standardowe w populacji ma znienna zero-jedynkowa X.
Podstawiając maksymalną wartość odchylenia standardowego zmiennej X
w miejsce nieznanej jego prawdziwej wartości otrzymujemy granice takiego
przedziału, który z pewnością nie jest za wąski:

s
od x -  = 0.80111 - 1.96 *



n
0.5
 = 0.768
900

s
do x +  = 0.80111 + 1.96 *



n
0.5
 = 0.834
900
co można zapisać
m  < 0.768, 0.834 >
Porównując ten przedział, o maksymalnej długości, z wyznaczonym
wcześniej możemy zauważyć, że przy tak licznej próbie nawet znaczny ewentualny błąd w ocenie odchylenia w populacji nie odbija się w sposób rzucający się w oczy na ocenie częstości w populacji.
Ponieważ szacowanie częstości w populacji za pomocą częstości w próbie
jest w praktyce badawczej zadaniem czesto wykonywanym, zapiszemy odpowiednie wzory pozwalające na pomijanie zero-jedynkowej zmiennej X, co
upraszcza procedurę szacowania.
Najpierw zapiszemy przedział ufności dla średniej w postaci ogólnej
i dobrze już znanej:
 
m  < x -  ,
n



x +  >
n
gdy odchylenie standardowe zmiennej w populacji nie jest znane
i liczebność próby jest duża:
83
s
m  < x -  ,
n
(i)
s
x +  >
n
gdy zmienna X jest zmienną zero-jedynkową, wówczas:
średnia w populacji p=E(X)
średnia w próbie
p'= x
odchylenie standardowe w próbie p'*(1-p') = s
Podstawimy to do (i) i otrzymujemy przedział ufności dla czestości:

p  < p-




pq
,
n
p+
pq
 >
n
Przykład 3. Wyznaczanie minimalnej liczebności próby.
Zamierzamy ocenić częstość występowania jakiejś cechy w populacji.
Dokładność tej oceny powinna być co najmniej taka, by długość przedziału
nie była większa od 0.02.
Niezawodność oceny nie powinna być gorsza od danej przez poziom ufności
równy 0.95. Jak liczną powinna być próba losowana w sposób prosty
i niezależny pozwalająca spełnić te warunki?
Długość przedziału ufności dla częstości otrzymujemy z długości
przedziału ufności dla średniej podstawiając iloczyn p*(1-p) w miejsce s.
Oznaczymy długość przedziału zgodnie ze zwyczajem 2d, samo d jest połową
długości.

d

= 


p(1-p)


n
zatem liczebność próby można przedstawić jako funkcję długości
przedziału d:


n

p(1-p)
= 
d2
W naszym przykładzie:
2d
 
= 0.02,
= 0.05,
zatem
zatem
d = 0.01
 = 1.96
stąd:
n =
1.96 * p * (1-p)

0.0004
Jeżeli niczego nie wiemy o częstości występowania cechy w populacji,
przyjmiemy najmniej korzystną wartość iloczynu p(1-p) maksymalizującą
niezbędną liczebność próby. Pamiętamy, że maksymalna wartość iloczynu
p(1-p) jest równa 0.25. W ten sposób wyznaczona liczebność pozwoli spełnić
postawione wymagania bez względu na to, jaka jest rzeczywiście czestość
cechy w populacji.
n =
1.96 * 0.25
= 9604
0.0004
84
gdyby obliczona liczebność nie była całkowita, wzięlibyśmy najmniejszą
liczbę całkowitą większą od liczby w ten sposób wyznaczonej
Gdybyśmy byli pewni, że częstość cechy w populacji nie przekracza 0.2,
wówczas moglibyśmy posłużyć się mniejszą próbą:
ponieważ p(1-p)  0.16, przyjmujemy p(1-p) = 0.16
i obliczamy niezbędną w tych warunkach liczebnośc próby:
n =
1.96 * 0.16
 = 6146.56
0.0004
Jeżeli częstość występowania cechy w populacji nie przekracza 0.2,
wystarczy wylosować próbę liczącą 6147 elementow.
Wyznaczając minimalną liczebność próby zapewniającą ustalony poziom
dokładności i niezawodności oceny średniej lub częstości, należy w miejsce
odchylenia standardowego w populacji podstawić jego prawdziwą wartość, lub
jeżeli nie jest ona znaną - maksymalną jego wartość wedle najlepszej
wiedzy, jaką dysponujemy. W przypadku oceny częstości, jeżeli wiemy,
że częstość w populacji jest mniejsza od r i to r jest mniejsze od 0.5,
w miejsce p(1-p) podstawiamy r(1-r). Jeżeli wiemy, że czestość w populacji
jest większa od r i to r jest większe od 0.5, w miejsce p(1-p) podstawiamy
także r(1-r),
w pozostałych przypadkach estymacji czestości podstawiamy 0.25.
Na zakończenie porównajmy przedstawioną tu koncepcję estymacji z inną.
Dla tej, którą zajmowaliśmy się dotąd, istotnym jest traktowanie ocenianego parametru populacyjnego jako stałej, przedziału ufności jako swoistej
zmiennej określonej w przestrzeni prób i możliwość utożsamiania poziomu
ufności z częstością w tej przestrzeni prób, czestością z jaką wystęują
w niej próby, którym przyporządkowane są "trafne" przedziały ufności.
Autorstwo tej koncepcji przypisuje się Jerzemu Neymanowi.
Możliwym jest jednak inne podejście do problemu estymacji, które tutaj
zostanie jedynie zarysowane i to w wielkim skrócie. Wedle tej koncepcji
parametr rozkładu zmiennej w populacji jest zmienną losową i istnuieje
łączny rozkład zmiennej  i zmiennych X1, X2, X3, ..., Xn wartości zmiennej X dla kolejnych elementów próby. Istnieje zatem rozkład brzegowej
zmiennej . Rozkład ten nazywany jest rozkładem a priori tego parametru.
Po wylosowaniu próby dysponujemy wartościami zmiennych X1, X2, X3, ..., Xn
w wylosowanej próbie. Można znając rozkład łączny wyznaczyć warunkowy
rozkład zmiennej przy założeniu, że zmienna X1, X2, X3, ..., Xn przyjmują
wartości z wylosowanej próby. Ten warunkowy rozkład zmiennej nazywamy
rozkładem a posteriori. Dla tego warunkowego a posteriori rozkładu
parametru należy poszukać najkrótszego przedziału (a,b) takiego,
że prawdopodobieństwo, iż parametr przyjmie wartość z tego przedziału jest
równe przyjętemu poziomowi ufności.
Ze względu na użycie twierdzenia Bayesa, taki przedział ufnosci nazywamy przedziałem baysowskim. Jego interpretacja jest inna niż przedziału
neymanowskiego. Tutaj poziom ufności jest prawdopodobieństwem przyjęcia
przez parametr wartości należącej do przedziału, a nie prawdopodobieństwem
przejęcia przez przedział takiej postaci, ze zawiera on w sobie wartość
tego parametru.
Jest możliwa estymacja punktowa prowadzona wedle analogicznego
rozumowania.
Poświęciliśmy kilka zdań koncepcji baysowskiej tylko po to, by
unaocznić raz jeszcze istotne własności estymacji metodą Neymana.
85
Rozdział 5
WERYFIKACJA HIPOTEZ
hipotezy: statystyczna
prosta, złożona,
zerowa, konkurencyjna,
parametryczna, nieparametryczna,
błędy I-go i II-go rodzaju
funkcja decezyjna
warunkowe prawdopodobieństwa popełnienia błędów
wybór optymalnej funkcji decyzyjnej
poziom istotności
weryfikacja dwu prostych hipotez dotyczących średniej
weryfikacja prostej i złożonej hipotez dotyczących średniej
weryfikacja hipotez nieparametrycznych
Każde przypuszczenie dotyczące stanu rzeczywistości nazywać będziemy
hipotezą. W tym sensie zdania: "pada deszcz", "średnia zarobków mieszkańców miejscowości N jest równa 14 721 $", "jutro będzie cieplej niż
dzisiaj" są hipotezami.
Hipotezę dotyczącą rozkładu jakiejś zmiennej losowej lub łącznego
rozkładu wielu zmiennych losowych nazywać będziemy hipotezami statystycznymi.
Prosta hipoteza statystyczna to taka hipoteza statystyczna, która
określa rozkład zmiennej lub zmiennych losowych w sposób jednoznaczny.
Złożona hipoteza statystyczna to taka hipoteza statystyczna, która jest
alternatywą dwu lub więcej prostych i różnych hipotez statystycznych.
Każda hipoteza statystyczna, która nie jest hipotezą prostą jest hipotezą złożoną. Zatem może być przedstawiona jako alternatywa hipotez
prostych, często nieskończenie wielu. Nie będziemy tu tego dowodzić, gdyż
wymagałoby to bardziej precyzyjnego zdefiniowania wprowadzonych terminów,
co nie jest konieczne dla dalszego wywodu. Później wprowadzimy jednak
nieco precyzyjniejszą definicję hipotezy prostej.
Weźmy jakikolwiek zbiór hipotez, niekoniecznie statystycznych, dotyczących stanu tej samej rzeczy. Niech ten zbiór hipotez spełnia warunek,
wedle którego dokładnie jedna spośród należących do tego zbioru hipotez
jest prawdziwa. Dalej będziemy się zajmowali tylko takimi zbiorami hipotez, które ten warunek spełniają. Najprostszym zbiorem zdań tego typu jest
para zdań, z których jedno jest zaprzeczeniem drugiego.
Zbiór takich hipotez, z których dokładnie jedna jest prawdziwa,
oznaczymy literą H, a kolejne należące doń hipotezy ponumerujemy
i oznaczymy: h0, h1, h2,...:
H = {h0, h1, h2, ...}
Literą A oznaczymy zbiór działań zawierający tyle samo działań, ile
hipotez jest w zbiorze H. W zbiorze A każdej hipotezie hi należącej do
zbioru hipotez H przyporządkowane jest działanie ai takie, że jest ono
najlepszym spośród działań należących do A, gdy prawdziwą jest hipoteza
hi. Ponadto różnym hipotezom przyporządkowane są różne działania, każdej
hipotezie dokładnie jedno działanie.
A = {a0, a1, a2, ...}
Dla przykładu, niech hipotezy dotyczą pogody i wedle jednej z nich
niech ma padać, a wedle innej - nie. Działania niech polegają na wzięciu
ze sobą parasola lub zostawieniu go w domu. Hipotezie, wedle której będzie
padało, przyporządkowane jest działanie polegające na wzięciu ze sobą
parasola, gdyż jest ono najlepsze w sytuacji, gdy pada i odwrotnie, zostawienie parasola jest najlepszym, gdy prawdziwą jest hipoteza, że nie pada.
Weryfikacja hipotez, niekoniecznie statystycznych, polega na wyborze
jednego działania ze zbioru A w sytuacji, gdy koniecznym jest wybranie
dokładnie jednego spośród tych działań. Ponieważ z każdym działaniem ze
zbior A związana jest dokładnie jedna hipoteza ze zbioru H, wybór
86
działania jest równoważny ze wskazaniem jednej z hipotez ze zbioru H
i uznaniu, że należy postępować tak, jak gdyby ta właśnie hipoteza była
prawdziwa.
Decydując się na wzięcie parasola postępujemy tak, jak gdyby hipoteza,
wedle której będzie padało, była prawdziwa. Zostawiając parasol postępujemy tak, jak gdyby hipoteza ta była fałszywa, a prawdziwą była hipoteza,
wedle której padać nie będzie.
Należy wyraźnie powiedzieć, że wzięcie parasola nie jest równoważnym
z uznaniem zdania "będzie padało" za prawdziwe i zdania "nie będzie
padało" za fałszywe. Działanie tak, jak gdyby hipoteza była fałszywa nie
jest równoważne z uznaniem jej za fałszywą w sposób bezapelacyjny.
Podobnie, działanie tak, jak gdyby jakaś hipoteza była prawdziwa nie
oznacza, iż uznaje się ją za niewątpliwie prawdziwą. Należy o tym
pamiętać, gdyż często zamiast posługiwać się przydługą formułą "działać
tak, jak gdyby hipoteza hi była falszywa" mówimy niezbyt precyzyjnie,
że "odrzucamy hipotezę h" lub w wypadku przeciwnym, że ją "przyjmujemy".
Przeprowadzając weryfikację hipotez w sposób racjonalny będziemy się
starali uzależnić wybór działania od jakichś przesłanek pozwalających na
unikanie błędów, polegających w naszym przykładzie na moknięciu bez parasola lub spacerowaniu z nim w dzień pogodny. Będziemy się starali
uzależnić naszą decyzję dotyczącą działania od wyniku jakiegoś doświadczenia, np. od wyniku pomiaru ciśnienia atmosferycznego. Jeżeli ciśnienie
spada, weźmiemy ze sobą parasol, w przeciwnym wypadku, zostawimy go
w domu.
Są z tym związane dwie kwestie: wyboru takiego doświadczenia i wyboru
sposobu uzależnienia działania od wyniku takiego doświadczenia.
Doświadczenie powinno być takie, by jego wynik zależał w znany nam
sposób od tego, która z hipotez jest prawdziwą. Nie wydaje się sensownym
uzależniać zabrania ze sobą parasola od wyniku rzutu kostką do gry, gdyż
wynik tego doświadczenia nie zależy w żaden znany nam sposób od
(przyszłej) pogody.
Funkcja decyzyjna to taka funkcja, która każdemu wynikowi doświadczenia
przyporządkowuje wybierane działanie.
Dla tego samego zbioru hipotez H i związanego z nim zbioru działań A
oraz tego samego doświadczenia o ustalonym zbiorze możliwych wyników istnieje wiele różnych funkcji decyzyjnych. W najprostszym przypadku, gdy
zbiory hipotez H i działań A są dwuelementowe, istnieje 2k różnych
funkcji decyzyjnych, gdzie k jest liczbą możliwych wyników doświadczenia.
W naszym przykładzie rozróżniamy dwa tylko wyniki doświadczenia
z barometrami: "ciśnienie spada" i "ciśnienie nie spada". Mamy zatem do
dyspozycji 22=4 różne funkcje decyzyjne. Przedstawia je tablica 1.
tablica 1
działanie przyporządkowane wynikowi doświadczenia
numer funkcji
decyzyjnej
1
2
3
4
ciśnienie spada
a0
a1
a0
a1
ciśnienie nie spada
a0
a0
a1
a1
Zauważmy, że dwie spośród funkcji, pierwsza i ostatnia, prowadzą do
wybierania zawsze tych samych działań, niezależnie od wyniku doświadczenia. Pierwsza prowadzi zawsze do wybierania działania a0, ostatnia do
wybierania zawsze działania a1. Posługując się jedną z nich nigdy nie
zmokniemy, gdyż zawsze będziemy chodzili z parasolem, posługując się drugą
nigdy nie będziemy chodzili z parasolem w dzień pogodny. Obie mają jednak
swoje wady.
Zanim zajmiemy się wybieraniem optymalnej funkcji decyzyjnej rozważmy
możliwe do popełnienia błędy. Rozważmy sytuację, gdzie zbiory hipotez
87
i działań są dwuelementowe: H = {h0, h1}. Przy takich ograniczeniach
możliwe do popełnienia są tylko błędy dwu rodzajów:
(a1, h0) - prawdziwą jest hipoteza h0 podejmujemy działanie a1, które
byłoby działaniem odpowiednim, gdyby prawdziwą była hipoteza h1,
(a0, h1) - prawdziwą jest hipoteza h1 i podejmujemy działanie a0, które
byłoby działaniem odpowiednim, gdyby prawdziwą była hipoteza h0.
Załóżmy, że koszty lub inaczej mówiąc przykrości związane
z popełnieniem tych błędów można w rozważanej sytuacji ze sobą porównywać.
Starać się będziemy tak oznaczać indeksami "0" i "1" hipotezy i działania,
by błąd bardziej dla nas kosztowny był błędem pierwszego rodzaju (a1, h0),
a błąd mniej kosztowny błędem drugiego rodzaju (a0, h1).
Jeżeli mokniecie na deszczu bez parasola jest bardziej przykre od
spacerowania z nim w dzień pogodny, to hipoteza, wedle której będzie
padało powinna być nazwaną hipotezą zerową h0, a hipoteza przeciwna, wedle
której padać nie będzie - hipotezą h1. Wówczas błędem I-go rodzaju będzie
właśnie moknięcie bez parasola (a1, h0), czego się bardziej obawiamy,
a spacerowanie z parasolem w dzień pogodny (a0, h1) będzie błędem II-go
rodzaju.
Przyjmujemy następującą konwencję językową określającą sposób indeksowania hipotez, działań i błędów:
Błędem I-go rodzaju nazywamy podjęcie działania a1 sytuacji, gdy
rzeczywistość jest zgodna z treścią hipotezy h0.
Błędem II-go rodzaju nazywamy podjęcie działania a0 sytuacji, gdy
rzeczywistość jest zgodna z treścią hipotezy h1.
Jeżeli nie staną temu na przeszkodzie jakieś inne względy, o których
jeszcze będzie mowa, będziemy starali się tak oznaczać hipotezy, by błędem
I-go rodzaju okazywał się być ten błąd, którego popełnienie jest dla nas
bardziej przykre lub kosztowne.
Hipotezę oznaczoną h0 nazywamy hipotezą zerową.
Hipotezę oznaczoną h1 natomiast nazywamy hipotezą konkurencyjną.
Działanie a0 jest działaniem właściwym wtedy, gdy prawdziwą jest hipoteza zerowa.
Działanie a1 jest działaniem właściwym wtedy, gdy prawdziwą jest hipoteza konkurencyjna.
Jeżeli udało nam się przy nazywaniu hipotez uwzględnić koszty błędów,
to hipotezą zerową jest ta spośród hipotez, której błędne odrzucenie jest
bardziej dla nas kosztowne. Pamiętamy, że "odrzucenie" hipotezy polega na
postępowaniu w taki sposób, jak gdyby była ona fałszywa. Działanie a0 jest
"odrzuceniem" hipotezy konkurencyjnej h1. W analogiczny sposób posługujemy
się terminem "przyjęcia" hipotezy. Działanie a1 jest "przyjęciem" hipotezy
konkurencyjnej h1. Działanie a0 jest "przyjęciem" hipotezy zerowej h0.
Dalej terminami "przyjęcie" i "odrzucenie" będziemy się posługiwali
właśnie w ten sposób. Tablica 2 zdaje sprawę z relacji między dopiero co
wprowadzonymi terminami.
tablica 2
| stan rzeczy jest zgodny
|






z treścią hipotezy

działalność

h0

h1


a0

+
 błąd II-go 





 



 rodzaju


a1
 błąd I-go
 
+






 rodzaju
 





88
Mając na uwadze relację kosztów związanych z popełnieniem błędów
będziemy się starali przede wszystkim unikać popełniania błędu I-go
rodzaju, wszelako nie za każdą cenę. Moglibyśmy chodząc stale z parasolem
a0 nie popełniać go w naszym przykładzie nigdy. Wówczas jednak, ilekroć by
to tylko było możliwe, gdyż prawdziwą by była hipoteza konkurencyjna h1,
popełnialibyśmy błąd II-go rodzaju chodząc z parasolem w dzień pogodny.
Prawie nikt się tak daleko w tym kierunku nie posuwa.
Podstawowym dla weryfikacji hipotez jest problem wyboru optymalnej
funkcji decyzyjnej ze zbioru wszystkich możliwych funkcji decyzyjnych. Dla
weryfikacji hipotez statystycznych regułę wyboru optymalnej funkcji
sformułował Jerzy Spława-Neyman. Wedle niego należy starać się ograniczyć
ryzyko popełnienia błędu I-go rodzaju do jakiegoś akceptowalnego poziomu,
a jednocześnie w miarę możliwości zminimalizować ryzyko popełnienia błędu
II-go rodzaju. Ta metoda weryfikacji hipotez statystycznych jest dziś
powszechnie stosowaną w naukach empirycznych. Istnieją rozwiązania konkurencyjne, które w zarysie przedstawimy później. Domagają się one
bogatszej informacji o rzeczywistości lub jej brak zastępują arbitralnymi
założeniami.
Stosowanie metody Neymana-Pearsona (pod taką nazwą występuje ona
w literaturze ze względu na równoczesne jej opracowanie przez dwu uczonych) jest ograniczone do weryfikacji dwu hipotez statystycznych,
z których co najmniej jedna jest hipotezą prostą. Jeżeli tylko jedna
z hipotez jest hipotezą prostą, wówczas bez względu na relację między
kosztami ewentualnych błędów, ta prosta hipoteza musi zostać uznaną za
hipotezę zerową. Najpierw rozważymy jednak przypadek klasyczny, gdzie obie
hipotezy są prostymi hipotezami statystycznymi.
Wcześniej wprowadzone terminy znajdują w koncepcji Neymana - Pearsona
swoje właściwe zastosowanie. Będziemy się nimi posługiwać przedstawiając
następny przykład.
Niech weryfikowanymi hipotezami będą dwa zdania: "płuca pacjenta są
zdrowe" i "płuca pacjenta są chore". Dla każdego konkretnego pacjenta
dokładnie jedna z tych hipotez jest prawdziwa. Później przyjmiemy taką ich
interpretację, przy której będą one dwiema prostymi hipotezami statystycznymi.
Mając swobodę w wyborze hipotezy zerowej, gdyż obie hipotezy są hipotezami prostymi, powinniśmy rozważyć, czy bardziej kosztownym jest
postępować z pacjentem zdrowym tak, jak gdyby był on chory, czy też
bardziej kosztownym jest postępować z chorym tak, jak gdyby był on zdrowy.
Przyjmijmy, zapewne w większości przypadków słusznie, że traktowanie
chorego tak jak zdrowego jest bardziej dla niego kosztowne niż traktowanie
zdrowego tak, jak gdyby był on chory. Chory pozbawiony pomocy lekarskiej
może utracić życie, zdrowy traktowany tak jak chory nie powinien niczego
utracić poza odrobiną czasu na dodatkowe badania.
Zatem hipotezę, wedle której pacjent jest chory, uznamy za zerową,
a błąd polegający na uznaniu takiego chorego pacjenta za zdrowego nazwiemy
błędem I-go rodzaju. Jest to ten błąd, którego popełnienia bardziej się
obawiamy. Natomiast hipotezę, wedle której pacjent jest zdrowy nazwiemy
hipotezą konkurencyjną a traktowanie zdrowego tak, jak gdyby był on chory,
nazwiemy błędem II-go rodzaju.
Ocenę zdrowia pacjenta opierać można na wynikach rozmaitych doświadczeń, pod warunkiem, że wyniki tych doświadczeń zależą od stanu zdrowia
pacjenta. Jedno z takich doświadczeń mogłoby mieć postać następującą.
Wykonujemy trzy rentgenowskie zdjęcia płuc pacjenta i przedstawiamy je do
oceny lekarzowi. Ocenia on te zdjęcia uporządkowane w sposób losowy wraz
ze zdjęciami innych pacjentów i o każdym zdjęciu orzeka, czy wskazuje ono
na chorobę płuc. Możemy przyjąć, że oceny poszczególnych zdjęć będą
niezależne. Załóżmy ponadto, że:
- Prawdopodobieństwo tego, że lekarz potraktuje zdjęcie chorego jako
wskazujące na chorobę jest równe 0.9.
- Prawdopodobieństwo tego, że lekarz potraktuje zdjęcie zdrowego
pacjenta jako wskazujące na chorobę, jest równe 0.2.
Jako wynik doświadczenia rozumieć będziemy liczbę zdjęć pacjenta uznanych
przez lekarza za wskazujące na chorobę. Liczba ta jest zmienną losową
przyjmującą wartości ze zbioru {0, 1, 2, 3}. Oznaczymy tę zmienną L.
89
Na podstawie wyniku tego doświadczenia mamy orzekać, czy pacjenta
należy traktować jako chorego, czy jako zdrowego.
W tym miejscu należy zauważyć, że uzależniając decyzję od wyniku
takiego doświadczenia traktujemy hipotezę h0 brzmiącą "płuca pacjenta są
chore" jako równoważną hipotezie statystycznej:
"Prawdopodobieństwo tego, że zdjęcie pacjenta zostanie uznane przez
lekarza za zdjęcie wskazujące na chorobę jest równe 0.9",
a hipotezie h1 brzmiąca "płuca pacjenta są zdrowe" jako równoważną hipotezie statystycznej:
"Prawdopodobieństwo tego, że zdjęcie pacjenta zostanie przez lekarza
uznane za zdjęcie wskazujące na chorobę jest równe 0.2".
Obie te hipotezy są prostymi hipotezami statystycznymi. Każda z nich
w sposób jednoznaczny określa rozkład dwuwartościowej zmiennej zdającej
sprawę z oceny zdjęcia płuc pacjenta. Nadal jednak, dla uproszczenia,
będziemy mówili, że hipotezy dotyczą stanu zdrowia pacjenta. Będziemy
jednak pamiętać, że utożsamiamy stan zdrowia pacjenta z prawdopodobieństwem uznania jego zdjęcia za wskazujące na chorobę.
Powiedzieliśmy, że wynik takiego doświadczenia, od którego uzależniamy
działanie, winien zależeć od stanu rzeczy będącej przedmiotem weryfikowanych hipotez. Wynikiem naszego doświadczenia jest liczba zdjęć wskazujących zdaniem lekarza na chorobę. Oznaczyliśmy tę liczbę zdjęć L.
Porównajmy zatem warunkowy rozkład zmiennej L przy założeniu, że prawdziwą
jest hipoteza zerowa i są to zdjęcia płuc pacjenta chorego z warunkowym
rozkładem zmiennej L przy założeniu, że prawdziwą jest hipoteza konkurencyjna i są to zdjęcia płuc pacjenta zdrowego. Oba rozkłady warunkowe
wyznaczymy bez trudu korzystając z treści hipotez: zerowej
i konkurencyjnej oraz niezależności ocen kolejnych zdjęć. Zmienna L ma
rozkład dwumianowy, liczba doświadczeń elementarnych jest równa 3, prawdopodobieństwo sukcesu w pojedyńczym doświadczeniu elementarnym czyli
uznania zdjęcia za wskazujące na chorobę jest dana przez odpowiednią hipotezę i stałe dla wszystkich zdjęć tego samego pacjenta, wyniki kolejnych
doświadczeń elementarnych są niezależne.
Prawdopodobieństwo warunkowe tego, że lekarz uzna dokładnie jedno zdjęcie pacjenta za wskazujące na chorobę pod warunkiem, że prawdziwą jest
hipoteza zerowa "pacjent jest zdrowy" dane jest wzorem:
P(L=1|h0)
3
=   * P(L=1|n=3,p=0.9) = 3 * 0.91 * 0.1(3-1) =
1
=
3 * 0.9 * 0.12 = 3 * 0.9 * 0.01 = 0.027
Prawdopodobieństwo warunkowe tego, że lekarz uzna dokładnie jedno
z trzech zdjęć pacjenta za wskazujące na chorobę pod warunkiem,
że prawdziwąjest hipoteza konkurencyjna h1: "pacjent jest zdrowy", dane
jest wzorem:
P(L=1|h1)
=
3
=   * P(L=1|n=3,p=0.2) = 3 * 0.21 * 0.8(3-1) =
1
3 * 0.2 * 0.82 = 3 * 0.2 * 0.64 = 0.384
Tablica 3 przedstawia warunkowe rozkłady zmiennej L "wynik doświadczenia" przy założeniu, że stan rzeczy zgodny jest z treścią hipotezy h0
oraz przy założeniu, że zgodny jest z treścią hipotezy h1.
90
tablica 3

Wynik doświadczenia
stan rzeczy
pacjent chory
pacjent zdrowy
wartość zmiennej L
zgodnie z h0
zgodnie z h1
l
P(L=l|h0)
P(L=l|h1)


0
0.001
0.512
1
0.027
0.384
2
0.243
0.095
3
0.729
0.008

1.000
1.000
Rozkłady warunkowe zmiennej L nie są identyczne. Zatem znajomość wyniku
doświadczenia może być pomocna przy wnioskowaniu o stanie zdrowia
pacjenta. Na uwagę zasługuje jednak fakt następujący: każdy wynik doświadczenia jest możliwy do osiągnięcia w każdym ze stanów rzeczy. Np. L=0 może
zdarzyć się zarówno wtedy, gdy pacjent jest chory (h0) jak i wtedy, gdy
jest on zdrowy (h1). W tym ostatnim przypadku taki rezultat doświadczenia
jest jednak dużo bardziej prawdopodobny. Wnioskowanie o stanie pacjenta na
podstawie wyniku tego doświadczenia jest możliwe, lecz jest zawodne.
Rozważmy teraz wszystkie możliwe funkcje decyzyjne. Jest ich 24=16,
gdyż posługujemy się doświadczeniem o 4 możliwych wynikach. Każdej funkcji
decyzyjnej przyporządkowujemy warunkowe prawdopodobieństwa popełnienia
błędów obu rodzajów.
Weźmy funkcję decyzyjną d9 wedle numeracji z tablicy 4, gdzie przedstawione są wszystkie funkcje decyzyjne. Funkcja d9 przyporzadkowuje
działanie a0 wynikom doświadczenia polegającym na tym, że dokładnie jedno
lub dokładnie dwa zdjęcia pacjenta zostają uznane przez lekarza za
wskazujące na chorobę (L=1 lub L=2), a pozostałym wynikom doświadczenia
(L=0 lub L=3) przyporządkowuje działanie a1.
Zbiór takich wyników doświadczenia, którym funkcja decyzyjna d przyporządkowuje działania a1 nazywamy obszarem krytycznym funkcji decyzyjnej
d. Obszar krytyczny oznaczymy literą K. Jeżeli to będzie konieczne,
będziemy uzupełniać literę K indeksem - numerem funkcji decyzyjnej: np.
obszar krytyczny funkcji decyzyjnej d9 oznaczymy K9.
Zbiór {0, 3} jest obszarem krytycznym funkcji decyzyjnej d9. Zapiszemy
to stosując przyjętą symbolikę.
K9 = {0, 3}
Obszar krytyczny K jest obszarem krytycznym dla hipotezy zerowej, gdyż
uzyskanie wyniku doświadczenia należącego do tego obszaru skłania do traktowania tej właśnie hipotezy jako fałszywej, do jej "odrzucenia"
i traktowania hipotezy konkurencyjnej jako prawdziwej, do jej "przyjęcia".
Każdemu wynikowi doświadczenia, który do obszaru krytycznego funkcji
decyzyjnej nie należy, funkcja ta przyporządkowuje działanie a0,
"przyjęcie" hipotezy zerowej, "odrzucenie" hipotezy konkurencyjnej.
Oznaczając wynik doświadczenia małą literą l możemy napisać:
l  Kd
l  Kd
 d(l) = a1
 d(l) = a0
Znając rozkład warunkowy zmiennej L "wynik doświadczenia" przy
założeniu, że stan rzeczy jest zgodny z treścią hipotezy zerowej h0 możemy
obliczyć dla każdej funkcji decyzyjnej d warunkowe prawdopodobieństwo
Pd(a1|h0). Jest to prawdopodobieństwo podjęcia działania a1 czyli
"odrzucenia" hipotezy zerowej h0 pod warunkiem, że jest ona prawdziwa,
a my przy wyborze działania posługujemy się funkcją decyzyjną d. Inaczej
mówiąc jest to warunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju
91
przy stosowaniu funkcji decyzyjnej d pod warunkiem, że stan rzeczy zgodny
jest z treścią hipotezy h0.
Błąd I-go rodzaju posługując się funkcją decyzyjną d popełniamy wtedy,
gdy uzyskujemy taki wynik doświadczenia, który należy do obszaru krytycznego K tej funkcji decyzyjnej d, a jednocześnie stan rzeczy zgodny jest
z treścią hipotezy h0
Warunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju przy
posługiwaniu się funkcją decyzyjną d oznaczymy d:
d = Pd(a1|h0) = P(LKd|h0)
Znając rozkład warunkowy zmiennej L "wynik doświadczenia" przy
założeniu, że stan rzeczy zgodny jest z treścią hipotezy konkurencyjnej
h1, możemy obliczyć dla każdej funkcji decyzyjnej d prawdopodobieństwo
warunkowe popełnienia błędu II-go rodzaju przy warunku, że prawdziwą jest
hipoteza konkurencyjna h1.
Błąd II-go rodzaju popełniamy stosując funkcję decyzyjną d wtedy, gdy
uzyskujemy taki wynik doświadczenia, który nie należy do obszaru krytycznego K tej funkcji decyzyjnej d, a jednocześnie stan rzeczy zgodny jest
z treścią hipotezy konkurencyjnej h1.
Warunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju przy
posługiwaniu funkcją decyzyjną d oznaczymy d:
d = Pd(a0|h1) = P(LKd|h1)
Błąd I-go rodzaju przy posługiwaniu się funkcją decyzyjną d9 popełniamy
w naszym przykładzie wtedy, gdy przeprowadziwszy doświadczenie uzyskujemy
wartość zmiennej L równą 0 lub 3 i pacjent jest rzeczywiście chory.
Wybierając działanie zgodnie z funkcją decyzyjną d9 postępować będziemy
wówczas tak, jak gdyby był on zdrowy a1. Warunkowe prawdopodobieństwo
popełnienia błędu I-go rodzaju przy posługiwaniu się funkcją decyzyjną d9
obliczymy w sposób przedstawiony wcześniej.
K9 = {0, 3}
zatem
d
= Pd(a1|h0) = P(LKd|h0) = P(L{0,3}|h0) =
= P(L=0|h0) + P(L=3|h0)
= 0.001 + 0.729 = 0.73
W podobny sposób obliczymy warunkowe prawdopodobieństwo popełnienia
błędu II-go rodzaju przy posługiwaniu się tą funkcją decyzyjną.
d
= Pd(a0|h1) = P(LKd|h1) = P(L{1,2}|h1) =
= P(L=1|h1) + P(L=2|h1)
= 0.384 + 0.096 = 0.48
Dysponujemy teraz wystarczającą charakterystką funkcji decyzyjnej d9.
Warunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju przy stosowaniu tej funkcji jest równe 0.73, a warunkowe prawdopodobieństwo błędu IIgo rodzaju przy jej stosowaniu jest równe 0.48. Możemy się spodziewać, iż
na każdych 100 chorych pacjentów około 73 uznawać będziemy za zdrowych
i popełniać błąd I-go rodzaju. Podobnie, na każdych 100 zdrowych pacjentów
będziemy około 48 uznawać za chorych i popełniać błąd II-go rodzaju.
Nie znając prawdopodobieństw stanów rzeczy P(h0), P(h1) nie możemy
jednak odpowiedzieć na pytania: "jakie jest bezwarunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju przy posługiwaniu się funkcją
decyzyjną d9?" i "jakie jest bezwarunkowe prawdopodobieństwo popełnienia
błędu II-go rodzaju przy posługiwaniu się tą funkcją?". Inaczej mówiąc,
nie umiemy przewidzieć, jak często na 100 osób badanych popełniać będziemy
błąd I-go rodzaju, a jak często błąd II-go rodzaju.
92
Nie umiemy odpowiedzieć też na pytanie, jakie jest dokładnie prawdopodobieństwo tego, że posługując się funkcją d9 popełnimi jakikolwiek
błąd. (Możemy tylko powiedzieć, korzystajac z twierdzenia
o prawdopodobieństwie całkowitym, że to bezwarunkowe prawdopodobieństwo
popełnienia jakiegokolwiek błędu będzie liczbą z przedziału wyznaczonego
przez oba prawdopodobieństaa warunkowe popełnienia błędu I-go i II-go
rodzaju.)
Takie warunkowe prawdopodobieństwajednak umożliwią porównanie wybranej
funkcji decyzyjnej z innymi funkcjami decyzyjnymi i w konsekwencji
wyłonienie funkcji optymalnej.
W podobny do przedstawionego sposób można obliczyć warunkowe prawdopodobieństwa popełnienia błędów obu rodzajów przy posługiwaniu się pozostałymi 15-ma funkcjami decyzyjnymi. Rezultaty tych nieskomplikowanych
rachunków przedstawia tablica 4.
tablica 4
Warunkowe prawdopodobieństwa
popełniania błędów I-go i II-go rodzaju
numer
zawartość
zawartość
warunkowe
prawdop.
funkcji
obszaru
dopełnienia
popełnienia
błędu
decyzyjkrytyczobszaru
nej
nego
krytycznego
I-go rodzaju
II-rodzaju
j
Kj
~Kj
j
j

1
0,1,2,3
1.000
0.000
2
1,2,3
0
0.999
0.512
3
0,2,3
1
0.973
0.384
4
0,1,3
2
0.757
0.096
5
0,1,2
3
0.271
0.008
6
2,3
0,1
0.972
0.896
7
1,3
0,2
0.756
0.608
8
1,2
0,3
0.270
0.520
9
0,3
1,2
0.730
0.480
10
0,2
1,3
0.244
0.392
11
0,1
2,3
0.028
0.104
12
3
0,1,2
0.729
0.992
13
2
0,1,3
0.243
0.904
14
1
0,2,3
0.027
0.616
15
0
1,2,3
0.001
0.488
16
0,1,2,3
0.000
1.000

Chcąc wnioskować o stanie rzeczy z wyniku doświadczenia, trzeba ze
wszystkich dostępnych funkcji decyzyjnych wybrać jedną i od niej i wyniku
doświadczenia uzależniać działanie. Wybór taki powinien być pod jakimś
względem najlepszy. Możliwych jest wiele rozmaitych reguł wyboru optymalnej funkcji decyzji. Przedstawimy regułę stosowaną przy weryfikacji hipotez metodą Neymana-Pearsona:
Zasady postępowania przy wyborze optymalnej funkcji decyzyjnej:
1. Wybierz maksymalną wartość warunkowego prawdopodobieństwa popełnienia
błędu I-go rodzaju, na jaką to wartość tego prawdopodobieństwa możesz się
zgodzić, biorąc pod uwagę ewentualne skutki takiego błędu. Oznaczymy to
jeszcze akceptowalne prawdopodobieństwo *.
2. Dla każdej z możliwych funkcji decyzyjnych oblicz warunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju przy posługiwaniu się tą funkcją
d
93
3. Wybierz wszystkie takie funkcje decyzyjne dla których warunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju d jest mniejsze lub równe
przyjętemu wcześniej maksymalnemu, jeszcze akceptowalnemu poziomowi tego
prawdopodobieństwa *.
4. Dla wszystkich tych funkcji decyzyjnych, które zostały w ten sposób wybrane oblicz prawdopodobieństwa popełniania błędu II-go rodzaju d.
5. Optymalną funkcją decyzyjną jest ta spośród funkcji spełniających
warunek trzeci, którą charakteryzuje najmniejsze warunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju.
Będziemy mówili, że jest to funkcja optymalna w sensie Neymana
- Pearsona przy ustalonym maksymalnym prawdopodobieństwiepo pełnienia
błędu I-go rodzaju lub krótko - optymalna funkcja decyzyjna.
Zapiszemy to raz jeszcze w sposób bardziej zwięzły:
Funkcja d* jest optymalną funkcją decyzyjną w sensie Neymana - Pearsona
przy ustalonej jeszcze akceptowalnej wartości warunkowego prawdopodobieństwa popełnienia błędu I-go rodzaju * wtedy i tylko wtedy, gdy
prawdopodobieństwo warunkowe popełnienia błędu I-go rodzaju przy
posługiwaniu się tą funkcją d* nie jest większe od * i jednocześnie
warunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju przy
posługiwaniu się tą funkcją d jest możliwie najmniejsze. Ten złożony
warunek zapisany symbolicznie jest bardziej czytelny:
d* : d*  *
&

d*  d
d:d  *
W praktycznych zastosowaniach weryfikacji hipotez często zmienna
zdająca sprawę z wyniku doświadczenia jest zmienną o rozkładzie ciągłym
(zarówno wtedy, gdy prawdziwą jest hipoteza zerowa jak i wtedy, gdy
prawdziwą jest hipoteza konkurencyjna). Wówczas, a przekonamy się o tym
w dalszych przykładach, prawdopodobieństwo d* popełnienia błędu I-go
rodzaju przy posługiwaniu się funkcją decyzyjną optymalną przy przyjętym
jeszcze akceptowalnym poziomie prawdopodobieństwa popełnienia tego błędu
* jest równe owemu jeszcze akceptowalnemu prawdopodobieństwu * czyli
d*  *.
Prawdopodobieństwo popełnienia błędu I-go rodzaju przy posługiwaniu się
optymalną funkcją decyzyjną d* nazywamy jej, tej funkcji decyzyjnej,
poziomem istotności.
Wobec równości tego prawdopodobieństwa d* dla optymalnej funkcji
decyzyjnej i jeszcze akceptowalnego poziomu tego prawdopodobieństwa *,
przy którym dana funkcja jest optymalną, często oba te prawdopodobieństwa
nazywa się poziomem istotności i mówi o funkcji decyzyjnej, że jest optymalną przy (na) pewnym poziomie istotności. Taki sposób mówienia zaciera
różnicę między obu pojęciami: charakterystyką wybranej optymalnej funkcji
- d* i kryterium * wyznaczającym podzbiór funkcji decyzyjnych,
z którego owa optymalna funkcja pochodzi. Jest to jednak wygodny sposób
mówienia, który można tolerować wtedy, gdy jesteśmy pewni,
że prawdopodobieństwo d* cechujące optymalną funkcję decyzyjną w sposób
konieczny jest równe maksymalnemu poziomowi prawdopodobieństwa popełnienia
błędu I-go rodzaju *, przy którym ta funkcja jest optymalną.
Działania a0 i a1, o których powiedzieliśmy, że polegają na postępowaniu tak, jak gdyby stan rzeczy był zgodny z treścią hipotez h0 lub h1,
mówimy często, że:
a0 polega na przyjęciu hipotezy zerowej lub na odrzuceniu hipotezy
konkurencyjnej, natomiast
a1 polega na odrzuceniu hipotezy zerowej lub przyjęciu konkurencyjnej.
94
Pierwsze (podkreślone) z tych określeń używane są częściej i ma to pewne
uzasadnienie, do którego jeszcze wrócimy. Sens wszystkich jest jednak taki
sam jak wprowadzonych wcześniej omówień. Przyjąć hipotezę to znaczy
postępować w pewnej sytuacji tak, jak gdyby była ona prawdziwa.
W rozmaitych sytuacjach może to oznaczać rozmaite działania; w sytuacjach
badawczych: od uznania, że "przyjęta" hipoteza zasługuje na to, by podnieść koszty jej ponownego sprawdzenia w zmienionych warunkach, czego
byśmy poniechali, gdyby została "odrzucona", po postanowienie zaprzestania
dalszego jej sprawdzania i traktowania jej w dającej się przewidzieć
przyszłości jako prawdziwej niewątpliwie.
Podejmując się weryfikacji hipotez, wybierając sposób jej
przeprowadzenia czyli rodzaj doświadczenia i maksymalne prawdopodobieństwo
popełnienia błędu I-go rodzaju * powinniśmy brać pod uwagę rodzaj
podejmowanych działań a0, a1 i rzeczywiste skutki, jakie mogą wyniknąć
z błędów w ich wyborze czyli w ocenie stanu rzeczy.
Doświadczenie służące do weryfikacji hipotez, od wyniku którego
uzależniamy wybór działania a0 lub a1 należałoby nazywać testem.
W literaturze statystycznej skoncentrowanej na formalnej stronie zagadnienia testem nazywa się zmienną losową zdającą sprawę z wyniku doświadczenia. Jeżeli mówimy, że do weryfikacji jakichś hipotez posługujemy się
testem 2 to znaczy to, że zmienna zdająca sprawę z wyniku doświadczenia
służącego do weryfikacji hipotez ma, przynajmniej przy założeniu, że jedna
z tych hipotez jest prawdziwa, rozkład 2 lub do niego zbliżony.
Wróćmy teraz do naszego przykładu medyczmnego. Niech maksymalną wartość
warunkowego prawdopodobieństwa popełnienia błędu I-go rodzaju * zostanie
ustalona na poziomie 0.1. Przyjęcie takiego maksymalnego ryzyka
popełnienia błędu I-go rodzaju oznacza godzenie się na uznawanie 10%
pacjentów chorych za zdrowych. Optymalnej funkcji decyzyjnej będziemy
poszukiwać wśród takich funkcji, które gwarantują ryzyko popełnienia
takiego błędu nie większe od 0.1. Ograniczenie to spełniają tylko 4
spośród 16 funkcji decyzyjnych. Są to funkcje: d11, d14, d15, d16 (zob.
tab.4). Wśród tych 4 funkcji decyzyjnych najmniejszym warunkowym prawdopodobieństwem popełnienia błędu II-go rodzaju charakteryzuje się funkcja
d11, wedle której za chorego należy uznawać każdego takiego pacjenta,
którego co najmniej dwa (dwa lub trzy) zdjęcia zostaną uznane przez
lekarza za wskazujące na chorobę. Gdy takich zdjęć nie będzie wcale lub
będzie tylko jedno, pacjenta zgodnie z tą funkcją należy uznać
za zdrowego.
Przy weryfikacji hipotez o stanie zdrowia za pomocą funkcji decyzyjnej
d11 prawdopodobieństwo dla chorego, że zostanie on uznany za zdrowego
P11(a1|h0) jest równe 0.028. Prawdopodobieństwo dla zdrowego, że zostanie
on uznany za chorego P11(a0|h1) jest równe 0.104.
Warunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju przy
posługiwaniu się do weryfikacji hipotez optymalną funkcją decyzyjną
nazwaliśmy poziom istotności i oznaczamy , tutaj =0.028. Warunkowe
prawdopodobieństwo popełnienia błędu II-go rodzaju przy posługiwaniu się
optymalną funkcją decyzyjną oznaczamy , tutaj =0.104. Zauważmy, że tutaj
poziom istotności charakteryzujący optymalną funkcję decyzyjną nie jest
równy maksymalnemu warunkowemu prawdopodobieństwu popełnienia błędu I-go
rodzaju, na jakie się zgodziliśmy. Taka nierówność jest możliwe wtedy, gdy
zmienna zdająca sprawę z wyniku doświadczenia (tutaj oznaczona L) nie jest
zmienną o rozkładzie ciągłym.
Znaczenie parametrów ,  można w naszym przykładzie przybliżyć dzięki
ich naturalnej częstościowej interpretacji:
=0.028, zatem należy się spodziewać uznawania za zdrowych przeciętnie
28 pacjentów z każdego 1000 pacjentów chorych,
=0.104, zatem należy się spodziewać uznawania za chorych przeciętnie
104 pacjentów z każdego 1000 pacjentów zdrowych.
95
Na pytanie, ilu błędnych diagnoz należy się spodziewać na 1000 badanych
pacjentów, nie można udzielić dokładnej odpowiedzi - od 28 do 104
(przeciętnie), zależnie od proporcji rzeczywiście chorych i rzeczywiście
zdrowych w badanym tysiącu pacjentów.
Na uwagę zasługują następujące fakty:
W zbiorze funkcji decyzyjnych istnieje zawsze funkcja decyzyjna,
w omawianym przykładzie jest to funkcja d16, dla której warunkowe, a zatem
i bezwarunkowe, prawdopodobieństwa popełnienia błędu I-go rodzaju są
równe 0.w omawianym przykładzie jest to funkcja d1, dla której warunkowe,
a zatem i bezwarunkowe, prawdopodobieństwa popełnienia błędu II-go rodzaju
są równe 0.
W zbiorze funkcji decyzyjnych istnieje zawsze taka funkcja decyzyjna,
Jeżeli dla jakiejś funkcji decyzyjnej warunkowe prawdopodobieństwo
popełnienia błędu jednego rodzaju jest równe 0, to dla tej funkcji warunkowe prawdopodobieństwo popełnienia błędu innego rodzaju jest równe 1.
Jeżeli obniżymy maksymalne warunkowe prawdopodobieństwo popełnienia
błędu I-go rodzaju * i posługując się regułą Neymana - Pearsona
wyznaczymy inną niż uprzednio optymalną funkcję decyzyjną charakteryzującą
się niższym poziomem istotności, to warunkowe prawdopodobieństwo
popełnienia błędu II-go rodzaju przy stosowaniu tej nowej optymalnej
funkcji decyzyjnej będzie większe (lub równe w szczególnym przypadku), niż
analogiczne prawdopodobieństwo charakteryzujące funkcję decyzyjną optymalną przy wyższej wartości *.
Poprzestaniemy na ilustracji tego twierdzenia. Przyjmijmy obniżoną
wartość maksymalnego prawdopodobieństwa popełnienia błędu I-go rodzaju
*=0.001. W rozważanym zbiorze 16 funkcji decyzyjnych spełniają ten
warunek dwie: d15 i d16. Funkcje d11 i d14 spełniające warunek poprzedni
tego już nie spełniają. Funkcje d15 i d16 spełniają oba. Warunkowe prawdopodobieństwa popełnienia błędu I-go rodzaju są dla nich odpowiednio równe:
0.001 i 0.000.
{d: d  0.1}
= {d11, d14, d15, d16}
{d: d  0.001} = {d15, d16}
{d: d  0.001}  {d: d  0.1}
Mniejsze warunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju
charakteryzuje funkcję d15. Jest ono dla niej równe 0.488, dla funkcji d16
jest równe dokładnie 1. Zatem przy * = 0.001 funkcja d15 jest optymalną
funkcją decyzyjną.
Pamiętamy, że funkcja d11, optymalna przy * = 0.1 gwarantowała prawdopodobieństwo popełnienia błędu I-go rodzaju =0.026 i prawdopodobieństwo
popełnienia błędu II-go rodzaju =0.104. Po obniżeniu * do 0.001
uzyskaliśmy poziom istotności =0.001 dla funkcji optymalnej w tej
zmienionej sytuacji. Ryzyko popełnienia błędu II-go rodzaju jest teraz
wyższe i =0.488.
Można dowolnie, aż do zera włącznie obniżać warunkowe prawdopodobieństwo popełniania błędu I-go rodzaju za cenę zwiększenia warunkowego
prawdopodobieństwa popełniania błędu II-go rodzaju do wartości równej
jeden, włącznie. W naszym przypadku  osiągnie wartość 1.0, gdy zechcemy
obniżyć maksymalne prawdopodobieństwo popełnienia błędu I-go rodzaju *
poniżej 0.001. Zostanie wówczas jedna tylko funkcja decyzyjna spełniająca
warunek nałożony na prawdopodobieństwo popełnienia błędu I-go rodzaju
i będzie to funkcja d16 zalecająca uznawanie za chorego każdego pacjenta,
bez względu na wynik doświadczenia. Przy jej stosowaniu błąd II-go rodzaju
popełnimy zawsze, ilekroć będzie to możliwym bo badany jest osobą zdrową.
Wybrawszy optymalną funkcję decyzyjną nie możemy tak zmienić swego
postępowania, by jednocześnie zmniejszyć oba warunkowe prawdopodobieństwa
popełniania błędów: I-go i II-go rodzaju, bez zmiany doświadczenia, od rezultatu którego uzależniamy działanie. By cel taki osiągnąć i zredukować
96
prawdopodobieństwa obu błędów, należy zastąpić stosowane doświadczenie
jakimś innym. W naszym przykładzie możnaby zmniejszyć oba prawdopodobieństwa zwiększając liczbę analizowanych przez lekarza zdjęć, na przykład
do 4. Przeprowadzenie odpowiednich rachunków pozostawimy jednak Czytelnikom, którym wypadnie, jeżeli zechcą, analizować 25=32 różnych funkcji
decyzyjnych. Moglibyśmy też zwrócić się z prośbą o ocenę zdjęć do lepszego
diagnosty, który błędy w stosunku do pojedynczych zdjęć popełnia
z mniejszymi prawdopodobieństwami.
Przedstawiony przykład weryfikacji hipotez pozwolił wprowadzić podstawowe idee i pojęcia przy dość elementarnym rachunku i bez odwoływania się
do twierdzeń granicznych. Niewielka liczba możliwych funkcji decyzyjnych
umożliwiła zbadanie ich wszystkich. W zastosowaniach praktycznych same rachunki są wprawdzie jeszcze prostsze lecz rozumowania związane z wyborem
funkcji optymalnej są bardziej złożone. Zanim przejdziemy do typowych
zastosowań weryfikacji hipotez, przedstawimy niektóre inne sposoby pojmowania tego zadania. Celem tej ekspozycji będzie głównie uwypuklenie istotnych cech metody Neymana-Pearsona.
To, która z hipotez o stanie rzeczy jest prawdziwą przy właśnie dokonywanej weryfikacji, jest sprawą przypadku. Nie popełnimy błędu przyjmując,
że stan rzeczy jest zmienną losową mającą tyle wartości, ile elementów
liczy zbiór hipotez. Bez trudu damy sobie radę z określeniem liczbowych
wartości tej zmiennej, w ostateczności możemy po prostu hipotezy ponumerować. Oznaczmy P(hi) prawdopodobieństwo tego, że weryfikując hipotezy
zetkniemy się z rzeczywistością zgodną z treścią hipotezy hi. W naszym
medycznym przykładzie P(h0) można utożsamiać z częstością występowania
osób chorych wśród osób badanych, a P(h1) z częstością występowania wśród
badanych osób zdrowych. Dwa te prawdopodobieństwa określają rozkład zmiennej losowej "stan rzeczy". Gdybyśmy znali te prawdopodobieństwa, moglibyśmy dla każdej funkcji decyzyjnej d obliczyć bezwarunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju:
Pd (a1h0) = P(h0) * Pd (a1|h0) = P(h0) * d
oraz bezwarunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju:
Pd (a0h1) = P(h1) * Pd (a0|h1) = P(h1) * d
a także bezwarunkowe prawdopodobieństwo popełnienia jakiegokolwiek błędu,
niech B oznacza błąd I-go lub II-go rodzaju:
B = a0h1 + a1h0
Pd (B) = Pd (a0h1) + Pd (a1h0) =
P(h1) * d + P(h0) * d
W dwu czteropolowych tabelkach tablicy 5 zestawiono warunkowe
i bezwarunkowe prawdopodobieństwa charakteryzujące weryfikację hipotez
przy użyciu jakiejś konkretnej funkcji decyzyjnej d. Prawdopodobieństwa
oznaczone indeksem d są związane z tą konkretną funkcją d, ich wartości
dla innych funkcji decyzyjnych mogą być inne. Pozostałe prawdopodobieństwa
mają te same wartości dla każdej funkcji decyzyjnej.
tablica 5
Prawdopodobieństwa
warunkowe
|
h0
 

h1


a0 
Pd(a0h0)
 
Pd(a0|h1)


a1 
Pd(a1|h0)
 
Pd(a1|h1)




1.0
 
1.0

97
Prawdopodobieństwa bezwarunkowe

h0
 
h1


a0 
Pd(a0h0)
 Pd(a0h1)
 Pd(a0)

a1 
Pd(a1h0)
 Pd(a1h1)
 Pd(a1)

 
P(h0)
 P(h1)
 1.0
Oznaczymy kI koszt popełnienia błędu I-go rodzaju i kII koszt
popełnienia błędu II-go rodzaju. Łatwo można skonstruować dwie nowe metody
weryfikacji hipotez różniące się sposobem wybierania optymalnej funkcji
decyzyjnej od dopiero co przedstawionej metody Neymana-Pearsona.
Wybór funkcji decyzyjnej minimalizującej koszt średni. Jeżeli koszty
popełnienia błędu I-go i II-go rodzaju kI i kII są znane i dla każdej
funkcji decyzyjnej znane są ponadto bezwarunkowe prawdopodobieństwa
popełnienia błędu I-go rodzaju i popełnienia błędu II-go rodzaju, wówczas
można dla każdej funkcji decyzyjnej d obliczyć średni koszt błędu przy
posługiwaniu się daną funkcją decyzyjną Ed(k), gdzie k jest zmienną
"koszt" przyjmującą wartość 0 dla decyzji bezbłędnych i kI lub kII dla
błędów I-go i II-go rodzaju.
Ed(k) = kI * Pd(a1h0) + kII * Pd(a0h1)
Znając średni koszt ponoszony przy posługiwaniu się każdą z dostępnych
funkcji decyzyjnych, możemy wybrać tę jedną, dla której ten średni koszt
jest najmniejszy i uznać ją za optymalną funkcję decyzyjną.
Wybór funkcji decyzyjnej minimalizującej prawdopodobieństwo popełnienia
jakiegokolwiek błędu. Tę regułę wyboru optymalnej funkcji decyzyjnej można
stosować wtedy, gdy koszty kI, kII nie są znane lub, gdy są sobie równe.
Regułę tę można stosować tylko wtedy, gdy dla każdej funkcji decyzyjnej
znane są bezwarunkowe prawdopodobieństwa popełniania błędów obu rodzajów
lub znane jest bezwarunkowe prawdopodobieństwo popełnienia jakiegokolwiek
błędu.
Znając bezwarunkowe prawdopodobieństwo popełnienia jakiegokolwiek błędu
B przy posługiwaniu się każdą z dostępnych funkcji decyzyjnych d, możemy
wybrać tę jedną funkcję decyzyjną, dla której to prawdopodobieństwo jest
najmniejsze i uznać tę jedną za optymalną funkcję decyzyjną.
Często koszty kI, kII nie są nam dokładnie znane, umiemy jedynie
wskazać, który z nich jest wyższy. Bezwarunkowe prawdopodobieństwa
popełniania jakiegokolwiek błędu przy posługiwaniu się poszczególnymi
funkcjami decyzyjnymi trudno określić bez znajomości prawdopodobieństw
możliwych stanów rzeczy. Dla zastosowania metody Neymana-Pearsona wystarczy znajomość warunkowych prawdopodobieństw popełniania błędów i relacji
między wielkościami kosztów związanych z ich popełnianiem. Posługując się
tą metodą nie określamy ani prawdopodobieństwa popełnienia jakiegokolwiek
błędu, ani prawdopodobieństwa popełnienia błędu określonego rodzaju, ani
średniego kosztu błędu, poprzestajemy na warunkowych prawdopodobieństwach
błędów obu rodzajów (później się okaże, że niekiedy musimy się ograniczyć
do warunkowego prawdopodobieństwa błędu jednego tylko rodzaju).
Terminem "weryfikacja hipotez" określa się także postępowanie całkiem
odmienne od dotąd opisywanych. Wspólną cechą trzech przedstawionych metod
było to, że rezultatem postępowania weryfikacyjnego było w nich traktowanie jednej z hipotez tak, jak gdyby była ona prawdziwa a drugiej tak, jak
gdyby ona była fałszywa. Wedle tej innej koncepcji przed przystąpieniem
do weryfikacji hipotezom są przypisywane pewne prawdopodobieństwa prawdziwości, które są modyfikowane w wyniku procesu weryfikacyjnego. Rezultatem
postępowania weryfikacyjnego jest przypisanie weryfikowanym hipotezom
nowych prawdopodobieństw.
98
Ze względu na wykorzystanie w tej metodzie twierdzenia Bayesa, metodę
tę nazywa się wnioskowamiem bayesowskim. Przedstawimy ją na przykładzie
weryfikacji hipotez dotyczącuch stanu zdrowia naszych pacjentów. Wymaga to
uzupełnienia naszego przykładu istotnym założeniem.
Załóżmy że wiadomo, iż wśród badanych pacjentów 10% stanowią osoby
chore a reszta to zdrowi. Zatem prawdopodobieństwa obu stanów rzeczy są
znane przed przeprowadzeniem doświadczenia. Są to tak zwane prawdopodobienstwa a priori: P(h0)=0.1 i P(h1)=0.9. Znamy warunkowe prawdopodobienstwa poszczególnych wyników doświadczenia przy założeniu prawdziwości obu
hipotez (zob. tablica 3). Możemy zatem obliczyć warunkowe prawdopodobieństwa każdej z hipotez o stanie rzeczy przy założeniu każdego z wyników
doświadczenia P(hi|L=l). Prawdopodobieństwa te nazywamy prawdopodobieństwami a posteriori. Takim prawdopodobieństwem jest np. prawdopodobieństwo
tego, że badany pacjent jest chory pod warunkiem, że trzy jego zdjęcia
uznano za wskazujące na chorobę P(hi|L=l). Obliczymy je na podstawie
twierdzenia Bayesa:
P(h0 & L=3)
` P(L=3 | h0) * P(h0)
P(h0|L=3) =  =  =
P(L=3)
P(L=3 | h0) * P(h0) + P(L=3 | h1) * P(h1)
0.729 * 0.1
=  = 0.910112
0.729 * 0.1 + 0.008 * 0.9
Natomiast prawdopodobieństwo tego, że pacjent jest zdrowy pod
warunkiem, że trzy jego zdjęcia uznano za wskazujące na chorobę P(h1|L=0)
jest równe 0.099888, gdyż oba te zdarzenia dopełniają się.
Jeżeli zatem weryfikując hipotezy h0, h1 o stanie zdrowia pacjenta,
przeprowadzimy doświadczenie i uzyskamy wynik: "trzy zdjęcia wskazujące na
chorobę", to wedle metody bayesowskiej wnioskować będziemy,
że prawdopodobieństwo, iż ten właśnie pacjent jest zdrowy jest równe
w przybliżeniu 0.09, a prawdopodobieństwo tego, iż jest on chory jest
równe, również w przybliżeniu, 0.91.
Każdemyu wynikowi doświadczenia możemy przypisać warunkowe prawdopodobieństwo obu hipotez: że pacjent jest chory i że pacjent jest zdrowy:
tablica 6
Prawdopodobieństwa a posteriori
wynik doświadczenia
l
P(h0|L=l)
P(h1|L=l)

0
0.000217
0.999783
1
0.072464
0.927336
2
0.213115
0.786885
3
0.910112
0.089888


Prawdopodobieństwa a posteriori przedstawione w tablicy 6 można interpretować w naszej sytuacji częstościowo. Jeżeli chorzy stanowią 10%
zbiorowości badanych pacjentów, to wśród tych pacjentów, którzy uzyskują
wynik badania L=3, chorzy stanowią 81.01%. Wśród tych, którzy uzyskują
wynik badania L=2, chorzy stanowią 21.31%, wśród tych, kytórzy uzyskują
wynik L=1, chorzy stanowią 7.25%, a wśród tych, którzy uzyskują wynik L=0,
chorzy stanowią 0.02%. Pozostali w każdej z tych grup to zdrowi.
99
Ocena stanu zdrowia pojedyńczego pacjenta na podstawie wyniku doświadczenia ma zatem charakter w pewnym sensie stopniowalny. Jeżeli dla
jakiegoś pacjenta uzyskujemy wynik badania L=3, możemy twierdzić,
że prawdopodobieństwo tego, że jest on chory jest równe 0.91,
a prawdopodobieństwo tego, że jest zdrowy wynosi 0.09, gdyż w grupie
pacjentów uzyskujących wynik L=3 chorzy stanowią 91%, a zdrowi 9%.
Prawdopodobieństwa przypisywane stanowi rzeczy po przeprowadzeniu
doświadczenia - prawdopodobieństwa a posteriori - zależą od wyniku
doświadczenia, ale także od prawdopodobieństw przypisywanych stanom rzeczy
przed przeprowadzeniem doświadczenia, od prawdopodobieństw a priori.
W przypadku, gdy mamy do czynienia ze skończonym zbiorem obiektów,
o których wnioskujemy, częstościowa interpretacja prawdopodobieństw
a priori nie nastręcza poważniejszych trudności. Napotykamy je wtedy,
gdy próbujemy stosować metodę bayesowską do weryfikacji hipotez dotyczących pojedyńczego obiektu, gdzie częstościowa interpretacja prawdopodobieństwa nie znajduje naturalnego zastosowania. Hipotezy statystyczne
zwykle mają taki charakter. Istnieją sposoby radzenia sobie z tymi trudnościami, nie zyskały one jednak powszechnej aprobaty.
Weryfikacja dwu prostych hipotez dotyczących średniej
Weryfikacja dwu prostych hipotez statystycznych dotyczących średniej
przedstawimy na komkretnym przykładzie. Niech będzie zbiorowość złożona
z ludzi i niech w tej zbiorowości będzie określona zmienna statystyczna
X -"wysokość zarobków". Rozkład zmiennej X w tej zbiorowości nie jest nam
znany, wiadomo jedynie, że odchylenie standardowe zmiennej X z zbiorowości
D(X) jest równe 2000 $.
Niech zbiór hipotez składa się z dwu zdań: "średnia zarobków
w zbiorowości jest równa 15 000 $" i "średnia zarobków w zbiorowości jest
równa 14 750 $". Z jakiegoś powodu niesłuszne odrzucenie pierwszej z tych
hipotez jest bardziej kosztowne od niesłusznego odrzucenia drugiej.
Chcielibyśmy weryfikację przeprowadzić w taki sposób, by zagwarantować sobie, że ryzyko popełnienia błędu I-go rodzaju nie przekroczy * = 0.05.
Weryfikację przeprowadzimy przy pomocy doświadczenia polegającego na
wylosowaniu z zbiorowości będącej przedmiotem hipotez zwrotnej próby
liczącej n=400 elementów. Losowanie elementów próby prowadzić będziemy
w taki sposób, by każda osoba miała tę samą szansę bycia wylosowaną przy
losowaniu każdego elementu próby i, by wyniki kolejnych losowań były
niezależne. Średnią zarobków w wylosowanej próbie będziemy traktować jako
wynik tego doświadczenia. Dość liczny podzbiór zbioru liczb rzeczywistych
jest zbiorem możliwych wyników tego doświadczenia, zbiorem wartości zmiennej X "średnia z próby".
Należy wyznaczyć optymalną wedle koncepcji Neymana-Pearsona funkcję
decyzyjną przyporządkowującą każdej liczbie mogącej być średnią zarobków
w 400-elementowej próbie jedno z możliwych działań: a0 - traktować hipotezę zerową, wedle której średnia zarobków w zbiorowości jest równa 15 000
$ tak, jak gdyby była ona prawdziwa, a1 - traktować hipotezę konkurencyjną, wedle której średnia zarobków w zbiorowości jest równa 14 750 $ tak,
jak gdyby ona była prawdziwa. Stosując wcześniej przyjęte oznaczenia
zapiszemy:
zbiór hipotez
H = {h0, h1}
h0 : E(X)
h1 : E(X)
= 15 000 $ = m0
= 14 750 $ = m1
zbiór działań
A = {a0, a1}
a0 : przyjęcie, że E(X) = 15 000 $
a1 : przyjęcie, że E(X) = 14 750 $
maksymalne, jeszcze akceptowalne, warunkowe prawdopodobieństwo
popełnienia błędu I-go rodzaju * = 0.05
100
Zbiór wyników doświadczenia X, czyli zbiór wartości zmiennej X
- "średnia z próby", która zdaje sprawę z wyniku doświadczenia, zbiór ten
jest podzbiorem zbioru liczb rzeczywistych .
Postępując zgodnie z przedstawionym wcześniej schematem należy najpierw
wyznaczyć rozkład warunkowy zmiennej X - "średnia zarobków z wylosowanej
próby", przy założeniu, że prawdziwa jest hipoteza h0 i drugi warunkowy
rozkład tej zmiennej przy założeniu, że prawdziwą jest hipoteza konkurencyjna h1. W obu przypadkach są to rozkłady zmiennej X "średnia
z próby" w zbiorze prób możliwych do wylosowania ze zbiorowości o znanej
średniej i znanej wariancji. Ponieważ liczebność próby jest duża (n=400)
znajduje tu zastosowanie centralne twierdzenie graniczne.
Zgodnie z treścią tego twierdzenia możemy przyjąć, że:
jeżeli prawdziwą jest hipoteza zerowa h0 i średnia zmiennej X
w zbiorowości jest równe 15 000 $, to zmienna U0 - "standaryzowana przy
założeniu prawdziwości hipotezy zerowej średnia z próby"
U0 =
X - E(X)
 =
D(X)

n
X - 15000

2000

20
ma rozkład zbliżony do rozkładu normalnego standaryzowanego lub, co jest
równoważne, że zmienna X "średnia z próby" ma rozkład zbliżony do rozkładu normalnego o średniej E( X ) = m0 = 15000 i odchyleniu standardowym
D( X ) = D(X)/n = 100, natomiast
jeżeli prawdziwą jest hipoteza konkurencyjna h1 i średnia zmiennej X
w zbiorowości jest równa 14 750 $, to zmienna U1 - "standaryzowana przy
założeniu prawdziwości hipotezy konkurencyjnej średnia z próby"
U1 =
X - E(X)
 =
D(X)

n
X - 14750

2000

20
ma rozkład zbliżony do normalnego standaryzowanego lub, co jest
równoważne, zmienna X "średnia z próby" ma rozkład zbliżony do rozkładu
normalnego o średniej E( X ) = m1= 14750 i odchyleniu standardowym
D( X ) = D(X)/n = 100.
Dalej będziemy mówić, że zmienne te mają rozkłady normalne i będziemy
tak postępować, jak gdyby te rozkłady były normalne, pamiętając wszelako
o przybliżonym charakterze uzyskiwanych wielkości.
Zmienna X , której wartość jest wynikiem doświadczenia służącego do
weryfikacji hipotez, ma inny rozkład w sytuacji, gdy prawdziwą jest hipoteza zerowa h0 i inny, gdy prawdziwą jest hipoteza konkurencyjna h1. W obu
wypadkach są to jednak rozkłady normalne i o tym samym odchyleniu standardowym, różniące się jedynie średnimi. Posługując się symboliką parametrów
warunkowych zapisujemy:
E( X |h0) = m0 = 15000;
D( X |h0) = 2000/400 = 100
E( X |h1) = m1 = 14750;
D( X |h1) = 2000/400 = 100
Warunkowe funkcje gęstości obu tych rozkładów f( X |h0), f( X |h1) przedstawimy na jednym rysunku:
101
Korzystając z centralnego twierdzenia, konsekwentnie będziemy zakładać,
że zbiór możliwych wyników doświadczenia, czyli zbiór wartości zmiennej X
- "średnia zarobków z wylosowanej próby" jest zbiorem wszystkich liczb
rzeczywistych. Przyjęliśmy przecież, że zmienna ta ma rozkład normalny.
Wykresy funkcji gęstości świadczą jednak o tym, że dla takich wartości
zmiennej X, których ona na pewno nigdy nie przyjmie, funkcja gęstości
przyjmuje wartości pomijalnie małe. Funkcja decyzyjna powinna jednak być
określona dla każdej liczby rzeczywistej i przyporządkować jej działanie
a0 lub a1.
Funkcji decyzyjnej określonej na zbiorze liczb rzeczywistych nie
będziemy mogli, tak jak to czyniliśmy poprzednio, przedstawić przez
wymienienie wszystkich par "argument - wartość" czyli "liczba rzeczywista
- działanie". Zważywszy rozmiar zbioru możliwych wyników doświadczenia,
można się spodziewać, że zbiór wszystkich funkcji decyzyjnych będzie zbyt
wielki, byśmy mogli kolejno analizować własności wszystkich funkcji
decyzyjnych tak, jak to czyniliśmy w poprzednim przykładzie medycznym.
Rozważmy jednak najpierw jedną funkcję decyzyjną d mającą taką postać:
d(x)
=
 a0, gdy x  (14900, 15200>

 a1, gdy x  (14900, 15200>
Inaczej mówiąc, obszar krytyczny Kd funkcji decyzyjnej d składa się
z liczb mniejszych lub równych 14900 oraz z liczb większych od 15200.
Kd = (-, 14900>  (15200, +)
Jeżeli w wyniku doświadczenia zmienna losowa X będąca wynikiem tego
doświadczenia przyjmie wartość ze zbioru Kd, to postępując zgodnie
z funkcją decyzyjną d należy podjąć działanie a1 przyjmując hipotezę h1
i odrzucając h0.
Znając warunkowy rozkład zmiennej X - "średnia zarobków z próby" przy
założeniu prawdziwości hipotezy zerowej h0, można obliczyć warunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju. Błąd ten popełniamy
podejmując działanie a1 w stanie rzeczy zgodnym z hipotezą h0.
Działanie a1 podejmujemy wtedy, gdy wynik doświadczenia trafia do
obszaru krytycznego. Wynik doświadczenia trafia do obszaru krytycznego,
gdy X - "średnia z próby" przyjmuje wartość mniejszą lub równą 14900 albo
wartość większą od 15200. Warunkowe prawdopodobieństwo popełnienia błędu
I-go rodzaju przy posługiwaniu się funkcją decyzyjną d obliczymy bez
trudu:
102
P(a1|h0)
= P( X  Kd | h0) = P( X  14900  X >15200 | h0) =
= P( X  14900 | h0) + P( X >15200 | h0) =
= P( X  14900 | h0) + 1 - P( X  15200 | h0) =
=
X -E( X )
14900-15000
P(    | h0 ) +
D( X )
100
+ 1
-
X -E( X )
P( 
D( X )
15200-15000
  | h0 )=
100
=  (-1) + 1 -  (2) = 0.1587 + 1 - 0.97725) = 0.18145
W podobny sposób możemy obliczyć warunkowe prawdopodobieństwo
popełnienia błędu II-go rodzaju przy posługiwaniu się funkcją decyzyjną d.
Błąd II-go rodzaju popełniamy wtedy, gdy podejmujemy działanie a0 w stanie
rzeczy zgodnym z hipotezą h1. Działanie a0 podejmujemy wtedy, gdy wynik
doświadczenia nie trafia do obszaru krytycznego, gdy X "średnia z próby
przyjmuje wartość większą od 14900 lecz co najwyżej równą 15200.
P(a0|h1
= P( X  Kd | h1) = P(14900 < X  15200 | h1) =
= P(
14900-14750
 <
100
X -E( X )
15200-14750
   | h1 )=
D( X )
100
= (4.5) - (1.5) = 0.999996602 - 0.93319 = 0.06688066
Obliczone w ten sposób prawdopodobieństwa obarczone są błędami
wynikającymi z zastosowania centralnego twierdzenia granicznego. Mówiąc
dość nieprecyzyjnie: można się spodziewać tym większych błędów, im
bardziej rozkład zmiennej X w zbiorowości różni się od rozkładu normalnego
i im mniejsza jest liczebność prób n. Przy kilkusetelementowych próbach
błędy te są pomijalne i to chyba dla każdego praktycznego zastosowania.
Uzyskane rezultaty można przedstawić graficznie. W tym celu na wykresie
funkcji gęstości zmiennej X zaznaczymy granice obszaru krytycznego Kd,
który będzie reprezentował funkcję decyzyjną d. Obszar ten składa się
z dwu półprostych. Oznaczymy następnie pole pod funkcję gęstości zmiennej
X przy założeniu, że prawdziwą jest hipoteza zerowa h0, znajdujące się
nad obszarem krytycznym Kd. Pole to jest miarą prawdopodobieństwa wylosowania ze zbiorowości, w której średnia ma wartość zgodną z treścią hipotezy
zerowej, takiej próby, że średnia z tej próby należeć będzie do obszaru
krytycznego. Przy stosowaniu funkcji decyzyjnej d zmusza to do podjęcia
działania a1. Pole to jest zatem miarą warunkowego prawdopodobieństwa
popełnienia błędu I-go rodzaju.
Następnie oznaczymy pole pod warunkową funkcją gęstości zmiennej X
przy założeniu, że prawdziwą jest hipoteza h1, znajdujące się nad
dopełnieniem obszaru krytycznego. To pole jest miarą prawdopodobieństwa
wylosowania ze zbiorowości, w której średnia jest zgodna z treścią hipotezy konkurencyjnej takiej próby, że średnia z tej próby nie trafi do
obszaru krytycznego. Przy stosowaniu funkcji decyzyjnej d zmusza to do
podjęcia działania a0, czyli do odrzucenia prawdziwej hipotezy h1
i przyjęcia h0. Pole to jest miarą warunkowego prawdopodobieństwa
popełnienia błędu II-go rodzaju.

103
W analogiczny sposób możemy określić warunkowe prawdopodobieństwa
popełniania obu rodzajów błędów przy stosowaniu dowolnej funkcji decyzyjnej, jeżeli tylko obszar krytyczny tej funkcji lub jego dopełnienie
można przedstawić jako sumę skończonej liczby odcinków. Ograniczymy się do
analizowania takich funkcji decyzyjnych, jest ich i tak nieskończenie
wiele. Zatem zbadanie kolejno wszystkich nie jest możliwe.
Wybieranie optymalnej w sensie Neymana-Pearsona funkcji decyzyjnej przy
ustalonej wartości maksymalnej ryzyka popełnienia błędu I-go rodzaju polega na poszukiwaniu takiego obszaru krytycznego K, który spełnia dwa znane
warunki:
Prawdopodobieństwo tego, że średnia z próby X przyjmie wartość
należącą do obszaru krytycznego pod warunkiem, że prawdziwą jest hipoteza
zerowa, nie jest większa od *
Prawdopodobieństwo tego, że średnia z próby X przyjmie wartość, która
do obszaru krytycznego nie należy, pod warunkiem, że prawdziwą jest hipoteza konkurencyjna jest, przy spełnieniu warunku poprzedniego, możliwie
najmniejsze.
Zbiór funkcji decyzyjnych jest tak liczny, że nie możemy najpierw
każdej funkcji decyzyjnej przyporządkować warunkowe prawdopodobieństwo
popełnienia błędu I-go rodzaju, a następnie wybrać te funkcje, dla których
to prawdopodobieństwo jest mniejsze lub równe przyjętemu maksymalnemu
prawdopodobieństwu tego rodzaju *; następnie dla tych wybranych funkcji
decyzyjnych poobliczać warunkowe prawdopodobieństwa popełnienia błędu
II-go rodzaju, by na koniec wskazać tę spośród nich, dla której to prawdopodobieństwo jest najmniejsze.
Mając na uwadze tę trudność, najpierw - bez dowodu - wskażemy funkcję
decyzyjną optymalną w sensie Neymana-Pearsona, a następnie przytoczymy
kilka argumentów przemawiających za takim wyborem. Nie będzie to jednak
pełny dowód. Optymalną funkcję decyzyjną będzie reprezentował jej obszar
krytyczny.
Jeżeli wedle hipotezy zerowej h0 średnia zmiennej X w zbiorowości E(X)
jest równa liczbie m0, a wedle hipotezy konkurencyjnej h1 średnia ta jest
równa liczbie m1 i zachodzi nierówność m1 < m0; jeżeli ponadto akceptowalny poziom warunkowego prawdopodobieństwa popełnienia błędu I-go rodzaju
przy założeniu prawdziwości hipotezy h0 jest równy liczbie * i wariancja
zmiennej X w zbiorowości  jest dana, wówczas obszar krytyczny K optymalnej funkcji decyzyjnej dla średniej z n-elementowej próby losowej jest
półprostą (-, k>, gdzie liczba k spełnia następujący warunek:
k:
P ( X  k | h0) = *
Prawdopodobieństwo warunkowe popełnienia błędu I-go rodzaju przy
posługiwaniu się taką optymalną funkcją decyzyjną  (poziom istotności)
jest równe jeszcze akceptowalnemu * poziomowi tego prawdopodobieństwa.
Jeżeli liczebność próby jest dostatecznie duża dla zastosowania centralnego twierdzenia granicznego, liczbę k wyznaczamy w sposób następujący:
104
k: P( X  k | h0) = P( X  k | E(X) = m0
k:
P (
X -m0
 
D(X)

n
&
D(X)
D(x)= 
n
) = *
k-m0
 | h0) = *
D(X)

n
Występująca w nierówności zmienna U0 "standaryzowana przy założeniu
prawdziwości hipotezy zerowej średnia z próby" ma przy założeniu, że h0
jest prawdziwa, rozkład standaryzowany o średniej równej 0 i odchyleniu
standardowym równym 1. Ze względu na treść centralnego twierdzenia granicznego, gdy liczebność próby n jest duża, przyjmujemy, że rozkład tej
zmiennej jest rozkładem normalnym. Zatem wielkość k znajdujemy z równości
U0 =
X -m0
 ;
D(X)

n
(r)
 P(U0  r)
k-m0
k: ( ) = *
D(X)

n
W naszym przykładzie przyjęliśmy * = 0.05. W tablicy dystrybuanty
zmiennej o rozkładzie normalnym standaryzowanym odczytujemy, że
(-1.64) = 0.05
Ponieważ dystrybuanta  zmiennej o rozkładzie normalnym standaryzowanym jest funkcją rosnącą czyli różnowartościową, mamy:
k-15000
 = -1.64
2000

n
k = -1.64 * 100 + 15000 = 14836.0
Oznaczając u taką liczbę, dla której dystrybuanta zmiennej
o rozkładzie normalnym standaryzowanym jest równa 1- moglibyśmy zapisać
uzyskane rozwiązanie w postaci ogólnej:
k = m0 - u *
D(X)

n
u: (u) = 1-
W ostatnim wyrażeniu zastąpiliśmy * przez  korzystając z tego,
że w przypadku, gdy rozkład zmiennej zdającej sprawę z wyniku doświad-
105
czenia jest ciągły, prawdopodobieństwo  charakteryzujące optymalną
funkcję decyzyjną jest równe maksymalnej dopuszczalnej jego wartości *,
przy jakiej dana funkcja jest optymalną.
Optymalna funkcja decyzyjna zaleca, by odrzucać hipotezę zerową h0
wtedy i tylko wtedy, gdy średnia x obliczona dla wylosowanej próby należeć
będzie do obszaru krytycznego K, czyli będzie mniejszą lub równą
k = 14836.0. Jeżeli średnia w wylosowanej próbie będzie większa od k,
wówczas odrzucić należy hipotezę h1 i przyjąć h0.
Wyznaczywszy granice obszaru krytycznego możemy obliczyć  prawdopodobieństwo popełnienia błędu II-go rodzaju pod warunkiem, że prawdziwą jest
hipoteza konkurencyjna h1 i posługujemy się wybraną optymalną funkcją
decyzyjną. Jest to prawdopodobieństwo tego, że średnia z próby X przyjmie
wartość nienależącą do obszaru krytycznego pod warunkiem, że prawdziwą
jest hipoteza h1.



 = P(a0|h1) = P( X  K | h1) =

= P( X < k | E(X)=m1 &








=
X -m1
P( >
D(X)

n
D(X)
D( X )=  ) =


n
k-m1
 | h1 ) =
D(X)

n
X -m1
k-m1
k-m1
= 1 - P(   | h1 ) = 1 - ( )
D(X)
D(X)
D(X)



n
n
n
Przy k = 14836 otrzymujemy prawdopodobieństwo popełnienia błędu II-go
rodzaju przy posługiwaniu się optymalną funkcją decyzyjną i przy
założeniu, że prawdziwą jest hipoteza konkurencyjna
14836-14750
 = 1 - (  ) = 1 - (0.86) = 1 - 0.8051 = 0.1949
2000

400
Oba prawdopodobieństwa  i  oraz granice obszaru krytycznego K przedstawia następny rysunek, na którym odpowiednio oznaczone pola są
miarami tych prawdopodobieństw.
106
Przytoczymy następujące argumenty przemawiające za uznaniem wyznaczonego obszaru krytycznego K = (-, 14836> za optymalny obszar krytyczny
wedle koncepcji Neymana-Pearsona i przy przyjętych wcześniej założeniach
(*=0.05, m0=15000, m1=14750, n=400, D(X)=2000).
Gdybyśmy granicę obszaru krytycznego przesunęli w lewo od punktu k
do jakiegoś punktu k', gdzie k' < k=14836, wówczas prawdopodobieństwo
popełnienia błędu I-go rodzaju charakteryzujące związaną z tym nowym
obszarem krytycznym funkcję decyzyjną byłoby mniejsze od *=0.05. Byłaby
to zatem funkcja decyzyjna dopuszczalna ze względu na pierwszy warunek domagający się, by   *. Prawdopodobieństwo popełnienia błędu II-go
rodzaju byłoby jednak dla tej nowej funkcji decyzyjnej większe od 
wyznaczonego dla optymalnej funkcji decyzyjnej danej przez obszar K. Łatwo
tego dowieść, a jeszcze łatwiej zauważyć analizując przedstawiony
wcześniej rysunek. Obszar krytyczny K' = (-, k'>, jest zatem gorszy
w sensie ustalonym przez Neymana-Pearsona od obszaru K' = (-, 14838>.
Wynika to z treści warunku drugiego, który domaga się minimalizacji prawdopodobieństwa popełnienia błędu II-go rodzaju.
Przesuwanie granicy obszaru krytycznego w prawo od punktu k do jakiegoś
innego punktu k', dla którego tym razem zachodziłaby nierówność
k' > k=14836 nie jest celowe, gdyż w ten sposób wyznaczony obszar krytyczny charakteryzowałby się prawdopodobieństwem popełnienia błędu I-go
rodzaju większy od *=0.05, co wyklucza jego optymalność ze względu na
treść pierwszego warunku.
Gdybyśmy obszar krytyczny K' skonstruowali w sposób analogiczny do
tego, jakim posłużyliśmy się przy konstrukcji obszaru K, lecz jako prawostronny, czyli rozciągający się w prawo od jakiegoś punktu k'
spełniającego warunek
k':
P ( X > k' | h0) = *
wówczas prawdopodobieństwo popełnienia błędu II-go rodzaju również byłoby
wyższe od uzyskanego wcześniej . Zamiast prostego rachunku przedstawimy
jeszcze jeden rysunek.
107

Łatwo zauważyć, że przesuwając granicę tego obszaru krytycznego K'
dalej w prawo możemy spowodować jedynie wzrost wprawdzie nieznaczny i tak
dużego prawdopodobieństwa popełnienia błędu II-go rodzaju związanego z tym
obszarem krytycznym. Będzie temu towarzyszyć spadek prawdopodobieństwa
popełnienia błędu I-go rodzaju poniżej maksymalnego jego poziomu *.
Nie zmieni to jednak oceny takich prawostronnych obszarów krytycznych.
Wszystkie one mieć będą prawdopodobieństwa popełnienia błędu II-go rodzaju
większe od takiego prawdopodobieństwa obliczonego dla lewostronnego
obszaru K.
Moglibyśmy obszar krytyczny skonstruować jako odcinek ograniczony dwoma
punktami k1, k2 takimi, że zachodziłaby równość:
P ( k1 < X  k2 | h0) = *
Weźmy jakiś obszar krytyczny skonstruowany w taki sposób i przedstawmy go
na rysunku.
Rozważmy możliwe zmiany granic tego obszaru (k1, k2>
a. Jego skrócenie spowodowane przesunięciem jednego tylko końca
w stronę drugiego, przy niezmienionym położeniu tego drugiego końca
108
spowoduje zwiększenie prawdopodobieństwa popełnienia błędu II-go rodzaju
i spadek prawdopodobieństwa popełnienia błędu I-go rodzaju poniżej *.
b. Przesunięcie odcinka w prawo z jednoczesną taką zmianą jego
długości, dzięki której prawdopodobieństwo popełnienia błędu I-go rodzaju
pozostanie niezmienione. Dopóki środek odcinka (k1+k2)/2 nie przekroczy
m0 odcinek taki ulega skracaniu, punkt k1, przesuwa się daklej niż k2,
przyrost prawdopodobieństwa  wynikający z przesunięcia k1 jest większy
niż jego ubytek wynikający z przesunięcia k2, prawdopodobieństwo
popełnienia błędu II-go rodzaju rośnie. Jeśli weźmiemy jakikolwiek odcinek
(k1, k2> spełniający warunek, że P(k1 < X  k2 | h0) = *, którego
środek znajduje się powyżej (w prawo od) m0, to prawdopodobieństwo
popełniemia błędu drugiego rodzaju przy traktowaniu go jako obszaru krytycznego będzie większe niż prawdopodobieństwo popełnienia błędu II-go
rodzaju przy użyciu jako obszaru krytycznego odcinka (m0-(k2-m0), m0+(k1m0)> symetrycznego względem punktu m0 dla odcinka (k1, k2>, którego środek
znajduje się jednak poniżej (w lewo od) m0. Zatem przesuwając odcinek
(k1, k2> w prawo nie uczynimy zeń optymalnego obszaru krytycznego.
c. Przesunięcie odcinka w lewo i taka zmiana jego długości, dzięki
której prawdopodobieństwo popełnienia błędu I-go rodzaju pozostanie bez
zmian. Odcinek zostanie wydłużony i przesunięty na obszar w którym funkcja
gęstości f( X |h1) ma większe wartości. Prawdopodobieństwo popełnienia
błędu II-go rodzaju zmaleje. Gdyby przesuwanie odcinka w lewo kontynuować
dbając o stałe prawdopodobieństwo popełnieia błędu I-go rodzaju, w pewnym
momencie stanie się koniecznym przeniesienie początku odcinka k1
do -. Prawdopodobieństwo popełnienia błędu II-go rodzaju będzie wówczas
najmniejsze. Będzie to znany nam już optymalny obszar krytyczny
K = (-, k>.
W rozumowaniu tym pominęliśmy niespójne obszary krytyczne zbudowane
z kilku rozłącznych odcinków, ale nie zamierzaliśmy przeprowadzać formalnego, pełnego dowodu a jedynie jego szkic, wskazać niektóre argumenty
przemawiające za twierdzeniem o optymalności w omawianej sytuacji lewostronnego obszaru krytycznego
W analogiczny sposób moglibyśmy uzasadnić następne twierdzenie dotyczące weryfikacji dwu innych hipotez. Niech tym razem hipoteza zerowa
głosi, że średnia w populacji jest równa 14750 $., a hipoteza konkurencyjna, że jest ona równa 15000 $. Pozostałe warunki niech będą
jak w poprzednim przykładzie: odchylenie standardowe w zbiorowości równe
2000, maksymalna wartość prawdopodobieństwa popełnienia błędu I-go rodzaju
przy założeniu, że prawdziwą jest h0, równa 0.05, wnioskujemy na podstawie
średniej z 400 elementowej próby. Twierdzenie sformułujemy w sposób ogólny.
Jeżeli wedle hipotezy zerowej h0 średnia zmiennej X w zbiorowości
oznaczona E(X) jest równa m0 a wedle hipotezy konkurencyjnej h1, średnia
ta jest równa m1 i zachodzi nierówność m1 > m0, jeżeli ponadto akceptowalny poziom warunkowego prawdopodobieństwa popełnienia błędu I-go rodzaju
przy założeniu prawdziwości hipotezy h0 jest równy * i wariancja zmiennej
X w zbiorowości D2(X) jest dana, wówczas obszar krytyczny K optymalnej
w sensie Neymana-Pearsona funkcji decyzyjnej dla średniej z n-elementowej
próby losowej jest półprostą (k, ), gdzie liczba k spełnia następujący
warunek:
k:
P ( X > k | h0 ) = *
Gdy liczebność próby jest dostatecznie duża, by posłużyć się centralnym
twierdzeniem granicznym, wielkość k wyznaczymy bez trudu w znany już
sposób:
k = m0 + u *
D(X)

n
109
W naszym przykładzie
k
= 14750 + 1.64*
2000
 = 14914
400
Prawdopodobieństwo popełnienia błędu I-go rodzaju przy posługiwaniu się
tą optymalną funkcją decezyjną  jest równe (nieprzypadkowo) maksymalnemu
prawdopodobieństwu *. Prawdopodobieństwo popełnienia błedu II-go rodzaju
obliczamy w sposób podobny do zastosowanego uprzednio:
 = P( a0 | h1 ) = P ( X  k | h1 ) =
=
k-m1
( ) =
D(X)

n
14914-15000
( ) = (-0.86 ) = 0.1949
2000

400
Oba prawdopodobieństwa  i  wraz z prawostronnym obszarem krytycznym
przedstawia rysunek;
Problem i jego rozwiązanie jest "lustrzanym odbiciem" omówionych
wcześniej, gdzie m1 było mniejsze od m0. Wówczas konstruowaliśmy lewostronny obszar krytyczny: małe średnie z próby "świadczyły" przeciwko
hiptezie zerowej, a duże na rzecz tej hipotezy. Gdy wedle hipotez m1 jest
większe od m0, konstruujemy prawostronny obszar krytyczny i duże średnie
z próby "świadczą" przeciw hipotezie zerowej, a małe na jej rzecz.
Na koniec zbadajmy konsekwencje zmian niektórych parametrów sytuacji,
w której weryfikuje się hipotezy. W naszym ostatnim przykładzie parametry
te były następujące:
h0 :
h1 :
E(X)
E(X)
D(X)
n
*
K
 
=
=
=
=
=
=
=
m0 = 14750
m1 = 15000
2000
400
0.05
(14914, )
0.1949
110
Konsekwencje, o których będzie mowa, mają charakter uniwersalny.
Czytelnik łatwo może sprawdzić, czy rzeczywiście zachodzą w sytuacji
przykładowej a następnie dowieść, że zachodzą we wszystkich sytuacjach
analogicznych.
Jeżeli zmienimy treść hipotez tak, że różnica między m1 a m0 zmaleje,
wówczas przy niezmienionych pozostałych parametrach sytuacji wzrośnie
prawdopodobieństwo popełnienia błędu II-go rodzaju .
Jeżeli zwiększymy liczebność próby n, wówczas obszar krytyczny K będzie
nadal optymalnym obszarem krytycznym tylko przy innym, mniejszym od poprzedniego maksymalnym prawdopodobieństwem popełnienia błędu I-go rodzaju,
jednocześnie zmaleje warunkowe prawdopodobieństwo popełnienia błędu II-go
rodzaju.
Gdyby wariancja zmiennej X w zbiorowości zmalała, skutek byłby taki sam
jak przy wzroście liczebności próby. (Jedno i drugie powoduje spadek odchylenia standardowego zmiennej X "średnia z próby", czego konsekwencji
łatwo się domyśleć spojrzawszy na wcześniejsze rysunki.)
Jeżeli zwiększymy liczebność próby n i ustalimy nowy optymalny obszar
krytyczny przy niezmienionym maksymalnym prawdopodobieństwie *, wówczas
zmaleje prawdopodobieństwo  a nowowyznaczony obszar krytyczny okaże się
być szerszym od poprzedniego.
Gdyby zmalała wariancja zmiennej X w zbiorowości i ustalony został nowy
obszar krytyczny przy niezmienionym maksymalnym prawdopodobieństwie *,
wówczas skutki byłyby takie same jak przy wzroście liczebności próby.
Gdybyśmy zgodzili się na nową, wyższą wartość maksymalnego prawdopodobieństwa popełnienia błędu I-go rodzaju *, wówczas zostałby ustalony
nowy, szerszy obszar krytyczny i zmalałoby prawdopodobieństwo popełnienia
błędu II-go rodzaju .
Gdybyśmy chcieli zmniejszyć prawdopodobieństwo popełnienia błędu II-go
rodzaju , moglibyśmy to osiągnąć za cenę powiększenia prawdopodobieństwa
popełnienia błędu I-go rodzaju. Towarzyszyłoby temu rozszerzenie obszaru
krytycznego.
Jednoczesne zmniejszenie prawdopodobieństwa popełnienia błędu I-go
rodzaju i prawdopodbieństwa popełnienia błędu II-go rodzaju jest możliwe
tylko przez zwiększenie liczebności próby; jeżeli nie zamierzamy zmienić
treści hipotez i wariancji zmiennej w zbiorowości, co zwykle od nas nie
zależy.
Jeżeli warunkowe rozkłady zmiennej będącej wynikiem doświadczenia są
ciągłe, to warunkowe prawdopodobieństwo popełnienia błędu I-go rodzaju 
przy posługiwaniu się optymalną funkcją decyzyjną d jest równe maksymalnemu prawdopodobieństwu *, przy którym owa funkcja decyzyjna d jest
optymalną. Wynika to z przedstawionych sposobów wyznaczania krańców
obszarów krytycznych: lewo i prawostronnego.
Nie było tak w omawianym przykładzie medycznym, gdzie zmienna L "liczba
zdjęć" nie miała rozkładu ciągłego lecz skokowy. Było tak w dwu ostatnich
przykładach i jest tak w większości praktycznych zastosowań weryfikacji
hipotez statystycznych. Wszędzie tam, gdzie obie te wielkości są sobie
w sposób konieczny równe dla oznaczenia obu tych prawdopodobieństw używamy
terminu "poziom istotności" i mówimy, że przeprowadzamy weryfikację
jakichś hipotez na pewnym poziomie istotności równym , co znaczy,
że wybieramy obszar krytyczny w taki sposób, by prawdopodobieństwo
popełnienia błędu I-go rodzaju nie było większe od , i że to prawdopodobieństwo jest dla optymalnego obszaru krytycznego równe .
Wszystkie hipotezy, którymi dotąd się zajmowliśmy były to tzw. hipotezy
parametryczne.
Statystyczna hipoteza jest hipotezą parametryczną jeżeli jej przedmiotem jest wartość parametryczna rozkładu zmiennej lub zmiennych
losowych.
Ostatnio weryfikowane przez nas hipotezy określały wartość średniej
zmiennej X w zbiorowości. Wcześniejsze hipotezy medyczne określały wartość
111
prawdopodobieństwa tego, że zdjęcie pacjenta zostanie uznane za wskazujące
na chorobę.
Rzeczywistością będącą przedmiotem hipotez w przykładzie medycznym był,
formalnie rzecz biorąc, rozkład dwuwartościowej zmiennej -"uznanie zdjęcia
za wskazujące na chorobę". Zmienna ta ma dwie możliwe wartości
i określenie prawdopodobieństwa jednej z nich określa ten rozkład w sposób
jednoznaczny.
Rzeczywistością będącą przedmiotem hipotez w ostatnich przykładach był
rozkład zmiennej X "wysokość zarobków " w pewnej zbiorowości. Zmienna ta,
można się domyślać, ma wiele różnych wartości. Hipotezy przypisywały wartość średniej zmiennej X i nie określały rozkładu zmiennej X w zbiorowości
w sposób jednoznaczny.
mimo to i jedne i drugie hipotezy słusznie traktujemy jako hipotezy
proste. Jest tak dla tego, że hipotezy te, wraz z dodatkowymi informacjami, które traktowaliśmy jako niewątpliwe, w sposób jednoznaczny
określały rozkład zmiennej zdającej sprawę z wynikow doświadczenia
służącego do weryfikacji hipotez.
Hipotezy medyczne określały jednoznacznie dwumianowy rozkład zmiennj L,
a hipotezy o średniej w zbiorowości jednoznacznie określały rozkład zmiennej X "średnia z próby".
Wszystkie te hipotezy były statystycznymi hipotezami parametrycznymi,
gdy przypisywały wartość parametrowi charakteryzującemu rozkład zmiennej
traktowany jako rzeczywistość będąca przedmiotem weryfikowanych hipotez;
były hipotezami prostymi, gdyż określały w sposób jednoznaczny rozkład
wyników doświadczenia służącego do ich weryfikacji.
Dodajmy, że jeżeli hipoteza w sposób niejednoznaczny określa wartość
parametru charakteryzującego rzeczywistość, to niejednoznacznie określa
rozkład wyników doświadczenia i nie jest wówczas hipotezą prostą.
Dwie hipotezy proste są różne, jeżeli warunkowe rozkłady wyników
doświadczenia przy założeniu prawdziwości każdej z nich nie są identyczne.
Hipotezą złożoną jest każda taka hipoteza, która jest równoważna alternatywnie co najmniej dwu różnych hipotez prostych.
Weryfikacja prostej i złożonej hipotezy dotyczących średniej
Przy weryfikacji hipotez metodą Neymana-Pearsona rozkład wyników
doświadczenia przy założeniu prawdziwości hipotezy zerowej musi być znany.
Zatem tylko hipoteza prosta może być hipotezą zerową, a hipoteza złożona
może być tylko hipotezą konkurencyjną. Spełnienie tego ograniczenia jest
koniecze; nawet wbrew zasadzie domagającej się, by traktować jako zerową
tę hipotezę, której niesłusznego odrzucenia bardziej się obawiamy.
Weryfikację hipotez, z których jedna jest hipotezą prostą, a druga jest
hipotezą złożoną, przedstawimy na przykładzie weryfikacji takich hipotez
dotyczących średniej wartości zmiennej w zbiorowości.
Niech wedle hipotezy zerowej średnia zmiennej X w zbiorowości będzie
równa m0. Jest to hipoteza prosta. Rozważymy trzy możliwe hipotezy konkurencyjne, złożone:
- średnia w zbiorowości jest mniejsza od m0,
- średnia w zbiorowości jest większa od m0,
- średnia w zbiorowości nie jest równa m0, jest mniejsza lub większa od
m0
Założymy, podobnie jak to czyniliśmy poprzednio, że liczebność próby n
jest dostatecznie wielka dla zastosowania centralnego twierdzenia granicznego i średnia z próby X ma rozkład zbliżony do normalnego, a więc
ciągły. Ponadto dana jest wariancja zmiennej X w zbiorowości i ustalony
jest pewien maksymalny poziom prawdopodobieństwa warunkowego błędu I-go
rodzaju, na jakie się jeszcze godzimy.
Rozpoczniemy od sytuacji pierwszej i zapiszemy obie hipotezy:
Hipotezę konkurencyjną h1 można traktować jako alternatywę prostych
hipotez hi, z których każda ma postać następującą:
112
hi: E(X) = mi,
gdzie
mi < m0
Jest takich hipotez tyle, ile jest liczb rzeczywistych mniejszych od
m0. Weźmy jakąkolwiek parę prostych hipotez: h0, hi. Ponieważ mi < m0 dla
ich weryfikacji posłużymy się lewostronnym obszarem krytycznym Ki, którego
granice wyznaczymy wedle wcześniej poznanej metody:
Ki = (-, ki>
ki : P (X  ki | h0) = *
Łatwo zauważyć, że granice tego obszaru krytycznego (-, ki> będą
takie same bez względu na to, która z prostych hipotez hi wystąpi
w weryfikowanej parze. Inaczej mówiąc granica obszaru krytycznego
(-, ki> nie zależą od konkretnej wartości średniej mi pod warunkiem,
że jest to liczba mniejsza od m0. We wszystkich przypadkach obszar
krytyczny będzie lewostronnym obszarem krytycznym gwarantującym warunkowe
prawdopodobieństwo popełnienia błędu I-go rodzaju równe *.
W przypadku weryfikacji każdej z prostych hipotez hi składających się
na naszą złożoną hipotezę h1 ten sam dla każdego i lewostronny obszar
krytyczny K = (-, ki> jest optymalnym obszarem krytycznym minimalizującym prawdopodobieństwo popełnienia błędu II-go rodzaju przy ustalonym
maksymalnym prawdopodobieństwie popełnienia błędu I-go rodzaju równym *.
Będziemy się lewostronnym obszarem krytycznym K posługiwać przy weryfikacji prostej hipotezy zerowej h0 przeciwko hipotezie konkurencyjnej h1
będącej alternatywą prostych hipotez hi.
Jeżeli hipoteza zerowa głosi, że średnia w zbiorowości jest równa m0
a hipoteza konkurencyjna głosi, że średnia ta jest od m0 mniejsza
i maksymalne prawdopodobieństwo popełnienia błędu I-go rodzaju jest równe
*, to optymalnym obszarem krytycznym jest lewostronny obszar krytyczny K,
który wyznaczamy, w sposób następujący:
K = {-, k>
k: P ( X  k | h0) = *
Ponieważ wariancja zmiennej X w zbiorowości jest znana i liczebność
próby jest dostatecznie duża, granicę k obszaru krytycznego K wyznaczamy
w znany sposób, korzystając z centralnego twierdzenia granicznego.
Sytuacja druga jest symetryczną względem pierwszwj. Zapiszemy treść
hipotez i końcowy wniosek:
h0: E(X) = m0
h1: E(X) > m0
Jeżeli hipoteza zerowa głosi, że średnia w zbiorowości jest równa m0
a hipoteza komkurencyjna głosi, że średnia ta jest od m0 większa
i maksymalne prawdopodobieństwo popełnienia błędu I-go rodzaju jest równe
*, to optymalnym obszarem krytycznym jest prawostronny obszar krytyczny
K, który wyznaczamy w sposób następujący:
K = {k, )
k: P ( X > k | h0) = *
Obszar krytyczny K optymalny dla weryfikacji prostej hipotezy h0
przeciwko złożonej hipotezie h1 omawianego typu (wedle której E(X) jest
mniejsze od m0 lub wedle której E(X) jest większe od m0) jest optymalnym
obszarem krytycznym do weryfikacji tej hipotezy h0 przeciwko każdej hipotezie konkurencyjnej hi wchodzącej w skład złożonej hipotezy h1.
Mówiąc inaczej, obszar krytyczny optymalny w stosunku do hipotezy
złożonej jest optymalnym w stosunku do każdej hipotezy prostej wchodzącej
w skład tej hipotezy złożonej. Z każdą z tych hipotez prostych związany
jest bowiem ten sam obszar krytyczny, który jest jednocześnie obszarem
113
krytycznym optymalnym dla hipotezy złożonej będącej alternatywą tych hipotez prostych. Tak jest dla dwu pierwszych sytuacji.
Sytuacja trzecia różni się od poprzednich. Hipoteza zerowa, tak jak
poprzednio głosi, że średnia w zbiorowości jest rowna m0. Hipoteza konkurencyjna natomiast głosi, że średnia w zbiorowości nie jest równa m0
(jest od m0 mniejsza lub wieksza):
h0: E(X) = m0
h1: E(X)  m0
W tej sytuacji, tak jak i poprzednio, nie jest możliwym wyznaczenie
prawdopodobieństwa popełnienia błędu II-go rodzaju dla każdej
z nietrywialnych funkcji decyzyjnych. Bez znajomości rozkładu średniej
z próby przy założeniu prawdziwości hipotezy konkurencyjnej można tylko
powiedzieć, że prawdopodobieństwa popełnienia błędu II-go rodzaju jest
równe 1, gdy obszar krytyczny jest równy całemu zbiorowi liczb rzeczywistych i zawsze odrzucamy h0 utrzymując h1. Prawdopodobieństwo to jest
natomiast równe 0, gdy obszar krytyczny jest pusty. Wtedy zawsze utrzymujemy h0 i odrzucamy h1. Są to jednak reguły postępowania, które nie biorą
pod uwgę wyniku doświadczenia.
Poprzednie dwa problemy weryfikacji mimo to rozwiązaliśmy dzięki temu,
że obszar krytyczny, który był optymalny przy weryfikacji h0 przeciwko
jednej z prostych hipotez wchodzących w skład h1 był także optymalnym przy
weryfikacji h0 przeciwko każdej innej prostej wchodzacej w skład h1
i dlatego uznaliśmy ten obszar krytyczny za optymalny przy weryfikacji h0
przeciwko złożonej hipotezie h1 będącej alternatywą owych hipotez
prostych.
Tym razem tak nie jest. Lewostronny obszar krytyczny (-, k>,
k: P( X k|h0)=* jest optymalny przy weryfikacji h1, wedle której średnia
E(X) jest mniejsza od m0. Ten obszar krytyczny nie jest jednak optymalnym
przy weryfikacji h0 przeciwko prostej hipotezie konkurencyjnej, wedle
której średnia E(X) jest większa od m0. Hipotezy proste obu tych typów
wchodzą w skład złożonej hipotezy konkurencyjnej h1, wedle której średnia
E(X) nie jest równa m0.
Zatem musimy dokonać jakiejś rozszerzającej interpretacji zasady wyboru
optymalnej funkcji decyzyjnej.
Zauważmy, że każdy obszar krytyczny (czyli każdą funkcję decyzyjną)
można charakteryzować przez podanie dwu wielkości. Pierwszą z nich jest
dobrze nam znane prawdopodobieństwo popełnienia błędu I-go rodzaju. Drugą
wyznaczamy w sposób następujący. Możemy zbadać, jakie byłoby warunkowe
prawdopodobieństwo popełnienia błędu II-go rodzaju przy stosowaniu danego
obszaru krytycznego do weryfikacji h0 przeciwko każdej prostej hipotezie
wchodzącej w skład złożonej hipotezy konkurencyjnej h1. Następnie możemy
wskazać maksymalną wartość tego prawdopodobieństwa. Oznaczmy ją m.
Optymalnym obszarem krytycznym do weryfikacji hipotezy h0 przeciwko
hipotezie h1 jest obszar krytyczny spełniający dwa warunki. Pierwszy jest
znanym warunkiem nałożonym na prawdopodobieństwo warunkowe popełnienia
błędu I-go rodzaju, by nie było ono wyższe od przyjętej wartości *.
Warunek drugi jest uogólnieniem warunku domagającvego się minimalizacji
warunkowego prawdopodobieństwa popełnienia błędu II-go rodzaju - optymalny
obszar krytyczny to taki, który spełniając warunek pierwszy ( <* )
minimalizuje maksymalne prawdopodobieństwo popełnienia błędu II-go rodzaju
m.
W przypadku, gdy hipoteza konkurencyjna jest hipotezą prostą m
wyznaczone dla jakiegoś obszaru krytycznego K służącego do weryfikacji h0
przeciwko h1 jest równe obliczanemu przez nas wcześniej prawdopodobieństwu
popełnienia błędu II-go rodzaju , gdyż w skład prostej hipotezy h1
wchodzi jedna tylko hipoteza prosta i  jest maksymalną wartością
w jednoelementowym zbiorze zawierającym tylko .
Zatem rozszerzona wersja reguły optymalnej funkcji decyzyjnej
w przypadku weryfikacji dwu prostych hipotez prowadzi do wybrania tej
114
samej optymalnej funkcji decyzyjnej, którą byśmy wybrali korzystając
z reguły wyboru w jej wersji podstawowej.
Jezeli hipoteza konkurencyjna h1 jest hipotezą złożoną o postaci znanej
nam z dwu pierwszych sytuacji, to można pokazać, że:
- w pierwszej sytuacji, gdy h1 głosi, że E(X)<m0, minimalną wartością
m równą 1-* charakteryzuje się lewostronny obszar krytyczny i dla
każdego innego obszaru krytycznego spośród spełniających warunek
nałożony na  prawdopodobieństwo m będzie większe,
- w drugiej sytuacji, gdy h1 głosi, że E(X)>m0, minimalną wartością m
charakteryzuje się prawostronny obszar krytyczny.
Nie będziemy tego badać i przejdziemy od razu do analizy sytuacji
trzeciej, gdzie hipoteza konkurencyjna jest złożona i głosi, że E(X)  m0.
Lewostronny obszar krytyczny (-, k>, k: P( X  k | h0) = * spełnia
warunek pierwszy ( < *), charakteryzuje się jednak wysokim m praktycznie równym 1. Dokładniej mówiąc: posługując się lewostronnym obszarem
do weryfikacji hipotezy h0 przeciwko różnym hipotezom hi (wchodzącym
w skład hipotezy h1) głoszącym, że średnia E(X) jest coraz większa znajdujemy, że warunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju
rośnie do 1.
h0: E(X)
hi: E(X)
= m0
= mi > m0
lim P( X > k | hi) = 1
mi
Fakt ten dobrze ilustruje następny rysunek przedstwiający lewostronny
obszar krytyczny K, funkcję gęstości rozkładu zmiennej X - "średnia
z próby" przy założeniu, że prawdziwą jest hipoteza zerowa i funkcję
gęstości zmiennej X przy założeniu, że średnia w zbiorowości X jest równa
pewnej liczbie m1 większej od m0.
Łatwo zauważyć, że zwiększając wielkość mi zwiększamy prawdopodobieństwo
popełnienia błędu II-go rodzaju, którego wielkość nie może jednak przekroczyć liczby 1.
Także prawostronny obszar krytyczny <k, ), k: P( X >k|h0)=* spełnia
warunek nałożony na prawdopodobieństwo popełnienia błędu I-go rodzaju
( * ). Posługując się tym obszarem krytycznym kolejno do weryfikacji
hipotezy h0 przeciwko prostym hipotezom hi wchodzącym w skład hipotezy h1
i głoszącym, że średnia E(X) ma coraz mniejsze wartości znajdujemy,
że warunkowe prawdopodobieństwo popełnienia błędu II-go rodzaju rosną do
1. Dla prawostronnego obszaru krytycznego m też jest równe 1.
115
h0: E(X) = m0
hi: E(X) = mi < m0
lim
P( X < k | hi) = 1
mi-
Fakt ten ilustruje następny rysunek, którego sens jest podobny do poprzedniego.
Hipoteza h1 zawiera w sobie wszystkie hipotezy proste o postaci E(X)=r,
gdzie r jest dowolną liczbą rzeczywistą z wyjątkiem liczbny m0.
Prawdopodobieństwo m charakteryzujące dany obszar krytyczny K jest polem
nad dopełnieniem tego obszaru pod taką funkcją gęstości f( X |hi), dla
której pole to jest największe. Każdej liczbie rzeczywistej z wyjątkiem m0
przyporządkowana jest hipoteza hi, wedle której E(X) jest równe tej
liczbie. Chcąc zminimalizować prawdopodobieństwo m należy zatem skonstruować taki obszar krytyczny, którego dopełnienie będzie najkrótsze. To,
gdzie się ono znajduje na osi liczbowej, nie ma znaczenia dla realizacji
tego celu.
Optymalny obszar krytyczny musi spełniać warunek nałożony na prawdopodobieństwo popełnienia błędu I-go rodzaju. Dopełnienie obszaru krytycznego będzie najkrótsze, pod warunkiem spełnienia tego warunku, gdy
rozciągać się będzie między dwoma punktami symetrycznymi względem m0:
(m0-c, m0+c>. Rozważaliśmy analogiczny problem przy okazji estymacji
przedziałowej. Obszar krytyczny składał się będzie wówczas z dwu
półprostych K = (-, m0-c>  ( m0+c, ).
Optymalnym obszarem krytycznym K przy weryfikacji hipotezy zerowej,
wedle której średnia zmiennej X w zbiorowości jest równa m0, przeciwko
hipotezie konkurencyjnej, wedle której tak nie jest, jest dwuczęściowy
obszar krytyczny symetryczny względem m0:
h0: E(X) = m0
h1: E(X)  m0
K = (-, m0-c>  ( m0+c, )
c: P( X  K | h0) = *
116
Maksymalne prawdopodobieństwo popełnienia błędu II-go rodzaju m przy
weryfikacji takich hipotez h0, h1 przy użyciu dwustronnego obszaru krytycznego K jest równe 1-.
Jeżeli spełnione są warunki umożliwiające zastosowanie centralnego
twierdzenia granicznego, a przyjęliśmy takie założenie, to granice obszaru
krytycznego k1=m0-c, k2=m0+c wyznaczamy w sposób następujący:
c: P ( X  m0-c  X
>
m0+c | h0) = *
c: P (m0-c  X  m0+c | h0)
c:
m0-c-m0
P (  
D(X)
 
n
X -m0
 
D(X)

n
= 1-*
m0+c-m0
 | h0) = 1-*
D(X)

n
zatem
c
( ) = 1 - */2
D(X)

n
i zgodnie z definicją 
: () = 1-/2
c
 = 
D(X)

n
stąd
D(X)
c = * 
n
co pozwala zapisać granice obszaru krytycznego K
K =
(-,
D(X)
m0 -  * 
n
>

(
D(X)
m0 +  * , )
n
W ostatnich wierszach zastąpiliśmy * przez , gdyż w rozważanym przypadku obie te wielkości są w sposób konieczny równe.
P ( X  K | h0) =  = *
Weźmy podstawowe dane z poprzedniego przykładu i wyznaczmy granice
optymalnego obszaru krytycznego dla weryfikacji dwu następujących hipotez:
117
h0: E(X) = m0 = 15000
h1: E(X)  m1
* = 0.05;
Ponieważ
jąco:

c =


n = 400;
D(X) = 2000
 = 1.96, granice obszaru krytycznego wyznaczymy następu-
2000
1.96  = 196


400
k1 = 15000 - 196 = 14804
k2 = 15000 + 196 = 15196
K = (-, 14804>  (15196, )
Przyjęcie takiego obszaru krytycznego równoważne jest z przyjęciem
następującej funkcji decyzyjnej: jeżeli średnia z próby X przyjmie wartość mniejszą lub równą 14 804 albo jeżeli przyjmie wartość większą od 15
196, wówczas hipotezę zerową, wedle której średnia w zbiorowości jest
równa 15 000 odrzucimy, w przeciwnym przypadku, gdy średnia z próby przyjmie wartość z przedziału od 14 804 do 15 196, hipotezę zerową utrzymamy.
Natępny rysunek ilustruje rezultat przeprowadzonych obliczeń
i przedstawia obszar krytyczny K wraz z warunkową funkcją gęstości zmiennej X - "średnia z próby" przy założeniu, że prawdziwa jest hipoteza zerowa.



Podsumujmy, dwustronny (czasem mówimy obustronny) obszar krytyczny
wyznaczony w przedstawiony sposób ma następujące właściwości:
Warunkowe prawdopodobieństwo  popełniania błędu I-go rodzaju przy
posługiwaniu się tym obszarem krytycznym jest równe *, czyli jeszcze
akceptowalnemu poziomowi tego prawdopodobieństwa.
Spośród wszystkich obszarów krytycznych spełniających warunek poprzedni
jest to obszar najdłuższy (dokładniej, jest to obszar o najkrótszym
dopełnieniu).
Obszar ten jest obszarem symetrycznym względem m0 - średniej
w zbiorowości wedle hipotezy zerowej.
118
Maksymalna wartość warunkowego prawdopodobieństwa popełnienia błędu
II-go rodzaju m przy użyciu tego obszaru krytycznego do weryfikacji hipotezy h0 przeciwko jakiejkolwiek prostej hipotezie będącej składnikiem
hipotezy konkurencyjnej h1 jest równa 1-.
To maksymalne warunkowe prawdopodobieństwo popełnienia błędu II-go
rodzaju m nie zależy od innych parametrów sytuacji poza *. Nie jest
zatem dobrą charakterystyką ryzyka popełnienia błędu II-go rodzaju.
Jeżeli hipoteza konkurencyjna jest hipotezą złożoną i nie możemy funkcji decyzyjnej charakteryzować przez podanie warunkowego prawdopodobieństwa popełnienia błędu II-go rodzaju, ryzyko popełnienia takiego błędu
przedstawimy za pomocą funkcji mocy charakteryzującej stosowaną regułę
wnioskowania. Zwykle mówimy o funkcji mocy, że jest to funkcja mody testu,
rozumiejąc przez test całość postępowania weryfikacyjnego.
Funkcja mocy testu przyporządkowuje każdej prostej hipotezie wchodzącej
w skład złożonej hipotezy konkurencyjnej warunkowe prawdopodobieństwo
popełnienia błędu II-go rodzaju przy weryfikacji tej hipotezy prostej przy
użyciu obszaru krytycznego optymalnego dla weryfikacji złożonej hipotezy
h1.
Wróćmy do naszego przykładu. Dane są dwie hipotezy:
h0: E(X) = m0 = 15000
h1: E(X)  m1
wyznaczyliśmy optymalny przy * obszar krytyczny K:
K = (-, 14804> + (15196, )
Funkcja mocy test przyporządkowuje każdej hipotezie prostej wchodzącej
w skład złożonej hipotezy konkurencyjnej h1, a więc każdej liczbie rzeczywistej r różnej od m0 prawdopodobieństwo tego, że średnia z próby X przyjmie wartość nienależącą do K pod warunkiem, że średnia w zbiorowości jest
równa r. Jest to warunkowe prawdopodobieństwo popełnienia błędu II-go
rodzaju przy założeniu, że prawdziwa jest hipoteza wedle której średnia
w zbiorowości jest równa r. Oznaczmy to prawdopodobieństwo r.

r =
rm0
P( X  K | E(X)=r)
W omawianym przykładzie wyznaczenie wartości funkcji mody test dla
dowolnego
rm0 nie przedstawia żadnej trudności. Dalej przedstawimy
wykres tej funkcji. Funkcja ta nie jest określona w punkcie 15000, gdyż
jest to punkt równy m0, a hipoteza, wedle której średnia w zbiorowości
jest równa m0 jest hipotezą zerową i nie wchodzi w skład hipotezy komkurencyjnej h1.
Uważa się za korzystne, gdy warunkowe prawdopodobieństwa popełniania
błędów nie są wysokie. Konsekwentnie, z dwu różnych sposobów weryfikacji
tych samych hipotez charakteryzujących się tymi samymi warunkowymi prawdopodobieństwami popełnienia błędu I-go rodzaju za lepszy uznalibyśmy
sposób, dla którego funkcja mocy test nigdy nie przyjmuje wartości
wyższych a niekiedy przyjmuje wartości niższe od tych, które przyjmuje
funkcja mocy test dla tego gorszego sposobu. Zapiszemy to utożsamiając
pierwszy sposób weryfikowania hipotez z obszarem krytycznym K1, a drugi
z obszarem krytycznym K2, średnią z próby dla pierwszego sposobu
oznaczonym X 1, a dla drugiego X 2.
119
Pierwszy sposób jest lepszy od drugiego wtedy i tylko wtedy, gdy

P( X 1  K1 | E(X)=r)  P( X 2  K2 | E(X)=r) &
rm0
&
 P( X 1  K1 | E(X)=r) < P( X 2  K2 | E(X) = r)
rm0
Oczywiście oba sposoby weryfikacji są optymalne i ich obszary krytyczne
wyznaczone są przedstawionym wcześniej sposobem.
Pokażmy teraz, że lepszym od przedstawionego sposobem weryfikacji hipotez z naszego przykładu jest posłużenie się próbą 900 elementową.
Przedstawimy funkcje mocy test dla obu sposobów weryfikacji. W obu przypadkach przyjmujemy oczywiście ten sam maksymalny poziom ryzyka
popełnienia błędu I-go rodzaju *. Gdy weryfikację prowadzimy przy użyciu
próby 900 elementowej otrzymujemy inny, rozleglejszy obszar krytyczny:
c =
 *
D(X)
 = 1.96 *
n
2000
 = 130.67
900
k1 = 15000 - 130.67 = 14869.33
k2 = 15000 + 130.67 = 15130.67
K = (-, 14869.33>  (15130.67, )
Obie funkcje mocy wyznaczamy obliczając prawdopodobieństwa warunkowe
(1) dla funkcji mocy charakteryzującej weryfikację przy użyciu próby 400
elementowej

r15000
P(14804 < X  15196 | E(X) = r)
(2) dla funkcji mocy charakteryzującej weryfikację przy użyciu próby 900
elementowej

r15000
P(14869.33 < X  15130.67 | E(X) = r)
Pomijając obliczenia poprzestaniemy na przedstawieniu wykresów obu funkcji
mocy testu na jednym rysunku.

120
Maksymalna wartość warunkowego prawdopodobieństwa popełnienia błędu
II-go rodzaju dla obu sposobów weryfikacji jest równa 0.95. Dokładniej,
jest dowolnie bliska 0.95. Tak duże ryzyko popełnienia błędu II-go rodzaju
wiąże się z hipotezami prostymi wchodzącymi w skład hipotezy konkurencyjnej, które głoszą, że średnia w zbiorowości jest liczbą bliską 15000 = m0.
Przy weryfikacji hipotezy, wedle której tak nie jest, posługiwanie sie
próbą liczącą 900 elementów jest sposobem lepszym niż posługiwanie się
próbą liczącą 400 elementow. Przekonują nas o tym wykresy funkcji mocy
charakteryzujących oba sposoby. Dla każdej pary hipotez, z których pierwszą jest hipoteza h0 a drugą hipoteza hr, wedle której średnia
w zbiorowości E(X) jest równa r m0, warunkowe prawdopodobieństwo
popełnienia błędu II-go rodzaju przy posługiwaniu się próbą 900 elementową
jest niższe niż przy posługiwaniu się próbą 400 elementową; rzecz jasna
pod warunkiem, że w obu przypadkach używamy odpowiedniego optymalnego
obszaru krytycznego.
Rozważyliśmy pięć przykładów weryfikacji hipotez dotyczących średniej
zmiennej X w zbiorowości. Wypiszemy kolejno pary weryfikowanych hipotez
w postaci ogólnej:
1.
h0: E(X) = m0
h1: E(X) = m1, m1 < m0
2.
h0: E(X) = m0
h1: E(X) < m0
3.
h0: E(X) = m0
h1: E(X)  m0
4.
h0: E(X) = m0
h1: E(X) > m0
5.
h0: E(X) = m0
h1: E(X) = m1, m1 > m0
Jeżeli liczebność próby n jest dostatecznie duża dla zastosowania centralnego twierdzenia granicznego zmienna X "średnia z próby" ma rozkład
praktycznie ciągły i zbliżony do normalnego. Obszary krytyczne wyznaczamy
wówczas w sposób następujący:
W dwu pierwszych sytuacjach optymalnym jest lewostronny obszar
krytyczny:
K = (-,
k: P ( X
k = m0 -
k>
 k | h0) = * = 
u * D(X)/n
W dwu ostatnich sytuacja optymalnym jest lewostronny obszar krytyczny
K = (k, )
k: P ( X > k | h0) = * = 
k = m0 + u * D(X)/n
W trzeciej sytuacji optymalnym jest obustronny obszar krytyczny:
K = (-, k1> + ( k2, )
k1= m0-c
k2= m0+c
c: P (m0 - c < X  m0 + c | h0) = 1-* = 1-
c =  * D(X)/n
121
Zakładaliśmy dotąd, że wariancja zmiennej X w zbiorowości jest znana.
Założenie to jest założeniem nierealistycznym. Posługując się dużą próbą,
a tylko o takich była tutaj mowa, możemy, ryzykując popełnienie raczej
niewielkiego błędu, utożsamiać wariancję zmiennej X w wylosowanej próbie
z wariancją zmiennej X w zbiorowości, z której ta próba pochodzi.
W praktyce zawsze tak postępujemy. Trzeba jednak pamiętać, że zastępowanie
nieznanego odchylenia D(X) - odchyleniem standardowym w wylosowanej próbie
s(X) jest źródłem, zwykle niewielkiego, błędu w określeniu granic obszaru
krytycznego. Z podobnym problemem zetknęliśmy się przy estymacji
przedziałowej średniej w zbiorowości.
Kilka uwag na temat formułowania wniosku
Rezultatem postępowania weryfikacyjnego jest wybranie jednego z dwu
działań a0 - postępowanie tak, jak gdyby prawdziwą była hipoteza zerowa
lub a1 - postępowanie tak, jak gdyby prawdziwą była hipoteza konkurencyjna. Poza ściśle praktycznymi zastosowaniami weryfikacji hipotez
działania takie polegają zwykle na uznaniu jednej z hipotez za prawdziwą,
przyjęciu jej lub odrzuceniu w sposób mniej lub bardziej trwały, co ma
konsekwencje dla dalszego postępowanie poznawczego.
Takie przyjęcie lub odrzucenie hipotezy ani nie ma charakteru decyzji
ostatecznej ani niezawodnej. Kwestię ostateczności, trwałości przekonań
dotyczących hipotez w nauce należy rozważyć w innym miejscu. Tutaj zajmiemy się tylko oceną ich niezawodności. Inna jest ocena niezawodności
odrzucenia hipotezy zerowej i inna jej przyjęcia. Wynika to
z niesymetrycznego traktowania ryzyka popełnienia błędu I-go rodzaju
i II-go rodzaju.
Jeżeli w wyniku doświadczenia uzyskujemy wynik należący do obszaru
krytycznego, który to wynik zmusza nas do odrzucenia hipotezy zerowej,
wówczas musimy się liczyć z tym, że być może popełniamy błąd I-go rodzaju.
Bezwarunkowe prawdopodobieństwo popełnienia takiego błędu P(a1h0)
i warunkowe prawdopodobieństwo jego popełnienia przy założeniu,
że odrzucamy hipotezę zerową P(a1h0|a1) nie są nam znane. Znamy jedynie
prawdopodobieństwo warunkowe popełnienia błędu przy założeniu,
że prawdziwą jest hipoteza zerowa P(a1h0|h0). O wielkości tego ostatniego
prawdopodobieństwa sami zdecydowaliśmy.
Odrzucając hipotezę zerową jesteśmy zatem uprawnieni do przeprowadzenia
tylko takiego rozumowania:
a. Możliwy wynik doświadczenia należy albo do obszaru krytycznego K
albo do niego nie należy.
b. Jeżeli prawdziwa jest hipoteza zerowa, to prawdopodobieństwo
uzyskania takiego wyniku doświadczenia, który do obszaru krytycznego K
należy jest równe  i jest to prawdopodobieństwo małe.
c. Przeprowadziliśmy doświadczenie i uzyskaliśmy jeden z możliwych
wyników należących do obszaru K.
d. Uznajemy zatem założenie h0 za fałszywe i postępujemy tak, jak gdyby
prawdziwą była hipoteza konkurencyjna - odrzucamy hipotezę zerową.
e. Być może popełniamy błąd. Jeżeli tak, to jest to błąd I-go rodzaju.
f. Jakie jest prawdopodobieństwo tego, że h0 jest prawdziwa wtedy,
gdy wynik doświadczenia trafia do obszaru krytycznego, nie wiemy.
g. Wiemy, jakie jest prawdopodobieństwo tego, że wynik trafi do obszaru
krytycznego, gdy h0 jest prawdziwa.
h. Jeżeli popełniamy błąd, to popełniamy błąd w takiej sytuacji,
w której prawdopodobieństwo popełnienia błędu jest równe .
Możliwe jest jednak inne zakończenie doświadczenia. Jeżeli uzyskaliśmy
taki jego wynik, który nie należy do obszaru krytycznego, co skłoni nas do
utrzymania hipotezy zerowej, wówczas też musimy się liczyć z tym, że być
może popełniamy błąd - błąd II-go rodzaju. Nie znamy ani bezwarunkowego
prawdopodobieństwa popełnienia tego błędu P (a0h1), ani warunkowego jego
prawdopodobieństwa przy założeniu, że wynik doświadczenia skłania nas do
utrzymania hipotezy zerowej P(a0h1|a0).
Jezeli hipoteza konkurencyjna jest hipotezą prostą, wówczas znamy
warunkowe prawdopodobieństwo popełnienia tego błędu przy założeniu,
122
że hipoteza konkurencyjna jest prawdziwą P(a0h1|h1). Odrzucając hipotezę
konkurencyjną jesteśmy uprawnieni do przeprowadzenia takiego rozumowania:
a. Jeżeli prawdziwą jest hipoteza konkurencyjna h1, to prawdopodobieństwo uzyskania wyniku doświadczenia należącego do dopełnienia obszaru
krytycznego jest równe .
b. Wybierając ryzyko popełnienia błędu I-go rodzaju równe , zdecydowaliśmy się jednocześnie ponosić ryzyko popełnienia błędu II-go rodzaju
równe , czyli traktować to prawdopodobieństwo jako dostatecznie małe, by
w sytuacji, gdy wynik doświadczenia nie należy do obszaru krytycznego
raczej odrzucić hipotezę konkurencyjną, niż uznać, że jest ona prawdziwa,
tylko my mieliśmy pecha.
c. Być może odrzucając hipotezę h1 popełniamy błąd. Jeżeli tak, to jest
to błąd II-go rodzaju.
d. Jakie jest prawdopodobieństwo tego, że h1 jest prawdziwą wtedy, gdy
wynik doświadczenia nie trafia do obszaru krytycznego, nie wiemy.
e. Wiemy, jakie jest prawdopodobieństwo tego, że wynik doświadczenia
nie trafi do obszaru krytycznego, gdy prawdziwą jest hipoteza h1.
f. Jeżeli popełniamy błąd, to w takiej sytuacji, gdzie prawdopodobieństwo popełnienia błędu jest równe .
Jedyna różnica między tymi dwoma możliwymi zakończeniami doświadczenia
polega na tym, że o wielkości prawdopodobieństwa  związanego z trafieniem
wyniku do obszaru krytycznego i odrzuceniem hipotezy zerowej decyduje
wnioskujący, a wielkość prwdopodobieństwa  związanego z trafieniem wyniku
doświadczenia poza obszar krytyczny i odrzuceniem hipotezy konkurencyjnej
jest konsekwencją tamtej decyzji dotyczącej .
Jest inaczej, gdy hipoteza konkurencyjna jest hipotezą złożoną.
Wówczas, jeżeli jesteśmy zmuszeni przez wynik doświadczenia do utrzymania
hipotezy zerowej i odrzucenia tym samym hipotezy konkurencyjnej, nie
możemy z tym wiązać żadnego konkretnego prawdopodobieństwa popełnienia
błędu. Utrzymując hipotezę zerową być może popełniamy błąd II-go rodzaju,
nie znamy jednak żadnego prawdopodobieństwa związanego z tym błędem, ani
bezwarunkowego P(a0h1), ani żadnego z warunkowych: P(a0|h1), P(h1|a0).
Niemożność powiązania z wnioskiem a0 żadnego prawdopodobieństwa błędu jest
słabością tego wniosku. Podkreślamy ją i zamiast mówić "uznajemy hipotezę
zerową za prawdziwą" czy też "będziemy postępować tak, jak gdyby hipoteza
zerowa była prawdziwą", mówimy to samo lecz innymi słowami: "nie mamy
podstaw do odrzucenia hipotezy zerowej".
Powinniśmy tak samo postępować wtedy, gdy ryzyko popełnienia błędu
drugiego rodzaju  jest nam znane, lecz wedle naszej oceny jest duże.
Mając to wszystko na uwadze można sformułować taką radę praktyczną:
należy starać się tak konstruować hipotezy statystyczne weryfikowane
w badaniu reprezentacyjnym, by odrzucenie statystycznej hipotezy zerowej
stanowiło potwierdzenie dla sprawdzanej przez nas teorii dotyczącej
badanego fragmentu rzeczywistości. Wówczas z interesującym nas odrzuceniem
h0 potwierdzającym naszą teorię będziemy w stanie wiązać, wprawdzie tylko
warunkowe, prawdopodobieństwo popełnienia błędu i sami będziemy mogli
decydować o jego wysokości.
Weryfikacja hipotez nieparametrycznych
Wszystkie dotąd przedstawiane hipotezy były hipotezami parametrycznymi.
Drugą, zasdniczą ze względu na przedmiot, kategorię hipotez statystycznych
jest kategoria hipotez nieparametrycznych. Mówiąc najprościej:
Hipoteza nieparametryczna jest to taka hipoteza statystyczna, wedle
której rozkład jakiejś zmiennej lub jakichś zmiennych należy do określonej
w tej hipotezie klasy rozkładów. Hipoteza ta może lecz nie musi przypisywać wartości parametrowi lub parametrom tego rozkładu.
123
Dalej rozważymy trzy typy hipotez nieparametrycznych:
- hipotezy o stochastycznej za- lub nie- zależności zmiennych,
- hipotezy o równości lub nierowności rozkładów zmiennej w dwu lub
więcej różnych zbiorowościach,
- hipotezy wedle których rozkład zmiennej w zbiorowości jest lub nie
jest rozkładem należącym do pewnej klasy rozkładów.
Niech będą dwie zmienne losowe X i Y skokowe, X o w wartościach i Y
o k wartościach. Weryfikowane hipotezy niech głoszą: jedna, że zmienne te
są stochastycznie niezależne, a druga, że są one stochastycznie zależne.
Ponieważ druga z tych hipotez jest hipotezą złożoną a pierwsza prostą
(dwie zmienne mogą być zależne na wiele rozmaitych sposobów, a niezależne
tylko w jeden sposób). Pierwszą hipotezę uznamy za hipotezę zerową,
a drugą za konkurencyjną. Pamiętając definicję niezależności stochastycznej zapiszemy:
h0:

i

j
h1:

i,j
P (X=xi & Y=yj) = P(X=xi) * P(Y=yj)
P (X=xi & Y=yj) 
P(X=xi) * P(Y=yj)
Dla weryfikacji hipotezy o niezależności przeciwko hipotezie
o zależności przeprowadzamy doświadczenie polegające na wylosowaniu ze
zbiorowości będącej przedmiotem hipotez próby losowej liczacej
n elementów. W próbie tej można wyodrębnić podzbiory obiektów charakteryzujących się wszystkimi w*k kombinacjami wartości obu zmiennych.
Oznaczymy liczebności tych podzbiorów nij.
nij = N(X=xi & Y=yj)
Analogicznie oznaczymy pij odpowiednie prawdopodobieństwa występujące
w treści obu hipotez:
pij = P(X=xi & Y=yj)
Wartości prawdopodobieństw pij nie wynikają bezpośrednio z samej treści
hipotez (ani zerowej ani konkurencyjnej). Przy założeniu prawdziwości
hipotezy zerowej można jednak wyznaczyć je szacując uprzednio prawdopodobieństwa P(X=xi), dla i=1,2,..,w oraz P(Y=yj), dla j=1,2,..,k. Brzegowe
rozkłady prawdopodobieństw zmiennych X i Y szacujemy na podstawie danych
z próby:
P(X=xi)
=
N(X=xi)
,
n
P(Y=yj)
=
N(Y=yj)
,
n
dla i=1,2,..,w
dla j=1,2,..,k
Ponieważ suma prawdopodobieństw dla każdego z rozkładów brzegowych jest
równa 1, wystarczy oszacować w-1 prawdopodobieństw z rozkładu zmiennej X
oraz k-1 prawdopodobieństw z rozkładu zmiennej Y.
Dysponując oszacowaniami rozkładów brzegowych obu zmiennych X i Y
(prawdopodobieństwami P(X=xi) oraz P(Y=yj) ) możemy wyznaczyć łączny
rozkład zmiennych X i Y wedle hipotezy głoszącej, że zmienne te są stochastycznie niezależne.

i

j
P (X=xi & Y=yj)
= P(X=xi) * P(Y=yj)
=
N(X=xi)

n
*
N(Y=yj)

n
124
W ten sposób określony rozkład łączny nazywamy rozkładem hipotetycznym.
Prawdopodobieństwa, które go tworzą nazywamy prawdopodobieństwami hipotetycznymi. Natomiast iloczyny liczebności próby n i prawdopodobieństw
hipotetycznych nazywamy liczebnościami hipotetycznymi i oznaczamy hij:
hij = n * P(X=xi & Y=yj | h0)
Liczebnością hipotetyczną podzbioru próby jest iloczyn liczebności
całkowitej próby n i prawdopodobieństwa tego, że zmienna lub zmienne przyjmą wartość lub wartości pozwalające zaliczyć obiekt do tego podzbioru,
gdy prawdopodobieństwa te wyznaczone są w zgodzie z treścią hipotezy zerowej.
W omawianej przez nas sytuacji prawdopodobieństwa wyznaczane są
w zgodzie z treścią hipotezy zerowej na podstawie także pewnych dodatkowych informacji.
Zmienną będącą sumą kwadratów różnic między zaobserwowanymi liczebnościami podzbiorów próby i ich liczebnościami hipotetycznymi dzielonych
przez odpowiednie liczebności nazywamy zmienną 2;
2 =
gdzie
(ni-hi)2
 
i
hi
ni - zaobserwowana liczebność i-tego podzbioru próby,
hi - hipotetyczna liczebność i-tego podzbioru próby,
a sumowanie przebiega po wszystkich podzbiorach
próby wyodrębnionych ze względu na wartości jakiejś zmiennej lub zmiennych.
Zmienna 2 jest zmienną losową określoną w zbiorze prób czyli
statystyką z próby.
Rozkład zmiennej 2 przy założeniu, że hipoteza, zgodnie z którą
wyznaczono liczebności hipotetyczne, jest prawdziwa, jest zbieżny do
rozkładu 2 przy liczebności próby n rosnącej nieograniczenie.
Dla dużych prób przyjmuje się, że statystyka z próby, zmienna 2 ma
rozkład 2 jeżeli tylko hipoteza zerowa jest prawdziwa. Stosując najostrzejsze z postulowanych przez rozmaitych autorów kryterium, można przyjąć, że jeżeli tylko żadna z liczebności hipotetycznych nie jest mniejsza
od 10, to próba jest dostatecznie duża, by traktować rozkład warunkowy
statystyki 2 przy założeniu, że prawdziwą jest hipoteza zerowa, jako
rozkład 2.
Liczbę stopni swobody tego rozkładu oznaczamy r i znajdujemy odejmując
od liczby składników sumy 1 i minimalną liczbę parametrów, które trzeba
było niezbędnie oszacować, by na podstawie treści hipotezy zerowej
wyznaczyć przy ich pomocy prawdopodobieństwa a następnie liczebności hipotetyczne.
Do weryfikacji hipotezy o niezależności dwu zmiennych przeciwko hipotezie o ich zależności posługujemy się zmienną 2, którą w tej sytuacji
zapisujemy w sposób następujący:
w
2 =

i=1
(nij-hij)2
 
j=1
hij
k
125
gdzie
hij
N(X=xi)
=  *
n
N(Y=yj)

n
w jest liczbą wartości zmiennej X,
k jest liczbą wartości zmiennej Y,
nij = N(X=xi&Y=yj)
Jeżeli tylko każda z liczebności hipotetycznych hij jest co najmniej
równa 10, to statystyka z próby 2 ma przy założeniu, że prawdziwą jest
hipoteza zerowa, rozkład 2 o r stopniach swobody.
r = w * k - 1 - (w-1) - (k-1) =
(w-1) * (k-1)
Wartość statystyki 2 traktujemy jako wynik doświadczenia służącego do
weryfikacji hipotez. Przyjmiemy bez dodatkowych uzasadnień, że raczej duże
wartości tej zmiennej świadczyć będą przeciwko hipotezie zerowej, a małe
na jej rzecz. Skonstruujemy zatem prawostronny obszar krytyczny. Granicę
tego obszaru krytycznego odczytamy z tablicy przedstawiającej dystrybuantę
zmiennej o rozkładzie 2 i r stopniach swobody. Będzie to wielkość 2,r
taka, że prawdopodobieństwo tego, iż zmienna mająca rozkład 2 o r stopniach swobody przyjmie wartość większą od niej jest równe .
P (2 > 2,r) = 
lub
P (2  2,r) = 1-
Zgodnie z dość niefortunną tradycją posługujemy się tutaj symbolem 2
dla oznaczenia rozmaitych obiektów, są to:
a. wcześniej zdefiniowana statystyka z próby będąca funkcją liczebności
hipotetycznych hij i zaobserwowanych w próbie nij,
b. jakaś zmienna mająca rozkład 2,
c. teoretyczny rozkład 2.
W dwu ostatnich równościach występowała zmienna mająca rozkład 2.
Nasza statystyka z próby ma rozkład 2 wtedy, gdy prawdziwą jest hipoteza
zerowa, gdy próby pochodzą ze zbiorowości, w której prawdziwą jest hipoteza zerowa. Zatem o statystyce 2 możemy napisać, że
P (2 > 2,r | h0) = 
Przy weryfikacji hipotez o niezależności posługujemy się następującą
funkcją decyzyjną:
Jeżeli uzyskana w wylosowanej próbie wartość statystyki 2 jest większa
od wartości krytycznej 2,r, wówczas odrzucamy hipotezę zerową. Jeżeli
natomiast uzyskana w wylosowanej próbie wartość statystyki 2 nie jest
większa od wartości krytycznej, wówczas utrzymujemy hipotezę zerową. Nie
znając ryzyka popełnienia błędu II-go rodzaju (hipoteza komkurencyjna jest
hipotezą złożoną) powinniśmy raczej mówić, że nie mamy podstaw do odrzucenia hipotezy zerowej.
126
Ponieważ zmienna 2 ma rozkład ciągły, warunkowe prawdopodobieństwo 
popełnienia błędu I-tego rodzaju przy posługiwaniu się obszarem krytycznym
(2,r, ) optymalnym dla maksymalnego prawdopodobieństwa popełnienia
tego błędu równego * jest równe temu właśnie maksymalnemu prawdopodobieństwu *.
Przy weryfikacji dwu pozostałych typów par hipotez nieparametrycznych,
o równości rozkładów i o rozkładzie, postępujemy w sposób analogiczny.
Po sformuowaniu hipotez zerowej i konkurencyjnej, ustaleniu maksymalnego
prawdopodobieństwa popełnienia błędu I-go rodzaju, który okaże się być
poziomem istotności optymalnej funkcji decyzyjnej, ustalamy liczebność
próby n i losujemy próbę. Następnie, jeżeli jest to konieczne, szacujemy
z danych uzyskanych z wylosowanej próby wartości parametrów niezbędnych
dla wyznaczenia przy użyciu hipotezy zerowej liczebności hipotetycznych.
Dysponując liczebnościami hipotetycznymi i zaobserwowanymi w próbie
obliczamy wartość statystyki 2 w wylosowanej próbie. Jednocześnie
sprawdzamy, czy liczebności hipotetyczne są dostatecznie duże, by
spełnione było twierdzenie o rozkładzie tej statystyki. Znając liczbę
szacowanych parametrów i liczbę składników sumy, którą utworzyliśmy
obliczając wartość statystyki, wyznaczamy liczbę stopni swobody r. Znając
liczbę stopni swobody r i prawdopodobieństwo  odczytujemy w tablicy
dystrybuanty rozkładu 2 wartość krytyczną  2,r. Jeżeli obliczona wartość statystyki 2 jest większa od odczytanej wartości krytycznej, odrzucamy hipotezę zerową. W przeciwnym przypadku nie mamy podstaw do jej
odrzucenia.
Cztery przykłady liczbowe zilustrują zastosowanie tego tzw. testu 2 do
weryfikacji hipotez nieparametrycznych.
Weryfikacja hipotezy o niezależności. Hipoteza zerowa głosi, że dwie
zmienne X i Y są w zbiorowości niezależne stochastycznie, hipoteza konkurencyjna głosi, że tak nie jest. Przyjmijmy dopuszcalną wartość
warunkowego prawdopodobieństwa popełnienia błędu i-go rodzaju, która tu
będzie równa poziomowi istotności * =  = 0.01. Doświadczenie, które
posłuży do weryfikacji hipotez niech polega na wylosowaniu ze zbiorowości
próby liczącej 80 elementów.
Pobrano próbę, uzyskano następujący łączny rozkład zmiennych X i Y
w próbie:
tablica 7
Łączny rozkład zmiennych X i Y w próbie
(liczebności zaobserwowane czyli empiryczne)
Y 
0

1


0  25
 23


1 
7
 25


 32
 48

48
32
80
Szacujemy jedno z dwu prawdopodobieństwo określających rozkład zmiennej X
w zbiorowości i także jedno z dwu prawdopodobieństw określających rozkład
w zbiorowości zmiennej Y.
P(X = 0) = 32/80 = 0.4
P(Y = 1) = 48/80 = 0.6
Stąd, korzystając z treści hipotezy zerowej, otrzymujemy prawdopodobieństwa hipotetyczne tworzące łączny rozkład stochastycznie niezależnych
zmiennych X i Y oszacowany na podstawie treści h0 z pomocą dwu wcześniej
oszacowanych parametrów.
127
Łączny rozkład zmiennych X i Y wedle hipotezy zerowej
(prawdopodobieństwa hipotetyczne)
Y  0
 1


0  0.24  0.36  0.6

1  0.16  0.24  0.4

 0.4
 0.6
 1.0
Mnożąc prawdopodbieństwa hipotetyczne przez liczebność całej próby n = 80
trzymujemy liczebności hipotetyczne hij.
tablica 9
Łączny rozkład zmiennych X i Y wedle hipotezy zerowej
(liczebności hipotetyczne)
Y 
0

1


0  19.2  25.8  48

1  12.8  19.2  32


32
 48
 80
Dysponujemy teraz danymi umożliwiającymi obliczenie wartości statystyki
2
 w wylosowanej próbie:
2 =
=
(25-19.2)2
 
19.2
1.752
+
(23-25.8)2
 
25.8
+
1.168
+
( 7-12.8)2

12.8
+
+
2.628
+
(25-19.2)2
 =
19.2
1.752
= 7.3
Suma miała 4 składniki - w próbie wyodrębniliśmy 4 podzbiory odpowiadające czterem możliwym kombinacjom wartości zmiennych X i Y. Szacowano
wartości dwu parametrów. Zatem liczba stopni swobody jest równa 4-1-2 = 1.
W tablicy dystrybuanty zmiennej o rozkładzie 2 i jednym stopniu swobody
odczytujemy graniczną wartość prawostronnego obszaru krytycznego 2,r.
Żadna z liczebności hipotetycznych nie była mniejsza od 10. Zatem
przyjmujemy, że badana przez nas statystyka z próby ma przy założeniu
prawdziwości hipotezy zerowej rozkład 2 o jednym stopniu swobody.
Prawdopodobieństwo tego, że przy założeniu h0 przekroczy ona wartość 6.635
jest równe 0.01. Wartość statystyki w wylosowanej próbie przekroczyła tę
wartość krytyczną. Zatem hipotezę odrzucamy, licząc się z warunkowym prawdopodobieństwem popełnienia błędu I-go rodzaju równym 0.01.
Weryfikacja hipotezy o równości dwu rozkładów. Hipoteza zerowa głosi,
że rozkład zmiennej X w jakiejś zbiorowości A jest taki sam jak rozkład
zmiennej X w innej zbiorowości B. Hipoteza konkurencyjna głosi,
że rozkłady te nie są identyczne. Posługując się symboliką prawdopodobieństw warunkowych zapiszemy obie hipotezy:
128
h0:

i
P (X=xi | A) = P (X=xi | B)
h1:

i
P (X=xi | A)  P (X=xi | B)
Przyjmijmy poziom istotności  = 0.01. Dla weryfikacji hipotez pobierzemy
dwie próby losowe, jedną ze zbiorowości A, ta niech liczy 80 elementów,
drugą liczącą 120 elementów ze zbiorowości B. Próby zostały pobrane.
Rozkłady zmiennej X w obu próbach przedstawia tablica:
tablica 10
Rozkłady zmiennej X w próbach losowych ze zbiorowości A i B
(liczebności empiryczne)
xi  nAi
 nBi


x1  15
 35


x2  25
 25


x3  25
 35


x4  15
 25


 80
 120

nAi
nBi
- liczebność w próbie ze zbiorowości A,
- liczebność w próbie ze zbiorowości B.
Hipoteza zerowa nie mówi, jaki jest wspólny dla obu zbiorowości A i B
rozkład zmiennej X, poprzestaje na stwierdzeniu, że jest on w obu
zbiorowościach taki sam. Jeżeli hipoteza zerowa jest prawdziwa, to możemy
funkcję prawdopodobieństawa tego wspólnego dla obu zbiorowości rozkładu
zmiennej X szacować na podstawie obu prób połączonych w jedną.
tablica 11
Rozkład zmiennej X wyznaczony dla obu prób połączonych w jedną
xi 
ni


x1 
50


x2 
50


x3 
60


x4 
40


 200

Chcąc na podstawie hipotezy zerowej wyznaczyć najpierw prawdopodobieństwa a później liczebności hipotetyczne, należy najpierw oszacować
trzy różne prawdopodobieństwa ze wspólnego dla obu zbiorowościu rozkładu
zmiennej X. Szacujemy je bez trudu z rozkładu liczebności w połączonych
próbach.
129
P (X=x1)
P (X=x2)
P (X=x3)
= .25
= .25
= .30
Wedle hipotezy zerowej rozkłady zmiennej X w obu zbiorowościach są takie
same. Przedstawia je następna tablica.
tablica 12
Rozkłady zmiennej X w obu zbiorowościach oszacowane
z uwzględnieniem treści hipotezy zerowej
(prawdopodobieństwa hipotetyczne)
xi  pAi
 pBi


x1  0.25  0.25 

x2  0.25  0.25 

x3  0.30  0.39 

x4  0.20  0.20 

 1.00  1.00 
Mając prawdopodobieństwa hipotetyczne obliczamy hipotetyczne liczebności mnożąc te prawdopodobieństwa przez liczebności odpowiednich prób.
tablica 13
Rozkłady zmiennej X w próbach ze zbiorowości A i B wedle hipotezy zerowej
(liczebności hipotetyczne)
xi  hAi

hBi 

x1  20

30


x2  20

30


x3  24

36


x4  16

24


 80
 120

Następnie obliczamy wartość statystyki 2
2 =
obu prób łącznie:
(nij-hij)2
   =
i j
hij
(15-20)2
= 
20
+
(25-20)2
 +
20
(25-24)2
 +
24
(15-16)2
 +
16
(35-30)2
 +
30
130
+
(25-30)2
 +
30
(35-36)2
 +
36
(25-24)2
 = 4.34
24
Suma miała 8 składników, oszacowano wartość 3 parametrów. Liczba stopni
swobody r jest zatem równa 8-1-3=4. Żadna z liczebności hipotetycznych
nie była mniejsza od 10. Zatem statystyka z próby przy założeniu, że h0
jest prawdziwa, ma rozkład 2 o 4 stopniach swobody. W tablicy przedstawiającej dystrybuantę zmiennej o rozkładzie 2 i 4 stopniach swobody znajdujemy wartość 2 0.01, 4 = 13.277 wyznaczającą prawostronny obszar krytyczny. Ponieważ obliczona dla wylosowanych prób wartość statystyki
2=4.34 nie jest większa od wartości krytycznej i nie należy do obszaru
krytycznego, nie mamy podstaw do odrzucenia hipotezy zerowej, wedle której
rozkład zmiennej X w obu zbiorowościach A i B jest taki sam. Warunkowe
prawdopodobieństwo popełnienia błędu II-go rodzaju, który być może
popełniamy, nie jest znane, gdyż hipoteza konkurencyjna nie jest hipotezą
prostą.
Weryfikacja hipotezy o rozkładzie. Skonstruowano mechanizm do rzucania
monetami. Rzuca on trzema monetami jednocześnie. Wedle hipotezy zerowej
mechanizm działa zgodnie ze schematem Bernoulliego i moneta jest monetą
rzetelną. Hipoteza konkurencyjna głosi, że tak nie jest. Przyjmijmy, że
przedmiotem hipotezy jest zbiorowość złożona z wszystkich możliwych do
wykonania przy użyciu tego mechanizmu potrójnych rzutów monetami.
Hipotezy możemy zapisać stosując standardową symbolikę:
h0:
p=0.5
&
P (K=k | n=3, p)
=
n
  * pk * (1-p)(n-k)
k
h1: nie jest prawdą, że h0
Niech poziom istotności  = 0.01.
Dokonano 120 potrójnych rzutów monetami za pomocą testowanego mechanizmu. Rzuty te będziemy traktować jako próbę losową ze zbioru wszystkich
możliwych do wykonania z pomocą tej maszyny rzutów. Uzyskano następujące
wyniki:
tablica 14
Rozkład zmiennej K "liczba reszek w rzucie trzema monetami"
w próbie złożonej ze 120 takich rzutów
(liczebności empiryczne)


ki
ni

0
16
1
36
2
40
3
28

120
Prawdopodobieństwo uzyskania za pomocą mechanizmu serii zawierających
dokładnie k reszek można obliczyć na podstawie samej treści hipotezy zerowej bez szacowania jakichkolwiek parametrów.
131
tablica 15
Rozkład zmiennej K wedle hipotezy zerowej
(prawdopodobieństwa hipotetyczne)


ki
pi

0
0.125
1
0.375
2
0.375
3
0.125

1.000
Z prawdopodobieństw hipotetycznych obliczymy liczebności hipotetyczne
mnożąc te prawdopodobieństwa przez liczebność próby n=120.
tablica 16
Rozkład zmiennej K w próbie wedle hipotezy zerowej
(liczebności hipotetyczne)
ki
hi


0
15
1
45
2
45
3
15


120
Wartość statystyki 2 obliczamy jako sumę czterech składników:
2 =
=
ni-hi)2
  =
i=1
hi
16-15)2

15
+
(36-45)2
 +
45
(40-45)2
 +
45
(28-15)2
 =
15
13.69
Ponieważ nie szacowaliśmy żadnego parametru, liczba stopni swobody
r=4-1-0=3. Żadna z liczebności hipotetycznych nie była mniejsza od 10.
Zatem przyjmujemy, że statystyka z próby ma przy załóżeniu prawdziwości
hipotezy zerowej rozkład 2 o 3 stopniach swobody. Graniczna wartość
prawostronnego obszaru krytycznego 2 0.01, 3 = 11.345. Ponieważ uzyskana
wartość statystyki 2 = 13.69 jest większa od wartości krytycznej i trafia
do obszaru krytycznego, hipotezę zerową należy odrzucić: albo mechanizm
nie działa zgodnie ze schematem Bernoulliego, albo monety nie są rzetelne.
Warunkowe prawdopodobieństwo niesłusznego odrzucenia hipotezy zerowej przy
stosowaniu przyjętej funkcji decyzyjnej wynosi 0.01.
Weryfikacja hipotez o rozkładzie z szacowaniem parametrów tego rozkładu.
Przykład ten będzie modyfikacją poprzedniego. Załóżmy, że nie wiemy, czy
krążki, którymi rzuca nasz mechanizm są rzetelnymi monetami. Są natomiast
identyczne. Interesuje nas, czy mechanizm działa zgodnie ze schematem
Bernoulliego. Hipoteza zerowa nie będzie zatem specyfikowała wartości
parametru p - prawdopodobieństwa uzyskania "reszki" za pomocą rzucanej
"monety". Treść obu hipotez zapiszemy w sposób następujący.
132
h0:
P (K=k | n=3, p) =
n
  * pk * (1-p)(n-k)
k
h1: nie jest prawdą, że h0
Jak we wszystkich poprzednich przykładach zastosowania testu 2 przyjmiemy
poziom istotności  = 0.01.
Dla weryfikacji hipotez posłużymy się wynikami doświadczenia przedstwionymi w poprzednim przykładzie (tablica 14). Chcąc obliczyć prawdopodobieństwa a następnie liczebności hipotetyczne, należy najpierw oszacować
prawdopodobieństwo p uzyskania reszki za pomocą "monet", którymi rzuca
testowany mechanizm. W 120 rzutach trzema monetami uzyskano 200 razy
reszkę. Pozwala to oszacować p na podstawie wyników 360 pojedyńczych
rzutów.
p
=
16*0 + 36*1 + 40*2 + 28*3
 =
120 * 3
200

360
=
5
 = 0.555...
9
Prawdopodobieństwo uzyskania za pomocą mechanizmu serii zawierającej
dokładnie k reszek można obliczyć na podstawie treści hipotezy zerowej
podstawiając w miejsce nieznanej wartości parametru p jego wartość (5/9)
oszacowaną przy pomocy wykonanego doświadczenia.
tablica 17
Rozkład zmiennej K wedle hipotezy zerowej
(prawdopodobieństwa hipotetyczne)


ki
pi

0
0.0878
1
0.3292
2
0.4115
3
0.1715

1.0000
Dysponując tymi prawdopodobieństwami obliczamy liczebności hipotetyczne
mnożąc prawdopodobieństwa hipotetyczne przez liczebność próby n=120.
tablica 18
Rozkład zmiennej K w próbie na podstawie hipotezy zerowej
(liczebności hipotetyczne)


ki
hi

0
10.535
1
39.506
2
49.383
3
20.576

120
Następnie obliczamy wartość statystyki 2 dla przeprowadzonej serii
doświadczeń:
133
2 =
2
4 (ni-hi)
  =
i=1
hi
=
(16-10.535)2
 +
10.535
=
7.61
(36-39.506)2
 +
39.506
(40-49.383)2
 +
49.383
(28-20.576)2
 =
20.576
Suma ma 4 składniki. Szacowaliśmy wartość jednego parametru. Liczba
stopni swobody jest zatem równa r = 4-1-1 = 2. Żadna z liczebności hipotetycznych nie była mniejsza od 10. Zatem możemy przyjąć, że statystyka
z próby ma przy założeniu prawdziwości hipotezy zerowej rozkład 2
o 2 stopniach swobody. Wartość graniczna prawostronnego obszaru krytycznego 2 0.01, 2 = 9.210. Ponieważ uzyskana wartość statystyki 7.61 nie jest
większa od wartości krytycznej 9.21, nie mamy podstaw do odrzucenia hipotezy zerowej, wedle której mechanizm działa zgodnie ze schematem
Bernoulliego, jeżeli dopuszczamy nierzetelność monet, którymi się
posługujemy. Ryzyko błędu II-go rodzaju polegającego właśnie na
niesłusznym utrzymaniu hipotezy zerowej nie jest jednak znane, gdyż hipoteza konkurencyjna jest hipotezą złożoną.
Omawiając weryfikację hipotez nieparametrycznych przy użyciu statystyki
z próby mającej rozkład 2 skoncentrowaliśmy się na próbach technicznych
pomijając kwestie teoretyczne, dotyczące wyboru optymalnej funkcji decyzyjnej i warunkowych rozkładów statystyki z próby. Tak jednak, choć zwykle
bardziej skrótowa, przedstawia się w literaturze metody weryfikacji rozmaitych hipotez statystycznych. Opis metody weryfikacji zawiera zawsze:
- charakterystykę obu weryfikowanych hipotez,
- definicję statystyki z próby czyli doświadczenia służącego do weryfikacji hipotez,
- twierdzenie o rozkładzie tej statystyki przy założeniu, że prawdziwą
jest hipoteza zerowa,
- regułę pozwalającą na ustalenie granic obszaru krytycznego dla tej
statystyki przy założonym ryzyku popełnienia błędu I-go rodzaju.
Takie techniczne opisy weryfikacji hipotez pomijają kwestię interpretacji jej rezultatów i nie zawierają uzasadnienia dla optymalności funkcji
decyzyjnej. Nie przypomina się też tego, na czym ta optymalność polega.
Jest tak dlatego, że interpretacje te i uzasadnienia są zasadniczo identyczne dla wszystkich weryfikacji hipotez prowadzonych metodą
Neymana-Pearsona.