mini-skrypcie

Transkrypt

mini-skrypcie

Jędrzej Potoniec
Materiały do ćwiczeń z przedmiotu metody probabilistyczne
Rozdział 1
Pojęcia podstawowe
W niniejszym rozdziale przedstawione zostaną podstawowe pojęcia, bez których ciężko w ogóle
mówić o rachunku prawdopodobieństwa czy wykonać choćby najprostsze obliczenia.
1.1. Kombinatoryka
Na początek kilka nieformalnych definicji:
zbiór nieuporządkowana kolekcja dowolnych, różnych obiektów;
multizbiór nieuporządkowana kolekcja dowolnych, niekoniecznie różnych obiektów;
ciąg uporządkowana kolekcja dowolnych obiektów.
Przykład
Jeżeli zdejmując kubki z suszarki wstawia się je do szafki bez konkretnego uporządkowania
powstaje zbiór kubków : nie charakteryzuje się on żadnym konkretnym ich ułożeniem. Inaczej
gdy stawia się te kubki na odsłoniętą półkę w kolejności od dużych do małych. Można wtedy
mówić o ciągu kubków, ponieważ kubki te są uporządkowane. Przestawiając kubki w szafce ciągle
dysponuje się tym samym zbiorem kubków, ponieważ interesująca jest wyłącznie obecność bądź
nieobecność kubka, natomiast przestawiając kubki na półce otrzymuje się inny ciąg, ponieważ
zaburzony zostaje ich porządek. Co więcej, jeżeli przyniesie się ze sklepu sześć identycznych
kubków i wstawi do szafki, przekształci się zbiór w multizbiór, ponieważ nie wszystkie obiekty
w nim będą parami różne.
Kobinatoryka zajmuje się obliczaniem liczby możliwych konstrukcji różnych zbiorów i ciągów
z zadanego zbioru elementów. Trzy podstawowe możliwości:
permutacja Liczba uporządkowań zbioru bądź multizbioru, inaczej mówiąc liczba możliwych
przekształceń zbioru (multizbioru) w ciąg.
wariacja Liczba ciągów o zadanej długości, które można zbudować z elementów danego zbioru.
kombinacja Liczba zbiorów o zadanej długości, które można zbudować z elementów danego
zbioru.
Najbardziej podstawowym sposobem obliczania w kombinatoryce jest reguła iloczynu. Jeżeli
do wykonania jest k czynności, pierwszą z nich można wykonać na n1 sposobów, drugą na n2 ,
2
Rozdział 1. Pojęcia podstawowe
. . . , k-tą na nk sposobów, to wszystkich możliwych sposobów wykonania tych czynności jest
n1 · n2 · . . . · nk =
k
Y
ni
i=1
Przykład
Niech dane będzie pudełko z kulami bilardowymi o numerach 1, 2, 3. Czynnością, która będzie
wykonywana będzie wyciągnięcie na ślepo kuli, zostanie ona powtórzona k = 3 razy. Stosując
regułę iloczynu od razu wiadomo, że liczba możliwych kolejności wyciągnięć (czyli uporządkowań
tych kul) wynosi n1 n2 n3 . Łatwo zaobserwować, że n1 = 3, ponieważ w pudełku na początku są
trzy kule, można więc wyciągnąć jedną z trzech kul. W wyniku tego działania pierwsza czynnośc
jest wykonana i w pudełku zostają tylko dwie kule (acz nie wiadomo jakie, ponieważ w poprzednim
kroku wyciągnięto dowolną z trzech kul). Rozumując analogicznie dochodzi się do wniosku, że
n2 = 2 oraz n3 = 1. Pozwala to na obliczenie, że możliwych kolejności wyciągnięcia tych kul było
6, co łatwo sprawdzić: (1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2), (3, 2, 1).
Reguła iloczynu stanowi podstawę wyprowadzenia ogólnych wzorów na liczność poszczególnych
obiektów kombinatorycznych:
permutacja bez powtórzeń Jest to liczba uporządkowań n-elementowego zbioru
n! = n · (n − 1) · (n − 2) · . . . · 2 · 1
Łatwo zaobserwować, że jest to dokładne uogólnienie przedstawionego powyżej przykładu:
na pierwszym miejscu uporządkowania umieszcza się jeden z n elementów, na drugim jeden
z pozostałych n − 1 elementów, na trzecim jeden z pozostałych n − 2 elementów, . . . , na
(n − 1)-wszym miejscu jeden z pozostałych 2 elementów, a w końcu na n-tym miejscu ostatni
element, już bez możliwości jakiegokolwiek wyboru.
permutacja z powtórzeniami Jest to liczba uporządkowań n = n1 +n2 +. . .+nk -elementowego
multizbioru, w którym i-ty element powtarza się ni krotnie:
n!
n1 !n2 ! · . . . · nk !
Ten wzór również łatwo uzasadnić korzystając z reguły iloczynu: n! jest liczbą możliwych
uporządkowań zbioru n różnych elementów, natomiast ni ! jest liczbą nierozróżnialnych uporządkowań i-tego elementu powtarzającego się w multizbiorze ni razy. W takim razie: pierwszy
element zmniejsza liczbę uporządkowań n1 !-krotnie, drugi n2 !-krotnie itd.
Przykład
Niech dany będzie wyraz matematyka. Litery tworzące to słowo stanowią następujący multizbiór: {a, a, e, k, k, m, m, t, t, y}. Występuje w nim n = 10 elementów, ale tylko k = 6 różnych.
n1 = 2, n2 = 1, n3 = 2, n4 = 2, n5 = 2, n6 = 1. Liczba możliwych uporządkowań tego zbioru
wynosi
10!
10!
=
= 226800
2!1!2!2!2!1!
16
spośród których jednym jest uporządkowanie matematyka.
3
wariacja bez powtórzeń Liczba wyborów podciągu k-elementowego ze zbioru n-elementowego
(oczywiście k ¬ n)
n · (n − 1) · . . . · (n − k + 1)
Rozumowanie, prowadzące do tego wzoru jest analogiczne jak dla permutacji bez powtórzeń,
jednak należy zatrzymać się po wykonaniu k wyborów, a nie kontynuować aż do n.
Przykład
Dysponując n = 30 zawodnikami, ile jest możliwych sposobów obsadzenia trzymiejscowego
(k = 3) podium? Pierwsze miejsce można wybrać oczywiście spośród 30 = n zawodników
(a więc na 30 sposobów), drugiego spośród pozostałych 29 = n − 1, a trzeciego spośród
pozostałych 28 = n − k + 1. Ostatecznie otrzymuje się 30 · 29 · 28 = 24360.
wariacja z powtórzeniami Liczba wyborów podciągu k-elementowego ze zbioru n-elementowego,
w którym możliwe jest klonowanie elementów (albo, inaczej, elementy zwracane są do puli
początkowej i mogą zostać ponownie wybrane).
nk
Łatwo zaobserwować, że jako pierwszy element można wybrać jeden spośród n, jako drugi
jeden spośród n, . . . , jako k-ty jeden spośród n, ponieważ za każdym razem element nie jest
usuwany ze zbioru.
Przykład
Dysponując grupą n = 30 studentów i k = 6 zadaniami do rozwiązania (jedno po drugim),
na ile sposobów można wybrać studentów do rozwiązywania zadań? Oczywiście polega to na
sześciokrotnym wyborze jednego studenta spośród trzydziestu, uzyskuje się więc nk = 306
możliwych wyborów. Oczywiście, możliwym jest, że za każdym razem będzie to ten sam
student.
kombinacja bez powtórzeń Liczba wyborów k-elementowego podzbioru ze zbioru n-elementowego
n
n!
n · (n − 1) · . . . · (n − k + 1)
=
=
k
k!(n − k)!
k!
Łatwo zauważyć w ostatnim przekształceniu wzoru, że w liczniku jest liczba wariacji bez
powtórzeń, natomiast w mianowniku liczba permutacji bez powtórzeń. Inaczej: dokonuje
się wyboru podciągu, ale ponieważ nie istotna jest kolejność, więc ignoruje się ich różność
wynikającą z różnego uporządkowania elementów.
Przykład
Dysponując grupą n = 30 studentów na ile sposobów można wybrać spośród nich k = 3
reprezentantów na uczelniany pokaz warzenia piwa? Kolejność wyboru oczywiście nie ma
znaczenia.
30
3
=
30!
28 · 29 · 30
=
= 4060
3!27!
2·3
4
1.2. Zdarzenia i prawdopodobieństwo
Pojęciami pierwotnymi w rachunku prawdopodobieństwa są pojęcia zdarzenia elementarnego,
oznaczanego często przez ω oraz przestrzeni zdarzeń elementarnych Ω. Intuicyjnie, zdarzenie
elementarne reprezentuje pojedynczy możliwy wynik eksperymentu, natomiast przestrzeń zdarzeń
stanowi zbiór wszystkich możliwych wyników tego eksperymentu i jest, być może, nieskończona.
Przykład
Poniżej przedstawione są trzy możliwe warianty liczności przestrzeni zdarzeń elementarnych:
skończona, nieskończona przeliczalna, nieskończona nieprzeliczalna.
rzut kostką Niech dana będzie sześciościenna kostka do gry. Wynik pojedynczego rzutu taką
kostką będzie stanowił zdarzenie elementarne, np. ω1 odopowiada zdarzeniu wyrzucono jedno
oczko, a ω4 zdarzeniu wyrzucono cztery oczka. Przestrzeń zdarzeń elementarnych Ω jest
skończona i zawiera sześć zdarzeń: Ω = {ω1 , ω2 , ω3 , ω4 , ω5 , ω6 }.
losowanie ciągu Niech dana będzie moneta, na której po rzuceniu może wypaść orzeł albo reszka.
Eksperyment polega na rzucaniu monetą tak długo, aż wypadnie orzeł. Zdarzenia elementarne
wyglądają wtedy w następujący sposób: ω1 odpowiada zdarzeniu orzeł wypadł w pierwszym
rzucie, ω54 zdarzeniu orzeł wypadł w 54-tym rzucie. Przestrzeń zdarzeń elementarnych jest
nieskończona, ale przeliczalna:
Ω = {ωi |i ∈ N}
gra w darta Gra w darta polega na rzucaniu lotkami do niewielkiej planszy. Zdarzeniem elementarnym jest wbicie się lotki w konkretny punkt tarczy. Oczywiście, ciężko wyobrazić sobie
przypisanie tym punktom jakiś numerów czy adresów. Przestrzeń zdarzeń elementarnych jest
nieprzeliczalna, ponieważ każde zdarzenie elementarne odpowiada jednemu punktowi koła.
Zdarzeniem nazywa się dowolny podzbiór przestrzeni zdarzeń elementarnych gdy przestrzeń
ta jest co najwyżej przeliczalna1 bądź niektóre, „porządne” podzbiory tej przestrzeni2 .
Jako, że zdarzenia są zbiorami, można dokonywać na nich takich operacji jak na zbiorach:
iloczyn (koniunkcja) A ∩ B = {ω ∈ Ω|ω ∈ A ∧ ω ∈ B}, co należy rozumieć jako zachodzi
zdarzenie A oraz zdarzenie B.
suma (dysjunkcja, alternatywa) A ∪ B = {ω ∈ Ω|ω ∈ A ∨ ω ∈ B}, co należy rozumieć jako
zachodzi zdarzenie A lub zdarzenie B.
różnica A\B = {ω ∈ Ω|ω ∈ A ∧ ω 6∈ B}, co nalezy rozumieć jako zachodzi zdarzenie A i nie
zachodzi zdarzenie B.
pociąganie A ⊆ B, co należy rozumieć jako jeżeli zachodzi A, to zachodzi też B.
wykluczanie A∩B = ∅, co należy rozumieć jako zdarzenia A i B nie mogą zachodzić jednocześnie
bądź zachodzi co najwyżej jedno ze zdarzeń A, B.
1
2
To znaczy, że jest skończona albo nieskończona przeliczalna.
Nie należy jednak się tym istotnie przejmować, gdyż w przypadku podstawowych problemów, które będą
rozważane na zajęciach, kwestia podzbiorów niebędących zdarzeniami nie występuje.
5
Przykład
Kontynuując wcześniej przedstawiony przykład z rzutem kostką można zaproponować takie
zdarzenia:
— wyrzucenie trzech lub pięciu oczek A = {ω3 , ω5 };
— wyrzucenie parzystej liczby oczek B = {ω2 , ω4 , ω6 };
— wyrzucenie nieparzystej liczby oczek C = B 0 .
Ciało zdarzeń Z (σ-ciało zdarzeń) to taki zbiór zdarzeń, że:
— Zdarzenie pewne należy do ciała zdarzeń
Ω∈Z
— Zdarzenie przeciwne do należącego do ciała zdarzeń też do niego należy
A ∈ Z =⇒ Ω\A = A0 ∈ Z
— Suma dowolnej, co najwyżej przeliczalnej, liczby zdarzeń należących do Z również należy
do Z:
A1 , A2 , . . . ∈ Z =⇒ (A1 ∪ A2 ∪ . . .) ∈ Z
1.2.1. Aksjomatyczna definicja prawdopodobieństwa
Niech P będzie funkcją określoną na ciele zdarzeń Z i odwzorowującą je w R taką, że:
— Prawdopodobieństwa zajścia dowolnego zdarzenia jest nieujemne: P (A) 0
— Prawdopodobieństwo zajścia zdarzenia pewnego jest równe 1: P (Ω) = 1
— Prawdopodobieństwo zajścia sumy co najwyżej przeliczalnej liczby zdarzeń rozłącznych parami
jest równe sumie prawdopodobieństw ich zajścia
P (A1 ∪ A2 ∪ . . . An ∪ . . .) = P (A1 ) + P (A2 ) + . . . + P (An ) + . . .
∀i 6= j : Ai ∩ Aj = ∅
Z powyższej definicji wynikają następujące właściwości (dla A, B ∈ Z):
— P (∅) = 0
— A ⊂ B =⇒ P (A) ¬ P (B)
— P (A) ¬ 1
— A ⊂ B =⇒ P (B\A) = P (B) − P (A)
— P (A) + P (A0 ) = 1
— P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
— Jeżeli Ω jest co najwyżej przeliczalna, to
P ({ωi1 , ωi2 , . . . , ωin }) =
n
X
P (ωij )
j=1
Przykład
Wracając do przykładów z rzutem kostką i zakładając, że każde ze zdarzeń elementarnych jest
równoprawdopodobne (a więc, że kostka nie jest w żaden sposób kantowana) otrzymuje się:
6
— P (ω1 ) = . . . = P (ω6 ) = 16 , ponieważ 1 = P (Ω) = P ({ω1 , . . . , ω6 }) =
— P (A) = P ({ω3 , ω5 }) = 2 ·
— P (B) =
1
6
=
P6
i=1
P (ωi )
1
3
1
2
— P (C) = P (Ω\B) = P (Ω) − P (B) = 1 − P (B) =
1
2
1.2.2. Prawdopodobieństwo warunkowe, całkowie i twierdzenie Bayesa
Prawdopodobieństwo warukowe to prawdopodobieństwo zajścia zdarzenia A pod warunkiem
zajścia zdarzenia B (inaczej: wiedząc, że zachodzi zdarzenie B, jakie jest prawdopodobieństwo
zajścia zdarzenia A)
P (A|B) =
P (A ∩ B)
P (B)
P (B) > 0
Podział przestrzeni Niech A1 , A2 , . . . , An ⊆ Ω będą zdarzeniami takim, że:
— są parami rozłączne
∀1¬i,j¬n i 6= j =⇒ Ai ∩ Aj = ∅
— sumują się do przestrzeni
n
[
Ai = Ω
i=1
— nie są niemożliwe
∀1¬i¬n P (Ai ) > 0
Prawdopodobieństwo zupełne to sposób wyrażenia prawdopodibeństwa zajścia zdarzenia B
przez prawdopodobieństwa zajścia zdarzeń dzielących przestrzeń. Niech A1 , . . . , An ⊆ Ω stanowią
podział przestrzeni Ω. Wtedy
P (B) =
n
X
P (B|Ai )P (Ai )
i=1
Twierdzenie Bayesa Niech A1 , . . . , An ⊆ Ω stanowią podział przestrzeni Ω, a B będzie
możliwym zdarzeniem. Zachodzi wtedy
P (B|Ak )P (Ak )
P (B|Ak )P (Ak )
P (Ak |B) = Pn
=
P (B)
i=1 P (B|Ai )P (Ai )
Warto zauważyć, że w celu porównania prawdopodobieństw wyznaczonych dla różnych zdarzeń
Ak przy tym samym zdarzeniu B nie trzeba obliczać całego wyrażenia, a wystarczy porównać
mianowniki. W szczególności oznacza to, że znajomość P (B) nie jest konieczna dla porównania
wyrażeń i określenia, które zdarzenie jest bardziej prawdopodobne.
Przykład
Rozważa się problem klasyfikacji listów elektronicznych do dwóch klas chciane (zdarzenie C) oraz
niechciane (zdarzenie N ) na podstawie występujących w nich słów. Zakładając, dla uproszczenia,
że interesujące są tylko dwa słowa tanie oraz leki, można zaproponować następujące cztery
zdarzenia:
7
5
10 ,
B1 w liście nie ma żadnego z wymienionych słów, P (B1 |C) =
B2 w liście znajduje się słowo tanie, P (B2 |C) =
B3 w liście znajduje się słowo leki, P (B3 |C) =
3
10 ,
2
10 ,
P (B2 |N ) =
P (B1 |N ) = 0;
2
10 ;
4
10 ;
4
10 .
P (B3 |N ) =
B4 w liście znajdują się oba słowa, P (B4 |C) = 0, P (B4 |N ) =
Podane prawdopodobieństwa zostały oszacowane na podstawie ocen użytkownika listów, z którymi
się zapoznał. Odpowiadają one osobie, które zdarza się zarówno korespondować na tematy
dotyczące tanich produktów, jak i leków w ogóle, ale konsekwentnie ignoruje reklamówki tanich
leków. Dodatkowo wiadomo, że P (C) = P (N ) =
1
2,
czyli dokładnie połowa listów została
zaklasyfikowana jako chciane, a połowa jako niechciane.
Po otrzymaniu nowego listu spełniającego jedno ze zdarzeń B1 –B4 należy na podstawie
historycznych prawdopodobieństw zaklasyfikować go do jednej z klas. Załóżmy, że list pasuje do
zdarzenia B2 . Otrzymuje się wtedy następujące wartości
1 3
2 10
P (C|B2 ) =
P (C)P (B2 |C)
=
P (C)P (B2 |C) + P (N )P (B2 |N )
1 3
2 10
P (N |B2 ) =
P (N )P (B2 |N )
=
P (C)P (B2 |C) + P (N )P (B2 |N )
1 3
2 10
+
1 2
2 10
1 2
2 10
+
1 2
2 10
Jak wspomniano wcześniej w celu uzyskania wyłącznie wyniku porównania można pominąć
mianownik. Z powyższych obliczeń wynika, że P (C|B2 ) > P (N |B2 ), czyli nowootrzymany list
należy zaklasyfikować do klasy chciane.
Przedstawiony przykład, chociaż może dość skomplikowany, ma tą istotną zaletę, że jest
przykładem rzeczywistym. Jest to klasyfikator bayesowski, którego przybliżona wersja, to znaczy
naiwny klasyfikator bayesowski, jest typowo stosowana do walki z niechcianą korespondencją
elektroniczną (m.in. w Mozilla Thunderbird czy spamassassin).
1.2.3. Niezależność zdarzeń
Dwa zdarzenia A i B są niezależne wtedy i tylko wtedy gdy P (A ∩ B) = P (A)P (B).
W przypadku większej niż dwa liczby zdarzeń {A1 , A2 , . . . , An } można wyróżnić dwa rodzaje
niezależności:
parami gdy dla dowolnych indeksów 1 ¬ i, j ¬ n takich, że i 6=j zachodzi P (Ai ∩ Aj ) =
P (Ai )P (Aj ), to znaczy gdy dowolne dwa zdarzenia spośród danych są niezależne;
zespołowa Gdy dla dowolnego m ¬ n i dowolnego m-elementowego podzbioru powyższych
zdarzeń {Ai1 , Ai2 , . . . , Aim } zachodzi

P
m
\
j=1
.

Ai j  =
m
Y
j=1
P (Aij )
8
Warto zauważyć, że niezależność zespołowa pociąga za sobą niezależność parami. Jest to o tyle
oczywiste, że nie zależność parami jest przypadkiem szczególnym niezależności zespołowej przy
ustalonym m = 2.
Rozdział 2
Zmienne losowe
Zmienna losowa X to funkcja odwzorowująca zdarzenia w liczby rzeczywiste (formalnie:
X : Ω → R) taka, że
∀x∈R {ω ∈ Ω|X(ω) < x} ∈ Z
to znaczy, że dla dowolnej wartości x zbiór zdarzeń elementarnych ω, dla których X(ω) < x
sam jest zdarzeniem. Łatwo zauważyć, że trzeba włożyć dużo wysiłku, żeby ten warunek nie był
spełniony.
Niech A ⊆ R (A może być prawie dowolnym podzbiorem zbioru liczb rzeczywistych), wtedy
P (X ∈ A) = P ({ω ∈ Ω|X(ω) ∈ A})
Oczywiście dopuszcza się też równoważne zapisy pokroju P (X < 5) czy P (X 7).
Dystrybuanta zmiennej losowej X to funkcja FX (x) = P (X < x). Jej wybrane właściwości:
— limx→−∞ FX (x) = 0
— limx→∞ FX (x) = 1
— niemalejąca
— P (a ¬ X < b) = FX (b) − FX (a)
Należy zwrócić uwagę, że w definicji dystrybuanty występuje ostra nierówność.
Mówi się, że zmienna losowa X jest typu dyskretnego jeżeli istnieje co najwyżej przeliczalny
zbiór WX = {x1 , . . . , xn , . . .} taki, że:
— Prawdopodobieństwo przyjęcia danej wartości xi przez zmienną losową jest niezerowe i wynosi pi
∀i∈N P (X = xi ) = pi > 0
— Wszystkie prawdopodobieństwa pi sumują się do jedności
|WX |
X
pi = 1
i=1
Prawdopodobieństwo P (X = xi ) można obliczyć za pomocą dystrybuanty
P (X = xi ) = F (xi+1 ) − F (xi )
10
Rozdział 2. Zmienne losowe
Wynika to z faktu, że w przedziale hxi , xi+1 ) istnieje dokładnie jeden punkt z niezerowym
prawdopodbieństwem.
Przykład
Niech Ω stanowi przestrzeń zdarzeń elementarnych odpowiadającym rzutowi kostką sześciościenną.
Niech X przyjmuje wartości odpowiadające liczbie wyrzuconych oczek. Wtedy P (X ∈ {1, 3, 5}) =
P ({ω1 , ω3 , ω5 }) = 12 . Dystrybuanta FX przedstawiona jest w poniższej tabeli i na wykresie:
x∈
(−∞, 1i (1, 2i (2, 3i (3, 4i (4, 5i (5, 6i (6, ∞)
FX (x)
1
6
0
2
6
3
6
4
6
5
6
1
FX (x)
1
0
x
1
6
Zmienna losowa X jest typu ciągłego jeżeli X może przyjąć wszystkie wartości z pewnej sumy
przedziałów, a ponadto istnieje funkcja f (t) 0 taka, że
Z t
FX (x) =
f (t) dt
−∞
f (t) nazywa się wtedy funkcją gęstości prawdopodobieństwa. Warto zwrócić uwagę, że w związku
z ciągłym charakterem zmiennej zachodzi nieintuicyjna sytuacja, w której dla dowolnego c ∈ R
P (X = c) = 0.
Przykład
Niech Ω stanowi przestrzeń zdarzeń elementarnych odpowiadających wyborowi losowej pozycji na
odcinku o długości 1m. X jest zmienną losową przypisującą zdarzeniu elementarnemu (jest ich
nieprzeliczalnie wiele) odległośc od początku odcinka w centymetrach. Wybór każdego miejsca
jest jednakowo prawdopodobny. Wtedy dystrybuanta wyrażona jest wzorem:



0
x¬0


x
FX (x) = 100 0 < x ¬ 100



1
x > 100
a odpowiadająca jej funkcja gęstości
fX (x) =



0


x¬0
1
100



0
0 < x ¬ 100
x > 100
Łatwo to zrozumieć: nie można wylosować pozycji przed początkiem odcinka ani za jego
końcem, gęstość prawdopodobieństwa jest tam więc równa zero. Wszystkie pozostałe zdarzenia są
11
równoprawdopodobne, gęstośc prawdopodobieństwa musi być więc w tym przedziale stała. Postać
dystrybuanty jest naturalną konsekwencją takiej funkcji gęstości.
Nalezy uważać, żeby nie pomyłkowo nie utożsamiać gęstości prawdopodobieństwa i prawdopodobieństwa. Prawdopodobieństwo wylosowania jakiejkolwiek konkretnej odległości jest równe 0,
natomiast wartość funkcji gęstości w tym punkcie jest niezerowa (o ile mówimy o odległościach
mieszczących się w długości odcinka). Funkcja gęstości prawdopodobieństwa nie ma samodzielnej
interpretacji, istnieje tylko jako funkcja podcałkowa dla dystrybuanty.
Zmienna losowa może stanowić argument funkcji, taka funkcja również stanowi zmienną
losową.
Przykład
Niech X będzie zmienną losową taką jak w poprzednim przykładzie. Y =
X
100
jest zmienną losową
odpowiadającą odległości od początku odcinka wyrażoną w metrach, jej dystrybuanta przyjmuje
następującą postać:



0 x¬0


FY (x) = x 0 < x ¬ 1



1 x > 1
Zmienną losową można charakteryzować za pomocą różnych wartości liczbowych. Nie mówią
one oczywiście wszystkie o zmiennej, ale często pozwalają zyskać przynajmniej przybliżony obraz
sytuacji:
wartość przeciętna (średnia) zmiennej X oznaczana jest jako µX bądź EX czy E(X). E(·)
należy traktować jako funkcję odwzorowującą zmienną losową w jej średnią. Dla zmiennej
dyskretnej
X
µX =
xi p i
xi ∈WX
natomiast dla zmiennej ciągłej
Z
∞
µX =
xf (x) dx
−∞
kwantyl rzędu p (dla p ∈ (0; 1)) jest to taka liczba xp , że
— dla zmiennej typu dyskretnego:
X
X
pi ¬ p ¬
xi <xp
pi
xi ¬xp
— dla zmiennej typu ciągłego: F (xp ) = p
mediana to inaczej kwantyl rzędu 0,5, czyli x0,5
wariancja to średniokwadratowe odchylenie od wartości przeciętnej:
2
σX
= D2 X = D2 (X) = E(X − EX)2
odchylenie standardowe pierwiastek z wariancji:
σX = DX =
q
2
σX
12
modalna W przypadku zmiennej typu dyskretnego punkt skokowy, któremu odpowiada największa wartość prawdopodbieństwa, a w przypadku zmiennej typu ciągłego punkt, w którym
funkcja gęstości przyjmuje wartość największą.
Przykład
Niech X będzie zmienną odpowiadającą liczbie oczek na kostce, wtedy:
1
1
1
1
1
1
+ 2 · + 3 · + 4 · + 5 · + 6 · = 3,5
6
6
6
6
6
6
35
1
1
1
1
1
1
= (1 − 3,5)2 · + (2 − 3,5)2 · + (3 − 3,5)2 · + (4 − 3,5)2 · + (5 − 3,5)2 · + (6 − 3,5)2 · =
6
6
6√
6
6
6
12
q
35
2 = √ ≈ 1,71
σX = σX
2 3
µX = 1 ·
2
σX
x0,5 ∈ h3; 4i
Niech Y będzie zmienną odpowiadającą pozycji w centymetrach na metrowym odcinku, wtedy:
2 100
100
y
y
=
dy =
= 50
100
200 0
2
−∞
0
100
Z 100
1 y3
1
2
2
2
σY =
(y − 50) fY (y) dy =
= 833
− 50y + 2500y
100
3
3
0
0
q
50
σY = σY2 = √ ≈ 28,86
3
Z
∞
µY =
Z
100
yfY (y) dy =
x0,5 = 50
Odchylenie standardowe wygodnie jest interpretować przez pryzmat nierówności Czebyszewa:
P (|X − µX | tσX ) ¬
1
t2
co należy rozumieć jako: prawdopodobieństwo, że zmienna X oddali się od wartości średniej o
więcej niż t odchyleń standardowych nie przekracza
1
t2 .
Niektóre właśności średniej i wariancji Niech a będzie dowolną stałą wartością, a X i Y
dowolnymi zmiennymi losowymi:
— E(a) = a
— E(aX) = aEX
— E(X + a) = EX + a
— E(X − EX) = 0
— E(X + Y ) = EX + EY
— E(XY ) = EX · EY o ile zmienne X i Y są niezależne
— D2 (a) = 0
— D2 (aX) = a2 D2 X
— D2 (X + a) = D2 X
13
— D2 (X ± Y ) = D2 X + D2 Y o ile zmienne X i Y są niezależne
— D2 X = EX 2 − E 2 X warto zapamiętać tę równość, gdyż istotnie ułatwia obliczenia
Niezależność zmiennych losowych Zmienne losowe X i Y nazywa się niezależnymi jeżeli dla
dowolnych rozsądnych zbiorów A, B ⊆ R zachodzi
P ({ω ∈ Ω|X(ω) ∈ A ∧ Y (ω) ∈ B}) = P ({ω ∈ Ω|X(ω) ∈ A) P ({ω ∈ Ω|Y (ω) ∈ B})
2.1. Wybrane rozkłady dyskretne
Rozkład równomierny dyskretny jest to rozkład o skończonej liczbie punktów skokowych, z
których każdy jest równoprawdopodobny:
P (X = xi ) =
1
|WX |
Rozkład zero–jedynkowy z parametrem p ∈ (0; 1) jest to rozkład o dwóch punktach skokowych:
P (X = 1) = p
P (X = 0) = 1 − p
EX = 0 · (1 − p) + 1 · p = p
2
2
D = (−p) · (1 − p) + (1 − p)2 · p = p2 − p3 + p − 2p2 + p3 = p − p2 = p(1 − p)
Odpowiada on pojedynczemu przeprowadzeniu doświadczenia o binarnym wyniku, np. rzut
monetą.
Rozkład dwumianowy (Bernouliego) z parametrami n ∈ N oraz p ∈ (0; 1) jest to rozkład
odpowiadający n-krotnemu powtórzeniu doświadczenia z binarnym wynikiem
n k
P (X = k) =
p (1 − p)n−k
k ∈ {0, 1, . . . , n}
k
Łatwo zauważyć, że skoro jest to n-krotne, niezależne powtórzenie doświadczenia o rozkładzie
zero–jedynkowym (oznaczonymi przez zmienne Y1 , Y2 , . . . , Yn ), to na mocy podanych wcześniej
właściwości średnich i wariancji zachodzi:
EX = E(Y1 + Y2 + . . . + Yn ) = np
D2 X = D2 (Y1 + Y2 + . . . + Yn ) = np(1 − p)
Wartości najbardziej prawdopodobne (modalne) to (n + 1)p − 1 oraz (n + 1)p o ile (n + 1)p
jest wartością całkowitą, a b(n + 1)pc w przeciwnym razie.
14
Przykład
Prawdopodobieństwo wyrzucenia trzykrotnie orła w dziesięciu rzutach monetą wynosi
P (X = 3) =
10
3
3 7
8 · 9 · 10 1
120
1
1
=
= 10 ≈ 0,12
2
2
2 · 3 210
2
Najbardziej prawdopodobny jest wyrzucenie b(10 + 1) 12 c = 5 razy orła i tyle samo razy reszkę.
Rozkład Poissona z parametrem λ > 0 charakteryzuje się następującą funkcją prawdopodobieństwa
P (X = k) = e−λ
λk
k!
k ∈ N ∪ {0}
Warto zwrócić uwagę, że z rozwinięcia w szereg Maclaurina wynika, że
eλ =
∞
X
λi
i=0
i!
W takim razie stosunkowo łatwo obliczyć podstawowe charakterystyki:
EX =
EX 2 =
∞
X
e
k
−λ λ
k=0
∞
k
X
−λ λ
e
k=0
k!
∞
−λ
·k =e
X λk
λ0
·0+
·k
0!
k!
k=1
!
= e−λ λ
∞
∞
X
X
λk−1
λk
= e−λ λ
=λ
(k − 1)!
k!
k=1
k=0
!
∞
∞
∞
∞
X
X
X
X
λk−1
λk
λk
λk
2
−λ
−λ
−λ
·k =e λ
·k =e λ
· (k + 1) = e λ
·k+
=
k!
(k − 1)!
k!
k!
k!
k=1
k=0
k=0
k=0
!
∞
X
λk−1
−λ
λ
e λ λ
+e
= e−λ λ λeλ + eλ = e−λ λ λeλ + eλ = λ2 + λ
(k − 1)!
k=1
2
D X = EX 2 − E 2 X = λ2 + λ − λ2 = λ
Uwaga: oczywiście tych wyprowadzeń nie należy się uczyć na pamięć, są one przedstawione jako
dowód, że charakterystyki są jakie są.
Istotnym zastosowaniem rozkładu Poissona jest przybliżenie za jego pomocą rozkładu Bernouliego:
n k
(np)k
Pb (X = k)
p (1 − p)n−k ≈ e−np
= Pp (X = k)
k
k!
Przyjęło się, że przybliżenie to jest dostatecznie dobre, gdy n 50, p ¬ 0,1, a np ¬ 10.
15
2.2. Rozkłady typu ciągłego
Rozkład równomierny typu ciągłego o parametrach a < b

 1
a¬x¬b
f (x) = b−a
0
wpp



0
x¬a


F (x) = x−a
a<x¬b
b−a



1
b¬x
b
x
x2
b2 − a2
a+b
EX =
dx =
=
=
2(b − a) a
2(b − a)
2
a b−a
Z b
2
3
3
(a + b)
b −a
(a + b)2
(a − b)2
D2 X = EX 2 − E 2 X =
x2 f (x) dx −
=
−
=
4
3(b − a)
4
12
a
Z
b
Rozkład wykładniczy o parametrze λ > 0

 1 e− λx x 0
f (x) = λ
0
x<0

0
x<0
F (x) =
1 − e− λx x 0
EX = λ
D 2 X = λ2
Rozkład wykładniczy, jako jedyny rozkład ciągły, charakteryzuje się własnością braku pamięci,
to znaczy P (X a + b|X a) = P (X b). Łatwo to wykazać:
P (X a + b ∧ X a)
P (X a + b)
1 − F (a + b)
=
=
=
P (X a)
P (X a)
1 − F (a)
exp − a+b
b
a+b a
λ
= e− λ = 1 − F (b) = P (X b)
=
exp
−
+
a
λ
λ
exp − λ
P (X a + b|X a) =
Typowo używa się tego rozkładu do modelowania czasu bezawaryjnej pracy urządzenia. Zakłada
się wtedy, że dalszy czas bezawaryjnej pracy urządznia nie zależy od tego, ile czasu urządzenie
już przepracowało, a więc awaria jest równie prawdopodobna dwie minuty po uruchomieniu jak
i po dwóch latach pracy. Wydaje się, że dla elektroniki konsumenckiej (np. laptopy) nie jest to
dobry model.
Rozkład normalny (Gaussa) o parametrach µ ∈ R, σ > 0 charakteryzowany jest następującą funkcją gęstości:
1
x−µ
f (x) = √ exp −
2σ 2
σ 2π
16
Dystrybuanta tego rozkładu, w przypadku ogólnym, ma skomplikowany i nie wart przytaczania
wzór. Bardzo istotna natomiast jest informacja, że wartości dystrybuanty standaryzowanego
rozkładu normalnego (to znaczy o parametrach µ = 0, σ = 1) są stablicowane. Warto również
zwrócić uwagę na kształt wykresu takiej dystrybuanty, przedstawionego na rysunku ??, który
jest środkowosymetryczny względem punktu 0, 21 . Zachodzi w związu z tym F (−x) = 1 − F (x),
co jest własnością o tyle istotną, że tablice rozkładu normalnego przygotowywane są tylko dla
wartości dodatnich parametru.
Fakt, że zmienna losowa X ma rozkład normalny przyjęło się oznaczać przez X ∼ N (µ, σ).
Rozkład ten jest niezwykle istotny z dwóch powodów:
1. Wydaje się, że dużo zjawisk w przyrodzie daje się dobrze modelować za pomocą rozkładu
normalnego, np. dobowa ilość opadów w Poznaniu.
2. Zachodzi centralne twierdzenie graniczne: jeżeli X1 , X2 , . . . , Xn są niezależnymi zmiennymi
losowymi o średniej µ i skończonym odchyleniu standardowym σ, a X ich średnią arytmetyczną,
to zachodzi
Y =
X −µ
√σ
n
zbiega wg. rozkładu do N (0, 1) przy n → ∞. Wynika z tego, że średnia arytmetyczna zmiennych
losowych Xi ma rozkład zbliżony do normalnego niezależnie od rozkładu tych zmiennych.
Rozdział 3
Dwuwymiarowe zmienne losowe
Dwuwymiarowa zmienna losowa to para rozważanych razem zmiennych losowych. Rozkład
prawdopodobieństwa wyznaczany jest wtedy dla przyjęcia przez obie zmienne określoncych
wartości. Oczywiście możliwe jest też rozważanie zmiennych losowych o większej liczbie wymiarów,
nie będą one jednak pojawiały się na zajęciach.
Dystrybuanta dwuwymiarowej zmiennej losowej (X, Y ) przyjmuje postać
F (x, y) = P (X < x, Y < y)
dla dowolnej pary (x, y) ∈ R2 . Zachodzą następujące właśności:
lim F (x, y) = 0
x∈R
lim F (x, y) = 0
y∈R
y→−∞
x→−∞
lim F (x, y) = 1
x→∞
y→∞
Wyraźnie widać, że w przypadku dwuwymiarowym obliczenie prawdopodobieństwa w przedziale przy użyciu dystrybuanty nie jest już takie proste jak w przypadku jednowymiarowym.
Zachodzi następująca, nieoczywista na pierwszy rzut oka, równość:
P (x1 ¬ X < x2 , y1 ¬ Y < y2 ) = F (x2 , y2 ) − F (x1 , y2 ) − F (x2 , y1 ) + F (x1 , y1 )
Łatwo ją jednak uzasadnić: dystrybuanta pokrywa pewien obszar przestrzeni dwuwymiarowej. I
tak, F (x2 , y2 ) odpowiada prostokątowi od (−∞, −∞) do (x2 , y2 ), z którego usuwa się następnie
prostokąty od (−∞, −∞) do (x1 , y2 ) oraz od (−∞, −∞) do (x2 , y1 ). Jednak, uwaga, wykonanie
tych operacji skutkuje dwukrotnym usunięciem prostokąta od (−∞, −∞) do (x1 , y1 ), należy więc
go dodać (stąd ostatnie dodawanie F (x1 , y1 )).
Zmienne typu dyskretnego definiuje się analogicznie jak zmienne jednowymiarowe. Dla zmiennej
(X, Y ) koniecznym jest istnienie co najwyżej przeliczalnych zbiorów WX i WY takich, że:
P (X = xi , Y = yj ) = pi,j > 0
xi ∈ WX , yj ∈ WY
X X
pi,j = 1
xi ∈WX yj ∈WY
18
Rozdział 3. Dwuwymiarowe zmienne losowe
czyli zbiór WX × WY wyczerpuje wszystkie pary punktów, których wartości zmienna może przyjąć
(istnieje na to niezerowe prawdopodobieństwo).
W przypadku tych zmiennych prawdopodobieństwa wygodnie reprezentować w postaci tablicy
dwudzielczej :
x1
x2
...
xm
y1
p1,1
p2,1
...
pm,1
p·,1
y2
..
.
p1,2
..
.
p2,2
..
.
...
..
.
pm,2
..
.
p·,1
..
.
yn
p1,n
p2,n
...
pm,n
p·,n
p1,·
p2,·
...
pm,·
1
Przy czym wartości z kropkami stanowią sumy w odpowiednich wierszach bądź kolumnach. Są
to prawdopodobieństwa (rozkłady) brzegowe, czyli prawdopodobieństwo tego, że zmienna przyjmie
określoną wartość na jednej pozycji i dowolną na drugiej:
P (X = xi ) =
X
pi,j = pi,·
yj ∈WY
P (Y = yj ) =
X
pi,j = p·,j
xi ∈WX
Oczywiście istnienie rozkładów brzegowych pociąga za sobią istnienie dystrybuant brzegowych:
FX (x) = P (X < x, ·) =
X
X
pi,j
xi ∈WX yj ∈WY
xi <x
FY (y) = P (·, Y < y) =
X
X
pi,j
xi ∈WX yj ∈WY
yj <y
Dla zmiennej typu ciągłego (X, Y ) wymaganym jest, by istniała taka nieujemna dwuwymiarowa
funkcja gęstości prawdopodobieństwa f (x, y) określona dla dowolnych (x, y) ∈ R2 , że
Z x Z y
F (x, y) =
f (u, v) dv du
−∞
−∞
gdzie oczywiście F (x, y) jest dystrybuantą tej zmiennej.
Konsekwentnie wprowadza się rozkłady brzegowe przez ich funkcje gęstości i dystrybuanty:
Z ∞
Z x
fX (x) =
f (x, y) dy
FX (x) =
fX (u) du = lim F (x, y)
y→∞
−∞
−∞
Z ∞
Z y
fY (y) =
f (x, y) dx
FY (y) =
fY (u) du = lim F (x, y)
−∞
−∞
x→∞
19
3.1. Rozkłady warunkowe
Skoro rozważany jest stan obu zmiennych na raz, możliwe jest wprowadzenie rozkładów
warunkowych, czyli prawdopodobieństw, że jedna zmienna przyjmie daną wartość pod warunkiem,
że druga zmienna przyjmuje jakąś wartość.
Dla zmiennych dyskretnych:
pi,j
p·,j
pi,j
P (Y = yj |X = xi ) =
pi,·
P (X = xi |Y = yj ) =
(p·,j > 0)
X
F (x|yj ) =
pi,j
xi <x
(pi,· > 0)
X
F (y|xi ) =
pi,j
yj <y
Dla zmiennych ciągłych (fY (y) > 0, x ∈ R):
Z x
Z x
1
f (x, y)
f (u, y) du
F (x|y) =
f (u|y) du =
f (x|y) =
fY (y)
fY (y) −∞
−∞
i w drugą stronę (fX (x) > 0, y ∈ R):
f (y|x) =
f (x, y)
fX (x)
Z
y
F (y|x) =
f (v|x) dv =
−∞
1
fX (x)
Z
y
f (x, v) dv
−∞
3.2. Niezależność
Zmienne w zmiennej dwuwymiarowej są niezależne (wtedy i tylko wtedy) gdy zachodzi jeden
z poniższych warunków dla dowolnych (x, y) ∈ R2 :
P (X = x, Y = y) = P (X = x)P (Y = y)
F (x, y) = FX (x)FY (y)
f (x, y) = fX (x)fY (y)
dla zmiennych ciągłych
F (x|y) = FX (x) ∧ F (y|x) = FY (y)
3.3. Charakterystyki
Analogicznie jak dla zmiennych losowych jednowymiarowych, dla zmiennych losowych dwuwymiarowych można zdefiniować pewne charakterystyki podsumowujące reprezentowany przez
zmienne rozkład prawdopodobieństwa. W ogólności rozważa się momenty zwykłe mieszane rzędu
r + s dwuwymiarowej zmiennej losowej (X, Y ), rozumiane jako wartość przeciętna zmiennej
losowej reprezentującej iloczyn X r Y s :
P P
r s

dla zmiennych dyskretnych
i
j xi yj pi,j
E(X r Y s ) = R
R
 ∞ ∞ xr y s f (x, y) dy dx
dla zmiennych ciągłych
−∞ −∞
20
Odpowiednikiem wartości średniej z przypadku jednowymiarowego jest wektor wartości średnich (EX, EY ), natomiast odpowiednikiem wariancji jest macierz kowariancji
"
D2 X
cov(X, Y )
cov(X, Y )
D2 Y
#
przy czym wartość cov(X, Y ) nazywa się kowariancją i definiuje w nastepujący sposób:
cov(X, Y ) = E [(X − EX)(Y − EY )] = E(XY ) − EXEY
Łatwo zauważyć, że dla niezależnych zmiennych losowych X, Y cov(X, Y ) = 0, przy czym nie
zachodzi twierdzenie odwrotne.
Skoro rozważa się rozkłady warunkowe, to konsekwentnie buduje się też charakterystyki
warunkowe. Warunkowa wartość średnia dla zmiennych typu skokowego przyjmuje postać
E(X|Y = yj ) =
X
xi P (X = xi |Y = yj )
i
natomiast dla zmiennych typu ciągłego
Z
∞
E(X|Y = yj ) =
x
−∞
f (x, y)
dx
f2 (y)
3.4. Korelacja
Kowariancja stanowi nieunormowaną miarę współzależności między zmiennymi. Jej unormowaną i szeroko stosowaną postacią jest współczynnik korelacji
%=
cov(X, Y )
DX · DY
dla którego zachodzi |%| ¬ 1, przy czym:
% = 1 zmienne powiązane są idealną, dodatnią zależnością liniową, tzn. istnieje takie a > 0, że
Y = aX + b
% = −1 zmienne powiązane są idealną, ujemną zależnością liniową, tzn. istnieje takie a < 0, że
Y = aX + b
Koniecznie trzeba zapamiętać, że fakt, że dwie zmienne są skorelowane nie oznacza, że wartości
przyjmowane przez jedną wynikają z wartości przyjmowanych przez drugą.
Dwa ciekawe odnośniki dotyczące korelacji:
— dlaczego korelacja to nie wynikanie: http://xkcd.com/925/
— o związkach wykrywanych i niewykrywanych przez współczynnik korelacji: http://pl.
wikipedia.org/w/index.php?title=Plik:Correlation_examples.png
21
3.5. Regresja
Linią regresji I rodzaju zmiennej Y względem zmiennej X nazywa się wykres funkcji
m(x) = E(Y |X = x)
czyli funkcję reprezentującą wartość średnią zmiennej Y przy założeniu danej wartości zmiennej X.
Taką funkcję można potraktować jako funkcję tłumaczącą zmienną Y w kategoriach zmiennej X,
tzn. znając wartość zmiennej losowej X możemy oszacować odpowiadającą jej wartość zmiennej
losowej Y . Oczywiście takie oszacowanie jest obarczone pewnym błędem, można jednak wykazac,
że jakiej by funkcji nie przyjąć nie da się osiągnąć mniejszego błędu średniokwadratowego niż dla
funkcji zdefiniowanej w ten sposób, tzn. zachodzi
2
E (Y − m(X)) = min E (Y − g(X))
g
Prostą regresji II rodzaju zmiennej Y względem zmiennej X nazywa się prostą aX + b o tak
dobranych współczynnikach a, b, że średniokwadratowe odchylenie ε od wartości zmiennej Y jest
możliwie małe
ε = E (Y − (aX + b))
2
Współczynniki takie można na szczęście wyznaczyć analitycznie korzystając z nastepujących
równości:
DY
b = EY − aEX
DX
Stosowanie regresji w postaci prostej nie zawsze ma sens. Na przykład, dla zmiennych związanych
a=%
zależnością kwadratową Y = X 2 , zastosowanie przybliżenia prostą minie się z celem. Odpowiedzią,
czy warto stosować proste regresji II rodzaju jest analiza współczynnika korelacji. Przyjmuje się,
że jeżeli |%| 0,75 to próby modelowania jednej zmiennej za pomocą drugiej przy wykorzystaniu
regresji II rodzaju mają sens.

mini-skrypcie

Transkrypt

Podobne dokumenty

ćwiczenie 1 - theta.edu.pl

Pytania z probabilistyki Pytania ze statystyki

Statystyka – konspekt ćwiczeń (30h) 1. Obliczanie

Streszczenie do 1000 znaków (albo 80

Zagadnienia na egzamin licencjacki

Zestaw11

zestaw nr 24.

− ≤ = 0 1 0 0 )( xdla e xdla xF

DWUWYMIAROWA ZMIENNA LOSOWA Zad. 1. Dany jest - E-SGH