mini-skrypcie
Transkrypt
mini-skrypcie
Jędrzej Potoniec Materiały do ćwiczeń z przedmiotu metody probabilistyczne Rozdział 1 Pojęcia podstawowe W niniejszym rozdziale przedstawione zostaną podstawowe pojęcia, bez których ciężko w ogóle mówić o rachunku prawdopodobieństwa czy wykonać choćby najprostsze obliczenia. 1.1. Kombinatoryka Na początek kilka nieformalnych definicji: zbiór nieuporządkowana kolekcja dowolnych, różnych obiektów; multizbiór nieuporządkowana kolekcja dowolnych, niekoniecznie różnych obiektów; ciąg uporządkowana kolekcja dowolnych obiektów. Przykład Jeżeli zdejmując kubki z suszarki wstawia się je do szafki bez konkretnego uporządkowania powstaje zbiór kubków : nie charakteryzuje się on żadnym konkretnym ich ułożeniem. Inaczej gdy stawia się te kubki na odsłoniętą półkę w kolejności od dużych do małych. Można wtedy mówić o ciągu kubków, ponieważ kubki te są uporządkowane. Przestawiając kubki w szafce ciągle dysponuje się tym samym zbiorem kubków, ponieważ interesująca jest wyłącznie obecność bądź nieobecność kubka, natomiast przestawiając kubki na półce otrzymuje się inny ciąg, ponieważ zaburzony zostaje ich porządek. Co więcej, jeżeli przyniesie się ze sklepu sześć identycznych kubków i wstawi do szafki, przekształci się zbiór w multizbiór, ponieważ nie wszystkie obiekty w nim będą parami różne. Kobinatoryka zajmuje się obliczaniem liczby możliwych konstrukcji różnych zbiorów i ciągów z zadanego zbioru elementów. Trzy podstawowe możliwości: permutacja Liczba uporządkowań zbioru bądź multizbioru, inaczej mówiąc liczba możliwych przekształceń zbioru (multizbioru) w ciąg. wariacja Liczba ciągów o zadanej długości, które można zbudować z elementów danego zbioru. kombinacja Liczba zbiorów o zadanej długości, które można zbudować z elementów danego zbioru. Najbardziej podstawowym sposobem obliczania w kombinatoryce jest reguła iloczynu. Jeżeli do wykonania jest k czynności, pierwszą z nich można wykonać na n1 sposobów, drugą na n2 , 2 Rozdział 1. Pojęcia podstawowe . . . , k-tą na nk sposobów, to wszystkich możliwych sposobów wykonania tych czynności jest n1 · n2 · . . . · nk = k Y ni i=1 Przykład Niech dane będzie pudełko z kulami bilardowymi o numerach 1, 2, 3. Czynnością, która będzie wykonywana będzie wyciągnięcie na ślepo kuli, zostanie ona powtórzona k = 3 razy. Stosując regułę iloczynu od razu wiadomo, że liczba możliwych kolejności wyciągnięć (czyli uporządkowań tych kul) wynosi n1 n2 n3 . Łatwo zaobserwować, że n1 = 3, ponieważ w pudełku na początku są trzy kule, można więc wyciągnąć jedną z trzech kul. W wyniku tego działania pierwsza czynnośc jest wykonana i w pudełku zostają tylko dwie kule (acz nie wiadomo jakie, ponieważ w poprzednim kroku wyciągnięto dowolną z trzech kul). Rozumując analogicznie dochodzi się do wniosku, że n2 = 2 oraz n3 = 1. Pozwala to na obliczenie, że możliwych kolejności wyciągnięcia tych kul było 6, co łatwo sprawdzić: (1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2), (3, 2, 1). Reguła iloczynu stanowi podstawę wyprowadzenia ogólnych wzorów na liczność poszczególnych obiektów kombinatorycznych: permutacja bez powtórzeń Jest to liczba uporządkowań n-elementowego zbioru n! = n · (n − 1) · (n − 2) · . . . · 2 · 1 Łatwo zaobserwować, że jest to dokładne uogólnienie przedstawionego powyżej przykładu: na pierwszym miejscu uporządkowania umieszcza się jeden z n elementów, na drugim jeden z pozostałych n − 1 elementów, na trzecim jeden z pozostałych n − 2 elementów, . . . , na (n − 1)-wszym miejscu jeden z pozostałych 2 elementów, a w końcu na n-tym miejscu ostatni element, już bez możliwości jakiegokolwiek wyboru. permutacja z powtórzeniami Jest to liczba uporządkowań n = n1 +n2 +. . .+nk -elementowego multizbioru, w którym i-ty element powtarza się ni krotnie: n! n1 !n2 ! · . . . · nk ! Ten wzór również łatwo uzasadnić korzystając z reguły iloczynu: n! jest liczbą możliwych uporządkowań zbioru n różnych elementów, natomiast ni ! jest liczbą nierozróżnialnych uporządkowań i-tego elementu powtarzającego się w multizbiorze ni razy. W takim razie: pierwszy element zmniejsza liczbę uporządkowań n1 !-krotnie, drugi n2 !-krotnie itd. Przykład Niech dany będzie wyraz matematyka. Litery tworzące to słowo stanowią następujący multizbiór: {a, a, e, k, k, m, m, t, t, y}. Występuje w nim n = 10 elementów, ale tylko k = 6 różnych. n1 = 2, n2 = 1, n3 = 2, n4 = 2, n5 = 2, n6 = 1. Liczba możliwych uporządkowań tego zbioru wynosi 10! 10! = = 226800 2!1!2!2!2!1! 16 spośród których jednym jest uporządkowanie matematyka. 3 Rozdział 1. Pojęcia podstawowe wariacja bez powtórzeń Liczba wyborów podciągu k-elementowego ze zbioru n-elementowego (oczywiście k ¬ n) n · (n − 1) · . . . · (n − k + 1) Rozumowanie, prowadzące do tego wzoru jest analogiczne jak dla permutacji bez powtórzeń, jednak należy zatrzymać się po wykonaniu k wyborów, a nie kontynuować aż do n. Przykład Dysponując n = 30 zawodnikami, ile jest możliwych sposobów obsadzenia trzymiejscowego (k = 3) podium? Pierwsze miejsce można wybrać oczywiście spośród 30 = n zawodników (a więc na 30 sposobów), drugiego spośród pozostałych 29 = n − 1, a trzeciego spośród pozostałych 28 = n − k + 1. Ostatecznie otrzymuje się 30 · 29 · 28 = 24360. wariacja z powtórzeniami Liczba wyborów podciągu k-elementowego ze zbioru n-elementowego, w którym możliwe jest klonowanie elementów (albo, inaczej, elementy zwracane są do puli początkowej i mogą zostać ponownie wybrane). nk Łatwo zaobserwować, że jako pierwszy element można wybrać jeden spośród n, jako drugi jeden spośród n, . . . , jako k-ty jeden spośród n, ponieważ za każdym razem element nie jest usuwany ze zbioru. Przykład Dysponując grupą n = 30 studentów i k = 6 zadaniami do rozwiązania (jedno po drugim), na ile sposobów można wybrać studentów do rozwiązywania zadań? Oczywiście polega to na sześciokrotnym wyborze jednego studenta spośród trzydziestu, uzyskuje się więc nk = 306 możliwych wyborów. Oczywiście, możliwym jest, że za każdym razem będzie to ten sam student. kombinacja bez powtórzeń Liczba wyborów k-elementowego podzbioru ze zbioru n-elementowego n n! n · (n − 1) · . . . · (n − k + 1) = = k k!(n − k)! k! Łatwo zauważyć w ostatnim przekształceniu wzoru, że w liczniku jest liczba wariacji bez powtórzeń, natomiast w mianowniku liczba permutacji bez powtórzeń. Inaczej: dokonuje się wyboru podciągu, ale ponieważ nie istotna jest kolejność, więc ignoruje się ich różność wynikającą z różnego uporządkowania elementów. Przykład Dysponując grupą n = 30 studentów na ile sposobów można wybrać spośród nich k = 3 reprezentantów na uczelniany pokaz warzenia piwa? Kolejność wyboru oczywiście nie ma znaczenia. 30 3 = 30! 28 · 29 · 30 = = 4060 3!27! 2·3 4 Rozdział 1. Pojęcia podstawowe 1.2. Zdarzenia i prawdopodobieństwo Pojęciami pierwotnymi w rachunku prawdopodobieństwa są pojęcia zdarzenia elementarnego, oznaczanego często przez ω oraz przestrzeni zdarzeń elementarnych Ω. Intuicyjnie, zdarzenie elementarne reprezentuje pojedynczy możliwy wynik eksperymentu, natomiast przestrzeń zdarzeń stanowi zbiór wszystkich możliwych wyników tego eksperymentu i jest, być może, nieskończona. Przykład Poniżej przedstawione są trzy możliwe warianty liczności przestrzeni zdarzeń elementarnych: skończona, nieskończona przeliczalna, nieskończona nieprzeliczalna. rzut kostką Niech dana będzie sześciościenna kostka do gry. Wynik pojedynczego rzutu taką kostką będzie stanowił zdarzenie elementarne, np. ω1 odopowiada zdarzeniu wyrzucono jedno oczko, a ω4 zdarzeniu wyrzucono cztery oczka. Przestrzeń zdarzeń elementarnych Ω jest skończona i zawiera sześć zdarzeń: Ω = {ω1 , ω2 , ω3 , ω4 , ω5 , ω6 }. losowanie ciągu Niech dana będzie moneta, na której po rzuceniu może wypaść orzeł albo reszka. Eksperyment polega na rzucaniu monetą tak długo, aż wypadnie orzeł. Zdarzenia elementarne wyglądają wtedy w następujący sposób: ω1 odpowiada zdarzeniu orzeł wypadł w pierwszym rzucie, ω54 zdarzeniu orzeł wypadł w 54-tym rzucie. Przestrzeń zdarzeń elementarnych jest nieskończona, ale przeliczalna: Ω = {ωi |i ∈ N} gra w darta Gra w darta polega na rzucaniu lotkami do niewielkiej planszy. Zdarzeniem elementarnym jest wbicie się lotki w konkretny punkt tarczy. Oczywiście, ciężko wyobrazić sobie przypisanie tym punktom jakiś numerów czy adresów. Przestrzeń zdarzeń elementarnych jest nieprzeliczalna, ponieważ każde zdarzenie elementarne odpowiada jednemu punktowi koła. Zdarzeniem nazywa się dowolny podzbiór przestrzeni zdarzeń elementarnych gdy przestrzeń ta jest co najwyżej przeliczalna1 bądź niektóre, „porządne” podzbiory tej przestrzeni2 . Jako, że zdarzenia są zbiorami, można dokonywać na nich takich operacji jak na zbiorach: iloczyn (koniunkcja) A ∩ B = {ω ∈ Ω|ω ∈ A ∧ ω ∈ B}, co należy rozumieć jako zachodzi zdarzenie A oraz zdarzenie B. suma (dysjunkcja, alternatywa) A ∪ B = {ω ∈ Ω|ω ∈ A ∨ ω ∈ B}, co należy rozumieć jako zachodzi zdarzenie A lub zdarzenie B. różnica A\B = {ω ∈ Ω|ω ∈ A ∧ ω 6∈ B}, co nalezy rozumieć jako zachodzi zdarzenie A i nie zachodzi zdarzenie B. pociąganie A ⊆ B, co należy rozumieć jako jeżeli zachodzi A, to zachodzi też B. wykluczanie A∩B = ∅, co należy rozumieć jako zdarzenia A i B nie mogą zachodzić jednocześnie bądź zachodzi co najwyżej jedno ze zdarzeń A, B. 1 2 To znaczy, że jest skończona albo nieskończona przeliczalna. Nie należy jednak się tym istotnie przejmować, gdyż w przypadku podstawowych problemów, które będą rozważane na zajęciach, kwestia podzbiorów niebędących zdarzeniami nie występuje. 5 Rozdział 1. Pojęcia podstawowe Przykład Kontynuując wcześniej przedstawiony przykład z rzutem kostką można zaproponować takie zdarzenia: — wyrzucenie trzech lub pięciu oczek A = {ω3 , ω5 }; — wyrzucenie parzystej liczby oczek B = {ω2 , ω4 , ω6 }; — wyrzucenie nieparzystej liczby oczek C = B 0 . Ciało zdarzeń Z (σ-ciało zdarzeń) to taki zbiór zdarzeń, że: — Zdarzenie pewne należy do ciała zdarzeń Ω∈Z — Zdarzenie przeciwne do należącego do ciała zdarzeń też do niego należy A ∈ Z =⇒ Ω\A = A0 ∈ Z — Suma dowolnej, co najwyżej przeliczalnej, liczby zdarzeń należących do Z również należy do Z: A1 , A2 , . . . ∈ Z =⇒ (A1 ∪ A2 ∪ . . .) ∈ Z 1.2.1. Aksjomatyczna definicja prawdopodobieństwa Niech P będzie funkcją określoną na ciele zdarzeń Z i odwzorowującą je w R taką, że: — Prawdopodobieństwa zajścia dowolnego zdarzenia jest nieujemne: P (A) 0 — Prawdopodobieństwo zajścia zdarzenia pewnego jest równe 1: P (Ω) = 1 — Prawdopodobieństwo zajścia sumy co najwyżej przeliczalnej liczby zdarzeń rozłącznych parami jest równe sumie prawdopodobieństw ich zajścia P (A1 ∪ A2 ∪ . . . An ∪ . . .) = P (A1 ) + P (A2 ) + . . . + P (An ) + . . . ∀i 6= j : Ai ∩ Aj = ∅ Z powyższej definicji wynikają następujące właściwości (dla A, B ∈ Z): — P (∅) = 0 — A ⊂ B =⇒ P (A) ¬ P (B) — P (A) ¬ 1 — A ⊂ B =⇒ P (B\A) = P (B) − P (A) — P (A) + P (A0 ) = 1 — P (A ∪ B) = P (A) + P (B) − P (A ∩ B) — Jeżeli Ω jest co najwyżej przeliczalna, to P ({ωi1 , ωi2 , . . . , ωin }) = n X P (ωij ) j=1 Przykład Wracając do przykładów z rzutem kostką i zakładając, że każde ze zdarzeń elementarnych jest równoprawdopodobne (a więc, że kostka nie jest w żaden sposób kantowana) otrzymuje się: 6 Rozdział 1. Pojęcia podstawowe — P (ω1 ) = . . . = P (ω6 ) = 16 , ponieważ 1 = P (Ω) = P ({ω1 , . . . , ω6 }) = — P (A) = P ({ω3 , ω5 }) = 2 · — P (B) = 1 6 = P6 i=1 P (ωi ) 1 3 1 2 — P (C) = P (Ω\B) = P (Ω) − P (B) = 1 − P (B) = 1 2 1.2.2. Prawdopodobieństwo warunkowe, całkowie i twierdzenie Bayesa Prawdopodobieństwo warukowe to prawdopodobieństwo zajścia zdarzenia A pod warunkiem zajścia zdarzenia B (inaczej: wiedząc, że zachodzi zdarzenie B, jakie jest prawdopodobieństwo zajścia zdarzenia A) P (A|B) = P (A ∩ B) P (B) P (B) > 0 Podział przestrzeni Niech A1 , A2 , . . . , An ⊆ Ω będą zdarzeniami takim, że: — są parami rozłączne ∀1¬i,j¬n i 6= j =⇒ Ai ∩ Aj = ∅ — sumują się do przestrzeni n [ Ai = Ω i=1 — nie są niemożliwe ∀1¬i¬n P (Ai ) > 0 Prawdopodobieństwo zupełne to sposób wyrażenia prawdopodibeństwa zajścia zdarzenia B przez prawdopodobieństwa zajścia zdarzeń dzielących przestrzeń. Niech A1 , . . . , An ⊆ Ω stanowią podział przestrzeni Ω. Wtedy P (B) = n X P (B|Ai )P (Ai ) i=1 Twierdzenie Bayesa Niech A1 , . . . , An ⊆ Ω stanowią podział przestrzeni Ω, a B będzie możliwym zdarzeniem. Zachodzi wtedy P (B|Ak )P (Ak ) P (B|Ak )P (Ak ) P (Ak |B) = Pn = P (B) i=1 P (B|Ai )P (Ai ) Warto zauważyć, że w celu porównania prawdopodobieństw wyznaczonych dla różnych zdarzeń Ak przy tym samym zdarzeniu B nie trzeba obliczać całego wyrażenia, a wystarczy porównać mianowniki. W szczególności oznacza to, że znajomość P (B) nie jest konieczna dla porównania wyrażeń i określenia, które zdarzenie jest bardziej prawdopodobne. Przykład Rozważa się problem klasyfikacji listów elektronicznych do dwóch klas chciane (zdarzenie C) oraz niechciane (zdarzenie N ) na podstawie występujących w nich słów. Zakładając, dla uproszczenia, że interesujące są tylko dwa słowa tanie oraz leki, można zaproponować następujące cztery zdarzenia: 7 Rozdział 1. Pojęcia podstawowe 5 10 , B1 w liście nie ma żadnego z wymienionych słów, P (B1 |C) = B2 w liście znajduje się słowo tanie, P (B2 |C) = B3 w liście znajduje się słowo leki, P (B3 |C) = 3 10 , 2 10 , P (B2 |N ) = P (B1 |N ) = 0; 2 10 ; 4 10 ; 4 10 . P (B3 |N ) = B4 w liście znajdują się oba słowa, P (B4 |C) = 0, P (B4 |N ) = Podane prawdopodobieństwa zostały oszacowane na podstawie ocen użytkownika listów, z którymi się zapoznał. Odpowiadają one osobie, które zdarza się zarówno korespondować na tematy dotyczące tanich produktów, jak i leków w ogóle, ale konsekwentnie ignoruje reklamówki tanich leków. Dodatkowo wiadomo, że P (C) = P (N ) = 1 2, czyli dokładnie połowa listów została zaklasyfikowana jako chciane, a połowa jako niechciane. Po otrzymaniu nowego listu spełniającego jedno ze zdarzeń B1 –B4 należy na podstawie historycznych prawdopodobieństw zaklasyfikować go do jednej z klas. Załóżmy, że list pasuje do zdarzenia B2 . Otrzymuje się wtedy następujące wartości 1 3 2 10 P (C|B2 ) = P (C)P (B2 |C) = P (C)P (B2 |C) + P (N )P (B2 |N ) 1 3 2 10 P (N |B2 ) = P (N )P (B2 |N ) = P (C)P (B2 |C) + P (N )P (B2 |N ) 1 3 2 10 + 1 2 2 10 1 2 2 10 + 1 2 2 10 Jak wspomniano wcześniej w celu uzyskania wyłącznie wyniku porównania można pominąć mianownik. Z powyższych obliczeń wynika, że P (C|B2 ) > P (N |B2 ), czyli nowootrzymany list należy zaklasyfikować do klasy chciane. Przedstawiony przykład, chociaż może dość skomplikowany, ma tą istotną zaletę, że jest przykładem rzeczywistym. Jest to klasyfikator bayesowski, którego przybliżona wersja, to znaczy naiwny klasyfikator bayesowski, jest typowo stosowana do walki z niechcianą korespondencją elektroniczną (m.in. w Mozilla Thunderbird czy spamassassin). 1.2.3. Niezależność zdarzeń Dwa zdarzenia A i B są niezależne wtedy i tylko wtedy gdy P (A ∩ B) = P (A)P (B). W przypadku większej niż dwa liczby zdarzeń {A1 , A2 , . . . , An } można wyróżnić dwa rodzaje niezależności: parami gdy dla dowolnych indeksów 1 ¬ i, j ¬ n takich, że i 6=j zachodzi P (Ai ∩ Aj ) = P (Ai )P (Aj ), to znaczy gdy dowolne dwa zdarzenia spośród danych są niezależne; zespołowa Gdy dla dowolnego m ¬ n i dowolnego m-elementowego podzbioru powyższych zdarzeń {Ai1 , Ai2 , . . . , Aim } zachodzi P m \ j=1 . Ai j = m Y j=1 P (Aij ) Rozdział 1. Pojęcia podstawowe 8 Warto zauważyć, że niezależność zespołowa pociąga za sobą niezależność parami. Jest to o tyle oczywiste, że nie zależność parami jest przypadkiem szczególnym niezależności zespołowej przy ustalonym m = 2. Rozdział 2 Zmienne losowe Zmienna losowa X to funkcja odwzorowująca zdarzenia w liczby rzeczywiste (formalnie: X : Ω → R) taka, że ∀x∈R {ω ∈ Ω|X(ω) < x} ∈ Z to znaczy, że dla dowolnej wartości x zbiór zdarzeń elementarnych ω, dla których X(ω) < x sam jest zdarzeniem. Łatwo zauważyć, że trzeba włożyć dużo wysiłku, żeby ten warunek nie był spełniony. Niech A ⊆ R (A może być prawie dowolnym podzbiorem zbioru liczb rzeczywistych), wtedy P (X ∈ A) = P ({ω ∈ Ω|X(ω) ∈ A}) Oczywiście dopuszcza się też równoważne zapisy pokroju P (X < 5) czy P (X 7). Dystrybuanta zmiennej losowej X to funkcja FX (x) = P (X < x). Jej wybrane właściwości: — limx→−∞ FX (x) = 0 — limx→∞ FX (x) = 1 — niemalejąca — P (a ¬ X < b) = FX (b) − FX (a) Należy zwrócić uwagę, że w definicji dystrybuanty występuje ostra nierówność. Mówi się, że zmienna losowa X jest typu dyskretnego jeżeli istnieje co najwyżej przeliczalny zbiór WX = {x1 , . . . , xn , . . .} taki, że: — Prawdopodobieństwo przyjęcia danej wartości xi przez zmienną losową jest niezerowe i wynosi pi ∀i∈N P (X = xi ) = pi > 0 — Wszystkie prawdopodobieństwa pi sumują się do jedności |WX | X pi = 1 i=1 Prawdopodobieństwo P (X = xi ) można obliczyć za pomocą dystrybuanty P (X = xi ) = F (xi+1 ) − F (xi ) 10 Rozdział 2. Zmienne losowe Wynika to z faktu, że w przedziale hxi , xi+1 ) istnieje dokładnie jeden punkt z niezerowym prawdopodbieństwem. Przykład Niech Ω stanowi przestrzeń zdarzeń elementarnych odpowiadającym rzutowi kostką sześciościenną. Niech X przyjmuje wartości odpowiadające liczbie wyrzuconych oczek. Wtedy P (X ∈ {1, 3, 5}) = P ({ω1 , ω3 , ω5 }) = 12 . Dystrybuanta FX przedstawiona jest w poniższej tabeli i na wykresie: x∈ (−∞, 1i (1, 2i (2, 3i (3, 4i (4, 5i (5, 6i (6, ∞) FX (x) 1 6 0 2 6 3 6 4 6 5 6 1 FX (x) 1 0 x 1 6 Zmienna losowa X jest typu ciągłego jeżeli X może przyjąć wszystkie wartości z pewnej sumy przedziałów, a ponadto istnieje funkcja f (t) 0 taka, że Z t FX (x) = f (t) dt −∞ f (t) nazywa się wtedy funkcją gęstości prawdopodobieństwa. Warto zwrócić uwagę, że w związku z ciągłym charakterem zmiennej zachodzi nieintuicyjna sytuacja, w której dla dowolnego c ∈ R P (X = c) = 0. Przykład Niech Ω stanowi przestrzeń zdarzeń elementarnych odpowiadających wyborowi losowej pozycji na odcinku o długości 1m. X jest zmienną losową przypisującą zdarzeniu elementarnemu (jest ich nieprzeliczalnie wiele) odległośc od początku odcinka w centymetrach. Wybór każdego miejsca jest jednakowo prawdopodobny. Wtedy dystrybuanta wyrażona jest wzorem: 0 x¬0 x FX (x) = 100 0 < x ¬ 100 1 x > 100 a odpowiadająca jej funkcja gęstości fX (x) = 0 x¬0 1 100 0 0 < x ¬ 100 x > 100 Łatwo to zrozumieć: nie można wylosować pozycji przed początkiem odcinka ani za jego końcem, gęstość prawdopodobieństwa jest tam więc równa zero. Wszystkie pozostałe zdarzenia są 11 Rozdział 2. Zmienne losowe równoprawdopodobne, gęstośc prawdopodobieństwa musi być więc w tym przedziale stała. Postać dystrybuanty jest naturalną konsekwencją takiej funkcji gęstości. Nalezy uważać, żeby nie pomyłkowo nie utożsamiać gęstości prawdopodobieństwa i prawdopodobieństwa. Prawdopodobieństwo wylosowania jakiejkolwiek konkretnej odległości jest równe 0, natomiast wartość funkcji gęstości w tym punkcie jest niezerowa (o ile mówimy o odległościach mieszczących się w długości odcinka). Funkcja gęstości prawdopodobieństwa nie ma samodzielnej interpretacji, istnieje tylko jako funkcja podcałkowa dla dystrybuanty. Zmienna losowa może stanowić argument funkcji, taka funkcja również stanowi zmienną losową. Przykład Niech X będzie zmienną losową taką jak w poprzednim przykładzie. Y = X 100 jest zmienną losową odpowiadającą odległości od początku odcinka wyrażoną w metrach, jej dystrybuanta przyjmuje następującą postać: 0 x¬0 FY (x) = x 0 < x ¬ 1 1 x > 1 Zmienną losową można charakteryzować za pomocą różnych wartości liczbowych. Nie mówią one oczywiście wszystkie o zmiennej, ale często pozwalają zyskać przynajmniej przybliżony obraz sytuacji: wartość przeciętna (średnia) zmiennej X oznaczana jest jako µX bądź EX czy E(X). E(·) należy traktować jako funkcję odwzorowującą zmienną losową w jej średnią. Dla zmiennej dyskretnej X µX = xi p i xi ∈WX natomiast dla zmiennej ciągłej Z ∞ µX = xf (x) dx −∞ kwantyl rzędu p (dla p ∈ (0; 1)) jest to taka liczba xp , że — dla zmiennej typu dyskretnego: X X pi ¬ p ¬ xi <xp pi xi ¬xp — dla zmiennej typu ciągłego: F (xp ) = p mediana to inaczej kwantyl rzędu 0,5, czyli x0,5 wariancja to średniokwadratowe odchylenie od wartości przeciętnej: 2 σX = D2 X = D2 (X) = E(X − EX)2 odchylenie standardowe pierwiastek z wariancji: σX = DX = q 2 σX 12 Rozdział 2. Zmienne losowe modalna W przypadku zmiennej typu dyskretnego punkt skokowy, któremu odpowiada największa wartość prawdopodbieństwa, a w przypadku zmiennej typu ciągłego punkt, w którym funkcja gęstości przyjmuje wartość największą. Przykład Niech X będzie zmienną odpowiadającą liczbie oczek na kostce, wtedy: 1 1 1 1 1 1 + 2 · + 3 · + 4 · + 5 · + 6 · = 3,5 6 6 6 6 6 6 35 1 1 1 1 1 1 = (1 − 3,5)2 · + (2 − 3,5)2 · + (3 − 3,5)2 · + (4 − 3,5)2 · + (5 − 3,5)2 · + (6 − 3,5)2 · = 6 6 6√ 6 6 6 12 q 35 2 = √ ≈ 1,71 σX = σX 2 3 µX = 1 · 2 σX x0,5 ∈ h3; 4i Niech Y będzie zmienną odpowiadającą pozycji w centymetrach na metrowym odcinku, wtedy: 2 100 100 y y = dy = = 50 100 200 0 2 −∞ 0 100 Z 100 1 y3 1 2 2 2 σY = (y − 50) fY (y) dy = = 833 − 50y + 2500y 100 3 3 0 0 q 50 σY = σY2 = √ ≈ 28,86 3 Z ∞ µY = Z 100 yfY (y) dy = x0,5 = 50 Odchylenie standardowe wygodnie jest interpretować przez pryzmat nierówności Czebyszewa: P (|X − µX | tσX ) ¬ 1 t2 co należy rozumieć jako: prawdopodobieństwo, że zmienna X oddali się od wartości średniej o więcej niż t odchyleń standardowych nie przekracza 1 t2 . Niektóre właśności średniej i wariancji Niech a będzie dowolną stałą wartością, a X i Y dowolnymi zmiennymi losowymi: — E(a) = a — E(aX) = aEX — E(X + a) = EX + a — E(X − EX) = 0 — E(X + Y ) = EX + EY — E(XY ) = EX · EY o ile zmienne X i Y są niezależne — D2 (a) = 0 — D2 (aX) = a2 D2 X — D2 (X + a) = D2 X 13 Rozdział 2. Zmienne losowe — D2 (X ± Y ) = D2 X + D2 Y o ile zmienne X i Y są niezależne — D2 X = EX 2 − E 2 X warto zapamiętać tę równość, gdyż istotnie ułatwia obliczenia Niezależność zmiennych losowych Zmienne losowe X i Y nazywa się niezależnymi jeżeli dla dowolnych rozsądnych zbiorów A, B ⊆ R zachodzi P ({ω ∈ Ω|X(ω) ∈ A ∧ Y (ω) ∈ B}) = P ({ω ∈ Ω|X(ω) ∈ A) P ({ω ∈ Ω|Y (ω) ∈ B}) 2.1. Wybrane rozkłady dyskretne Rozkład równomierny dyskretny jest to rozkład o skończonej liczbie punktów skokowych, z których każdy jest równoprawdopodobny: P (X = xi ) = 1 |WX | Rozkład zero–jedynkowy z parametrem p ∈ (0; 1) jest to rozkład o dwóch punktach skokowych: P (X = 1) = p P (X = 0) = 1 − p EX = 0 · (1 − p) + 1 · p = p 2 2 D = (−p) · (1 − p) + (1 − p)2 · p = p2 − p3 + p − 2p2 + p3 = p − p2 = p(1 − p) Odpowiada on pojedynczemu przeprowadzeniu doświadczenia o binarnym wyniku, np. rzut monetą. Rozkład dwumianowy (Bernouliego) z parametrami n ∈ N oraz p ∈ (0; 1) jest to rozkład odpowiadający n-krotnemu powtórzeniu doświadczenia z binarnym wynikiem n k P (X = k) = p (1 − p)n−k k ∈ {0, 1, . . . , n} k Łatwo zauważyć, że skoro jest to n-krotne, niezależne powtórzenie doświadczenia o rozkładzie zero–jedynkowym (oznaczonymi przez zmienne Y1 , Y2 , . . . , Yn ), to na mocy podanych wcześniej właściwości średnich i wariancji zachodzi: EX = E(Y1 + Y2 + . . . + Yn ) = np D2 X = D2 (Y1 + Y2 + . . . + Yn ) = np(1 − p) Wartości najbardziej prawdopodobne (modalne) to (n + 1)p − 1 oraz (n + 1)p o ile (n + 1)p jest wartością całkowitą, a b(n + 1)pc w przeciwnym razie. 14 Rozdział 2. Zmienne losowe Przykład Prawdopodobieństwo wyrzucenia trzykrotnie orła w dziesięciu rzutach monetą wynosi P (X = 3) = 10 3 3 7 8 · 9 · 10 1 120 1 1 = = 10 ≈ 0,12 2 2 2 · 3 210 2 Najbardziej prawdopodobny jest wyrzucenie b(10 + 1) 12 c = 5 razy orła i tyle samo razy reszkę. Rozkład Poissona z parametrem λ > 0 charakteryzuje się następującą funkcją prawdopodobieństwa P (X = k) = e−λ λk k! k ∈ N ∪ {0} Warto zwrócić uwagę, że z rozwinięcia w szereg Maclaurina wynika, że eλ = ∞ X λi i=0 i! W takim razie stosunkowo łatwo obliczyć podstawowe charakterystyki: EX = EX 2 = ∞ X e k −λ λ k=0 ∞ k X −λ λ e k=0 k! ∞ −λ ·k =e X λk λ0 ·0+ ·k 0! k! k=1 ! = e−λ λ ∞ ∞ X X λk−1 λk = e−λ λ =λ (k − 1)! k! k=1 k=0 ! ∞ ∞ ∞ ∞ X X X X λk−1 λk λk λk 2 −λ −λ −λ ·k =e λ ·k =e λ · (k + 1) = e λ ·k+ = k! (k − 1)! k! k! k! k=1 k=0 k=0 k=0 ! ∞ X λk−1 −λ λ e λ λ +e = e−λ λ λeλ + eλ = e−λ λ λeλ + eλ = λ2 + λ (k − 1)! k=1 2 D X = EX 2 − E 2 X = λ2 + λ − λ2 = λ Uwaga: oczywiście tych wyprowadzeń nie należy się uczyć na pamięć, są one przedstawione jako dowód, że charakterystyki są jakie są. Istotnym zastosowaniem rozkładu Poissona jest przybliżenie za jego pomocą rozkładu Bernouliego: n k (np)k Pb (X = k) p (1 − p)n−k ≈ e−np = Pp (X = k) k k! Przyjęło się, że przybliżenie to jest dostatecznie dobre, gdy n 50, p ¬ 0,1, a np ¬ 10. 15 Rozdział 2. Zmienne losowe 2.2. Rozkłady typu ciągłego Rozkład równomierny typu ciągłego o parametrach a < b 1 a¬x¬b f (x) = b−a 0 wpp 0 x¬a F (x) = x−a a<x¬b b−a 1 b¬x b x x2 b2 − a2 a+b EX = dx = = = 2(b − a) a 2(b − a) 2 a b−a Z b 2 3 3 (a + b) b −a (a + b)2 (a − b)2 D2 X = EX 2 − E 2 X = x2 f (x) dx − = − = 4 3(b − a) 4 12 a Z b Rozkład wykładniczy o parametrze λ > 0 1 e− λx x 0 f (x) = λ 0 x<0 0 x<0 F (x) = 1 − e− λx x 0 EX = λ D 2 X = λ2 Rozkład wykładniczy, jako jedyny rozkład ciągły, charakteryzuje się własnością braku pamięci, to znaczy P (X a + b|X a) = P (X b). Łatwo to wykazać: P (X a + b ∧ X a) P (X a + b) 1 − F (a + b) = = = P (X a) P (X a) 1 − F (a) exp − a+b b a+b a λ = e− λ = 1 − F (b) = P (X b) = exp − + a λ λ exp − λ P (X a + b|X a) = Typowo używa się tego rozkładu do modelowania czasu bezawaryjnej pracy urządzenia. Zakłada się wtedy, że dalszy czas bezawaryjnej pracy urządznia nie zależy od tego, ile czasu urządzenie już przepracowało, a więc awaria jest równie prawdopodobna dwie minuty po uruchomieniu jak i po dwóch latach pracy. Wydaje się, że dla elektroniki konsumenckiej (np. laptopy) nie jest to dobry model. Rozkład normalny (Gaussa) o parametrach µ ∈ R, σ > 0 charakteryzowany jest następującą funkcją gęstości: 1 x−µ f (x) = √ exp − 2σ 2 σ 2π 16 Rozdział 2. Zmienne losowe Dystrybuanta tego rozkładu, w przypadku ogólnym, ma skomplikowany i nie wart przytaczania wzór. Bardzo istotna natomiast jest informacja, że wartości dystrybuanty standaryzowanego rozkładu normalnego (to znaczy o parametrach µ = 0, σ = 1) są stablicowane. Warto również zwrócić uwagę na kształt wykresu takiej dystrybuanty, przedstawionego na rysunku ??, który jest środkowosymetryczny względem punktu 0, 21 . Zachodzi w związu z tym F (−x) = 1 − F (x), co jest własnością o tyle istotną, że tablice rozkładu normalnego przygotowywane są tylko dla wartości dodatnich parametru. Fakt, że zmienna losowa X ma rozkład normalny przyjęło się oznaczać przez X ∼ N (µ, σ). Rozkład ten jest niezwykle istotny z dwóch powodów: 1. Wydaje się, że dużo zjawisk w przyrodzie daje się dobrze modelować za pomocą rozkładu normalnego, np. dobowa ilość opadów w Poznaniu. 2. Zachodzi centralne twierdzenie graniczne: jeżeli X1 , X2 , . . . , Xn są niezależnymi zmiennymi losowymi o średniej µ i skończonym odchyleniu standardowym σ, a X ich średnią arytmetyczną, to zachodzi Y = X −µ √σ n zbiega wg. rozkładu do N (0, 1) przy n → ∞. Wynika z tego, że średnia arytmetyczna zmiennych losowych Xi ma rozkład zbliżony do normalnego niezależnie od rozkładu tych zmiennych. Rozdział 3 Dwuwymiarowe zmienne losowe Dwuwymiarowa zmienna losowa to para rozważanych razem zmiennych losowych. Rozkład prawdopodobieństwa wyznaczany jest wtedy dla przyjęcia przez obie zmienne określoncych wartości. Oczywiście możliwe jest też rozważanie zmiennych losowych o większej liczbie wymiarów, nie będą one jednak pojawiały się na zajęciach. Dystrybuanta dwuwymiarowej zmiennej losowej (X, Y ) przyjmuje postać F (x, y) = P (X < x, Y < y) dla dowolnej pary (x, y) ∈ R2 . Zachodzą następujące właśności: lim F (x, y) = 0 x∈R lim F (x, y) = 0 y∈R y→−∞ x→−∞ lim F (x, y) = 1 x→∞ y→∞ Wyraźnie widać, że w przypadku dwuwymiarowym obliczenie prawdopodobieństwa w przedziale przy użyciu dystrybuanty nie jest już takie proste jak w przypadku jednowymiarowym. Zachodzi następująca, nieoczywista na pierwszy rzut oka, równość: P (x1 ¬ X < x2 , y1 ¬ Y < y2 ) = F (x2 , y2 ) − F (x1 , y2 ) − F (x2 , y1 ) + F (x1 , y1 ) Łatwo ją jednak uzasadnić: dystrybuanta pokrywa pewien obszar przestrzeni dwuwymiarowej. I tak, F (x2 , y2 ) odpowiada prostokątowi od (−∞, −∞) do (x2 , y2 ), z którego usuwa się następnie prostokąty od (−∞, −∞) do (x1 , y2 ) oraz od (−∞, −∞) do (x2 , y1 ). Jednak, uwaga, wykonanie tych operacji skutkuje dwukrotnym usunięciem prostokąta od (−∞, −∞) do (x1 , y1 ), należy więc go dodać (stąd ostatnie dodawanie F (x1 , y1 )). Zmienne typu dyskretnego definiuje się analogicznie jak zmienne jednowymiarowe. Dla zmiennej (X, Y ) koniecznym jest istnienie co najwyżej przeliczalnych zbiorów WX i WY takich, że: P (X = xi , Y = yj ) = pi,j > 0 xi ∈ WX , yj ∈ WY X X pi,j = 1 xi ∈WX yj ∈WY 18 Rozdział 3. Dwuwymiarowe zmienne losowe czyli zbiór WX × WY wyczerpuje wszystkie pary punktów, których wartości zmienna może przyjąć (istnieje na to niezerowe prawdopodobieństwo). W przypadku tych zmiennych prawdopodobieństwa wygodnie reprezentować w postaci tablicy dwudzielczej : x1 x2 ... xm y1 p1,1 p2,1 ... pm,1 p·,1 y2 .. . p1,2 .. . p2,2 .. . ... .. . pm,2 .. . p·,1 .. . yn p1,n p2,n ... pm,n p·,n p1,· p2,· ... pm,· 1 Przy czym wartości z kropkami stanowią sumy w odpowiednich wierszach bądź kolumnach. Są to prawdopodobieństwa (rozkłady) brzegowe, czyli prawdopodobieństwo tego, że zmienna przyjmie określoną wartość na jednej pozycji i dowolną na drugiej: P (X = xi ) = X pi,j = pi,· yj ∈WY P (Y = yj ) = X pi,j = p·,j xi ∈WX Oczywiście istnienie rozkładów brzegowych pociąga za sobią istnienie dystrybuant brzegowych: FX (x) = P (X < x, ·) = X X pi,j xi ∈WX yj ∈WY xi <x FY (y) = P (·, Y < y) = X X pi,j xi ∈WX yj ∈WY yj <y Dla zmiennej typu ciągłego (X, Y ) wymaganym jest, by istniała taka nieujemna dwuwymiarowa funkcja gęstości prawdopodobieństwa f (x, y) określona dla dowolnych (x, y) ∈ R2 , że Z x Z y F (x, y) = f (u, v) dv du −∞ −∞ gdzie oczywiście F (x, y) jest dystrybuantą tej zmiennej. Konsekwentnie wprowadza się rozkłady brzegowe przez ich funkcje gęstości i dystrybuanty: Z ∞ Z x fX (x) = f (x, y) dy FX (x) = fX (u) du = lim F (x, y) y→∞ −∞ −∞ Z ∞ Z y fY (y) = f (x, y) dx FY (y) = fY (u) du = lim F (x, y) −∞ −∞ x→∞ 19 Rozdział 3. Dwuwymiarowe zmienne losowe 3.1. Rozkłady warunkowe Skoro rozważany jest stan obu zmiennych na raz, możliwe jest wprowadzenie rozkładów warunkowych, czyli prawdopodobieństw, że jedna zmienna przyjmie daną wartość pod warunkiem, że druga zmienna przyjmuje jakąś wartość. Dla zmiennych dyskretnych: pi,j p·,j pi,j P (Y = yj |X = xi ) = pi,· P (X = xi |Y = yj ) = (p·,j > 0) X F (x|yj ) = pi,j xi <x (pi,· > 0) X F (y|xi ) = pi,j yj <y Dla zmiennych ciągłych (fY (y) > 0, x ∈ R): Z x Z x 1 f (x, y) f (u, y) du F (x|y) = f (u|y) du = f (x|y) = fY (y) fY (y) −∞ −∞ i w drugą stronę (fX (x) > 0, y ∈ R): f (y|x) = f (x, y) fX (x) Z y F (y|x) = f (v|x) dv = −∞ 1 fX (x) Z y f (x, v) dv −∞ 3.2. Niezależność Zmienne w zmiennej dwuwymiarowej są niezależne (wtedy i tylko wtedy) gdy zachodzi jeden z poniższych warunków dla dowolnych (x, y) ∈ R2 : P (X = x, Y = y) = P (X = x)P (Y = y) F (x, y) = FX (x)FY (y) f (x, y) = fX (x)fY (y) dla zmiennych ciągłych F (x|y) = FX (x) ∧ F (y|x) = FY (y) 3.3. Charakterystyki Analogicznie jak dla zmiennych losowych jednowymiarowych, dla zmiennych losowych dwuwymiarowych można zdefiniować pewne charakterystyki podsumowujące reprezentowany przez zmienne rozkład prawdopodobieństwa. W ogólności rozważa się momenty zwykłe mieszane rzędu r + s dwuwymiarowej zmiennej losowej (X, Y ), rozumiane jako wartość przeciętna zmiennej losowej reprezentującej iloczyn X r Y s : P P r s dla zmiennych dyskretnych i j xi yj pi,j E(X r Y s ) = R R ∞ ∞ xr y s f (x, y) dy dx dla zmiennych ciągłych −∞ −∞ 20 Rozdział 3. Dwuwymiarowe zmienne losowe Odpowiednikiem wartości średniej z przypadku jednowymiarowego jest wektor wartości średnich (EX, EY ), natomiast odpowiednikiem wariancji jest macierz kowariancji " D2 X cov(X, Y ) cov(X, Y ) D2 Y # przy czym wartość cov(X, Y ) nazywa się kowariancją i definiuje w nastepujący sposób: cov(X, Y ) = E [(X − EX)(Y − EY )] = E(XY ) − EXEY Łatwo zauważyć, że dla niezależnych zmiennych losowych X, Y cov(X, Y ) = 0, przy czym nie zachodzi twierdzenie odwrotne. Skoro rozważa się rozkłady warunkowe, to konsekwentnie buduje się też charakterystyki warunkowe. Warunkowa wartość średnia dla zmiennych typu skokowego przyjmuje postać E(X|Y = yj ) = X xi P (X = xi |Y = yj ) i natomiast dla zmiennych typu ciągłego Z ∞ E(X|Y = yj ) = x −∞ f (x, y) dx f2 (y) 3.4. Korelacja Kowariancja stanowi nieunormowaną miarę współzależności między zmiennymi. Jej unormowaną i szeroko stosowaną postacią jest współczynnik korelacji %= cov(X, Y ) DX · DY dla którego zachodzi |%| ¬ 1, przy czym: % = 1 zmienne powiązane są idealną, dodatnią zależnością liniową, tzn. istnieje takie a > 0, że Y = aX + b % = −1 zmienne powiązane są idealną, ujemną zależnością liniową, tzn. istnieje takie a < 0, że Y = aX + b Koniecznie trzeba zapamiętać, że fakt, że dwie zmienne są skorelowane nie oznacza, że wartości przyjmowane przez jedną wynikają z wartości przyjmowanych przez drugą. Dwa ciekawe odnośniki dotyczące korelacji: — dlaczego korelacja to nie wynikanie: http://xkcd.com/925/ — o związkach wykrywanych i niewykrywanych przez współczynnik korelacji: http://pl. wikipedia.org/w/index.php?title=Plik:Correlation_examples.png 21 Rozdział 3. Dwuwymiarowe zmienne losowe 3.5. Regresja Linią regresji I rodzaju zmiennej Y względem zmiennej X nazywa się wykres funkcji m(x) = E(Y |X = x) czyli funkcję reprezentującą wartość średnią zmiennej Y przy założeniu danej wartości zmiennej X. Taką funkcję można potraktować jako funkcję tłumaczącą zmienną Y w kategoriach zmiennej X, tzn. znając wartość zmiennej losowej X możemy oszacować odpowiadającą jej wartość zmiennej losowej Y . Oczywiście takie oszacowanie jest obarczone pewnym błędem, można jednak wykazac, że jakiej by funkcji nie przyjąć nie da się osiągnąć mniejszego błędu średniokwadratowego niż dla funkcji zdefiniowanej w ten sposób, tzn. zachodzi 2 E (Y − m(X)) = min E (Y − g(X)) g Prostą regresji II rodzaju zmiennej Y względem zmiennej X nazywa się prostą aX + b o tak dobranych współczynnikach a, b, że średniokwadratowe odchylenie ε od wartości zmiennej Y jest możliwie małe ε = E (Y − (aX + b)) 2 Współczynniki takie można na szczęście wyznaczyć analitycznie korzystając z nastepujących równości: DY b = EY − aEX DX Stosowanie regresji w postaci prostej nie zawsze ma sens. Na przykład, dla zmiennych związanych a=% zależnością kwadratową Y = X 2 , zastosowanie przybliżenia prostą minie się z celem. Odpowiedzią, czy warto stosować proste regresji II rodzaju jest analiza współczynnika korelacji. Przyjmuje się, że jeżeli |%| 0,75 to próby modelowania jednej zmiennej za pomocą drugiej przy wykorzystaniu regresji II rodzaju mają sens.