Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady
Transkrypt
Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady
Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe Nierówność Czebyszewa Niech X będzie zmienną losową o skończonej wariancji V ar(X). Wtedy wartość oczekiwana E(X) też jest skończona i dla każdego t > 0 zachodzi nierówność: V ar(X) . t2 P (|X − E(X)| > t) ¬ Równoważnie: P (|X − E(X)| ¬ t) 1 − V ar(X) . t2 Zastosowanie nierówności Czebyszewa Chcemy wykonać 10 000 rzutów symetryczną moneta. Jakie jest prawdopodobieństwo tego, że liczba uzyskanych orłów będzie zawarta w przedziale: • [4000, 6000]? • [4500, 5500]? • [4900, 5100]? • [4950, 5150]? Rozwiązanie Liczba orłów w 10 000 rzutów ma rozkład Bernoulliego z parametrami p = Stąd • P (S10 000 = k) = ! 1 10 000 10 000 k 2 • Zatem P (4000 ¬ S10 000 ¬ 6000) = 6000 X = pk . pk = k=4000 • 1,00000000000000 (14 zer) — wynik programu „Mathematica” • W przypadku przedziału [4500, 5500] — wynik taki sam. • W przypadku przedziału [4900, 5100] 0,95557420095392. • W przypadku przedziału [4950, 5050] 0,68750479048932. • W przypadku przedziału [4850, 5150] 0,99738926209332. A gdy nie mamy komputera? Zastosujemy nierówność Czebyszewa dla E(Sn ) = np = 5000, V ar(Sn ) = np(1 − p) = 2500. • P (4000 ¬ S10 000 ¬ 6000) = = P (|S10 000 − 5000| ¬ 1000) 1 − 1 2500 25 =1− = 0, 9975. 2 1000 10000 1 2 oraz n = 10 000. • P (4500 ¬ S10 000 ¬ 5500) = 1 2500 =1− = 0, 99. = P (|S10 000 − 5000| ¬ 500) 1 − 2 500 100 • P (4900 ¬ S10 000 ¬ 5100) = 1 2500 = 1 − = 0, 75. = P (|S10 000 − 5000| ¬ 100) 1 − 2 100 4 Czy to przypadek? Powróćmy do obliczeń dokładnych: dla odchylenia liczby orłów od średniej 5000: • o ±50 dostaliśmy prawdopodobieństwo 0,68750479048932; • o ±100 dostaliśmy prawdopodobieństwo 0,95557420095392; • o ±150 dostaliśmy prawdopodobieństwo 0,99738926209332. • Podobne liczby już spotkaliśmy. Kiedy? √ • Tutaj mamy σ = 2500 = 50. Deska Galtona Przy doświadczeniu z deską Galtona • Słupki wskazujące częstości kul w kolejnych przegródkach układały się w kształcie krzywej Gaussa. • Tak jest nie tylko dla monety z p = 12 , ale ogólnie w przypadku schematu Bernoulliego (po odpowiednim unormowaniu). • Odkryto to w XVIII wieku. Twierdzenie de Moivre’a – Laplace’a Jeżeli Sn oznacza liczbę sukcesów w schemacie Bernoulliego z parametrami n oraz p ∈ (0, 1), to dla dowolnych −∞ ¬ a < b ¬ ∞ mamy ! lim P n→∞ Sn − np a< p <b np(1 − p) Z b = a x2 1 √ e− 2 dx = Φ(b) − Φ(a). 2π Zastosowanie do zadania. W zadaniu mieliśmy n = 10 000, p = 21 , skąd E(S10 000 ) = 5000 i 50. Zatem twierdzenie de Moivre’a – Laplace’a mówi, że • P (4000 ¬ S10 000 ¬ 6000) = =P 4000 − 5000 S10 000 − 5000 6000 − 5000 ¬ ¬( 50 50 50 ≈ P (−20 ¬ Z ¬ 20) = 1 Podobnie • P (4900 ¬ S10 000 ¬ 5100) = =P 4900 − 5000 S10 000 − 5000 5100 − 5000 ¬ ¬( 50 50 50 P (−2 ¬ Z ¬ 2) = 0, 95... 2 ≈ p np(1 − p) = • P (4950 ¬ S10 000 ¬ 5050) = =P S10 000 − 5000 5050 − 5000 4950 − 5000 ¬ ¬( 50 50 50 ≈ P (−1 ¬ Z ¬ 1) = 0, 68... Kiedy wolno stosować twierdzenie de Moivre’a – Laplace’a? • Zauważmy, że równość mamy dopiero w granicy! • Okazuje się jednak, że zbieżność jest zwykle tak szybka, iż dla n > 30 mamy całkiem niezłe przybliżenia. Centralne Twierdzenie Graniczne Jeżeli X1 , X2 , ..., Xn , ... są niezależnymi zmiennymi losowymi o jednakowym rozkładzie, o średniej E(X1 ) i wariancji σ 2 to dla dowolnych −∞ ¬ a < b ¬ ∞ mamy X1 + ... + Xn − nE(X1 ) √ <b = lim P a < n→∞ σ n Z b x2 1 √ e− 2 dx = Φ(b) − Φ(a). 2π a Co znaczy w praktyce CTG? • CTG mówi, że gdy dodajemy dużo niezależnych zmiennych o jednakowym rozkładzie, to • odpowiednio unormowana suma ma w przybliżeniu rozkład normalny. • Twierdzenie wyjaśna więc, dlaczego rozkład normalny jest tak powszechny (jest „normalny”). • Na przykład, na błąd pomiaru wpływ ma wiele niezleżnych czynników, które się sumują. • Na wzrost człowieka też. • A na wagę człowieka? Wektor losowy Załóżmy, że dane są dwie zmienne losowe X i Y oraz ich łączny rozkład, to znaczy opisane są wartości obu zmiennych i prawdopodobieństwa z jakimi te wartości są przyjmowane: P (X = xi , Y = yj ) = pij po wszystkich możliwych xi , yj oraz i, j Wektor losowy Takie zmienne możemy zapisać w postaci wektora o dwóch współrzędnych (X, Y ): P ((X, Y ) = (xi , yj )) = pij . Wektor losowy Gdy wektor (X, Y ) przyjmuje tylko skończenie wiele wartości, to jego rozkład wygodnie jest przedstawić za pomocą tabelki: Y \X −1 1 0 3 1 2 Jakie liczby mogą pojawić się w pustych miejscach tabelki? Wektor losowy Załóżmy, że dany jest wektor (X, Y ) i jego rozkład Y \X 0 1 2 −1 0, 2 0, 1 0, 1 1 0, 1 0, 3 0, 2 • Jakie wartości przyjmuje X, a jakie Y ? • Z jakimi prawdopodobieństwami? • Zadanie: Opisać rozkłady zmiennych X i Y . Rozwiązanie Y \X 0 1 2 −1 0, 2 0, 1 0, 1 1 0, 1 0, 3 0, 2 Rozkład zmiennej X możemy przedstawić w tabelce: xi 0 1 2 pi 0, 3 0, 4 0, 3 Rozkłady brzegowe Rozkład pojedynczej zmiennej X (lub Y ) nazywamy rozkładem brzegowym wektora (X, Y ). W rozważanym zadaniu mamy • Dla zmiennej X: xi 0 1 2 pi 0, 3 0, 4 0, 3 • Dla zmiennej Y : −1 1 0, 4 0, 6 yj pj Obliczenia dla rozkładów brzegowych Znając rozkłady brzegowe wektora (X, Y ), to znaczy rozkłady zmiennych X oraz Y , możemy obliczyć ich: • wartości oczekiwane, • wariancje, • inne parametry. Ponieważ xi 0 1 2 , więc pi 0, 3 0, 4 0, 3 E(X) = 0 · 0, 3 + 1 · 0, 4 + 2 · 0, 3 = 1, V ar(X) = (0 − 1)2 · 0, 3 + (1 − 1)2 · 0, 4 + (2 − 1)2 · 0, 3 = 0, 3 + 0, 3 = 0, 6. Podobnie liczymy E(Y ) = ... oraz V ar(Y ) = .... Rozkład sumy X + Y Gdy dany jest rozkład łączny (X, Y ), to możemy łatwo obliczyć rozkłady 4 • sumy X + Y , • różnicy X − Y , • iloczynu XY , • ilorazu X/Y (o ile mianownik nie zeruje się). • W naszym przykładzie X + Y przyjmuje wartości −1, 0, 1, 2, 3 z prawdopodobieństwami ... Niezależność zmiennych Znając rozkład wektora (X, Y ) czyli rozkład łączny pary X, Y , możemy badać niezależność zmiennych X i Y. • Czy zmienne, opisane w tabelce są niezależne? • Jak łatwo poznać z tabelki, czy zmienne są niezależne? Czy X i Y są niezależne? Przypomnijmy definicję niezależności zmiennych o rozkładach dyskretnych: X i Y są niezależne, gdy dla wszystkich możliwych wartości xi , yj , jakie te zmienne przyjmują zachodzi równość P (X = xi , Y = yj ) = P (X = xi ) · P (Y = yj ). • Czy nasze zmienne X, Y mają tę własność? • Sprawdźmy: P ((X, Y ) = (0, −1)) = 0, 2 • P (X = 0) · P (Y = −1) = 0, 3 · 0, 4 = 0, 12. • Te zmienne są zależne! Niezależność zmiennych zadanych tabelką Zmienne X i Y są niezależne, gdy rozkład łączny jest produktem rozkładów brzegowych, to znaczy prawdopodobieństwa w tabelce są iloczynami odpowiednich prawdopodobieństw brzegowych. Jakie liczby należy wpisać w tabelkę, aby dla X i Y o zadanych rozkładach brzegowych zmienne te były niezależne? Rozkład wektora losowego (X, Y, Z) W przypadku wektorów o większej liczbie współrzędnych wszystkie rachunki są analogiczne, ale dłuższe. A rozkład wektora (X, Y, Z) powinien być zadany „tabelką trójwymiarową”. Kowariancja Miarą zależności zmiennych jest ich kowariancja cov(X, Y ) = E(XY ) − E(X)E(Y ). • Wiemy już, jak obliczyć E(X) i E(Y ). • Znając rozkład wektora (X, Y ) (czyli wartości w tabelce), możemy obliczyć E(XY ): 5 • E(XY ) = X xi yj pij . i,j • W naszym zadaniu E(XY ) = = 0 + 1 · (−1) · 0, 1 + 2 · (−1) · 0, 1 + 0 + 1 · 1 · 0, 3 + 1 · 2 · 0, 2 = 0, 4, skąd cov(X, Y ) = 0, 4 − 1 · 0, 2 = 0, 2. Współczynnik korelacji Ponieważ kowariancja może być bardzo duża, więc normuje się ją, dzieląc przez pierwiastek z iloczynu wariancji: ρXY = p E(XY ) − E(X)E(Y ) cov(X, Y ) = p . V ar(X)V ar(Y ) V ar(X)V ar(Y ) W naszym zadaniu ρXY = ... • Współczynnik korelacji jest zawarty pomiędzy −1 i 1: |ρxy | ¬ 1. • Gdy ρXY = ±1, to zmienne są bardzo silnie zależne: • albo Y = aX + b albo X = AY + B. • Gdy zmienne X i Y są niezależne, to cov(X, Y ) = 0, • ale nie na odwrót! 6