Zapisz jako PDF

Transkrypt

Zapisz jako PDF
Wnioskowanie_Statystyczne_-_wykład
Spis treści
1 Rozkład Gaussa
2 Centralne Twierdzenie Graniczne
2.1 Twierdzenie Lindeberga — Levy'ego
2.2 Dowód
2.2.1 funkcja tworząca sumy zmiennych niezależnych
2.2.2 pochodna funkcji tworzącej
2.2.3 związek pochodnej funkcji tworzącej z momentami zmiennej losowej
2.2.4 transformata Fouriera funkcji Gaussa
2.2.5 Wróćmy do dowodu
Rozkład Gaussa
Rozkład Gaussa (zwany też rozkładem normalnym lub krzywą dzwonową) zależy od parametrów
. Jego gęstość prawdopodobieństwa określona jest wzorem:
Parametry te są tak dobrane, że wartość oczekiwana wynosi , a wariancja
wstawiając (1) do wzorów na wartość oczekiwaną i wariancję.
i
, co można sprawdzić
, czyli standardowy rozkład Gaussa o
zerowej średniej (
) i jednostkowej
wariancji (
).
Rozkład Gaussa dla zerowej wartości oczekiwanej i jednostkowej wariancji (
) zwiemy
standardowym rozkładem Gaussa i oznaczamy zwykle
. Przedstawia go rysunek %i 1.
Zaznaczono na nim m. in. wartość całki od
do
, czyli prawdopodobieństwo, że wylosowana z
tego rozkładu liczba będzie mniejsza niż
. Jak widać, wynosi ono ok. 16%, a jeśli weźmiemy pod
uwagę również wartości większe od 1, będzie to aż 32%! Oznacza to, że przy losowaniu wielu liczb z
tego rozkładu prawie dwie spośród pięciu mogą znaleźć się w odległości większej niż od wartości
oczekiwanej. Warto o tym pamiętać, gdyż odchylenie standardowe bywa czasami nazywane
"błędem". Stwierdzenie "w granicach błędu" może odnosić się raczej np.do wartości 3 :
prawdopodobieństwo wylosowania wartości oddalonej od średniej o więcej niż
dla rozkładu
Gaussa wynosi zaledwie 0,3 wartości prawdopodobieństw odchyleń większych niż
dla
zmiennych z rozkładu normalnego:
Należy jednak pamiętać, że gęstość prawdopodobieństwa dana równaniem (1) zanika w
nieskończoności tylko asymptotycznie, i dlatego w świetle tego rozkładu prawdopodobieństwo
wylosowania dowolnej wartości będzie niezerowe (choć dla większości niezmiernie małe). Prowadzi
to czasem do paradoksów, jak np. niezerowe prawdopodobieństwo ujemnej masy.[1] Jest to cena za
korzystanie ze zwięzłej i eleganckiej postaci analitycznej rozkładu.
Centralne Twierdzenie Graniczne
Rozkład Gaussa pełni w statystyce bardzo znaczącą rolę ze względu na Centralne Twierdzenie
Graniczne , według którego rozkład sumy dużej liczby zmiennych losowych o podobnych
wielkościach [2] dąży (przy liczbie sumowanych zmiennych dążących do nieskończoności) do rozkładu
Gaussa. Poniżej przytoczymy dowód tego twierdzenia dla uproszczonego przypadku sumy zmiennych
pochodzących z tego samego rozkładu.[3]
Twierdzenie Lindeberga — Levy'ego
Zakładamy, że są niezależnymi zmiennymi podlegającymi (dowolnemu) rozkładowi o skończonej
wartości oczekiwanej i wariancji . Dla
, wielkość
podlega rozkładowi normalnemu o wartości średniej 0 i wariancji 1.
Dowód
W dowodzie skorzystamy z pojęcia funkcji tworzącej (charakterystycznej) rozkładu. Dla zmiennej
losowej jest to wartość oczekiwana wyrażenia
, gdzie
. Dla rozkładów ciągłych jest to
transformata Fouriera funkcji gęstości prawdopodobieństwa
:
Użyteczne będą poniższe związki, które wyprowadzić można bezpośrednio z definicji:
funkcja tworząca sumy zmiennych niezależnych
Dla niezależnych zmiennych
i :
Dowód:
pochodna funkcji tworzącej
Bezpośrednio z definicji (różniczkujemy po , więc przy każdym różniczkowaniu spada nam z
wykładnika , zostaje pod całką a jako stała wychodzi przed całkę) widać, że:
związek pochodnej funkcji tworzącej z momentami zmiennej losowej
-ta pochodna funkcji tworzącej w zerze (czyli dla
) wynosi
transformata Fouriera funkcji Gaussa
Funkcja tworząca rozkładu normalnego o wartości oczekiwanej 0 i jednostkowej wariancji będzie
miała postać
ponieważ funkcja
jest antysymetryczna, druga całka znika. Dostajemy
Dla części symetrycznej znajdujemy w tablicach całkę oznaczoną
po wymnożeniu przez 2 i podstawieniu
i
dostajemy
czyli
W analizie sygnałów wynik ten będzie oznaczał, że transformacja Fouriera funkcji Gaussa
jest funkcją Gaussa.
Wróćmy do dowodu
interesuje nas suma zmiennych o wartości oczekiwanej
jednej zmiennej możemy rozwinąć w szereg Taylora
wokół
. Rozpatrzmy zmienną
Pzypomnijmy (6)
czyli funkcja tworząca
przesuniętą względem
i wariancji
o
. Funkcję tworzącą dla
i przeskalowaną czynnikiem
; wynika stąd, że
,
,a
rozwinięta w szereg Taylora (7) będzie miała postać
:
,
Korzystając ze wzoru (4) możemy przedstawić pierwsze wyrazy rozwinięcia Taylora sumy
,
odpowiadającej transformacji (3) z dowodzonego twierdzenia, jako iloczyn funkcji tworzących (8):
Przy przejściu z
dostajemy
do nieskończoności (i konsekwentnym pomijaniu wyrazów wyższego rzędu)
czyli funkcję tworzącą rozkładu normalnego, bo
Ilustracja działania Centralnego Twierdzenia
Granicznego. Zmienną bierzemy z
rozkładu równomiernego, kolejne
histogramy przedstawiają sumę 2, 3 i 4
zmiennych dla \mbox{10 000} losowań.
Widać dużą zgodność z dopasowanym
rozkładem normalnym (ciągła linia) już dla
niewielu sumowanych zmiennych.
Rysunek 2 ilustruje powyższe twierdzenie dla przypadku sumy zmiennych pochodzących z rozkładu
równomiernego. Jak widać, już dla sumy 3 zmiennych rozkład wydaje się bardzo podobny do
normalnego. Niestety, często istotne bywają różnice w ,,ogonach, czyli dla wartości bardzo dużych
lub bardzo małych. Otóż według wzoru wartości gęstości prawdopodobieństwa rozkładu normalnego
dążą do zera dla dużych wartości bezwzględnych zmiennej asymptotycznie, lecz zera faktycznie nie
osiągają. Inaczej mówiąc, prawdopodobieństwo wylosowania dowolnie dużej wartości z rozkładu
Gaussa będzie małe, ale nie zerowe. Za to suma np. czterech zmiennych z rozkładu równomiernego
od zera do jedynki (prawy dolny wykres rys. 2) nie przekroczy nigdy wartości 4, czyli
prawdopodobieństwo dla
będzie dokładnie zerem. I choć w skali rysunku 2 efekt ten jest
prawie niewidoczny, warto pamiętać, że testy oparte na założeniu normalności rozkładów często
operują właśnie w okolicach tych "ogonów", gdzie przybliżenie rozkładu normalnego, uzyskane za
pomocą tej prostej procedury, zawodzi.
1. ↑ Gaussowski rozkład pomiarów jakiejkolwiek masy, określony dodatnimi wartościami i ,
będzie wykazywał nieujemne — choć zapewne bardzo małe — prawdopodobieństwo również
dla ujemnych wartości zmiennej losowej, którą w tym przypadku będzie mierzona masa.
2. ↑ Chodzi o to, aby żadna ze zmiennych w tej sumie nie dominowała nad innymi.
3. ↑ Dokładniejsze sformułowania Twierdzenia można znaleźć np. w książce "Probabilistyka.
Rachunek Prawdopodobieństwa. Statystyka matematyczna. Procesy stochastyczne" Agnieszki i
Edmunda Plucińskich.

Podobne dokumenty