Probabilistyka i statystyka

Transkrypt

Probabilistyka i statystyka
Probabilistyka i statystyka - Teoria
by Antek Grzanka, TI AGH 2012
wersja z 12 czerwca 2013
1
Prawdopodobieństwo
1. Aksjomatyczna definicja prawdopodobieństwa Kołmogorowa:
• P (E) ­ 0 - prawdopodobieństwo dowolnego zdarzenia jest większe lub równe 0
• P (Ω) = 1 - prawdopodobieństwo wystąpienia zdarzenia elemetarnego jest równe 1
P
• P (E1 ∪ E2 ∪ E3 ∪ . . .) = i P (Ei ) - prawdopodobieństwo zdarzenia, które jest sumą rozłącznych
zdarzeń, obliczamy jako sumę prawdopodobieństw tych zdarzeń.
2. Cechy prawdopodobieństwa
• P (∅) = 0
• P (A0 ) = 1 − P (A)
• A ⊂ B => P (B\A) = P (B) − P (A)
• P (A) ¬ 1
• P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
3. Prawdopodobieństwo warunkowe
P (A|B) = P P(A∩B)
(B)
wiemy, że B zaszło, zatem Ω zawęża się do B a A zawęża się do A ∩ B
4. Prawdopodobieństwo wylosowania konkretnej liczby rzeczywistej jest zawsze równe zero! - możemy
wylosować tylko do pewnej dokładności, na przykład 0,500 to tak naprawdę przedział od 0,4995(9) do
0,5004(9).
5. Prawdopodobieństwo
całkowite
Pn
P (A) = i=1 P (A|Bi ) · P (Bi )
6. Wzór Bayesa
i )·P (Bi )
i)
= PnP (A|B
P (Bi |A) = P (A∩B
P (A)
P (A|B )·P (B
i=1
i
i)
7. Niezależność zdarzeń
P (A) · P (B) = P (A ∩ B) <=> zdarzenia są niezależne
niezależność w matematyce zawsze jest dwustronna, tj. jeśli A nie zależy od B to B nie zależy od A
niezależności nie można mylić z wykluczaniem się
2
Zmienna losowa
1. Zmienna losowa to funkcja przypisująca zdarzeniom elementarnym liczby. Intuicyjnie: odwzorowanie
przenoszące badania prawdopodobieństwa z niewygodnej przestrzeni probabilistycznej do dobrze znanej przestrzeni euklidesowej. To żadna konkretna wartość, za każdym razem gdy ją losujemy
jest inna.
2. Zmienna losowa może być
• ograniczona dyskretna - np. ocena jakości od 1 do 5
• ograniczona ciągła - np. procent wykorzystania pasma
• nieograniczona dyskretna - np. numer karty sim
• nieograniczona ciągła - np. czas rozmowy telefonicznej
1
3. Dystrybuanta
Rx
FX (x) = P (X ¬ x) = −∞ f (u)du
Cechy dystrybuanty:
• FX (−∞) = 0
• FX (∞) = 1
• FX (x) jest niemalejąca
• FX (x) jest prawostronnie ciągła
4. Gęstość
x (x)
f (x) = ∂F∂x
Cechy gęstości:
• f (x) ­ 0
R∞
• −∞ f (x)dx = 1
5. GęstośćR brzegowa
∞
fx (x) = −∞ f (x, y)dy lub
R∞
fy (y) = −∞ f (x, y)dx
całkujemy po tych zmiennych, których nie chcemy
mówimy o niej wtedy, gdy obserwujemy tylko jedną zmienną, ale daną mamy gęstość po obu
6. Zmienne losowe są niezależne gdy
FX,Y (x, y) = FX (x) · FY (y) lub f (x, y) = fx (x) · fy (y)
3
Parametry rozkładów
O parametrach rozkładu mówimy po to, żeby jeszcze łatwiej było nam porównywać zdarzenia. Dzięki
nim porównujemy liczby, a nie gęstości czy dystrybuanty. Tracimy jednak sporą część informacji, które mimo
wszystko są ważne do podjęcia decyzji.
1. Wartość oczekiwana
Wartość określająca spodziewany wynik doświadczenia losowego. Określa sprawiedliwość gry.
R∞
P∞
• Definicja: dyskretnie E(X) = i=1 i · pi , ciągle E(x) = −∞ x · f (x)dx
R∞
• w szczególności E(ϕ(X)) = −∞ ϕ(x) · f (x)dx
R∞
R∞
• można też wielowymiarowo: E([X; Y ]) = [ −∞ x · fx (x)dx; −∞ y · fy (y)dy] - gęstości brzegowe
• jest liniowa: E(X + Y ) = E(X) + E(Y )
2. Wariancja
• Definicja: D2 (X) = E((X − E(X))2 )
• ale łatwiej liczyć z D2 (X) = E(X 2 ) − E 2 (X)
3. Odchylenie
standardowe
p
σ = D2 (X)
Jest to odchylenie zmiennej losowej X od swojej wartości oczekiwanej.
4. Kowariancja
Cov(X, Y ) = E(XY ) − E(X) · E(Y )
5. Wariancja wielowymiarowa
wariancji-kowariancji
- Macierz
D2 X
Cov(X, Y )
np. dla dwóch wymiarów
Cov(Y, X)
D2 Y
2
6. Moment centralny rzędu n
µn = E((X − E(X))n )
zauważmy, że moment centralny rzędu 2 to wariancja
ponadto moment centralny rzędu 1 to 0
7. Moment zwykły rzędu k
mk = E(X k )
zauważmy, że moment zwykły rzędu 1 to wartość oczekiwana
ponadto moment zwykły rzędu 0 to 1
8. Moda (dominanta)
dyskretnie: d = i : pi = maxj pj , ciągle: d = x : f (x) = maxi f (i)
nie musi zawsze istnieć (np dla równomiernego nie istnieje)
może istnieć tylko jedna
9. Skośność
Ad = E(X)−d
σ
przesunięcie rozkładu względem wartości średniej
10. Kwantyl rzędu p - xp
F (xp ) ­ p
} => F (xp ) = p
P (X ∈ [xp , ∞)) ­ 1 − p
np. kwantyl rzędu 0.5 (mediana) znaczy że dokładnie połowa obserwacji jest za jego wartością, a
połowa przed
kwantyl rzędu 0.25 analogicznie mówi, że 0.25 obserwacji jest przed nim, a 0.75 za nim.
jeżeli dystrybuanta jest odwracalna, to kwantyl jest jej odwrotnością
4
Rozkłady
1. Równomierny X ∼ U (a, b)
f (x) =
1
b−a 1(a,b) (x)
F (x) =

 0
x
b−a

2. Eksponencjalny X ∼ Exp(λ)
3
1
x¬a
x ∈ (a, b]
x>b
f (x) = λe−λx 1[0,∞) (x)
F (x) =
0
1 − e−λx
x¬0
x>0
3. Gamma X ∼ Γ(α, β)
4. Normalny X ∼ N (µ, σ)
warto zapamiętać, że parametrami rozkładu normalnego są µ - wartość oczekiwana i σ - odchylenie
standardowe
5. Weibull X ∼ W eibull(λ, k)
4
6. Pareto X ∼ P areto(α, β)
7. Centralne twierdzenie graniczne uzasadnia nam, czemu w przyrodzie powszechnie występują rozkłady normalne.
Suma niewiele zależnych od siebie składników losowych, z których żaden nie dominuje istotnie nad
pozostałymi, ma w przybliżeniu rozkład normalny.
Pn
X −µ
i=1 xi − nµ
√
∼ N (0, 1) lub
∼ N (0, 1)
√σ
σ n
n
Uwaga: centralne twierdzenie graniczne nie sprawi, by przy dostatecznie dużej próbie rozkład stał się
normalny. Jedynie rozkład średniej z tej próby upodabnia się do normalnego.
5
Statystyka
1. Statystyka (nauka) jest po to, żeby na podstawie możliwie małej próby móc wywnioskować o parametrach rozkładu u całej populacji. Na przykład na podstawie zmierzenia wzrostu 3000 osób móc
wnioskować o tym jaki jest średni wzrost każdego Polaka. Często niemożliwe jest żeby zmierzyć dokładnie wartość oczekiwaną z całej populacji (nie da rady zmierzyć dosłownie każdego Polaka).
2. Kłopotem jest odpowiedni dobór próby. Próba obciążona, to taka w której faworyzujemy pewne cechy
lub wydarzenia np. wśród 3000 mierzonych przez nas osób połowa gra w koszykówkę. Wiadomo, że
wtedy średnia wzrostu obliczona ze zmierzonych wartości będzie się miała nijak do prawdziwej średniej
obliczonej ze wszystkich Polaków (czyli notabene: wartości oczekiwanej). Dlatego też próby obciążone
są niepożądane.
3. Statystyką nazywamy też funkcję operująca na zmiennych losowych Θ(X1 , X2 , ..., Xn ). Szczególnym
jej przypadkiem jest właśnie estymator czyli statystyka służąca nam do przybliżania parametru
rozkładu. Zakładamy, że rozkład szukanej cechy jest np. normalny i szukamy np. wartości oczekiwanej. Potrzebujemy zatem znaleźć jakiś jej estymator. Dobrym jest średnia arytmetyczna wszystkich
pomiarów.
5
4. Estymator może być:
• Nieobciążony - spełnia wszystkie warunki do tego, żeby dobrze przybliżyć nam parametr
• Asymptotycznie obciążony - im więcej próbek, tym mniej obciążony, dla n → ∞ jest nieobciążony
• Efektywny - z najmniejszą możliwą wariancją
• Zgodny - im więcej próbek, tym bardziej dokładny
• Dostateczny - wydobywa całą możlwą informację z próby
5. Sposoby znajdowania estymatorów punktowych
• Metoda momentów - tworzymy jakiś układ równań z momentów różnych rzędów z jednoznacznym rozwiązaniem, yyy
• Metoda największej wiarygodności - zakładamy, że zmienne są niezależne; tworzymy funkcję wiarygodności:
Qn
dyskretnie: L = P (X1 = x1 ; p) · P (X2Q= x2 ; p) · . . . = i=1 P (Xi = xi ; p)
n
ciągle: L = f (x1 ; λ) · P (x2 ; λ) · . . . = i=1 f (xn ; λ)
tworzymy następnie logarytmiczną funkcję wiarygodności i liczymy jej maksimum:
dl
=0
l = ln(L) dλ
• Metoda Bayesa - nią się nie zajmujemy
6. Przedział ufności dla danej miary statystycznej informuje nas ńa ile możemy ufać danej wartości- jak
sama nazwa wskazuje. Przedział ufności pokazuje nam że poszukiwana przez nas rzeczywista wartość
mieści się w pewnym przedziale z założonym prawdopodobieństwem. Aby do czegokolwiek dojść,
musimy mieć dany poziom istotności α, tj. współczynnik niepewności z którą się liczymy (najczęściej
0,05 lub 0,01).
• Przedział ufności dla wartości średniej ze znaną wariancją: P (L < X < U ) = 1 − α,
zatem L = X − z α2 √σn , U = X + z α2 √σn
gdzie z α2 - kwantyl rzędu α2 z rozkładu: dla n > 30 normalnego a dla n < 30 rozkładu t-Studenta.
• Przedział ufności dla wartości
Pn średniej z nieznaną wariancją: musimy przybliżyć
wariancję przez estymator s2 = n1 i=1 (xi − µ)2 .. Ostatecznie otrzymujemy, że
s
s
L = X − t α2 √n−1
, U = X + z α2 √n−1
α
gdzie t α2 - kwantyl rzędu 2 z rozkładu t-Studenta o n-1 stopniach swobody.
7. Testowanie hipotez statystycznych stosujemy wtedy, gdy chcemy zweryfikować prawdziwość danej
hipotezy na temat cech populacji.
Jak działać, na przykładzie:
• Kupujemy serwer z czasem odpowiedzi µ = 50ms, podczas gdy podczas jego pracy u nas wyliczamy, że odpowiada w czasie µ̂ = 52ms.
• Aby dowiedzieć się, czy sprzedawca nas oszukał musimy przeprowadzić weryfikację hipotez statystycznych.
• Na początek hipotezę zerową - H0 , zakładającą że wszystko jest w porządku: µ = 50ms.
• Później stawiamy hipotezę alternatywną, na jeden z trzech sposobów:
H1 : µ 6= 50ms lub µ ¬ 50ms lub µ ­ 50ms.
• Następnie obliczamy wartość określonej statystyki testowej (z reguły danej) i sprawdzamy, czy
mieści się ona w przedziale ufności (przy określonym α) dla sprawdzanego parametru - tutaj wartości oczekiwanej. Jeżeli się w nim zawiera, to nie mamy podstaw do odrzucenia hipotezy
H0 , jeżeli nie to możemy odrzucić H0 i przyjąć H1 .
Błędy jakie możemy popełnić podczas sprawdzania tychże hipotez.
• błąd I rodzaju - α, false positive, błąd polegający na odrzuceniu prawdziwej hipotezy, jest to
nasz poziom istotności
6
• błąd II rodzaju - β, false negative, błąd polegający na nieodrzuceniu hipotezy która jest fałszywa
- nie mamy na niego wpływu
8. Regresja liniowa polega na tym, żeby do dyskretnych danych dopasować możliwie jak najlepiej
funkcję ciągłą. Tak jak do pomiarów na laborkach z fizyki kazali nam dopasowywać prostą i wzór
funkcji.
9. Jeszcze by coś wypadało wspomnieć o prezentacji danych...
7