Probabilistyka i statystyka
Transkrypt
Probabilistyka i statystyka
Probabilistyka i statystyka - Teoria by Antek Grzanka, TI AGH 2012 wersja z 12 czerwca 2013 1 Prawdopodobieństwo 1. Aksjomatyczna definicja prawdopodobieństwa Kołmogorowa: • P (E) 0 - prawdopodobieństwo dowolnego zdarzenia jest większe lub równe 0 • P (Ω) = 1 - prawdopodobieństwo wystąpienia zdarzenia elemetarnego jest równe 1 P • P (E1 ∪ E2 ∪ E3 ∪ . . .) = i P (Ei ) - prawdopodobieństwo zdarzenia, które jest sumą rozłącznych zdarzeń, obliczamy jako sumę prawdopodobieństw tych zdarzeń. 2. Cechy prawdopodobieństwa • P (∅) = 0 • P (A0 ) = 1 − P (A) • A ⊂ B => P (B\A) = P (B) − P (A) • P (A) ¬ 1 • P (A ∪ B) = P (A) + P (B) − P (A ∩ B) 3. Prawdopodobieństwo warunkowe P (A|B) = P P(A∩B) (B) wiemy, że B zaszło, zatem Ω zawęża się do B a A zawęża się do A ∩ B 4. Prawdopodobieństwo wylosowania konkretnej liczby rzeczywistej jest zawsze równe zero! - możemy wylosować tylko do pewnej dokładności, na przykład 0,500 to tak naprawdę przedział od 0,4995(9) do 0,5004(9). 5. Prawdopodobieństwo całkowite Pn P (A) = i=1 P (A|Bi ) · P (Bi ) 6. Wzór Bayesa i )·P (Bi ) i) = PnP (A|B P (Bi |A) = P (A∩B P (A) P (A|B )·P (B i=1 i i) 7. Niezależność zdarzeń P (A) · P (B) = P (A ∩ B) <=> zdarzenia są niezależne niezależność w matematyce zawsze jest dwustronna, tj. jeśli A nie zależy od B to B nie zależy od A niezależności nie można mylić z wykluczaniem się 2 Zmienna losowa 1. Zmienna losowa to funkcja przypisująca zdarzeniom elementarnym liczby. Intuicyjnie: odwzorowanie przenoszące badania prawdopodobieństwa z niewygodnej przestrzeni probabilistycznej do dobrze znanej przestrzeni euklidesowej. To żadna konkretna wartość, za każdym razem gdy ją losujemy jest inna. 2. Zmienna losowa może być • ograniczona dyskretna - np. ocena jakości od 1 do 5 • ograniczona ciągła - np. procent wykorzystania pasma • nieograniczona dyskretna - np. numer karty sim • nieograniczona ciągła - np. czas rozmowy telefonicznej 1 3. Dystrybuanta Rx FX (x) = P (X ¬ x) = −∞ f (u)du Cechy dystrybuanty: • FX (−∞) = 0 • FX (∞) = 1 • FX (x) jest niemalejąca • FX (x) jest prawostronnie ciągła 4. Gęstość x (x) f (x) = ∂F∂x Cechy gęstości: • f (x) 0 R∞ • −∞ f (x)dx = 1 5. GęstośćR brzegowa ∞ fx (x) = −∞ f (x, y)dy lub R∞ fy (y) = −∞ f (x, y)dx całkujemy po tych zmiennych, których nie chcemy mówimy o niej wtedy, gdy obserwujemy tylko jedną zmienną, ale daną mamy gęstość po obu 6. Zmienne losowe są niezależne gdy FX,Y (x, y) = FX (x) · FY (y) lub f (x, y) = fx (x) · fy (y) 3 Parametry rozkładów O parametrach rozkładu mówimy po to, żeby jeszcze łatwiej było nam porównywać zdarzenia. Dzięki nim porównujemy liczby, a nie gęstości czy dystrybuanty. Tracimy jednak sporą część informacji, które mimo wszystko są ważne do podjęcia decyzji. 1. Wartość oczekiwana Wartość określająca spodziewany wynik doświadczenia losowego. Określa sprawiedliwość gry. R∞ P∞ • Definicja: dyskretnie E(X) = i=1 i · pi , ciągle E(x) = −∞ x · f (x)dx R∞ • w szczególności E(ϕ(X)) = −∞ ϕ(x) · f (x)dx R∞ R∞ • można też wielowymiarowo: E([X; Y ]) = [ −∞ x · fx (x)dx; −∞ y · fy (y)dy] - gęstości brzegowe • jest liniowa: E(X + Y ) = E(X) + E(Y ) 2. Wariancja • Definicja: D2 (X) = E((X − E(X))2 ) • ale łatwiej liczyć z D2 (X) = E(X 2 ) − E 2 (X) 3. Odchylenie standardowe p σ = D2 (X) Jest to odchylenie zmiennej losowej X od swojej wartości oczekiwanej. 4. Kowariancja Cov(X, Y ) = E(XY ) − E(X) · E(Y ) 5. Wariancja wielowymiarowa wariancji-kowariancji - Macierz D2 X Cov(X, Y ) np. dla dwóch wymiarów Cov(Y, X) D2 Y 2 6. Moment centralny rzędu n µn = E((X − E(X))n ) zauważmy, że moment centralny rzędu 2 to wariancja ponadto moment centralny rzędu 1 to 0 7. Moment zwykły rzędu k mk = E(X k ) zauważmy, że moment zwykły rzędu 1 to wartość oczekiwana ponadto moment zwykły rzędu 0 to 1 8. Moda (dominanta) dyskretnie: d = i : pi = maxj pj , ciągle: d = x : f (x) = maxi f (i) nie musi zawsze istnieć (np dla równomiernego nie istnieje) może istnieć tylko jedna 9. Skośność Ad = E(X)−d σ przesunięcie rozkładu względem wartości średniej 10. Kwantyl rzędu p - xp F (xp ) p } => F (xp ) = p P (X ∈ [xp , ∞)) 1 − p np. kwantyl rzędu 0.5 (mediana) znaczy że dokładnie połowa obserwacji jest za jego wartością, a połowa przed kwantyl rzędu 0.25 analogicznie mówi, że 0.25 obserwacji jest przed nim, a 0.75 za nim. jeżeli dystrybuanta jest odwracalna, to kwantyl jest jej odwrotnością 4 Rozkłady 1. Równomierny X ∼ U (a, b) f (x) = 1 b−a 1(a,b) (x) F (x) = 0 x b−a 2. Eksponencjalny X ∼ Exp(λ) 3 1 x¬a x ∈ (a, b] x>b f (x) = λe−λx 1[0,∞) (x) F (x) = 0 1 − e−λx x¬0 x>0 3. Gamma X ∼ Γ(α, β) 4. Normalny X ∼ N (µ, σ) warto zapamiętać, że parametrami rozkładu normalnego są µ - wartość oczekiwana i σ - odchylenie standardowe 5. Weibull X ∼ W eibull(λ, k) 4 6. Pareto X ∼ P areto(α, β) 7. Centralne twierdzenie graniczne uzasadnia nam, czemu w przyrodzie powszechnie występują rozkłady normalne. Suma niewiele zależnych od siebie składników losowych, z których żaden nie dominuje istotnie nad pozostałymi, ma w przybliżeniu rozkład normalny. Pn X −µ i=1 xi − nµ √ ∼ N (0, 1) lub ∼ N (0, 1) √σ σ n n Uwaga: centralne twierdzenie graniczne nie sprawi, by przy dostatecznie dużej próbie rozkład stał się normalny. Jedynie rozkład średniej z tej próby upodabnia się do normalnego. 5 Statystyka 1. Statystyka (nauka) jest po to, żeby na podstawie możliwie małej próby móc wywnioskować o parametrach rozkładu u całej populacji. Na przykład na podstawie zmierzenia wzrostu 3000 osób móc wnioskować o tym jaki jest średni wzrost każdego Polaka. Często niemożliwe jest żeby zmierzyć dokładnie wartość oczekiwaną z całej populacji (nie da rady zmierzyć dosłownie każdego Polaka). 2. Kłopotem jest odpowiedni dobór próby. Próba obciążona, to taka w której faworyzujemy pewne cechy lub wydarzenia np. wśród 3000 mierzonych przez nas osób połowa gra w koszykówkę. Wiadomo, że wtedy średnia wzrostu obliczona ze zmierzonych wartości będzie się miała nijak do prawdziwej średniej obliczonej ze wszystkich Polaków (czyli notabene: wartości oczekiwanej). Dlatego też próby obciążone są niepożądane. 3. Statystyką nazywamy też funkcję operująca na zmiennych losowych Θ(X1 , X2 , ..., Xn ). Szczególnym jej przypadkiem jest właśnie estymator czyli statystyka służąca nam do przybliżania parametru rozkładu. Zakładamy, że rozkład szukanej cechy jest np. normalny i szukamy np. wartości oczekiwanej. Potrzebujemy zatem znaleźć jakiś jej estymator. Dobrym jest średnia arytmetyczna wszystkich pomiarów. 5 4. Estymator może być: • Nieobciążony - spełnia wszystkie warunki do tego, żeby dobrze przybliżyć nam parametr • Asymptotycznie obciążony - im więcej próbek, tym mniej obciążony, dla n → ∞ jest nieobciążony • Efektywny - z najmniejszą możliwą wariancją • Zgodny - im więcej próbek, tym bardziej dokładny • Dostateczny - wydobywa całą możlwą informację z próby 5. Sposoby znajdowania estymatorów punktowych • Metoda momentów - tworzymy jakiś układ równań z momentów różnych rzędów z jednoznacznym rozwiązaniem, yyy • Metoda największej wiarygodności - zakładamy, że zmienne są niezależne; tworzymy funkcję wiarygodności: Qn dyskretnie: L = P (X1 = x1 ; p) · P (X2Q= x2 ; p) · . . . = i=1 P (Xi = xi ; p) n ciągle: L = f (x1 ; λ) · P (x2 ; λ) · . . . = i=1 f (xn ; λ) tworzymy następnie logarytmiczną funkcję wiarygodności i liczymy jej maksimum: dl =0 l = ln(L) dλ • Metoda Bayesa - nią się nie zajmujemy 6. Przedział ufności dla danej miary statystycznej informuje nas ńa ile możemy ufać danej wartości- jak sama nazwa wskazuje. Przedział ufności pokazuje nam że poszukiwana przez nas rzeczywista wartość mieści się w pewnym przedziale z założonym prawdopodobieństwem. Aby do czegokolwiek dojść, musimy mieć dany poziom istotności α, tj. współczynnik niepewności z którą się liczymy (najczęściej 0,05 lub 0,01). • Przedział ufności dla wartości średniej ze znaną wariancją: P (L < X < U ) = 1 − α, zatem L = X − z α2 √σn , U = X + z α2 √σn gdzie z α2 - kwantyl rzędu α2 z rozkładu: dla n > 30 normalnego a dla n < 30 rozkładu t-Studenta. • Przedział ufności dla wartości Pn średniej z nieznaną wariancją: musimy przybliżyć wariancję przez estymator s2 = n1 i=1 (xi − µ)2 .. Ostatecznie otrzymujemy, że s s L = X − t α2 √n−1 , U = X + z α2 √n−1 α gdzie t α2 - kwantyl rzędu 2 z rozkładu t-Studenta o n-1 stopniach swobody. 7. Testowanie hipotez statystycznych stosujemy wtedy, gdy chcemy zweryfikować prawdziwość danej hipotezy na temat cech populacji. Jak działać, na przykładzie: • Kupujemy serwer z czasem odpowiedzi µ = 50ms, podczas gdy podczas jego pracy u nas wyliczamy, że odpowiada w czasie µ̂ = 52ms. • Aby dowiedzieć się, czy sprzedawca nas oszukał musimy przeprowadzić weryfikację hipotez statystycznych. • Na początek hipotezę zerową - H0 , zakładającą że wszystko jest w porządku: µ = 50ms. • Później stawiamy hipotezę alternatywną, na jeden z trzech sposobów: H1 : µ 6= 50ms lub µ ¬ 50ms lub µ 50ms. • Następnie obliczamy wartość określonej statystyki testowej (z reguły danej) i sprawdzamy, czy mieści się ona w przedziale ufności (przy określonym α) dla sprawdzanego parametru - tutaj wartości oczekiwanej. Jeżeli się w nim zawiera, to nie mamy podstaw do odrzucenia hipotezy H0 , jeżeli nie to możemy odrzucić H0 i przyjąć H1 . Błędy jakie możemy popełnić podczas sprawdzania tychże hipotez. • błąd I rodzaju - α, false positive, błąd polegający na odrzuceniu prawdziwej hipotezy, jest to nasz poziom istotności 6 • błąd II rodzaju - β, false negative, błąd polegający na nieodrzuceniu hipotezy która jest fałszywa - nie mamy na niego wpływu 8. Regresja liniowa polega na tym, żeby do dyskretnych danych dopasować możliwie jak najlepiej funkcję ciągłą. Tak jak do pomiarów na laborkach z fizyki kazali nam dopasowywać prostą i wzór funkcji. 9. Jeszcze by coś wypadało wspomnieć o prezentacji danych... 7