Wykłady ze statystyki wykład 1

Transkrypt

Wstep Przykłady i problemy Prawdopodobieństwo Obserwabla Gęstości i Dystrybuanta Momenty 3 słynne twierdzen
Wykłady ze statystyki
wykład 1
październik 2013
Czym zajmuje się statystyka?
analizą i interpretacją danych
opisem danych w języku matematyki (rozkłady
prawdopodobieństwa)
porównywaniem różnych zbiorów danych
projektowaniem doboru próby
Kto korzysta ze statystyki?
1
biologia i medycyna (nauki przyrodnicze)
dane o leczeniu pacjentów (nowe leki)
epidemiologia (statystyki chorób)
bioinformatyka (genetyka) i biologia molekularna
ekologia
2
ekonomia
szeregi czasowe danych z giełdy
finanse
globalne dane gospodarki
3
nauki społeczne (socjologia, politologia )
dane dotyczące struktury społecznej (struktura wiekowa,
zamożności, wykształcenia...)
sieci społeczne (twitter, facebook, ......)
sondaże społeczne, spisy powszechne....
niewielkie wykorzystanie statystyki fizyka
brak wykorzystania statystyki matematyka
Jakie typy danych wykorzystuje statystyka ?
dane jakościowe
typ choroby, wyznanie religijne, grupa etniczna ...
dane ilościowe
liczby, wektory,. . .
porównanie efektywności leków
A
co
age, g
43, m
32, m
64, f
73, m
59, m
55, m
24, f
51, f
Które leczenie
hipotez)
A
B
B
C
C
co
plac
plac
drug
eff
age
eff
age
eff
2
22.m
3
25, m
>5
1
19, m
>5
29, m
>5
4
55, w
3
33, m
4
>5
67, w
1
44, f
4
3
34, m
>5
36, m
2
1
35, m
3
35, m
4
0.9
57, f
3
45, f
1
2
67, f
2
19, m
>5
daje lepsze rezultaty? (analiza wariantów,testowanie
estymacja parameterów dla lepszego opisu
określony zbiór danych (53, 85, 73, 66, 53, .., 98, 102) przedstawiamy
w postaci histogramu
(x − µ )2
szacujemy µ, σ tak, że σ√12π exp − σ2
jest najlepiej
dopasowane (grupa rozkładów normalnych)
korelacje danych
mamy dwa zbiory danych (x1 , x2 , ...., xn ) i (y1 , y2,..... , yn )
oczekujemy, że yi zależy ściśle od xi ale istnieje wpływ błędów
x 3 5 5 10 11 6 7..
y 1 2 1 4 5 2 4..
znajdujemy funkcję f taką, że Y = f (X ) + e
najprostszy przypadek Y = cX + e
=⇒ analiza regresji liniowej
Korelacja danych nie świadczy o faktycznym ich związku
Korelacja danych nie świadczy o faktycznym ich związku
Ekstrapolacja i intrapolacja danych
Jakie są oczekiwane trendy? Czy są jakieś regularności danych?
=⇒ przewidywania statystyczne
Czym jest statystyka wartości ekstremalnych?
Czym jest statystyka wielkich trzęsień ziemi ? =⇒ statystyka
wartości ekstremalnych
szczególnie ważne dla analizy ryzyka (głównie używanej przez firmy
ubezpieczeniowe)
analiza sieci
facebook: rekonstrukcja klastrów przyjaźni, częstych kontaktów
sieć białek
Znajdujemy główne grupy wchodzące w interakcje
sieci społeczne
Kto zajmuje centralne pozycje? Kto zajmuje pozycje dobrze
skomunikowane?
Podsumowanie typowych problemów statystyki (1/2)
znalezienie dobrego matematycznego opisu rozważanego zbioru
danych
statystyka parametryczna: wśród rodziny parametrycznych
funkcji wybrać parametry najlepiej pasujące do danych (np.
metoda największej wiarogodności)
statystyka nieparametryczna: wybór najlepszego opisu z
rozległej klasy (niesparametryzowanej) możliwych opisów
(stosowana gdy brak lub mała część informacji o statystyce
danych jest dostępna)
testowanie hipotez
dana jest hipoteza dotycząca źródła danych Ho : jak bardzo
jest prawdopodobne, że dane pochodzą z tego źródła
(przykład test t—Studenta) przeciw alternatywnej hipotezie
H1 , że dane pochodzą z innego nieznanego źródła
w zależności od rodzaju hipotezy są parametryczne i
nieparametryczne testy
Podsumowanie typowych problemów statystyki (2/2)
korelacja i analiza regresji
istnieją różne metody dla
małych zbiorów danych
dużych zbiorów danych
dla złożonych zbiorów danych zawierających relacje (jak grafy)
i wielowymiarowych danych stosuje się wiele nowych i
specjalnych metod
trochę historii
pochodzenie nazwy:
Łacina nowożytna:"statisticum collegium" (rada państwa)
W jezyku włoskim "statista" (mąż stanu, polityk)
w języku niemieckim "Statistik" (Staatswissenschaft - nauka o
państwie), Gottfried Achenwall (1749),
arytmetyka polityczna w języku angielskim, termin w języku
angielskim po raz pierwszy użyty przez sir Johna Sinclaira w
1791 w 21-tomowym dziele "Statistical Account of Scotland"
pierwsze użycie metod statystycznych:
W 5 wieku p.n.e. historyk Tukidydes w pracy "Historia wojen
peloponeskich" opisał jak Ateńczycy obliczyli wysokość murów
Platea licząc liczbę cegieł w nieotynkowanej części
muru.Żołnierze powtarzali obliczenia wiele razy, a najczęściej
występujaca wartość była wzieta jako liczba cegieł. Ta wartość
pomnożona przez wysokość cegieł pozwoliła ateńczykom
oszacować wysokosć drabiny koniecznej, by wspiąć się na mury.
Najstarsze źródła pisane: książka Al-Kindiego z IX w. pt.
Manuskrypt o odszyfrowywaniu ukrytych wiadomości
"Manuscript on Deciphering Cryptographic Messages"
zawierająca szczegółowy opis jak używać analizy częstości do
odszyfrowywania zakodowanych informacji; narodziny
statystyki i kryptografii.
XVIII w. - Termin statystyka oznaczał systematyczne zbieranie
przez państwo danych demograficznych i ekonomicznych.
XIX w. - statystyka "rozszerza się" do zbierania,
podsumowywania i analizowania danych.
Związek między statystyką a teorią prawdopodobieństwa
pojawia się późno. W XIX w. zwiększa się wykorzystanie teorii
prawdopodobieństwa, która rozwinęła się z analizy gier.
Do 1800 roku astronomia wykorzystywała modele
prawdopodobieństwa i teorie statystyczne, w szczególności
metodę najmniejszych kwadratów (Legendre + Gauss)
Czym jest prawdopodobieństwo?
podejście klasyczne: Pascal, Fermat, Laplace, Bernoulli. . .
częstotliwość sukcesu versus całkowita liczba prób
Laplace’s Théorie analytique des probabilités:
"prawodpodobieństwo zdarzenia jest stosunkiem liczby
oczekiwanych zdarzeń do liczby wszystkich możliwych
zdarzeń. . . "
ma początek w teorii hazardu (karty, kości, rzut monetą. . . )
przykład: jakie jest prawdopodobieństwo p6 otrzymania 6, gdy
rzucamy kością? 61
jak oszacować prawdopodobieństwo dla kości zniekształconej
(biased dice)? rozwiązanie: rzucamy kością n razy i liczymy ile
X (n )
razy pojawi się 6 : X6 (n ) . I tak: p6 = limn→∞ 6n
jeśli liczba zdarzeń jest skończona jest to metoda wyboru
(obliczenia kombinatoryczne)
przykład 1: oszacowanie prawdopodobieństwa w totolotka
przykład 2: problemy urn: gdy dana jest urna z 3 czerwonymi
kulami i 10 niebieskimi; jakie jest prawdopodobieństwo
wylosowania 2 czerwonych kul gdy wyciąga się w sumie 7 kul?
współczesne podejście aksjomatyczne: Kołmogorov :
oparte na teorii miary
wspołczesne podejscie "klasyczne": Co to jest losowa 0 − 1
sekwencja? von Mises,Solomonoff, Kołmogorov, Martin-Loef
0001101110001010001001111100010011010101001101110 . . .
0011010001110010101001100111011100010000010111110 . . .
1100100100001111110110101010001000100001101101011 . . .
która sekwencja jest losowa? mają to samo
prawdopodobieństwo w uczciwym rzucie monetą.
algorytmiczne prawdopodobieństwo: Kołmogorov, Schnorr,
Levin, Chaitin...
stawiamy to samo pytanie co wyżej: losowe sekwencje są
sekwencjami, które nie mogą byc skompresowane przez
uniwersalną maszynę Turinga (związane ze złożonością
Kołmogorova): Niech x będzie 0 − 1 słowem o długości n i
K (x ) będzie najkrótszym opisem x. x jest losowy, gdy
K (x ) ∼ n
aksjomaty Kołmogorova (dostęp aksjomatyczny)
przestrzeń probabilistyczna: (Ω, F , P )
Ω : przestrzeń zdarzeń elementarnych (sample space)
przykład: [0, 1] , {0; 1} , {0; 1}N , N, Rn , (red, green.blue )
F : sigma algebra zdarzeń losowych (events)
jest zamknięta ze względu na
— dopełnienie zbioru: A ∈ F =⇒ Ω \ A = Ac ∈ F
— przeliczalną sumę zbiorów: {Ai }1∞ , Ai ∈ F =⇒ ∪i Ai ∈ F
zawiera Ω i ∅
P : miara probabilistyczna (probability measure) dla F
P ma własność przeliczalnej addytywności:
P (∪i Ai ) = ∑ P (Ai ) gdzie Ai ∩ Aj = ∅ przy i 6= j
i
P (A) ≥ 0 (nieujemność)
P (Ω) = 1 (unormowanie)
jeśli Ω jest przeliczalna lub skończona, F może być wzięta
jako rodzina wszystkich podzbiorów Ω
Przykład Próba Bernoulliego
rzut monetą
Ω : {0; 1} ' {orzeł,reszka}
F : ∅, {0} , {1} , {0; 1}
P : P (1) = p = 1 − P (0)
n − krotny rzut monetą (niezależny)
Ωn : Ωn = {0; 1}n : wszystkie 0 − 1 sekwencje długości n
Fn : wszystkie podzbiory Ωn
P n : P × P.... × P
przykład: P 3 (110) = pp (1 − p )
dla p = 1/2 wszystkie sekwencje mają to samo
prawdopodobieństwo (1/2n )
algebra zdarzeń i prawdopodobieństwo warunkowe
algebra zdarzeń jest algebrą zbiorów
prawa de Morgana : (A ∪ B )c = Ac ∩ B c i
(A ∩ B )c = Ac ∪ B c
A i B sa niezależnymi zdarzeniami losowymi, gdy
P (A ∩ B ) = P (A) · P (B )
prawdopodobieństwo warunkowe: P (A | B ) =def
P (A∩B )
P (B )
dla zdarzeń niezależnych : P (A | B ) = P (A)
przykład 1: p = 1/2, Ωn = {0; 1}n : A = {x1 = 1} ,
B = {(x1 , x2 , ..., xn ) : ∑ xi = 1}
P (A | B ) =?: P (A ∩ B ) = 1/2n ;
P (B ) = n/2n =⇒ P (A | B ) = 1/n
przykład 2: Ωn = {0; 1}n : A = {x1 = 1} ,
B = {(x1 , x2 , ..., xn ) : ∑ xi = n } =⇒ P (A | B ) = 1
zmienne losowe (random variables)
zmienna losowa w przestrzeni probabilistycznej (Ω, F , P ) jest
funkcją (mierzalną) X od Ω w przestrzeni (miarzalnej) E .
najczęściej funkcja przymuje wartości liczb rzeczywistych:
X :Ω→R
zapis: ω ∈ Ω : X (ω ) = x (wartość X gdy ω jest losowane
jest x)
przykład: próba Bernoulliego (rzut monetą)
X : Ω = (orzeł,reszka) → {0, 1}
Y : Ωn → R : Y = n1 ∑ Xi
funkcje i złożenia z.l. (r.v.) definiują ponownie nową z.l. (r.v.)
zmienna losowa X jest dyskretna jeśli X przyjmuje jedynie
skończenie lub przeliczalnie wiele wartości
Jak opisać zmienną losową?
dystrybuanta (cumulative distribution function, cdf):
FX (z ) = P {X ≤ z } =def P {ω ∈ Ω : X (ω ) ≤ z }
każda zmienna losowa ma dystrybuantę (cdf)
dystrybuanta charakteryzuje zmienną losową w sposób zupełny
zmienna losowa jest ciągła, jeśli dystrybuanta jest ciągła
zmienna losowa X : Ω → R indukuje nową miarę
prawdopodobieństwa P ∗ na R przez P ∗ ((a, b ]) =def
P (a < X ≤ b ) = FX (b ) − FX (a) , zatem wartości X tworzą
przestrzeń prawdopodobieństwa
Gęstości
niekiedy P (a < X ≤ b ) = FX (b ) − FX (a) można zapisać
jako
Zb
f (t ) dt
a
f (t ) jest nazywana funkcją gęstości ( f (t ) ≥ 0)
d
f (x ) = dx
FX ( x )
F (z ) =
+∞
Z
Zz
f (t ) dt , gęstość jest znormalizowana
−∞
f (t ) dt = 1
−∞
Gęstości nie zawsze występują
gdy Ω jest skończona lub przeliczalna: P (ωi ) = pi staje się
dyskretnym odpowiednikiem gęstości
gdy X i Y są niezależne i mają funkcje gęstości f (t ) i
g (u ) =⇒ (X , Y ) ma funkcję gęstości f (t ) · g (u )
Wartość oczekiwana (expectation) lub pierwszy moment
E (X ) =def
R
X ( ω ) P (d ω )
gdy istnieje
R funkcja gęstości:
R
E (X ) = xf (x ) dx =R xdF (x )
Y = g (X ) : E (Y ) = g (x ) f (x ) dx
w przypadku dyskretnym
Ω = {ωi } : E (X ) = ∑ xi pi =def ∑ X (ωi ) P (ωi )
Wartość oczekiwana jest liniowa
E (aX ) = aE (X )
E (X + c ) = E (X ) + c
E (X + Y ) = E (X ) + E (Y )
jeżeli X , Y są niezależne, to E (XY ) = E (X ) E (Y )
przykład: próba Bernoulliego
Y = ∑ni=1 Xi : E (Y ) = nE (X1 ) = np
R
wyższe momenty: mk = E X k = x k f(x ) dx
(w przypadku dyskretnym : mk = E X k = ∑ xik pi
scentralizowane momenty: µk = E (X − E (X ))k
wariancja (variance):
Var (X ) =def E (X − E (X ))2 = E X 2 − E 2 (X )
Var (cX ) = c 2 Var (X ) i Var (X + c ) = Var (X )
dla X i Y niezależnych :
Var (p
X + Y ) = Var (X − Y ) = Var (X ) + Var (Y )
σ = Var (X ) jest nazywana odchyleniem standardowym
µ
momenty standaryzowane: σkk , pierwszy moment
standaryzowany wynosi 0, a drugi to 1
kowariancja: Cov (X , Y ) =def E ((X − E (X )) (Y − E (Y )))
mediana m: spełnia parę P (X ≤ m ) ≥ 21
kwantyl xp rzędu p, gdzie 0 ≤ p ≤ 1 to wartość zm. los. X
spełniająca parę nierówności: P (X ≤ xp ) ≥ p oraz
P (X ≥ xp ) ≥ 1 − p
Przykład: rozkład normalny
Pierwszy moment daje nam informację gdzie jest maksimum, a
wariancja informuje o szerokości szczytu
Krótkie streszczenie niezależności
Wzór na niezależność zdarzeń: P (A ∩ B ) = P (A) · P (B )
równoważny z P (A) = P (A | B ) lub P (B ) = P (B | A)
stąd wiedza, że zachodzi zdarzenie B, nie zmienia
prawdopodobieństwa zajścia zdarzenia A
dwie zmienne losowe X i Y (z wartościami w R) są niezależne,
jeśli zdarzenia {X ≤ a} i {Y ≤ b } są niezależne dla
wszystkich możliwych wyborów a i b
stąd, jeśli X i Y są niezależne =⇒
FX ,Y (a, b ) =def P {X ≤ a ∧ Y ≤ b } = FX (a) · FY (b )
jeśli X i Y są niezależne i mają wspólną gęstość ϕX ,Y (x, y )
dla (X , Y ) =⇒ ϕX ,Y (x, y ) = ϕX (x ) · ϕY (y )
stąd, dla X i Y niezależnych: E (X · Y ) = E (X ) · E (Y )
zdarzenia ze zbioru A1 , . . . , An są wzajemnie niezależne, jeśli
dla wszystkich podzbiorów Ai1 , Ai2 , . . . , Aik zachodzi
k
P (∩l Ail ) =
∏ P (Ai )
l
l =1
nierówności Markowa i Czebyszewa
Problem: gdy jest dana zmienna losowa X , co można powiedzieć o
P {|X − E (x )| ≥ c }?
nierówność Markowa (metoda pierwszego momementu): niech
E (X )
X będzie nieujemne =⇒ P (X ≥ c ) ≤ c
nierówność Czebyszewa (metoda drugiego momentu) :
var (X )
P {|X − E (x )| ≥ c } ≤ c 2
twierdzenie Czebyszewa pochodzi od tw. Markowa wstawiamy
(X − E (X ))2 zamiast X w nierowności Markowa
bez dodatkowych zalożeń obydwie nierówności są optymalne
przy dodatkowych warunkach dla X istnieją lepsze estymacje
(szczególnie, gdy X jest sumą niezależnych zmiennych
losowych o identycznym rozkładzie ) np. nierówność Chernoffa
Prawo wielkich liczb
Niech X1 , X2 , .... będą (nieskonczoną) sekwencją niezależnej i
identycznej (iid) zmiennej losowej E (Xi ) = µ < ∞.
n
Niech ZN =def
1
n
∑ Xi
(dla próby {xi } jest to średnia)
i =1
=⇒ limn→∞ Zn = µ (zbieżność według
prawdopodobieństwa/zbieżność stochastyczna i punktowa)
zbieżność według prawdopodobieństwa:
limn→∞ P (|Zn − µ| > e) = 0
zbieżność punktowa oznacza, że dla niemal wszystkich
realizacji {Xi } granica jest równa µ
prawo wielkich liczb może być wyprowadzone łatwo z
nierówności Czebyszewa
prawo wielkich liczb jest ważne dla bardziej ogólnych
warunkow. Zajmuje się tym odrębny dział matematyki zwany
teorią ergodyczną.
Wniosek: twierdzenie Glivenko Cantelli
danych jest n i.i.d. zmiennych losowych (X1 , X2 , ..., Xn ) X ∼ Xi z
próby (x1 , ..., xn )
niech Yi (z ) = 1 dla Xi ≤ z i Yi (z ) = 0 dla Xi > z
dla danej realizacji (x1 , ..., xn ) uzyskujemy 0 − 1 sekwencje
(111000....001)
zgodnie z prawem wielkich liczb mamy
limn→∞ n1 ∑ Yi = FX (z ) = P (X ≤ z )
niech Fn,x̂ będzie empiryczną dystrybuantą z próby x̂ = (x1 , ..., xn )
twierdzenie Glivenko - Cantelli :
P (supz |Fn (z ) − F (z )| ≤ c ) → 1 dla wszystkich c > 0
n→∞
twierdzenie to jest niekiedy zwane głównym twierdzeniem
statystyki.
Centralne twierdzenie graniczne
niech X1 , X2 , . . . będzie (nieskonczoną ) sekwencją iid
zmiennej losowej z E (Xi ) = µ < ∞ i Var (Xi ) = σ2 < ∞ i
n
niech ZN =def
1
n
∑ Xi
i =1
=⇒
√
n
n (Zn − µ) =
√1
n
∑ (Xi − µ)
!
d
→ N 0, σ2 (zbieżność
i =1
według rozkładu)
N 0, σ2 ma rozkład
normalny z funkcją gęstości:
2
1
x
√
exp − σ2
σ 2π
skończona wariancja jest warunkiem koniecznym (dla zmiennej
losowej, która nie ma 2. momentu — tak jak w przypadku
rozkładu Cauchy’ego — istnieją inne twierdzenia graniczne)
centralne twierdzenie graniczne po raz pierwszy było
udowodnione dla próby Bernoulliego przez de Moivera (a
później przez Laplace’a) w 1738.
założenia o niezależności i identycznym rozkładzie mogą być
osłabione w znacznym stopniu.
pierwsze zastosowanie w statystyce
Problem: dla danej próby Bernoulli’ego Ωn = {0, 1}n ,
(x1 , x2 ...., xn ) próba (X1 , X2 , ..., Xn ) , p = P (1) jest nieznana i
powinna być oszacowana.
ponieważ Ep n1 ∑ Xi = p i limn→∞ n1 ∑ Xi = X̄n = p a.s.
(zbieżność punktowa, prawie na pewno) możemy używać
średniej empirycznej x̄n = n1 ∑ xi jako estymacji punktowej dla
p.
estymacja błędu: przez nierówności Czebyszewa otrzymujemy
−2
Var (X̄ )
p (1−p )
Ppn {|X̄n − p | > e} ≤ e2 n = e−2 n ≤ e4n ponieważ
Var (X̄n ) = Var n1 ∑ Xi = n12 ∑ Var (Xi ) = n1 Var (X1 ) =
p (1−p )
n
szacujemy dalej p (1 − p ) przez x̄n (1 − x̄n ) = sn .
dla wartości oczekiwanej Sn mamy:
Ep (Sn ) =
Ep ( n1 ∑ Xi ) · n1 ∑ (1 − Xi ) = Ep n12 ∑i ∑j Xi (1 − Xj ) =
1
1
E
X (1 − Xi ) + ∑i 6=j Xi (1 − Xj ) = n−
n p (1 − p )
n2 p ∑i i
=⇒ Sn ma zawsze błąd systematyczny (
estymatorem)
n
n−1 sn
jest dobrym
wykorzystanie centralnego twierdzenia granicznego
Centralne twierdzenie graniczne daje
√
d
n (X̄n − p ) → N 0, σ2 = N (0, p (1 − p )) =⇒
q
d
n
Sn (X̄n − p ) → N (0, 1)
n
o
n√
o
stąd Ppn |X̄n − p | > √en = Ppn √Sn |X̄n − p | > √eS ∼
n
n
−e
√
2Φ
gdzie Φ jest dystrybuantą rozkładu normalnego
S
n
N (0, 1)
następnym etapem jest otrzymanie estymacji przedziałowej dla
p zamiast estymacji punktowej. Takie przedziały są nazywane
przedziałami ufności.

Wykłady ze statystyki wykład 1

Transkrypt

Podobne dokumenty

Wstęp

X - e-Uczelnia UEK