Wykłady 8 i 9: Elementy rachunku prawdopodobie´nstwa i statystyki

Transkrypt

Wykłady 8 i 9: Elementy rachunku
prawdopodobieństwa i statystyki
dr Mariusz Grzadziel
˛
29 czerwca, 6 lipca 2013
Podstawowe poj˛ecia
Biolodzy: -badaja˛ pojedyncze rośliny lub zwierz˛eta; -chcemy rozszerzyć wnioski na
wszystkich przedstawicieli gatunku lub odmiany: -można to osiagn
˛ ać
˛ wykonujac
˛ analiz˛e statystyczna.˛
Definicja 1. Populacja˛ nazywamy zbiorowość (skończona˛ lub nieskończona),
˛ w stosunku do której maja˛ być formułowane wnioski. Próba˛ jest natomiast skończona cz˛eść
populacji.
Stosowane podejścia
• metody analizy danych: statystyki opisowe, metody graficzne
• wnioskowanie statystyczne- oparte na metodach i poj˛eciach teorii prawdopodobieństwa
Podstawowe poj˛ecia
Zazwyczaj jesteśmy zainteresowani kilkoma konkretnymi cechami populacji.
Cechy: -jakościowe (kolor oczu, kolor włosów itd.) -ilościowe (masa zwierzat,
˛ liczba
jaj składanych przez określony gatunek ptaków itd.)
Jeśli w badaniach ograniczamy si˛e do jednej cechy- populacja jednocechowa. Np. badajac
˛ badajac
˛ zwierz˛eta określonego gatunku możemy być zainteresowani tylko ich
temperatura˛ itd.
Przykład
Dane normtemp— zebrane w celu weryfikacji hipotezy mówiacej,
˛
że średnia wartość
temperatury zdrowego człowieka jest równa 98,6 stopni w skali Fahrenheita (37,0 stopni w skali Celsjusza). Dane nt. temperatury i t˛etna (temperatura- stopnie Fahrenheita)
Można je pobrać z odpowiedniego repozytorium a nast˛epnie zapisać do zbioru o nazwie np. t (tzw. „data frame”). Zbiór t składa si˛e z trzech zmiennych: temperature, gender i hr. Aby uczynić nasza˛ prezentacj˛e bardziej czytelna,˛ zmieniamy nazwy
zmiennych na odpowiednio: temp, plec i tetno. Odpowiednie polecenia systemu R sa˛
zapisane w pliku t.R. Wydruk tego pliku zamieszczamy poniżej (na nast˛epnym slajdzie):
1
Pobieranie zbioru danych z repozytorium systemu R
library(utils)
install.packages(c("UsingR"),
repo="http://cran.r-project.org")
library(UsingR)
t<-normtemp
names(t)<-c("temp","plec","tetno")
Plik xls z omawianymi danymi można pobrać ze strony:
http://www2.stetson.edu/~jrasp/data/Normtemp.xls
System R 3.01 można pobrać pod adresem http://r.meteo.uni.wroc.pl/bin/windows/base/
Pobieranie zbioru danych z repozytorium systemu R
> names(t)
[1] "temp" "plec" "tetno"
> t[1:10,]
temp plec tetno
1 96.3
1
70
2 96.7
1
71
3 96.9
1
74
4 97.0
1
80
5 97.1
1
73
6 97.1
1
75
7 97.1
1
82
8 97.2
1
64
9 97.3
1
69
10 97.4
1
70
> sort(t$temp)
[1] 96.3 96.4 96.7 96.7
[9] 97.1 97.1 97.2 97.2
...
[129] 100.0 100.8
96.8
97.2
96.9
97.3
97.0
97.4
97.1
97.4
Szereg rozdzielczy
Dla zbioru danych liczbowych {y1 , y2 . . . , yN } niech: M IN 1 oznacza liczb˛e mniejsza˛ od najmniejszej z liczb {y1 , y2 . . . , yN } M AX1 oznacza liczb˛e wi˛eksza˛ lub równa˛
od najwi˛ekszej z liczb {y1 , y2 . . . , yN } M IN 1 i M AX1 moga˛ być odpowiednimi
zaokragleniami
˛
wartości, odpowiednio, minimalnej i maksymalnej naszego zbioru danych M IN 1 < M AX1.
Podzielmy odcinek (M IN 1, M AX1] na k przedziałów (zwanych klasami) o równej
długości:
(x0 , x1 ], (x1 , x2 ], . . . , (xk−1 , xk ],
gdzie x0 = M IN 1, xk = M AX1. Funkcj˛e przyporzadkowuj
˛
ac
˛ a˛ poszczególnym
przedziałom liczb˛e elementów naszego zbioru danych do nich należacych
˛
b˛edziemy
nazywać szeregiem rozdzielczym.
Liczb˛e klas k w szeregu rozdzielczym wyznaczamy korzystajac
˛ z wzorów:
√
3 n
.
k ≈ log2 n + 1 lub k ≈
4
2
Szereg rozdzielczy— dane NT
√
Przyjmujemy: M IN 1 = 96, M AX1 = 101, k = 10 ≈ 3 4130 .
Zakładajac,
˛ że dane dotyczace
˛ temperatury zdrowych ludzi znajduja˛ si˛e w zmiennej
t$temp konstruujemy szereg rozdzielczy w środowisku R:
> table(cut(t$temp, breaks = c(96,96.5,97,97.5,98,
+ 98.5,99,99.5,100,100.5,101)))
(96,96.5]
(96.5,97]
(97,97.5]
(97.5,98]
2
5
14
30
(98,98.5]
(98.5,99]
(99,99.5] (99.5,100]
30
35
11
2
(100,100.5] (100.5,101]
0
1
Histogram- dane NT
Wykres słupkowy odpowiadajacy
˛ szeregowi rozdzielczemu-histogram liczebności
20
15
0
5
10
Frequency
25
30
35
Histogram of t$temp
96
97
98
99
100
101
t$temp
Rysunek 1: Histogram dla danych NT odpowiadajacy
˛ szeregowi rozdzielczemu z poprzedniego slajdu
Histogram probabilistyczny- dane NT
Histogram probablistyczny-tak wyskalowany, aby "pole pod nim było równe 1": wy2
5
skości słupków: 130×0,5
, 130×0,5
, . . .; histogram probabilistyczny- przez niektórych
definiowany jako funkcja przedziałami ciagła
˛ (stała), której wykres "pokrywa si˛e" z
zdefiniowanym wyżej wykresem słupkowym
Histogram probabilistyczny-funkcja przedziałami ciagła
˛
 2

 130×0,5 , dla x ∈ (96; 96,5]


 5 , dla x ∈ (96,5, 97]
130×0,5
h(x) = .
.


.


 1
130×0,5 , dla x ∈ (100,5; 101]
3
0.3
0.2
0.0
0.1
Density
0.4
0.5
Histogram of t$temp
96
97
98
99
100
101
t$temp
Rysunek 2: Histogram probabilistyczny dla danych NT
Frakcja obserwacji należacych
˛
do (96; 97]
Z 97
1
2
5
7
h(x)dx =
+
=
≈ 0,054.
2 130 × 0,5 130 × 0,5
130
96
Konstrukcja histogramu probabilistycznego— przypadek ogólny
W ogólnym przypadku wysokość k-tego słupka histogramu probabilistycznego (wartość funkcji dla argumentów należacych
˛
do k-tej klasy) jest równa nndk , gdzie
• nk jest liczebnościa˛ k − tej klasy,
• d jest długościa˛ klasy,
• n jest liczba˛ obserwacji.
Funkcja h — „histogram probabilistyczny” — zdefiniowana wzorem:
(
nk
, x należy do k-tej klasy,
h(x) = nd
0,
x nie należy do żadnej z klas.
Dziedzina˛ funkcji h jest zbiór liczb rzeczywistych R.
Histogram probabilistyczny i g˛estość cechy
Chcemy obliczyć frakcj˛e osób majacych
˛
temperatur˛e w przedziale (96; 97] w populacji
wszystkich dorosłych zdrowych ludzi (a także w innych przedziałach [a, b]).
Zamiast histogramu probabilistycznego do obliczeń można użyć funkcj˛e ciagł
˛ a˛ f , która
go sensownie „wygładza”; szukana frakcja:
Z
97
f (x)dx
96
Wielobok cz˛estotliwości
Prosta recepta na wygładzenie histogramu probabilistycznego: wielobok cz˛estotliwości.
W ogólnym przypadku: odcinek (M IN 1, M AX1] na k przedziałów (zwanych klasami) o równej długości:
(x0 , x1 ], (x1 , x2 ], . . . , (xk−1 , xk ],
4
gdzie x0 = M IN 1, xk = M AX1
Niech: H = x1 − x0 ,
x̄i = xi − H/2,
i = 0, . . . , k;
x̄k+1 = x0 + H/2
Wielobok cz˛estotliwości powstaje z połaczenia:
˛
(x̄0 , 0), (x̄1 , h(x̄1 )), . . . , (x̄k , h(x̄k )), (x̄k+1 , 0)
Histogram+wielobok cz˛estotliwości
0.3
0.2
0.0
0.1
Density
0.4
0.5
Histogram of t$temp
96
97
98
99
100
101
t$temp
Rysunek 3: Histogram+wielobok cz˛estotliwości
Uwagi o wykresach dla danych jakościowych
Dla danych jakościowych, np. dotyczacych
˛
składu wyznaniowego Warszawy w roku
1864, można sprzadzić
˛
odpowiednie wykresy słupkowe lub kołowe— por. J. Koronacki, J. Mielniczuk, Statystyka dla kierunków technicznych i przyrodniczych, WNT
2001, paragraf 1.2.1, str. 14–17.
Wskaźniki sumaryczne
Histogram— sugestywny środek syntezy informacji zawartej w zbiorze danych;
wskaźniki sumaryczne — miary liczbowe pozwalajace
˛ na zwi˛ezły opis zbioru danych
— lub populacji (zbiorowości), z której ten zbiór danych został wybrany.
Wskaźniki: -położenia — określaja˛ centrum zbioru danych; -rozproszenia — określaja˛
rozproszenie cechy wokół wskaźnika położenia.
Wskaźniki położenia
Niech x1 , x2 , . . . , xn oznacza prób˛e o liczności n.
Definicja 2. Wartościa˛ średnia˛ w próbie, oznaczana˛ x̄, nazywamy średnia˛ arytmetyczna˛
n
1X
x̄ =
xi .
n i=1
Dla danych NT (dotyczacych
˛
temperatur zdrowych ludzi):
x̄ =
1
(96,3 + 96,4 + . . . + 100,8) ≈ 98,25
130
5
0
2
4
6
8
10
histogram dla zbioru danych PENSJE
2000
4000
6000
8000
10000
12000
14000
pensje
Rysunek 4: Histogram dla danych PENSJE
Mediana
Średnia w próbie — sensowna, gdy histogram jest w przybliżeniu symetryczny.
Przykład. Wynagrodznie pracowników w pewnej firmie:
2400 zł (1 osoba), 2900 zł (9 osób), 3100 zł (6 osób), 3400 zł (5 osób), 4100 zł (4 osoby), 4800 zł (2 osoby), 6000 zł (2 osoby), 6500 zł (1 osoba), 14000 zł (1 osoba). Średnia
wynagrodzenie wynosi: 2400+9×2900+6×3100+5×3400+4×41002×4800+2×6000+14000
≈
31
3954,84
Można oczekiwać, że histogram dla tych danych nie b˛edzie symetryczny.
Mediana— c.d.
Histogram dla danych PENSJE nie jest symetryczny— ma „prawy ogon” dłuższy niż
„lewy ogon”. Nawiazuj
˛ ac
˛ do terminologii z ksia˛żki J. Koronackiego i J. Mielniczuka
(Rozdz. 1.2) jest on prawostronnie skośny. Analogicznie określamy lewostronna˛ skośność histogramu. Dla danych PENSJE bardziej sensownym wskaźnikiem położenia
niż srednia jest tzw. mediana.
Mediana— definicja
Uporzadkowane
˛
niemalejaco
˛ elementy próby x1 , x2 , . . . , xn oznaczmy przez
x(1) , x(2) , . . . , x(n−1) , x(n) ,
gdzie x(1) ¬ x(2) ¬ . . . ¬ x(n−1) ¬ x(n) . Dla danych PENSJE:
x(1) = 2400;
x(2) = x(3) = . . . = x(10) = 2900;
x(11) = x(12) = . . . = x(16) = 3100;
x(17) = x(18) = . . . = x(21) = 2900
...
x(30) = 6500
x(31) = 14000
Definicja 3. Mediana˛ w próbie (lub mediana˛ próby), oznaczna˛ xmed nazywamy nast˛epujac
˛ a˛ wielkość
(
x((n+1)/2) ,
jeśli n jest nieparzyste,
xmed = 1
(x
+
x
),
jeśli
n jest parzyste.
(n/2)
(n/2+1)
2
Cecha˛ mediany jest odporność na obserwacje odstajace,
˛ czyli wartości bardzo wyraźnie odstajace
˛ od innych obserwacji w próbie. Jeśli w danych PENSJE 14000 zamienić
na 140000, wartość mediany si˛e nie zmieni!
6
Wskaźniki rozproszenia
Definicja 4. Rozst˛epem próby o liczności n, oznaczanym przez R, nazywamy różnic˛e
R = x(n) − x(1)
gdzie x(1) i x(n) sa,˛ odpowiednio, najmniejszym i najwi˛ekszym elementem w próbie.
Definicja 5. Wariancj˛e w próbie, oznaczana˛ przez s2 , określamy wzorem
n
s2 =
1 X
(xi − x̄)2 ,
n − 1 i=1
gdzie x̄ oznacza średnia˛ w próbie. Pierwiastek z wariancji nazywamy odchyleniem
standardowym w próbie; oznaczamy go przez s.
Wskaźniki rozproszenia— przykład
Dla danych dotyczacych
˛
temperatury zdrowych ludzi (zbiór danych NT) rozst˛ep jest
równy:
x(130) − x(1) = 100,8 − 96,3 = 4,5,
wariancja jest równa:
s2 ≈
1
(96,2 − 98,25)2 + (96,3 − 98,25)2 + . . . + (100,8 − 98,25)2 ≈ 0,538
129
a odchylenie standardowe:
√
s=
s2 =
p
0,538 ≈ 0,733.
Histogram+wielobok cz˛estotliwości
0.3
0.2
0.0
0.1
Density
0.4
0.5
Histogram of t$temp
96
97
98
99
100
101
t$temp
Rysunek 5: Histogram+wielobok cz˛estotliwości
Problem: znaleźć krzywa˛ gładka˛ przybliżajac
˛ a˛ histogram— taka,˛ że pole pod nia˛ jest
równe 1; krzywa taka odpowiadałaby pewnej funkcji różniczkowalnej i nieujemnej.
G˛estość normalna
G˛estość normalna φµ,σ (dla paramerów µ ∈ R, σ > 0) funkcja określona wzorem:
φµ,σ (x) =
(x−µ)2
1
√ e− 2σ2 .
σ 2π
7
Zauważmy,że
φµ,σ (x) =
1
1
√ e− 2
σ 2π
x−µ
σ
2
=
1 x − µ 1
2
√ exp −
,
2
σ
σ 2π
a wi˛ec funkcja φµ,σ (x) może być przedstawiona jako
φµ,σ (x) =
1
φ0,1 (g(x)),
σ
0.0
0.1
0.2
0.3
0.4
gdzie g(x) = x−µ
σ .
Uwaga. B˛edziemy w dalszym ciagu
˛ używać oznaczenia φ(x) = φ0,1 (x). Funkcja φ(x)
odpowiada tzw. standardowemu rozkładowi normalnemu.
−4
−2
0
2
4
Rysunek 6: Wykresy g˛estości rozkładów normalnych z parametrami µ = 0 i σ = 1
(linia ciagła),
˛
µ = 0 i σ = 2 (linia „kropkowana”), µ = 2 i σ = 1 (linia „kreskowana”).
Problem doboru parametrów µ i σ dla konkretnych danych
Problem: chcemy wybrać parametry µ i σ tak, aby wykres funkcji φµ,σ (x) był możliwie najlepiej „dopasowany” do histogramu probabilistycznego sporzadzonego
˛
dla danych NT.
W praktyce: odpowiedni histogram probabilistyczny „aproksymujemy” g˛estościa˛ normalna˛ z parametrami
• µ równemu x̄ (średniej z próby);
• σ równemu s (odchyleniu standardowemu z próby).
Dla danych NT: x̄ = 98,25, s = 0,733.
Histogram+ krzywa normalna
Rozkład normalny — obliczenia
Jesteśmy zainteresowani obliczeniem frakcji obserwacji w populacji, której g˛estość
ma rozkład normalny z parametrami µ i σ, odpowiadajacej
˛ przedziałowi [a, b]. Jest ona
równa całce
8
0.5
0.4
0.3
0.2
0.1
0.0
96
97
98
99
100
101
temperatura
Rysunek 7: Histogram probabilistyczny dla danych NT z dołaczonym
˛
wykresem g˛estości normalnej z parametrami µ = 98,25 i σ = 0,733.
Z
97
φµ,σ (x)dx.
96
Można pokazać, że wyznaczenie całki nieoznaczonej dla φµ,σ (x) przy użyciu skończonej liczby operacji (takich jak dodawanie funkcji, składanie funkcji) na podstawowych
funkcjach elementarnych nie jest możliwe. Inaczej mówiac:
˛ żadna z funkcji pierwotnych dla φµ,σ (x) nie jest funkcja˛ elementarna.˛
Rozwiazanie
˛
problemu: można pokazać, że
Z
x − µ
+ C,
φµ,σ (x)dx = Φ
σ
gdzie Φ(x) oznacza funkcj˛e pierwotna˛ dla funkcji φ(x), która w punkcie x = 0 ma
wartość 0,5. Stablicowane wartości funkcji Φ, dystrybuanty standardowego rozkładu
normalnego, można znaleźć w podr˛ecznikach rachunku prawdopodobieństwa i statystyki.
Mamy
97
97 − 98,25 96 − 98,25 φµ,σ (x)dx = Φ
−Φ
≈ 0,043.
0,733
0,733
96
W jaki sposób można wykonać obliczenia przy użyciu tablic wartości funkcji Φ, w
których sa˛ podane wartości tylko dla argumentów nieujemnych? Na przykład z tablic
dost˛epnych na stronie prof. Agnieszki Jurlewicz (odpowiedni odnośnik znajduje si˛e na
stronie naszego kursu).
Należy skorzystać z równości
Z
Φ(t) = 1 − Φ(−t),
która jest prawdziwa dla każdego t. Mamy
97 − 98,25
≈ −1,705321 ≈ −1,71,
0,733
oraz
Φ(−1,71) = 1 − Φ(1,71) ≈ 1 − 0,9564 = 0,0436.
9
Analogicznie
96 − 98,25
≈ −3,069577 ≈ −3,07
0,733
i
Φ(−3,07) = 1 − Φ(3,07) ≈ 1 − 0,9989 = 0,0011.
0.0
0.2
0.4
y
0.6
0.8
1.0
Różnica 0,0436 − 0,0011 = 0,0425 ≈ 0,043.
−3
−2
−1
0
1
2
3
x
Rysunek 8: Wykres funkcji Φ, dystrybuanty standardowego rozkładu normalnego
10

Wykłady 8 i 9: Elementy rachunku prawdopodobie´nstwa i statystyki

Transkrypt

Podobne dokumenty

Wykład 13. Zmienne losowe typu ci ˛agłego

streszczenie

plik PDF

Zestaw zadań nr 1 - Zakład Statystyki

Operacje histogramowe, macierz sąsiedztwa, transformacje punktowe

Zadanie 11.1. Wiemy, ˙ze stopy zwrotu 3 akcji s a opisywane przez

Zadania - Olimpiada Fizyczna