Wykłady 8 i 9: Elementy rachunku prawdopodobie´nstwa i statystyki

Transkrypt

Wykłady 8 i 9: Elementy rachunku prawdopodobie´nstwa i statystyki
Wykłady 8 i 9: Elementy rachunku
prawdopodobieństwa i statystyki
dr Mariusz Grzadziel
˛
29 czerwca, 6 lipca 2013
Podstawowe poj˛ecia
Biolodzy: -badaja˛ pojedyncze rośliny lub zwierz˛eta; -chcemy rozszerzyć wnioski na
wszystkich przedstawicieli gatunku lub odmiany: -można to osiagn
˛ ać
˛ wykonujac
˛ analiz˛e statystyczna.˛
Definicja 1. Populacja˛ nazywamy zbiorowość (skończona˛ lub nieskończona),
˛ w stosunku do której maja˛ być formułowane wnioski. Próba˛ jest natomiast skończona cz˛eść
populacji.
Stosowane podejścia
• metody analizy danych: statystyki opisowe, metody graficzne
• wnioskowanie statystyczne- oparte na metodach i poj˛eciach teorii prawdopodobieństwa
Podstawowe poj˛ecia
Zazwyczaj jesteśmy zainteresowani kilkoma konkretnymi cechami populacji.
Cechy: -jakościowe (kolor oczu, kolor włosów itd.) -ilościowe (masa zwierzat,
˛ liczba
jaj składanych przez określony gatunek ptaków itd.)
Jeśli w badaniach ograniczamy si˛e do jednej cechy- populacja jednocechowa. Np. badajac
˛ badajac
˛ zwierz˛eta określonego gatunku możemy być zainteresowani tylko ich
temperatura˛ itd.
Przykład
Dane normtemp— zebrane w celu weryfikacji hipotezy mówiacej,
˛
że średnia wartość
temperatury zdrowego człowieka jest równa 98,6 stopni w skali Fahrenheita (37,0 stopni w skali Celsjusza). Dane nt. temperatury i t˛etna (temperatura- stopnie Fahrenheita)
Można je pobrać z odpowiedniego repozytorium a nast˛epnie zapisać do zbioru o nazwie np. t (tzw. „data frame”). Zbiór t składa si˛e z trzech zmiennych: temperature, gender i hr. Aby uczynić nasza˛ prezentacj˛e bardziej czytelna,˛ zmieniamy nazwy
zmiennych na odpowiednio: temp, plec i tetno. Odpowiednie polecenia systemu R sa˛
zapisane w pliku t.R. Wydruk tego pliku zamieszczamy poniżej (na nast˛epnym slajdzie):
1
Pobieranie zbioru danych z repozytorium systemu R
library(utils)
install.packages(c("UsingR"),
repo="http://cran.r-project.org")
library(UsingR)
t<-normtemp
names(t)<-c("temp","plec","tetno")
Plik xls z omawianymi danymi można pobrać ze strony:
http://www2.stetson.edu/~jrasp/data/Normtemp.xls
System R 3.01 można pobrać pod adresem http://r.meteo.uni.wroc.pl/bin/windows/base/
Pobieranie zbioru danych z repozytorium systemu R
> names(t)
[1] "temp" "plec" "tetno"
> t[1:10,]
temp plec tetno
1 96.3
1
70
2 96.7
1
71
3 96.9
1
74
4 97.0
1
80
5 97.1
1
73
6 97.1
1
75
7 97.1
1
82
8 97.2
1
64
9 97.3
1
69
10 97.4
1
70
> sort(t$temp)
[1] 96.3 96.4 96.7 96.7
[9] 97.1 97.1 97.2 97.2
...
[129] 100.0 100.8
96.8
97.2
96.9
97.3
97.0
97.4
97.1
97.4
Szereg rozdzielczy
Dla zbioru danych liczbowych {y1 , y2 . . . , yN } niech: M IN 1 oznacza liczb˛e mniejsza˛ od najmniejszej z liczb {y1 , y2 . . . , yN } M AX1 oznacza liczb˛e wi˛eksza˛ lub równa˛
od najwi˛ekszej z liczb {y1 , y2 . . . , yN } M IN 1 i M AX1 moga˛ być odpowiednimi
zaokragleniami
˛
wartości, odpowiednio, minimalnej i maksymalnej naszego zbioru danych M IN 1 < M AX1.
Podzielmy odcinek (M IN 1, M AX1] na k przedziałów (zwanych klasami) o równej
długości:
(x0 , x1 ], (x1 , x2 ], . . . , (xk−1 , xk ],
gdzie x0 = M IN 1, xk = M AX1. Funkcj˛e przyporzadkowuj
˛
ac
˛ a˛ poszczególnym
przedziałom liczb˛e elementów naszego zbioru danych do nich należacych
˛
b˛edziemy
nazywać szeregiem rozdzielczym.
Liczb˛e klas k w szeregu rozdzielczym wyznaczamy korzystajac
˛ z wzorów:
√
3 n
.
k ≈ log2 n + 1 lub k ≈
4
2
Szereg rozdzielczy— dane NT
√
Przyjmujemy: M IN 1 = 96, M AX1 = 101, k = 10 ≈ 3 4130 .
Zakładajac,
˛ że dane dotyczace
˛ temperatury zdrowych ludzi znajduja˛ si˛e w zmiennej
t$temp konstruujemy szereg rozdzielczy w środowisku R:
> table(cut(t$temp, breaks = c(96,96.5,97,97.5,98,
+ 98.5,99,99.5,100,100.5,101)))
(96,96.5]
(96.5,97]
(97,97.5]
(97.5,98]
2
5
14
30
(98,98.5]
(98.5,99]
(99,99.5] (99.5,100]
30
35
11
2
(100,100.5] (100.5,101]
0
1
Histogram- dane NT
Wykres słupkowy odpowiadajacy
˛ szeregowi rozdzielczemu-histogram liczebności
20
15
0
5
10
Frequency
25
30
35
Histogram of t$temp
96
97
98
99
100
101
t$temp
Rysunek 1: Histogram dla danych NT odpowiadajacy
˛ szeregowi rozdzielczemu z poprzedniego slajdu
Histogram probabilistyczny- dane NT
Histogram probablistyczny-tak wyskalowany, aby "pole pod nim było równe 1": wy2
5
skości słupków: 130×0,5
, 130×0,5
, . . .; histogram probabilistyczny- przez niektórych
definiowany jako funkcja przedziałami ciagła
˛ (stała), której wykres "pokrywa si˛e" z
zdefiniowanym wyżej wykresem słupkowym
Histogram probabilistyczny-funkcja przedziałami ciagła
˛
 2

 130×0,5 , dla x ∈ (96; 96,5]


 5 , dla x ∈ (96,5, 97]
130×0,5
h(x) = .
.


.


 1
130×0,5 , dla x ∈ (100,5; 101]
3
0.3
0.2
0.0
0.1
Density
0.4
0.5
Histogram of t$temp
96
97
98
99
100
101
t$temp
Rysunek 2: Histogram probabilistyczny dla danych NT
Frakcja obserwacji należacych
˛
do (96; 97]
Z 97
1
2
5
7
h(x)dx =
+
=
≈ 0,054.
2 130 × 0,5 130 × 0,5
130
96
Konstrukcja histogramu probabilistycznego— przypadek ogólny
W ogólnym przypadku wysokość k-tego słupka histogramu probabilistycznego (wartość funkcji dla argumentów należacych
˛
do k-tej klasy) jest równa nndk , gdzie
• nk jest liczebnościa˛ k − tej klasy,
• d jest długościa˛ klasy,
• n jest liczba˛ obserwacji.
Funkcja h — „histogram probabilistyczny” — zdefiniowana wzorem:
(
nk
, x należy do k-tej klasy,
h(x) = nd
0,
x nie należy do żadnej z klas.
Dziedzina˛ funkcji h jest zbiór liczb rzeczywistych R.
Histogram probabilistyczny i g˛estość cechy
Chcemy obliczyć frakcj˛e osób majacych
˛
temperatur˛e w przedziale (96; 97] w populacji
wszystkich dorosłych zdrowych ludzi (a także w innych przedziałach [a, b]).
Zamiast histogramu probabilistycznego do obliczeń można użyć funkcj˛e ciagł
˛ a˛ f , która
go sensownie „wygładza”; szukana frakcja:
Z
97
f (x)dx
96
Wielobok cz˛estotliwości
Prosta recepta na wygładzenie histogramu probabilistycznego: wielobok cz˛estotliwości.
W ogólnym przypadku: odcinek (M IN 1, M AX1] na k przedziałów (zwanych klasami) o równej długości:
(x0 , x1 ], (x1 , x2 ], . . . , (xk−1 , xk ],
4
gdzie x0 = M IN 1, xk = M AX1
Niech: H = x1 − x0 ,
x̄i = xi − H/2,
i = 0, . . . , k;
x̄k+1 = x0 + H/2
Wielobok cz˛estotliwości powstaje z połaczenia:
˛
(x̄0 , 0), (x̄1 , h(x̄1 )), . . . , (x̄k , h(x̄k )), (x̄k+1 , 0)
Histogram+wielobok cz˛estotliwości
0.3
0.2
0.0
0.1
Density
0.4
0.5
Histogram of t$temp
96
97
98
99
100
101
t$temp
Rysunek 3: Histogram+wielobok cz˛estotliwości
Uwagi o wykresach dla danych jakościowych
Dla danych jakościowych, np. dotyczacych
˛
składu wyznaniowego Warszawy w roku
1864, można sprzadzić
˛
odpowiednie wykresy słupkowe lub kołowe— por. J. Koronacki, J. Mielniczuk, Statystyka dla kierunków technicznych i przyrodniczych, WNT
2001, paragraf 1.2.1, str. 14–17.
Wskaźniki sumaryczne
Histogram— sugestywny środek syntezy informacji zawartej w zbiorze danych;
wskaźniki sumaryczne — miary liczbowe pozwalajace
˛ na zwi˛ezły opis zbioru danych
— lub populacji (zbiorowości), z której ten zbiór danych został wybrany.
Wskaźniki: -położenia — określaja˛ centrum zbioru danych; -rozproszenia — określaja˛
rozproszenie cechy wokół wskaźnika położenia.
Wskaźniki położenia
Niech x1 , x2 , . . . , xn oznacza prób˛e o liczności n.
Definicja 2. Wartościa˛ średnia˛ w próbie, oznaczana˛ x̄, nazywamy średnia˛ arytmetyczna˛
n
1X
x̄ =
xi .
n i=1
Dla danych NT (dotyczacych
˛
temperatur zdrowych ludzi):
x̄ =
1
(96,3 + 96,4 + . . . + 100,8) ≈ 98,25
130
5
0
2
4
6
8
10
histogram dla zbioru danych PENSJE
2000
4000
6000
8000
10000
12000
14000
pensje
Rysunek 4: Histogram dla danych PENSJE
Mediana
Średnia w próbie — sensowna, gdy histogram jest w przybliżeniu symetryczny.
Przykład. Wynagrodznie pracowników w pewnej firmie:
2400 zł (1 osoba), 2900 zł (9 osób), 3100 zł (6 osób), 3400 zł (5 osób), 4100 zł (4 osoby), 4800 zł (2 osoby), 6000 zł (2 osoby), 6500 zł (1 osoba), 14000 zł (1 osoba). Średnia
wynagrodzenie wynosi: 2400+9×2900+6×3100+5×3400+4×41002×4800+2×6000+14000
≈
31
3954,84
Można oczekiwać, że histogram dla tych danych nie b˛edzie symetryczny.
Mediana— c.d.
Histogram dla danych PENSJE nie jest symetryczny— ma „prawy ogon” dłuższy niż
„lewy ogon”. Nawiazuj
˛ ac
˛ do terminologii z ksia˛żki J. Koronackiego i J. Mielniczuka
(Rozdz. 1.2) jest on prawostronnie skośny. Analogicznie określamy lewostronna˛ skośność histogramu. Dla danych PENSJE bardziej sensownym wskaźnikiem położenia
niż srednia jest tzw. mediana.
Mediana— definicja
Uporzadkowane
˛
niemalejaco
˛ elementy próby x1 , x2 , . . . , xn oznaczmy przez
x(1) , x(2) , . . . , x(n−1) , x(n) ,
gdzie x(1) ¬ x(2) ¬ . . . ¬ x(n−1) ¬ x(n) . Dla danych PENSJE:
x(1) = 2400;
x(2) = x(3) = . . . = x(10) = 2900;
x(11) = x(12) = . . . = x(16) = 3100;
x(17) = x(18) = . . . = x(21) = 2900
...
x(30) = 6500
x(31) = 14000
Definicja 3. Mediana˛ w próbie (lub mediana˛ próby), oznaczna˛ xmed nazywamy nast˛epujac
˛ a˛ wielkość
(
x((n+1)/2) ,
jeśli n jest nieparzyste,
xmed = 1
(x
+
x
),
jeśli
n jest parzyste.
(n/2)
(n/2+1)
2
Cecha˛ mediany jest odporność na obserwacje odstajace,
˛ czyli wartości bardzo wyraźnie odstajace
˛ od innych obserwacji w próbie. Jeśli w danych PENSJE 14000 zamienić
na 140000, wartość mediany si˛e nie zmieni!
6
Wskaźniki rozproszenia
Definicja 4. Rozst˛epem próby o liczności n, oznaczanym przez R, nazywamy różnic˛e
R = x(n) − x(1)
gdzie x(1) i x(n) sa,˛ odpowiednio, najmniejszym i najwi˛ekszym elementem w próbie.
Definicja 5. Wariancj˛e w próbie, oznaczana˛ przez s2 , określamy wzorem
n
s2 =
1 X
(xi − x̄)2 ,
n − 1 i=1
gdzie x̄ oznacza średnia˛ w próbie. Pierwiastek z wariancji nazywamy odchyleniem
standardowym w próbie; oznaczamy go przez s.
Wskaźniki rozproszenia— przykład
Dla danych dotyczacych
˛
temperatury zdrowych ludzi (zbiór danych NT) rozst˛ep jest
równy:
x(130) − x(1) = 100,8 − 96,3 = 4,5,
wariancja jest równa:
s2 ≈
1
(96,2 − 98,25)2 + (96,3 − 98,25)2 + . . . + (100,8 − 98,25)2 ≈ 0,538
129
a odchylenie standardowe:
√
s=
s2 =
p
0,538 ≈ 0,733.
Histogram+wielobok cz˛estotliwości
0.3
0.2
0.0
0.1
Density
0.4
0.5
Histogram of t$temp
96
97
98
99
100
101
t$temp
Rysunek 5: Histogram+wielobok cz˛estotliwości
Problem: znaleźć krzywa˛ gładka˛ przybliżajac
˛ a˛ histogram— taka,˛ że pole pod nia˛ jest
równe 1; krzywa taka odpowiadałaby pewnej funkcji różniczkowalnej i nieujemnej.
G˛estość normalna
G˛estość normalna φµ,σ (dla paramerów µ ∈ R, σ > 0) funkcja określona wzorem:
φµ,σ (x) =
(x−µ)2
1
√ e− 2σ2 .
σ 2π
7
Zauważmy,że
φµ,σ (x) =
1
1
√ e− 2
σ 2π
x−µ
σ
2
=
1 x − µ 1
2
√ exp −
,
2
σ
σ 2π
a wi˛ec funkcja φµ,σ (x) może być przedstawiona jako
φµ,σ (x) =
1
φ0,1 (g(x)),
σ
0.0
0.1
0.2
0.3
0.4
gdzie g(x) = x−µ
σ .
Uwaga. B˛edziemy w dalszym ciagu
˛ używać oznaczenia φ(x) = φ0,1 (x). Funkcja φ(x)
odpowiada tzw. standardowemu rozkładowi normalnemu.
−4
−2
0
2
4
Rysunek 6: Wykresy g˛estości rozkładów normalnych z parametrami µ = 0 i σ = 1
(linia ciagła),
˛
µ = 0 i σ = 2 (linia „kropkowana”), µ = 2 i σ = 1 (linia „kreskowana”).
Problem doboru parametrów µ i σ dla konkretnych danych
Problem: chcemy wybrać parametry µ i σ tak, aby wykres funkcji φµ,σ (x) był możliwie najlepiej „dopasowany” do histogramu probabilistycznego sporzadzonego
˛
dla danych NT.
W praktyce: odpowiedni histogram probabilistyczny „aproksymujemy” g˛estościa˛ normalna˛ z parametrami
• µ równemu x̄ (średniej z próby);
• σ równemu s (odchyleniu standardowemu z próby).
Dla danych NT: x̄ = 98,25, s = 0,733.
Histogram+ krzywa normalna
Rozkład normalny — obliczenia
Jesteśmy zainteresowani obliczeniem frakcji obserwacji w populacji, której g˛estość
ma rozkład normalny z parametrami µ i σ, odpowiadajacej
˛ przedziałowi [a, b]. Jest ona
równa całce
8
0.5
0.4
0.3
0.2
0.1
0.0
96
97
98
99
100
101
temperatura
Rysunek 7: Histogram probabilistyczny dla danych NT z dołaczonym
˛
wykresem g˛estości normalnej z parametrami µ = 98,25 i σ = 0,733.
Z
97
φµ,σ (x)dx.
96
Można pokazać, że wyznaczenie całki nieoznaczonej dla φµ,σ (x) przy użyciu skończonej liczby operacji (takich jak dodawanie funkcji, składanie funkcji) na podstawowych
funkcjach elementarnych nie jest możliwe. Inaczej mówiac:
˛ żadna z funkcji pierwotnych dla φµ,σ (x) nie jest funkcja˛ elementarna.˛
Rozwiazanie
˛
problemu: można pokazać, że
Z
x − µ
+ C,
φµ,σ (x)dx = Φ
σ
gdzie Φ(x) oznacza funkcj˛e pierwotna˛ dla funkcji φ(x), która w punkcie x = 0 ma
wartość 0,5. Stablicowane wartości funkcji Φ, dystrybuanty standardowego rozkładu
normalnego, można znaleźć w podr˛ecznikach rachunku prawdopodobieństwa i statystyki.
Mamy
97
97 − 98,25 96 − 98,25 φµ,σ (x)dx = Φ
−Φ
≈ 0,043.
0,733
0,733
96
W jaki sposób można wykonać obliczenia przy użyciu tablic wartości funkcji Φ, w
których sa˛ podane wartości tylko dla argumentów nieujemnych? Na przykład z tablic
dost˛epnych na stronie prof. Agnieszki Jurlewicz (odpowiedni odnośnik znajduje si˛e na
stronie naszego kursu).
Należy skorzystać z równości
Z
Φ(t) = 1 − Φ(−t),
która jest prawdziwa dla każdego t. Mamy
97 − 98,25
≈ −1,705321 ≈ −1,71,
0,733
oraz
Φ(−1,71) = 1 − Φ(1,71) ≈ 1 − 0,9564 = 0,0436.
9
Analogicznie
96 − 98,25
≈ −3,069577 ≈ −3,07
0,733
i
Φ(−3,07) = 1 − Φ(3,07) ≈ 1 − 0,9989 = 0,0011.
0.0
0.2
0.4
y
0.6
0.8
1.0
Różnica 0,0436 − 0,0011 = 0,0425 ≈ 0,043.
−3
−2
−1
0
1
2
3
x
Rysunek 8: Wykres funkcji Φ, dystrybuanty standardowego rozkładu normalnego
10

Podobne dokumenty