Statystyka opisowa

Transkrypt

Statystyka opisowa
Cz˛eść I
Statystyka opisowa
()
Statystyka opisowa
24 maja 2010
1/8
Niech x1 , x2 , ..., xn b˛eda˛ wynikami pomiarów, np. temperatury, ciśnienia,
poziomu rzeki, wielkości plonów itp.
Przykład 1: wyniki pomiarów temperatury w ciagu
˛ 8 kolejnych dni maja
14, 15, 17, 18, 16, 16, 13, 19
Wartości próby należa˛ do przedziału [13, 19].
Przykład 2: wyniki pomiarów temperatury w ciagu
˛ 8 kolejnych dni września
11, 16, 21, 16, 10, 22, 14, 18
Wartości próby należa˛ do przedziału [10, 22].
W obu przykładach średnia temperatura jest taka sama (równa 16), ale w
Przykładzie 2 wyst˛epuje wi˛ekszy rozrzut wartości próby.
Stad
˛ do poprawnego opisu próby należy wprowadzić różne jej
charakterystyki.
()
Statystyka opisowa
24 maja 2010
2/8
Niech x1 , x2 , ..., xn b˛eda˛ wynikami pomiarów, np. temperatury, ciśnienia,
poziomu rzeki, wielkości plonów itp.
Przykład 1: wyniki pomiarów temperatury w ciagu
˛ 8 kolejnych dni maja
14, 15, 17, 18, 16, 16, 13, 19
Wartości próby należa˛ do przedziału [13, 19].
Przykład 2: wyniki pomiarów temperatury w ciagu
˛ 8 kolejnych dni września
11, 16, 21, 16, 10, 22, 14, 18
Wartości próby należa˛ do przedziału [10, 22].
W obu przykładach średnia temperatura jest taka sama (równa 16), ale w
Przykładzie 2 wyst˛epuje wi˛ekszy rozrzut wartości próby.
Stad
˛ do poprawnego opisu próby należy wprowadzić różne jej
charakterystyki.
()
Statystyka opisowa
24 maja 2010
2/8
Niech x1 , x2 , ..., xn b˛eda˛ wynikami pomiarów, np. temperatury, ciśnienia,
poziomu rzeki, wielkości plonów itp.
Przykład 1: wyniki pomiarów temperatury w ciagu
˛ 8 kolejnych dni maja
14, 15, 17, 18, 16, 16, 13, 19
Wartości próby należa˛ do przedziału [13, 19].
Przykład 2: wyniki pomiarów temperatury w ciagu
˛ 8 kolejnych dni września
11, 16, 21, 16, 10, 22, 14, 18
Wartości próby należa˛ do przedziału [10, 22].
W obu przykładach średnia temperatura jest taka sama (równa 16), ale w
Przykładzie 2 wyst˛epuje wi˛ekszy rozrzut wartości próby.
Stad
˛ do poprawnego opisu próby należy wprowadzić różne jej
charakterystyki.
()
Statystyka opisowa
24 maja 2010
2/8
Niech x1 , x2 , ..., xn b˛eda˛ wynikami pomiarów, np. temperatury, ciśnienia,
poziomu rzeki, wielkości plonów itp.
Przykład 1: wyniki pomiarów temperatury w ciagu
˛ 8 kolejnych dni maja
14, 15, 17, 18, 16, 16, 13, 19
Wartości próby należa˛ do przedziału [13, 19].
Przykład 2: wyniki pomiarów temperatury w ciagu
˛ 8 kolejnych dni września
11, 16, 21, 16, 10, 22, 14, 18
Wartości próby należa˛ do przedziału [10, 22].
W obu przykładach średnia temperatura jest taka sama (równa 16), ale w
Przykładzie 2 wyst˛epuje wi˛ekszy rozrzut wartości próby.
Stad
˛ do poprawnego opisu próby należy wprowadzić różne jej
charakterystyki.
()
Statystyka opisowa
24 maja 2010
2/8
Niech x1 , x2 , ..., xn b˛eda˛ wynikami pomiarów, np. temperatury, ciśnienia,
poziomu rzeki, wielkości plonów itp.
Przykład 1: wyniki pomiarów temperatury w ciagu
˛ 8 kolejnych dni maja
14, 15, 17, 18, 16, 16, 13, 19
Wartości próby należa˛ do przedziału [13, 19].
Przykład 2: wyniki pomiarów temperatury w ciagu
˛ 8 kolejnych dni września
11, 16, 21, 16, 10, 22, 14, 18
Wartości próby należa˛ do przedziału [10, 22].
W obu przykładach średnia temperatura jest taka sama (równa 16), ale w
Przykładzie 2 wyst˛epuje wi˛ekszy rozrzut wartości próby.
Stad
˛ do poprawnego opisu próby należy wprowadzić różne jej
charakterystyki.
()
Statystyka opisowa
24 maja 2010
2/8
Charakterystyki próby x1 , x2 , ..., xn
n
P
średnia arytmetyczna x = 1n
xi =
n
P
wariancja zwykła s2 =
i=1
x1 +x2 +...+xn
,
n
(xi −x)2
i=1
n
dla n > 30,
n
P
(xi −x)2
wariancja skorygowana ŝ2 = i=1 n−1
dla n ≤ 30,
√
√
odchylenia standardowe zwykłe i skorygowane s = s2 , ŝ = ŝ2 ,
mediana jest to wartość środkowa w uporzadkowanej
˛
próbie (ew. średnia
arytm. środkowych).
Wariancja i odchylenie standardowe sa˛ miarami rozrzutu wartości próby
wokół wartości średniej
W próbie 1 średnia wynosi x = 16, wariancja ŝ2 = 4, odchylenie standard.
ŝ = 2.
W próbie 2 średnia wynosi x = 16, wariancja ŝ2 = 18, 6, odchylenie
standard. ŝ = 4, 3.
W próbie 2 wi˛eksza wariancja gdyż wi˛ekszy rozrzut wyników.
()
Statystyka opisowa
24 maja 2010
3/8
Charakterystyki próby x1 , x2 , ..., xn
n
P
średnia arytmetyczna x = 1n
xi =
n
P
wariancja zwykła s2 =
i=1
x1 +x2 +...+xn
,
n
(xi −x)2
i=1
n
dla n > 30,
n
P
(xi −x)2
wariancja skorygowana ŝ2 = i=1 n−1
dla n ≤ 30,
√
√
odchylenia standardowe zwykłe i skorygowane s = s2 , ŝ = ŝ2 ,
mediana jest to wartość środkowa w uporzadkowanej
˛
próbie (ew. średnia
arytm. środkowych).
Wariancja i odchylenie standardowe sa˛ miarami rozrzutu wartości próby
wokół wartości średniej
W próbie 1 średnia wynosi x = 16, wariancja ŝ2 = 4, odchylenie standard.
ŝ = 2.
W próbie 2 średnia wynosi x = 16, wariancja ŝ2 = 18, 6, odchylenie
standard. ŝ = 4, 3.
W próbie 2 wi˛eksza wariancja gdyż wi˛ekszy rozrzut wyników.
()
Statystyka opisowa
24 maja 2010
3/8
Charakterystyki próby x1 , x2 , ..., xn
n
P
średnia arytmetyczna x = 1n
xi =
n
P
wariancja zwykła s2 =
i=1
x1 +x2 +...+xn
,
n
(xi −x)2
i=1
n
dla n > 30,
n
P
(xi −x)2
wariancja skorygowana ŝ2 = i=1 n−1
dla n ≤ 30,
√
√
odchylenia standardowe zwykłe i skorygowane s = s2 , ŝ = ŝ2 ,
mediana jest to wartość środkowa w uporzadkowanej
˛
próbie (ew. średnia
arytm. środkowych).
Wariancja i odchylenie standardowe sa˛ miarami rozrzutu wartości próby
wokół wartości średniej
W próbie 1 średnia wynosi x = 16, wariancja ŝ2 = 4, odchylenie standard.
ŝ = 2.
W próbie 2 średnia wynosi x = 16, wariancja ŝ2 = 18, 6, odchylenie
standard. ŝ = 4, 3.
W próbie 2 wi˛eksza wariancja gdyż wi˛ekszy rozrzut wyników.
()
Statystyka opisowa
24 maja 2010
3/8
Charakterystyki próby x1 , x2 , ..., xn
n
P
średnia arytmetyczna x = 1n
xi =
n
P
wariancja zwykła s2 =
i=1
x1 +x2 +...+xn
,
n
(xi −x)2
i=1
n
dla n > 30,
n
P
(xi −x)2
wariancja skorygowana ŝ2 = i=1 n−1
dla n ≤ 30,
√
√
odchylenia standardowe zwykłe i skorygowane s = s2 , ŝ = ŝ2 ,
mediana jest to wartość środkowa w uporzadkowanej
˛
próbie (ew. średnia
arytm. środkowych).
Wariancja i odchylenie standardowe sa˛ miarami rozrzutu wartości próby
wokół wartości średniej
W próbie 1 średnia wynosi x = 16, wariancja ŝ2 = 4, odchylenie standard.
ŝ = 2.
W próbie 2 średnia wynosi x = 16, wariancja ŝ2 = 18, 6, odchylenie
standard. ŝ = 4, 3.
W próbie 2 wi˛eksza wariancja gdyż wi˛ekszy rozrzut wyników.
()
Statystyka opisowa
24 maja 2010
3/8
Charakterystyki próby x1 , x2 , ..., xn
n
P
średnia arytmetyczna x = 1n
xi =
n
P
wariancja zwykła s2 =
i=1
x1 +x2 +...+xn
,
n
(xi −x)2
i=1
n
dla n > 30,
n
P
(xi −x)2
wariancja skorygowana ŝ2 = i=1 n−1
dla n ≤ 30,
√
√
odchylenia standardowe zwykłe i skorygowane s = s2 , ŝ = ŝ2 ,
mediana jest to wartość środkowa w uporzadkowanej
˛
próbie (ew. średnia
arytm. środkowych).
Wariancja i odchylenie standardowe sa˛ miarami rozrzutu wartości próby
wokół wartości średniej
W próbie 1 średnia wynosi x = 16, wariancja ŝ2 = 4, odchylenie standard.
ŝ = 2.
W próbie 2 średnia wynosi x = 16, wariancja ŝ2 = 18, 6, odchylenie
standard. ŝ = 4, 3.
W próbie 2 wi˛eksza wariancja gdyż wi˛ekszy rozrzut wyników.
()
Statystyka opisowa
24 maja 2010
3/8
Charakterystyki próby x1 , x2 , ..., xn
n
P
średnia arytmetyczna x = 1n
xi =
n
P
wariancja zwykła s2 =
i=1
x1 +x2 +...+xn
,
n
(xi −x)2
i=1
n
dla n > 30,
n
P
(xi −x)2
wariancja skorygowana ŝ2 = i=1 n−1
dla n ≤ 30,
√
√
odchylenia standardowe zwykłe i skorygowane s = s2 , ŝ = ŝ2 ,
mediana jest to wartość środkowa w uporzadkowanej
˛
próbie (ew. średnia
arytm. środkowych).
Wariancja i odchylenie standardowe sa˛ miarami rozrzutu wartości próby
wokół wartości średniej
W próbie 1 średnia wynosi x = 16, wariancja ŝ2 = 4, odchylenie standard.
ŝ = 2.
W próbie 2 średnia wynosi x = 16, wariancja ŝ2 = 18, 6, odchylenie
standard. ŝ = 4, 3.
W próbie 2 wi˛eksza wariancja gdyż wi˛ekszy rozrzut wyników.
()
Statystyka opisowa
24 maja 2010
3/8
Charakterystyki próby x1 , x2 , ..., xn
n
P
średnia arytmetyczna x = 1n
xi =
n
P
wariancja zwykła s2 =
i=1
x1 +x2 +...+xn
,
n
(xi −x)2
i=1
n
dla n > 30,
n
P
(xi −x)2
wariancja skorygowana ŝ2 = i=1 n−1
dla n ≤ 30,
√
√
odchylenia standardowe zwykłe i skorygowane s = s2 , ŝ = ŝ2 ,
mediana jest to wartość środkowa w uporzadkowanej
˛
próbie (ew. średnia
arytm. środkowych).
Wariancja i odchylenie standardowe sa˛ miarami rozrzutu wartości próby
wokół wartości średniej
W próbie 1 średnia wynosi x = 16, wariancja ŝ2 = 4, odchylenie standard.
ŝ = 2.
W próbie 2 średnia wynosi x = 16, wariancja ŝ2 = 18, 6, odchylenie
standard. ŝ = 4, 3.
W próbie 2 wi˛eksza wariancja gdyż wi˛ekszy rozrzut wyników.
()
Statystyka opisowa
24 maja 2010
3/8
Charakterystyki próby x1 , x2 , ..., xn
n
P
średnia arytmetyczna x = 1n
xi =
n
P
wariancja zwykła s2 =
i=1
x1 +x2 +...+xn
,
n
(xi −x)2
i=1
n
dla n > 30,
n
P
(xi −x)2
wariancja skorygowana ŝ2 = i=1 n−1
dla n ≤ 30,
√
√
odchylenia standardowe zwykłe i skorygowane s = s2 , ŝ = ŝ2 ,
mediana jest to wartość środkowa w uporzadkowanej
˛
próbie (ew. średnia
arytm. środkowych).
Wariancja i odchylenie standardowe sa˛ miarami rozrzutu wartości próby
wokół wartości średniej
W próbie 1 średnia wynosi x = 16, wariancja ŝ2 = 4, odchylenie standard.
ŝ = 2.
W próbie 2 średnia wynosi x = 16, wariancja ŝ2 = 18, 6, odchylenie
standard. ŝ = 4, 3.
W próbie 2 wi˛eksza wariancja gdyż wi˛ekszy rozrzut wyników.
()
Statystyka opisowa
24 maja 2010
3/8
Charakterystyki próby x1 , x2 , ..., xn
n
P
średnia arytmetyczna x = 1n
xi =
n
P
wariancja zwykła s2 =
i=1
x1 +x2 +...+xn
,
n
(xi −x)2
i=1
n
dla n > 30,
n
P
(xi −x)2
wariancja skorygowana ŝ2 = i=1 n−1
dla n ≤ 30,
√
√
odchylenia standardowe zwykłe i skorygowane s = s2 , ŝ = ŝ2 ,
mediana jest to wartość środkowa w uporzadkowanej
˛
próbie (ew. średnia
arytm. środkowych).
Wariancja i odchylenie standardowe sa˛ miarami rozrzutu wartości próby
wokół wartości średniej
W próbie 1 średnia wynosi x = 16, wariancja ŝ2 = 4, odchylenie standard.
ŝ = 2.
W próbie 2 średnia wynosi x = 16, wariancja ŝ2 = 18, 6, odchylenie
standard. ŝ = 4, 3.
W próbie 2 wi˛eksza wariancja gdyż wi˛ekszy rozrzut wyników.
()
Statystyka opisowa
24 maja 2010
3/8
Szereg rozdzielczy, histogram
Szereg rozdzielczy jest tabela˛ wartości próby wraz z liczebnościa.˛ Poniższy
szereg rozdzielczy podaje wyniki 101 pomiarów poziomu rzeki.
poziom rzeki (w m.)
4, 75 − 4, 95
4, 95 − 5, 15
5, 15 − 5, 35
5, 35 − 5, 55
5, 55 − 5, 75
5, 75 − 5, 95
liczebność
15
17
20
25
14
10
Histogram jest wykresem słupkowym liczebności od wartości próby.
()
Statystyka opisowa
24 maja 2010
4/8
Szereg rozdzielczy, histogram
Szereg rozdzielczy jest tabela˛ wartości próby wraz z liczebnościa.˛ Poniższy
szereg rozdzielczy podaje wyniki 101 pomiarów poziomu rzeki.
poziom rzeki (w m.)
4, 75 − 4, 95
4, 95 − 5, 15
5, 15 − 5, 35
5, 35 − 5, 55
5, 55 − 5, 75
5, 75 − 5, 95
liczebność
15
17
20
25
14
10
Histogram jest wykresem słupkowym liczebności od wartości próby.
()
Statystyka opisowa
24 maja 2010
4/8
Zależność mi˛edzy dwiema zmiennymi
Badamy zależność mi˛edzy dwiema zmiennymi (cechami) np.
dawka˛ nawozu a wielkościa˛ plonu
poziomem nasłonecznienia a wielkościa˛ plonu
stopniem inflacji a poziomem bezrobocia.
Próba jest teraz postaci: {(x1 , y1 ), (x2 , y2 ), ...(xn , yn )}, np. xi stopnień inflacji,
yi poziom bezrobocia.
Jedna˛ z miar zależności jest współczynnik korelacji liniowej r.
1
n
r=
n
P
(xi − x)(yi − y)
n
P
(xi − x)(xi − y)
s
=s
n
n
P
P
2
(xi − x)
(yi − y)2
i=1
i=1
sx sy
i=1
()
Statystyka opisowa
i=1
24 maja 2010
5/8
Zależność mi˛edzy dwiema zmiennymi
Badamy zależność mi˛edzy dwiema zmiennymi (cechami) np.
dawka˛ nawozu a wielkościa˛ plonu
poziomem nasłonecznienia a wielkościa˛ plonu
stopniem inflacji a poziomem bezrobocia.
Próba jest teraz postaci: {(x1 , y1 ), (x2 , y2 ), ...(xn , yn )}, np. xi stopnień inflacji,
yi poziom bezrobocia.
Jedna˛ z miar zależności jest współczynnik korelacji liniowej r.
1
n
r=
n
P
(xi − x)(yi − y)
n
P
(xi − x)(xi − y)
s
=s
n
n
P
P
2
(xi − x)
(yi − y)2
i=1
i=1
sx sy
i=1
()
Statystyka opisowa
i=1
24 maja 2010
5/8
Przykład:
pierśnica drzewa (cm)
grubość kory (mm)
13
0,9
17,3
1,1
21
1,4
21,5
1,3
24
1,5
26
1,6
26,1
2
28,7
1,7
31,1
1,8
31,4
2,1
Wykres rozrzutu:
r = 0, 93. Punkty na wykresie rozrzutu układaja˛ si˛e wzdłuż pewnej prostej.
Jak ja˛ wyznaczyć?
()
Statystyka opisowa
24 maja 2010
6/8
Przykład:
pierśnica drzewa (cm)
grubość kory (mm)
13
0,9
17,3
1,1
21
1,4
21,5
1,3
24
1,5
26
1,6
26,1
2
28,7
1,7
31,1
1,8
31,4
2,1
Wykres rozrzutu:
r = 0, 93. Punkty na wykresie rozrzutu układaja˛ si˛e wzdłuż pewnej prostej.
Jak ja˛ wyznaczyć?
()
Statystyka opisowa
24 maja 2010
6/8
Prosta regresji y = ax + b
Współczynniki a i b wyznaczane sa˛ metoda˛ najmniejszych kwadratów
(MNK) pochodzac
˛ a˛ od Gaussa, tj.
n
X
2
yi − (axi + b)
osiaga
˛ minimum.
i=1
Można wykazać, że
n
P
a=
(xi − x)(xi − y)
i=1
n
P
(xi − x)2
i=1
b = y − ax
()
Statystyka opisowa
24 maja 2010
7/8
Prosta regresji y = ax + b
Współczynniki a i b wyznaczane sa˛ metoda˛ najmniejszych kwadratów
(MNK) pochodzac
˛ a˛ od Gaussa, tj.
n
X
2
yi − (axi + b)
osiaga
˛ minimum.
i=1
Można wykazać, że
n
P
a=
(xi − x)(xi − y)
i=1
n
P
(xi − x)2
i=1
b = y − ax
()
Statystyka opisowa
24 maja 2010
7/8
Prosta regresji y = ax + b
Współczynniki a i b wyznaczane sa˛ metoda˛ najmniejszych kwadratów
(MNK) pochodzac
˛ a˛ od Gaussa, tj.
n
X
2
yi − (axi + b)
osiaga
˛ minimum.
i=1
Można wykazać, że
n
P
a=
(xi − x)(xi − y)
i=1
n
P
(xi − x)2
i=1
b = y − ax
()
Statystyka opisowa
24 maja 2010
7/8
Równanie prostej regresji: y = 0, 06x + 0, 11.
()
Statystyka opisowa
24 maja 2010
8/8

Podobne dokumenty