1 Zbiory cech statystycznych

Transkrypt

1 Zbiory cech statystycznych
Studia podyplomowe w zakresie technik internetowych
i komputerowej analizy danych
Podstawy statystyki matematycznej
Adam Kiersztyn
2 godziny lekcyjne
2011-10-22 8.20 - 9.50
1
Zbiory cech statystycznych
Szereg statystyczny to zbiór wartości liczbowych badanej cechy uporzadkowany
¾
wed÷
ug określonych kryteriów. Rozróz·nimy kilka rodzaj szeregów statystycznych.
W naszych rozwaz·aniach skoncentrujemy sie¾ na szeregach punktowych i
przedzia÷
owych.
1.1
Szereg rozdzielczy punktowy
Jednym z moz·liwych sposobów reprezentacji danych jest szereg rozdzielczy punktowy. Jest on najcześciej
¾
podawany za pomoca¾tabeli, w której w jednym wierszu
(lub kolumnie) podawane sa¾ wartości cechy a w drugim wierszu (lub odpowiednio kolumnie) podawana jest liczba elementów przyjmujacych
¾
dana¾ wartość.
Rozwaz·my nastepuj
¾ acy
¾ przyk÷ad.
Przyk÷
ad 1 Zmierzono napiecie
¾ pradu
¾ i otrzymano nastepuj
¾ ace
¾ wyniki:
227; 227; 227; 227; 227; 228; 228; 228; 228; 228; 228; 228;
1
229; 229; 229; 229; 229; 229; 229; 229; 229; 229; 229; 229;
230; 230; : : : ; 230; 231; 231; : : : ; 231;
|
{z
} |
{z
}
32 razy
21 razy
232; 232; 232; 232; 232; 233; 233:
W powy·zszym zestawie obserwacji nie wypisano wszystkich powtórze´n warto´sci
230 oraz 231: Jest oczywiste, ·ze praca na takich danych bez zastosowania narzedzi
¾
komputerowych by÷aby bardzo ·zmudna. Zastosowanie arkusza excel i wprowadzenie tych wszystkich warto´sci równie·z nie nale·za÷oby do najprzyjemniejszych. W
takich w÷a´snie przypadkach stosuje sie¾ szeregi rozdzielcze punktowe. Dane dotyczace
¾ napiecia
¾ pradu
¾ mo·zna przedstawi´c w nastepuj
¾ acy
¾ sposób
warto´s´c napiecia
¾
liczba obserwacji
227
5
228
7
229
12
230
32
231
21
232
5
233
2
lub równowa·znie za pomoca¾ analogicznej tabeli
warto´s´c napiecia
¾
227
228
229
230
231
232
233
liczba obserwacji
5
7
12
32
21
5
2
Poznaliśmy juz· wzory dla podstawowych miar przedstawionych za pomoca¾
szeregu rozdzielczego punktowego. Na zajeciach
¾
z podstaw statystyki opisowej
jeszcze raz na spokojnie prześledzimy proces de…niowania stosownych formu÷
w arkuszu Excel. W tej chwili przejdziemy do omawiania innego typu szeregu
rozdzielczego.
1.2
Szereg rozdzielczy przedzia÷
owy
Na wstepie
¾ rozwaz·ań dotyczacych
¾
szeregów rozdzielczych przedzia÷owych musimy
zauwaz·yć, z·e ten typ reprezentacji danych ma pewne minusy. Trzeba bowiem
pamietać,
¾
z·e stosujac
¾ szereg rozdzielczy przedzia÷
owy zastepujemy
¾
dane dok÷
adne
pewnymi przybliz·eniami w zwiazku
¾
z czym otrzymywane przez nas wartości
miar nie pokrywaja¾ sie¾ idealnie z ich odpowiednikami liczonymi bezpośrednio
dla danych niezgrupowanych. Róz·nice te sa¾jednak zazwyczaj ma÷o istotne. Zastanówmy sie¾ nastepnie,
¾
kiedy zastosowanie szeregu rozdzielczego przedzia÷
owego
jest uzasadnione. Po pierwsze wielkość próby, na której dokonywana jest analiza
powinna być dość duz·a (nie ma sensu stosowanie szeregu rozdzielczego przedzia÷
owego dla kilku obserwacji), ponadto rozstep
¾ z próby tez· powinien być dostatecznie duz·y. W podanym powyz·ej przyk÷
adzie na szereg rozdzielczy punktowy
2
zastosowanie szeregu rozdzielczego przedzia÷
owego nie mia÷oby wiekszego
¾
sensu.
Pomimo tego, z·e próba jest dość duz·a rozstep
¾ jest niewielki i wynosi zaledwie 6
jednostek.
Zanim podamy przyk÷
ad szeregu rozdzielczego przedzia÷owego musimy przedstawić schemat, za pomoca¾ którego jest on budowany. Pierwszym problem jest
określenie ilości przedzia÷
ów na
¾
dane. Przyje÷
¾o
p jakie mamy podzielić dostepne
N , gdzie N oznacza liczebność próby. Nastepnie
¾
sie,
¾ z·e liczba przedzia÷
ów k
wyróz·niamy element najmniejszy xmin i najwiekszy
¾
xmax w dostepnej
¾
zbiorowości.
Kolejnym krokiem jest ustalenie rozpietości
¾
przedzia÷u za pomoca¾ wzoru
h=
xmax
xmin
k
:
Ostatnim krokiem jest budowa przedzia÷
ów.
Przyk÷
ad 2 Zbadana wzrost pewnej grupy studentów i otrzymano nastepu¾
jace
¾ dane: 155, 160, 161, 162, 162, 163, 164, 165, 165, 168, 168, 169, 170,
170, 171, 172, 172, 173, 174, 174, 175, 176, 177, 178, 179, 180, 181, 184, 185,
187, 188, 189, 190, 191, 191.
W naszym przypadku N = 35 w zwiazku
¾ z tym przyjmujemy, ·ze k = 6: ×atwo
zauwa·zamy, ·ze xmin = 155; za´s xmax = 191 oraz h = 191 6 155 = 6: Ostatecznie
mo·zemy nasze dane zebra´c w szereg przedzia÷owy
przedzia÷
[155; 161)
[161; 167)
[167; 173)
[173; 179)
[179; 185)
[185; 191]
liczebno´s´c
2
7
8
7
4
7
Ćwiczenie 1 Podane poni·zej dane dotyczace
¾ czasu dojazdu do pracy (w
minutach) przedstawi´c w postaci szeregu rozdzielczego przedzia÷owego. Czasy
dojazdu: 8, 9, 9, 10, 10, 11, 12, 12, 12, 14, 15, 15, 15 ,15 ,17, 17, 18, 19, 20,
20, 23, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 32, 33 ,35, 40, 45, 50, 55, 60.
1.3
Praktyczne metody wyznaczania podstawowych miar
bez zastosowania komputerów
W tym punkcie naszych rozwaz·ań przedstawimy praktyczne sposoby wyznaczania podstawowych miar statystycznych bez zastosowania komputerów. Moz·e
sie¾ bowiem tak zdarzyć, z·e bed
¾ a¾ Państwo musieli wyznaczyć podstawowe miary
takie jak średnia, odchylenie standardowe, mediana czy tez· dominanta i nie bed
¾ a¾
mieli Państwo dostepu
¾ do niezbednego
¾
oprogramowania. W takich przypadkach
dobrze jest zastosować zaprezentowane poniz·ej metody.
3
Przyk÷
ad 3 Za÷ó·zmy, ·ze wyniki pewnego do´swiadczenia reprezentuje poni·zsza
tabelka
warto´s´c cechy (xi ) liczebno´s´c (ni )
-2
5
-1
10
0
15
1
25
2
20
3
5
Chcemy wyznaczy´c podstawowe charakterystyki. W tym celu rozbudowujemy
nasza¾tabelke¾ dodajac
¾ dodatkowe kolumny oraz jeden wiersz, w którym bedziemy
¾
zliczali sumy odpowiednich kolumn. Rozbudowana tabelka przyjmuje nastepuj
¾ ac
¾ a¾
posta´c
xi
ni xi ni x2i ni Ni
2
5
10
20
5
1
10
10
10
15
0
15
0
0
30
1
25
25
25
55
2
20
40
80
75
3
5
15
45
80
suma 80
60
180
gdzie kolumna trzecia jest iloczynem kolumny pierwszej i drugiej, kolumna czwarta
jest iloczynem kolumny pierwszej i trzeciej, natomiast ostatnia kolumna zawiera
liczebno´sci skumulowane, które powstaja¾ z obliczania sum cze¾´sciowych drugiej
kolumny do danego poziomu. Na podstawie powy·zszych danych otrzymujemy
nastepuj
¾ ace
¾ wyniki
k
X
xi ni
3
60
i=1
= ;
X=
=
k
80
4
X
ni
i=1
S2 =
k
X
x2i ni
2
i=1
k
X
X =
180
80
3
4
2
=
27
;
16
ni
i=1
ponadto ÷atwo stwierdzamy, ·ze dominanta wynosi D = 1 (najwieksza
¾
liczebno´s´c
jest dla warto´sci 1) oraz mediana M e = 1, bowiem dla warto´sci 1 pierwszy raz
liczebno´s´c skumulowana przekracza 40.
W podobny sposób moz·na dokonać niezbednych
¾
obliczeń dla szeregu rozdzielczego przedzia÷
owego, jedyna¾ róz·nica¾ jest dodanie kolumny zawierajacej
¾ środki
przedzia÷
ów. Rozwaz·my nastepuj
¾ acy
¾ przyk÷ad.
4
Przyk÷
ad 4 Dla danych z przyk÷adu 2 wyznaczy´c podstawowe miary statystyki
opisowej. Podobnie jak poprzednio rozbudowujemy nasza¾ tabele¾ o dodatkowe
kolumny i wiersz, przyjmuje wówczas ona nastepuj
¾ ac
¾ a¾ posta´c
przedzia÷ liczebno´s´c (ni ) ´srodek przedzia÷u (x_ i )
155+161
[155; 161)
2
= 158
2
161+167
[161; 167)
7
= 164
2
167+173
[167; 173)
8
= 170
2
173+179
= 176
[173; 179)
7
2
179+185
[179; 185)
4
= 182
2
185+191
[185; 191]
7
= 188
2
suma
35
x_ i ni
316
1148
1360
1232
728
1316
6100
x_ 2i ni
49928
188272
231200
216832
132496
247408
1066136
Ni
2
9
17
24
28
35
Podobnie jak poprzednio wyznaczamy warto´s´c ´sredniej oraz wariancji
X=
S2 =
1220
6100
=
35
7
1066136
35
1220
7
2
=
20952
245
Natomiast wyznaczenie mediany i dominanty wymaga troche¾dodatkowych oblicze´n
i zastosowania wzorów (5) i (6) z poprzednich konspektów. Wszelkie niezbedne
¾
informacje sa¾ jednak bezpo´srednio dostepne
¾
w powy·zszej tabeli. My wówczas
N
2
M e = xM e +
D = D = xD +
2
nD
kM
e 1
X
i=1
nM e
ni
iM e = 173 +
17; 5 17
6 = 173; 43
7
nD n D 1
iD = 167 +
nD 1 + nD nD+1
8
8 7
7+8
7
6 = 170:
Liczby losowe (generatory liczb losowych, tablice
liczb losowych)
Istotnym zagadnieniem statystyki matematycznej jest generowanie liczb losowych,
ma ono zastosowanie miedzy
¾
innymi podczas wybierania próby losowej. W
zwiazku
¾
z tym musimy przybliz·yć sobie dostepne
¾
generatory liczb losowych.
Skupimy sie¾ tutaj na generatorach zaimplementowych w arkuszu Excel oraz na
tablicach liczb losowych. W internecie moz·na znaleźć wiele tablic liczb losowych,
jednak dobór w÷
aściwych tablic moz·e nastreczać
¾
duz·e problemy. Znacznie wygodniejszym sposobem jest wygenerowanie liczb losowych spe÷niajacych
¾
nasze wymagania. W tym celu wykorzystamy dostepn
¾ a¾w programie Excel funkcje¾ "LOS()",
5
która zwraca nam liczbe¾ pseudolosowa¾ pobrana¾ ze zmiennej o rozk÷adzie jednostajnym na przedziale (0,1). Innymi s÷owy otrzymujemy liczbe¾ (pseudolosowa)
¾
z przedzia÷
u (0,1). Pojawia sie¾ tutaj naturalne pytanie w jaki sposób uzyskać
liczby losowe z innych podzbiorów liczb rzeczywistych. Jest to moz·liwe poprzez
odpowiednie przekszta÷
cenie wyniku danej funkcji, dla przyk÷adu formu÷a
zwraca nam naturalne liczby losowe ze zbioru f1; 2; : : : ; 10g :
Istotna¾wada¾generatora zastosowanego w programie Excel jest fakt, z·e liczby
sa¾ pobierane z rozk÷
adu równomiernego. Czasami chcemy, aby próba by÷
a pobierana zgodnie z innym rozk÷adem, wtedy mamy dwa wyjścia. Jedno z nich
polega na umiejetnym
¾
z÷
oz·eniu funkcji kwantyli z·adanego
¾
rozk÷adu z funkcja¾
LOS(). Drugi sposób polega na skorzystaniu z innych dostepnych
¾
w internecie
generatorów liczb losowych.
Ćwiczenie 2 Napisa´c formu÷e¾ pozwalajac
¾ a¾ otrzyma´c jako wynik ca÷kowite
liczby losowe ze zbioru f 5; 4; : : : ; 2; 3g :
6