1 Próba a populacja

Transkrypt

1 Próba a populacja
Kurs w zakresie zaawansowanych metod komputerowej analizy danych
Podstawy statystycznej analizy danych
9.03.2014 - 2 godziny konwersatorium
autor: Adam Kiersztyn
1
Próba a populacja
Nasze rozwaz·ania zaczniemy od przedyskutowania podstawowych pojeć
¾ statystycznych, poszczególne de…nicje zostana¾ wzbogacone o obrazowe przyk÷ady.
Jednym z najistotniejszych pojeć
¾ jest populacja statystyczna.
De…nicja 1 Populacja statystyczna (zbiorowo´s´c generalna) jest to zbiór obiektów objetych
¾
badaniem statystycznym, co do których formu÷uje sie¾ wnioski statystyczne.
Bardzo silnie z pojeciem
¾
populacji statystycznej zwiazane
¾
jest pojecie
¾ próby
statystycznej.
De…nicja 2 Próba statystyczna jest to zbiór obserwacji statystycznych wybranych
z populacji statystycznej. Na próbie dokonywane sa¾bezpo´srednie badania statystyczne a wyniki bada´n sa¾ uogólniane na populacje.
¾
Juz· z pobiez·nej analizy obu de…nicji wynika, z·e próba jest pewnym podzbiorem
populacji. W tym miejscu moz·e pojawić sie¾ pytania:
Jaki sens ma badanie próby zamiast ca÷ej populacji?
W jaki sposób dokonać wybory próby?
Jaki jest zwiazek
¾
pomiedzy
¾
wynikami badań przeprowadzonych dla próby
a oczekiwanymi wynikami dotyczacymi
¾
ca÷
ej populacji?
Zanim odpowiemy na te pytania spróbujmy podać kilka przyk÷adów róz·nych
populacji statystycznych oraz prób.
Przyk÷
ad 1 Rozwa·zmy populacje¾statystyczna,
¾ która¾stanowia¾wszyscy ·zyjacy
¾
ludzie na Ziemi. Jest to co prawda populacja sko´nczona, ale nie jest mo·zliwe
zbadanie chocia·zby wzrostu ca÷ej populacji ludzi. W zwiazku
¾ z tym chcac
¾ oszacowa´c ´sredni wzrost ludzi nale·za÷oby obliczy´c ´srednia¾ dla pewnego podzbioru
wszystkich ludzi i na tej podstawie przybli·zy´c ´srednia¾ wzrostu wszystkich ludzi.
Oczywi´scie wybór tego podzbioru (czyli próby) nie jest dowolny. Zastanówmy sie¾
bowiem, czy wybranie jako próby cz÷onków polskiej dru·zyny siatkarzy by÷oby uzasadnione, albo czy przyjecie
¾ jako próba¾ uczniów pewnej szko÷y by÷oby w÷a´sciwe?
Oba podane przyk÷
ady w jasny sposób pokazuja,
¾ z·e wybór próby statystycznej nie jest taki prosty, bowiem nie kaz·dy podzbiór populacji jest reprezentatywny. Pojawia sie¾ tutaj kolejny problem. W jaki sposób dokonać wyboru
próby z populacji? Przy wyborze próby musimy mieć na uwadze ceche¾ statystyczna¾ (lub cechy statystyczne) jaka¾ chcemy badać. Najcześciej
¾
stosuje sie¾ próbe¾
losowa,
¾ czyli ciag
¾ zmiennych losowych o takim samym rozk÷adzie jak rozk÷ad
populacji.
1
Przyk÷
ad 2 Rozwa·zmy teraz populacje¾ drzew w pewnym lesie mieszanym,
interesujac
¾ a¾ nas cecha¾ bedzie
¾
wysoko´s´c drzew. Jakie próby mo·zna wyró·zni´c w
tej populacji?
Ćwiczenie 1 Odpowiedzie´c na postawione powy·zej pytania dotyczace
¾ zwiazków
¾
populacji oraz próby.
Ćwiczenie 2 Poda´c inne przyk÷ady populacji.
De…nicja 3 Jednostka statystyczna jest to element zbiorowo´sci statystycznej,
który poddawany jest badaniom.
De…nicja 4 Cecha statystyczna jest to w÷a´sciwo´s´c, która¾odznaczaja¾sie¾ jednostki statystyczne i która podlega badaniu statystycznemu.
Cechy statystyczne moz·na podzielić na:
Jakościowe - niemierzalne, opisowe cechy statystyczne, określane s÷ownie.
Porzadkowe
¾
- cechy opisane za pomoca¾ skali liczbowej, ale te liczby wskazuje¾
jedynie na porzadek
¾
wed÷
ug którego zosta÷
y ustawione analizowane cechy.
Ilościowe - cechy opisane za pomoca¾ skali liczbowej, czesto
¾
z wyróz·nionym
zerem.
Ćwiczenie 3 Opisa´c populacje¾ osób bed
¾ acych
¾
na zajeciach
¾
za pomoca¾ kilku
cech, jakiego rodzaju sa¾ to cechy?
2
Zmienne losowe ciag÷
¾ e i skokowe
Pod pojeciem
¾
zmiennej losowej bedziemy
¾
rozumieć dowolna¾ funkcje¾ mierzalna.
¾
W teorii prawdopodobieństwa wyróz·nia sie¾ dwa g÷ówne typy zmiennych losowych,
mianowicie zmienne losowe ciag÷
¾ e i skokowe. Bez wdawania w szczegó÷owe
rozwaz·ania, dla naszych potrzeb wystarczy stwierdzenie, z·e zmienna losowa
skokowa przyjmuje wartości w pewnym przeliczalnym zbiorze wartości, natomiast zmienna losowa ciag÷
¾ a przyjmuje wartości w zbiorze nieprzeliczalnym.
Z pojeciem
¾
zmiennej losowej nierozerwalnie zwiazany
¾
jest jej rozk÷ad.
De…nicja 5 Rozk÷ad zmiennej losowej jest to miara probabilistyczna okre´slona
na -ciele podzbiorów warto´sci zmiennej losowej:
Tak określona miara probabilistyczna pozwala przypisać prawdopodobieństwa
poszczególnym zdarzeniom losowym. Rozk÷ad zmiennej losowej moz·na zadawać
w róz·ny sposób. Dla zmiennych losowych typu skokowego zazwyczaj zadaje sie¾
poprzez podanie funkcji skoków prawdopodobieństwa. Funkcje¾ ta¾ przyje÷
¾ o sie¾
przedstawiać w przejrzystej formie tabelki.
2
Przyk÷
ad 3 Funkcje¾ta¾przyje÷
¾o sie¾przedstawia´c w przejrzystej formie tabelki.
Rozwa·zmy zmienna¾ losowa¾ X oznaczajac
¾ a¾ wyrzucona¾ na kostce liczbe¾ oczek, w
tym przypadku funkcja skoku przyjmuje posta´c nastepuj
¾ acej
¾ tabelki
xi
1
2
3
4
5
6
pi
1
6
1
6
1
6
1
6
1
6
1
6
Dla zmiennych losowych typu ciag÷
¾ ego podanie rozk÷ady za pomoca¾ tak
czytelnej tabelki jest niemoz·liwe (pamietamy,
¾
z·e przyjmuje on nieskończenie
wiele wartości). Dlatego najcześciej
¾
rozk÷ad zmiennej losowej zadaje sie¾ za pomoca¾ gestości
¾
prawdopodobieństwa.
Czesto
¾
rozwaz·anym przyk÷adem
zmiennej losowej typu skokowego jest zmienna losowa o rozk÷adzie jednostajnym (równomiernym), charakteryzuje sie¾ ona tym, z·e kaz·da wartość liczbowa z
pewnego przedzia÷
u liczbowego (a; b) przyjmowana jest z równym prawdopodobieństwem, natomiast wartości spoza tego przedzia÷u nie sa¾ przyjmowane. W
takim przypadku gestość
¾
wyraz·a sie¾ wzorem
8
1
<
dla x 2 (a; b)
b a
:
f (x) =
: 0
dla x 2
= (a; b)
Innym sposobem zadania rozk÷
adu jest podanie dystrybuanty rozk÷adu. Dystrybuante¾ zmiennej losowej rozwaz·a sie¾ zarówno dla zmiennych losowych typu
skokowego jak i zmiennych losowych typu ciag÷
¾ ego.
De…nicja 6 Dystrybuanta¾ zmiennej losowej X nazywamy funkcje¾ rzeczywista¾ jednoznacznie wyznaczajac
¾ a¾ rozk÷ad prawdopodobie´nstwa, a wiec
¾ zawierajac
¾ a¾ wszystkie informacje o tym rozk÷adzie. Dystrybuante¾ zazwyczaj wyznacza
sie¾ z pomoca¾ nastepuj
¾ acego
¾
wzoru
FX (t) = P (X < t) = P (X 2 ( 1; t)) :
(1)
Uwaga 1 W niektórych ksia¾·zkach mo·zna spotka´c sie¾ z nieco inna¾de…nicja,
¾
mianowicie nierówno´s´c < zastapiona
¾
jest przez nierówno´s´c ; czyli
FX (t) = P (X
t) = P (X 2 ( 1; t])
(2)
Uwaga 2 Je´sli nie budzi to nieporozumie´n indeks dolny, mówiacy
¾ o tym
jakiej zmiennej jest to dystrybuanta, mo·zna pomina´c.
¾ Je´sli w zadaniu mamy
zadana¾ tylko jedna¾ zmienna¾ losowa¾ to ´smia÷o mo·zna pomina´c
¾ indeks dolny.
Uwaga 3 Ze wzgledów
¾
praktycznych dystrybuante¾ zmiennej losowej wyznacza sie¾ za pomoca¾ nastepuj
¾ acych
¾
pomocniczych wzorów
X
8
pi dla zmiennych typu skokowego
>
>
>
>
< xi <( )t
Zt
FX (t) =
:
(3)
>
>
>
f (x) dx dla
zmiennych typu ciag÷
¾ ego
>
:
1
3
Przyk÷
ad 4 Wyznaczymy dystrybuante¾zmiennej losowej podanej w przyk÷adzie
3 na dwa sposoby, w ten sposób bedziemy
¾
mogli porówna´c ró·znice wynikajace
¾ z
tych dwóch de…nicji. Korzystajac
¾ ze wzoru (1) otrzymujemy nastepuj
¾ acy
¾ wzór
dystrybuanty
8
0 dla x 2 ( 1; 1]
>
>
>
>
1
>
dla
x 2 (1; 2]
>
> 6
>
>
>
2
>
dla
x 2 (2; 3]
>
6
>
>
< 3
dla
x 2 (3; 4] :
FX (x) =
6
>
>
4
>
dla
x 2 (4; 5]
>
6
>
>
>
>
5
>
dla
x 2 (5; 6]
>
6
>
>
>
>
: 1
dla x 2 (6; 1)
Natomiast po zastosowanie wzoru (2)
8
>
>
> 0
>
>
>
1
>
>
6
>
>
>
>
2
>
>
>
< 6
3
FX (x) =
6
>
>
>
4
>
>
6
>
>
>
>
5
>
>
6
>
>
>
>
: 1
otrzymujemy wzór funkcji
dla x 2 ( 1; 1)
dla
x 2 [1; 2)
dla
x 2 [2; 3)
dla
x 2 [3; 4)
dla
x 2 [4; 5)
dla
x 2 [5; 6)
dla
x 2 [6; 1)
:
Jak ÷atwo spostrzec jedyna ró·znica polega, ·ze dystrybuanta jest lewostronnie lub
prawostronnie ciag÷
¾ a.
Przyk÷
ad 5 Wyznaczanie dystrybuanty zmiennej losowej jest nieco trudniejsze i jak wiemy polega na obliczaniu ca÷ek oznaczonych z gesto
¾ ´sci. W dalszej cze¾´sci naszych rozwa·za´n nie bedziemy
¾
oblicza´c warto´sci dystrybuant zmiennych losowych ciag÷
¾ ych. Bedziemy
¾
natomiast stosunkowo czesto
¾
korzysta´c z
warto´sci dystrybuant wybranych rozk÷adów zawartych w tablicach statystycznych.
W zwiazku
¾ z tym, aby mie´c czyste sumienie wyznaczymy dystrybuante¾wybranego
rozk÷adu. Rozwa·zmy zmienna¾ losowa¾ o gesto
¾ ´sci
(
0
dla x 2 ( 1; 0)
f (x) =
e x dla x 2 [0; 1)
4
wówczas korzystajac
¾ ze wzoru (3) otrzymujemy nastepuj
¾ ac
¾ a¾ funkcje¾
8
Zx
>
>
>
>
0dt = 0
dla x 2 ( 1; 0)
>
>
<
1
F (x) =
Zx
>
>
>
>
f (t) dt = 1 e x dla x 2 [0; 1)
>
>
:
1
gdzie druga¾ cze´s´c wzoru otrzymujemy w nastepuj
¾ acy
¾ sposób
Zx
f (t) dt =
1
Z0
0dt +
1
Zx
e t dt = 0 +
et jx0 = 1
e
x
:
0
Analizujac
¾ powyz·sze dwa przyk÷ady moz·emy ÷atwo dostrzec pewna¾ bardzo
istotna¾ w÷
asność wszystkich dystrybuant. Mianowicie
lim F (x) = 0
x! 1
oraz
lim F (x) = 1:
x!1
Ćwiczenie 4 Wyznaczy´c dystrybuante¾ zmiennej losowej Y o rozk÷adzie jednostajnym na odcinku (0; 5) :
Ćwiczenie 5 Dana jest zmienna losowa X o funkcji skoków prawdopodobie´nstwa
zadanej tabelka¾
xi
2
pi
1
10
1
1
10
0
2
3
6
8
2
10
1
10
3
10
1
10
1
10
wyznaczy´c dystrybuante¾ zmiennej losowej X:
W statystyce dystrybuanta rozk÷adu próby zwana jest dystrybuanta¾ empiryczna¾ i jest blisko zwiazana
¾
z pojeciem
¾
rangi. W poniz·szym przyk÷adzie
poznamy praktyczny sposób wyznaczania dystrybuanty empirycznej.
Przyk÷
ad 6 Zbadano napiecie
¾ pradu
¾ w kilku losowych chwilach czasu i otrzymano wyniki: 230, 231, 225, 228, 230, 233, 230, 230, 232, 235. Wyznaczy´c
dystrybuante¾ empiryczna.¾
Rozwiazanie:
¾
W pierwszym kroku musimy wartości ustawić w sposób
niemalejacy,
¾ mamy wówczas
225; 228; 230; 230; 230; 230; 231; 232; 233; 235:
5
Nastepnie
¾
moz·emy przystapić
¾ do wyznaczania dystrybuanty empirycznej, przy
czy pamietajmy,
¾
z·e n = 10:
8
0
dla x 2 ( 1; 225]
>
>
>
>
1
>
dla x 2 (225; 228]
>
10
>
>
>
>
2
>
>
> 10 dla x 2 (228; 230]
>
>
>
6
>
dla x 2 (230; 231]
< 10
F (x) =
:
7
dla x 2 (231; 232]
>
10
>
>
>
>
8
>
dla x 2 (232; 233]
>
10
>
>
>
>
9
>
>
> 10 dla x 2 (233; 235]
>
>
>
: 1 dla x 2 (235; 1]
Prześledźmy dok÷
adniej w jaki sposób zosta÷a wyznaczona np. wartość F (233).
Zauwaz·my, z·e liczba obserwacji mniejszych od 233 wynosi 8 i w zwiazku
¾
z tym
8
= 45 :
F (233) = 10
3
Ćwiczenia do samodzielnego rozwiazania
¾
Ćwiczenie 6 Rozwa·zmy rzut dwiema symetrycznymi monetami. Niech X
oznacza liczba¾wyrzuconych or÷ów. Poda´c rozk÷ad oraz dystrybuante¾tak okre´slonej
zmiennej losowej.
Ćwiczenie 7 Zbadano ilo´s´c samochodów sprzedawanych przez pewien salon
w ciagu
¾ kolejnych dni i otrzymano wyniki: 10; 8; 7; 12; 8; 9 ; 11: Wyznaczy´c
dystrybuante¾ empiryczna.¾
Ćwiczenie 8 Dana jest zmienna losowa Y o rozk÷adzie zadanym tabelka¾
xi
1
pi
1
8
2
1
8
0
1
2
4
2
8
2
8
1
8
1
8
:
Wyznaczy´c dystrybuante¾ zmiennej losowej Y:
Ćwiczenie 9 Dana jest zmienna losowa Z o gesto
¾ ´sci
f (x) =
x+
0
1
2
dla x 2 (0; 1)
:
dla x 2
= (0; 1)
Wyznaczy´c dystrybuante¾ zmiennej losowej Z:
6
4
Zbiory cech statystycznych
Szereg statystyczny to zbiór wartości liczbowych badanej cechy uporzadkowany
¾
wed÷
ug określonych kryteriów. Rozróz·nimy kilka rodzaj szeregów statystycznych.
W naszych rozwaz·aniach skoncentrujemy sie¾ na szeregach punktowych i
przedzia÷
owych.
4.1
Szereg rozdzielczy punktowy
Jednym z moz·liwych sposobów reprezentacji danych jest szereg rozdzielczy punktowy. Jest on najcześciej
¾
podawany za pomoca¾tabeli, w której w jednym wierszu
(lub kolumnie) podawane sa¾ wartości cechy a w drugim wierszu (lub odpowiednio kolumnie) podawana jest liczba elementów przyjmujacych
¾
dana¾ wartość.
Rozwaz·my nastepuj
¾ acy
¾ przyk÷ad.
Przyk÷
ad 7 Zmierzono napiecie
¾ pradu
¾ i otrzymano nastepuj
¾ ace
¾ wyniki:
227; 227; 227; 227; 227; 228; 228; 228; 228; 228; 228; 228;
229; 229; 229; 229; 229; 229; 229; 229; 229; 229; 229; 229;
230; 230; : : : ; 230; 231; 231; : : : ; 231;
|
{z
} |
{z
}
32 razy
21 razy
232; 232; 232; 232; 232; 233; 233:
W powy·zszym zestawie obserwacji nie wypisano wszystkich powtórze´n warto´sci
230 oraz 231: Jest oczywiste, ·ze praca na takich danych bez zastosowania narzedzi
¾
7
komputerowych by÷aby bardzo ·zmudna. Zastosowanie arkusza excel i wprowadzenie tych wszystkich warto´sci równie·z nie nale·za÷oby do najprzyjemniejszych. W
takich w÷a´snie przypadkach stosuje sie¾ szeregi rozdzielcze punktowe. Dane dotyczace
¾ napiecia
¾ pradu
¾ mo·zna przedstawi´c w nastepuj
¾ acy
¾ sposób
warto´s´c napiecia
¾
liczba obserwacji
227
5
228
7
229
12
230
32
231
21
232
5
233
2
lub równowa·znie za pomoca¾ analogicznej tabeli
warto´s´c napiecia
¾
227
228
229
230
231
232
233
liczba obserwacji
5
7
12
32
21
5
2
Poznaliśmy juz· wzory dla podstawowych miar przedstawionych za pomoca¾
szeregu rozdzielczego punktowego.
4.2
Szereg rozdzielczy przedzia÷
owy
Na wstepie
¾ rozwaz·ań dotyczacych
¾
szeregów rozdzielczych przedzia÷owych musimy
zauwaz·yć, z·e ten typ reprezentacji danych ma pewne minusy. Trzeba bowiem
pamietać,
¾
z·e stosujac
¾ szereg rozdzielczy przedzia÷
owy zastepujemy
¾
dane dok÷
adne
pewnymi przybliz·eniami w zwiazku
¾
z czym otrzymywane przez nas wartości
miar nie pokrywaja¾ sie¾ idealnie z ich odpowiednikami liczonymi bezpośrednio
dla danych niezgrupowanych. Róz·nice te sa¾jednak zazwyczaj ma÷o istotne. Zastanówmy sie¾ nastepnie,
¾
kiedy zastosowanie szeregu rozdzielczego przedzia÷
owego
jest uzasadnione. Po pierwsze wielkość próby, na której dokonywana jest analiza
powinna być dość duz·a (nie ma sensu stosowanie szeregu rozdzielczego przedzia÷
owego dla kilku obserwacji), ponadto rozstep
¾ z próby tez· powinien być dostatecznie duz·y. W podanym powyz·ej przyk÷
adzie na szereg rozdzielczy punktowy
zastosowanie szeregu rozdzielczego przedzia÷
owego nie mia÷oby wiekszego
¾
sensu.
Pomimo tego, z·e próba jest dość duz·a rozstep
¾ jest niewielki i wynosi zaledwie 6
jednostek.
Zanim podamy przyk÷
ad szeregu rozdzielczego przedzia÷owego musimy przedstawić schemat, za pomoca¾ którego jest on budowany. Pierwszym problem jest
określenie ilości przedzia÷
ów na
¾
dane. Przyje÷
¾o
p jakie mamy podzielić dostepne
sie,
¾ z·e liczba przedzia÷
ów k
N , gdzie N oznacza liczebność próby. Nastepnie
¾
wyróz·niamy element najmniejszy xmin i najwiekszy
¾
xmax w dostepnej
¾
zbiorowości.
Kolejnym krokiem jest ustalenie rozpietości
¾
przedzia÷u za pomoca¾ wzoru
h=
xmax
xmin
k
8
:
Ostatnim krokiem jest budowa przedzia÷
ów.
Przyk÷
ad 8 Zbadano wzrost pewnej grupy studentów i otrzymano nastepu¾
jace
¾ dane: 155, 160, 161, 162, 162, 163, 164, 165, 165, 168, 168, 169, 170,
170, 171, 172, 172, 173, 174, 174, 175, 176, 177, 178, 179, 180, 181, 184, 185,
187, 188, 189, 190, 191, 191.
W naszym przypadku N = 35 w zwiazku
¾ z tym przyjmujemy, ·ze k = 6: ×atwo
zauwa·zamy, ·ze xmin = 155; za´s xmax = 191 oraz h = 191 6 155 = 6: Ostatecznie
mo·zemy nasze dane zebra´c w szereg przedzia÷owy
przedzia÷
[155; 161)
[161; 167)
[167; 173)
[173; 179)
[179; 185)
[185; 191]
liczebno´s´c
2
7
8
7
4
7
Ćwiczenie 10 Podane poni·zej dane dotyczace
¾ czasu dojazdu do pracy (w
minutach) przedstawi´c w postaci szeregu rozdzielczego przedzia÷owego. Czasy
dojazdu: 8, 9, 9, 10, 10, 11, 12, 12, 12, 14, 15, 15, 15 ,15 ,17, 17, 18, 19, 20,
20, 23, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 32, 33 ,35, 40, 45, 50, 55, 60.
9