1 Próba a populacja
Transkrypt
1 Próba a populacja
Kurs w zakresie zaawansowanych metod komputerowej analizy danych Podstawy statystycznej analizy danych 9.03.2014 - 2 godziny konwersatorium autor: Adam Kiersztyn 1 Próba a populacja Nasze rozwaz·ania zaczniemy od przedyskutowania podstawowych pojeć ¾ statystycznych, poszczególne de…nicje zostana¾ wzbogacone o obrazowe przyk÷ady. Jednym z najistotniejszych pojeć ¾ jest populacja statystyczna. De…nicja 1 Populacja statystyczna (zbiorowo´s´c generalna) jest to zbiór obiektów objetych ¾ badaniem statystycznym, co do których formu÷uje sie¾ wnioski statystyczne. Bardzo silnie z pojeciem ¾ populacji statystycznej zwiazane ¾ jest pojecie ¾ próby statystycznej. De…nicja 2 Próba statystyczna jest to zbiór obserwacji statystycznych wybranych z populacji statystycznej. Na próbie dokonywane sa¾bezpo´srednie badania statystyczne a wyniki bada´n sa¾ uogólniane na populacje. ¾ Juz· z pobiez·nej analizy obu de…nicji wynika, z·e próba jest pewnym podzbiorem populacji. W tym miejscu moz·e pojawić sie¾ pytania: Jaki sens ma badanie próby zamiast ca÷ej populacji? W jaki sposób dokonać wybory próby? Jaki jest zwiazek ¾ pomiedzy ¾ wynikami badań przeprowadzonych dla próby a oczekiwanymi wynikami dotyczacymi ¾ ca÷ ej populacji? Zanim odpowiemy na te pytania spróbujmy podać kilka przyk÷adów róz·nych populacji statystycznych oraz prób. Przyk÷ ad 1 Rozwa·zmy populacje¾statystyczna, ¾ która¾stanowia¾wszyscy ·zyjacy ¾ ludzie na Ziemi. Jest to co prawda populacja sko´nczona, ale nie jest mo·zliwe zbadanie chocia·zby wzrostu ca÷ej populacji ludzi. W zwiazku ¾ z tym chcac ¾ oszacowa´c ´sredni wzrost ludzi nale·za÷oby obliczy´c ´srednia¾ dla pewnego podzbioru wszystkich ludzi i na tej podstawie przybli·zy´c ´srednia¾ wzrostu wszystkich ludzi. Oczywi´scie wybór tego podzbioru (czyli próby) nie jest dowolny. Zastanówmy sie¾ bowiem, czy wybranie jako próby cz÷onków polskiej dru·zyny siatkarzy by÷oby uzasadnione, albo czy przyjecie ¾ jako próba¾ uczniów pewnej szko÷y by÷oby w÷a´sciwe? Oba podane przyk÷ ady w jasny sposób pokazuja, ¾ z·e wybór próby statystycznej nie jest taki prosty, bowiem nie kaz·dy podzbiór populacji jest reprezentatywny. Pojawia sie¾ tutaj kolejny problem. W jaki sposób dokonać wyboru próby z populacji? Przy wyborze próby musimy mieć na uwadze ceche¾ statystyczna¾ (lub cechy statystyczne) jaka¾ chcemy badać. Najcześciej ¾ stosuje sie¾ próbe¾ losowa, ¾ czyli ciag ¾ zmiennych losowych o takim samym rozk÷adzie jak rozk÷ad populacji. 1 Przyk÷ ad 2 Rozwa·zmy teraz populacje¾ drzew w pewnym lesie mieszanym, interesujac ¾ a¾ nas cecha¾ bedzie ¾ wysoko´s´c drzew. Jakie próby mo·zna wyró·zni´c w tej populacji? Ćwiczenie 1 Odpowiedzie´c na postawione powy·zej pytania dotyczace ¾ zwiazków ¾ populacji oraz próby. Ćwiczenie 2 Poda´c inne przyk÷ady populacji. De…nicja 3 Jednostka statystyczna jest to element zbiorowo´sci statystycznej, który poddawany jest badaniom. De…nicja 4 Cecha statystyczna jest to w÷a´sciwo´s´c, która¾odznaczaja¾sie¾ jednostki statystyczne i która podlega badaniu statystycznemu. Cechy statystyczne moz·na podzielić na: Jakościowe - niemierzalne, opisowe cechy statystyczne, określane s÷ownie. Porzadkowe ¾ - cechy opisane za pomoca¾ skali liczbowej, ale te liczby wskazuje¾ jedynie na porzadek ¾ wed÷ ug którego zosta÷ y ustawione analizowane cechy. Ilościowe - cechy opisane za pomoca¾ skali liczbowej, czesto ¾ z wyróz·nionym zerem. Ćwiczenie 3 Opisa´c populacje¾ osób bed ¾ acych ¾ na zajeciach ¾ za pomoca¾ kilku cech, jakiego rodzaju sa¾ to cechy? 2 Zmienne losowe ciag÷ ¾ e i skokowe Pod pojeciem ¾ zmiennej losowej bedziemy ¾ rozumieć dowolna¾ funkcje¾ mierzalna. ¾ W teorii prawdopodobieństwa wyróz·nia sie¾ dwa g÷ówne typy zmiennych losowych, mianowicie zmienne losowe ciag÷ ¾ e i skokowe. Bez wdawania w szczegó÷owe rozwaz·ania, dla naszych potrzeb wystarczy stwierdzenie, z·e zmienna losowa skokowa przyjmuje wartości w pewnym przeliczalnym zbiorze wartości, natomiast zmienna losowa ciag÷ ¾ a przyjmuje wartości w zbiorze nieprzeliczalnym. Z pojeciem ¾ zmiennej losowej nierozerwalnie zwiazany ¾ jest jej rozk÷ad. De…nicja 5 Rozk÷ad zmiennej losowej jest to miara probabilistyczna okre´slona na -ciele podzbiorów warto´sci zmiennej losowej: Tak określona miara probabilistyczna pozwala przypisać prawdopodobieństwa poszczególnym zdarzeniom losowym. Rozk÷ad zmiennej losowej moz·na zadawać w róz·ny sposób. Dla zmiennych losowych typu skokowego zazwyczaj zadaje sie¾ poprzez podanie funkcji skoków prawdopodobieństwa. Funkcje¾ ta¾ przyje÷ ¾ o sie¾ przedstawiać w przejrzystej formie tabelki. 2 Przyk÷ ad 3 Funkcje¾ta¾przyje÷ ¾o sie¾przedstawia´c w przejrzystej formie tabelki. Rozwa·zmy zmienna¾ losowa¾ X oznaczajac ¾ a¾ wyrzucona¾ na kostce liczbe¾ oczek, w tym przypadku funkcja skoku przyjmuje posta´c nastepuj ¾ acej ¾ tabelki xi 1 2 3 4 5 6 pi 1 6 1 6 1 6 1 6 1 6 1 6 Dla zmiennych losowych typu ciag÷ ¾ ego podanie rozk÷ady za pomoca¾ tak czytelnej tabelki jest niemoz·liwe (pamietamy, ¾ z·e przyjmuje on nieskończenie wiele wartości). Dlatego najcześciej ¾ rozk÷ad zmiennej losowej zadaje sie¾ za pomoca¾ gestości ¾ prawdopodobieństwa. Czesto ¾ rozwaz·anym przyk÷adem zmiennej losowej typu skokowego jest zmienna losowa o rozk÷adzie jednostajnym (równomiernym), charakteryzuje sie¾ ona tym, z·e kaz·da wartość liczbowa z pewnego przedzia÷ u liczbowego (a; b) przyjmowana jest z równym prawdopodobieństwem, natomiast wartości spoza tego przedzia÷u nie sa¾ przyjmowane. W takim przypadku gestość ¾ wyraz·a sie¾ wzorem 8 1 < dla x 2 (a; b) b a : f (x) = : 0 dla x 2 = (a; b) Innym sposobem zadania rozk÷ adu jest podanie dystrybuanty rozk÷adu. Dystrybuante¾ zmiennej losowej rozwaz·a sie¾ zarówno dla zmiennych losowych typu skokowego jak i zmiennych losowych typu ciag÷ ¾ ego. De…nicja 6 Dystrybuanta¾ zmiennej losowej X nazywamy funkcje¾ rzeczywista¾ jednoznacznie wyznaczajac ¾ a¾ rozk÷ad prawdopodobie´nstwa, a wiec ¾ zawierajac ¾ a¾ wszystkie informacje o tym rozk÷adzie. Dystrybuante¾ zazwyczaj wyznacza sie¾ z pomoca¾ nastepuj ¾ acego ¾ wzoru FX (t) = P (X < t) = P (X 2 ( 1; t)) : (1) Uwaga 1 W niektórych ksia¾·zkach mo·zna spotka´c sie¾ z nieco inna¾de…nicja, ¾ mianowicie nierówno´s´c < zastapiona ¾ jest przez nierówno´s´c ; czyli FX (t) = P (X t) = P (X 2 ( 1; t]) (2) Uwaga 2 Je´sli nie budzi to nieporozumie´n indeks dolny, mówiacy ¾ o tym jakiej zmiennej jest to dystrybuanta, mo·zna pomina´c. ¾ Je´sli w zadaniu mamy zadana¾ tylko jedna¾ zmienna¾ losowa¾ to ´smia÷o mo·zna pomina´c ¾ indeks dolny. Uwaga 3 Ze wzgledów ¾ praktycznych dystrybuante¾ zmiennej losowej wyznacza sie¾ za pomoca¾ nastepuj ¾ acych ¾ pomocniczych wzorów X 8 pi dla zmiennych typu skokowego > > > > < xi <( )t Zt FX (t) = : (3) > > > f (x) dx dla zmiennych typu ciag÷ ¾ ego > : 1 3 Przyk÷ ad 4 Wyznaczymy dystrybuante¾zmiennej losowej podanej w przyk÷adzie 3 na dwa sposoby, w ten sposób bedziemy ¾ mogli porówna´c ró·znice wynikajace ¾ z tych dwóch de…nicji. Korzystajac ¾ ze wzoru (1) otrzymujemy nastepuj ¾ acy ¾ wzór dystrybuanty 8 0 dla x 2 ( 1; 1] > > > > 1 > dla x 2 (1; 2] > > 6 > > > 2 > dla x 2 (2; 3] > 6 > > < 3 dla x 2 (3; 4] : FX (x) = 6 > > 4 > dla x 2 (4; 5] > 6 > > > > 5 > dla x 2 (5; 6] > 6 > > > > : 1 dla x 2 (6; 1) Natomiast po zastosowanie wzoru (2) 8 > > > 0 > > > 1 > > 6 > > > > 2 > > > < 6 3 FX (x) = 6 > > > 4 > > 6 > > > > 5 > > 6 > > > > : 1 otrzymujemy wzór funkcji dla x 2 ( 1; 1) dla x 2 [1; 2) dla x 2 [2; 3) dla x 2 [3; 4) dla x 2 [4; 5) dla x 2 [5; 6) dla x 2 [6; 1) : Jak ÷atwo spostrzec jedyna ró·znica polega, ·ze dystrybuanta jest lewostronnie lub prawostronnie ciag÷ ¾ a. Przyk÷ ad 5 Wyznaczanie dystrybuanty zmiennej losowej jest nieco trudniejsze i jak wiemy polega na obliczaniu ca÷ek oznaczonych z gesto ¾ ´sci. W dalszej cze¾´sci naszych rozwa·za´n nie bedziemy ¾ oblicza´c warto´sci dystrybuant zmiennych losowych ciag÷ ¾ ych. Bedziemy ¾ natomiast stosunkowo czesto ¾ korzysta´c z warto´sci dystrybuant wybranych rozk÷adów zawartych w tablicach statystycznych. W zwiazku ¾ z tym, aby mie´c czyste sumienie wyznaczymy dystrybuante¾wybranego rozk÷adu. Rozwa·zmy zmienna¾ losowa¾ o gesto ¾ ´sci ( 0 dla x 2 ( 1; 0) f (x) = e x dla x 2 [0; 1) 4 wówczas korzystajac ¾ ze wzoru (3) otrzymujemy nastepuj ¾ ac ¾ a¾ funkcje¾ 8 Zx > > > > 0dt = 0 dla x 2 ( 1; 0) > > < 1 F (x) = Zx > > > > f (t) dt = 1 e x dla x 2 [0; 1) > > : 1 gdzie druga¾ cze´s´c wzoru otrzymujemy w nastepuj ¾ acy ¾ sposób Zx f (t) dt = 1 Z0 0dt + 1 Zx e t dt = 0 + et jx0 = 1 e x : 0 Analizujac ¾ powyz·sze dwa przyk÷ady moz·emy ÷atwo dostrzec pewna¾ bardzo istotna¾ w÷ asność wszystkich dystrybuant. Mianowicie lim F (x) = 0 x! 1 oraz lim F (x) = 1: x!1 Ćwiczenie 4 Wyznaczy´c dystrybuante¾ zmiennej losowej Y o rozk÷adzie jednostajnym na odcinku (0; 5) : Ćwiczenie 5 Dana jest zmienna losowa X o funkcji skoków prawdopodobie´nstwa zadanej tabelka¾ xi 2 pi 1 10 1 1 10 0 2 3 6 8 2 10 1 10 3 10 1 10 1 10 wyznaczy´c dystrybuante¾ zmiennej losowej X: W statystyce dystrybuanta rozk÷adu próby zwana jest dystrybuanta¾ empiryczna¾ i jest blisko zwiazana ¾ z pojeciem ¾ rangi. W poniz·szym przyk÷adzie poznamy praktyczny sposób wyznaczania dystrybuanty empirycznej. Przyk÷ ad 6 Zbadano napiecie ¾ pradu ¾ w kilku losowych chwilach czasu i otrzymano wyniki: 230, 231, 225, 228, 230, 233, 230, 230, 232, 235. Wyznaczy´c dystrybuante¾ empiryczna.¾ Rozwiazanie: ¾ W pierwszym kroku musimy wartości ustawić w sposób niemalejacy, ¾ mamy wówczas 225; 228; 230; 230; 230; 230; 231; 232; 233; 235: 5 Nastepnie ¾ moz·emy przystapić ¾ do wyznaczania dystrybuanty empirycznej, przy czy pamietajmy, ¾ z·e n = 10: 8 0 dla x 2 ( 1; 225] > > > > 1 > dla x 2 (225; 228] > 10 > > > > 2 > > > 10 dla x 2 (228; 230] > > > 6 > dla x 2 (230; 231] < 10 F (x) = : 7 dla x 2 (231; 232] > 10 > > > > 8 > dla x 2 (232; 233] > 10 > > > > 9 > > > 10 dla x 2 (233; 235] > > > : 1 dla x 2 (235; 1] Prześledźmy dok÷ adniej w jaki sposób zosta÷a wyznaczona np. wartość F (233). Zauwaz·my, z·e liczba obserwacji mniejszych od 233 wynosi 8 i w zwiazku ¾ z tym 8 = 45 : F (233) = 10 3 Ćwiczenia do samodzielnego rozwiazania ¾ Ćwiczenie 6 Rozwa·zmy rzut dwiema symetrycznymi monetami. Niech X oznacza liczba¾wyrzuconych or÷ów. Poda´c rozk÷ad oraz dystrybuante¾tak okre´slonej zmiennej losowej. Ćwiczenie 7 Zbadano ilo´s´c samochodów sprzedawanych przez pewien salon w ciagu ¾ kolejnych dni i otrzymano wyniki: 10; 8; 7; 12; 8; 9 ; 11: Wyznaczy´c dystrybuante¾ empiryczna.¾ Ćwiczenie 8 Dana jest zmienna losowa Y o rozk÷adzie zadanym tabelka¾ xi 1 pi 1 8 2 1 8 0 1 2 4 2 8 2 8 1 8 1 8 : Wyznaczy´c dystrybuante¾ zmiennej losowej Y: Ćwiczenie 9 Dana jest zmienna losowa Z o gesto ¾ ´sci f (x) = x+ 0 1 2 dla x 2 (0; 1) : dla x 2 = (0; 1) Wyznaczy´c dystrybuante¾ zmiennej losowej Z: 6 4 Zbiory cech statystycznych Szereg statystyczny to zbiór wartości liczbowych badanej cechy uporzadkowany ¾ wed÷ ug określonych kryteriów. Rozróz·nimy kilka rodzaj szeregów statystycznych. W naszych rozwaz·aniach skoncentrujemy sie¾ na szeregach punktowych i przedzia÷ owych. 4.1 Szereg rozdzielczy punktowy Jednym z moz·liwych sposobów reprezentacji danych jest szereg rozdzielczy punktowy. Jest on najcześciej ¾ podawany za pomoca¾tabeli, w której w jednym wierszu (lub kolumnie) podawane sa¾ wartości cechy a w drugim wierszu (lub odpowiednio kolumnie) podawana jest liczba elementów przyjmujacych ¾ dana¾ wartość. Rozwaz·my nastepuj ¾ acy ¾ przyk÷ad. Przyk÷ ad 7 Zmierzono napiecie ¾ pradu ¾ i otrzymano nastepuj ¾ ace ¾ wyniki: 227; 227; 227; 227; 227; 228; 228; 228; 228; 228; 228; 228; 229; 229; 229; 229; 229; 229; 229; 229; 229; 229; 229; 229; 230; 230; : : : ; 230; 231; 231; : : : ; 231; | {z } | {z } 32 razy 21 razy 232; 232; 232; 232; 232; 233; 233: W powy·zszym zestawie obserwacji nie wypisano wszystkich powtórze´n warto´sci 230 oraz 231: Jest oczywiste, ·ze praca na takich danych bez zastosowania narzedzi ¾ 7 komputerowych by÷aby bardzo ·zmudna. Zastosowanie arkusza excel i wprowadzenie tych wszystkich warto´sci równie·z nie nale·za÷oby do najprzyjemniejszych. W takich w÷a´snie przypadkach stosuje sie¾ szeregi rozdzielcze punktowe. Dane dotyczace ¾ napiecia ¾ pradu ¾ mo·zna przedstawi´c w nastepuj ¾ acy ¾ sposób warto´s´c napiecia ¾ liczba obserwacji 227 5 228 7 229 12 230 32 231 21 232 5 233 2 lub równowa·znie za pomoca¾ analogicznej tabeli warto´s´c napiecia ¾ 227 228 229 230 231 232 233 liczba obserwacji 5 7 12 32 21 5 2 Poznaliśmy juz· wzory dla podstawowych miar przedstawionych za pomoca¾ szeregu rozdzielczego punktowego. 4.2 Szereg rozdzielczy przedzia÷ owy Na wstepie ¾ rozwaz·ań dotyczacych ¾ szeregów rozdzielczych przedzia÷owych musimy zauwaz·yć, z·e ten typ reprezentacji danych ma pewne minusy. Trzeba bowiem pamietać, ¾ z·e stosujac ¾ szereg rozdzielczy przedzia÷ owy zastepujemy ¾ dane dok÷ adne pewnymi przybliz·eniami w zwiazku ¾ z czym otrzymywane przez nas wartości miar nie pokrywaja¾ sie¾ idealnie z ich odpowiednikami liczonymi bezpośrednio dla danych niezgrupowanych. Róz·nice te sa¾jednak zazwyczaj ma÷o istotne. Zastanówmy sie¾ nastepnie, ¾ kiedy zastosowanie szeregu rozdzielczego przedzia÷ owego jest uzasadnione. Po pierwsze wielkość próby, na której dokonywana jest analiza powinna być dość duz·a (nie ma sensu stosowanie szeregu rozdzielczego przedzia÷ owego dla kilku obserwacji), ponadto rozstep ¾ z próby tez· powinien być dostatecznie duz·y. W podanym powyz·ej przyk÷ adzie na szereg rozdzielczy punktowy zastosowanie szeregu rozdzielczego przedzia÷ owego nie mia÷oby wiekszego ¾ sensu. Pomimo tego, z·e próba jest dość duz·a rozstep ¾ jest niewielki i wynosi zaledwie 6 jednostek. Zanim podamy przyk÷ ad szeregu rozdzielczego przedzia÷owego musimy przedstawić schemat, za pomoca¾ którego jest on budowany. Pierwszym problem jest określenie ilości przedzia÷ ów na ¾ dane. Przyje÷ ¾o p jakie mamy podzielić dostepne sie, ¾ z·e liczba przedzia÷ ów k N , gdzie N oznacza liczebność próby. Nastepnie ¾ wyróz·niamy element najmniejszy xmin i najwiekszy ¾ xmax w dostepnej ¾ zbiorowości. Kolejnym krokiem jest ustalenie rozpietości ¾ przedzia÷u za pomoca¾ wzoru h= xmax xmin k 8 : Ostatnim krokiem jest budowa przedzia÷ ów. Przyk÷ ad 8 Zbadano wzrost pewnej grupy studentów i otrzymano nastepu¾ jace ¾ dane: 155, 160, 161, 162, 162, 163, 164, 165, 165, 168, 168, 169, 170, 170, 171, 172, 172, 173, 174, 174, 175, 176, 177, 178, 179, 180, 181, 184, 185, 187, 188, 189, 190, 191, 191. W naszym przypadku N = 35 w zwiazku ¾ z tym przyjmujemy, ·ze k = 6: ×atwo zauwa·zamy, ·ze xmin = 155; za´s xmax = 191 oraz h = 191 6 155 = 6: Ostatecznie mo·zemy nasze dane zebra´c w szereg przedzia÷owy przedzia÷ [155; 161) [161; 167) [167; 173) [173; 179) [179; 185) [185; 191] liczebno´s´c 2 7 8 7 4 7 Ćwiczenie 10 Podane poni·zej dane dotyczace ¾ czasu dojazdu do pracy (w minutach) przedstawi´c w postaci szeregu rozdzielczego przedzia÷owego. Czasy dojazdu: 8, 9, 9, 10, 10, 11, 12, 12, 12, 14, 15, 15, 15 ,15 ,17, 17, 18, 19, 20, 20, 23, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 32, 33 ,35, 40, 45, 50, 55, 60. 9