1 Zbiory cech statystycznych
Transkrypt
1 Zbiory cech statystycznych
Studia podyplomowe w zakresie technik internetowych i komputerowej analizy danych Podstawy statystyki matematycznej Adam Kiersztyn 2 godziny lekcyjne 2011-10-22 8.20 - 9.50 1 Zbiory cech statystycznych Szereg statystyczny to zbiór wartości liczbowych badanej cechy uporzadkowany ¾ wed÷ ug określonych kryteriów. Rozróz·nimy kilka rodzaj szeregów statystycznych. W naszych rozwaz·aniach skoncentrujemy sie¾ na szeregach punktowych i przedzia÷ owych. 1.1 Szereg rozdzielczy punktowy Jednym z moz·liwych sposobów reprezentacji danych jest szereg rozdzielczy punktowy. Jest on najcześciej ¾ podawany za pomoca¾tabeli, w której w jednym wierszu (lub kolumnie) podawane sa¾ wartości cechy a w drugim wierszu (lub odpowiednio kolumnie) podawana jest liczba elementów przyjmujacych ¾ dana¾ wartość. Rozwaz·my nastepuj ¾ acy ¾ przyk÷ad. Przyk÷ ad 1 Zmierzono napiecie ¾ pradu ¾ i otrzymano nastepuj ¾ ace ¾ wyniki: 227; 227; 227; 227; 227; 228; 228; 228; 228; 228; 228; 228; 1 229; 229; 229; 229; 229; 229; 229; 229; 229; 229; 229; 229; 230; 230; : : : ; 230; 231; 231; : : : ; 231; | {z } | {z } 32 razy 21 razy 232; 232; 232; 232; 232; 233; 233: W powy·zszym zestawie obserwacji nie wypisano wszystkich powtórze´n warto´sci 230 oraz 231: Jest oczywiste, ·ze praca na takich danych bez zastosowania narzedzi ¾ komputerowych by÷aby bardzo ·zmudna. Zastosowanie arkusza excel i wprowadzenie tych wszystkich warto´sci równie·z nie nale·za÷oby do najprzyjemniejszych. W takich w÷a´snie przypadkach stosuje sie¾ szeregi rozdzielcze punktowe. Dane dotyczace ¾ napiecia ¾ pradu ¾ mo·zna przedstawi´c w nastepuj ¾ acy ¾ sposób warto´s´c napiecia ¾ liczba obserwacji 227 5 228 7 229 12 230 32 231 21 232 5 233 2 lub równowa·znie za pomoca¾ analogicznej tabeli warto´s´c napiecia ¾ 227 228 229 230 231 232 233 liczba obserwacji 5 7 12 32 21 5 2 Poznaliśmy juz· wzory dla podstawowych miar przedstawionych za pomoca¾ szeregu rozdzielczego punktowego. Na zajeciach ¾ z podstaw statystyki opisowej jeszcze raz na spokojnie prześledzimy proces de…niowania stosownych formu÷ w arkuszu Excel. W tej chwili przejdziemy do omawiania innego typu szeregu rozdzielczego. 1.2 Szereg rozdzielczy przedzia÷ owy Na wstepie ¾ rozwaz·ań dotyczacych ¾ szeregów rozdzielczych przedzia÷owych musimy zauwaz·yć, z·e ten typ reprezentacji danych ma pewne minusy. Trzeba bowiem pamietać, ¾ z·e stosujac ¾ szereg rozdzielczy przedzia÷ owy zastepujemy ¾ dane dok÷ adne pewnymi przybliz·eniami w zwiazku ¾ z czym otrzymywane przez nas wartości miar nie pokrywaja¾ sie¾ idealnie z ich odpowiednikami liczonymi bezpośrednio dla danych niezgrupowanych. Róz·nice te sa¾jednak zazwyczaj ma÷o istotne. Zastanówmy sie¾ nastepnie, ¾ kiedy zastosowanie szeregu rozdzielczego przedzia÷ owego jest uzasadnione. Po pierwsze wielkość próby, na której dokonywana jest analiza powinna być dość duz·a (nie ma sensu stosowanie szeregu rozdzielczego przedzia÷ owego dla kilku obserwacji), ponadto rozstep ¾ z próby tez· powinien być dostatecznie duz·y. W podanym powyz·ej przyk÷ adzie na szereg rozdzielczy punktowy 2 zastosowanie szeregu rozdzielczego przedzia÷ owego nie mia÷oby wiekszego ¾ sensu. Pomimo tego, z·e próba jest dość duz·a rozstep ¾ jest niewielki i wynosi zaledwie 6 jednostek. Zanim podamy przyk÷ ad szeregu rozdzielczego przedzia÷owego musimy przedstawić schemat, za pomoca¾ którego jest on budowany. Pierwszym problem jest określenie ilości przedzia÷ ów na ¾ dane. Przyje÷ ¾o p jakie mamy podzielić dostepne N , gdzie N oznacza liczebność próby. Nastepnie ¾ sie, ¾ z·e liczba przedzia÷ ów k wyróz·niamy element najmniejszy xmin i najwiekszy ¾ xmax w dostepnej ¾ zbiorowości. Kolejnym krokiem jest ustalenie rozpietości ¾ przedzia÷u za pomoca¾ wzoru h= xmax xmin k : Ostatnim krokiem jest budowa przedzia÷ ów. Przyk÷ ad 2 Zbadana wzrost pewnej grupy studentów i otrzymano nastepu¾ jace ¾ dane: 155, 160, 161, 162, 162, 163, 164, 165, 165, 168, 168, 169, 170, 170, 171, 172, 172, 173, 174, 174, 175, 176, 177, 178, 179, 180, 181, 184, 185, 187, 188, 189, 190, 191, 191. W naszym przypadku N = 35 w zwiazku ¾ z tym przyjmujemy, ·ze k = 6: ×atwo zauwa·zamy, ·ze xmin = 155; za´s xmax = 191 oraz h = 191 6 155 = 6: Ostatecznie mo·zemy nasze dane zebra´c w szereg przedzia÷owy przedzia÷ [155; 161) [161; 167) [167; 173) [173; 179) [179; 185) [185; 191] liczebno´s´c 2 7 8 7 4 7 Ćwiczenie 1 Podane poni·zej dane dotyczace ¾ czasu dojazdu do pracy (w minutach) przedstawi´c w postaci szeregu rozdzielczego przedzia÷owego. Czasy dojazdu: 8, 9, 9, 10, 10, 11, 12, 12, 12, 14, 15, 15, 15 ,15 ,17, 17, 18, 19, 20, 20, 23, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 32, 33 ,35, 40, 45, 50, 55, 60. 1.3 Praktyczne metody wyznaczania podstawowych miar bez zastosowania komputerów W tym punkcie naszych rozwaz·ań przedstawimy praktyczne sposoby wyznaczania podstawowych miar statystycznych bez zastosowania komputerów. Moz·e sie¾ bowiem tak zdarzyć, z·e bed ¾ a¾ Państwo musieli wyznaczyć podstawowe miary takie jak średnia, odchylenie standardowe, mediana czy tez· dominanta i nie bed ¾ a¾ mieli Państwo dostepu ¾ do niezbednego ¾ oprogramowania. W takich przypadkach dobrze jest zastosować zaprezentowane poniz·ej metody. 3 Przyk÷ ad 3 Za÷ó·zmy, ·ze wyniki pewnego do´swiadczenia reprezentuje poni·zsza tabelka warto´s´c cechy (xi ) liczebno´s´c (ni ) -2 5 -1 10 0 15 1 25 2 20 3 5 Chcemy wyznaczy´c podstawowe charakterystyki. W tym celu rozbudowujemy nasza¾tabelke¾ dodajac ¾ dodatkowe kolumny oraz jeden wiersz, w którym bedziemy ¾ zliczali sumy odpowiednich kolumn. Rozbudowana tabelka przyjmuje nastepuj ¾ ac ¾ a¾ posta´c xi ni xi ni x2i ni Ni 2 5 10 20 5 1 10 10 10 15 0 15 0 0 30 1 25 25 25 55 2 20 40 80 75 3 5 15 45 80 suma 80 60 180 gdzie kolumna trzecia jest iloczynem kolumny pierwszej i drugiej, kolumna czwarta jest iloczynem kolumny pierwszej i trzeciej, natomiast ostatnia kolumna zawiera liczebno´sci skumulowane, które powstaja¾ z obliczania sum cze¾´sciowych drugiej kolumny do danego poziomu. Na podstawie powy·zszych danych otrzymujemy nastepuj ¾ ace ¾ wyniki k X xi ni 3 60 i=1 = ; X= = k 80 4 X ni i=1 S2 = k X x2i ni 2 i=1 k X X = 180 80 3 4 2 = 27 ; 16 ni i=1 ponadto ÷atwo stwierdzamy, ·ze dominanta wynosi D = 1 (najwieksza ¾ liczebno´s´c jest dla warto´sci 1) oraz mediana M e = 1, bowiem dla warto´sci 1 pierwszy raz liczebno´s´c skumulowana przekracza 40. W podobny sposób moz·na dokonać niezbednych ¾ obliczeń dla szeregu rozdzielczego przedzia÷ owego, jedyna¾ róz·nica¾ jest dodanie kolumny zawierajacej ¾ środki przedzia÷ ów. Rozwaz·my nastepuj ¾ acy ¾ przyk÷ad. 4 Przyk÷ ad 4 Dla danych z przyk÷adu 2 wyznaczy´c podstawowe miary statystyki opisowej. Podobnie jak poprzednio rozbudowujemy nasza¾ tabele¾ o dodatkowe kolumny i wiersz, przyjmuje wówczas ona nastepuj ¾ ac ¾ a¾ posta´c przedzia÷ liczebno´s´c (ni ) ´srodek przedzia÷u (x_ i ) 155+161 [155; 161) 2 = 158 2 161+167 [161; 167) 7 = 164 2 167+173 [167; 173) 8 = 170 2 173+179 = 176 [173; 179) 7 2 179+185 [179; 185) 4 = 182 2 185+191 [185; 191] 7 = 188 2 suma 35 x_ i ni 316 1148 1360 1232 728 1316 6100 x_ 2i ni 49928 188272 231200 216832 132496 247408 1066136 Ni 2 9 17 24 28 35 Podobnie jak poprzednio wyznaczamy warto´s´c ´sredniej oraz wariancji X= S2 = 1220 6100 = 35 7 1066136 35 1220 7 2 = 20952 245 Natomiast wyznaczenie mediany i dominanty wymaga troche¾dodatkowych oblicze´n i zastosowania wzorów (5) i (6) z poprzednich konspektów. Wszelkie niezbedne ¾ informacje sa¾ jednak bezpo´srednio dostepne ¾ w powy·zszej tabeli. My wówczas N 2 M e = xM e + D = D = xD + 2 nD kM e 1 X i=1 nM e ni iM e = 173 + 17; 5 17 6 = 173; 43 7 nD n D 1 iD = 167 + nD 1 + nD nD+1 8 8 7 7+8 7 6 = 170: Liczby losowe (generatory liczb losowych, tablice liczb losowych) Istotnym zagadnieniem statystyki matematycznej jest generowanie liczb losowych, ma ono zastosowanie miedzy ¾ innymi podczas wybierania próby losowej. W zwiazku ¾ z tym musimy przybliz·yć sobie dostepne ¾ generatory liczb losowych. Skupimy sie¾ tutaj na generatorach zaimplementowych w arkuszu Excel oraz na tablicach liczb losowych. W internecie moz·na znaleźć wiele tablic liczb losowych, jednak dobór w÷ aściwych tablic moz·e nastreczać ¾ duz·e problemy. Znacznie wygodniejszym sposobem jest wygenerowanie liczb losowych spe÷niajacych ¾ nasze wymagania. W tym celu wykorzystamy dostepn ¾ a¾w programie Excel funkcje¾ "LOS()", 5 która zwraca nam liczbe¾ pseudolosowa¾ pobrana¾ ze zmiennej o rozk÷adzie jednostajnym na przedziale (0,1). Innymi s÷owy otrzymujemy liczbe¾ (pseudolosowa) ¾ z przedzia÷ u (0,1). Pojawia sie¾ tutaj naturalne pytanie w jaki sposób uzyskać liczby losowe z innych podzbiorów liczb rzeczywistych. Jest to moz·liwe poprzez odpowiednie przekszta÷ cenie wyniku danej funkcji, dla przyk÷adu formu÷a zwraca nam naturalne liczby losowe ze zbioru f1; 2; : : : ; 10g : Istotna¾wada¾generatora zastosowanego w programie Excel jest fakt, z·e liczby sa¾ pobierane z rozk÷ adu równomiernego. Czasami chcemy, aby próba by÷ a pobierana zgodnie z innym rozk÷adem, wtedy mamy dwa wyjścia. Jedno z nich polega na umiejetnym ¾ z÷ oz·eniu funkcji kwantyli z·adanego ¾ rozk÷adu z funkcja¾ LOS(). Drugi sposób polega na skorzystaniu z innych dostepnych ¾ w internecie generatorów liczb losowych. Ćwiczenie 2 Napisa´c formu÷e¾ pozwalajac ¾ a¾ otrzyma´c jako wynik ca÷kowite liczby losowe ze zbioru f 5; 4; : : : ; 2; 3g : 6