1 Miary asymetrii i koncentracji
Transkrypt
1 Miary asymetrii i koncentracji
Studia podyplomowe w zakresie technik internetowych i komputerowej analizy danych Podstawy statystyki opisowej Adam Kiersztyn 3 godziny lekcyjne 2011-10-22 10.10 - 12.30 1 Miary asymetrii i koncentracji Najprostszymi miarami asymetrii sa¾ wskaźniki skośności (WS lub WQ ) dane wzorami WS = X D; WQ = (Q3 M e) (M e Q1 ) = Q3 + Q1 2 Me oraz wspó÷ czynnik skośności dany wzorem AD = X D s : Ponadto nalez·y jeszcze wprowadzić dwa proste wspó÷czynniki: zmienności v i nierówności H, określone wzorami: s v= 100%; X d 100%: X Zanim przystapimy ¾ do omawiania pozosta÷ych miar asymetrii i koncentracji podamy wzory na momenty zwyk÷e, absolutne oraz centralne rzedu ¾ l: Wzory te podamy w dwóch wersjach, w wariancie dla danych niezgrupowanych oraz w nawiasie w wariancie dla szeregu przedzia÷ owego. Moment zwyk÷y ml rzedu ¾ lz próbki x1 ; x2 ; : : : ; xn obliczamy ze wzoru ! n k 1X l 1 X l ml = x ; mk = x_ ni n i=1 i N i=1 i H= Moment zwyk÷ y jest, jak ÷ atwo zauwaz·yć, średnia¾ arytmetyczna¾ l-tych poteg ¾ wartości xi : W podobny sposób de…niuje sie¾ moment absolutny al rzedu ¾ l z próbki x1 ; x2 ; : : : ; xn . Wyraz·a sie¾ on wzorem ! n k 1X 1 X l l al = jxi j ; al = jx_ i j ni n i=1 N i=1 i jest średnia¾ arytmetyczna¾ l-tych poteg ¾ modu÷ów wartości xi : Ponadto rozwaz·a sie¾ moment centralny rzedu ¾ l zadany wzorem ! n k 1X 1 X l l xi X ; Ml = x_ i X Ml = ni n i=1 N i=1 1 oraz centralny moment absolutny rzedu ¾ k dany wzorem n 1X bl = xi n i=1 k 1 X X ; bl = x_ i N i=1 l X l ni ! Nalez·y w tym miejscu zauwaz·yć, z·e moment centralny rzedu ¾ 2 jest wariancja, ¾ natomiast centralny moment absolutny rzedu ¾ 1 jest odchyleniem przecietnym. ¾ Korzystajac ¾ z powyz·szych pomocniczych oznaczeń zde…niujmy wybrane miary asymetrii i koncentracji. Jednym z najcześciej ¾ stosowanych jest wspó÷ czynnik asymetrii (skośności) dany wzorem g1 = M3 ; s3 gdzie s jest odchyleniem standardowym, podobna¾ postać ma wspó÷ czynnik koncentracji (skupienia) dany wzorem K= M4 ; s4 wspó÷ czynnik ten bywa równiez· nazywany kurtoza. ¾ W statystyce opisowej rozwaz·a sie¾ równiez· wspó÷ czynnik sp÷ aszczenia (eksces) dany wzorem g2 = K 3= M4 s4 3: Ponadto nalez·y zauwaz·yć, z·e nie sa¾ to wszystkie sposoby opisu asymetrii i koncentracji. Moz·na tutaj wymienić m.in. krzywa¾ Lorenza czy tez· wspó÷ czynnik Giniego. Przyk÷ ad 1 Rozwa·zmy cztery szeregi przedzia÷owe o takich samych przedzia÷ach i ró·znych liczebno´sciach poszczególnych klas. ´srodek przedzia÷u 1 2 3 4 5 6 7 szereg I 0 6 12 14 12 6 0 szereg II 2 2 10 22 10 2 2 szereg III 0 2 20 12 10 4 2 szereg IV 2 4 10 12 20 2 0 Wyznaczy´c ´srednia¾ arytmetyczna¾ i cztery pierwsze momenty ka·zdego typu dla poszczególnych szeregów, a nastepnie ¾ obliczy´c wprowadzone wcze´sniej miary koncentracji i asymetrii. Rozwiazanie: ¾ W kroku pierwszym obliczymy średnia¾ arytmetyczna¾ dla poszczególnych szeregów X1 = 1 (1 0 + 2 6 + 3 12 + 4 14 + 5 12 + 6 6 + 7 0) = 4 50 2 1 (1 2 + 2 2 + 3 10 + 4 22 + 5 10 + 6 2 + 7 2) = 4 50 1 X3 = (1 0 + 2 2 + 3 20 + 4 12 + 5 10 + 6 4 + 7 2) = 4 50 1 X4 = (1 2 + 2 4 + 3 10 + 4 12 + 5 20 + 6 2 + 7 0) = 4 50 Zatem w kaz·dym z rozwaz·anych przypadków średnia wynosi 4, dzieki ¾ takiemu zbiegowi okoliczności bedzie ¾ nam ÷ atwiej przeprowadzić dalsza¾ cześć obliczeń. Z uwagi na fakt, z·e wszystkie obserwacje sa¾nieujemny momenty zwyk÷e i momenty absolutne poszczególnych rzedów ¾ sa¾jednakowe. Zatem nie musimy obliczać momentów absolutnych. Zanim przejdziemy do obliczania wartość poszczególnych momentów dla kaz·dego szeregu oddzielnie przygotujmy sobie tabele¾ zawierajac ¾ a¾ dodatkowe obliczenia (oczywiście tabelk¾ e ta¾ wykonujemy w Excelu wszyscy wspólnie krok po kroku) X2 = x2i 1 4 9 16 25 36 49 x3i 1 8 27 64 125 216 343 x4i xi X 1 3 16 2 81 1 256 0 625 1 1296 2 2401 3 xi X 2 xi 9 4 1 0 1 4 9 X 27 8 1 0 1 8 27 3 xi X 81 16 1 0 1 16 81 4 X xi 3 2 1 0 1 2 3 X xi 9 4 1 0 1 4 9 Teraz moz·emy w prosty sposób domnaz·ajac ¾ poszczególne elementy powyz·szej tabeli przez odpowiednie liczebności, sumujac ¾ kolumny i dzielac ¾ przez liczebność 3 2 xi X 27 8 1 0 1 8 27 3 xi X 81 16 1 0 1 16 81 4 ca÷ kowita¾ otrzymujemy wymagane momenty. Dla pierwszego szeregu mamy: suma x2i ni 0 24 108 224 300 216 0 872 xi suma X 0 12 12 0 12 12 0 48 x3i ni 0 48 324 896 1500 1296 0 4064 ni x4i ni 0 96 972 3584 7500 7776 0 19928 xi X 0 24 12 0 12 24 0 72 xi 2 ni X ni 0 12 12 0 12 12 0 0 xi X 0 48 12 0 12 48 0 120 xi 3 ni X 0 24 12 0 12 24 0 72 2 xi ni X 0 96 12 0 12 96 0 216 4 xi X 0 48 12 0 12 48 0 0 ni Wówczas dla pierwszego szeregu nasze pomocnicze wskaźniki przyjmuja¾wartości: m1 = X = 4; m2 = 872 4064 19928 ; m3 = ; m4 = ; 50 50 50 72 0 216 0 = 0; M2 = s2 = ; M3 = = 0; M4 = 50 50 50 50 48 72 120 216 b1 = d = ; b 2 = M2 = ; b3 = ; b4 = M4 = : 50 50 50 50 W analogiczny sposób moz·na wyliczyć powyz·sze wskaźniki dla pozosta÷ych szeregów, mamy wówczas dla drugiego szeregu: M1 = m1 = 4; m2 = 872 4064 20120 ; m3 = ; m4 = ; 50 50 50 72 408 ; M3 = 0; M4 = ; 50 50 40 72 160 408 b1 = ; b2 = ; b3 = ; b4 = : 50 50 50 50 Natomiast wartości wskaźników dla trzeciego szeregu wynosza¾ M1 = 0; M2 = m1 = 4; m2 = 872 4124 20960 ; m3 = ; m4 = ; 50 50 50 4 3 ni xi X 0 96 12 0 12 96 0 216 4 ni 72 60 288 ; M3 = ; M4 = ; 50 50 50 48 72 132 288 b1 = ; b2 = ; b3 = ; b4 = : 50 50 50 50 Dla czwartego szeregu mamy nastepuj ¾ ace ¾ wartości M1 = 0; M2 = m1 = 4; m2 = 872 4004 19040 ; m3 = ; m4 = ; 50 50 50 60 288 72 ; M3 = ; M4 = ; 50 50 50 48 72 132 288 b1 = ; b2 = ; b3 = ; b4 = : 50 50 50 50 Moz·emy teraz przystapić ¾ do obliczania miar i porównania tych wartości dla poszczególnych szeregów. M1 = 0; M2 = mediana M e dominanta D średnia X wariancja s2 WS AD g1 K v H szereg I 4 4 4 1:44 0 0 0 2:08 30% 20% szereg II 4 4 4 1:44 0 0 0 3:94 30% 24% szereg III 4 3 4 1:44 1 szereg IV 4 5 4 1:44 1 5 6 5 6 0:69 2:78 30% 24% 0:69 2:78 30% 24% W celu lepszego zrozumienia poszczególny miar przedstawimy jeszcze histogramy poszczególnych szeregów. Ćwiczenie 1 Dokona´c analizy wyników uzyskanych w powy·zszym przyk÷adzie. 5 2 Wykorzystanie pakietu analiza danych w arkuszu Excel Przejdźmy teraz do przypomnienia sobie moz·liwości jakie daje w zakresie statystyki opisowej arkusz Excel (zak÷adam, z·e korzystali juz· Państwo z tego pakietu i znaja¾ jego podstawowe moz·liwości). Jak wszyscy dobrze wiemy w arkuszu Excel znajduja¾ sie¾ funkcje statystyczne pozwalajace ¾ obliczać podstawowe miary statystyki opisowej. Jednakz·e czasami ze wzgledów ¾ praktycznych dobrze jest samemu opracować formu÷ y w analogiczny sposób jak pokazany w przyk÷adzie z poprzedniego zjazdu. Dzieki ¾ tak opracowanym danym mamy wieksz ¾ a¾ kontrole¾ nad wynikami i moz·emy uniknać ¾ b÷ edów ¾ wynikajacych ¾ chociaz·by z odstajacych ¾ lub nieprawid÷ owo wprowadzonych wartość liczbowych. Ćwiczenie 2 Przygotowa´c w Excelu skoroszyt, dzieki ¾ któremu bedzie ¾ mo·zna stworzy´c tabele¾analogiczna¾jak w przyk÷adzie z zesz÷ego zjazdu. Sprawdzi´c poprawno´s´c wyników a nastepnie ¾ zamieni´c warto´s´c x1 = 5 na warto´s´c x1 = 3: Jak zmieni÷y sie¾ poszczególne wyniki, które miary nie uleg÷y zmianie? Nalez·y w tym miejscu zaznaczyć, z·e arkusz Excel posiada wbudowany pakiet analizy danych, w którym moz·emy w jednym miejscu odnaleźć wiekszość ¾ omawianych powyz·ej miar. W celu skorzystania z pakietu analiza danych nalez·y wcześniej do÷ aczyć ¾ odpowiedni dodatek. Ćwiczenie 3 Dla danych z pliku analizaDanych.xls wyznaczy´c podstawowe miary statystyki opisowej korzystajac ¾ z pakietu analiza danych. 3 Statystyka opisowa w SPSS Do wyznaczania podstawowych charakterystyk statystyki opisowej moz·na wykorzystywać bardziej specjalistyczne narzedzia ¾ informatyczne. Podczas tych studiów zapoznamy sie¾ z dwoma pakietami statystycznymi, mianowicie z pakietem SPSS oraz programem Statistica. W tym miejscu zapoznamy sie¾ podstawowymi moz·liwościami programu SPSS. Ograniczymy sie¾ tutaj jedynie do wyznaczania statystyk opisowych. Pe÷ niejszej analizy moz·liwości tego pakietu dokonamy na innych przedmiotach. Z uwagi na fakt, iz· jest oprogramowanie mniej znane niz· arkusz Excel musimy troche¾ dok÷ adniej omówić sposób w jaki moz·emy uzyskać podstawowe statystyki opisowe. Po uruchomieniu programu domyślnie pojawia sie¾ 6 okno umoz·liwiajace ¾ wczytanie pliku na jakim chcemy dokonywać operacji Po wczytaniu interesujacego ¾ nas pliku przykladSPSS1.sav chcemy wyznaczyć podstawowe statystyki opisowe. W tym celu menu g÷ ównego wybieramy kolejno Analiza/Opis statystyczny/Statystyki opisowe tak jak na zamieszczonym 7 poniz·szej rysunku. Nastepnie ¾ wybieramy interesujac ¾ a¾ nas zmienna¾ (wiek) i przechodzimy do opcji, gdzie wybieramy wszystkie dostepne ¾ charakterystyki, klikamy przycisk dalej i nastepnie ¾ OK. Jako wynik otrzymujemy raport z wartościami wybranych charakterystyk. Oczywiście w pakiecie SPSS moz·na wyznaczyć równiez· histogram. W tym celu postepujemy ¾ w nastepuj ¾ acy ¾ sposób: wybieramy z menu 8 wykresy a nastepnie ¾ histogram nastepnie ¾ wybieramy jako zmienna¾ wiek i klikamy OK Jako wynik otrzymujemy raport zawierajacy ¾ histogram. W tym miejscu pojawia sie¾ naturalne pytanie, czy moz·na w jakiś inny sposób wyznaczyć podstawowe statystyki oraz narysować histogram w programie SPSS. 9 Odpowiedź na tak postawione pytanie jest twierdzaca. ¾ Wystarczy wybrać z menu g÷ ównego Analiza/Opis statystyczny/ Czestości. ¾ Nastepnie ¾ wybieramy interesujac ¾ a¾ nas zmienna. ¾ Klikamy w przyciski statystyki oraz wykresy, gdzie moz·emy wybrać intere- 10 sujace ¾ nas statystyki opisowe oraz typ wykresu. Jako ostateczny wynik otrzymujemy raport, w którym jednocześnie mamy wyznaczone podstawowe statystyki oraz narysowany histogram. 11 Ćwiczenie 4 Wyznaczy´c warto´sci podstawowych statystyk dla zmiennej wzrost w pliku przykladSPSS1.sav. 12