Wykład 4: Statystyki opisowe (część 1)
Transkrypt
Wykład 4: Statystyki opisowe (część 1)
Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można scharakteryzować rozkład wartości cechy liczbowej w badanej zbiorowości. Poszczególne rodzaje statystyk opisują: • przeciętny poziom wartości cechy w badanej zbiorowości (miary położenia); • rozproszenie danych (miary zmienności); • asymetrię rozkładu danych (miary asymetrii). Podział statystyk opisowych ze względu na sposób wyznaczania Miary klasyczne (średnia, odchylenie standardowe i inne) są wyznaczane na podstawie wszystkich obserwacji - w związku z tym są nieodporne na obserwacje odstające. Miary pozycyjne (minimum, maksimum, mediana, kwartyle, centyle) są wyznaczane na podstawie pozycji zajmowanej przez odpowiednie obserwacje i w związku z tym nie są zależne od ewentualnych obserwacji ekstremalnych. Miary położenia Do najczęściej wyznaczanych miar położenia, zawierających informację o przeciętnym poziomie wartości danych cechy w badanej zbiorowości należą: • średnia arytmetyczna; • inne rodzaje średnich (harmoniczna, geometryczna); • wartość najmniejsza i największa (minimum i maksimum); • wartość środkowa – mediana; • wartość najczęstsza – moda; • kwartyle; • centyle. Średnia arytmetyczna Średnia arytmetyczna jest najbardziej popularną miarą przeciętnego poziomu cechy liczbowej. Poniżej opisano sposób wyznaczania średniej dla szczegółowego szeregu statystycznego. Wartość cechy (xi) 15 10 11 9 7 4 15 13 14 x1 x2 x3 x4 … xn-3 xn-2 xn-1 xn x1 xn 1 n x xi n n i 1 15 10 11 9 7 4 15 13 14 x ? 9 Mediana – wartość środkowa Alternatywną metodą opisu danych liczbowych jest wartość środkowa (mediana), która odpowiada poziomu jednostki znajdującej się „w środku” badanej zbiorowości, jeśli chodzi o poziom rozważanej cechy. Aby wyznaczyć medianę szereg szczegółowy należy uporządkować (rosnąco) i wskazać wartość środkowego obiektu. Wartość cechy (xi) 4 7 9 10 11 13 14 15 15 x1 x2 x3 x4 … xn-3 xn-2 xn-1 xn Me Uproszczona definicja i interpretacja mediany może polegać na stwierdzeniu, iż 50% pomiarów jest od niej mniejszych oraz 50% pomiarów jest większych od mediany. Co jest lepsze – mediana czy średnia? Mediana i średnia mogą mieć bardzo zbliżone wartości, mogą też się bardzo wyraźnie różnić. W praktyce zalecamy wyznaczanie obu tych wartości jednocześnie i wyciąganie wniosków na podstawie ich jednoczesnego oglądu. 1000 zł 1200 zł 1400 zł 1700 zł 30000 zł Średnia = 7060 zł Zarobki w pewnej firmie Mediana =1400 zł Po podwyżce płac… 1000 zł 1200 zł 1400 zł 1700 zł 60000 zł Średnia = 13060 zł Mediana =1400 zł Nie zawsze średnie zarobki odzwierciedlają dobrze rzeczywistość – jeżeli tylko można dowiedz się także ile wynosi mediana. Centyle Mediana jest wartością, którą znajdujemy w wyniku poszukiwania odpowiedzi na pytanie: poniżej (powyżej) jakiej wartości sytuuje się 50% pomiarów. W wielu sytuacjach analityka interesuje też kwestia poniżej (powyżej) jakiej wartości znajduje się inna część pomiarów (1%, 5%, 10% czy 25%). Stwierdzenie to określa grupę miar zwanych centylami. Centyl rzędu p (cp) (0 < p < 1) jest to taka liczba, że poniżej niej znajduje się p-ta część pomiarów zaś powyżej (1-p)-ta część pomiarów. Wartość p jest też często podawana w procentach. Klasyfikacja centyli Niektóre centyle, z uwagi na popularność zastosować mają swoje własne nazwy: • c50 to mediana; • c25 to kwartyl dolny (Q25) a c75 to kwartyl górny (Q75); • c10, c20, …, c90 to tak zwane decyle (oznaczane też d1, …, d9). Statystyki opisowe w programie STATISTICA Statystyki opisowe w programie STATISTICA najlepiej wyznaczać za pomocą analizy wywoływanej za pomocą poleceń STATYSTYKA / STATYSTYKI PODSTAWOWE I TABELE / STATYSTYKI OPISOWE. Po wybraniu zmiennej (lub wielu zmiennych) typu liczbowego, dla których chcemy wyznaczyć wartości statystyk opisowych należy ustalić listę wyliczanych parametrów (zakładka WIĘCEJ). Przykład Analiza dotyczy zbioru danych Środki z UE. Celem analizy jest opis poziomu wykorzystania środków unijnych w gminach woj. podkarpackiego w latach 2006-2009 (dla każdego roku osobno). Podczas rozwiązywania przykładu wykorzystane zostaną zarówno poznane uprzednio narzędzia grupowania danych jak i statystyki opisowe. PORÓWNYWALNOŚĆ DANYCH Dane o wykorzystaniu środków z UE zawarte w pliku Środki z UE należy najpierw doprowadzić do porównywalności – dokonać przeliczenie na jednego mieszkańca. W tym celu dodajemy na końcu arkusza cztery nowe kolumny, nazywamy je odpowiednio: Środki z UE na 1 mieszk. (2006), …, Środki z UE na 1 mieszk. (2009) i wyznaczamy ich wartości za pomocą odpowiednich formuł (wskazówka: dla roku 2006 formuła będzie mieć postać: =v22/v2 Wyznaczanie miar położenia W oknie STATYSTYKI OPISOWE wybieramy nowoutworzone zmienne, w zakładce WIĘCEJ ustalamy zakres statystyk opisowych do wyznaczenia. Wyniki Wywołujemy tabelę wynikową, dokonujemy formatowania wyników a następnie ich interpretacji. Na podstawie wartości średniej i mediany stwierdzamy, iż wskaźnik wykorzystania środków unijnych w roku 2009 był wyższy niż w pozostałych latach. Porównując wartość średniej i mediany stwierdzamy, iż rozkład wskaźnika wykorzystania środków z UE na 1 mieszk. jest nierównomierny – średnia jest większa od mediany, a więc istnieje relatywnie duża liczba gmin o niskim poziomie wykorzystania środków i nieliczni liderzy. Na podstawie wartości modalnej, minimum oraz liczności modalnej stwierdzamy, iż udział gmin nie pozyskujących żadnych środków z UE jest w kolejnych latach coraz niższy W 2006 w co czwartej gminie pozyskano więcej niż 47 złotych na osobę zaś w 2009 wskaźnik ten wyniósł już 177 zł. W 2009 roku 10% najlepszych gmin charakteryzowało się poziomem wykorzystania środków z UE na poziomie co najmniej 362 zł Poziom wskaźnika w najlepszej gminie był w roku 2009 zdecydowanie wyższy niż w poprzednich latach Ilustracja graficzna – wykres ramka-wąsy Wartości statystyk opisowych można zilustrować za pomocą wykresu typu ramka-wąsy. Wykres ten w podstawowej formie można wykonać w oknie analiz STATYSTYKI OPISOWE. W zakładce opcje ustalamy typ wykresu ramka-wąsy: W zakładce podstawowe wywołujemy wykres, który po sformatowaniu wygląda tak… Niekonwencjonalne grupowanie danych Inny sposób opisu danych może polegać na zgrupowaniu gmin ze względu na poziom środków z UE i podaniu liczności każdej z takich grup w latach 2006-2009. Biorąc pod uwagę fakt dużej asymetrii wartości wskaźnika, zastosowano przedziały o nierównych długościach: • < 10 zł; • [10 zł; 50 zł); • [50 zł; 100 zł); • [100 zł; 200 zł); • 200 zł Możliwość grupowania w przedziałach o niejednakowej długości jest dostępna w programie STATISTICA przy okazji tworzenia wykresów. Histogramy wielokrotne i opcja granice Histogramy wielokrotne pozwalają na przedstawienie rozkładu kilku cech jednocześnie – warunkiem wszakże jest, że są to cechy posiadające zbliżony zakres (i znaczenie) wartości. Wybieramy polecenie WYKRESY / WYKRESY 2W / HISTOGRAMY po czym wybieramy wskaźniki wykorzystania z lat 2006-2009 jako zmienne i ustawiamy opcję wykresu na WIELOKROTNY. W zakładce WIĘCEJ ustawiamy sposób grupowania (PRZEDZIAŁY) na GRANICE i za pomocą przycisku określ granice wprowadzamy wartości odpowiadające przedziałom zaproponowanym na poprzedniej stronie. Wykres Po wywołaniu wykresu i sformatowaniu uzyskujemy kompletną prezentację graficzną wraz z informacjami o liczbie gmin znajdujących się w poszczególnych kategoriach. Zaletą programu STATISTICA jest możliwość modyfikacji sposobu tworzenia wykresu. Jeżeli na przykład stwierdzilibyśmy, że chcemy dodać jeszcze jeden przedział dla wskaźnika wykorzystania środków z UE możemy to bez trudu uczynić. W tym celu wywołujemy wszystkie opcje wykresu a następnie zakładkę HISTOGRAM i modyfikujemy wprowadzone granice. Jak się to ma do zasad podanych na wykładzie nr 3? Na wykładzie nr 3 podano ogólne zasady opisywania danych przekrojowych (i innych typów danych). Wynikało z nich, że dane przekrojowe najlepiej opisywać w postaci szeregów szczegółowych uporządkowanych. Jednakże drugim czynnikiem wpływającym na dobór metody opisu danych statystycznych jest ich liczność. W przypadku gmin woj. podkarpackiego, których jest 159 (od roku 2010 – 160), prezentacja wszystkich danych w postaci szeregu uporządkowanego nie jest możliwa. Dlatego też posłużono się dodatkowo statystykami opisowymi oraz metodami grupowania danych. Nie znaczy to jednak, że wykorzystanie szeregu uporządkowanego jest niemożliwe… Wykres słupkowy – pokażmy najlepszych Przedstawienie w formie graficznej, czy tabelarycznej, wartości wskaźnika wykorzystania środków z UE na jednego mieszkańca dla wszystkich gmin jest niemożliwe, gdyż taka prezentacja będzie po prostu nieczytelna. Zasadne wydaje się natomiast zaprezentowanie poziomu wskaźnika dla pewnej liczby (np. 25) „najlepszych” gmin. Dokonamy takiej prezentacji dla danych z roku 2009. W tym celu sortujemy dane malejąco według wartości wskaźnika z roku 2009, następnie wybieramy polecenie WYKRESY / WYKRESY 2W / WYKRESY SŁUPKOWE i wybieramy odpowiednią zmienną. Aby utworzyć wykres tylko dla 25 najlepszych gmin (aktualnie przypadków nr 1-25 w arkuszu danych) korzystamy z narzędzia selekcji przypadków, ustawiając warunki w następujący sposób: Wykres słupkowy – pokażmy najlepszych W ramach ćwiczeń proszę sporządzić analogiczne prezentacje dla danych z roku 2006, 2007 i 2008.