Metody opisu danych
Transkrypt
Metody opisu danych
Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy) Co na dzisiejszym wykładzie: • definicje, sposoby wyznaczania i interpretacja STATYSTYK OPISOWYCH – prezentacja wyników w postaci wykresów typu RAMKA-WĄSY; • grupowanie danych w postaci TABEL LICZNOŚCI – ilustracja wyników za pomocą HISTOGRAMÓW; • konstruowanie warunków selekcji przypadków; • formatowanie wyników analiz (tabel i wykresów). Dane wykorzystane na wykładzie pochodzą z baz WHO i dotyczą czasu trwania życia (kobiet i mężczyzn) w 227 państwach świata. Baza danych zawiera informacje z roku 2006 i 1996, możliwa jest więc też analiza zmian w poziomie tego bardzo ważnego wskaźnika. Dodatkową zmienną jest kolumna określająca położenie geograficzne każdego państwa (kontynent). Oczekiwany czas trwania życia przypomnienie definicji OCZEKIWANY DALSZY CZAS TRWANIA ŻYCIA (przeciętne dalsze trwanie życia) – średnia liczba lat, jaka przy poziomie umieralności z danego roku, przeżyje osoba w określonym wieku. Jeżeli wiek ten nie jest sprecyzowany, mamy do czynienia z oczekiwanym czasem trwania całego życia (od momentu urodzenia). Z powyższej definicji wynika, że miara ta ma charakter hipotetyczny i w pewien sposób syntetyzuje informacje o stanie zdrowotności danego społeczeństwa. W literaturze angielskojęzycznej (i nie tylko) stosuje się często skrót LE (ang. Life Expectancy – oczekiwany czas trwania życia). Cel analizy i metody Cel analizy: prezentacja rozkładu czasu trwania życia kobiet i mężczyzn na świecie w roku 2006, zbadanie zmian obu wielkości w latach 19962006, porównanie czasu trwania życia mieszkańców na poszczególnych kontynentach. Metody: opis danych za pomocą STATYSTYK OPISOWYCH i TABEL LICZNOŚCI, prezentacja wyników obu analiz w postaci wykresów typu RAMKA-WĄSY i HISTOGRAMÓW, wykorzystanie poznanych wcześniej metod prezentacji danych (WYKRESY SŁUPKOWE i ROZRZUTU), wykorzystanie SELEKCJI PRZYPADKÓW w celu zawężania zakresu prezentacji danych oraz FORMUŁ ARKUSZA DANYCH w celu wyznaczania nowych cech. Statystyki opisowe Sposób prezentacji danych tylko dla cech liczbowych Miary klasyczne (średnia, odchylenie standardowe i inne) są wyznaczane na podstawie wszystkich obserwacji - są w związku z tym nieodporne na obserwacje odstające. Miary pozycyjne (minimum, maksimum, mediana, kwartyle, percentyle) są wyznaczane na podstawie pozycji zajmowanej przez odpowiednie obserwacje i w związku z tym nie są zależne od ewentualnych obserwacji ekstremalnych. Lista statystyk opisowych MIARY POŁOŻENIA • średnia arytmetyczna; • minimum i maksimum; • mediana (wartość środkowa - połowa obserwacji nie przekracza, połowa jest większa od wartości mediany); • kwartyl dolny i kwartyl górny (1/4 obserwacji nie przekracza dolnego kwartyla, 1/4 nie jest mniejsza od kwartyla górnego); • percentyle (rzędu p: p-ta część obserwacji nie przekracza percentyla rzędu p); • modalna (wartość najczęstsza); MIARY ZMIENNOŚCI • odchylenie standardowe (najpopularniejsza miara rozproszenia danych); • rozstęp (zakres wartości - różnica pomiędzy maksimum i minimum); • rozstęp kwartylowy (połowa różnicy pomiędzy górnym i dolnym kwartylem); MIARY ASYMETRII • skośność (współczynnik asymetrii: równa 0 to rozkład symetryczny, wartości dodatnie świadczą o przewadze obserwacji niskich i średnich, przy stosunkowo nielicznych, lecz wyraźnie większych pomiarach tzw. asymetrią prawostronną charakteryzuje się na przykład rozkład płac). Średnia arytmetyczna Średnia arytmetyczna jest najbardziej popularną miarą przeciętnego poziomu cechy liczbowej. Poniżej opisano sposób wyznaczania średniej dla szczegółowego szeregu statystycznego. Wartość cechy (xi) 15 10 11 9 7 4 15 13 14 x1 x2 x3 x4 … xn-3 xn-2 xn-1 xn x1 xn 1 n x xi n n i 1 15 10 11 9 7 4 15 13 14 x ? 9 Mediana – wartość środkowa Alternatywną metodą opisu danych liczbowych jest wartość środkowa (mediana), która odpowiada poziomu jednostki znajdującej się „w środku” badanej zbiorowości, jeśli chodzi o poziom rozważanej cechy. Aby wyznaczyć medianę szereg szczegółowy należy uporządkować (rosnąco) i wskazać wartość środkowego obiektu. Wartość cechy (xi) 4 7 9 10 11 13 14 15 15 x1 x2 x3 x4 … xn-3 xn-2 xn-1 xn Me Uproszczona definicja i interpretacja mediany może polegać na stwierdzeniu, iż 50% pomiarów jest od niej mniejszych oraz 50% pomiarów jest większych od mediany. Co jest lepsze – mediana czy średnia? Mediana i średnia mogą mieć bardzo zbliżone wartości, mogą też się bardzo wyraźnie różnić. W praktyce zalecamy wyznaczanie obu tych wartości jednocześnie i wyciąganie wniosków na podstawie ich jednoczesnego oglądu. 1000 zł 1200 zł 1400 zł 1700 zł 30000 zł Średnia = 7060 zł Zarobki w pewnej firmie Mediana =1400 zł Po podwyżce płac… 1000 zł 1200 zł 1400 zł 1700 zł 60000 zł Średnia = 13060 zł Mediana =1400 zł Nie zawsze średnie zarobki odzwierciedlają dobrze rzeczywistość – jeżeli tylko można dowiedz się także ile wynosi mediana. Centyle Mediana jest wartością, którą znajdujemy w wyniku poszukiwania odpowiedzi na pytanie: poniżej (powyżej) jakiej wartości sytuuje się 50% pomiarów. W wielu sytuacjach analityka interesuje też kwestia poniżej (powyżej) jakiej wartości znajduje się inna część pomiarów (1%, 5%, 10% czy 25%). Stwierdzenie to określa grupę miar zwanych centylami. Centyl rzędu p (cp) (0 < p < 1) jest to taka liczba, że poniżej niej znajduje się p-ta część pomiarów zaś powyżej (1-p)-ta część pomiarów. Wartość p jest też często podawana w procentach. Klasyfikacja centyli Niektóre centyle, z uwagi na popularność zastosować mają swoje własne nazwy: • c50 to mediana; • c25 to kwartyl dolny (Q25) a c75 to kwartyl górny (Q75); • c10, c20, …, c90 to tak zwane decyle (oznaczane też d1, …, d9). Obliczanie statystyk opisowych w programie STATISTICA Statystyki opisowe w programie STATISTICA najlepiej wyznaczać za pomocą analizy wywoływanej za pomocą poleceń STATYSTYKA / STATYSTYKI PODSTAWOWE I TABELE / STATYSTYKI OPISOWE. Po wybraniu zmiennej (lub wielu zmiennych) typu liczbowego, dla których chcemy wyznaczyć wartości statystyk opisowych należy ustalić listę wyliczanych parametrów (zakładka WIĘCEJ). Statystyki opisowe w grupach (na przykład osobno dla państwa każdego kontynentu) wyznaczamy za pomocą analizy PRZEKROJE… Przykładowe wyniki i ich interpretacja (1) N ważnych – przeanalizowano dane z 227 państw świata Średnia – przeciętny dalszy czas trwania życia mężczyzn państwach świata Mediana – w połowie państw świata przeciętny czas trwania życia mężczyzn nie przekracza 69 lat, w połowie jest wyższy od tej wartości Minimum i maksimum – najkrótszy przeciętny czas trwania życia mężczyzn wynosi nieco ponad 32 lata, zaś najdłuższy ponad 82, tak więc w niektórych państwach mężczyźni żyją (przeciętnie) niemal 3 razy dłużej niż w innych Dolny i górny kwartyl – w co czwartym państwie przeciętny czas trwania życia mężczyzn nie przekracza 60 lat, z drugiej strony w co czwartym jest wyższy niż 74,4 lata Odchylenie standardowe –odchylenie od średniej dla państw całego świata wynosi 10,5 roku Współczynnik zmienności – poziom zmienności wynosi około 16% Skośność – współczynnik skośności jest ujemny, co oznacza że rozkład przeciętnego czasu trwania życia mężczyzn charakteryzuje się asymetrią lewostronną – inaczej mówiąc, w większości państw jest on wysoki zaś w nielicznych niski a nawet bardzo niski (por. kształt histogramu) Przykładowe wyniki i ich interpretacja (2) Aby wyniki były użyteczne, aby produkt naszej analizy był konkurencyjny, należy arkusz wyników odpowiednio sformatować (przede wszystkim wyniki należy wyświetlać z właściwą dokładnością) Grupowanie danych Inną formą opisu danych liczbowych jest przedstawienie częstości występowania poszczególnych wartości (stworzenie tzw. szeregu statystycznego). W przypadku cech ciągłych (mogących przyjmować bardzo wiele wartości) zwykle dane grupuje się w postaci szeregu przedziałowego. W tabeli podaje się informacje o liczbie i/lub procencie obserwacji znajdujących się w danym przedziale – dodatkowo można zamieścić informację o liczbie i procencie skumulowanym. W programie STATISTICA grupowanie danych możliwe jest za pomocą analizy TABELE LICZNOŚCI (wchodzącej w skład STATYSTYK PODSTAWOWYCH I TABEL). Grupowanie danych - tabele liczności Narzędzia analiz statystycznych w programie STATISTICA są dostępne za pomocą dwóch poleceń STATYSTYKA i WYKRESY. Aby dokonać grupowania danych należy posłużyć się analizą TABELE LICZNOŚCI. Rodzaje grupowania W oknie TABELE LICZNOŚCI istnieje możliwość ustawienia różnych sposobów grupowania – w zakładce WIĘCEJ. Poniżej opisano najważniejsze sposoby grupowania (kategoryzacji) wartości zmiennych. Wyszczególnienie wszystkich wartości: dla cech nominalnych i mierzalnych (o nielicznych wartościach) Szereg przedziałowy o zadanej z góry (lub przybliżonej) liczbie przedziałów Szereg przedziałowy określony w pełni przez użytkownika Grupowanie wybranych wartości w podanej kolejności Rozpiętość przedziału Początek pierwszego przedziału Przykłady grupowania Przykład dotyczy pliku Opinie o integracji z UE (2004). Celem analizy jest przedstawienie odpowiedzi na pytania dotyczące skutku integracji dla Polski (zmienna 7) i sposoby głosowania respondentów w referendum akcesyjnym (zmienna 6). Ponieważ obie zmienne mają ten sam charakter (nominalny) grupowanie możemy przeprowadzić jednocześnie, wybierając za pomocą przycisku ZMIENNE obie cechy i ustalając odpowiednio sposób grupowania. Po naciśnięciu przycisku PODSUMOWANIE otrzymujemy dwie tabele – oddzielne wyniki grupowania dla obu cech. Wszystkie wyniki kolejnych analiz będę dodawane do otworzonego właśnie skoroszytu wyników. Opis wyników grupowania Tabele z wynikami grupowania zawierają następujące informacje: • warianty badanej cechy; • liczbę przypadków dla każdego wariantu; • skumulowaną liczbę przypadków (opis na rysunku) • procentowy udział danego wariantu cechy; • skumulowane procenty. UWAGA!!! Wartości skumulowane mają sens tylko wtedy, gdy grupowane warianty są w logiczny sposób uporządkowane (a więc dla cech porządkowych lub liczbowych). W „roboczej” tabeli wyników należy pozostawić tylko te wartości, które się da zinterpretować. Należy także dokonać formatowania wartości. Występowanie braków danych Przy domyślnych ustawieniach opcji grupowania, w tabelach wyszczególniona jest także informacja o brakach danych. W rozpatrywanym przykładzie są one zapewne równoważne stwierdzeniu faktu, iż ktoś nie wziął udziału w referendum akcesyjnym. Brak udziału w referendum W pewnych sytuacjach chcemy poznać strukturę danych po wykluczeniu z rozważań braków odpowiedzi. W omawianym przykładzie ma to sens, gdyż w ten sposób dowiadujemy się informacji o wynikach referendum w badanej zbiorowości. W oknie TABELE LICZNOŚCI w zakładce OPCJE wyłączamy Otrzymujemy informacje o strukturze procentowej tylko w grupie osób, które wzięły udział w głosowaniu. Grupowanie danych liczbowych Kontynuując analizę danych ankietowych z pliku Opinie o integracji z UE (2004) zbadamy strukturę wieku respondentów. Tego typu zestawienia umieszcza się w części Charakterystyka badanej zbiorowości – kwestia ta jest o tyle ważna, że poglądy na pewne zjawiska społeczne i polityczne są zwykle odmienne dla różnych grup wiekowych. Należy więc stwierdzić, czy badana grupa jest reprezentatywną próbką z populacji dorosłych mieszkańców woj. podkarpackiego, czy też może odzwierciedla przede wszystkim poglądy osób młodszych. Prezentacja rozkładu wieku respondentów Po wybraniu analizy TABELE LICZNOŚCI i sporządzeniu (bez zmiany ustawień) szeregu rozdzielczego, okazuje się, że wyniki nie są zbyt czytelne… Widać to zarówno podczas próby analizy informacji zawartych w tabeli liczności jak i na przykładzie graficznej prezentacji w postaci HISTOGRAMU. Prezentacja rozkładu wieku respondentów Przy tak dużej złożoności danych, należy je przedstawić w postaci szeregu przedziałowego, na przykład w następującej postaci… Wiek (xi) ni %i 18-24 87 29,0% 25-34 102 34,0% 35-44 47 19,0% 45-54 27 9,0% 55-64 14 4,7% 65-75 13 4,3% W tym celu wykorzystana zostanie opcja KROK umożliwiająca sporządzenie szeregu o jednakowej rozpiętości przedziałów. Zostaną one następnie „ręcznie” skorygowane tak, by odpowiadały wzorcowi tabeli.