Metody opisu danych

Transkrypt

Metody opisu danych
Wykład 3.
Metody opisu danych
(statystyki opisowe,
tabele liczności,
wykresy ramkowe i histogramy)
Co na dzisiejszym wykładzie:
• definicje, sposoby wyznaczania i interpretacja STATYSTYK
OPISOWYCH – prezentacja wyników w postaci wykresów typu
RAMKA-WĄSY;
• grupowanie danych w postaci TABEL LICZNOŚCI – ilustracja
wyników za pomocą HISTOGRAMÓW;
• konstruowanie warunków selekcji przypadków;
• formatowanie wyników analiz (tabel i wykresów).
Dane wykorzystane na wykładzie pochodzą z baz WHO i dotyczą
czasu trwania życia (kobiet i mężczyzn) w 227 państwach świata.
Baza danych zawiera informacje z roku 2006 i 1996, możliwa jest
więc też analiza zmian w poziomie tego bardzo ważnego
wskaźnika. Dodatkową zmienną jest kolumna określająca
położenie geograficzne każdego państwa (kontynent).
Oczekiwany czas trwania życia
przypomnienie definicji
OCZEKIWANY DALSZY CZAS TRWANIA ŻYCIA
(przeciętne dalsze trwanie życia) – średnia liczba lat, jaka
przy poziomie umieralności z danego roku, przeżyje osoba w
określonym wieku. Jeżeli wiek ten nie jest sprecyzowany,
mamy do czynienia z oczekiwanym czasem trwania całego
życia (od momentu urodzenia).
Z powyższej definicji wynika, że miara ta ma charakter
hipotetyczny i w pewien sposób syntetyzuje informacje o
stanie zdrowotności danego społeczeństwa.
W literaturze angielskojęzycznej (i nie tylko) stosuje się
często skrót LE (ang. Life Expectancy – oczekiwany czas
trwania życia).
Cel analizy i metody
Cel analizy: prezentacja rozkładu czasu trwania
życia kobiet i mężczyzn na świecie w roku 2006,
zbadanie zmian obu wielkości w latach 19962006,
porównanie
czasu
trwania
życia
mieszkańców na poszczególnych kontynentach.
Metody: opis danych za pomocą STATYSTYK OPISOWYCH i
TABEL LICZNOŚCI, prezentacja wyników obu analiz w postaci
wykresów
typu
RAMKA-WĄSY
i
HISTOGRAMÓW,
wykorzystanie poznanych wcześniej metod prezentacji danych
(WYKRESY SŁUPKOWE i ROZRZUTU), wykorzystanie
SELEKCJI PRZYPADKÓW w celu zawężania zakresu prezentacji
danych oraz FORMUŁ ARKUSZA DANYCH w celu wyznaczania
nowych cech.
Statystyki opisowe
Sposób prezentacji danych tylko dla cech liczbowych
Miary klasyczne (średnia, odchylenie standardowe i inne) są
wyznaczane na podstawie wszystkich obserwacji - są w związku z
tym nieodporne na obserwacje odstające.
Miary pozycyjne (minimum, maksimum, mediana, kwartyle,
percentyle) są wyznaczane na podstawie pozycji zajmowanej przez
odpowiednie obserwacje i w związku z tym nie są zależne od
ewentualnych obserwacji ekstremalnych.
Lista statystyk opisowych
MIARY POŁOŻENIA
• średnia arytmetyczna;
• minimum i maksimum;
• mediana (wartość środkowa - połowa obserwacji nie przekracza, połowa jest większa od
wartości mediany);
• kwartyl dolny i kwartyl górny (1/4 obserwacji nie przekracza dolnego kwartyla, 1/4 nie
jest mniejsza od kwartyla górnego);
• percentyle (rzędu p: p-ta część obserwacji nie przekracza percentyla rzędu p);
• modalna (wartość najczęstsza);
MIARY ZMIENNOŚCI
• odchylenie standardowe (najpopularniejsza miara rozproszenia danych);
• rozstęp (zakres wartości - różnica pomiędzy maksimum i minimum);
• rozstęp kwartylowy
(połowa różnicy pomiędzy górnym i dolnym kwartylem);
MIARY ASYMETRII
• skośność (współczynnik asymetrii: równa 0 to rozkład symetryczny,
wartości dodatnie świadczą o przewadze obserwacji niskich i średnich,
przy stosunkowo nielicznych, lecz wyraźnie większych pomiarach tzw. asymetrią prawostronną charakteryzuje się na przykład rozkład płac).
Średnia arytmetyczna
Średnia arytmetyczna jest najbardziej popularną miarą
przeciętnego poziomu cechy liczbowej. Poniżej opisano
sposób wyznaczania średniej dla szczegółowego szeregu
statystycznego.
Wartość cechy
(xi)
15
10
11
9
7
4
15
13
14
x1
x2
x3
x4
…
xn-3
xn-2
xn-1
xn
x1    xn 1 n
x
  xi
n
n i 1
15  10  11  9  7  4  15  13  14
x
?
9
Mediana – wartość środkowa
Alternatywną metodą opisu danych liczbowych jest wartość
środkowa (mediana), która odpowiada poziomu jednostki
znajdującej się „w środku” badanej zbiorowości, jeśli chodzi o
poziom rozważanej cechy.
Aby wyznaczyć medianę szereg szczegółowy należy
uporządkować (rosnąco) i wskazać wartość środkowego obiektu.
Wartość cechy
(xi)
4
7
9
10
11
13
14
15
15
x1
x2
x3
x4
…
xn-3
xn-2
xn-1
xn
Me
Uproszczona definicja i interpretacja mediany może polegać na
stwierdzeniu, iż 50% pomiarów jest od niej mniejszych oraz
50% pomiarów jest większych od mediany.
Co jest lepsze – mediana czy średnia?
Mediana i średnia mogą mieć bardzo zbliżone wartości, mogą
też się bardzo wyraźnie różnić. W praktyce zalecamy
wyznaczanie obu tych wartości jednocześnie i wyciąganie
wniosków na podstawie ich jednoczesnego oglądu.
1000 zł 1200 zł 1400 zł 1700 zł 30000 zł
Średnia = 7060 zł
Zarobki w
pewnej firmie
Mediana =1400 zł
Po podwyżce
płac…
1000 zł 1200 zł 1400 zł 1700 zł 60000 zł
Średnia = 13060 zł
Mediana =1400 zł
Nie zawsze średnie zarobki odzwierciedlają dobrze rzeczywistość
– jeżeli tylko można dowiedz się także ile wynosi mediana.
Centyle
Mediana jest wartością, którą znajdujemy w wyniku
poszukiwania odpowiedzi na pytanie: poniżej (powyżej) jakiej
wartości sytuuje się 50% pomiarów.
W wielu sytuacjach analityka interesuje też kwestia poniżej
(powyżej) jakiej wartości znajduje się inna część pomiarów (1%,
5%, 10% czy 25%). Stwierdzenie to określa grupę miar zwanych
centylami.
Centyl rzędu p (cp) (0 < p < 1) jest to taka liczba, że poniżej niej
znajduje się p-ta część pomiarów zaś powyżej (1-p)-ta część
pomiarów. Wartość p jest też często podawana w procentach.
Klasyfikacja centyli
Niektóre centyle, z uwagi na popularność zastosować mają swoje
własne nazwy:
• c50 to mediana;
• c25 to kwartyl dolny (Q25) a c75 to kwartyl górny (Q75);
• c10, c20, …, c90 to tak zwane decyle (oznaczane też d1, …, d9).
Obliczanie statystyk opisowych
w programie STATISTICA
Statystyki opisowe w programie STATISTICA najlepiej wyznaczać
za pomocą analizy wywoływanej za pomocą poleceń STATYSTYKA
/ STATYSTYKI PODSTAWOWE I TABELE / STATYSTYKI
OPISOWE.
Po wybraniu zmiennej (lub wielu zmiennych) typu liczbowego, dla
których chcemy wyznaczyć wartości statystyk opisowych należy
ustalić listę wyliczanych parametrów (zakładka WIĘCEJ).
Statystyki opisowe w grupach (na przykład osobno dla państwa
każdego kontynentu) wyznaczamy za pomocą analizy
PRZEKROJE…
Przykładowe wyniki i ich interpretacja (1)
N ważnych – przeanalizowano dane z 227 państw świata
Średnia – przeciętny dalszy czas trwania życia mężczyzn państwach świata
Mediana – w połowie państw świata przeciętny czas trwania życia mężczyzn nie przekracza 69 lat,
w połowie jest wyższy od tej wartości
Minimum i maksimum – najkrótszy przeciętny czas trwania życia mężczyzn wynosi nieco ponad
32 lata, zaś najdłuższy ponad 82, tak więc w niektórych państwach mężczyźni żyją (przeciętnie)
niemal 3 razy dłużej niż w innych
Dolny i górny kwartyl – w co czwartym państwie przeciętny czas trwania życia mężczyzn nie
przekracza 60 lat, z drugiej strony w co czwartym jest wyższy niż 74,4 lata
Odchylenie standardowe –odchylenie od średniej dla państw całego świata wynosi 10,5 roku
Współczynnik zmienności – poziom zmienności wynosi około 16%
Skośność – współczynnik skośności jest ujemny, co oznacza że rozkład przeciętnego czasu trwania
życia mężczyzn charakteryzuje się asymetrią lewostronną – inaczej mówiąc, w większości państw
jest on wysoki zaś w nielicznych niski a nawet bardzo niski (por. kształt histogramu)
Przykładowe wyniki i ich interpretacja (2)
Aby wyniki były użyteczne, aby produkt
naszej analizy był konkurencyjny, należy
arkusz wyników odpowiednio sformatować
(przede wszystkim wyniki należy wyświetlać z
właściwą dokładnością)
Grupowanie danych
Inną formą opisu danych liczbowych jest przedstawienie częstości
występowania poszczególnych wartości (stworzenie tzw. szeregu
statystycznego).
W przypadku cech ciągłych (mogących przyjmować bardzo wiele
wartości) zwykle dane grupuje się w postaci szeregu
przedziałowego.
W tabeli podaje się informacje o liczbie i/lub procencie obserwacji
znajdujących się w danym przedziale – dodatkowo można
zamieścić informację o liczbie i procencie skumulowanym.
W programie STATISTICA grupowanie danych możliwe jest za
pomocą analizy TABELE LICZNOŚCI (wchodzącej w skład
STATYSTYK PODSTAWOWYCH I TABEL).
Grupowanie danych
- tabele liczności
Narzędzia analiz statystycznych w programie STATISTICA są
dostępne za pomocą dwóch poleceń STATYSTYKA i WYKRESY.
Aby dokonać grupowania danych należy posłużyć się analizą
TABELE LICZNOŚCI.
Rodzaje grupowania
W oknie TABELE LICZNOŚCI istnieje możliwość ustawienia
różnych sposobów grupowania – w zakładce WIĘCEJ. Poniżej
opisano najważniejsze sposoby grupowania (kategoryzacji)
wartości zmiennych.
Wyszczególnienie wszystkich wartości:
dla cech nominalnych i mierzalnych
(o nielicznych wartościach)
Szereg przedziałowy o zadanej z góry
(lub przybliżonej) liczbie przedziałów
Szereg przedziałowy określony
w pełni przez użytkownika
Grupowanie wybranych wartości
w podanej kolejności
Rozpiętość przedziału
Początek pierwszego przedziału
Przykłady grupowania
Przykład dotyczy pliku Opinie o integracji z UE (2004). Celem
analizy jest przedstawienie odpowiedzi na pytania dotyczące
skutku integracji dla Polski (zmienna 7) i sposoby głosowania
respondentów w referendum akcesyjnym (zmienna 6).
Ponieważ obie zmienne mają ten sam charakter (nominalny) grupowanie
możemy przeprowadzić jednocześnie, wybierając za pomocą przycisku
ZMIENNE obie cechy i ustalając odpowiednio sposób grupowania.
Po naciśnięciu przycisku PODSUMOWANIE otrzymujemy dwie tabele –
oddzielne wyniki grupowania dla obu cech. Wszystkie wyniki kolejnych
analiz będę dodawane do otworzonego właśnie skoroszytu wyników.
Opis wyników grupowania
Tabele z wynikami grupowania zawierają następujące informacje:
• warianty badanej cechy;
• liczbę przypadków dla każdego wariantu;
• skumulowaną liczbę przypadków (opis na rysunku)
• procentowy udział danego wariantu cechy;
• skumulowane procenty.
UWAGA!!! Wartości skumulowane mają sens tylko wtedy, gdy
grupowane warianty są w logiczny sposób uporządkowane (a więc dla
cech porządkowych lub liczbowych).
W „roboczej” tabeli wyników należy pozostawić tylko te wartości, które
się da zinterpretować. Należy także dokonać formatowania wartości.
Występowanie braków danych
Przy domyślnych ustawieniach opcji grupowania, w tabelach
wyszczególniona jest także informacja o brakach danych. W
rozpatrywanym przykładzie są one zapewne równoważne stwierdzeniu
faktu, iż ktoś nie wziął udziału w referendum akcesyjnym.
Brak udziału w referendum
W pewnych sytuacjach chcemy poznać strukturę danych po wykluczeniu
z rozważań braków odpowiedzi. W omawianym przykładzie ma to sens,
gdyż w ten sposób dowiadujemy się informacji o wynikach referendum w
badanej zbiorowości. W oknie TABELE LICZNOŚCI w zakładce OPCJE
wyłączamy
Otrzymujemy informacje o strukturze procentowej tylko w grupie osób,
które wzięły udział w głosowaniu.
Grupowanie danych liczbowych
Kontynuując analizę danych ankietowych z pliku Opinie o
integracji z UE (2004) zbadamy strukturę wieku respondentów.
Tego typu zestawienia umieszcza się w części Charakterystyka
badanej zbiorowości – kwestia ta jest o tyle ważna, że poglądy na
pewne zjawiska społeczne i polityczne są zwykle odmienne dla
różnych grup wiekowych.
Należy więc stwierdzić, czy badana grupa jest reprezentatywną
próbką
z
populacji
dorosłych
mieszkańców
woj.
podkarpackiego, czy też może odzwierciedla przede wszystkim
poglądy osób młodszych.
Prezentacja rozkładu wieku respondentów
Po wybraniu analizy TABELE LICZNOŚCI i
sporządzeniu
(bez
zmiany
ustawień)
szeregu
rozdzielczego, okazuje się, że wyniki nie są zbyt
czytelne…
Widać to zarówno podczas próby analizy informacji
zawartych w tabeli liczności jak i na przykładzie
graficznej prezentacji w postaci HISTOGRAMU.
Prezentacja rozkładu wieku respondentów
Przy tak dużej złożoności danych, należy je przedstawić w postaci szeregu
przedziałowego, na przykład w następującej postaci…
Wiek (xi)
ni
%i
18-24
87
29,0%
25-34
102
34,0%
35-44
47
19,0%
45-54
27
9,0%
55-64
14
4,7%
65-75
13
4,3%
W tym celu wykorzystana zostanie opcja KROK
umożliwiająca
sporządzenie
szeregu
o
jednakowej rozpiętości przedziałów. Zostaną
one następnie „ręcznie” skorygowane tak, by
odpowiadały wzorcowi tabeli.