Wykład 4: Statystyki opisowe (część 1)

Transkrypt

Wykład 4: Statystyki opisowe (część 1)
Wykład 4:
Statystyki opisowe
(część 1)
Wprowadzenie
W przypadku danych mających charakter liczbowy do ich
charakterystyki
można
wykorzystać
tak
zwane
STATYSTYKI OPISOWE.
Za pomocą statystyk opisowych można scharakteryzować
rozkład wartości cechy liczbowej w badanej zbiorowości.
Poszczególne rodzaje statystyk opisują:
• przeciętny poziom wartości cechy w badanej zbiorowości
(miary położenia);
• rozproszenie danych (miary zmienności);
• asymetrię rozkładu danych (miary asymetrii).
Podział statystyk opisowych
ze względu na sposób wyznaczania
Miary klasyczne (średnia, odchylenie standardowe i inne) są
wyznaczane na podstawie wszystkich obserwacji - w związku z
tym są nieodporne na obserwacje odstające.
Miary pozycyjne (minimum, maksimum, mediana, kwartyle,
centyle) są wyznaczane na podstawie pozycji zajmowanej przez
odpowiednie obserwacje i w związku z tym nie są zależne od
ewentualnych obserwacji ekstremalnych.
Miary położenia
Do najczęściej wyznaczanych miar położenia, zawierających
informację o przeciętnym poziomie wartości danych cechy w
badanej zbiorowości należą:
• średnia arytmetyczna;
• inne rodzaje średnich (harmoniczna, geometryczna);
• wartość najmniejsza i największa (minimum i maksimum);
• wartość środkowa – mediana;
• wartość najczęstsza – moda;
• kwartyle;
• centyle.
Średnia arytmetyczna
Średnia arytmetyczna jest najbardziej popularną miarą
przeciętnego poziomu cechy liczbowej. Poniżej opisano
sposób wyznaczania średniej dla szczegółowego szeregu
statystycznego.
Wartość cechy
(xi)
15
10
11
9
7
4
15
13
14
x1
x2
x3
x4
…
xn-3
xn-2
xn-1
xn
x1    xn 1 n
x
  xi
n
n i 1
15  10  11  9  7  4  15  13  14
x
?
9
Mediana – wartość środkowa
Alternatywną metodą opisu danych liczbowych jest wartość
środkowa (mediana), która odpowiada poziomu jednostki
znajdującej się „w środku” badanej zbiorowości, jeśli chodzi o
poziom rozważanej cechy.
Aby wyznaczyć medianę szereg szczegółowy należy
uporządkować (rosnąco) i wskazać wartość środkowego obiektu.
Wartość cechy
(xi)
4
7
9
10
11
13
14
15
15
x1
x2
x3
x4
…
xn-3
xn-2
xn-1
xn
Me
Uproszczona definicja i interpretacja mediany może polegać na
stwierdzeniu, iż 50% pomiarów jest od niej mniejszych oraz
50% pomiarów jest większych od mediany.
Co jest lepsze – mediana czy średnia?
Mediana i średnia mogą mieć bardzo zbliżone wartości, mogą
też się bardzo wyraźnie różnić. W praktyce zalecamy
wyznaczanie obu tych wartości jednocześnie i wyciąganie
wniosków na podstawie ich jednoczesnego oglądu.
1000 zł 1200 zł 1400 zł 1700 zł 30000 zł
Średnia = 7060 zł
Zarobki w
pewnej firmie
Mediana =1400 zł
Po podwyżce
płac…
1000 zł 1200 zł 1400 zł 1700 zł 60000 zł
Średnia = 13060 zł
Mediana =1400 zł
Nie zawsze średnie zarobki odzwierciedlają dobrze rzeczywistość
– jeżeli tylko można dowiedz się także ile wynosi mediana.
Centyle
Mediana jest wartością, którą znajdujemy w wyniku
poszukiwania odpowiedzi na pytanie: poniżej (powyżej) jakiej
wartości sytuuje się 50% pomiarów.
W wielu sytuacjach analityka interesuje też kwestia poniżej
(powyżej) jakiej wartości znajduje się inna część pomiarów (1%,
5%, 10% czy 25%). Stwierdzenie to określa grupę miar zwanych
centylami.
Centyl rzędu p (cp) (0 < p < 1) jest to taka liczba, że poniżej niej
znajduje się p-ta część pomiarów zaś powyżej (1-p)-ta część
pomiarów. Wartość p jest też często podawana w procentach.
Klasyfikacja centyli
Niektóre centyle, z uwagi na popularność zastosować mają swoje
własne nazwy:
• c50 to mediana;
• c25 to kwartyl dolny (Q25) a c75 to kwartyl górny (Q75);
• c10, c20, …, c90 to tak zwane decyle (oznaczane też d1, …, d9).
Statystyki opisowe
w programie STATISTICA
Statystyki opisowe w programie STATISTICA najlepiej wyznaczać
za pomocą analizy wywoływanej za pomocą poleceń STATYSTYKA
/ STATYSTYKI PODSTAWOWE I TABELE / STATYSTYKI
OPISOWE.
Po wybraniu zmiennej (lub wielu zmiennych) typu liczbowego, dla
których chcemy wyznaczyć wartości statystyk opisowych należy
ustalić listę wyliczanych parametrów (zakładka WIĘCEJ).
Przykład
Analiza dotyczy zbioru danych Środki z UE. Celem analizy jest
opis poziomu wykorzystania środków unijnych w gminach woj.
podkarpackiego w latach 2006-2009 (dla każdego roku osobno).
Podczas rozwiązywania przykładu wykorzystane zostaną
zarówno poznane uprzednio narzędzia grupowania danych jak i
statystyki opisowe.
PORÓWNYWALNOŚĆ DANYCH
Dane o wykorzystaniu środków z UE zawarte w pliku Środki z UE należy
najpierw doprowadzić do porównywalności – dokonać przeliczenie na
jednego mieszkańca.
W tym celu dodajemy na końcu arkusza cztery nowe kolumny, nazywamy
je odpowiednio: Środki z UE na 1 mieszk. (2006), …, Środki z UE na 1
mieszk. (2009) i wyznaczamy ich wartości za pomocą odpowiednich formuł
(wskazówka: dla roku 2006 formuła będzie mieć postać: =v22/v2
Wyznaczanie miar położenia
W oknie STATYSTYKI OPISOWE wybieramy nowoutworzone zmienne, w
zakładce WIĘCEJ ustalamy zakres statystyk opisowych do wyznaczenia.
Wyniki
Wywołujemy tabelę wynikową, dokonujemy formatowania wyników a
następnie ich interpretacji.
Na podstawie wartości średniej i
mediany stwierdzamy, iż wskaźnik
wykorzystania środków unijnych w roku
2009 był wyższy niż w pozostałych
latach.
Porównując wartość średniej i mediany
stwierdzamy, iż rozkład wskaźnika
wykorzystania środków z UE na 1
mieszk. jest nierównomierny – średnia
jest większa od mediany, a więc istnieje
relatywnie duża liczba gmin o niskim
poziomie wykorzystania środków i
nieliczni liderzy.
Na podstawie
wartości modalnej,
minimum oraz
liczności modalnej
stwierdzamy, iż
udział gmin nie
pozyskujących
żadnych środków z
UE jest w kolejnych
latach coraz niższy
W 2006 w co czwartej gminie
pozyskano więcej niż 47 złotych na
osobę zaś w 2009 wskaźnik ten
wyniósł już 177 zł. W 2009 roku
10% najlepszych gmin
charakteryzowało się poziomem
wykorzystania środków z UE na
poziomie co najmniej 362 zł
Poziom wskaźnika w
najlepszej gminie był w
roku 2009 zdecydowanie
wyższy niż w poprzednich
latach
Ilustracja graficzna – wykres ramka-wąsy
Wartości statystyk opisowych można zilustrować za pomocą
wykresu typu ramka-wąsy. Wykres ten w podstawowej formie
można wykonać w oknie analiz STATYSTYKI OPISOWE.
W zakładce opcje ustalamy typ wykresu ramka-wąsy:
W zakładce podstawowe
wywołujemy
wykres,
który po sformatowaniu
wygląda tak…
Niekonwencjonalne grupowanie danych
Inny sposób opisu danych może polegać na zgrupowaniu gmin ze
względu na poziom środków z UE i podaniu liczności każdej z
takich grup w latach 2006-2009. Biorąc pod uwagę fakt dużej
asymetrii wartości wskaźnika, zastosowano przedziały o
nierównych długościach:
• < 10 zł;
• [10 zł; 50 zł);
• [50 zł; 100 zł);
• [100 zł; 200 zł);
•  200 zł
Możliwość grupowania w przedziałach o niejednakowej długości jest
dostępna w programie STATISTICA przy okazji tworzenia wykresów.
Histogramy wielokrotne i opcja granice
Histogramy wielokrotne pozwalają na przedstawienie rozkładu
kilku cech jednocześnie – warunkiem wszakże jest, że są to cechy
posiadające zbliżony zakres (i znaczenie) wartości.
Wybieramy polecenie WYKRESY / WYKRESY 2W /
HISTOGRAMY po czym wybieramy wskaźniki
wykorzystania z lat 2006-2009 jako zmienne i ustawiamy
opcję wykresu na WIELOKROTNY.
W zakładce WIĘCEJ ustawiamy sposób grupowania (PRZEDZIAŁY) na
GRANICE i za pomocą przycisku określ granice wprowadzamy wartości
odpowiadające przedziałom zaproponowanym na poprzedniej stronie.
Wykres
Po wywołaniu wykresu i sformatowaniu uzyskujemy kompletną prezentację
graficzną wraz z informacjami o liczbie gmin znajdujących się w
poszczególnych kategoriach.
Zaletą programu
STATISTICA jest możliwość
modyfikacji sposobu
tworzenia wykresu.
Jeżeli na przykład
stwierdzilibyśmy, że chcemy
dodać jeszcze jeden przedział
dla wskaźnika wykorzystania
środków z UE możemy to bez
trudu uczynić.
W tym celu wywołujemy
wszystkie opcje wykresu a
następnie zakładkę
HISTOGRAM i
modyfikujemy wprowadzone
granice.
Jak się to ma do zasad podanych
na wykładzie nr 3?
Na wykładzie nr 3 podano ogólne zasady opisywania danych
przekrojowych (i innych typów danych). Wynikało z nich, że
dane przekrojowe najlepiej opisywać w postaci szeregów
szczegółowych uporządkowanych. Jednakże drugim czynnikiem
wpływającym na dobór metody opisu danych statystycznych jest
ich liczność.
W przypadku gmin woj. podkarpackiego, których jest 159 (od
roku 2010 – 160), prezentacja wszystkich danych w postaci
szeregu uporządkowanego nie jest możliwa. Dlatego też
posłużono się dodatkowo statystykami opisowymi oraz metodami
grupowania danych.
Nie
znaczy
to
jednak,
że
wykorzystanie
szeregu
uporządkowanego jest niemożliwe…
Wykres słupkowy – pokażmy najlepszych
Przedstawienie w formie graficznej, czy tabelarycznej, wartości wskaźnika
wykorzystania środków z UE na jednego mieszkańca dla wszystkich gmin jest
niemożliwe, gdyż taka prezentacja będzie po prostu nieczytelna.
Zasadne wydaje się natomiast zaprezentowanie poziomu wskaźnika dla
pewnej liczby (np. 25) „najlepszych” gmin.
Dokonamy takiej prezentacji dla danych z roku 2009. W tym celu sortujemy
dane malejąco według wartości wskaźnika z roku 2009, następnie wybieramy
polecenie WYKRESY / WYKRESY 2W / WYKRESY SŁUPKOWE i
wybieramy odpowiednią zmienną.
Aby utworzyć wykres tylko dla 25 najlepszych gmin (aktualnie przypadków
nr 1-25 w arkuszu danych) korzystamy z narzędzia selekcji przypadków,
ustawiając warunki w następujący sposób:
Wykres słupkowy – pokażmy najlepszych
W ramach ćwiczeń proszę sporządzić analogiczne prezentacje dla danych z
roku 2006, 2007 i 2008.