średnie geometryczne grupowanie

Transkrypt

średnie geometryczne grupowanie
Wykład 3:
Statystyki opisowe
- miary położenia, miary zmienności,
miary asymetrii
Wprowadzenie
W przypadku danych liczbowych do ich charakterystyki
można wykorzystać tak zwane STATYSTYKI OPISOWE.
Za pomocą statystyk opisowych można scharakteryzować
rozkład wartości cechy liczbowej w badanej zbiorowości.
Poszczególne rodzaje statystyk opisują:
• przeciętny poziom wartości cechy w badanej zbiorowości
(miary położenia);
• rozproszenie danych (miary zmienności);
• asymetrię rozkładu danych (miary asymetrii).
Podział statystyk opisowych
ze względu na sposób wyznaczania
Miary klasyczne (średnia, odchylenie standardowe i inne) są
wyznaczane na podstawie wszystkich obserwacji - w związku z
tym są nieodporne na obserwacje odstające.
Miary pozycyjne (minimum, maksimum, mediana, kwartyle,
centyle) są wyznaczane na podstawie pozycji zajmowanej przez
odpowiednie obserwacje i w związku z tym nie są zależne od
ewentualnych obserwacji ekstremalnych.
Miary położenia
Do najczęściej wyznaczanych miar położenia, zawierających
informację o przeciętnym poziomie wartości danych cechy w
badanej zbiorowości należą:
• średnia arytmetyczna;
• inne rodzaje średnich (harmoniczna, geometryczna);
• wartość najmniejsza i największa (minimum i maksimum);
• wartość środkowa – mediana;
• wartość najczęstsza – moda;
• kwartyle;
• centyle.
Średnia arytmetyczna
Średnia arytmetyczna jest najbardziej popularną miarą
przeciętnego poziomu cechy liczbowej. Poniżej opisano
sposób wyznaczania średniej dla szczegółowego szeregu
statystycznego.
Wartość cechy
(xi)
15
10
11
9
7
4
15
13
14
x1
x2
x3
x4
…
xn-3
xn-2
xn-1
xn
x1    xn 1 n
x
  xi
n
n i 1
x
15  10  11  9  7  4  15  13  14
?
9
Mediana – wartość środkowa
Alternatywną metodą opisu danych liczbowych jest wartość
środkowa (mediana), która odpowiada poziomu jednostki
znajdującej się „w środku” badanej zbiorowości, jeśli chodzi o
poziom rozważanej cechy.
Aby wyznaczyć medianę szereg szczegółowy należy
uporządkować (rosnąco) i wskazać wartość środkowego obiektu.
Wartość cechy
(xi)
4
7
9
10
11
13
14
15
15
x1
x2
x3
x4
…
xn-3
xn-2
xn-1
xn
Me
Uproszczona definicja i interpretacja mediany może polegać na
stwierdzeniu, iż 50% pomiarów jest od niej mniejszych a 50%
pomiarów większych.
Co jest lepsze – mediana czy średnia?
Mediana i średnia mogą mieć bardzo zbliżone wartości, mogą
też się bardzo wyraźnie różnić. W praktyce zalecamy
wyznaczanie obu tych wartości jednocześnie i wyciąganie
wniosków na podstawie ich jednoczesnego oglądu.
1000 zł 1200 zł 1400 zł 1700 zł 30000 zł
Średnia = 7060 zł
Zarobki w
pewnej firmie
Mediana =1400 zł
Po podwyżce
płac…
1000 zł 1200 zł 1400 zł 1700 zł 60000 zł
Średnia = 13060 zł
Mediana =1400 zł
Nie zawsze średnie zarobki odzwierciedlają dobrze rzeczywistość
– jeżeli tylko można dowiedz się także ile wynosi mediana.
Centyle
Mediana jest wartością, którą znajdujemy w wyniku
poszukiwania odpowiedzi na pytanie: poniżej (powyżej) jakiej
wartości sytuuje się 50% pomiarów.
W wielu sytuacjach analityka interesuje też kwestia poniżej
(powyżej) jakiej wartości znajduje się inna część pomiarów (1%,
5%, 10% czy 25%). Stwierdzenie to określa grupę miar zwanych
centylami.
Centyl rzędu p (cp) (0 < p < 1) jest to taka liczba, że poniżej niej
znajduje się p-ta część pomiarów zaś powyżej (1-p)-ta część
pomiarów. Wartość p jest też często podawana w procentach.
Klasyfikacja centyli
Niektóre centyle, z uwagi na popularność zastosować mają swoje
własne nazwy:
• c50 to mediana;
• c25 to kwartyl dolny (Q25) a c75 to kwartyl górny (Q75);
• c10, c20, …, c90 to tak zwane decyle (oznaczane też d1, …, d9).
Statystyki opisowe
w programie STATISTICA
Statystyki opisowe w programie STATISTICA najlepiej wyznaczać
za pomocą analizy wywoływanej za pomocą poleceń STATYSTYKA
/ STATYSTYKI PODSTAWOWE I TABELE / STATYSTYKI
OPISOWE.
Po wybraniu zmiennej (lub wielu zmiennych) typu liczbowego, dla
których chcemy wyznaczyć wartości statystyk opisowych należy
ustalić listę wyliczanych parametrów (zakładka WIĘCEJ).
Przykład
Analiza dotyczy zbioru danych Środki z UE. Celem analizy jest
opis poziomu wykorzystania środków unijnych w gminach woj.
podkarpackiego w latach 2006-2009 (dla każdego roku osobno).
Podczas rozwiązywania przykładu wykorzystane zostaną
zarówno poznane uprzednio narzędzia grupowania danych jak i
statystyki opisowe.
PORÓWNYWALNOŚĆ DANYCH
Dane o wykorzystaniu środków z UE zawarte w pliku Środki z UE należy
najpierw doprowadzić do porównywalności – dokonać przeliczenie na
jednego mieszkańca.
W tym celu dodajemy na końcu arkusza cztery nowe kolumny, nazywamy je
odpowiednio: Środki z UE na 1 mieszk. (2006), …, Środki z UE na 1 mieszk.
(2009) i wyznaczamy ich wartości za pomocą odpowiednich formuł
(wskazówka: dla roku 2006 formuła będzie mieć postać: =v22/v2
Wyznaczanie miar położenia
W oknie STATYSTYKI OPISOWE wybieramy nowoutworzone zmienne, w
zakładce WIĘCEJ ustalamy zakres statystyk opisowych do wyznaczenia.
Wyniki
Wywołujemy tabelę wynikową, dokonujemy formatowania wyników a
następnie ich interpretacji.
Na podstawie wartości średniej i
mediany stwierdzamy, iż wskaźnik
wykorzystania środków unijnych w roku
2009 był wyższy niż w pozostałych
latach.
Porównując wartość średniej i mediany
stwierdzamy, iż rozkład wskaźnika
wykorzystania środków z UE na 1
mieszk. jest nierównomierny – średnia
jest większa od mediany, a więc istnieje
relatywnie duża liczba gmin o niskim
poziomie wykorzystania środków i
nieliczni liderzy.
Na podstawie
wartości modalnej,
minimum oraz
liczności modalnej
stwierdzamy, iż udział
gmin nie
pozyskujących
żadnych środków z
UE jest w kolejnych
latach coraz niższy
W 2006 w co czwartej gminie
pozyskano więcej niż 47 złotych na
osobę zaś w 2009 wskaźnik ten
wyniósł już 177 zł. W 2009 roku
10% najlepszych gmin
charakteryzowało się poziomem
wykorzystania środków z UE na
poziomie co najmniej 362 zł
Poziom wskaźnika w
najlepszej gminie był w
roku 2009 zdecydowanie
wyższy niż w poprzednich
latach
Ilustracja graficzna – wykres ramka-wąsy
Wartości statystyk opisowych można zilustrować za pomocą
wykresu typu ramka-wąsy. Wykres ten w podstawowej formie
można wykonać w oknie analiz STATYSTYKI OPISOWE.
W zakładce opcje ustalamy typ wykresu ramka-wąsy:
W zakładce podstawowe
wywołujemy
wykres,
który po sformatowaniu
wygląda tak…
Niekonwencjonalne grupowanie danych
Inny sposób opisu danych może polegać na zgrupowaniu gmin ze
względu na poziom środków z UE i podaniu liczności każdej z
takich grup w latach 2006-2009. Biorąc pod uwagę fakt dużej
asymetrii wartości wskaźnika, zastosowano przedziały o
nierównych długościach:
• < 10 zł;
• [10 zł; 50 zł);
• [50 zł; 100 zł);
• [100 zł; 200 zł);
•  200 zł
Możliwość grupowania w przedziałach o niejednakowej długości jest
dostępna w programie STATISTICA przy okazji tworzenia wykresów.
Histogramy wielokrotne i opcja granice
Histogramy wielokrotne pozwalają na przedstawienie rozkładu
kilku cech jednocześnie – warunkiem wszakże jest, że są to cechy
posiadające zbliżony zakres (i znaczenie) wartości.
Wybieramy polecenie WYKRESY / WYKRESY 2W /
HISTOGRAMY po czym wybieramy wskaźniki
wykorzystania z lat 2006-2009 jako zmienne i ustawiamy
opcję wykresu na WIELOKROTNY.
W zakładce WIĘCEJ ustawiamy sposób grupowania (PRZEDZIAŁY) na
GRANICE i za pomocą przycisku określ granice wprowadzamy wartości
odpowiadające przedziałom zaproponowanym na poprzedniej stronie.
Wykres
Po wywołaniu wykresu i sformatowaniu uzyskujemy kompletną prezentację
graficzną wraz z informacjami o liczbie gmin znajdujących się w
poszczególnych kategoriach.
Zaletą programu
STATISTICA jest możliwość
modyfikacji sposobu
tworzenia wykresu.
Jeżeli na przykład
stwierdzilibyśmy, że chcemy
dodać jeszcze jeden przedział
dla wskaźnika wykorzystania
środków z UE możemy to bez
trudu uczynić.
W tym celu wywołujemy
wszystkie opcje wykresu a
następnie zakładkę
HISTOGRAM i
modyfikujemy wprowadzone
granice.
Jak się to ma do zasad podanych
na wykładzie nr 3?
Na wykładzie nr 3 podano ogólne zasady opisywania danych
przekrojowych (i innych typów danych). Wynikało z nich, że dane
przekrojowe
najlepiej
opisywać
w
postaci szeregów
szczegółowych uporządkowanych. Jednakże drugim czynnikiem
wpływającym na dobór metody opisu danych statystycznych jest
ich liczność.
W przypadku gmin woj. podkarpackiego, których jest 159 (od
roku 2010 – 160), prezentacja wszystkich danych w postaci
szeregu uporządkowanego nie jest możliwa. Dlatego też
posłużono się dodatkowo statystykami opisowymi oraz metodami
grupowania danych.
Nie
znaczy
to
jednak,
że
wykorzystanie
szeregu
uporządkowanego jest niemożliwe…
Wykres słupkowy – pokażmy najlepszych
Przedstawienie w formie graficznej, czy tabelarycznej, wartości wskaźnika
wykorzystania środków z UE na jednego mieszkańca dla wszystkich gmin jest
niemożliwe, gdyż taka prezentacja będzie po prostu nieczytelna.
Zasadne wydaje się natomiast zaprezentowanie poziomu wskaźnika dla
pewnej liczby (np. 25) „najlepszych” gmin.
Dokonamy takiej prezentacji dla danych z roku 2009. W tym celu sortujemy
dane malejąco według wartości wskaźnika z roku 2009, następnie wybieramy
polecenie WYKRESY / WYKRESY 2W / WYKRESY SŁUPKOWE i
wybieramy odpowiednią zmienną.
Aby utworzyć wykres tylko dla 25 najlepszych gmin (aktualnie przypadków
nr 1-25 w arkuszu danych) korzystamy z narzędzia selekcji przypadków,
ustawiając warunki w następujący sposób:
Wykres słupkowy – pokażmy najlepszych
W ramach ćwiczeń proszę sporządzić analogiczne prezentacje dla danych z
roku 2006, 2007 i 2008.
Miary zmienności i asymetrii
W wielu sytuacjach wyznaczenie samych miar położenia nie
pozwala w wyczerpujący sposób opisać rozkładu wartości
cechy liczbowej. W takiej sytuacji można zastosować
dodatkowo dwie grupy miar:
• miary zmienności;
• miary asymetrii.
Miary zmienności
Miary zmienności pozwalają ocenić nie tylko przeciętny poziom
danej cechy lecz także ich rozproszenie wokół wartości
przeciętnej. Do najbardziej popularnych miar zmienności
należą:
• wariancja i odchylenie standardowe;
• współczynnik zmienności;
• rozstęp;
• rozstęp kwartylowy.
Odchylenie standardowe
Odchylenie standardowe jest wyliczane jako przeciętne odchylenie
pomiarów od wartości średniej.
Poniżej opisano szczegółowo procedurę wyznaczania odchylenia
standardowego.
Wartość cechy
(xi)
15
12
12
13
8
x1
x2
x3
x4
x5
Odchylenia od średniej
3
x  12
0
0
1
-4
1
16
Suma odchyleń od średniej zawsze wynosi 0
Kwadraty odchyleń od średniej
9
0
0
Średnie kwadratowe odchylenie od średniej nazywane jest wariancją (s2)
a jej pierwiastek odchyleniem standardowym (s).
s2 
9  0  0  1  16
5
5
s
9  0  0  1  16
 5  2,24
5
Właściwości odchylenia standardowego
Znajomość odchylenia standardowego i wartości średniej pozwala
oszacować położenie większości pomiarów. Dla bardzo wielu danych (co
wynika z odpowiednich twierdzeń matematycznych) są bowiem
spełnione relacje.
Przedział ( x  s, x  s) zwany typowym przedziałem zmienności zawiera
zwykle ok. 68% pomiarów.
Przedział ( x  2s, x  2s) zwany rozszerzonym przedziałem zmienności
zawiera zwykle ok. 95% pomiarów.
( x  3s, x  3zawiera
s)
Przedział
zwykle ok. 99,7% pomiarów, czyli niemal
wszystkie wartości. Pomiary wykraczające poza ten zakres są często
określane mianem obserwacji odstających (nietypowych) i niejednokrotnie
eliminuje się je z analiz, gdyż mogą zaburzać badane relacje.
Powyższe stwierdzenia są prawdziwe, gdy dane rozkładają się w sposób
symetryczny (lub doń zbliżony) wokół wartości średniej. Dla tzw. rozkładów
asymetrycznych, liczba obserwacji zawierających się w podanych wyżej
przedziałach może być radykalnie inna.
Współczynnik zmienności
W przypadku porównywania zmienności wielkości
wyrażonych w różnych jednostkach (na przykład dochody
mieszkańców różnych państw) albo charakteryzujących się
różnymi poziomami wartości średniej, konieczne jest
wyznaczenie względnego poziomu zmienności.
W tym celu wyznacza się tzw. współczynnik zmienności (V).
s
V  100%
x
Rozstęp kwartylowy
Na poprzednim wykładzie pokazano jak na wartość średnią
wpływa nawet jedna obserwacja nietypowa (odstająca).
Również
odchylenie
standardowe,
w
przypadku
występowania obserwacji nietypowych może przybierać
bardzo duże wartości a zakres typowego przedziału
zmienności pozbawiony będzie sensu.
W takiej sytuacji wyznaczać można tzw. rozstęp
kwartylowy, który definiowany jest jako różnica między
kwartylem górnym i dolnym.
RQ  Q75  Q25
Inne miary zmienności
Bardzo elementarną miarą zmienności, która jednakże
bywa niejednokrotnie używana do opisu danych jest
rozstęp, określany jako różnica pomiędzy wartością
maksymalną i minimalną.
R  xmax  xmin
Inne miary zmienności (na przykład służące do badania
zróżnicowania dochodów) są opierane na stosunku
wybranych centyli.
c99 / c1
Relacja zarobków 1% najbogatszych i 1% najbiedniejszych
członków danego społeczeństwa
xmax / xmin Poziom zarobków w „najbogatszym” mieście wojewódzkim w
Polsce do zarobków w mieście „najbiedniejszym”
Miary zmienności w programie
STATISTICA
Statystyki opisowe w programie STATISTICA najlepiej wyznaczać
za pomocą analizy wywoływanej za pomocą poleceń STATYSTYKA
/ STATYSTYKI PODSTAWOWE I TABELE / STATYSTYKI
OPISOWE.
Po wybraniu zmiennej (lub wielu zmiennych) typu liczbowego, dla
których chcemy wyznaczyć wartości statystyk opisowych należy
ustalić listę wyliczanych parametrów (zakładka WIĘCEJ).
Przykład (plik danych: Wskaźniki UE-27)
Celem analizy będzie porównanie zmienności w poziomie PKB
na 1 mieszk. w państwach Unii Europejskiej w roku 2000 i 2007.
W szczególności rozważona zostanie kwestia zróżnicowania
pomiędzy poziomem PKB w poszczególnych państwach.
Porównywalność danych – wszystkie dane mają charakter wskaźników,
więc można je analizować bez żadnych wstępnych przekształceń
W oknie analizy STATYSTYKI OPISOWE wybieramy zmienne zawierające
informacje o PKB per capita w roku 2000 i 2007 a następnie w zakładce
WIĘCEJ ustalamy listę statystyk do policzenia, wybierając:
• średnią;
• medianę;
• minimum i maksimum;
• odchylenie standardowe;
• współczynnik zmienności;
• rozstęp kwartylowy.
Wyniki
Po wywołaniu wyników i ich wstępnym sformatowaniu…
MIARY POŁOŻENIA
Na podstawie wartości średniej i
mediany stwierdzamy, że PKB per capita
wzrósł w państwach UE w latach 20002007 (co jest niemal oczywiste i nie jest
zbyt odkrywczym wnioskiem).
Co ważniejsze zauważamy dosyć dużą
różnicę pomiędzy wartością mediany i
średniej, co sugeruje, że w UE występują
państwa zdecydowanie odstające in plus
od pozostałych, jeśli chodzi o PKB.
Na podstawie oglądu
minimum i maksimum
stwierdzamy, że PKB per
capita w najgorszym
państwie wzrosło ponad 2
razy, zaś w najbogatszym
mniej więcej 1,5 razy. Czyli
tempo bogacenia się
społeczeństw biedniejszych
było szybsze co jest
zjawiskiem pożądanym
MIARY ZMIENNOŚCI
Analiza miar zmienności
pozwala stwierdzić, iż
nierównomierność w poziomie
rozwoju państw UE pomiędzy
rokiem 2000 i 2007 nieco się
zmniejszyła.
Prezentacja graficzna
Uzupełnieniem wartości statystyk opisowych może być prezentacja poziomu
PKB w formie szeregu uporządkowanego, przedstawionego za pomocą
wykresów słupkowych lub liniowych.
Prezentacja graficzna
Jeżeli interesuje nas tylko ogólna informacja o rozkładzie PKB per capita w
grupie państw UE możemy zgrupować dane w formie histogramu.
Asymetria rozkładu danych
W analizie statystycznej istnieją pewne procedury, w których
wymagane jest aby dane miały określony typ rozkładu (lub
przynajmniej były doń zbliżone).
Na przykład wyznaczanie omówionego wcześniej typowego
przedziału zmienności traci sens dla danych wykazujących
bardzo dużą asymetrię. Dlatego też wskazana jest umiejętność
oceny poziomu asymetrii za pomocą odpowiedniego
współczynnika.
Informacja o rodzaju asymetrii jest też interesująca sama w
sobie – pozwala lepiej zrozumieć zjawisko opisywane za pomocą
cechy liczbowej. Dla przykładu, podczas badania poziomu
wykorzystania
środków
unijnych
w
gminach
woj.
podkarpackiego może nas szczególnie interesować, czy rozkład
wskaźnika uzyskanych środków na 1 mieszk. jest symetryczny.
Graficzna analiza asymetrii (1)
SILNA
ASYMETRIA
PRAWOSTRONNA
Średnia = 299 zł
Mediana = 181 zł
Skośność = 2,46
Miara asymetrii nazwana jest w
programie STATISTICA skośnością
i można ją wyznaczyć za pomocą
analizy STATYSTYKI OPISOWE.
Rozkład wykorzystania środków z UE w gminach woj. podkarpackiego
charakteryzuje się bardzo silną asymetrię prawostronną (jest „wydłużony”
w prawą stronę). W praktyce oznacza to, że występują pojedyncze wartości
wysokie i bardzo wysokie, nieliczne wartości na poziomie średnim i
zdecydowana większość wartości na poziomie niskim i bardzo niskim (w
większości gmin pozyskano niewiele środków z UE)
Graficzna analiza asymetrii (2)
ROZKŁAD
(w przybliżeniu)
SYMETRYCZNY
Średnia = 11,0
Mediana = 11,1
Skośność = 0,08
Miara asymetrii nazwana jest w
programie STATISTICA skośnością
i można ją wyznaczyć za pomocą
analizy STATYSTYKI OPISOWE.
Rozkład wskaźnika bezrobocia wśród mężczyzn w gminach woj.
podkarpackiego jest bardzo zbliżony do symetrycznego. Średni wskaźnik
bezrobocia i wartość środkowa są niemal identyczne. Podobna liczba gmin
charakteryzuje się wysokim i niskim bezrobociem.
Graficzna analiza asymetrii (3)
ROZKŁAD
ASYMETRYCZNY
LEWOSTRONNIE
Średnia = 74,5
Mediana = 76,7
Skośność = -1,02
Miara asymetrii nazwana jest w
programie STATISTICA skośnością
i można ją wyznaczyć za pomocą
analizy STATYSTYKI OPISOWE.
Rozkład oczekiwanego czasu trwania życia mężczyzn z państwach UE w
2007 roku charakteryzował się asymetrią lewostronną – w większości państw
wskaźnik ten jest na wysokim bądź bardzo wysokim poziomie a w
nielicznych jest na poziomie średnim bądź niskim.
Interpretacja wskaźnika skośności
A0
Współczynnik skośności równy w przybliżeniu 0 pozwala
stwierdzić, iż mamy do czynienia z symetrycznym rozkładem
danych. Wtedy średnia i wartość środkowa są do siebie
zbliżone i można je stosować zamiennie.
x  Me
A>0
Współczynnik skośności większy od 0 oznacza asymetrię
prawostronną. O silnej asymetrii prawostronnej będziemy
mówić, gdy A > 1. Wartość średnia jest wyższa niż mediana.
x  Me
A<0
Współczynnik skośności mniejszy od 0 oznacza asymetrię
lewostronną. O silnej asymetrii lewostronnej będziemy mówić,
gdy A < -1. Wartość średnia jest niższa niż mediana.
x  Me

Podobne dokumenty