1 Miary asymetrii i koncentracji

Transkrypt

1 Miary asymetrii i koncentracji
Studia podyplomowe w zakresie technik internetowych
i komputerowej analizy danych
Podstawy statystyki opisowej
Adam Kiersztyn
3 godziny lekcyjne
2011-10-22 10.10 - 12.30
1
Miary asymetrii i koncentracji
Najprostszymi miarami asymetrii sa¾ wskaźniki skośności (WS lub WQ ) dane
wzorami
WS = X D;
WQ = (Q3
M e)
(M e
Q1 ) = Q3 + Q1
2 Me
oraz wspó÷
czynnik skośności dany wzorem
AD =
X
D
s
:
Ponadto nalez·y jeszcze wprowadzić dwa proste wspó÷czynniki: zmienności v i
nierówności H, określone wzorami:
s
v=
100%;
X
d
100%:
X
Zanim przystapimy
¾
do omawiania pozosta÷ych miar asymetrii i koncentracji
podamy wzory na momenty zwyk÷e, absolutne oraz centralne rzedu
¾ l: Wzory
te podamy w dwóch wersjach, w wariancie dla danych niezgrupowanych oraz w
nawiasie w wariancie dla szeregu przedzia÷
owego. Moment zwyk÷y ml rzedu
¾ lz
próbki x1 ; x2 ; : : : ; xn obliczamy ze wzoru
!
n
k
1X l
1 X l
ml =
x ; mk =
x_ ni
n i=1 i
N i=1 i
H=
Moment zwyk÷
y jest, jak ÷
atwo zauwaz·yć, średnia¾ arytmetyczna¾ l-tych poteg
¾
wartości xi : W podobny sposób de…niuje sie¾ moment absolutny al rzedu
¾ l z
próbki x1 ; x2 ; : : : ; xn . Wyraz·a sie¾ on wzorem
!
n
k
1X
1 X
l
l
al =
jxi j ; al =
jx_ i j ni
n i=1
N i=1
i jest średnia¾ arytmetyczna¾ l-tych poteg
¾ modu÷ów wartości xi : Ponadto rozwaz·a
sie¾ moment centralny rzedu
¾ l zadany wzorem
!
n
k
1X
1 X
l
l
xi X ; Ml =
x_ i X
Ml =
ni
n i=1
N i=1
1
oraz centralny moment absolutny rzedu
¾ k dany wzorem
n
1X
bl =
xi
n i=1
k
1 X
X ; bl =
x_ i
N i=1
l
X
l
ni
!
Nalez·y w tym miejscu zauwaz·yć, z·e moment centralny rzedu
¾ 2 jest wariancja,
¾
natomiast centralny moment absolutny rzedu
¾ 1 jest odchyleniem przecietnym.
¾
Korzystajac
¾ z powyz·szych pomocniczych oznaczeń zde…niujmy wybrane miary asymetrii i koncentracji. Jednym z najcześciej
¾
stosowanych jest wspó÷
czynnik asymetrii (skośności) dany wzorem
g1 =
M3
;
s3
gdzie s jest odchyleniem standardowym, podobna¾ postać ma wspó÷
czynnik
koncentracji (skupienia) dany wzorem
K=
M4
;
s4
wspó÷
czynnik ten bywa równiez· nazywany kurtoza.
¾ W statystyce opisowej
rozwaz·a sie¾ równiez· wspó÷
czynnik sp÷
aszczenia (eksces) dany wzorem
g2 = K
3=
M4
s4
3:
Ponadto nalez·y zauwaz·yć, z·e nie sa¾ to wszystkie sposoby opisu asymetrii i koncentracji. Moz·na tutaj wymienić m.in. krzywa¾ Lorenza czy tez· wspó÷
czynnik
Giniego.
Przyk÷
ad 1 Rozwa·zmy cztery szeregi przedzia÷owe o takich samych przedzia÷ach i ró·znych liczebno´sciach poszczególnych klas.
´srodek przedzia÷u
1
2
3
4
5
6
7
szereg I
0
6
12
14
12
6
0
szereg II
2
2
10
22
10
2
2
szereg III
0
2
20
12
10
4
2
szereg IV
2
4
10
12
20
2
0
Wyznaczy´c ´srednia¾ arytmetyczna¾ i cztery pierwsze momenty ka·zdego typu dla
poszczególnych szeregów, a nastepnie
¾
obliczy´c wprowadzone wcze´sniej miary koncentracji i asymetrii.
Rozwiazanie:
¾
W kroku pierwszym obliczymy średnia¾ arytmetyczna¾ dla poszczególnych
szeregów
X1 =
1
(1 0 + 2 6 + 3 12 + 4 14 + 5 12 + 6 6 + 7 0) = 4
50
2
1
(1 2 + 2 2 + 3 10 + 4 22 + 5 10 + 6 2 + 7 2) = 4
50
1
X3 =
(1 0 + 2 2 + 3 20 + 4 12 + 5 10 + 6 4 + 7 2) = 4
50
1
X4 =
(1 2 + 2 4 + 3 10 + 4 12 + 5 20 + 6 2 + 7 0) = 4
50
Zatem w kaz·dym z rozwaz·anych przypadków średnia wynosi 4, dzieki
¾ takiemu
zbiegowi okoliczności bedzie
¾
nam ÷
atwiej przeprowadzić dalsza¾ cześć obliczeń. Z
uwagi na fakt, z·e wszystkie obserwacje sa¾nieujemny momenty zwyk÷e i momenty
absolutne poszczególnych rzedów
¾
sa¾jednakowe. Zatem nie musimy obliczać momentów absolutnych.
Zanim przejdziemy do obliczania wartość poszczególnych momentów dla kaz·dego
szeregu oddzielnie przygotujmy sobie tabele¾ zawierajac
¾ a¾ dodatkowe obliczenia
(oczywiście tabelk¾
e ta¾ wykonujemy w Excelu wszyscy wspólnie krok po kroku)
X2 =
x2i
1
4
9
16
25
36
49
x3i
1
8
27
64
125
216
343
x4i
xi X
1
3
16
2
81
1
256
0
625
1
1296
2
2401
3
xi
X
2
xi
9
4
1
0
1
4
9
X
27
8
1
0
1
8
27
3
xi
X
81
16
1
0
1
16
81
4
X
xi
3
2
1
0
1
2
3
X
xi
9
4
1
0
1
4
9
Teraz moz·emy w prosty sposób domnaz·ajac
¾ poszczególne elementy powyz·szej
tabeli przez odpowiednie liczebności, sumujac
¾ kolumny i dzielac
¾ przez liczebność
3
2
xi
X
27
8
1
0
1
8
27
3
xi
X
81
16
1
0
1
16
81
4
ca÷
kowita¾ otrzymujemy wymagane momenty. Dla pierwszego szeregu mamy:
suma
x2i ni
0
24
108
224
300
216
0
872
xi
suma
X
0
12
12
0
12
12
0
48
x3i ni
0
48
324
896
1500
1296
0
4064
ni
x4i ni
0
96
972
3584
7500
7776
0
19928
xi
X
0
24
12
0
12
24
0
72
xi
2
ni
X ni
0
12
12
0
12
12
0
0
xi
X
0
48
12
0
12
48
0
120
xi
3
ni
X
0
24
12
0
12
24
0
72
2
xi
ni
X
0
96
12
0
12
96
0
216
4
xi
X
0
48
12
0
12
48
0
0
ni
Wówczas dla pierwszego szeregu nasze pomocnicze wskaźniki przyjmuja¾wartości:
m1 = X = 4; m2 =
872
4064
19928
; m3 =
; m4 =
;
50
50
50
72
0
216
0
= 0; M2 = s2 =
; M3 =
= 0; M4 =
50
50
50
50
48
72
120
216
b1 = d =
; b 2 = M2 =
; b3 =
; b4 = M4 =
:
50
50
50
50
W analogiczny sposób moz·na wyliczyć powyz·sze wskaźniki dla pozosta÷ych
szeregów, mamy wówczas dla drugiego szeregu:
M1 =
m1 = 4; m2 =
872
4064
20120
; m3 =
; m4 =
;
50
50
50
72
408
; M3 = 0; M4 =
;
50
50
40
72
160
408
b1 =
; b2 =
; b3 =
; b4 =
:
50
50
50
50
Natomiast wartości wskaźników dla trzeciego szeregu wynosza¾
M1 = 0; M2 =
m1 = 4; m2 =
872
4124
20960
; m3 =
; m4 =
;
50
50
50
4
3
ni
xi
X
0
96
12
0
12
96
0
216
4
ni
72
60
288
; M3 =
; M4 =
;
50
50
50
48
72
132
288
b1 =
; b2 =
; b3 =
; b4 =
:
50
50
50
50
Dla czwartego szeregu mamy nastepuj
¾ ace
¾ wartości
M1 = 0; M2 =
m1 = 4; m2 =
872
4004
19040
; m3 =
; m4 =
;
50
50
50
60
288
72
; M3 =
; M4 =
;
50
50
50
48
72
132
288
b1 =
; b2 =
; b3 =
; b4 =
:
50
50
50
50
Moz·emy teraz przystapić
¾
do obliczania miar i porównania tych wartości dla
poszczególnych szeregów.
M1 = 0; M2 =
mediana M e
dominanta D
średnia X
wariancja s2
WS
AD
g1
K
v
H
szereg I
4
4
4
1:44
0
0
0
2:08
30%
20%
szereg II
4
4
4
1:44
0
0
0
3:94
30%
24%
szereg III
4
3
4
1:44
1
szereg IV
4
5
4
1:44
1
5
6
5
6
0:69
2:78
30%
24%
0:69
2:78
30%
24%
W celu lepszego zrozumienia poszczególny miar przedstawimy jeszcze histogramy
poszczególnych szeregów.
Ćwiczenie 1 Dokona´c analizy wyników uzyskanych w powy·zszym przyk÷adzie.
5
2
Wykorzystanie pakietu analiza danych w arkuszu
Excel
Przejdźmy teraz do przypomnienia sobie moz·liwości jakie daje w zakresie statystyki
opisowej arkusz Excel (zak÷adam, z·e korzystali juz· Państwo z tego pakietu i
znaja¾ jego podstawowe moz·liwości). Jak wszyscy dobrze wiemy w arkuszu Excel znajduja¾ sie¾ funkcje statystyczne pozwalajace
¾ obliczać podstawowe miary
statystyki opisowej. Jednakz·e czasami ze wzgledów
¾
praktycznych dobrze jest
samemu opracować formu÷
y w analogiczny sposób jak pokazany w przyk÷adzie
z poprzedniego zjazdu.
Dzieki
¾ tak opracowanym danym mamy wieksz
¾ a¾ kontrole¾ nad wynikami i
moz·emy uniknać
¾ b÷
edów
¾
wynikajacych
¾
chociaz·by z odstajacych
¾
lub nieprawid÷
owo wprowadzonych wartość liczbowych.
Ćwiczenie 2 Przygotowa´c w Excelu skoroszyt, dzieki
¾ któremu bedzie
¾
mo·zna
stworzy´c tabele¾analogiczna¾jak w przyk÷adzie z zesz÷ego zjazdu. Sprawdzi´c poprawno´s´c
wyników a nastepnie
¾
zamieni´c warto´s´c x1 = 5 na warto´s´c x1 = 3: Jak zmieni÷y
sie¾ poszczególne wyniki, które miary nie uleg÷y zmianie?
Nalez·y w tym miejscu zaznaczyć, z·e arkusz Excel posiada wbudowany pakiet
analizy danych, w którym moz·emy w jednym miejscu odnaleźć wiekszość
¾
omawianych powyz·ej miar. W celu skorzystania z pakietu analiza danych nalez·y
wcześniej do÷
aczyć
¾
odpowiedni dodatek.
Ćwiczenie 3 Dla danych z pliku analizaDanych.xls wyznaczy´c podstawowe
miary statystyki opisowej korzystajac
¾ z pakietu analiza danych.
3
Statystyka opisowa w SPSS
Do wyznaczania podstawowych charakterystyk statystyki opisowej moz·na wykorzystywać bardziej specjalistyczne narzedzia
¾
informatyczne. Podczas tych studiów
zapoznamy sie¾ z dwoma pakietami statystycznymi, mianowicie z pakietem SPSS
oraz programem Statistica. W tym miejscu zapoznamy sie¾ podstawowymi moz·liwościami programu SPSS. Ograniczymy sie¾ tutaj jedynie do wyznaczania statystyk
opisowych. Pe÷
niejszej analizy moz·liwości tego pakietu dokonamy na innych
przedmiotach. Z uwagi na fakt, iz· jest oprogramowanie mniej znane niz· arkusz
Excel musimy troche¾ dok÷
adniej omówić sposób w jaki moz·emy uzyskać podstawowe statystyki opisowe. Po uruchomieniu programu domyślnie pojawia sie¾
6
okno umoz·liwiajace
¾ wczytanie pliku na jakim chcemy dokonywać operacji
Po wczytaniu interesujacego
¾
nas pliku przykladSPSS1.sav chcemy wyznaczyć
podstawowe statystyki opisowe. W tym celu menu g÷
ównego wybieramy kolejno Analiza/Opis statystyczny/Statystyki opisowe tak jak na zamieszczonym
7
poniz·szej rysunku.
Nastepnie
¾
wybieramy interesujac
¾ a¾ nas zmienna¾ (wiek) i przechodzimy do opcji,
gdzie wybieramy wszystkie dostepne
¾
charakterystyki, klikamy przycisk dalej
i nastepnie
¾
OK. Jako wynik otrzymujemy raport z wartościami wybranych
charakterystyk. Oczywiście w pakiecie SPSS moz·na wyznaczyć równiez· histogram. W tym celu postepujemy
¾
w nastepuj
¾ acy
¾ sposób: wybieramy z menu
8
wykresy a nastepnie
¾
histogram
nastepnie
¾
wybieramy jako zmienna¾ wiek i klikamy OK
Jako wynik otrzymujemy raport zawierajacy
¾ histogram.
W tym miejscu pojawia sie¾ naturalne pytanie, czy moz·na w jakiś inny sposób
wyznaczyć podstawowe statystyki oraz narysować histogram w programie SPSS.
9
Odpowiedź na tak postawione pytanie jest twierdzaca.
¾
Wystarczy wybrać z
menu g÷
ównego Analiza/Opis statystyczny/ Czestości.
¾
Nastepnie
¾
wybieramy interesujac
¾ a¾ nas zmienna.
¾
Klikamy w przyciski statystyki oraz wykresy, gdzie moz·emy wybrać intere-
10
sujace
¾ nas statystyki opisowe oraz typ wykresu.
Jako ostateczny wynik otrzymujemy raport, w którym jednocześnie mamy wyznaczone podstawowe statystyki oraz narysowany histogram.
11
Ćwiczenie 4 Wyznaczy´c warto´sci podstawowych statystyk dla zmiennej wzrost
w pliku przykladSPSS1.sav.
12