N x N x xx x = + + + =

Transkrypt

N x N x xx x = + + + =
Więcej dokumentów na stronie: www.krawczyk.hostil.pl
Analiza struktury zmierza do wydobycia na jaw charakterystycznych właściwości
zbiorowości i porównania ich z inną zbiorowością. Każde badanie, które w efekcie ma dać
wszechstronną ocenę zjawiska i doprowadzić do konstruktywnych wniosków, musi mieć
swój punkt odniesienia w czasie albo przestrzeni.
Badając np. rozwój gospodarczy w regionie X nie będziemy w stanie prawidłowo
ocenić poziomu rozwoju w tym regionie bez znajomości rozmiarów tego samego zjawiska
w innym regionie lub tym samym regionie, ale w poprzednich okresach.
W badaniach statystycznych dosyć często zachodzi konieczność przeprowadzenia
dwóch typów porównań:
1. Dwóch (lub więcej) różnych zbiorowości – pod względem tej samej cechy (np.
struktura zgonów według wieku mężczyzn w Polsce w roku 2002);
2. Rozkładu dwóch (lub więcej) cech w tej samej zbiorowości (np. struktura urodzeń
żywych według kolejności urodzenia dziecka i wieku matki w Polsce w roku 2002).
W sytuacjach, w których badanie struktury zbiorowości statystycznej prowadzone
jest z punktu widzenia cech mierzalnych, wszechstronną analizę można prowadzić przy
wykorzystaniu następujących miar statystycznych:
1. miar średnich (miar poziomu wartości zmiennej, miar położenia, przeciętnych)
służących do określania tej wartości zmiennej opisanej przez rozkład, wokół której
skupiają się wszystkie pozostałe wartości zmiennej;
2. miar rozproszenia (zmienności, zróżnicowania, dyspersji) służących do badania
stopnia zróżnicowania wartości zmiennej;
3. miar asymetrii (skośności) służących do badania kierunku zróżnicowania wartości
zmiennej;
4. miar koncentracji służących do badania stopnia nierównomierności rozkładu
ogólnej sumy wartości zmiennej pomiędzy poszczególne jednostki zbiorowości lub
analizy stopnia skupienia poszczególnych jednostek wokół średniej.
Miary średnie
Dzielą się na dwie grupy: średnie klasyczne i pozycyjne. Do średnich
klasycznych należą: średnia arytmetyczna, średnia harmoniczna oraz średnia
geometryczna. Najczęściej wykorzystywanymi średnimi pozycyjnymi są: dominanta
(wartość najczęstsza) oraz kwantyle. Wśród kwantyli wyróżniamy – kwartyle (dzielące
zbiorowość na cztery części), kwintyle (pięć części), decyle (dziesięć części) oraz centyle
[percentyle] (sto części).
Średnie klasyczne są obliczane na podstawie wszystkich wartości szeregu.
Średnie pozycyjne są wartościami konkretnych wyrazów szeregu (pozycji)
wyróżniających się pod pewnym względem. Obie grupy wzajemnie się uzupełniają, każda
opisuje poziom wartości zmiennej z innego punktu widzenia.
Średnia arytmetyczna
Średnią arytmetyczną nazywamy sumę wartości zmiennej wszystkich jednostek
badanej zbiorowości podzieloną przez liczbę tych jednostek.
n
xi
x1  x2    xn 
i 1
x

N
N
_
x - symbol średniej arytmetycznej;
xi – warianty cechy mierzalnej;
N – liczebność badanej zbirowości.
Średnią określoną powyższym wzorem nazywa się średnią arytmetyczną nieważoną.
Więcej dokumentów na stronie: www.krawczyk.hostil.pl
Jeżeli warianty średniej występują z różną częstotliwością, to oblicza się średnią
arytmetyczną ważoną. Wagami są liczebności odpowiadające poszczególnym
wariantom. Z tego typu sytuacją mamy do czynienia w szeregach rozdzielczych i
przedziałowych.
Średnią arytmetyczną z szeregów przedziałowych oblicza się następująco:
k
xi ni1
x1n1  x2 n2    xn nk 
i 1
x

N
N
_
ni (n=1,2,…,k) – liczebność jednostek odpowiadająca poszczególnym wariantom
zmiennej;
N – suma tych liczebności
( - suma)
W szeregach rozdzielczych przedziałowych wartości zmiennej w każdej klasie
nie są jednoznacznie określone, ale mieszczą się w pewnym przedziale. Dlatego też w
celu obliczenia średniej arytmetycznej w przypadku tego typu szeregów należy wcześniej
wyznaczyć środki przedziałów. Środki przedziałów otrzymuje się jako średnią
arytmetyczną dolnej i górnej granicy każdej klasy. Oznacza się ją symbolem
o
xi .
Wzór na średnią arytmetyczną z szeregu rozdzielczego przedziałowego:
k
0
_
x
0
0
x1 n1  x 2 n2    x n nk

N
0
 x i ni
i 1
N
Jeżeli w obliczeniach możemy wykorzystać wyłącznie procentowe wskaźniki struktury
(odsetki całości)
k
_
x
wi to wzór wygląda następująco:
0
x
i 1
i
wi
100
gdzie
wi 
ni
 100
N
Ćwiczenie 1
Tab. 1 Wyniki badań testowych dotyczących wiedzy teoretycznej ze statystyki
Wiedza ze statystyki Liczba studentów
(w punktach)
ni
x0i  x1i
20-30
30-40
40-50
2
10
7
Obliczenia pomocnicze
0
0
0
xi
x i ni
wi
x i wi
25
35
45
50
350
315
4,0
20,0
14,0
100,0
700,0
630,0
Więcej dokumentów na stronie: www.krawczyk.hostil.pl
50-60
60-70
70-80
Razem
9
12
10
50
55 495 18,0 990,0
65 780 24,0 1560,0
75 750 20,0 1500,0
x 2740 100,0 5480,0
0
x i - środek klasy
wi - odsetek ogółu
Oblicz średnią arytmetyczną.
Metoda 1:
„Za pomocą szeregu rozdzielczego przedziałowego”
x
2740
 54,8 punktów
50
Metoda 2:
„Za pomocą procentowych wskaźników struktury”
x
5480
 54,8 punktów
100
Wyniki są równoważne, ponieważ wartość średniej arytmetycznej nie zależy od
liczebności poszczególnych klas, ale od proporcji między nimi.
Jeżeli znamy średnie arytmetyczne dla pewnych grup, a chcemy obliczyć średnią
arytmetyczną dla wszystkich grup łącznie korzystamy ze wzoru:
k
x
x n
i i
i 1
N
gdzie:
x - średnia ze średnich;
xi - średnia arytmetyczna i-tej grupy;
N - suma liczebności grupy;
Średnia arytmetyczna jest miarą prawidłową tylko w odniesieniu do zbiorowości
jednorodnych, o niewielkim stopniu zróżnicowania wartości zmiennej. W miarę wzrostu
asymetrii i zróżnicowania rozkładu, a także w rozkładach bimodalnych i wielomodalnych
średnia arytmetyczna traci swoje znaczenie. Nie można jej obliczyć dla szeregu o
otwartych przedziałach, jeżeli przedziały te mają duże liczebności. (Przyjmuje się, że
otwarte przedziały klasowe przedziały można zamykać, jeżeli liczba jednostek w tych
przedziałach nie przekracza 5% liczebności zbiorowości.)
Jeżeli wartości zmiennej podane są w jednostkach względnych, np. km/godz,
kg/osobę, wagi zaś w jednostkach liczników tych jednostek względnych (prędkość
pojazdu – zmienna: km/godz.; waga: w km; gęstość zaludnienia – zmienna: w
osobach/km2, waga: w osobach; spożycie artykułu X na 1 osobę – zmienna: w litrach,
waga: na osobę), to stosuje się średnią harmoniczną.
Więcej dokumentów na stronie: www.krawczyk.hostil.pl
Średnia harmoniczna jest odwrotnością średniej arytmetycznej z odwrotności
wartości zmiennych.
W przypadku szeregów wyliczających oblicza się ją ze wzoru:
H
N
N
1
x
i 1
i
gdzie:
H – symbol średniej harmonicznej.
Dla obliczenia średniej harmonicznej z szeregów rozdzielczych (punktowych lub
przedziałowych) zachodzi konieczność zastosowania wag (uwzględnienia liczebności).
Stosuje się wzór:
H
N
1
ni

i 1 xi
N
Dla szeregów rozdzielczych przedziałowych średnią harmoniczną obliczamy według
powyższego wzoru, z tym, że konkretne warianty cechy (xi) zastępujemy środkami
0
przedziałów ( x i ).
Ćwiczenie 2
Gęstość zaludnienia w dwu 100-tysięcznych miastach wynosi odpowiednio 300 osób/km2
i 900 osób km2. Oblicz przeciętną gęstość zaludnienia.
H
2
1
1

300 900

2
1800

 450osób / km2
3 1
4
900
Stosując średnią arytmetyczną dla obliczenia powyższego zadania otrzymalibyśmy:
x
300  900 1200

 600osób / km2
2
2
CO NIE JEST PRAWDĄ!
Każde z miast zajmuje odpowiednio:
100 000 : 300 osób km2 = 333,33 km2
100 000 : 900 osób km2 = 111,11 km2
Z czego wynika, że oba miasta zajmują powierzchnię – 444,44 km2.
Wobec tego średnia gęstość zaludnienia w tych miastach wynosi:
200 000 osób : 444,44 km2 = 450 osób/km2.
Ten sam rezultat uzyskamy wzór na średnią harmoniczną dla szeregów rozdzielczych
punktowych:
Więcej dokumentów na stronie: www.krawczyk.hostil.pl
H
100000  100000
 450osób / km2
1
1
100000 
100000
300
900
Jeżeli zachodzi konieczność zbadania średniego tempa zmian zjawiska, stosuje się
średnią geometryczną. (Więcej na ten temat przy analizie dynamiki zjawisk).
x g  n x1 x2  xn  n
n
x
i 1
i
gdzie:
x g - symbol średniej geometrycznej;
 - znak iloczynu
ŚREDNIE POZYCYJNE
Dominantą (modalna, wartość najczęstsza) nazywamy taką wartość zmiennej, która w
danym rozkładzie empirycznym występuje najczęściej. (Wynika z tego, że dominantę
można wyznaczyć tylko w rozkładach jednomodalnych).
W szeregach wyliczających i rozdzielczych punktowych dominanta jest wartością cechy,
której odpowiada największa liczebność.
W szeregach rozdzielczych przedziałowych bezpośrednio można określić tylko przedział,
w którym znajduje się dominanta – jest to przedział o największej liczebności. Konkretną
wartość liczbową należącą do tego przedziału, która jest dominantą wyznacza się w
następujący sposób:
D  xp 
nD  nD1
iD
(nD  nD1 )  (nD  nD1 )
gdzie:
D - symbol dominanty;
x D - dolna granica klasy, w której znajduje się dominanta;
nD - liczebność przedziału dominanty;
nD1 - liczebność przedziału poprzedzającego przedział dominanty;
nD1 - liczebność przedziału następującego po przedziale dominanty;
iD - interwał, czyli rozpiętość przedziału dominanty.
Z szeregów rozdzielczych przedziałowych dominantę można wyznaczyć metodą
rachunkową (patrz wyżej) lub graficzną.
Ćwiczenie 3.
Na podstawie tabeli wyznacz dominantę danego szeregu.
Tab. Rozwody w Polsce w 1977 r. wg wieku kobiet w momencie wniesienia powództwa.
Wiek kobiet Liczba kobiet Odsetek kobiet
(w latach)
Do 19
314
0,7
20-24
6979
16,2
Więcej dokumentów na stronie: www.krawczyk.hostil.pl
25-29
30-34
35-39
40-49
50 i więcej
D  25 
11440
6391
5412
8450
4200
26,2
14,8
12,5
19,6
9,7
11440  6979
 5  27,3lat
(11440  6979)  (11440  6391)
Wartość będzie identyczna, jeżeli do obliczeń wykorzystamy odsetki zamiast liczebności
absolutnych.
D  25 
26,5  16,2
 5  27,3lat
(26,5  16,2)  (26,5  14,8)
Metoda graficzna sprowadza się do wykonania wykresu z trzech przedziałów klasowych:
przedziału, w którym znajduje się dominanta oraz dwóch sąsiednich. Z górnej podstawy
najwyższego prostokąta wyznaczamy dwie przekątne łączące najbliżej położone punkty
górnych podstaw sąsiednich prostokątów. Następnie z punkty ich przecięcia wyznaczamy
prostopadłą do osi odciętych (x).
Jeżeli liczebności przedziałów sąsiednich są jednakowe, to dominanta jest równa środkowi
klasy dominującej.
Wyznaczanie dominanty jest możliwe wówczas, gdy szereg spełnia następujące warunki:
- rozkład empiryczny ma jeden ośrodek dominujący (rozkład jednomodalny);
- asymetria układu jest umiarkowana;
- przedział w którym występuje dominanta oraz dwa sąsiednie z nim przedziały
mają jednakowe rozpiętości.
Kwantyle, są to najogólniej rzecz ujmując wartości cechy badanej jednostki,
które definiują ją na określone części - pod względem liczby jednostek. Części te mogą
być równe lub pozostawać do siebie w określonych proporcjach. Szeregi, w których
wyznacza się kwartyle musza być uporządkowane według malejących lub rosnących
wartości cechy. Do najczęściej używanych kwantyli zaliczamy: kwartyle, a w przypadku
badania struktury zbiorowości o dużej liczbie jednostek – decyle i centyle.
Wśród kwartyli wyróżniamy: kwartyl pierwszy (dolny), drugi (mediana lub wartość
środkowa) oraz trzeci (górny). Każdy z kwartyli dzieli zbiorowość na dwie części pod
względem liczebności.
1. kwartyl pierwszy – dzieli zbiorowość uporządkowaną na dwie części w ten sposób,
że 25% jednostek na wartości cechy niższe i 75% wyższe od kwartyla pierwszego;
2. kwartyl drugi – dzieli zbiorowość uporządkowaną na dwie części w ten sposób, że
50% jednostek na wartości cechy niższe i 50% wyższe od mediany;
3. kwartyl trzeci – dzieli zbiorowość uporządkowaną na dwie części w ten sposób, że
75% jednostek na wartości cechy niższe i 25% wyższe od kwartyla trzeciego.
W przypadku szeregów wyliczających składających się z reguły z niewielkiej liczby
jednostek medianę oblicza się najczęściej ze wzoru:
Me 
xn1
, gdy N jest nieparzyste
2
Me 
1
( x N  x N ), gdy N jest parzyste
1
2 2
2
Więcej dokumentów na stronie: www.krawczyk.hostil.pl
gdzie:
M e - symbol mediany.
Obliczanie mediany z szeregu rozdzielczego punktowego sprowadza się do
wskazania jednostki środkowej i odczytania wariantu cechy odpowiadającego tej
jednostce. Odnalezienie środkowej jednostki ułatwia skumulowanie liczebności.
Kumulacja polega na kolejnym narastającym sumowaniu liczebności dotyczących
poszczególnych wariantów cechy.
W przypadku szeregów rozdzielczych przedziałowych kwartyle wyznacza się
metodą graficzną lub rachunkową. W metodzie rachunkowej stosuje się następujące
wzory:
Kwartyl pierwszy:
N k 1
  ni
4 i 1
Q1  xq1 
 iQ1 ;
nQ1
Kwartyl drugi:
N k 1
  ni
2 i 1
Q2  M e  xMe 
 iMe ;
nMe
Kwartyl trzeci:
3N k 1
  ni
4
i 1
Q3  xQ 3 
 iQ 3
nQ 3
gdzie:
Q1 , Q2 , Q3 - symbole kwartyli;
xQ1 , xQ 2 , xQ3 - granice przedziałów, w których znajdują się odpowiednio: kwartyl
pierwszy, drugi (mediana) i trzeci;
N – ogólna liczebność danej zbiorowości;
k 1
n
i 1
i
- suma liczebności od klasy pierwszej do tej, w której znajdują się
odpowiednio: kwartyl pierwszy, drugi (mediana) i trzeci;
nQ1 , nMe , nQ3 - liczebności przedziałów, w których, w których znajdują się
odpowiednio: kwartyl pierwszy, drugi (mediana) i trzeci;
iQ1 , iMe , iQ3 - interwały (rozpiętość) przedziałów, w których znajdują się
odpowiednio: kwartyl pierwszy, drugi (mediana) i trzeci;
Ćwiczenie 4
Na podstawie tabeli wyznacz kwartyle szeregu.
Tab. Wiek kobiet zawierających związek małżeński w Polsce w 1977 r.
Wiek kobiet Liczba kobiet Odsetek kobiet Skumulowane częstości względne
(w latach)
Więcej dokumentów na stronie: www.krawczyk.hostil.pl
ni
wi
do 19
68 694
21,1
20-24
184 088
56,4
25-29
43 239
13,3
30-34
10 127
3,1
35-39
4 925
1,5
40-49
7 251
2,2
50-59
4 586
1,4
60 i więcej
3 277
1,0
Ogółem
326 277
100,0
Źródło: M. Sobczyk, Statystyka, PWN, W-wa 1991, s.41
21,1
77,5
90,8
93,9
95,4
97,6
99,0
100,0
x
Pierwszą czynnością jest kumulacja liczebności (absolutnych bądź odsetków). Następnie
wyznaczamy pozycję poszczególnych kwartyli w szeregu, tzn.
N N 3N
. Wykorzystując
, ,
4 2 4
skumulowane częstości względne otrzymujemy:
N 100
N 100
3N 300

 25, 
 50,

 75
4
2
2
2
4
4
Na tej podstawie obliczamy wartości kwartyli:
Q1  20 
25  21,1
 5  20,35lat
56,4
Q2  20 
50  21,1
 5  22,6lat
56,4
Q3  20 
75  21,1
 5  24,8lat
56,4
(21,1 – jest to suma liczebności od klasy pierwszej do tej, w której znajdują się
odpowiednie kwartyle)
Kwartyle są dogodnymi parametrami w analizie struktury. Mogą być wykorzystane w
przypadkach, w których nie jest możliwe obliczenie z danego szeregu średniej
arytmetycznej (otwarte przedziały klasowe, ekstremalne wartości), a także dominanty
(nierówne rozpiętości przedziałów, silna asymetria rozkładu.
Decyle i centyle (percentyle) wyznacza się podobnie jak kwartyle. Decyle dzielą
zbiorowość na 10 części – 5 decyl to mediana. Centyle zaś na 100 części – 50 centyl jest
medianą.
Średnia arytmetyczna, dominanta i mediana, jako miary tendencji centralnej, są
powiązane ze sobą odpowiednimi zależnościami – równość lub nierówność (w zależności
od typu rozkładu) [więcej na ten temat w dziale miary asymetrii ;-)] W przypadku
rozkładu umiarkowanie niesymetrycznego zachodzi między nimi następujący związek:
x  D  3( x  M e ) ; (wzór Pearsona)
Na postawie tego wzoru można wyznaczyć średnią znając dwie pozostałe zmienne. Po
przekształceniach możemy na jego podstawie obliczyć dominantę – znając średnią
arytmetyczną i medianę.
Więcej dokumentów na stronie: www.krawczyk.hostil.pl
D  3M e  2 x
Miary zmienności
Wartości średnie nie dają wyczerpującej charakterystyki struktury zbiorowości. Przede
wszystkim nie informują o stopniu zmienności (dyspersji) badanej cechy. Dyspersją
nazywamy zróżnicowanie jednostek zbiorowości ze względu na wartość badanej cechy.
Siłę dyspersji oceniamy za pomocą pozycyjnych i klasycznych miar zmienności. Do
miar klasycznych zaliczamy: odchylenie przeciętne, wariancję, odchylenie standardowe
oraz współczynnik zmienności (w zależności od techniki obliczania może być również
pozycyjną miarą dyspersji)
Odchylenie przeciętne określa, o ile wszystkie jednostki danej zbiorowości różnią się
średnio ze względu na wartość zmiennej od średniej arytmetycznej tej zmiennej.
Odchylenie przeciętne jest średnią arytmetyczną bezwzględnych wartość
(modułów) odchyleń wartości cechy od jej średniej arytmetycznej. Oblicza się je
wg wzoru:
dla szeregu wyliczającego:
d
1 N
 xi  x
N i 1
dla szeregu rozdzielczego punktowego:
d
1 k
 xi  x  ni
N i 1
dla szeregu rozdzielczego przedziałowego:
d
1 k 0
 x i  x  ni
N i 1
Ćwiczenie 5
Oblicz odchylenie przeciętne dla podanego szeregu
Tab. Nauczyciele szkół średnich w miejscowości Z wg stażu pracy
Staż pracy
Liczba
Obliczenie pomocnicze
(w latach) nauczycieli
0
ni
xi
0
xi ni
0
xi ni
0-5
4
2,5 10,0 13,6
5-10
7
7,5 52,5 8,6
10-15
10
12,5 125,0 3,6
15-20
15
17,5 262,5 1,4
20-25
8
22,5 180,0 6,4
25-30
4
27,5 110,0 11,4
30-35
2
32,5 65,0 16,4
Ogółem
50
x
805,0
x
Źródło: M. Sobczyk, Statystyka, PWN, W-wa 1991, s.45.
0
xi ni  ni
54,4
60,2
36,0
21,0
51,2
45,6
32,8
301,2
Więcej dokumentów na stronie: www.krawczyk.hostil.pl
Najpierw należy obliczyć średni staż pracy:
x
805
 16,1lat
50
Wynik podstawiamy do wzoru:
1
 301,2  6lat
50
d
Otrzymany wynik oznacza, że przeciętne zróżnicowanie badanej zbiorowości nauczycieli
ze względu na staż pracy wynosi  6 lat.
Wariancja jest to średnia arytmetyczna z kwadratów odchyleń poszczególnych
wartości cechy od średniej arytmetycznej całej zbiorowości.
Dla szeregu wyliczającego oblicza się ją wg wzoru:
s2 
1 N
( xi  x ) 2

N i 1
Dla szeregu rozdzielczego punktowego:
s2 
1 N
 ( xi  x ) 2 ni
N i 1
Dla szeregu rozdzielczego przedziałowego:
s2 
1 N 0
( x i  x ) 2 ni

N i 1
Ćwiczenie 6
Oblicz wariancję z podanego szeregu.
Tab. Zgony niemowląt na wsi wg wieku w Polsce w 1977 r.
Wiek zmarłych Liczba
Obliczenie pomocnicze
(dni)
zmarłych
x0i  x1i
ni
0
xi
0
xi ni
2
2
xi  x  0
 0

 x i  x   x i  x  ni

 

0-6
3 186
3,0 9 558
-3,6
7-13
623
10,0 6 230
3,4
14-20
336
17,0 5 712 10,4
21-27
243
24,0 5 832 17,4
28-29
74
28,5 2 109 21,9
Ogółem
4 462
x
29 441
x
Źródło: M. Sobczyk, Statystyka, PWN, W-wa 1991, s.47.
Najpierw należy obliczyć średnią arytmetyczną:
x
29441
 6,6dnia
4462
12,96
11,56
108,16
302,76
479,61
x
41 290,56
7 201,88
36 341,76
73 570,68
35 491,14
193 896,02
Więcej dokumentów na stronie: www.krawczyk.hostil.pl
Następnie podstawiamy do wzoru:
s2 
193896,02
 43,5dni 2
4462
Wariancja, jako suma kwadratów dzielona przez liczbę dodatnią jest zawsze wielkością
dodatnią i mianowaną. Mianem wariancji jest kwadrat jednostki fizycznej, w jakiej
mierzona jest badana cecha.
Im zbiorowość jest bardziej zróżnicowana tym wyższa jest wartość wariancji
Wariancja obliczona na podstawie szeregów rozdzielczych przedziałowych jest wielkością
zawyżoną. Powoduje to fakt, że do obliczeń wykorzystuje się środki przedziałów
klasowych, a nie średnie arytmetyczne z poszczególnych klas.
Wariancja jest wielkością kwadratową. Aby uzyskać miarę zróżnicowania o postaci
liniowej (o mianie zgodnym z mianem badanej cechy), wyciągamy pierwiastek
kwadratowy. W wyniku pierwiastkowania otrzymujemy tzw. odchylenie standardowe.
Odchylenie standardowe jest pierwiastkiem kwadratowym z wariancji.
s  s2
Odchylenie standardowe określa o ile wszystkie jednostki danej zbiorowości różnią się
średnio od średniej arytmetycznej badanej zmiennej. Dla poszczególnych rodzajów
szeregów korzystamy z odpowiednich wzorów na wariancję, a następnie wyciągamy
pierwiastek kwadratowy z wariancji.
Możemy je wykorzystać do konstrukcji typowego obszaru zmienności badanej cechy. W
obszarze tym mieści się około 2/3 wszystkich jednostek badanej zbiorowości
statystycznej. Typowy obszar zmienności określa wzór:
x  s  xtyp.  x  s
Pomiędzy odchyleniami: przeciętnym a standardowym obliczonym z tego samego
szeregu zachodzi relacja:
Qd s
Omówione powyżej miary dyspersji są miarami bezwzględnymi, gdyż wyrażamy je w
takich samych jednostkach jak wartości badanej zmiennej. Nie pozwala to na
porównywanie zmienności cech o różnych mianach. Ponadto nie można porównywać pod
względem tej samej cechy dwóch (lub kilku) zbiorowości będących na różnym poziomie,
określonym np. średnią arytmetyczną czy medianą. Z tego powodu w analizie
dyspersji stosuje się względną miarę zróżnicowania – współczynnik zmienności.
Współczynnik zmienności jest ilorazem bezwzględnej miary dyspersji i
odpowiednich wartości średnich. Jest on wyrażany w procentach. Ponieważ w analizie
rozkładu zmienności cech korzystamy z różnych miar zróżnicowania i różnych
przeciętnych, współczynnik zmienności można obliczyć kilkoma metodami:
1)
Vs 
2)
s
 100 ;
x
Więcej dokumentów na stronie: www.krawczyk.hostil.pl
Vd 
d
100
x
Są to tzw. klasyczne współczynniki zmienności.
3)
VQ 
Q
100 ;
Me
4)
VQ1,Q3 
Q3  Q1
Q3  Q1
Są to tzw. pozycyjne współczynniki zmienności.
Współczynniki zmienności informują o sile dyspersji.
Ich duże wartości liczbowe świadczą o niejednorodności zbiorowości.
Ćwiczenie 9
Zastosuj współczynnik zmienności dla analizy dyspersji dochodów w podanych niżej
hotelach A, B i C:
Średnie miesięczny wpływy:
x A  600tys.zl, xB  300tys.zl, xC  120tys.zl .
Odchylenia standardowe wartości sprzedanych usług wynosiły:
s A  110tys.zl, sB  90tys.zl, sC  120tys.zl .
Z uwagi na duże różnice w średnim poziomie wpływów w poszczególnych hotelach należy
zastosować wzór 1.
Po podstawieniu danych otrzymujemy:
Dla hotelu A:
Vs 
110
100  18,33% ;
600
Dla hotelu B:
Vs 
90
100  30,0% ;
300
Dla hotelu C:
Vs 
120
100  24,0% .
500
Z powyższego wynika, że największe względne zróżnicowanie miesięcznych wpływów
miało miejsce w hotelu B, a najmniejsze w hotelu A.
MIARY ASYMETRII
Z punktu widzenia analizy statystycznej istotny jest nie tylko przeciętny poziom i
wewnętrzne zróżnicowanie zbiorowości, ale również to, czy przeważająca liczba badanych
jednostek znajduje się powyżej czy poniżej przeciętnego poziomu badanej cechy.
Wnioskowanie o tym nosi nazwę oceny asymetrii (skośności) rozkładu.
Asymetrię rozkładu najłatwiej jest określić poprzez porównanie dominanty, mediany i
średniej arytmetycznej. W rozkładach symetrycznych wszystkie średnie x , D, Me są sobie
równe. W rozkładach asymetrycznych wymienione średnie kształtują się na różnych
poziomach. Jeżeli zachodzi nierówność: x  D  Me , to rozkład charakteryzuje się
Więcej dokumentów na stronie: www.krawczyk.hostil.pl
asymetrią prawostronną; jeżeli zaś zachodzi nierówność: x  D  Me , to mówimy o
asymetrii lewostronnej.
Rozkłady jednej zmiennej różnią się między sobą kierunkiem i siłą asymetrii. Najprostszą
miarą asymetrii jest wskaźnik asymetrii (skośności) określony wzorem:
Ws  x  D
W przypadku rozkładu symetrycznego wskaźnik skośności równa się zeru, gdyż x  D .
W przypadku asymetrii lewostronnej wskaźnik skośności jest ujemny ( x  D ), a w
przypadku asymetrii prawostronnej dodatki ( x  D ).
Wskaźnik asymetrii można również obliczyć na podstawie kwartyli. Zachodzą wówczas
następujące zależności:
Przy rozkładzie symetrycznym:
(Q3  Q2 )  (Q2  Q1 )  0
Przy rozkładzie o asymetrii prawostronnej:
(Q3  Q2 )  (Q2  Q1 )  0
Przy rozkładzie o asymetrii lewostronnej:
(Q3  Q2 )  (Q2  Q1 )  0
Wskaźnik skośności jest bezwzględną miara asymetrii posiadającą miano badanej cechy.
Z tego powodu nie można go używać do porównywania asymetrii w zbiorowościach, w
których wartość zmiennej jest wyrażona w różnych jednostkach miary. Ponadto wskaźnik
skośności określa tylko kierunek asymetrii (prawo-, lewostronna) nie wskazując na jej
siłę gdyż jest wartością nieunormowaną.
Kierunek i siłę asymetrii określa współczynnik asymetrii (skośności). Jest ot miara
niemianowana i nieunormowana, co umożliwia porównywanie skośności różnych
rozkładów. Współczynnik skośności można obliczać następującymi metodami:
xD
s
xD
As 
d
Q3  Q1  2Me
As 
(Q3  Q2 )  (Q2  Q1 )
As 
Współczynniki asymetrii określone dwoma pierwszymi wzorami należy traktować jako
wzajemnie wykluczające się, gdyż odpowiadają one na podobne pytania (jaką część
odchylenia standardowego lub przeciętnego stanowi różnica między średnią arytmetyczną
i dominantą) i mają identyczny sens logiczny. Natomiast współczynnik asymetrii
określony trzecim wzorem – zwany pozycyjnym współczynnikiem asymetrii – jest miarą
uzupełniającą, ponieważ określa kierunek i siłę asymetrii jednostek znajdujących się w
drugiej i trzeciej ćwiartce obszaru zmienności, a więc w „zawężonej przestrzeni”.
Pozycyjny współczynnik asymetrii wykorzystuje się zwykle wówczas, gdy rozkład
empiryczny nie spełnia warunków niezbędnych do obliczania dominanty.
Więcej dokumentów na stronie: www.krawczyk.hostil.pl
Wartość współczynników asymetrii z reguły zawierają się w granicach:
1  As  1
Jedynie w przypadku silnej asymetrii przekraczają nieznacznie wartość  1.
Dla rozkładu symetrycznego As = 0, dla rozkładu o asymetrii prawostronnej As > 0, dla
rozkładu o asymetrii lewostronnej As < 0. Im większa jest wartość bezwzględna
współczynnika skośności tym silniejsza jest asymetria badanego rozkładu.
Więcej dokumentów na stronie: www.krawczyk.hostil.pl
SŁOWNICZEK:
x - symbol średniej arytmetycznej;
xi – warianty cechy mierzalnej;
N – liczebność badanej zbiorowości;
N – suma liczebności (szeregi przedziałowe);
o
x i - środek przedziału;
wi - procentowy wskaźnik udziału (odsetki);
H – symbol średniej harmonicznej;
D - symbol dominanty;
x D - dolna granica klasy, w której znajduje się dominanta;
nD - liczebność przedziału dominanty;
nD1 - liczebność przedziału poprzedzającego przedział dominanty;
nD1 - liczebność przedziału następującego po przedziale dominanty;
iD - interwał, czyli rozpiętość przedziału dominanty;
M e - symbol mediany;
Q1 , Q2 , Q3 - symbole kwartyli;
xQ1 , xQ 2 , xQ3 - granice przedziałów, w których znajdują się odpowiednio: kwartyl
pierwszy, drugi (mediana) i trzeci;
N – ogólna liczebność danej zbiorowości;
k 1
n
i 1
i
- suma liczebności od klasy pierwszej do tej, w której znajdują się odpowiednio:
kwartyl pierwszy, drugi (mediana) i trzeci;
nQ1 , nMe , nQ3 - liczebności przedziałów, w których, w których znajdują się odpowiednio:
kwartyl pierwszy, drugi (mediana) i trzeci;
iQ1 , iMe , iQ3 - interwały (rozpiętość) przedziałów, w których znajdują się odpowiednio:
kwartyl pierwszy, drugi (mediana) i trzeci;
d – symbol odchylenia przeciętnego;
s 2 - symbol wariancji;
s – symbol odchylenia standardowego;
V – symbol współczynnika zmienności.
Ws - wskaźnik asymetrii;
As – współczynnik skośności.

Podobne dokumenty