Opis statystyczny

Transkrypt

Opis statystyczny
Opis statystyczny
Punktem wyjścia do wnioskowania statystycznego
(uogólnianie wyników badania próby na populację
generalną) jest odpowiednia analiza rozkładu badanej
cechy w tej próbie. Metody służące do analizy
rozkładu cechy w próbie są nazywane metodami opisu
statystycznego.
Opis statystyczny sprowadza się do wyznaczenia
pewnych liczbowych parametrów charakteryzujących
badany rozkład. Opis statystyczny może byd
zamkniętym badaniem (w przypadku skooczonej
zbiorowości generalnej).
1
Opis statystyczny
Stosowane w analizach parametry:
• Miary położenia (przeciętne, średnie)
• Miary zmienności (zróżnicowania, dyspersji, rozproszenia)
• Miary asymetrii (skośności)
• Miary skupienia
Miary położenia :
• klasyczne
– średnia arytmetyczna
– średnia geometryczna
– średnia harmoniczna
• pozycyjne
– dominanta
– mediana
– kwantyle
2
Opis statystyczny
Oznaczenia:
x A -średnia arytmetyczna
x G -średnia geometryczna
x H -średnia harmoniczna
x̂ i -środek i-tego przedziału klasowego
n i -liczebnośd i-tego wariantu cechy
N -liczebnośd badanej zbiorowości
r -liczba wariantów cechy
3
Opis statystyczny
Średnia arytmetyczna
1…
1
N
xA
1
N
1a… x A
1
N
1b… x A
N
xi
szereg szczegółowy
i 1
r
r
xini
i 1
xi
szereg rozdzielczy punktowy
i
i 1
r
r
x̂ i n i
i 1
x̂ i
i 1
i
szereg rozdzielczy przedziałowy
o domkniętych przedziałach klasowych
r
ni
gdzie
N
i 1
Uwaga: Dla szeregów przedziałowych wyznacza się tzw. średnią ważoną
(wagami są częstości i )
4
Opis statystyczny
UWAGi:
1. Środki przedziałów uznajemy za reprezentatywne, ale one tylko
w przybliżeniu odzwierciedlają rzeczywiste wartości; stąd dla
szeregów rozdzielczych przedziałowych wartości: średniej
arytmetycznej wyznaczonej wg wzoru (1b) i średniej arytmetycznej
wyznaczonej dla szeregu szczegółowego wg wzoru (1) na ogół będą
się różnid.
2. Średnia arytmetyczna jest pewną abstrakcyjną wielkością
(wypadkową wszystkich obserwacji) i nie musi należed do zbioru
wartości cechy.
3. Dla szeregów rozdzielczych przedziałowych o otwartych przedziałach
klasowych przed obliczeniem średniej należy przedziały domknąd;
przyjmuje się, że otwarte przedziały można domknąd, jeśli ich
liczebnośd jest mniejsza niż 0,05N.
5
Opis statystyczny
Własności średniej arytmetycznej
1.
N
Nx A
r
( Nx A
xi
i 1
2.
x min
x
(x i
i 1
(
x) 0
r
(x i
0 ;
x )n i
i 1
N
4. min
i 1
c)
2
( x̂ i
r
(x i
i 1
r
x)
x )n i
0 )
i 1
N
(x i
x̂ i n i )
Nx A
x max
i 1
c R
xini ;
i 1
N
3.
r
2
(min
c R
6
r
(x i
i 1
2
c) n i
(x i
i 1
x)2n i )
Opis statystyczny
Własności średniej arytmetycznej (c.d.)
5. Jeśli wszystkie wartości cechy powiększymy (pomniejszymy,
pomnożymy, podzielimy) o/przez pewną stałą, to średnia
arytmetyczna będzie równa sumie (różnicy, iloczynowi,
ilorazowi) średniej arytmetycznej wyjściowej cechy i tej stałej.
6. Średnia arytmetyczna sumy (różnicy) cech równa się sumie
(różnicy) ich średnich arytmetycznych.
7. Na poziom średniej arytmetycznej silny wpływ mają wartości
ekstremalne (skrajne), przy czym wpływ jest silniejszy w
przypadku wysokich wartości cechy.
UWAGA: Średnia arytmetyczna jest miarą prawidłową dla zbiorowości
w których rozkład cechy jest jednomodalny, symetryczny lub o niewielkiej
asymetrii. Jeśli tak nie jest, to dla scharakteryzowania średniego poziomu
zjawiska należy wykorzystad przeciętne pozycyjne.
7
Opis statystyczny
Załóżmy, że zbiorowośd jest podzielona na m rozłącznych grup i
znamy średnią arytmetyczną wartości cechy dla każdej z grup.
Niech
~x (j=1,2,...,m) oznacza średnią arytmetyczną obliczoną dla
j
j-tej grupy,
n j – liczebnośd j-tej grupy
N – ogólna liczebnośd próby
x A – średnia arytmetyczna dla wszystkich grup łącznie
Wtedy
2…
~
xj
3… x
A
1
nj
1
N
nj
m
xi
dla j=1,2,...,m
i 1
m
nj
oraz
j 1
~
x jn j
j 1
8
N
Opis statystyczny
Średnia geometryczna
N
4...
xG
4a... x G
N
N
x
x1 x 2 ... x N
n1
1
x
n2
2
... x
nr
r
N
i 1
xi
dla szeregów szczegółowych
x ini
dla szeregów rozdzielczych
r
N
i 1
Średnia geometryczna ma zastosowanie wtedy, gdy zjawiska
ujmowane są dynamicznie, przy badaniu średniego tempa
zmian zjawisk w czasie.
9
Opis statystyczny
Średnia harmoniczna
5… x H
N
N
i 1
6… x H
r
i 1
7… x H
r
i 1
1
xi
N
1
ni
xi
N
1
ni
x̂ i
dla szeregów wyliczających
dla szeregów rozdzielczych punktowych
dla szeregów rozdzielczych przedziałowych
Średnią harmoniczną stosuje się, gdy wartości cechy podane są w
jednostkach względnych (km/godz, kg/osobę).
UWAGA: Dla konkretnej cechy tylko jedna średnia klasyczna jest odpowiednia.
10
Opis statystyczny
Dominanta
Dominanta (modalna, moda, wartośd najczęstsza) w rozkładzie
empirycznym Do – ta wartośd cechy, której odpowiada
największa liczebnośd (częstośd).
• Dominanta nie zawsze istnieje.
• Na podstawie przedziałowego szeregu rozdzielczego dominantę
można wyznaczyd jedynie wówczas, gdy przedziały klasowe w
tym szeregu mają jednakową rozpiętośd (wysoka liczebnośd
mogłaby byd spowodowana szerszą rozpiętością tego przedziału
w stosunku do innych).
• Dla szeregów rozdzielczych przedziałowych można poprzestad
na wskazaniu przedziału zawierającego dominantę.
11
Opis statystyczny
Zwykle dla dokładniejszego wyznaczenia mody stosuje się wzór
interpolacyjny (8), wyprowadzony przy założeniu, że wzrost
liczebności w poszczególnych przedziałach klasowych jest
proporcjonalny do wzrostu wartości cechy.
8…
Do
x 0d
(n d
nd nd 1
hd
n d 1 ) (n d n d 1 )
gdzie
x 0d – dolna granica przedziału, w którym występuje dominanta
h d – rozpiętośd przedziału z dominantą
n d , n d 1 , n d 1 – liczebności przedziału zawierającego
dominantę, poprzedniego, następnego (odpowiednio)
Uwaga: We wzorze (8) liczebności można zastąpid częstościami.
12
Opis statystyczny
Graficzne wyznaczanie dominanty
• Wyznaczyd histogram dla przedziału klasowego zawierającego
dominantę, poprzedniego i następnego.
• Z górnych wierzchołków najwyższego prostokąta należy
wykreślid dwa odcinki łączące po przekątnej bliższe górne
wierzchołki sąsiednich prostokątów.
• Rzut punktu przecięcia tych odcinków na oś odciętych jest
dominantą.
Uwagi:
1. Jeśli liczebności przedziałów sąsiadujących z przedziałem dominanty są
jednakowe, to dominanta jest równa środkowi klasy dominującej.
2. Wyznaczanie dominanty jest uzasadnione wówczas, gdy rozkład
empiryczny jest jednomodalny i asymetria jest umiarkowana.
13
Opis statystyczny
Kwantyle
Kwantyl rzędu p w rozkładzie empirycznym – taka wartośd
cechy k p , dla której jako pierwszej dystrybuanta empiryczna
spełnia relację
9…
F(k p ) p 0 < p < 1
W statystyce opisowej wyróżnia się:
– kwartyle (kwantyle rzędu k4 k = 1,2,3)
– decyle (kwantyle rzędu k
10
k
– centyle (kwantyle rzędu 100
14
k = 1,2,3,…,9)
k = 1,2,3,…,99)
Opis statystyczny
Kwartyle:
Q1 - kwartyl pierwszy (rzędu 14 )
me - kwartyl drugi (rzędu
Q 3 - kwartyl trzeci (rzędu
2
4 )3
4 )
mediana
Mediana jest tą wartością cechy, którą posiada środkowa
jednostka w uporządkowanym (niemalejąco) ciągu wartości
cechy; gdy tych jednostek jest więcej bierze się ich średnią
arytmetyczną, tzn. dla szeregów wyliczających
10…
xN 1
me
gdy N - nieparzyste
2
1
(x N
2 2
x N 1)
gdy N - parzyste
2
15
Opis statystyczny
Własności mediany
N
1. min
c R
N
| xi
i 1
c|
| xi
me |
i 1
2. Mediana nie reaguje na zmiany wartości cech skrajnych
jednostek (na obserwacje nietypowe).
3. Przy zmianie próby mediana ulega większym zmianom niż
średnia arytmetyczna.
Uwaga: Mediana obok średniej arytmetycznej jest najczęściej stosowanym
parametrem; może byd obliczona, gdy nie można obliczyd średniej
arytmetycznej (otwarte przedziały).
16
Opis statystyczny
Do wyznaczenia kwartyli z szeregów rozdzielczych przedziałowych
stosuje się wzór interpolacyjny (11), wyprowadzony przy
założeniu, że wzrost liczebności w poszczególnych przedziałach
klasowych jest proporcjonalny do wzrostu wartości cechy.
11…
Q4p
gdzie:
x 0Q
hQ
[ p N n sk
Q 1]
nQ
p – rząd kwartyla
x 0 Q – dolna granica przedziału, w którym jest wartośd kwartyla
h Q – rozpiętośd przedziału kwartyla
n Q – liczebnośd przedziału kwartyla
n sk
Q 1 – liczebnośd skumulowana w przedziale poprzedzającym klasę
kwartyla
N – ogólna liczebnośd zbiorowości.
17
Opis statystyczny
Do graficznego wyznaczenia kwartyli wykorzystuje się wielobok
skumulowany liczebności (częstości) - łamana łącząca punkty o
współrzędnych: górna granica przedziału klasowego,
odpowiadająca danej klasie liczebnośd (częstośd ) skumulowana.
Wartośd kwartyla rzędu p stanowi odczytana na osi odciętych
(wartości cechy) liczna odpowiadająca skumulowanej liczebności
równej pN (skumulowanej częstości równej p); N jest ogólną
liczebnością zbiorowości .
W przypadku rozkładu umiarkowanie asymetrycznego zachodzi
wzór Pearsona
12…
x Do 3 (x me)
18
Opis statystyczny
Miary zmienności:
• klasyczne
– wariancja
– odchylenie standardowe
– odchylenie przeciętne
– współczynnik zmienności
• pozycyjne
– rozstęp
– odchylenie dwiartkowe
– współczynnik zmienności
19
Opis statystyczny
Wariancja
Wariancja to średnia arytmetyczna kwadratów odchyleo wartości cechy
od średniej
N
(x i
S2
13…
x)2
i 1
szereg szczegółowy
N
r
x)2 n i
(x i
13a… S
2
r
i 1
N
(x i
x)2
i
( x̂ i
x)2
i
szereg rozdzielczy punktowy
i 1
r
x)2 n i
( x̂ i
13b… S2
r
i 1
N
i 1
r
gdzie
ni
N
i 1
20
szereg rozdzielczy przedziałowy
Opis statystyczny
Uwaga: Wariancja dla szeregów rozdzielczych przedziałowych jest
zawyżona (bierzemy środki klas; liczba przedziałów jest odwrotnie
proporcjonalna do ich rozpiętości, więc przeszacowanie jest tym większe
2
im mniej jest klas). Zaleca się stosowanie poprawki Shepparda równej h
12
r
x)2 n i
( x̂ i
14… S2
i 1
N
h2
12
r
( x̂ i
i 1
x)2
i
h2
12
gdzie h – rozpiętośd przedziałów klasowych.
Dla wariancji zachodzi
15...
S2
____
2
x
x2
21
Opis statystyczny
Jeśli zbiorowośd jest podzielona na m rozłącznych grup, to
wariancja dla całej zbiorowości, tzw. wariancja ogólna jest sumą
dwóch składników:
• wariancji wewnątrzgrupowej (średnia arytmetyczna wariancji
grup);
• wariancji międzygrupowej (wariancja średnich grupowych)
22
Opis statystyczny
Wariancja ogólna wyraża się wzorem
16…
_____
2
i
S2
S2 (~
xi )
S
m
m
gdzie:
_____
2
i
S
2
Si n i
i 1
N
S2 ( ~
xi )
(~
xi
x)2 n i
i 1
N
_____
2
i
2
- wariancja wewnątrzgrupowa
S
S (~
x i ) - wariancja międzygrupowa
~
x i (i=1,2,...,m) oznacza średnią arytmetyczną obliczoną dla i-tej grupy
n i - liczebnośd i-tej grupy
N
- ogólna liczebnośd próby
x - średnia arytmetyczna dla wszystkich grup łącznie
23
Opis statystyczny
Odchylenie standardowe
Odchylenie standardowe S jest to pierwiastek z wariancji.
Wyraża się w mianach takich jak badana cecha. Określa przeciętne
zróżnicowanie poszczególnych wartości cechy w stosunku do średniej
arytmetycznej.
Typowy obszar zmienności
17…
x S x typ
x S
Na ogół w obszarze tym mieszczą się wartości cechy około 2/3 jednostek
badanej zbiorowości
24
Opis statystyczny
Uwagi:
1. Odchylenie standardowe jest najczęściej stosowanym parametrem
statystycznym.
2. Obliczane jest na podstawie wszystkich obserwacji.
3. Im zbiorowośd bardziej zróżnicowana, tym większa wariancja i
odchylenie standardowe.
4. Na podstawie nierówności Czebyszewa, sformułowano tzw. regułę
trzech sigm która mówi, że wystąpienie obserwacji o wartości cechy
poza przedziałem ( x 3S; x 3S) jest mało prawdopodobne.
5. Dla rozkładów normalnych lub zbliżonych do normalnych: tylko 1/3
obserwacji wykracza poza typowy przedział obserwacji ( x S; x S)
tylko 5% obserwacji wykracza poza przedział ( x 2S; x 2S)
a około 0,3% obserwacji poza przedział ( x 3S; x 3S)
25
Opis statystyczny
Odchylenie przeciętne
Odchylenie przeciętne d wyraża się wzorem
N
| xi
18…
x|
szereg szczegółowy
i 1
d
N
r
| xi
18a…
d
x | ni
r
i 1
N
| xi
x|
| x̂ i
x|
i
szereg rozdzielczy punktowy
i 1
r
18b…
| x̂ i
x | ni
i 1
d
N
szereg rozdzielczy przedziałowy
r
i
i 1
r
gdzie
ni
N
i 1
26
Opis statystyczny
Rozstęp
Rozstęp R to bardzo ogólna miara zmienności
19… R x max x min
Odchylenie ćwiartkowe
Odchylenie ćwiartkowe Q mierzy poziom zróżnicowania tylko
części jednostek (po odrzuceniu 25% o najmniejszej i 25% o
największej wartości cechy)
Q
(Q 3
me ) (me Q1 )
2
Q3
Q1
20…
2
Zachodzi związek Q < d < S.
Typowy obszar zmienności cechy (w oparciu o parametry
pozycyjne)
me Q x typ me Q
20….
27
Opis statystyczny
Współczynnik zmienności
Dotychczas omówione miary dyspersji są miarami bezwzględnymi
(w takich jednostkach jak cecha); nie można więc ich wykorzystad
do porównywania rozkładów cech w zbiorowościach. Dlatego w
analizie dyspersji stosuje się względną miarę rozproszenia –
współczynnik zmienności.
Współczynnik zmienności jest stosunkiem bezwzględnej miary
zróżnicowania cechy do przeciętnej wartości cechy (jest miarą
niemianowaną, najczęściej podawaną w procentach).
28
Opis statystyczny
W zależności od przyjętych miar przeciętnych i dyspersji wyróżnia
się współczynniki zmienności:
• Klasyczne
21…
22…
VS
Vd
S
x
d
x
• Pozycyjne
23…
24…
VQ
VQ1Q3
Q
me
Q3 Q1
Q3 Q1
29
( Q Q 3 Q1 )
2
Opis statystyczny
Miary asymetrii
Rozkłady mogą różnid się kierunkami i siłą asymetrii.
W szeregach symetrycznych x me Do Q3 me
x Do
Q 3 me
me Q1
me Q1
- wskaźnik skośności (określa kierunek
asymetrii)
- pozycyjny wskaźnik skośności
Asymetria lewostronna:
x
me Do
Q 3 me
me Q1
0
Asymetria prawostronna:
x
me Do
Q 3 me
30
me Q1
0
0
Opis statystyczny
Miary asymetrii (współczynniki skośności) określają kierunek i siłę
asymetrii
Klasyczne współczynniki asymetrii:
x Do
AS
25…
S
26…
27...
x Do
Ad
d
m3
gdzie
A
3
S
N
(x i
m3
x)
r
3
i 1
N
( m3
( x i x )3 n i
i 1
N
Pozycyjny współczynnik asymetrii
28…
AQ
Q3 me
Q3 me
me Q1
me Q1
Q3 Q1 2me
2Q
Uwaga: Im większa wartośd bezwzględna współczynnika asymetrii, tym
silniejsza asymetria
31
)
Opis statystyczny
Miary koncentracji
Współczynnik skupienia (kurtoza)
– miara skupienia
obserwacji
N
r
wokół średniej
(x i x)4
(x i x)4 n i
29… K m44
gdzie m 4 i 1
( m4 i 1
)
N
S
N
Im wyższa wartośd K, tym bardziej wysmukła krzywa liczebności,
więc większa koncentracja wartości cechy wokół średniej.
Jeśli zbiorowośd ma rozkład normalny, to K = 3.
K < 3 -rozkład platokurtyczny bardziej spłaszczony od normalnego
K > 3 - rozkład leptokurtyczny bardziej wysmukły od normalnego
30…
K
m4
S4
3
K 0 - rozkład platokurtyczny
K 0 -rozkład leptokurtyczny
32

Podobne dokumenty