Statystyka opisowa: tabularyczne i graficzne przedstawianie danych

Transkrypt

Statystyka opisowa: tabularyczne i graficzne przedstawianie danych
Statystyka opisowa: tabularyczne i graficzne przedstawianie danych, rozkład
empiryczny cechy, miary położenia, centralne, rozproszenia, skośności, spłaszczenia
Zmienne przedstawia się w postaci szeregów statystycznych, tj. ciągu wielkości
statystycznych, pogrupowanych rosnąco lub malejąco według określonych kryteriów.
Rodzaje szeregów statystycznych:
1. szczegółowy - uporządkowany ciąg wszystkich zmierzonych wartości badanej cechy
2. czasowy - uporządkowany wg czasu pomiaru ciąg wszystkich zmierzonych wartości
badanej cechy
3. rozdzielczy
a. z cechą jakościową (niemierzalną)
b. z cechą ilościową (mierzalną)
• punktowe (jednostopniowe) -do wartości dyskretnych
proste
skumulowane
• przedziałowe (wielostopniowe) - do wartości ciągłych i dyskretnych
proste
skumulowane
Szeregiem rozdzielczym danej cechy jest zestawienie dwóch kolumn. Pierwsza określa
wielkość lub przedział wielkości badanej cechy od wartości najmniejszej do największej,
druga liczbę obserwacji danej wielkości lub inny wskaźnik proporcjonalny do liczby
obserwacji.
Szeregiem rozdzielczym skumulowanym danej cechy skokowej jest zestawienie dwóch
kolumn. Pierwsza określa wielkość lub przedział wielkości badanej cechy od wartości
najmniejszej do największej, druga liczbę obserwacji lub inny wskaźnik proporcjonalny do
liczby obserwacji danej wielkości i wielkości większych lub danej wielkości i wielkości
mniejszych
Przyk»ad 1.
Mamy zbiór obserwacji różnorodności gatunkowej okrzemek pochodzący z przebadania 163
rdzeni osadów dennych Bałtyku (liczebność próby n=163). Są to zmienne dyskretne, gdyż
zliczano tu liczbę różnych gatunków w rdzeniu.
Pierwszym etapem analizy danych jest wykonanie szeregu rozdzielczego prostego (w skrócie
nazywany szeregiem rozdzielczym) i kumulacyjnego
Liczba
gatunków
xi
Częstość
ni
0
1
2
3
4
5
6
7
8
9
10
2
16
33
41
33
16
11
9
1
0
1
Częstość
skumul.
ni9
2
18
51
92
125
141
152
161
162
162
163
Częstość
skumul.
ni↑
163
161
145
112
71
38
22
11
2
1
1
Częstość
względna
ni/n [%]
1,23
9,82
20,25
25,15
20,25
9,82
6,75
5,52
0,61
0,00
0,61
Częstość
skumul.
względna
ni9/n [%]
Częstość
skumul.
względna
ni↑/n [%]
1,23
11,04
31,29
56,44
76,69
86,50
93,25
98,77
99,39
99,39
100,00
100,00
98,77
88,96
68,71
43,56
23,31
13,50
6,75
1,23
0,61
0,61
Przedstawiony powyżej przykład nosi nazwę szeregu rozdzielczego punktowego
(jednostopniowego). Podobnie wygląda szereg rozdzielczy z cechą jakościową, tyle że
zamiast wartości X podajemy kategorie jakościowe.
W przypadku zmiennych ciąg»ych używa się szeregu rozdzielczego przedziałowego
(wielostopniowego). Różnica polega na tym, że wartości cechy zostają zastąpione
przedziałami wartości. Szereg przedziałowy możemy zastosować także w odniesieniu do
cechy skokowej, jeżeli liczba zaobserwowanych wartości jest znaczna.
Liczba
gatunków
xi
+0 ; 2)
+2 ; 4)
+4 ; 6)
+6 ; 8)
+8 ; 10)
+10 ; 12)
Częstość
18
74
49
20
1
1
Częstość
skumul.
18
92
141
161
162
163
Częstość
względna
11,04
45,40
30,06
12,27
0,61
0,61
Częstość
skumul.
względna
11,04
56,44
86,50
98,77
99,39
100,00
Gęstość
ni//∆x
Gęstośc
względna
9,0
37,0
24,5
10,0
0,5
0,5
5,520
22,700
15,030
6,135
0,305
0,305
Szeregi rozdzielcze dają odpowiedź na pytanie jak często w badanej zbiorowości występują
określone wartości – opisują więc strukturę lub inaczej rozkład badanej cechy.
Szeregi rozdzielcze przedstawiają rozkłady empiryczne badanych cech w próbie.
Przy opracowywaniu szeregu przedziałowego wyłania się ważny problem określenia
rozpiętości przedziałów i ich liczby. Ogólnie obowiązującą zasadą jest, że liczba przedziałów
powinna być funkcją ilości obserwacji (im więcej obserwacji tym można wyznaczyć więcej
przedziałów)
Liczba przedziałów może być określona wzorami:
r = 1 + 3,32 ⋅ log(n )
r ≤ 5 ⋅ log(n )
r= n
gdzie:
r - liczba przedzia»ów,
n - liczba obserwacji,
Przyjąwszy optymalną liczbę przedziałów ich rozpiętość można otrzymać, stosując wzór:
x − xmin
∆x = max
r
gdzie:
∆x - rozpiętość przedziałów,
xmin, xmax – minimalna i maksymalna zmierzona wartość cechy.
Podane wzory mają charakter tylko wskazówek, a nie ścisłych zaleceń. Z każdego wzoru
otrzymujemy różne Aoptymalne@ liczby przedziałów.
Przy wyznaczaniu liczby i szerokości przedziałów należy brać pod uwagę następujące
kryteria:
•
Liczba przedziałów nie może być ani zbyt mała, ani zbyt duża. Opracowanie
danych zawsze wiąże się z pewną stratą informacji (uogólnieniem), która będzie
poważna, jeżeli utworzymy małą liczbę przedziałów o dużej rozpiętości. Natomiast
duża liczba wąskich przedziałów prowadzi do tego, że mamy ciągle do czynienia ze
zbyt dużą ilością informacji, na podstawie których trudno wyobrazić sobie rozkład
wartości.
• Liczba obserwacji w poszczególnych przedziałach nie powinna być zbyt ma»»a.
Postuluje się aby w większości klas ni$4, wynika z tego, że aby zbudować szereg
przedziałowy należy dysponować odpowiednio dużą liczbą obserwacji. Trudno
wyznaczać tu jakieś granice, można jednak przyjąć, że poniżej liczebności próby =
15 trudno zajmować się statystyką.
• Ze względów praktycznych dobrze jest granice przedziałów określać liczbami
Aokrągłymi@@, a takie mogą ze wzorów nie wynikać. Nie będzie zatem niewłaściwe
pewne przesunięcie granic, w stosunku do tych, które wynikają z zaproponowanych
wyżej wzorów.
• Zazwyczaj wymagana jest równa rozpiętość wszystkich przedziałów
Wykres słupkowy i krzywa częstości skumulowanej (≤ )
Wykres słupkowy i krzywa częstości
70
140
60
120
50
100
40
30
100
50
80
liczba obserwacji
60
20
40
10
20
względna częstość [%]
160
liczba obserwacji
80
mediana
0
[0;2)
[2;4)
[4;6)
[6;8)
zróżnicowanie gatunkowe
[8;10)
[10;12)
0
0
[0;2)
[2;4)
[4;6)
[6;8)
[8;10)
[10;12)
zróżnicowanie gatunkowe
Empiryczny rozkład w próbie może być przedstawiony w formie WYKRESU SŁUPKOWEGO
(HISTOGRAMU – jeśli dotyczy gęstości) lub KRZYWEJ CZĘSTOŚCI (GĘSTOŚCI)
będących graficznym obrazem szeregu rozdzielczego prostego lub skumulowanego
Wykres słupkowy otrzymujemy w ten sposób, że na osi odciętych zaznaczamy przedziały
wartości cech i nad nimi budujemy prostokąty o wysokościach proporcjonalnych do
liczebności, częstości lub gęstości dla danego przedziału. Suma wysokości słupków na
wykresach częstości lub ich pól na wykresach gęstości jest równa liczebności próby (bądź
100% w przypadku wskaźników względnych). Krzywa częstości jest natomiast łamaną
łączącą środki górnych krawędzi słupków, a w przypadku szeregu kumulacyjnego ich prawych
lub lewych górnych rogów (w zależności od kierunku kumulacji).
Im większa próba tym więcej węższych przedziałów, które dają coraz gładszy przebieg
krzywej częstości czy gęstości (rozkład wartości w próbie)
PRÓBA MAŁO LICZNA
PRÓBA BARDZO LICZNA
Istnieją różne typy rozkładów empirycznych. Najczęściej spotykane:
A - C – rozkłady symetryczne – obserwacje są rozłożone równomiernie po obu stronach osi
symetrii. Wartość cechy, przez którą przechodzi oś symetrii pełni tu rolę punktu centralnego,
wokół którego znajduje się najwięcej obserwacji, a w miarę oddalania się od tej
wartości liczba spostrzeżeń maleje.
Rozkłady A, B i C różnią się stopniem skupienia wartości wokół wartości centralnej.
B – najmniejsze skupienie – różne wartości występują z podobną częstością.
C – największe skupienie, gwałtowny spadek częstości występowania wartości idąc od
wartości dominujących w kierunku skrajnych
D - I – rozkłady skośne (asymetryczne)
rozkłady D - F są prawoskośne (z lewej strome, z prawej ukośne) - większość obserwacji
grupuje się w przedziałach znajdujących się bliżej początku szeregu, czyli dużo elementów
posiada stosunkowo niskie wartości cechy, natomiast niewiele jest obserwacji o wysokich
wartościach
rozkłady G – I są lewoskośne (z lewej ukośne, z prawej strome) – przedział klasowy
zawierający największą liczbę obserwacji jest przesunięty w prawo, czyli stosunkowo niewiele
jednostek posiada niskie wartości cechy, natomiast licznie występują te o wysokich
wartościach
Przedstawione rozkłady różnią się siłą asymetrii:
D, G – umiarkowanie asymetryczne – punkt, wokół którego skupia się najwięcej obserwacji
jest nieznacznie oddalony od środka rozkładu
E, H – silnie asymetryczne
F, I – skrajnie asymetryczne (j-kształtne)
J – rozkład bimodalny, w którym można dostrzec dwa wyraźnie zarysowane punkty
skupienia obserwacji
Jest to najprostszy z przypadków rozkładów wielomodalnych, ktore często wskazują, że
mamy do czynienia z elementami kilku różnych populacji lub populacją niejednorodną. Należy
się zastanowić nad rozdzieleniem danych.
K – rozkład u-kształtny (siodłowy) – posiada również dwa punkty skupienia obserwacji,
znajdujące się na jego krańcach, co oznacza, że najbardziej liczebnie występują wartości
skrajne
L – rozkład równomierny – w którym wszystkie wartości występują z taką samą częstością
Podstawowe charakterystyki rozkładu empirycznego
Rozkłady mają pewne charakterystyki, które określają:
1.
położenie wykresu lub określonych jego części wzdłuż osi x (miary położenia)
2.
rozmieszczenie wartości zmiennej i jej przeciętne wartości (miary centralne)
3.
zróżnicowanie wartości zmiennej, skupienie, spłaszczenie (miary rozproszenia i
koncentracji)
4.
symetrię rozkładu (miary symetrii)
MIARY POŁOŻENIA
kwartyle, kwantyle, centyle – wartości zmiennej, które dzielą zbiorowość na określone
części pod względem liczby jednostek – wyznaczane z krzywej kumulacyjnej lub szeregu
kumulacyjnego
• kwartyl dolny Q1 - 25% wartości # Q1 # 75% wartości – PozQ1=0,25·(n+1)
P(X<Q1)=25% i P(X>Q1)=75%
• kwartyl dolny Q3 - 75% wartości # Q3 # 25% wartości – PozQ3=0,75·(n+1)
P(X<Q3)=75% i P(X>Q3)=25%
kwantyle dzielą powierzchnię na 5 równych części, centyle na 100, itd..
•
•
najpierw ustala się pozycję kwartyla, kwantyla, centyla Poz=p*(n+1) (p-część wartości
leżących poniżej wyznaczanej wartości)
następnie szereguje wartości od najmniejszej do największej i odczytuje tę stojącą w
wyznaczonej pozycji – jeżeli pozycja wypada pomiędzy dwiema obserwacjami to liczy
się wartość średnią z obu
MIARY CENTRALNE
średnia arytmetyczna (charakteryzuje średni poziom wartości zmiennej – wartość
oczekiwana)
∑
x=
n
i =1
xi
n
gdzie:
xi – zmierzona i-ta wartość,
n – liczebność próby
średnia ważona - stosowana aby pewnym pomiarom nadać większe znaczenie
∑ (x ⋅ w )
=
∑ w
n
xw
i =1
i
i
n
i =1
i
gdzie:
wi – waga dla i-tej wartości,
średnia geometryczna – stosowana przy ocenie średniej zjawisk dynamicznych (średniego
tempa zmian), gdzie interesuje badacza nie o ile coś się zmienia, a raczej ile razy
n
∏x
xg = n
i
i =1
= n x1 ⋅ x2 ⋅ ... ⋅ xn
moda (Mo) - wartość występująca najczęściej - odczytywana z szeregu szczegółowego,
rozdzielczego lub histogramu jako ta, której odpowiada największa liczebność
Jeżeli histogram ma kilka „szczytów” mówimy, że jest wielomodalny (bimodalny, trimodalny
…) – świadczy to o niejednorodności badanej zbiorowości
W przypadku zmiennych ciągłych wartośc modalną zastępuje się przedziałem modalnym
mediana (Md) - wartość środkowa (50% wartości nie mniejszych - $ - niż mediana i 50% nie
większych - # - nió mediana) - odczytywana z krzywej kumulacyjnej lub szeregu
kumulacyjnego
•
•
najpierw ustala się pozycję mediany PozMd=0,5·(n+1)
następnie szereguje wartości od najmniejszej do największej i odczytuje tę stojącą w
wyznaczonej pozycji – jeżeli pozycja wypada pomiędzy dwiema obserwacjami to
liczymy wartość średnią z obu
MIARY ROZPROSZENIA (ZMIENNOŚCI)
rozstęp – miara charakteryzująca cały obszar zmienności wartości badanej cechy
R = xmax − xmin
wariancja (s2) i odchylenie standardowe (s) - charakteryzuje średnie odchylenie wartości
zmiennej od wartości średniej
(s* - estymator obciążony, s – nieobciążony)
∑ (x
n
s =
2
*
i
i =1
n
∑ (x
n
s =
2
− x)
2
i =1
i
− x)
n −1
2
2
 n 
n ⋅ ∑ x −  ∑ xi 
i =1
 i =1  ,
=
2
n
n
2
i
s* = s*2
2
 n 
n ⋅ ∑ x −  ∑ xi 
i =1
 i =1  ,
=
n ⋅ (n − 1)
n
s 2 = s*2 ⋅
n −1
n
2
i
s = s2
im zbiorowość bardziej zróżnicowana tym większa wariancja i odchylenie standardowe,
wspó»»czynnik zmiennoÑÑci – stosowana dla porównania rozproszenia dwóch prób o różnych
średnich (na wartość odchylenia standardowego wpływ ma wartość średnia)
s
V = 100% ⋅
x
odchylenie ćwiartkowe (rozstęp kwartylowy)
IQR=Q3-Q1
MIARY SPŁASZCZENIA I SYMETRII
kurtosis - miara spłaszczenia rozkładów symetrycznych, stosowana szczególnie często w
geologii
1 n
(xi − x )4
∑
n
K = i =1 4
s
Im wyższa wartość tym bardziej wysmukły histogram
W odniesieniu do kształtu rozkładu normalnego
• K=3 jak w rozkładzie normalnym
• K<3 rozkład bardziej spłaszczony niż rozkład normalny
• K>3 rozkład bardziej wysmukły niż rozkład normalny
skośność rozkładu
1 n
(xi − x )3
∑
n
S k = i =1 3
s
Im wartośc dalej od 0 tym większa skośność
• Sk=0 symetryczny
• Sk>0 prawo (dodatnio) skośny
• Sk<0 lewo (ujemnie) skośny
Istnieją też inne definicje skośności oparte na miarach pozycyjnych
Wykorzystując miary centralne i miary rozproszenia rozkład badanej cechy można
przedstawić graficznie w postaci wykresu „Skrzynki z wąsami” (Box and Wiskers)
Wykres ramkowy
Wykres ramkowy
18
1,1
xmax
16
xmax
0,9
14
x+s
0,7
12
0,5
10
x
8
Q3
0,3
x-s
6
Md
Q1
0,1
4
xmin
xmin
-0,1
2
Statystyki (wskaźniki struktury) możemy ogólnie podzielić na dwa typy:
• parametryczne (klasyczne) – obliczane na podstawie wszystkich obserwacji
(wszelkie odmiany średniej, odchylenie standardowe, skośność, kurtoza)
• nieparametryczne – wyznaczane na podstawie ich miejsca w szeregu lub
częstotliwościi występowania (moda, mediana, kwartyle, kwantyle, centyle)
Sens i interpretacja wskaźników struktury zależy od tego jak wygląda rozkład częstości.
Miary położenia
• mają sens w opisie zmiennych ilościowych
• służą określeniu zakresu występowania wszystkich, lub określonej części wartości
badanej cechy,
• wartości kwartyli, kwantyli itd. podaje się często obok wartości ekstremalnych w
przypadku rozkładów mocno skupionych (symetrycznych i skośnych) w celu
rozdzielenia zakresu wartości często występujących i bardzo rzadkich
• W rozkładach prawoskośnych Q1 leży bliżej Md niż Q3, a w lewoskośnych odwrotnie
Miary centralne
Wskazują wartości typowe, oczekiwane w większości sytuacji, przeciętne.
Cechy róznych miar:
Moda
• łatwa do wskazania i interpretacji
• gdy istnieje wyraźnie dominująca kategoria jest to najlepszy wskaźnik wartości
typowych - może służyć jako prognoza obserwacji (spodziewana wartość cechy w
losowej sytuacji)
• gdy kilka kategorii charakteryzuje się podobną częstością występowania moda
przestaje być dobrą miarą tendencji centralnej, gdyż jest podatna na losową
zmienność próby (w różnych próbach z tej samej populacji, szczególnie przy ich
niewielkiej liczebności może być różna) oraz sposób kategoryzacji (przy zmianie
sposobu podziału danych na kategorie, związanym np. z zaokrąglaniem końców
przedziałów, może się zmieniać)
Mediana
• Lepsza do opisu wartości typowych niż średnia arytmetyczna w przypadku:
− rozkładów skośnych, gdyż leży bliżej wartości występujących najczęściej niż
średnia arytmetyczna,
− populacji o bardzo rzadko występujących wartościach ekstremalnych, gdyż jest
mało podatna na zmiany wartości skrajnych w losowych próbach
• Jej wadą jest mała stabilność, która jednak rośnie wraz ze wzrostem liczebności próby
• Najlepsza do prognoz, gdy błąd szeregu prognoz określany jest jako suma
bezwzględnych odchyleń wartości przewidywanych od rzeczywistych, gdyż
∑ xi − C = min, gdy C = Md
gdzie C – dowolna stała
Średnia arytmetyczna
• Obliczana na podstawie wszystkich wartości, dlatego bardzo wrażliwa na zmiany
wartości skrajnych,
• Suma odchyleń od średniej jest zawsze równa 0 (odchylenia na plus muszą być
zrównoważone przez odchylenia na minus)
• Najlepsza do prognoz, gdy błąd szeregu prognoz określany jest jako suma kwadratów
odchyleń wartości przewidywanych od rzeczywistych, gdyż
∑ (xi − C )2 = min, gdy C = x
•
•
gdzie C – dowolna stała
Jest bardziej stabilna niż mediana (rozrzut średnich policzonych z wielu prób
pochodzących z tej samej populacji jest mniejszy niż rozrzut median)
Leży dalej od dominanty niż mediana w rozkładach skośnych
Miary rozproszenia
Najczęściej wykorzystywane to:
Odchylenie standardowe
• charakteryzuje przeciętne odchylenie wartości od wartości średniej,
• w obliczeniach ważna jest wielkość odchylenia a nie jego kierunek, stąd jego
interpretacja łatwa jest tylko w przypadku rozkładów symetrycznych lub umiarkowanie
skośnych,
• zakres (x ± s ) przyjmuje się jako obszar typowej zmienności badanej cechy
Odchylenie ćwiartkowe
• szerokość przedziału, w którym leży 50% wartości najbliższych wartości środkowej
• w przypadku rozkładów niesymetrycznych przedział (Q1; Q3) nie jest symetryczny
względem mediany, ale lepiej oddaje obszar typowej zmienności badanej cechy,
niż zakres (x ± s )
Generalna zasada:
• Statystyki parametryczne wykorzystujemy najczęściej do opisu rozkładów o tendencji
centralnej czyli takich, w których punkt skupienia znajduje się w środku rozkładu
(symetryczne) lub w jego pobliżu (umiarkowanie asymetryczne)
• Statystyki nieparametryczne można stosować do opisu każdego typu rozkładu, lecz są
szczególnie przydatne w analizie szeregów silnie asymetrycznych i takich, w których
nie posiadamy pełnych informacji o rozkładzie (są otwarte przedziały klasowe)
Statystyki względne (współczynnik zmienności) stosujemy, gdy porównujemy rozkłady:
• Różnych cech
• Tej samej cechy w różnych zbiorowościach