STATYSTYKA OPISOWA LICZBOWE CHARAKTERYSTYKI(MIARY

Transkrypt

STATYSTYKA OPISOWA LICZBOWE CHARAKTERYSTYKI(MIARY
STATYSTYKA OPISOWA
LICZBOWE CHARAKTERYSTYKI(MIARY)
Aby opisać rozkład badanej zmiennej, korzystamy z
pewnych charakterystyk liczbowych. Dzielimy je na 4
grupy.
1. Określenie przeciętnej wartości zmiennej lub wartości,
wokół której grupują się pomiary; próbujemy odpowiedzieć na pytanie: „Jaka wartość zmiennej jest najbardziej
typowa?” Dokonujemy tego przez obliczenie miar położenia (tendencji centralnej).
2. Określenie zmienności czy też rozproszenia wartości
zmiennej (najczęściej wokół pewnej wartości typowej);
próbujemy odpowiedzieć na pytanie: „Jak bardzo typowa jest ta wartość typowa?” Dokonujemy tego przez
obliczenie miar rozproszenia.
3. Określenie stopnia asymetrii rozkładu zmiennej. Dokonujemy tego przez obliczenie miar asymetrii.
4. Określenie stopnia skupienia i spłaszczenia (w stosunku do ksztaltu krzywej rozkładu normalnego standardowego) rozkładu zmiennej. Dokonujemy tego przez
obliczenie miar koncentracji.
1
Miary polożenia.
Dla zmiennych poziomu nominalnego używamy dominanty (mody). Jest to najczęściej spotykana wartość
(kategoria) zmiennej.
Dla zmiennych poziomu porządkowego, oprócz dominanty, używamy też mediany. Mediana to taka liczba,
że połowa wartości zmiennej jest większa od niej, a
połowa jest mniejsza od niej. Wyznacza się wzorem:

, n jest nieparzyste

 x( n+1
2 )
Me =

 x( n2 )+x( n2 +1)
, n jest parzyste.
2
Indeksy w nawiasach oznaczają, że wartości x1, . . . , xn
zostały uporządkowane w sposób niemalejący, czyli
x(1) ≤ x(2) ≤ . . . ≤ x(n).
Dla zmiennych poziomu ilościowego, oprócz dominanty
i mediany, używamy też srednią arytmetyczną (średnią). Wyznacza się wzorem:
n
1∑
x̄ =
xi .
n i=1
Średnia jest lepsza od mediany dla rozkładów bliskich
do symetrycznych, gorsza od mediany dla rozkładów
dalekich od symetrycznych lub w obecności wartości
odstających (oddalonych).
2
Dla zmiennych poziomu ilościowego czasami uzywamy
jeszcze nastepujących miar położenia:
średnia ważona xw =
n
∑
xiwi, gdzie wi ≥ 0,
i=1
√
n
n
∑
wi = 1;
i=1
x1 · x2 · . . . · xn;
n
średnia harmoniczna xh = ∑n 1 .
średnia geometryczna xg =
i=1 xi
Szczególnym przypadkiem średniej ważonej (oprócz średniej arytmetycznej) jest średnia ucięta:
n−k
∑
1
x(i),
xu =
n − 2k
i=k+1
gdzie k jest wyznaczoną liczbą naturalną nie przewyższającą zwykle 5% wartości n.
Kwantyle. To są liczby, które dzielą zbiór wartości
badanej cechy na równe części pod wzgledem liczby obserwowanych wartości. Najczęściej używane kwantyle
to: kwartyle (3 kwartyle, podział na 4 części; drugi
kwartyl to mediana), decyle (9 decyli, podział na 10
części), percentyle (9 percentyli, podział na 100 części).
Pożytecznym wykresem, tworzonym na podstawie kwartyli, jest wykres skrzyńkowy.
3
Miary rozproszenia.
Używane są dla zmiennych poziomu ilościowego.
Rozstęp. Jest to różnica pomiędzy najwiekszą a najmniejszą wartością zmiennej.∑
Odchylenie przeciętne: n1 ni=1 |xi − x̄|.
∑n
1
2
Wariancja: s = n i=1(xi − x̄)2.
√ ∑
Odchylenie standardowe: s = n1 ni=1(xi − x̄)2.
Współczynnik zmienności: v = x̄s pod warunkiem,
że x̄ ̸= 0. Ten ostatni współczynnik jest pożyteczny
wtedy, gdy zmienność cechy rośnie wraz ze wzrostem
jej wartości lub przy przeskalowaniu wartosci zmiennej.
Miara asymetrii.
Używana jest dla zmiennych poziomu ilościowego.
Współczynnik skośności:
∑n
n i=1(xi − x̄)3
Sk =
.
3
(n − 1)(n − 2)s
Sk = 0 odpowiada rozkładowi idealnie symetrycznemu,
Sk < 0 oznacza asymetrię lewostronną, Sk > 0 asymetrię prawostronną.
4
Miara koncentracji.
Używana jest dla zmiennych poziomu ilościowego.
Kurtoza:
∑n
∑n
4
n(n + 1) i=1(xi − x̄) − 3(n − 1)( i=1(xi − x̄)2)2
K=
.
(n − 1)(n − 2)(n − 3)s4
K = 0 odpowiada rozkładowi normalnemu standardowemu, K < 0 oznacza rozkład bardziej spłaszczony
od normalnego standardowego, K > 0 rozkład bardziej
wysmukły, niż normalny standardowy.
5

Podobne dokumenty