STATYSTYKA OPISOWA LICZBOWE CHARAKTERYSTYKI(MIARY
Transkrypt
STATYSTYKA OPISOWA LICZBOWE CHARAKTERYSTYKI(MIARY
STATYSTYKA OPISOWA LICZBOWE CHARAKTERYSTYKI(MIARY) Aby opisać rozkład badanej zmiennej, korzystamy z pewnych charakterystyk liczbowych. Dzielimy je na 4 grupy. 1. Określenie przeciętnej wartości zmiennej lub wartości, wokół której grupują się pomiary; próbujemy odpowiedzieć na pytanie: „Jaka wartość zmiennej jest najbardziej typowa?” Dokonujemy tego przez obliczenie miar położenia (tendencji centralnej). 2. Określenie zmienności czy też rozproszenia wartości zmiennej (najczęściej wokół pewnej wartości typowej); próbujemy odpowiedzieć na pytanie: „Jak bardzo typowa jest ta wartość typowa?” Dokonujemy tego przez obliczenie miar rozproszenia. 3. Określenie stopnia asymetrii rozkładu zmiennej. Dokonujemy tego przez obliczenie miar asymetrii. 4. Określenie stopnia skupienia i spłaszczenia (w stosunku do ksztaltu krzywej rozkładu normalnego standardowego) rozkładu zmiennej. Dokonujemy tego przez obliczenie miar koncentracji. 1 Miary polożenia. Dla zmiennych poziomu nominalnego używamy dominanty (mody). Jest to najczęściej spotykana wartość (kategoria) zmiennej. Dla zmiennych poziomu porządkowego, oprócz dominanty, używamy też mediany. Mediana to taka liczba, że połowa wartości zmiennej jest większa od niej, a połowa jest mniejsza od niej. Wyznacza się wzorem: , n jest nieparzyste x( n+1 2 ) Me = x( n2 )+x( n2 +1) , n jest parzyste. 2 Indeksy w nawiasach oznaczają, że wartości x1, . . . , xn zostały uporządkowane w sposób niemalejący, czyli x(1) ≤ x(2) ≤ . . . ≤ x(n). Dla zmiennych poziomu ilościowego, oprócz dominanty i mediany, używamy też srednią arytmetyczną (średnią). Wyznacza się wzorem: n 1∑ x̄ = xi . n i=1 Średnia jest lepsza od mediany dla rozkładów bliskich do symetrycznych, gorsza od mediany dla rozkładów dalekich od symetrycznych lub w obecności wartości odstających (oddalonych). 2 Dla zmiennych poziomu ilościowego czasami uzywamy jeszcze nastepujących miar położenia: średnia ważona xw = n ∑ xiwi, gdzie wi ≥ 0, i=1 √ n n ∑ wi = 1; i=1 x1 · x2 · . . . · xn; n średnia harmoniczna xh = ∑n 1 . średnia geometryczna xg = i=1 xi Szczególnym przypadkiem średniej ważonej (oprócz średniej arytmetycznej) jest średnia ucięta: n−k ∑ 1 x(i), xu = n − 2k i=k+1 gdzie k jest wyznaczoną liczbą naturalną nie przewyższającą zwykle 5% wartości n. Kwantyle. To są liczby, które dzielą zbiór wartości badanej cechy na równe części pod wzgledem liczby obserwowanych wartości. Najczęściej używane kwantyle to: kwartyle (3 kwartyle, podział na 4 części; drugi kwartyl to mediana), decyle (9 decyli, podział na 10 części), percentyle (9 percentyli, podział na 100 części). Pożytecznym wykresem, tworzonym na podstawie kwartyli, jest wykres skrzyńkowy. 3 Miary rozproszenia. Używane są dla zmiennych poziomu ilościowego. Rozstęp. Jest to różnica pomiędzy najwiekszą a najmniejszą wartością zmiennej.∑ Odchylenie przeciętne: n1 ni=1 |xi − x̄|. ∑n 1 2 Wariancja: s = n i=1(xi − x̄)2. √ ∑ Odchylenie standardowe: s = n1 ni=1(xi − x̄)2. Współczynnik zmienności: v = x̄s pod warunkiem, że x̄ ̸= 0. Ten ostatni współczynnik jest pożyteczny wtedy, gdy zmienność cechy rośnie wraz ze wzrostem jej wartości lub przy przeskalowaniu wartosci zmiennej. Miara asymetrii. Używana jest dla zmiennych poziomu ilościowego. Współczynnik skośności: ∑n n i=1(xi − x̄)3 Sk = . 3 (n − 1)(n − 2)s Sk = 0 odpowiada rozkładowi idealnie symetrycznemu, Sk < 0 oznacza asymetrię lewostronną, Sk > 0 asymetrię prawostronną. 4 Miara koncentracji. Używana jest dla zmiennych poziomu ilościowego. Kurtoza: ∑n ∑n 4 n(n + 1) i=1(xi − x̄) − 3(n − 1)( i=1(xi − x̄)2)2 K= . (n − 1)(n − 2)(n − 3)s4 K = 0 odpowiada rozkładowi normalnemu standardowemu, K < 0 oznacza rozkład bardziej spłaszczony od normalnego standardowego, K > 0 rozkład bardziej wysmukły, niż normalny standardowy. 5