Miary położenia i rozproszenia w opisie rozkładu wartości zmiennej
Transkrypt
Miary położenia i rozproszenia w opisie rozkładu wartości zmiennej
Miary położenia i rozproszenia w opisie rozkładu wartości zmiennej w zbiorze Miary położenia opisują centralną tendencję w zbiorze a więc typowe (najbardziej prawdopodobne) wartości dla danego zbioru. Dla zmiennych nominalnych jedyną miarą tendencji centralnej jest modalna czyli najczęściej powtarzająca się kategoria w zbiorze danych. Dla zmiennych porządkowych możliwe jest wskazanie dwóch miar tendencji centralnej: modalnej oraz mediany. Mediana jest czasem nazywana wartością połówkową, gdyż jest to wartość, poniżej której znajduje się połowa obserwacji, zaś druga połowa ulokowana jest powyżej tej wartości. Dla skal metrycznych miary położenia są trzy: modalna, mediana oraz średnia. Istnieją różne postacie średniej – zwykle korzystamy tylko ze średniej arytmetycznej. Miary rozproszenia opisują charakterystyczne dla zbioru rozproszenie wokół wartości centralnej. Dla skal metrycznych uznaną miarą rozproszenia jest odchylenie standardowe. Odchylenie standardowe obliczamy jako pierwiastek średniego kwadratu odchylenia od średniej. W małych zbiorach średni kwadrat odchyleń oblicza się dzieląc sumę kwadratów odchyleń przez liczbę obserwacji pomniejszoną o jeden (N-1). Średni kwadrat odchyleń od średniej nazywany jest wariancją. Odchylenie standardowe jest więc pierwiaskiem z wariancji. Inne miary rozproszenia to rozrzut (różnica między maksymalną a minimalną wartością zaobserwowanymi w zbiorze) oraz tzw. odchylenie ćwiartkowe czyli różnica między górnym a dolnym kwartylem. Dolny kwartyl to liczba powyżej której znajduje się ¾ obserwacji w zbiorze, dolny kwartyl to liczba powyżej której znajduje się ¼ obserwacji w zbiorze. Należy zauważyć, że podawanie miar tendencji centralnej bez miar rozporszenia nie ma sensu!!! Podając średnią obowiązkowo podajemy odchylenie standardowe. Podając medianę powinniśmy podać również odchylenie ćwiarkowe. Dlaczego? Zwróć uwagę na dwa zbiory obserwacji podane niżej: 4,4,4,4 2,2,6,6 Oba zbiory mają te same średnie ale rozproszenie wokół średnich jest zupełnie różne. Podając tylko średnie, opisalibyśmy te dwa zbiory jako identyczne, podczas gdy faktycznie są różne, gdyż różnią się właśnie rozproszeniem.