Statystyka Średnie pozycyjne
Transkrypt
Statystyka Średnie pozycyjne
Statystyka Statystyka – nauka zajmująca się wykrywaniem, badaniem i opisywaniem zależności występujących w zjawiskach masowych; zbiór metod służących gromadzeniu, prezentacji, analizie i interpretacji danych. Przedmiotem badania statystycznego jest zbiorowość statystyczna, zwana też populacją. Zbiorowość statystyczna – zbiór elementów (osób, przedmiotów, itp.) mających jedną lub kilka wspólnych cech. Cecha statystyczna – właściwość, ze względu na którą wykonywane jest badanie (inaczej zmienna losowa). Jednostka statystyczna – element zbiorowości statystycznej. Próba – część (podzbiór) zbiorowości, która podlega badaniu ze względu na ustaloną cechę. Liczebność zbiorowości – liczba jednostek w zbiorowości. Częstość względna – stosunek częstości występowania danej wartości cechy do liczby wszystkich danych. Wyniki badań stanowiące materiał statystyczny przedstawiamy w postaci szeregów statystycznych (prosty, rozdzielczy) oraz w postaci graficznej (diagramy i wykresy). Średnie pozycyjne Średnia arytmetyczna Średnią arytmetyczną prostą liczb x1 , x 2 , Κ , x n nazywamy stosunek sumy tych liczb do ich ilości, tzn.: x + x2 + Κ + xn x= 1 . n Przykład: Spółka handlowa wynajmuje 6 pomieszczeń magazynowych, których powierzchnia wynosi odpowiednio (w m2): 52, 44, 46, 65, 78, 90. Jaka jest przeciętna powierzchnia wynajmowanego przez spółkę pomieszczenia magazynowego? x= 52 + 44 + 46 + 65 + 78 + 90 375 = = 62,5 [m2] 6 6 Średnią arytmetyczną ważoną liczb x1 , x 2 , Κ , x n z wagami (z ilościami) odpowiednio n1 , n 2 , Κ , nk nazywamy stosunek sumy tych liczb do ich ilości, tzn.: x= n1 x1 + n 2 x 2 + Κ + n k x n . n1 + n2 + Κ + nk Przykład: Ania dała do przepisania na komputerze tekst. Okazało się, że na 15 przepisanych stronach występują następujące ilości błędów: 3, 1, 1, 2, 0, 3, 2, 1, 1, 2, 0, 1, 2, 0, 5. Przedstaw dane w postaci szeregu prostego, rozdzielczego oraz znajdź średnią ilo ść błędów przypadającą na stronę. 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 5 szereg prosty ilość błędów liczba stron na stronie (ni) 0 3 1 5 2 4 3 2 5 1 szereg rozdzelczy obliczenie średniej jako średniej arytmetycznej ważonej: 3 ⋅ 0 + 5 ⋅ 1 + 4 ⋅ 2 + 2 ⋅ 3 + 1 ⋅ 5 0 + 5 + 8 + 6 + 5 24 = = 1,6 x= = 3 + 5 + 4 + 2 +1 15 15 Przykład: Miesięczne wydatki na żywność losowo wybranych rodzin 3-osobowych pewnej gminy przedstawiają się następująco: 180-220 zł – 15 rodzin, 220-260 zł – 45 rodzin, 260-300 – 70 rodzin, 300-340 – 50 rodzin, 340-380 – 20 rodzin. Wyznacz średnie miesięczne wydatki rodziny. miesięczne liczba wartość wydatki [zł] rodzin środkowa 180 – 220 15 200 220 – 260 45 240 260 – 300 70 280 300 – 340 50 320 340 – 380 20 360 x= = 15 ⋅ 200 + 45 ⋅ 240 + 70 ⋅ 280 + 50 ⋅ 320 + 20 ⋅ 360 = 15 + 45 + 70 + 50 + 20 3000 + 10800 + 19600 + 16000 + 7200 56600 = = 283 200 200 Średnia harmoniczna Średnią harmoniczną liczb x1 , x 2 , Κ , x n nazywamy liczbę: n ~ x= . 1 1 1 + +Κ + x1 x 2 xn Średnią harmoniczną stosujemy jako miary przeciętnego poziomu zjawisk wyrażonych wielkościami względnymi, tj. uzyskiwanymi jako iloraz dwóch wielkości prostych, np. stosunek wykonanej pracy do czasu, stosunek przebytej drogi do czasu (średnia prędkość). Średnia geometryczna Mierząc stosunkowe zmiany zjawiska często chcemy ustalić średnie tempo tych zmian przypadające na jednostkę czasu. To średnie tempo ustalamy stosując średnią geometryczną. Średnią geometryczną dodatnich liczb x1 , x 2 , Κ , x n nazywamy liczbę: xˆ = n x1 ⋅ x 2 ⋅ Κ ⋅ x n . Mediana Mediana – taka wartość cechy, że połowa jednostek jest mniejsza od mediany, a połowa jest od niej większa, tzn.: - dla n nieparzystego: Me = x n+1 2 xn + xn - dla n parzystego: Me = 2 2 +1 2 Dla szeregu rozdzielczego mediana wyraża się następującym wzorem: n − (n1 + n2 + Κ + n m−1 ) 2 Me = x0 m + ⋅ hm nm gdzie: x0 m - dolna granica przedziału, w którym występuje mediana n - całkowita liczebność zbiorowości n1 , n 2 , Κ , nm −1 - liczności przedziałów: pierwszego, drugiego, …, poprzedzającego ten, w którym występuje mediana nm - liczność przedziału, w którym znajduje się mediana hm - rozpiętość przedziału, w którym znajduje się mediana Dominanta Dominanta (moda) – wartość cechy, występująca najczęściej w zbiorowości. Dla szeregów rozdzielczych dominanta wyraża się następującym wzorem: nm − nm −1 Mo = x 0m + ⋅ hm (nm − nm −1 ) + (n m − nm +1 ) gdzie: x0 m - dolna granica przedziału, w którym występuje dominanta nm , nm −1 , nm +1 - odpowiednio liczebność przedziału, w którym znajduje się dominanta, przedziału poprzedniego oraz następnego hm - rozpiętość przedziału, w którym znajduje się dominanta Kwantyle Kwantyle - wartości cechy badanej zbiorowości, przedstawionej w postaci szeregu statystycznego, które dzielą zbiorowość na określone części pod względem liczby jednostek, części te pozostają do siebie w określonych proporcjach. Kwartyl pierwszy - dzieli zbiorowość na dwie części w ten sposób, że 25% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu, a 75% równe bądź wyższe od tego kwartyna. Dla szeregu rozdzielczego: n − (n1 + n 2 + Κ + n m−1 ) 4 Q1 = x0 m + ⋅ hm nm Kwartyl drugi – mediana Kwartyl trzeci - dzieli zbiorowość na dwie części w ten sposób, że 75% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu Q3, a 25% równe bądź wyższe od tego kwartyla. Dla szeregu rozdzielczego: 3n − (n1 + n2 + Κ + n m −1 ) 4 Q3 = x 0m + ⋅ hm nm Decyle - decyl n -ty oznacza, że n ⋅ 10% jednostek ma wartości cechy mniejsze bądź równe od decyla n -tego, a 100% − n ⋅ 10% jednostek ma wartości cechy większe lub równe od decyla n -tego. Rozstęp – różnica pomiędzy największą i najmniejszą wartością cechy w zbiorze R = x max − x min Rozstęp jest miarą charakteryzującą empiryczny obszar zmienności badanej cechy, nie daje on jednak informacji o zróżnicowaniu poszczególnych wartości cechy w zbiorowości. Rozstęp ćwiartkowy – różnica pomiędzy kwartylem trzecim i pierwszym. RQ = Q3 − Q1 Miary zróżnicowania cechy Wariancja - jest to średnia arytmetyczna kwadratów odchyleń poszczególnych wartości cechy od średniej arytmetycznej zbiorowości ( x1 − x ) 2 + ( x 2 − x ) 2 + Κ + ( x n − x ) 2 2 ω = n Dla szeregu rozdzielczego z przedziałami klasowymi wariancja wyraża się wzorem: n ⋅ ( x& − x ) 2 + n2 ⋅ ( x&2 − x ) 2 + Κ + nk ⋅ ( x&k − x ) 2 ω2 = 1 1 n gdzie: n1 , n 2 , Κ , nk - liczebności poszczególnych przedziałów (klas) x&1 , x&2 , Κ , x&k - wartości środkowe poszczególnych przedziałów Odchylenie standardowe - pierwiastek kwadratowy z wariancji. ω = ω2 Odchylenie standardowe stanowi miarę zróżnicowania o jednostce zgodnej z jednostką badanej cechy, określa przeciętne zróżnicowanie poszczególnych wartości cechy od średniej arytmetycznej Typowy obszar zmienności cechy – obszar, w którym około 2/3 wszystkich jednostek badanej zbiorowości statystycznej posiada wartości cechy w tym przedziale: x − ω < xtyp < x + ω Odchylenie ćwiartkowe - parametr określający odchylenie wartości cechy od mediany. (Q − Me) + ( Me − Q1 ) Q3 − Q1 Q= 3 = 2 2 Odchylenie ćwiartkowe mierzy poziom zróżnicowania tylko części jednostek; po odrzuceniu 25% jednostek o wartościach najmniejszych i 25% jednostek o wartościach największych. Typowy obszar zmienności cechy: Me − Q < xtyp < Me + Q Współczynnik zmienności (klasyczny) – iloraz bezwzględnej mary zmienności cechy i średniej wartości tej cechy: - klasyczny - pozycyjny - Vs = ω x Q VQ = Me lub lub Vs = ω ⋅ 100% x Q VQ = ⋅ 100% Me Współczynnik zmienności określa udział odchylenia standardowego (lub odchylenia ćwiartkowego) w średniej (lub w medianie). Miary asymetrii Współczynnik asymetrii – wyraża się wzorem 1 ( x1 − x ) 3 + ( x 2 − x ) 3 + Κ + ( x n − x ) 3 A= ⋅ n ω3 lub dla szeregu rozdzielczego 1 n1 ⋅ ( x1 − x ) 3 + n 2 ⋅ ( x 2 − x ) 3 + Κ + nk ⋅ ( x k − x ) 3 A= ⋅ n ω3 Współczynnik skośności – wyraża się wzorem x − Mo A= ω Współczynnik asymetrii (pozycyjny) – wyraża się wzorem (Q − Me) − ( Me − Q1 ) Q3 + Q1 − 2Me Q3 + Q1 − 2Me A= 3 = = (Q3 − Me) + (Me − Q1 ) Q3 − Q1 2Q Współczynnik A określa siłę oraz kierunek asymetrii: - jeżeli A = 0 , to rozkład wartości cechy jest symetryczny - jeżeli A < 0 , to rozkład wartości cechy jest lewostronnie asymetryczny (skupia się na większych wartościach cechy) - jeżeli A > 0 , to rozkład wartości cechy jest prawostronnie asymetryczny (skupia się na mniejszych wartościach cechy) Współczynnik koncentracji (kurioza, współczynnik skupienia) – miara skupienia poszczególnych obserwacji wokół średniej wyrażana wzorem: 1 ( x − x ) 4 + ( x 2 − x ) 4 + Κ + ( xn − x ) 4 K= ⋅ 1 n ω4 lub dla szeregu rozdzielczego 1 n1 ⋅ ( x1 − x ) 4 + n 2 ⋅ ( x 2 − x ) 4 + Κ + nk ⋅ ( x k − x ) 4 K= ⋅ n ω4 Współczynnik K określa koncentrację cech wokół średniej: - im wyższa jest wartość współczynnika K , tym większa koncentracja cech wokół średniej, a krzywa liczebności bardziej smukła - małe wartości współczynnika K świadczą o mniejszej koncentracji cech wokół średniej, a co za tym idzie, krzywa liczebności jest spłaszczona. Współczynnik korelacji wyznaczamy ze wzoru: rxy = 1 ⋅ [( x1 − x )( y1 − y ) + ( x 2 − x )( y 2 − y ) + Κ + ( x n − x )( y n − y )] cov( x, y ) n = ω xω y ( x1 − x ) 2 + ( x 2 − x ) 2 + Κ + ( x n − x ) 2 ⋅ ( y1 − y ) 2 + ( y 2 − y ) 2 + Κ + ( y n − y ) 2 [ ][ ] Siła zależności dla współczynników korelacji: brak zależności (0 − 0,2) , słaba (0,2 − 0,4) , średnia (0,4 − 0,7) , silna (0,7 − 0,9) , bardzo silna (0,9 − 1) . Przykład: Miesięczne dodatkowe dochody studentów pewnej uczelni w zbadanej grupie 120 wylosowanych osób były następujące: dochody [zł] liczba studentów 150-250 250-350 350-450 450-550 550-650 650-750 750-850 850-950 950-1050 7 10 21 30 19 15 10 6 2 Oblicz: dominantę, kwartyl pierwszy, medianę, kwartyl trzeci, rozstęp ćwiartkowy, wariancję, odchylenie standardowe, odchylenie ćwiartkowe, współczynnik zmienności, współczynnik asymetrii oraz wyznacz typowy obszar zmienności.