Średnia geometryczna vs. arytmetycznej

Transkrypt

Średnia geometryczna vs. arytmetycznej
Wykład nr 2
Statystyka opisowa część 2
Plan wykładu
1. Uwagi wstępne
2. Miary tendencji centralnej
2.1. Wartości średnie
2.2. Miary pozycyjne
2.3. Dominanta
3. Miary rozproszenia
4. Miary asymetrii
5. Miary koncentracji
6. Podsumowanie
Statystyka opisowa
Cel – zwięzłe przedstawienie ogólnej charakterystyki istotnych
właściwości badanej zbiorowości.
Podstawowe zadania:
1. Określenie przeciętnego wielkości i rozmieszczenia wartości
zmiennej – miary położenia / tendencji centralnej.
2. Określenie granic zmienności wartości zmiennej – miary
rozproszenia (zmienności, dyspersji).
3. Określenie parametrów rozkładu wartości zmiennej – miary
asymetrii i koncentracji rozkładu oraz podobieństwa struktury.
4. Ocena zmienności zjawisk w czasie.
5. Określenie współzmienności – miary współzmienności.
Statystyki opisowe w odniesieniu do skal pomiarowych
© Jerzy Stefanowski
Miary położenia
Miary położenia (przeciętne) wskazują miejsce, w którym leży
wartość najlepiej reprezentująca wielkości wchodzące w skład
szeregu statystycznego.
Miary położenia informują o przeciętnym (średnim, typowym)
poziomie wartości rozważanej cechy.
Typowe miary położenia:
© Jerzy Stefanowski
Średnia arytmetyczna
Stosowane dla skal metrycznych
Średnia arytmetyczna
Definiowana jako
1 n
∑ xi
n i =1
gdzie xi wartość i-tego pomiaru, a n – liczebność populacji.
x=
Przykład:
W pewnym doświadczeniu medycznym bada się czas snu (w
minutach) pacjentów. Zmierzono u n = 12 losowo wybranych
pacjentów czas: 435, 389, 533, 324, 561, 395, 416, 500, 499, 397,
356 i 398.
Średni czas x =
435 + 389 + K + 398
=?
12
Własności średniej arytmetycznej:
n
∑ ( xi − x )
i =1
inne (mniej dogodne później)
© Jerzy Stefanowski
Inne rodzaje średnich arytmetycznych
Średnia ważona (wi to tzw. wagi):
n
∑ wi ⋅ xi
x = i =1n
∑ wi
i =1
Przykład testu psychologicznego:
A co z szeregami rozdzielczymi?
Średnia szeregu punktowego:
Jeśli wartości wyników, jakie przybiera zmienna w
próbie x1, x2, …, xk występują z licznością n1, n2, …, nk ,
to średnia arytmetyczna jest zdefiniowana jako:
k
∑ ni ⋅ xi
x = i =1
n
,
k
gdzie k jest liczbą różnych wartości zmiennej, a n = ∑ ni .
i =1
© Jerzy Stefanowski
Przykład:
W przedsiębiorstwie zajmującą się produkcją pewnych
narzędzi badano wydajność pracy (ilość sztuk
wyprodukowanych w ciągu dnia) 60 pracowników.
Ustalmy, jaka jest średnia wydajność pracy przypadająca na
jedną osobę.
Dostępne jest zestawienie:
© Jerzy Stefanowski
Średnia arytmetyczna dla szeregu rozdzielczego
przedziałowego
zdefiniowana jako:
k
∑ ni ⋅ x&i
x = i =1
,
n
gdzie k jest liczbą różnych wartości zmiennej,
ni – liczność i-tego przedziału klasowego,
x&i – wartość średnia i-tego przedziału klasowego.
Komentarz – jest to przybliżony sposób obliczeń.
Przykład 4.
Czy dotychczasowe sposoby wyznaczania średniej są
zawsze właściwe?
Ograniczenia średniej arytmetycznej:
• wartości skrajne mają silny wpływ na jej wartość,
• średniej arytmetycznej nie można policzyć, gdy skrajne
przedziały szeregu są rozwarte,
• traci swoją wartość poznawczą w przypadku rozkładów silnie
asymetrycznych i wielomodowych,
• nieadekwatna dla niemetrycznych skal, prób małolicznych.
© Jerzy Stefanowski
Przykład obliczenia średniej z szeregu…
Rozważmy rozkład miesięcznych zasadniczych wynagrodzeń
pracowników zatrudnionych w pewnej firmie. (…) Oblicz średnie
wynagrodzenie pracownika z wyższym wykształceniem.
© Jerzy Stefanowski
Inne rodzaje średnich
Średnia ucinana (z parametrem k) :
n−k
1
xtk =
∑ xi
n − 2 ⋅ k i = k +1
Średnie dla analizy dynamik zjawisk i stosowane dla skal
ilorazowych
Średnia geometryczna –stosowana dla oceny średniego tempa
zmian zjawiska w czasie (oraz gdy w szeregu występują znaczne
różnice między obserwacjami; mniej wrażliwa na krańcowe
obserwacje „odstające”).
Zdefiniowana jako:
xG = n x1x2 K xn
Średnie harmoniczne:
Używana, gdy wartości zmiennej podane są w jednostkach
względnych, np. przeciętna szybkość (w km/godz.), przeciętna cena
towarów (wyrażona w liczbie jednostek za jednostkę pieniężną),
gęstość zaludnienia (os/km2).
Średnia harmoniczna prosta – zdefiniowana jako
xh =
© Jerzy Stefanowski
n
∑in=1
1
xi
Miary pozycyjne
Określają pozycję pewnego (typowego) przypadku w stosunku do
innych przypadków (ze względu na ich położenie w zbiorowości).
Mediana (wartość środkowa) próby
Jest to wartość, dla której dokładnie połowa wyników w próbie jest
od niej mniejsza lub równa, a druga połowa jest od niej większa lub
równa.
Jak wyznaczać medianę?
xmed
x(( n +1) 2 )
gdy n jest nieparzyste

=
0,5 ⋅ ( x(n 2 ) + x(n 2 +1) ) gdy n jest parzyste
Przykład 9.
Zapytano 7 osób o wiek i otrzymano następujące odpowiedzi:
18, 21, 43, 27, 51, 35, 29 lat. Wyznacz medianę.
© Jerzy Stefanowski
Wyznaczenie mediany z szeregu rozdzielczego:
h n
xmed = x0 + 0 ⋅ ( − F−1 )
n0 2
gdzie:
x0 – dolna granica przedziału klasowego, który zawiera
pierwszych 50% skumulowanych częstości.
h0 – rozpiętość przedziału klasowego zawierającego medianę.
n0 – częstość odpowiadająca przedziałowi klasowemu
zawierającego medianę.
n – ogólna liczna obserwacji.
F-1 – częstość skumulowana przedziału poprzedzającego przedział
klasowego, który zawiera pierwszych 50% skumulowanych
częstości.
Przykład obliczeń:
© Jerzy Stefanowski
Kwantale (decyle, kwartyle, percentyle)
Wartości cechy (mierzonej na skali, co najmniej porządkowej),
które dzielą próbę na określone części pod względem liczby
obserwacji.
Najczęściej stosowane:
– kwartale (podział na 4 części),
– decyle (podział na 10 części),
– percentyle (podział na 100 części),
Ilustracja graficzna:
© Jerzy Stefanowski
Dominanta (wartość modalna, moda)
Definicja: jest to ta kategoria zmiennej nominalnej (lub
porządkowej czy wartość liczbowa), która występuje najczęściej.
Przykład.
Zbadano marki komputerów, które używa 10 osób. Są one
następujące:
HP, Del, Cm, HP, IBM, Cm, Cm, No, Cm, IBM.
Wyznaczyć wartość modalną.
Wyniki pomiarów powinny być wcześniej pogrupowane w
odpowiednie szeregi.
Wyznaczanie dominanty jest dopuszczalne, gdy rozkład zmiennej
jest jednomodalny a jego asymetria jest umiarkowana.
Jeśli zbiorowość jest niejednorodna, a rozkład zmiennej ma 2,3 lub
więcej szczytów to mówimy o rozkładach binominalnych,
trimodalnych, itd.
© Jerzy Stefanowski
Wyznaczenie dominanty z szeregu rozdzielczego:
n0 − n−1
xmod = x0 +
⋅ h0
( n0 − n−1 ) + ( n0 − n+1 )
gdzie:
x0 – dolna granica przedziału klasowego z największą częstością.
h0 – rozpiętość przedziału klasowego zawierającego dominantę
n0 – częstość odpowiadająca przedziałowi klasowemu z
największą częstością.
n-1 – częstość odpowiadająca przedziałowi poprzedzającemu.
n+1 – częstość odpowiadająca przedziałowi następnemu.
Przykład:
© Jerzy Stefanowski
Miary rozproszenia
Nazywane także miarami zmienności lub dyspersji.
Służą do oceny czy wartości cechy są bardzo rozproszone lub
skoncentrowane wokół wartości przeciętnej.
© Jerzy Stefanowski
Miary rozproszeni są zależne od skali pomiarowej.
Skala przedziałowa
Rozstęp (różnica między pomiarem najwyższym i najniższym).
R = xmax – xmin
Odchylenie średnie
Dm =
∑in=1 xi − x
n
Wariancja i odchylenie standardowe:
wariancja w próbie
2
s =
∑in=1 ( xi − x )
2
n −1
odchylenie standardowe s – pierwiastek z wariancji
s=
∑in=1( xi − x )
2
n −1
Różnice w obliczaniu dla próby i populacji
© Jerzy Stefanowski
Przykład:
W dwóch grupach chorych zmierzono ciśnienie skurczowe krwi.
Otrzymano następujące wyniki: (Grupa-1 145, 125, 130, 155, 140,
150, 135) (Grupa-2 115, 150, 100, 180, 140, 165, 130). Oblicz
podstawowe miary tendencji centralnej i rozproszenia.
____________________________________________________
Własności odchylenia standardowego:
• jest tym większe, im większy jest rozrzut wokół średniej,
• gdyby wszystkie pomiary były sobie równe, odchylenie
standardowe również byłoby równe zero,
• w przypadku rozkładu normalnego – obowiązuje tzw. reguła
„trzech sigm”.
Inne komentarze:
• żaden wskaźnik rozproszenia nie powinien zmieniać swej
wartości, gdy do wszystkich elementów próby zostanie dodana
ta sama liczba (dodatnią lub ujemną),
• pomnożenie każdego elementu próby przez tę samą liczbę
powinno prowadzić do pomnożenia wskaźnika przez wartość
bezwzględną tej liczby,
• wskaźniki rozproszenia nie są odporne na wartości odstające w
próbie.
© Jerzy Stefanowski
Wyznaczenie wariancji z szeregu rozdzielczego:
k
∑ ni ⋅ ( x&i − x )
s 2 = i =1
Przykład:
© Jerzy Stefanowski
n −1
2
Inne miary rozproszenia
Skala nominalna – miary informacji (np. entropia rozkładu
danych).
Skala porządkowa – rozstęp międzykwartylowy - ćwiartkowy
(przedział między kwartylem pierwszym a trzecim).
IQR = Q3 – Q1
Skala ilorazowa – tzw. względne miary zróżnicowania
Współczynnik zmienności:
Vs =
s
x
Stosowany w porównywania siły dyspersji:
– kilku zbiorowości pod względem tej samej zmiennej,
– jednej zbiorowości, ale ze względu na kilka różnych zmiennych.
Przykład:
© Jerzy Stefanowski
Miary asymetrii
Po co są potrzebne?
Przykład ilustracyjny
Badano czas reakcji (w minutach) na lek w trzech grupach 100osobowych. Dane przedstawiono w poniższej tabeli
Czas reakcji
Grupa 1
Grupa 2
Grupa 3
10,20
20,30
30,40
40,50
50,60
10
20
40
20
10
5
35
25
25
10
10
25
25
35
5
Średnia arytmetyczna i wariancja są jednakowe dla wszystkich grup
i wynoszą x =35 oraz s2=120.
Ale czy grupy są identyczne? A co z wizualizacją rozkładów?
Wykonajmy histogramy!
© Jerzy Stefanowski
Grupa1
liczba osób
50
40
30
20
10
0
10,20
20,30
30,40
40,50
50,60
Czas reakcji na lek (m in)
Liczba osób
Grupa2
40
35
30
25
20
15
10
5
0
10,20
20,30
30,40
40,50
50,60
Czas reakcji na lek (m in)
liczba osób
Grupa3
40
35
30
25
20
15
10
5
0
10,20
20,30
30,40
40,50
Czas reakcji na lek (min)
Dokonaj interpretacji!
© Jerzy Stefanowski
50,60
Miary koncentracji
© Jerzy Stefanowski
Podsumowanie
Omówiono:
Więcej o danych:
późniejsze wykłady + literatura.
Warto rozszerzyć wiedzę, np.
• zapoznać się z zagadnieniami,
• ,
• …
© Jerzy Stefanowski