1. Rozkład empiryczny

Transkrypt

1. Rozkład empiryczny
WIELKA SGH-OWA
POWTÓRKA ZE STATYSTYKI
ROZKŁAD EMPIRYCZNY
Liczebności i częstości
• Liczebność – liczba osób/respondentów/badanych, którzy udzielili tej
konkretnej odpowiedzi. Podawana w osobach.
• Częstość – odsetek, jak często osoby/respondenci/badani udzielali tej
konkretnej odpowiedzi. Podawana w procentach (od 0 do 1 lub od 0%
do 100%).
• Procent – liczba osób, które udzieliły tej konkretnej odpowiedzi
dzielona przez wszystkie osoby, które wzięły udział w badaniu.
Szeregi rozdzielcze
Szereg rozdzielczy punktowy (jednostopniowy)
Ocena
2
3
3,5
4
4,5
5
Suma
Liczba studentów
12
31
17
21
11
8
100
Szereg przedziałowy (wielostopniowy)
Zarobki w PLN
(0 ; 1000>
(1000 ; 2000>
(2000 ; 3000>
(3000 ; 4000>
(4000 ; 5000>
(5000 ; 6000>
Suma
Liczba osób
623
978
651
421
213
114
3000
Dystrybuanta empiryczna
Ocena
2
3
3,5
4
4,5
5
Suma
Czętość
Skumulowana
Liczba studentów
liczba studentów studentów
12
31
17
21
11
8
100
12
43
60
81
92
100
Sumowanie liczby studentów
0,12
0,31
0,17
0,21
0,11
0,08
1
Dystrybuanta
empiryczna
0,12
0,43
0,6
0,81
0,92
1
-
Sumowanie częstości
studentów
Graficzna prezentacja
dystrybuanty empirycznej
Miary opisu rozkładu
Miary położenia rozkładu
• Średnia arytmetyczna
• Mediana
• Kwantyle
• Dominanta
Zróżnicowanie rozkładu cechy
• Inaczej: dyspersja
• Miary zmienności:
•
•
•
•
•
•
Rozstęp
Wariancja
Odchylenie standardowe
Typowy obszar zmienności
Odchylenie ćwiartkowe
Współczynnik zmienności
Rozstęp
Wariancja
Odchylenie standardowe
Odchylenie ćwiartkowe
Współczynnik zmienności
Asymetria rozkładu cechy
• Miary asymetrii:
• Współczynnik skośności
• Współczynnik asymetrii
a) Asymetria lewostronna (ujemna)
b) Asymetria prawostronna (dodatnia)
c) Symetria
Współczynnik skośności
Współczynnik asymetrii
Pozycyjny współczynnik asymetrii
Zróżnicowanie i asymetria
0-0,2
0,2-0,4
0,4-0,6
0,6-0,8
0,8-1
Bardzo słabe
Słabe
Umiarkowane
Silne
Bardzo silne
PRZYKŁADOWE ZADANIA
Wykorzystane do tej części zadania pochodzą z książki
„Statystyka. Lubię to!” Marii Wieczorek
Zadanie nr 1
1.28. Czas oczekiwania klientów na obsługę w okienku bankowym (w
min) był następujący:
Czas oczekiwania
Częstość względna
<0 ; 4>
0,02
(4 ; 8>
0,04
(8 ; 12>
0,2
(12 ; 16> (16 ; 20>
0,4
0,34
Ponadto wiadomo, że średnia i wariancja w tej próbie są odpowiednio
równie 14 i 14,08. Czy prawdą jest że:
a) Większość interesantów czeka dłużej niż 15 min?
b) Mniej niż połowa interesantów czeka krócej niż wynosi średni czas?
c) Współczynnik zmienności czasu oczekiwania
przekracza 30%?
a) Większość interesantów czeka dłużej niż 15 min?
Większość to ponad połowa, a jeśli połowa to mediana. Najpierw
szacujemy przedział, w którym znajduje się mediana (pierwszy przedział,
dla którego częstość skumulowana przekracza 0,5). Wzór na medianę w
przypadku danych podanych w postaci przedziałów:
me  x0 m
1
   Fn
2
x 
0m
4
 hm
 12  0,5  0,26
 14,4

0,4
 wm
x – dolna granica przedziału w której znajduje się mediana
F x  – dystrybuanta empiryczna dla dolnej granicy przedziału mediany
h – rozpiętość przedziału w którym znajduje się mediana
w – częstość dla przedziału w którym znajduje
0m
n
0m
m
m
się mediana
a) Większość interesantów czeka dłużej niż 15 min?
Obliczyliśmy już, że: me  14,4
Zatem możemy stwierdzić, że odpowiedź na pytanie postawione w zadaniu
brzmi nie - większość interesantów czeka krócej niż 15 minut. Jest tak
ponieważ dokładnie połowa interesantów czeka dłużej lub dokładnie 14,4
min więc dłużej niż 15 min czeka mniej niż połowa.
b) Mniej niż połowa interesantów czeka krócej niż wynosi średni czas?
W poprzednim podpunkcie obliczyliśmy, że: me  14,4
Zatem mediana jest większa niż średnia, która wynosie 14: me  x
Tak więc możemy stwierdzić, że jest to prawda - mniej niż połowa
interesantów czeka krócej niż średni czas.
c) Współczynnik zmienności czasu oczekiwania przekracza 30%?
14,08
s
V 
 0,268
14
x
Korzystając z najprostszego wzoru na obliczenie współczynnika zmienności
otrzymujemy wartość 0,268. Wszystkie niezbędne do tego dane mamy
podane w treści zadania, wystarczy jedynie spierwiastkować wariancję
ponieważ we wzorze musimy użyć odchylenia standardowego. Po
zamienieniu tego ułamka na procenty uzyskujemy 26,8%, zatem
otrzymana wartość nie przekracza 30%.
Zadanie nr 2
1.30. Maturzystka Ewa decydując się na wybór wyższej uczelni, jako
jedno z kryteriów postanowiła wziąć pod uwagę czas (y – w
miesiącach), jaki upływa od ukończenia studiów na danej uczelni do
podjęcia pierwszej pracy. Losowe próby 20 absolwentów uczelni A oraz
po 40 absolwentów z uczelni B i C dały wyniki:
Charakterystyki rozkładu
Średnia arytmetyczna
__
 ( y  y)
2
i
Współczynnik skośności
A
6
B
3,4
C
4,1
42,75
19,11
31,59
0,1
0,2
-0,3
Zadanie nr 2 cd.
a) Jaki jest przeciętny czas poszukiwania pracy wśród wszystkich
zbadanych osób?
b) Porównać dyspersję (zróżnicowanie) czasu poszukiwania pracy przez
absolwentów poszczególnych uczelni.
c) Dla której (których) uczelni mediana czasu poświęconego na
poszukiwanie pracy jest wyższa niż czas średni i co to oznacza dla Ewy?
d) Którą uczelnię, biorąc pod uwagę najkrótszy czas poszukiwania pracy,
maturzystka powinna wybrać? Podać wyczerpującą argumentację.
a) Jaki jest przeciętny czas poszukiwania pracy wśród wszystkich
zbadanych osób?
20  6  40  3,4  40  4,1
y
 4,2
100
Średni czas poszukiwania pracy wśród wszystkich zbadanych osób
wynosi 4,2 miesiąca.
b) Porównać dyspersję (zróżnicowanie) czasu poszukiwania pracy przez
absolwentów poszczególnych uczelni.
Aby móc porównać zróżnicowanie w dwóch grupach musimy użyć
współczynnika zmienności, który mierzy zróżnicowanie względne
(zróżnicowanie zależne od średniej).
__
V

S
y
s
s
s
2
A
2
B
2
C



( y 
i
y) 2
n 1
( y 
i
__
y) 2
n 1
( y 
i
n 1
42,75

 2,25
19
VA

19,11
 0,49
39
VB
__
y) 2

31,59
 0,81
39
VC 
SA
y

0,49
 0,21
3,4

0,81
 0,22
4,1
B
SC
y
2,25
 0,25
6
A
SB
y

C
Najmniejszym zróżnicowaniem cechy charakteryzują się absolwenci
uczelni B, natomiast największym uczelni A.
c) Dla której (których) uczelni mediana czasu poświęconego na
poszukiwanie pracy jest wyższa niż czas średni i co to oznacza dla Ewy?
me  y dla uczelni C, ponieważ współczynnik skośności jest ujemny.
Oznacza to że czas poszukiwania pierwszej pracy przez większość
studentów tej uczelni jest wyższy niż średni czas
wyznaczony dla tych osób.
d) Którą uczelnię, biorąc pod uwagę najkrótszy czas poszukiwania pracy,
maturzystka powinna wybrać? Podać wyczerpującą argumentację.
Ewa powinna wybrać uczelnię B ponieważ średnia i zróżnicowanie czasu
poszukiwania pracy przez jej absolwentów jest najmniejsze (wynik
większości badanych nie odbiega wiele od średniej), dodatkowo
występuje najmocniejsza prawostronna asymetria (czyli więcej niż
połowa badanych osób szuka pierwszej pracy krócej niż wartość
średnia).
Zadanie nr 3
Zadanie nr 3
Liczba oglądanych seriali Liczba osób
wartość cechy (x)
liczebność (n)
0
3
1
7
2
9
3
19
4
12
5
10
suma
60
Interpretacja: Wśród badanych osób średnia liczba
oglądanych seriali wynosi 3.
ŚREDNIA
0 ∗ 3 + 1 ∗ 7 + 2 ∗ 9 + 3 ∗ 19 + 4 ∗ 12 + 5 ∗ 10
𝑥=
=
60
180
=
=3
60
Zadanie nr 3
Liczba oglądanych seriali Liczba osób
wartość cechy (x)
liczebność (n)
0
3
1
7
2
9
3
19
4
12
5
10
suma
60
Interpretacja: 50% badanych sąsiadów ogląda nie więcej
niż 3 seriale.
MEDIANA
𝑥30 + 𝑥31 3 + 3
me =
=
=3
2
2
Zadanie nr 3
Liczba oglądanych seriali Liczba osób
wartość cechy (x)
liczebność (n)
0
3
1
7
2
9
3
19
4
12
5
10
suma
60
Interpretacja: Wśród sąsiadów studenta, najwięcej było
takich, którzy oglądają 3 seriale.
DOMINANTA
Największa częstość dla x=3
do=3
Zadanie nr 3
Zadanie nr 3
Liczba oglądanych seriali Liczba osób
wartość cechy (x)
liczebność (n)
0
3
1
7
2
9
3
19
4
12
5
10
suma
60
(0 − 3)2 ∗ 3 + 1 − 3
2
BEZWZGLĘDNE ZRÓŻNICOWANIE CECHY
𝑠2 =
1,97~1,40
2 ∗ 19 + (4 − 3)2 ∗ 12 + (5 − 3)2 ∗ 10
∗
9
+
3
−
3
𝑠2 =
59
9 ∗ 3 + 4 ∗ 7 + 1 ∗ 9 + 0 ∗ 19 + 1 ∗ 12 + 4 ∗ 10 116
=
=
~1,97
59
59
∗7+ 2−3
2
𝑥 = 𝑚𝑒 = 𝑑𝑜 = 3
Zadanie nr 3
Liczba oglądanych seriali Liczba osób
wartość cechy (x)
liczebność (n)
0
3
1
7
2
9
3
19
4
12
5
10
suma
60
Interpretacja: Liczba oglądanych seriali wśród sąsiadów
różniła się od średniej wartości przeciętnie o 1,4.
𝑥 = 𝑚𝑒 = 𝑑𝑜 = 3
𝑠 2 = 1,97
BEZWZGLĘDNE ZRÓŻNICOWANIE CECHY
𝑠2 =
1,97~1,40
Zadanie nr 3
Liczba oglądanych seriali Liczba osób
wartość cechy (x)
liczebność (n)
0
3
1
7
2
9
3
19
4
12
5
10
suma
60
𝑥 = 𝑚𝑒 = 𝑑𝑜 = 3
𝑠 2 = 1,97
s = 1,40
WZGLĘDNE ZRÓŻNICOWANIE CECHY
1,40
𝑉=
~0,47 = 47%
3
Interpretacja: Zmienność w liczbie oglądanych przez sąsiadów
seriali wynosi 47% ich średniej liczby.
Zadanie nr 3
Zadanie nr 3
Liczba oglądanych seriali Liczba osób
wartość cechy (x)
liczebność (n)
0
3
1
7
2
9
3
19
4
12
5
10
suma
60
SYMETRYCZNOŚĆ
𝑥 = 𝑚𝑒 = 𝑑𝑜 = 3
Teoretycznie: rozkład
jest symetryczny
Zadanie nr 3
Liczba oglądanych seriali Liczba osób
wartość cechy (x)
liczebność (n)
0
3
1
7
2
9
3
19
4
12
5
10
suma
60
𝑥 = 𝑚𝑒 = 𝑑𝑜 = 3
𝑠 2 = 1,97
s = 1,40
WSPÓŁCZYNNIK SKOŚNOŚCI
𝐴𝐼 =
3−3
=0
1,4
Zadanie nr 3
Liczba oglądanych seriali Liczba osób
wartość cechy (x)
liczebność (n)
0
3
1
7
2
9
3
19
4
12
5
10
suma
60
∗3+ 1−3
3
∗7+ 2−3
3
WSPÓŁCZYNNIK ASYMETRII
−0,92
𝐴=
~ − 0,34
1,403
3 ∗ 19 + 4 − 3 3 ∗ 12 + 5 − 3
∗
9
+
3
−
3
𝑀3′ =
59
(−27) ∗ 3 + (−8) ∗ 7 + (−1) ∗ 9 + 0 ∗ 19 + 1 ∗ 12 + 8 ∗ 10 −54
=
=
~ − 0,92
59
59
0−3
3
𝑥 = 𝑚𝑒 = 𝑑𝑜 = 3
𝑠 2 = 1,97
s = 1,40
3
∗ 10
=
Zadanie nr 3
Liczba oglądanych seriali Liczba osób
wartość cechy (x)
liczebność (n)
0
3
1
7
2
9
3
19
4
12
5
10
suma
60
𝑥 = 𝑚𝑒 = 𝑑𝑜 = 3
𝑠 2 = 1,97
s = 1,40
WSPÓŁCZYNNIK ASYMETRII
Interpretacja: Rozkład charakteryzuje się słabą asymetrią
ujemną (lewostronną), co oznacza, że w grupie 60 sąsiadów
przewyższają ci, dla których liczba oglądanych seriali jest
wyższa niż średnia dla całej tej grupy (t.j. wyższa niż 3).
−0,92
𝐴=
~ − 0,34
1,403
Zadanie nr 4
Zadanie nr 4
Oszczędności
<0,4>
Częstość względna
(4,6>
0,1
(6,8>
0,15
(8,10> >10
0,3
0,25
• Niedomknięte przedziały
• Brak konkretnych wartości – tylko przedziały i ich częstość występowania
-> MIARY POZYCYJNE
0,2
Zadanie nr 4
Zadanie nr 4
Oszczędności
<0,4>
(4,6>
(6,8>
(8,10> >10
Częstość względna
0,1
0,15
0,3
0,25
0,2
Częstość skumulowana
0,1
0,25
0,55
0,8
1
Interpretacja: 25% wszystkich pracowników firmy
zgromadziło na swoich lokatach bankowych nie więcej
niż 6 tys. złotych oszczędności.
𝑄1 = 6
𝑄2 = me = 6 + 0,50 − 0,25 ∗
2
~7,67
0,3
2
𝑄3 = 8 + 0,75 − 0,55 ∗
~9,6
0,25
Interpretacja: 50% wszystkich pracowników firmy
zgromadziło na swoich lokatach bankowych nie więcej
niż 7,67 tys. złotych oszczędności.
Interpretacja: 75% wszystkich pracowników firmy
zgromadziło na swoich lokatach bankowych nie więcej
niż 9,6 tys. złotych oszczędności.
Zadanie nr 4
Oszczędności
<0,4>
(4,6>
(6,8>
(8,10> >10
Częstość względna
0,1
0,15
0,3
0,25
0,2
Częstość skumulowana
0,1
0,25
0,55
0,8
1
WSPÓŁCZYNNIK SKOŚNOŚCI
9,6 − 6
𝑄=
= 1,8
2
Interpretacja: Wartość oszczędności zgromadzonych na
lokatach bankowych przez pracowników pewnej firmy waha się
względem wartości środkowej przeciętnie o 1,8 tys. złotych.
𝑄1 = 6
𝑄2 = me = 7,67
𝑄3 = 9,6
Zadanie nr 4
Oszczędności
<0,4>
(4,6>
(6,8>
(8,10> >10
Częstość względna
0,1
0,15
0,3
0,25
0,2
Częstość skumulowana
0,1
0,25
0,55
0,8
1
ZRÓŻNICOWANIE CECHY
𝑉=
1,8
~0,23
7,67
Interpretacja: Zmienność wartości oszczędności zgromadzonych na
lokatach bankowych przez pracowników pewnej firmy wynosi 23% jej
środkowej wartości.
𝑄1 = 6
𝑄2 = me = 7,67
𝑄3 = 9,6
𝑄 = 1,8
DZIĘKUJEMY ZA UWAGĘ!
Adam Wiechowski
Monika Żochowska