1. Rozkład empiryczny
Transkrypt
1. Rozkład empiryczny
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY Liczebności i częstości • Liczebność – liczba osób/respondentów/badanych, którzy udzielili tej konkretnej odpowiedzi. Podawana w osobach. • Częstość – odsetek, jak często osoby/respondenci/badani udzielali tej konkretnej odpowiedzi. Podawana w procentach (od 0 do 1 lub od 0% do 100%). • Procent – liczba osób, które udzieliły tej konkretnej odpowiedzi dzielona przez wszystkie osoby, które wzięły udział w badaniu. Szeregi rozdzielcze Szereg rozdzielczy punktowy (jednostopniowy) Ocena 2 3 3,5 4 4,5 5 Suma Liczba studentów 12 31 17 21 11 8 100 Szereg przedziałowy (wielostopniowy) Zarobki w PLN (0 ; 1000> (1000 ; 2000> (2000 ; 3000> (3000 ; 4000> (4000 ; 5000> (5000 ; 6000> Suma Liczba osób 623 978 651 421 213 114 3000 Dystrybuanta empiryczna Ocena 2 3 3,5 4 4,5 5 Suma Czętość Skumulowana Liczba studentów liczba studentów studentów 12 31 17 21 11 8 100 12 43 60 81 92 100 Sumowanie liczby studentów 0,12 0,31 0,17 0,21 0,11 0,08 1 Dystrybuanta empiryczna 0,12 0,43 0,6 0,81 0,92 1 - Sumowanie częstości studentów Graficzna prezentacja dystrybuanty empirycznej Miary opisu rozkładu Miary położenia rozkładu • Średnia arytmetyczna • Mediana • Kwantyle • Dominanta Zróżnicowanie rozkładu cechy • Inaczej: dyspersja • Miary zmienności: • • • • • • Rozstęp Wariancja Odchylenie standardowe Typowy obszar zmienności Odchylenie ćwiartkowe Współczynnik zmienności Rozstęp Wariancja Odchylenie standardowe Odchylenie ćwiartkowe Współczynnik zmienności Asymetria rozkładu cechy • Miary asymetrii: • Współczynnik skośności • Współczynnik asymetrii a) Asymetria lewostronna (ujemna) b) Asymetria prawostronna (dodatnia) c) Symetria Współczynnik skośności Współczynnik asymetrii Pozycyjny współczynnik asymetrii Zróżnicowanie i asymetria 0-0,2 0,2-0,4 0,4-0,6 0,6-0,8 0,8-1 Bardzo słabe Słabe Umiarkowane Silne Bardzo silne PRZYKŁADOWE ZADANIA Wykorzystane do tej części zadania pochodzą z książki „Statystyka. Lubię to!” Marii Wieczorek Zadanie nr 1 1.28. Czas oczekiwania klientów na obsługę w okienku bankowym (w min) był następujący: Czas oczekiwania Częstość względna <0 ; 4> 0,02 (4 ; 8> 0,04 (8 ; 12> 0,2 (12 ; 16> (16 ; 20> 0,4 0,34 Ponadto wiadomo, że średnia i wariancja w tej próbie są odpowiednio równie 14 i 14,08. Czy prawdą jest że: a) Większość interesantów czeka dłużej niż 15 min? b) Mniej niż połowa interesantów czeka krócej niż wynosi średni czas? c) Współczynnik zmienności czasu oczekiwania przekracza 30%? a) Większość interesantów czeka dłużej niż 15 min? Większość to ponad połowa, a jeśli połowa to mediana. Najpierw szacujemy przedział, w którym znajduje się mediana (pierwszy przedział, dla którego częstość skumulowana przekracza 0,5). Wzór na medianę w przypadku danych podanych w postaci przedziałów: me x0 m 1 Fn 2 x 0m 4 hm 12 0,5 0,26 14,4 0,4 wm x – dolna granica przedziału w której znajduje się mediana F x – dystrybuanta empiryczna dla dolnej granicy przedziału mediany h – rozpiętość przedziału w którym znajduje się mediana w – częstość dla przedziału w którym znajduje 0m n 0m m m się mediana a) Większość interesantów czeka dłużej niż 15 min? Obliczyliśmy już, że: me 14,4 Zatem możemy stwierdzić, że odpowiedź na pytanie postawione w zadaniu brzmi nie - większość interesantów czeka krócej niż 15 minut. Jest tak ponieważ dokładnie połowa interesantów czeka dłużej lub dokładnie 14,4 min więc dłużej niż 15 min czeka mniej niż połowa. b) Mniej niż połowa interesantów czeka krócej niż wynosi średni czas? W poprzednim podpunkcie obliczyliśmy, że: me 14,4 Zatem mediana jest większa niż średnia, która wynosie 14: me x Tak więc możemy stwierdzić, że jest to prawda - mniej niż połowa interesantów czeka krócej niż średni czas. c) Współczynnik zmienności czasu oczekiwania przekracza 30%? 14,08 s V 0,268 14 x Korzystając z najprostszego wzoru na obliczenie współczynnika zmienności otrzymujemy wartość 0,268. Wszystkie niezbędne do tego dane mamy podane w treści zadania, wystarczy jedynie spierwiastkować wariancję ponieważ we wzorze musimy użyć odchylenia standardowego. Po zamienieniu tego ułamka na procenty uzyskujemy 26,8%, zatem otrzymana wartość nie przekracza 30%. Zadanie nr 2 1.30. Maturzystka Ewa decydując się na wybór wyższej uczelni, jako jedno z kryteriów postanowiła wziąć pod uwagę czas (y – w miesiącach), jaki upływa od ukończenia studiów na danej uczelni do podjęcia pierwszej pracy. Losowe próby 20 absolwentów uczelni A oraz po 40 absolwentów z uczelni B i C dały wyniki: Charakterystyki rozkładu Średnia arytmetyczna __ ( y y) 2 i Współczynnik skośności A 6 B 3,4 C 4,1 42,75 19,11 31,59 0,1 0,2 -0,3 Zadanie nr 2 cd. a) Jaki jest przeciętny czas poszukiwania pracy wśród wszystkich zbadanych osób? b) Porównać dyspersję (zróżnicowanie) czasu poszukiwania pracy przez absolwentów poszczególnych uczelni. c) Dla której (których) uczelni mediana czasu poświęconego na poszukiwanie pracy jest wyższa niż czas średni i co to oznacza dla Ewy? d) Którą uczelnię, biorąc pod uwagę najkrótszy czas poszukiwania pracy, maturzystka powinna wybrać? Podać wyczerpującą argumentację. a) Jaki jest przeciętny czas poszukiwania pracy wśród wszystkich zbadanych osób? 20 6 40 3,4 40 4,1 y 4,2 100 Średni czas poszukiwania pracy wśród wszystkich zbadanych osób wynosi 4,2 miesiąca. b) Porównać dyspersję (zróżnicowanie) czasu poszukiwania pracy przez absolwentów poszczególnych uczelni. Aby móc porównać zróżnicowanie w dwóch grupach musimy użyć współczynnika zmienności, który mierzy zróżnicowanie względne (zróżnicowanie zależne od średniej). __ V S y s s s 2 A 2 B 2 C ( y i y) 2 n 1 ( y i __ y) 2 n 1 ( y i n 1 42,75 2,25 19 VA 19,11 0,49 39 VB __ y) 2 31,59 0,81 39 VC SA y 0,49 0,21 3,4 0,81 0,22 4,1 B SC y 2,25 0,25 6 A SB y C Najmniejszym zróżnicowaniem cechy charakteryzują się absolwenci uczelni B, natomiast największym uczelni A. c) Dla której (których) uczelni mediana czasu poświęconego na poszukiwanie pracy jest wyższa niż czas średni i co to oznacza dla Ewy? me y dla uczelni C, ponieważ współczynnik skośności jest ujemny. Oznacza to że czas poszukiwania pierwszej pracy przez większość studentów tej uczelni jest wyższy niż średni czas wyznaczony dla tych osób. d) Którą uczelnię, biorąc pod uwagę najkrótszy czas poszukiwania pracy, maturzystka powinna wybrać? Podać wyczerpującą argumentację. Ewa powinna wybrać uczelnię B ponieważ średnia i zróżnicowanie czasu poszukiwania pracy przez jej absolwentów jest najmniejsze (wynik większości badanych nie odbiega wiele od średniej), dodatkowo występuje najmocniejsza prawostronna asymetria (czyli więcej niż połowa badanych osób szuka pierwszej pracy krócej niż wartość średnia). Zadanie nr 3 Zadanie nr 3 Liczba oglądanych seriali Liczba osób wartość cechy (x) liczebność (n) 0 3 1 7 2 9 3 19 4 12 5 10 suma 60 Interpretacja: Wśród badanych osób średnia liczba oglądanych seriali wynosi 3. ŚREDNIA 0 ∗ 3 + 1 ∗ 7 + 2 ∗ 9 + 3 ∗ 19 + 4 ∗ 12 + 5 ∗ 10 𝑥= = 60 180 = =3 60 Zadanie nr 3 Liczba oglądanych seriali Liczba osób wartość cechy (x) liczebność (n) 0 3 1 7 2 9 3 19 4 12 5 10 suma 60 Interpretacja: 50% badanych sąsiadów ogląda nie więcej niż 3 seriale. MEDIANA 𝑥30 + 𝑥31 3 + 3 me = = =3 2 2 Zadanie nr 3 Liczba oglądanych seriali Liczba osób wartość cechy (x) liczebność (n) 0 3 1 7 2 9 3 19 4 12 5 10 suma 60 Interpretacja: Wśród sąsiadów studenta, najwięcej było takich, którzy oglądają 3 seriale. DOMINANTA Największa częstość dla x=3 do=3 Zadanie nr 3 Zadanie nr 3 Liczba oglądanych seriali Liczba osób wartość cechy (x) liczebność (n) 0 3 1 7 2 9 3 19 4 12 5 10 suma 60 (0 − 3)2 ∗ 3 + 1 − 3 2 BEZWZGLĘDNE ZRÓŻNICOWANIE CECHY 𝑠2 = 1,97~1,40 2 ∗ 19 + (4 − 3)2 ∗ 12 + (5 − 3)2 ∗ 10 ∗ 9 + 3 − 3 𝑠2 = 59 9 ∗ 3 + 4 ∗ 7 + 1 ∗ 9 + 0 ∗ 19 + 1 ∗ 12 + 4 ∗ 10 116 = = ~1,97 59 59 ∗7+ 2−3 2 𝑥 = 𝑚𝑒 = 𝑑𝑜 = 3 Zadanie nr 3 Liczba oglądanych seriali Liczba osób wartość cechy (x) liczebność (n) 0 3 1 7 2 9 3 19 4 12 5 10 suma 60 Interpretacja: Liczba oglądanych seriali wśród sąsiadów różniła się od średniej wartości przeciętnie o 1,4. 𝑥 = 𝑚𝑒 = 𝑑𝑜 = 3 𝑠 2 = 1,97 BEZWZGLĘDNE ZRÓŻNICOWANIE CECHY 𝑠2 = 1,97~1,40 Zadanie nr 3 Liczba oglądanych seriali Liczba osób wartość cechy (x) liczebność (n) 0 3 1 7 2 9 3 19 4 12 5 10 suma 60 𝑥 = 𝑚𝑒 = 𝑑𝑜 = 3 𝑠 2 = 1,97 s = 1,40 WZGLĘDNE ZRÓŻNICOWANIE CECHY 1,40 𝑉= ~0,47 = 47% 3 Interpretacja: Zmienność w liczbie oglądanych przez sąsiadów seriali wynosi 47% ich średniej liczby. Zadanie nr 3 Zadanie nr 3 Liczba oglądanych seriali Liczba osób wartość cechy (x) liczebność (n) 0 3 1 7 2 9 3 19 4 12 5 10 suma 60 SYMETRYCZNOŚĆ 𝑥 = 𝑚𝑒 = 𝑑𝑜 = 3 Teoretycznie: rozkład jest symetryczny Zadanie nr 3 Liczba oglądanych seriali Liczba osób wartość cechy (x) liczebność (n) 0 3 1 7 2 9 3 19 4 12 5 10 suma 60 𝑥 = 𝑚𝑒 = 𝑑𝑜 = 3 𝑠 2 = 1,97 s = 1,40 WSPÓŁCZYNNIK SKOŚNOŚCI 𝐴𝐼 = 3−3 =0 1,4 Zadanie nr 3 Liczba oglądanych seriali Liczba osób wartość cechy (x) liczebność (n) 0 3 1 7 2 9 3 19 4 12 5 10 suma 60 ∗3+ 1−3 3 ∗7+ 2−3 3 WSPÓŁCZYNNIK ASYMETRII −0,92 𝐴= ~ − 0,34 1,403 3 ∗ 19 + 4 − 3 3 ∗ 12 + 5 − 3 ∗ 9 + 3 − 3 𝑀3′ = 59 (−27) ∗ 3 + (−8) ∗ 7 + (−1) ∗ 9 + 0 ∗ 19 + 1 ∗ 12 + 8 ∗ 10 −54 = = ~ − 0,92 59 59 0−3 3 𝑥 = 𝑚𝑒 = 𝑑𝑜 = 3 𝑠 2 = 1,97 s = 1,40 3 ∗ 10 = Zadanie nr 3 Liczba oglądanych seriali Liczba osób wartość cechy (x) liczebność (n) 0 3 1 7 2 9 3 19 4 12 5 10 suma 60 𝑥 = 𝑚𝑒 = 𝑑𝑜 = 3 𝑠 2 = 1,97 s = 1,40 WSPÓŁCZYNNIK ASYMETRII Interpretacja: Rozkład charakteryzuje się słabą asymetrią ujemną (lewostronną), co oznacza, że w grupie 60 sąsiadów przewyższają ci, dla których liczba oglądanych seriali jest wyższa niż średnia dla całej tej grupy (t.j. wyższa niż 3). −0,92 𝐴= ~ − 0,34 1,403 Zadanie nr 4 Zadanie nr 4 Oszczędności <0,4> Częstość względna (4,6> 0,1 (6,8> 0,15 (8,10> >10 0,3 0,25 • Niedomknięte przedziały • Brak konkretnych wartości – tylko przedziały i ich częstość występowania -> MIARY POZYCYJNE 0,2 Zadanie nr 4 Zadanie nr 4 Oszczędności <0,4> (4,6> (6,8> (8,10> >10 Częstość względna 0,1 0,15 0,3 0,25 0,2 Częstość skumulowana 0,1 0,25 0,55 0,8 1 Interpretacja: 25% wszystkich pracowników firmy zgromadziło na swoich lokatach bankowych nie więcej niż 6 tys. złotych oszczędności. 𝑄1 = 6 𝑄2 = me = 6 + 0,50 − 0,25 ∗ 2 ~7,67 0,3 2 𝑄3 = 8 + 0,75 − 0,55 ∗ ~9,6 0,25 Interpretacja: 50% wszystkich pracowników firmy zgromadziło na swoich lokatach bankowych nie więcej niż 7,67 tys. złotych oszczędności. Interpretacja: 75% wszystkich pracowników firmy zgromadziło na swoich lokatach bankowych nie więcej niż 9,6 tys. złotych oszczędności. Zadanie nr 4 Oszczędności <0,4> (4,6> (6,8> (8,10> >10 Częstość względna 0,1 0,15 0,3 0,25 0,2 Częstość skumulowana 0,1 0,25 0,55 0,8 1 WSPÓŁCZYNNIK SKOŚNOŚCI 9,6 − 6 𝑄= = 1,8 2 Interpretacja: Wartość oszczędności zgromadzonych na lokatach bankowych przez pracowników pewnej firmy waha się względem wartości środkowej przeciętnie o 1,8 tys. złotych. 𝑄1 = 6 𝑄2 = me = 7,67 𝑄3 = 9,6 Zadanie nr 4 Oszczędności <0,4> (4,6> (6,8> (8,10> >10 Częstość względna 0,1 0,15 0,3 0,25 0,2 Częstość skumulowana 0,1 0,25 0,55 0,8 1 ZRÓŻNICOWANIE CECHY 𝑉= 1,8 ~0,23 7,67 Interpretacja: Zmienność wartości oszczędności zgromadzonych na lokatach bankowych przez pracowników pewnej firmy wynosi 23% jej środkowej wartości. 𝑄1 = 6 𝑄2 = me = 7,67 𝑄3 = 9,6 𝑄 = 1,8 DZIĘKUJEMY ZA UWAGĘ! Adam Wiechowski Monika Żochowska