Ćwiczenia 1-2 – Analiza rozkładu empirycznego Zadanie 1. Z
Transkrypt
Ćwiczenia 1-2 – Analiza rozkładu empirycznego Zadanie 1. Z
Ćwiczenia 1-2 Analiza rozkładu empirycznego Ćwiczenia 1-2 – Analiza rozkładu empirycznego Zadanie 1. Z kolokwium z ekonometrii studenci otrzymali następujące oceny: 5 osób dostało piątkę, 20 os. dostało czwórkę, 10 os. trójkę, a 3 osoby nie zaliczyły tego kolokwium. Należy w oparciu o informacje: a. Określić typ badanej cechy oraz zbudować szereg empiryczny. b. Wyznaczyć wartość dystrybuanty empirycznej oraz przedstawić graficznie. Podać interpretację F(4). c. Wyznaczyć średnią ocenę w grupie, medianę oraz dominantę. Zinterpretować otrzymane wyniki. d. Sporządzić histogram badanej cechy. Zadanie 2. W pewnej czytelni publicznej przeprowadzono ankietę dotyczącą liczby przeczytanych książek w ciągu ostatnich 6. Miesięcy. Uzyskane wyniki zaprezentowano w tabeli: Liczba przeczytanych książek 0 1 2 3 4 5 Odsetek zbadanych osób 35 25 15 10 10 5 Czy prawdą jest, że: a. Średnia liczba przeczytanych książek wynosiła 1,3? b. W badanej zbiorowości w ciągu 6. Miesięcy najczęściej przeczytano 2 książki? c. 50% osób z badanej zbiorowości przeczytało co najwyższej 1 książkę? d. Dokładnie 60% osób z badanej zbiorowości przeczytało co najwyżej 1 książkę? Zadanie 3. Zapytano 100 studentów pewnej uczelni ile czasu tygodniowo (w godzinach) poświęcają na naukę w czytelni. Wyniki zaprezentowano w tabeli: (Xoi-x1i] 0-2 2-4 4-6 6-8 8-10 10-12 Fn(x1i) 0,2 0,3 0,6 0,75 0,95 1,00 Na podstawie powyższych odpowiedzi należy: a. Określić typ badanej cechy oraz zbudować szereg rozdzielczy. b. Obliczyć ile przeciętnie godzin w tygodniu studenci pewnej uczelni przeznaczają na naukę w czytelni? c. Wskazać ilu było studentów spędzających na nauce w czytelni od 4 do 6 godzin w tygodniu? d. Obliczyć, zinterpretować oraz przedstawić na wykresie: medianę, Q1 i Q3, Fn(8). e. Przedstawić graficznie dystrybuantę empiryczną. f. Sporządzić histogram badanej cechy. g. Ocenić asymetrię rozkładu czasu nauki na podstawie miar pozycyjnych. Zadanie 4. Liczba błędów popełnionych przy przepisywaniu pewnego tekstu przez losowo wybraną grupę 10 osób była następująca: 3, 3, 2, 1, 2, 2, 4, 1, 3, 2. Należy w oparciu o podane informacje: a. Określić typ badanej cechy i uporządkować podany ciąg danych indywidualnych. b. Zbudować szereg empiryczny (rozdzielczy). c. Wyznaczyć dystrybuantę empiryczną i przedstawić graficznie. d. Podać interpretację F(3). e. Ocenić asymetrię rozkładu wykorzystując miary klasyczne. Zadanie 5. Badano zyskowność dwóch branż przemysłu. Badane jednostki sklasyfikowano w 4 przedziały o jednakowej rozpiętości. Najniższa rentowność zaobserwowana w obydwu badanych branżach była wyższa od 0%, a najwyższa zanotowana rentowność wynosiła 16%. Zaobserwowane częstości empiryczne wynosiły: Dla branży I: 0,20; 0,20; 0,30; 0,30 Dla branży II: 0,35; 0,25; 0,20; 0,20 W której branży nastąpiło większe zróżnicowanie rentowności? Ćwiczenia 1-2 Analiza rozkładu empirycznego Zadanie 6. Rozkład wydatków na żywność na jedną osobę w rodzinie wśród grupy 20 studentów określa poniższe zestawienie: (Xoi-x1i] Poniżej 250 250-500 500-750 ni 5 11 4 Należy przeprowadzić pełną analizę zróżnicowania wydatków na żywność na 1 osobę stosując znane miary dyspersji (zróżnicowania). Zadanie 7. W skokach narciarskich zawodnicy osiągnęli następujące wyniki: 120, 132, 125, 111, 121, 110, 134, 118, 125, 122, 117, 128, 124, 115, 118, 119, 123, 129, 122, 125, 123, 125 (metrów). a. Jaka była średnia długość skoku? b. Jakiej co najwyżej długości skok wykonało 50%, a jakiej 75% zawodników? c. Jakiej długości skok powtarzał się najczęściej? Zadanie 8. Zbadano cenę metra kwadratowego mieszkań (w tys. zł) w pewnym mieście. Rozkład tej cechy był następujący: cena metra kwadratowego 3,5-4 4-4,5 4,5-5 5-5,5 (w tys. zł) Procent mieszkań 20 25 40 15 Należy wyznaczyć i zinterpretować: a. Medianę oraz kwartyl pierwszy i trzeci. b. Odchylenie ćwiartkowe rozkładu ceny mieszkań. c. Dyspersję (miarę względną). Zadanie 9. W pewnym mieście zbadano częstość zachorowań na anginę dzieci w wieku 6 lat. Otrzymano następujące dane: xi 0 1 2 3 4 5 ni 60 120 200 80 30 10 Gdzie xi –liczba zachorowań dziecka w ciągu roku, ni –liczba dzieci. Należy obliczyć: a. Średnią liczbę zachorowań dziecka na anginę w roku, wariancję, odchylenie standardowe b. Ile dzieci znajdowało się w typowym obszarze zmienności? c. Wyznaczyć liczbowo i graficznie dystrybuantę empiryczną oraz zinterpretować F(2). Zadanie 10. Rozkład 100 gospodarstw rolnych w pewnej gminie ze względu na powierzchnię (X- w ha) był następujący: powierzchnia Częstość empiryczna (Xoi-x1i] wi 0-4 0,10 4-8 0,20 8-12 0,20 12-16 0,35 16 i więcej 0,15 a. Wyznaczyć graficznie medianę i kwartyle oraz zinterpretować te miary. b. W oparciu o wartość mediany i kwartyli odczytanych z wykresu (bez wykonywania dodatkowych obliczeń) wyznaczyć i zinterpretować wartość pozycyjnego współczynnika asymetrii. Ćwiczenia 1-2 Analiza rozkładu empirycznego Zadania sprawdzające na podst. materiałów dr hab. Ilony Błaszczak-Przybycińskiej, prof. SGH. Zadanie 1.1 Zadanie 1.2 Rozkład cechy statystycznej przedstawiono w Rozkład cechy statystycznej przedstawiono w tabeli. tabeli. (Xoi-x1i] w(X≤ x1i) (Xoi-x1i] w(X≤ x1i) 4-8 0,15 4-8 0,15 8-12 0,30 8-12 0,30 12-16 0,50 12-16 0,50 16-20 0,75 16-20 0,75 20-24 1,00 20-24 1,00 Bez wykonywania żadnych obliczeń proszę wskazać Bez wykonywania żadnych obliczeń proszę wskazać ile wynosi mediana w tym rozkładzie? ile wynosi trzeci kwartyl w tym rozkładzie? a. 12 a. 20 b. 16 b. 16 c. Znajduje się w przedziale (12-16]. c. Znajduje się w przedziale (16-20]. d. Nie można stwierdzić. d. Nie można stwierdzić. Zadanie 1.3 Średnie miesięczne wynagrodzenie brutto w 2014 r. wynosiło 4003,99 zł1. Która z podanych poniżej wielkości może być medianą wynagrodzenia z tego okresu? a. 4150 zł b. 1680 zł c. 3580 zł Zadanie 1.4 Które z poniżej wymienionych miar najlepiej charakteryzują charakteryzujących się bardzo silną asymetrią? a. Średnia, mediana, dominanta b. Średnia, współczynnik asymetrii c. Mediana, kwartyle, pozycyjny współczynnik asymetrii. rozkład wskaźników giełdowych, Zadanie 1.5 Rozkład wynagrodzeń w gospodarce narodowej charakteryzuje się tym, że wynagrodzenia niższe od średniej krajowej ma: a. Ponad połowa zatrudnionych b. Mniej niż połowa zatrudnionych c. Dokładnie połowa zatrudnionych. Zadanie 1.6 Przeprowadzono analizę przeciętnego miesięcznego wynagrodzenia brutto w przedsiębiorstwie. Na podstawie bazy danych wszystkich osób zatrudnionych w przedsiębiorstwie wyznaczono miary struktury. Danych nie grupowano, miary wyznaczono na podstawie szeregu danych indywidualnych. Jaka miara będzie najlepiej odzwierciedlać tendencję centralną rozkładu wynagrodzeń w tym przedsiębiorstwie? a. Dominanta, gdyż zawsze można stwierdzić, jakie wynagrodzenie wystąpiło najczęściej. b. Średnia arytmetyczna ważona, gdyż uwzględnia ona strukturę zatrudnionych pracowników. c. Mediana, gdyż jako miara pozycyjna nie będzie zawyżona przez wynagrodzenia pracownicze. 1 Bank Danych Lokalnych GUS, Przeciętne http://stat.gov.pl/bdl/html/indeks.html(dostęp: 03.02.2016) miesięczne wynagrodzenia brutto, Ćwiczenia 1-2 Analiza rozkładu empirycznego Wzory – ćwiczenia 1-2 1. MIARY POŁOŻENIA A. Klasyczna miara położenia Średnia arytmetyczna (wzór dla danych indywidualnych) ̅= ∑ Średnia arytmetyczna (wzór dla danych pogrupowanych) – średnie ważone =∑ –> cecha skokowa ̅=∑ (1a.) gdzie: k – liczba przedziałów, ni – liczebność jednostek w i-tym przedziale klasowym wi – częstość empiryczna i-tego przedziału klasowego B. Pozycyjne miary położenia Mediana = + !0,5 − (% ≤ = )' ̅≅ ∑ , gdzie 1,2, … , ) –> cecha ciągła (1b.) = ,( = (1c.) – środek przedziału (cecha ciągła) = () *) = + !0,5 − (% ≤ )' (2a.) () *) (2b.) gdzie: (% ≤ ) – częstość skumulowana (dystrybuanta poprzedzającego przedział, w którym znajduje się mediana, – dolna granica przedziału, w którym znajduje się mediana, empiryczna) dla przedziału bezpośrednio ℎ – rozpiętość przedziału, w którym znajduje się mediana, ( ) – częstość (liczebność) empiryczna przedziału, w którym znajduje się mediana. Kwartyl pierwszy (Q1) - = + /0,25 − 0% ≤ . . (3 - = 12 * 3 . + /0,25 − 0% ≤ . 12 (3a.) (3 3 (3b.) gdzie: . – dolna granica przedziału, w którym znajduje się kwartyl pierwszy, 0% ≤ . 1– częstość skumulowana (dystrybuanta empiryczna) dla przedziału bezpośrednio poprzedzającego przedział, w którym znajduje się kwartyl pierwszy, ℎ. – rozpiętość przedziału, w którym znajduje się kwartyl pierwszy, . ( . ) – częstość (liczebność) empiryczna przedziału, w którym znajduje się kwartyl pierwszy. Kwartyl trzeci (Q3) -4 = .5 + /0,75 − 0% ≤ ( 35 .5 12 * -4 = 35 .5 + /0,75 − 0% ≤ (4a.) .5 12 ( 35 35 (4b.) gdzie: .5 – dolna granica przedziału, w którym znajduje się kwartyl trzeci, 0% ≤ .5 1– częstość skumulowana (dystrybuanta empiryczna) ℎ.5 – rozpiętość przedziału, w którym znajduje się kwartyl trzeci, dla przedziału poprzedzającego przedział, w którym znajduje się kwartyl trzeci, .5 ( .5 ) – częstość (liczebność) empiryczna przedziału, w którym znajduje się kwartyl trzeci. bezpośrednio Ćwiczenia 1-2 Analiza rozkładu empirycznego 2. MIARY DYSPERSJI (ZRÓŻNICOWANIA) A. Klasyczne miary dyspersji Wariancja z próby (wzór dla danych indywidualnych) 7 = ∑9: ∑ ( ̅8 8 − ̅) = ∑9: 8 (∑ 9 )8 = (5a.) (wzór dla danych pogrupowanych) 7 = ∑9: 7 = ∑9: ∑ 8 ( (∑ 9 ∑ (∑ < 8 < 9 ( )8 ; )8 − ̅) = ∑9: 8 ̅8 (5b.) –> cecha skokowa − ̅) = = ∑9: = 8 < ̅8 (5c.) –> cecha ciągła Wariancja z populacji (wzór dla danych indywidualnych) = = >∑ > ( (wzór dla danych pogrupowanych) − ?) (6a.) = = >∑ ( = = >∑ ( =∑ − ?) ( − ?) – cecha skokowa ; (6b.) =∑ − ?) ( ; – cecha ciągła − ?) (6c.) Odchylenie standardowe 7 = @7 (7.) Klasyczny współczynnik zmienności A = BC ̅ ∗ 100% (8.) B. Pozycyjne miary dyspersji (in. zróżnicowania, rozproszenia) Rozstęp Odchylenie decylowe . . ℎ = FG − F (9.) -I J = HK H (11.) Odchylenie ćwiartkowe - = .HHH .H Pozycyjny współczynnik zmienności AL = (10.) 3. MIARY ASYMETRII A. Klasyczne miary asymetrii Klasyczny współczynnik asymetrii N = 9: ∑OP ( ̅ )5 BC5 .H T.HHH .C C N" = M ∗ 100% (12.) Współczynnik skośności (13.) B. Pozycyjne miary asymetrii Pozycyjny współczynnik asymetrii N" = .C (15.) ̅ RS BC (14.) Ćwiczenia 1-2 Analiza rozkładu empirycznego Typowy obszar zmienności: ̅ − U < WXY < ̅ + U, Z[\] ̅ ± U Typowy obszar zmienności (kwartylowy): _ − - < WXY < _ + - (16.) cechy (17.) ***Pozycyjna miara rozproszenia (dyspersji) Dominanta (moda, modalna): `a = I a = I +( b b b: b: )T( b bc ℎ ) I (18.) – dolna granica przedziału, w którym występuje dominanta, ℎI – rozpiętość przedziału klasowego, w którym występuje dominanta, I , I , IT – odpowiednio: liczebność przedziału, w którym występuje dominanta, przedziału poprzedniego i następnego. Ćwiczenia 1-2 Analiza rozkładu empirycznego Teoria – wybrane zagadnienia 1. MIARY POŁOŻENIA A. klasyczne • średnia arytmetyczna B. • • • 2. A. • • • • MIARY DYSPERSJI (ROZPROSZENIA) klasyczne wariancja odchylenie standardowe odchylenie przeciętne klasyczny współczynnik zmienności B. • • • • 3. • • pozycyjne mediana dominanta kwantyle (kwartyle, decyle, percentyle) MIARY ASYMETRII • klasyczny współczynnik asymetrii współczynnik skośności 4. pozycyjne rozstęp odchylenie ćwiartkowe odchylenie decylowe pozycyjny współczynnik zmienności pozycyjny współczynnik asymetrii MIARY KONCENTRACJI Współczynnik Gini’ego Dystrybuanta empiryczna – Fn(x) nazywamy funkcję określoną na podstawie danych (xi, wi), i=1,2,…,k • • 0i]j < 1 h f d ( ) = k l i]j ≤ < + 1, gl f 1i]j ≥ e Liczymy tylko dla zbioru danych indywidualnych Dystrybuanta mieści się w przedziale <0; 1> Przykład dystrybuanty empirycznej (cecha skokowa) = 1,2, … , − 1 Przykład dystrybuanty empirycznej (cecha ciągła) Ćwiczenia 1-2 Analiza rozkładu empirycznego Miary klasyczne – wszystkie realizacje cechy X są wykorzystywane do obliczenia wartości miary np. średniej. Miary pozycyjne – niewrażliwe na skrajne obserwacje, nie są zakłócane przez skrajne realizacje wartości cechy. o − pq;n o + pq) jest Reguła 3 sigm – wystąpienie obserwacji o wartości cechy poza przedziałem (n mało prawdopodobne. W przypadku rozkładu normalnego lub zbliżonego do normalnego uzyskujemy następujące zależności: obszar procent obserwacji w tym obszarze ( ̅ − U; ̅ + U) 68,28% ( ̅ − 2U; ̅ + 2U) 95,44% ( ̅ − 3U; ̅ + 3U) 99,73% Współczynnik Giniego – jest statystyczną miarą koncentracji (nierówności) wynagrodzeń i dochodów mieszczących się w przedziale (0;1). Wartość 1 wskazuje na perfekcyjną nierówność, tj. jedna osoba posiada całą pulę wynagrodzeń danej populacji (grupy). Wartość 0 wskazuje na perfekcyjną równość, tj. wszyscy ludzie mają tyle samo. Im większa wartość współczynnika, tym większa koncentracja (nierówność) wynagrodzeń.2 Literatura pomocnicza: 1. Malinowski A., Statystyka opisowa dla studentów administracji i prawa, Wyd. 1., Wydawnictwo Liber, Warszawa 2004. 2. Ostaszewski W., Badania statystyczne, Oficyna a Wolters Kluwer business, Warszawa 2011, s. 76-114. 2 B. Cichomski, Wynagrodzenia kobiet i mężczyzn w latach 1996-2002, raport 5, w: Krajowy System Monitorowania Równego Traktowania Kobiet i Mężczyzn. Raporty Eksperckie, t.1, red. B. Baran, Wyd. Naukowe Scholar, Warszawa 2006, s. 302.