Ćwiczenia 1-2 – Analiza rozkładu empirycznego Zadanie 1. Z

Transkrypt

Ćwiczenia 1-2 – Analiza rozkładu empirycznego Zadanie 1. Z
Ćwiczenia 1-2
Analiza rozkładu empirycznego
Ćwiczenia 1-2 – Analiza rozkładu empirycznego
Zadanie 1.
Z kolokwium z ekonometrii studenci otrzymali następujące oceny: 5 osób dostało piątkę, 20 os. dostało
czwórkę, 10 os. trójkę, a 3 osoby nie zaliczyły tego kolokwium. Należy w oparciu o informacje:
a. Określić typ badanej cechy oraz zbudować szereg empiryczny.
b. Wyznaczyć wartość dystrybuanty empirycznej oraz przedstawić graficznie. Podać interpretację F(4).
c. Wyznaczyć średnią ocenę w grupie, medianę oraz dominantę. Zinterpretować otrzymane wyniki.
d. Sporządzić histogram badanej cechy.
Zadanie 2.
W pewnej czytelni publicznej przeprowadzono ankietę dotyczącą liczby przeczytanych książek w ciągu ostatnich
6. Miesięcy. Uzyskane wyniki zaprezentowano w tabeli:
Liczba przeczytanych książek
0
1
2
3
4
5
Odsetek zbadanych osób
35
25
15
10
10
5
Czy prawdą jest, że:
a. Średnia liczba przeczytanych książek wynosiła 1,3?
b. W badanej zbiorowości w ciągu 6. Miesięcy najczęściej przeczytano 2 książki?
c. 50% osób z badanej zbiorowości przeczytało co najwyższej 1 książkę?
d. Dokładnie 60% osób z badanej zbiorowości przeczytało co najwyżej 1 książkę?
Zadanie 3.
Zapytano 100 studentów pewnej uczelni ile czasu tygodniowo (w godzinach) poświęcają na naukę w czytelni.
Wyniki zaprezentowano w tabeli:
(Xoi-x1i]
0-2
2-4
4-6
6-8
8-10
10-12
Fn(x1i)
0,2
0,3
0,6
0,75
0,95
1,00
Na podstawie powyższych odpowiedzi należy:
a. Określić typ badanej cechy oraz zbudować szereg rozdzielczy.
b. Obliczyć ile przeciętnie godzin w tygodniu studenci pewnej uczelni przeznaczają na naukę w czytelni?
c. Wskazać ilu było studentów spędzających na nauce w czytelni od 4 do 6 godzin w tygodniu?
d. Obliczyć, zinterpretować oraz przedstawić na wykresie: medianę, Q1 i Q3, Fn(8).
e. Przedstawić graficznie dystrybuantę empiryczną.
f. Sporządzić histogram badanej cechy.
g. Ocenić asymetrię rozkładu czasu nauki na podstawie miar pozycyjnych.
Zadanie 4.
Liczba błędów popełnionych przy przepisywaniu pewnego tekstu przez losowo wybraną grupę 10 osób była
następująca: 3, 3, 2, 1, 2, 2, 4, 1, 3, 2. Należy w oparciu o podane informacje:
a. Określić typ badanej cechy i uporządkować podany ciąg danych indywidualnych.
b. Zbudować szereg empiryczny (rozdzielczy).
c. Wyznaczyć dystrybuantę empiryczną i przedstawić graficznie.
d. Podać interpretację F(3).
e. Ocenić asymetrię rozkładu wykorzystując miary klasyczne.
Zadanie 5.
Badano zyskowność dwóch branż przemysłu. Badane jednostki sklasyfikowano w 4 przedziały o jednakowej
rozpiętości. Najniższa rentowność zaobserwowana w obydwu badanych branżach była wyższa od 0%, a
najwyższa zanotowana rentowność wynosiła 16%. Zaobserwowane częstości empiryczne wynosiły:
Dla branży I:
0,20; 0,20; 0,30; 0,30
Dla branży II:
0,35; 0,25; 0,20; 0,20
W której branży nastąpiło większe zróżnicowanie rentowności?
Ćwiczenia 1-2
Analiza rozkładu empirycznego
Zadanie 6.
Rozkład wydatków na żywność na jedną osobę w rodzinie wśród grupy 20 studentów określa poniższe
zestawienie:
(Xoi-x1i]
Poniżej 250
250-500
500-750
ni
5
11
4
Należy przeprowadzić pełną analizę zróżnicowania wydatków na żywność na 1 osobę stosując znane miary
dyspersji (zróżnicowania).
Zadanie 7.
W skokach narciarskich zawodnicy osiągnęli następujące wyniki:
120, 132, 125, 111, 121, 110, 134, 118, 125, 122, 117, 128, 124, 115, 118, 119, 123, 129, 122, 125, 123, 125
(metrów).
a. Jaka była średnia długość skoku?
b. Jakiej co najwyżej długości skok wykonało 50%, a jakiej 75% zawodników?
c. Jakiej długości skok powtarzał się najczęściej?
Zadanie 8.
Zbadano cenę metra kwadratowego mieszkań (w tys. zł) w pewnym mieście. Rozkład tej cechy był następujący:
cena metra kwadratowego
3,5-4
4-4,5
4,5-5
5-5,5
(w tys. zł)
Procent mieszkań
20
25
40
15
Należy wyznaczyć i zinterpretować:
a. Medianę oraz kwartyl pierwszy i trzeci.
b. Odchylenie ćwiartkowe rozkładu ceny mieszkań.
c. Dyspersję (miarę względną).
Zadanie 9.
W pewnym mieście zbadano częstość zachorowań na anginę dzieci w wieku 6 lat. Otrzymano następujące dane:
xi
0
1
2
3
4
5
ni
60
120
200
80
30
10
Gdzie xi –liczba zachorowań dziecka w ciągu roku, ni –liczba dzieci.
Należy obliczyć:
a. Średnią liczbę zachorowań dziecka na anginę w roku, wariancję, odchylenie standardowe
b. Ile dzieci znajdowało się w typowym obszarze zmienności?
c. Wyznaczyć liczbowo i graficznie dystrybuantę empiryczną oraz zinterpretować F(2).
Zadanie 10.
Rozkład 100 gospodarstw rolnych w pewnej gminie ze względu na powierzchnię (X- w ha) był następujący:
powierzchnia
Częstość empiryczna
(Xoi-x1i]
wi
0-4
0,10
4-8
0,20
8-12
0,20
12-16
0,35
16 i więcej
0,15
a. Wyznaczyć graficznie medianę i kwartyle oraz zinterpretować te miary.
b. W oparciu o wartość mediany i kwartyli odczytanych z wykresu (bez wykonywania dodatkowych
obliczeń) wyznaczyć i zinterpretować wartość pozycyjnego współczynnika asymetrii.
Ćwiczenia 1-2
Analiza rozkładu empirycznego
Zadania sprawdzające na podst. materiałów dr hab. Ilony Błaszczak-Przybycińskiej, prof. SGH.
Zadanie 1.1
Zadanie 1.2
Rozkład cechy statystycznej przedstawiono w
Rozkład cechy statystycznej przedstawiono w
tabeli.
tabeli.
(Xoi-x1i]
w(X≤ x1i)
(Xoi-x1i]
w(X≤ x1i)
4-8
0,15
4-8
0,15
8-12
0,30
8-12
0,30
12-16
0,50
12-16
0,50
16-20
0,75
16-20
0,75
20-24
1,00
20-24
1,00
Bez wykonywania żadnych obliczeń proszę wskazać
Bez wykonywania żadnych obliczeń proszę wskazać
ile wynosi mediana w tym rozkładzie?
ile wynosi trzeci kwartyl w tym rozkładzie?
a. 12
a. 20
b. 16
b. 16
c. Znajduje się w przedziale (12-16].
c. Znajduje się w przedziale (16-20].
d. Nie można stwierdzić.
d. Nie można stwierdzić.
Zadanie 1.3
Średnie miesięczne wynagrodzenie brutto w 2014 r. wynosiło 4003,99 zł1. Która z podanych poniżej wielkości
może być medianą wynagrodzenia z tego okresu?
a. 4150 zł
b. 1680 zł
c. 3580 zł
Zadanie 1.4
Które z poniżej wymienionych miar najlepiej charakteryzują
charakteryzujących się bardzo silną asymetrią?
a. Średnia, mediana, dominanta
b. Średnia, współczynnik asymetrii
c. Mediana, kwartyle, pozycyjny współczynnik asymetrii.
rozkład
wskaźników
giełdowych,
Zadanie 1.5
Rozkład wynagrodzeń w gospodarce narodowej charakteryzuje się tym, że wynagrodzenia niższe od średniej
krajowej ma:
a. Ponad połowa zatrudnionych
b. Mniej niż połowa zatrudnionych
c. Dokładnie połowa zatrudnionych.
Zadanie 1.6
Przeprowadzono analizę przeciętnego miesięcznego wynagrodzenia brutto w przedsiębiorstwie. Na podstawie
bazy danych wszystkich osób zatrudnionych w przedsiębiorstwie wyznaczono miary struktury. Danych nie
grupowano, miary wyznaczono na podstawie szeregu danych indywidualnych. Jaka miara będzie najlepiej
odzwierciedlać tendencję centralną rozkładu wynagrodzeń w tym przedsiębiorstwie?
a. Dominanta, gdyż zawsze można stwierdzić, jakie wynagrodzenie wystąpiło najczęściej.
b. Średnia arytmetyczna ważona, gdyż uwzględnia ona strukturę zatrudnionych pracowników.
c. Mediana, gdyż jako miara pozycyjna nie będzie zawyżona przez wynagrodzenia pracownicze.
1
Bank
Danych
Lokalnych
GUS,
Przeciętne
http://stat.gov.pl/bdl/html/indeks.html(dostęp: 03.02.2016)
miesięczne
wynagrodzenia
brutto,
Ćwiczenia 1-2
Analiza rozkładu empirycznego
Wzory – ćwiczenia 1-2
1. MIARY POŁOŻENIA
A. Klasyczna miara położenia
Średnia arytmetyczna
(wzór dla danych indywidualnych)
̅= ∑
Średnia arytmetyczna
(wzór dla danych pogrupowanych) – średnie
ważone
=∑
–> cecha skokowa
̅=∑
(1a.)
gdzie:
k – liczba przedziałów,
ni – liczebność jednostek w i-tym przedziale
klasowym
wi – częstość empiryczna i-tego przedziału
klasowego
B. Pozycyjne miary położenia
Mediana
=
+ !0,5 − (% ≤
=
)'
̅≅ ∑
,
gdzie
1,2, … , ) –> cecha ciągła
(1b.)
=
,( =
(1c.)
– środek przedziału (cecha ciągła)
=
()
*)
=
+ !0,5 − (% ≤
)'
(2a.)
()
*)
(2b.)
gdzie:
(% ≤
) – częstość skumulowana (dystrybuanta
poprzedzającego przedział, w którym znajduje się mediana,
– dolna granica przedziału, w którym znajduje się mediana,
empiryczna)
dla
przedziału
bezpośrednio
ℎ – rozpiętość przedziału, w którym znajduje się mediana,
(
) – częstość (liczebność) empiryczna przedziału, w którym znajduje się mediana.
Kwartyl pierwszy (Q1)
- =
+ /0,25 − 0% ≤
.
.
(3
- =
12 *
3
.
+ /0,25 − 0% ≤
.
12
(3a.)
(3
3
(3b.)
gdzie:
. – dolna granica przedziału, w którym znajduje się kwartyl pierwszy,
0% ≤
.
1–
częstość
skumulowana
(dystrybuanta
empiryczna)
dla
przedziału
bezpośrednio
poprzedzającego przedział, w którym znajduje się kwartyl pierwszy,
ℎ. – rozpiętość przedziału, w którym znajduje się kwartyl pierwszy,
.
( . ) – częstość (liczebność) empiryczna przedziału, w którym znajduje się kwartyl pierwszy.
Kwartyl trzeci (Q3)
-4 =
.5
+ /0,75 − 0% ≤
( 35
.5 12 *
-4 =
35
.5
+ /0,75 − 0% ≤
(4a.)
.5 12
( 35
35
(4b.)
gdzie:
.5
– dolna granica przedziału, w którym znajduje się kwartyl trzeci,
0% ≤
.5 1–
częstość
skumulowana
(dystrybuanta
empiryczna)
ℎ.5 – rozpiętość przedziału, w którym znajduje się kwartyl trzeci,
dla
przedziału
poprzedzającego przedział, w którym znajduje się kwartyl trzeci,
.5 ( .5 ) – częstość (liczebność) empiryczna przedziału, w którym znajduje się kwartyl trzeci.
bezpośrednio
Ćwiczenia 1-2
Analiza rozkładu empirycznego
2. MIARY DYSPERSJI (ZRÓŻNICOWANIA)
A. Klasyczne miary dyspersji
Wariancja z próby
(wzór dla danych indywidualnych)
7 =
∑9:
∑
(
̅8
8
− ̅) =
∑9:
8
(∑
9
)8
=
(5a.)
(wzór dla danych pogrupowanych)
7 =
∑9:
7 =
∑9:
∑
8
(
(∑
9
∑
(∑ <
8
<
9
(
)8
;
)8
− ̅)
=
∑9:
8
̅8
(5b.)
–> cecha skokowa
− ̅)
=
=
∑9:
=
8
<
̅8
(5c.)
–> cecha ciągła
Wariancja z populacji
(wzór dla danych indywidualnych)
= = >∑
>
(
(wzór dla danych pogrupowanych)
− ?) (6a.)
= = >∑
(
= = >∑
(
=∑
− ?)
(
− ?)
– cecha skokowa
;
(6b.)
=∑
− ?)
(
;
– cecha ciągła
− ?)
(6c.)
Odchylenie standardowe
7 = @7 (7.)
Klasyczny współczynnik zmienności
A =
BC
̅
∗ 100%
(8.)
B. Pozycyjne miary dyspersji (in. zróżnicowania, rozproszenia)
Rozstęp
Odchylenie decylowe
.
.
ℎ = FG − F (9.)
-I J = HK H
(11.)
Odchylenie ćwiartkowe
- =
.HHH .H
Pozycyjny współczynnik zmienności
AL =
(10.)
3. MIARY ASYMETRII
A. Klasyczne miary asymetrii
Klasyczny współczynnik asymetrii
N = 9:
∑OP (
̅ )5
BC5
.H T.HHH
.C
C
N" =
M
∗ 100%
(12.)
Współczynnik skośności
(13.)
B. Pozycyjne miary asymetrii
Pozycyjny współczynnik asymetrii
N" =
.C
(15.)
̅ RS
BC
(14.)
Ćwiczenia 1-2
Analiza rozkładu empirycznego
Typowy obszar zmienności:
̅ − U < WXY < ̅ + U, Z[\] ̅ ± U
Typowy
obszar
zmienności
(kwartylowy):
_ − - < WXY < _ + -
(16.)
cechy
(17.)
***Pozycyjna miara rozproszenia (dyspersji)
Dominanta (moda, modalna):
`a =
I
a
=
I
+(
b
b
b:
b:
)T( b
bc
ℎ
) I
(18.)
– dolna granica przedziału, w którym występuje dominanta,
ℎI – rozpiętość przedziału klasowego, w którym występuje dominanta,
I , I , IT – odpowiednio: liczebność przedziału, w którym występuje dominanta, przedziału
poprzedniego i następnego.
Ćwiczenia 1-2
Analiza rozkładu empirycznego
Teoria – wybrane zagadnienia
1.
MIARY POŁOŻENIA
A. klasyczne
• średnia arytmetyczna
B.
•
•
•
2.
A.
•
•
•
•
MIARY DYSPERSJI (ROZPROSZENIA)
klasyczne
wariancja
odchylenie standardowe
odchylenie przeciętne
klasyczny współczynnik zmienności
B.
•
•
•
•
3.
•
•
pozycyjne
mediana
dominanta
kwantyle (kwartyle, decyle, percentyle)
MIARY ASYMETRII
•
klasyczny współczynnik asymetrii
współczynnik skośności
4.
pozycyjne
rozstęp
odchylenie ćwiartkowe
odchylenie decylowe
pozycyjny współczynnik zmienności
pozycyjny współczynnik asymetrii
MIARY KONCENTRACJI
Współczynnik Gini’ego
Dystrybuanta empiryczna – Fn(x) nazywamy funkcję określoną na podstawie danych (xi, wi), i=1,2,…,k
•
•
0i]j < 1
h
f
d ( ) = k l i]j ≤ < + 1, gl
f
1i]j ≥
e
Liczymy tylko dla zbioru danych indywidualnych
Dystrybuanta mieści się w przedziale <0; 1>
Przykład dystrybuanty empirycznej (cecha
skokowa)
= 1,2, … , − 1
Przykład dystrybuanty empirycznej (cecha
ciągła)
Ćwiczenia 1-2
Analiza rozkładu empirycznego
Miary klasyczne – wszystkie realizacje cechy X są wykorzystywane do obliczenia wartości miary np.
średniej.
Miary pozycyjne – niewrażliwe na skrajne obserwacje, nie są zakłócane przez skrajne realizacje
wartości cechy.
o − pq;n
o + pq) jest
Reguła 3 sigm – wystąpienie obserwacji o wartości cechy poza przedziałem (n
mało prawdopodobne. W przypadku rozkładu normalnego lub zbliżonego do normalnego uzyskujemy
następujące zależności:
obszar
procent obserwacji w tym obszarze
( ̅ − U; ̅ + U)
68,28%
( ̅ − 2U; ̅ + 2U)
95,44%
( ̅ − 3U; ̅ + 3U)
99,73%
Współczynnik Giniego – jest statystyczną miarą koncentracji (nierówności) wynagrodzeń i dochodów
mieszczących się w przedziale (0;1).
Wartość 1 wskazuje na perfekcyjną nierówność, tj. jedna osoba posiada całą pulę wynagrodzeń
danej populacji (grupy).
Wartość 0 wskazuje na perfekcyjną równość, tj. wszyscy ludzie mają tyle samo.
Im większa wartość współczynnika, tym większa koncentracja (nierówność) wynagrodzeń.2
Literatura pomocnicza:
1. Malinowski A., Statystyka opisowa dla studentów administracji i prawa, Wyd. 1.,
Wydawnictwo Liber, Warszawa 2004.
2. Ostaszewski W., Badania statystyczne, Oficyna a Wolters Kluwer business, Warszawa 2011,
s. 76-114.
2
B. Cichomski, Wynagrodzenia kobiet i mężczyzn w latach 1996-2002, raport 5, w: Krajowy System
Monitorowania Równego Traktowania Kobiet i Mężczyzn. Raporty Eksperckie, t.1, red. B. Baran, Wyd. Naukowe
Scholar, Warszawa 2006, s. 302.