Collegium Civitas. Egzamin ze statystyki 6/27/2009, test nr XX Na

Transkrypt

Collegium Civitas. Egzamin ze statystyki 6/27/2009, test nr XX Na
Collegium Civitas. Egzamin ze statystyki
6/27/2009, test nr XX
imię i nazwisko piszącego
nr albumu
Na każde z pytań testowych odpowiedz „T”- tak lub „N” – nie.
1. Dystrybuanta zmiennej losowej X to:
Funkcja, która przyjmuje wyłącznie wartości ze zbioru <0; 1>
Funkcja, której wartości są określone przez
prawdopodobieństwo: F(r)=P(X>r)
Funkcja, która jest prawdopodobieństwem jakiegoś zdarzenia
Funkcja, która me sens wyłącznie dla zmiennych o rozkładzie
normalnym
T
N
T
N
2. Średnia zarobków w przedsiębiorstwie wynosi 2100 zł, a
odchylenie standardowe 200 zł. Przyjęto dwóch nowych
pracowników. Okazało się, że każdy z nich będzie zarabiał po 2100
zł. Czy w wyniku przyjęcia nowych pracowników
średnia zarobków w przedsiębiorstwie może się zmienić
N
mediana zarobków w przedsiębiorstwie może się zmienić
T
wariancja zarobków na pewno zmaleje
T
odsetek pracowników o najwyższych zarobkach (tj. tych,
T
których zarobki równe są maksimum zarobków wśród
wszystkich pracowników) może ulec zmianie
3. Standaryzowany wzrost Jasia to +1, zaś standaryzowany
wzrost Małgosi to +1,5. Jaś ma 130 cm. wzrostu, zaś
Małgosia 135. Czy wynika z tego, że
Wzrost Jasia przekracza średnią
Średnia wzrostu w populacji, do której należą Jaś i Małgosia
jest większa niż 126 cm
Standaryzowany wzrost Łukasza, który ma 115 cm wzrostu
wynosi –0,5
W tej populacji na pewno są osoby, których standaryzowany
wzrost jest ujemny
4. W populacji pracowników pewnej firmy 30% stanowią
kobiety. Wiadomo też, że 40% zatrudnionych pali, zaś
zmienne „płeć” i „palenie” są niezależne stochastycznie.
Czy wynika z tego, że:
60% kobiet zatrudnionych w tej firmie to osoby niepalące
Palący mężczyźni stanowią 28% pracowników firmy
Odsetek mężczyzn wśród palących jest taki sam, jak wśród
niepalących
Wśród niepalących jest tyle samo kobiet, co mężczyzn
5. Zmienne X (zadowolenie z życia: 0 – niezadowolony; 1 –
zadowolony) i Y (stan zdrowia: 0 – chory; 1 – zdrowy) są
maksymalnie skorelowane liniowo. Czy wynika z tego, że:
Chorych można spotkać równie często wśród
zadowolonych z życia jak wśród niezadowolonych z życia
Albo wszyscy chorzy są zadowoleni albo wszyscy chorzy
są niezadowoleni
eta2X|Y = eta2Y|X = 1
Regresja średnich X od Y jest funkcja stałą
T
N
6. Dane są zmienne X – „pensja w zł” oraz Y – „o ile pensja
w złotych musiała by być wyższa, żeby dana osoba
zarabiała 10.000 zł”. Czy zatem:
Współczynnik korelacji liniowej rhoX,Y = -1
Y=10.000-X
Zmienne X i Y mogą być niezależne stochastycznie
Stosunek korelacyjny eta2X|Y=1
7. Zmienna X jest niezależna korelacyjnie (tzn. w sensie
zależności przy regresji średnich) od zmiennej Y. Czy
wynika z tego, że:
Zmienne X i Y są nieskorelowane (niezależne) liniowo
Zmienna Y jest niezależna korelacyjnie od zmiennej X
Zmienna X jest niezależna w sensie zależności przy
regresji median od zmiennej Y
Zmienne X i Y są niezależne stochastycznie
T
T
N
T
T
N
N
N
8. Statystyka „średnia X z próby” (dla prostej, zwrotnej próby
losowej)…
… ma wartość oczekiwaną równą E(X)
T
… ma wartość oczekiwaną równą E(X) tylko dla prób
nieskończenie (w praktyce: wystarczająco) dużych
N
… zawsze przyjmuje wartość E(X)
N
… ma wariancję
D2(X)/n,
gdzie n to liczebność próby
T
T
T
T
T
T
N
N
T
T
N
9. Estymator, to
… parametr populacyjny
N
… taka liczba, która jest równa wartości nieznanego
parametru populacyjnego
N
… wartość oczekiwana średniej z próby
N
… pewna statystyka z próby
T
10. Na podstawie 200 elementowej próby prostej niezależnej
oszacowano odsetek osób popierających kandydata A jako
należący do przedziału <18%, 22%> na poziomie ufności
równym 0,95. Czy wynika z tego, że:
20% osób w próbie popiera kandydata A
T
20% osób w populacji popiera kandydata A
N
5% dwustuelementowych prostych niezależnych prób
T
losowych da nam błędne przedziałowe oszacowanie odsetka
osób popierających kandydata A
Prawdopodobieństwo, że odsetek osób w populacji,
popierających kandydata A będzie zawierał się w przedziale
<18%, 22%> wynosi 0,95
N
COLLEGIUM CIVITAS
×
Egzamin ze statystyki - translacje i zadania [55 pkt]
27 czerwca 2009 r.
Imię i nazwisko:
CZYTELNIE
Prowadzący
zajęcia
‰
‰
JK
MJ
TŁUMACZENIE ZDAŃ [10 pkt]
Zbadano mieszkańców pewnej gminy i określono następujące zmienne:
X – płeć (0 – kobieta; 1 – mężczyzna)
Y – wykształcenie (1 – podstawowe, 2 – średnie, 3 –wyższe)
Z – zarobki w pln
Zapisz (na osobnej kartce) za pomocą symboli statystycznych następujące zdania
a) Średnie zarobki mężczyzn z wyższym wykształceniem były wyższe od średnich zarobków w całej populacji gminy.
b) Kobiety stanowiły większy odsetek osób o wyższym wykształceniu niż mężczyźni.
Wyjaśnij (na osobnej kartce) znaczenie poniższych zapisów, nie odwołując się do terminologii statystycznej nie występującej w potocznym
języku
c) P(X = 0 ∧ Y = 3 | Z=1000) < P(X = 0 | Y = 3 ∧ Z=1000)
d) E(X | Y=2) = E(X | Y=3)
Rozwiązanie:
a) E(Z|X=1 ∧ Y=3) > E(Z)
b) P(X=0|Y=3) > P(X=1|Y=3)
c) Udział kobiet z wyższym wykształceniem wśród osób zarabiających 1000 zł był mniejszy niż udział
kobiet wśród osób z wyższym wykształceniem, które zarabiały 1000 zł.
d) Odsetek (udział) mężczyzn był taki sam wśród osób z wyższym wykształceniem, jak ze średnim.
ZADANIA [45 pkt]
Uwaga!
Wszystkie odpowiedzi należy uzasadnić.
Rozwiązania bez uzasadnienia nie będą punktowane
Zadanie 1 [25 PKT]
W zbiorowości studentów pewnej uczelni określone są zmienne: X (liczba zdanych egzaminów w sesji) i Y (liczba tygodni poświęconych
na naukę do sesji). Dana jest rodzina rozkładów warunkowych częstości zmiennej Y ze względu na wartości X oraz rozkład brzegowy
zmiennej X:
X
Y
1
2
3
a)
b)
c)
d)
1
⅓
½
2
⅓
⅓
3
⅓
⅓
4
½
⅓
1
1
1
xi
1
2
3
P(X=xi)
⅓
⅓
⅓
1
Wyznacz regresję średnich zmiennej X względem zmiennej Y. [5 pkt]
Wyznacz regresję liniową zmiennej X względem zmiennej Y. [6 pkt]
Wyznacz mierniki siły zależności związane z każdą z regresji. [8 pkt]
Zinterpretuj parametry równania regresji liniowej zmiennej X względem zmiennej Y. [6 pkt]
COLLEGIUM CIVITAS
Rozwiązanie zadania 1:
a) Zaczynamy od zamiany rodziny rozkładów warunkowych Y ze względu na X na rodzinę rozkładów warunkowych X ze
względu na Y
Rozkład łączny częstości
Y
X
1
2
1
2
3
1
9
1
6
0
5
18
3
4
1
9
1
9
0
0
0
1
9
4
18
1
9
4
18
1
6
1
9
5
18
Rodzina rozkładów warunkowych X ze względu na Y
Y
X
1
2
3
4
1
0,4
0,5
0,5
2
0,6
3
0
0,5
0,5
0,4
1
1
1
1
0,6
Regresja średnich
E(X|Y=1) = 1*0,4 + 2*0,6 = 0,4+1,2 = 1,6
E(X|Y=2) = 1*0,5 + 3*0,5 = 2
E(X|Y=3) = 1*0,5 + 3*0,5 = 2
E(X|Y=4) = 2*0,6 + 3*0,4 = 1,2+1,2 = 2,4
⎧1,6
⎪2
⎪
ˆ
XY = ⎨
⎪2
⎪⎩2,4
dla
dla
dla
dla
Y =1
Y =2
Y =3
Y =4
b) Regresja liniowa
Zaczynamy od wyznaczenie kowariancji
C(X,Y) = E(XY) – E(X)E(Y)
E(X)=2, E(Y)=2,5 – oba rozkłady są symetryczne, więc to widać bez wykonywania obliczeń.
XY
1
2
3
6
8
9
12
P
1
9
5
18
1
9
1
9
1
6
1
9
1
9
1
1 * 2 + 2 * 5 + 3 * 2 + 6 * 2 + 8 * 3 + 9 * 2 + 12 * 2 96 16
=
=
18
18 3
16
16 − 15 1
− 2 * 2,5 =
cov( X , Y ) =
=
3
3
3
5
4
4
5
D 2 (Y ) = (1 − 2,5) 2 * + (2 − 2,5) 2 * + (3 − 2,5) 2 * + (4 − 2,5) 2 * =
18
18
18
18
9 5 1 4 9 5 1 4 90 + 8 49
= * + * + * + * =
=
4 18 4 18 4 18 4 18
36
18
E ( XY ) =
b X |Y
1
6
= 3 =
49 49
18
a X |Y = 2 −
2,5 * 6 98 − 15 83
=
=
49
49
49
83 6
Równanie regresji liniowej: Xˆ Y =
+ Y
49
49
COLLEGIUM CIVITAS
c) Mierniki siły zależności
Potrzebna będzie wariancja zmiennej X, której jeszcze nie mamy wyliczonej: D ( X ) = (1 − 2) *
2
ρ X2 ,Y
2
1
1 2
+ (3 − 2) 2 * =
3
3 3
1
cov ( X , Y )
3
= 2
= 9 =
2
D ( X ) D (Y ) 2 49 49
*
3 18
2
Do obliczenia eta-kwadrat potrzebujemy wariancji średnich warunkowych lub średniej wariancji warunkowych. Ze względów
rachunkowych średnia wariancji wydaje się łatwiejsza do obliczenia:
D 2 ( X | Y = 1) = D 2 ( X | Y = 4) = 0,24
5
4 52
2
zatem: E[ D ( X | Y )] = 0,24 * + 1 * =
9
9 90
η X2 |Y
D 2 ( X | Y = 2) = D 2 ( X | Y = 3) = 1
2 52
−
3
90 = 8 = 2
=
2
60 15
3
d) interpretacja parametrów równania regresji liniowej
Równanie regresji liniowej: Xˆ Y
=
83 6
+ Y
49 49
83
49
Przewidywana liczba zdanych egzaminów dla studenta, który nie uczył się (poświęcił 0 tygodni na naukę)
6
49
Jeśli porównamy dwóch studentów, którzy różnią się o 1 tydzień czasem poświęconym na naukę, to przewidujemy, że student,
który uczył się dłużej zda o 6/49 (czyli ok. 0,12) egzaminu więcej niż ten, który uczył się krócej.
Zadanie 2. [5 PKT]
Dana jest trzyosobowa populacja: {Anna, Beata, Karol}. W populacji tej określono zmienną X - wzrost w cm. Anna ma 160 cm, Beata 170 cm, Karol - 180 cm wzrostu.
a) Wypisz wszystkie dwuelementowe próby losowe proste niezależne (tzn. zwrotne), które można wylosować z tej populacji. [1 pkt]
b) Wyznacz rozkład statystyki „średnia wzrostu z dwuelementowej prostej niezależnej próby losowej”. [4 pkt]
Rozwiązanie zadania 2
a) Dwuelementowe próby proste, niezależne:
1) Anna, Anna; 2) Anna, Beata; 3) Anna, Karol;
4) Beata, Anna; 5) Beata, Beata; 6) Beata, Karol
7) Karol, Anna; 8) Karol, Beata; 9) Karol, Karol
b) Rozkład statystyki “średni wzrost z dwuelementowej próby”
Próba
Wzrost w
Średni wzrost w
próbie
próbie
1) Anna, Anna;
160, 160
160
2) Anna, Beata;
160, 170
165
3) Anna, Karol;
160, 180
170
4) Beata, Anna;
170, 160
165
5) Beata, Beata;
170, 170
170
6) Beata, Karol
170, 180
175
7) Karol, Anna;
180, 160
170
8) Karol, Beata;
180, 170
175
9) Karol, Karol
180, 180
180
Rozkład statystyki W - “średni
wzrost z dwuelementowej próby
wi
P(W=wi)
160
1/9
165
2/9
170
3/9
175
2/9
180
1/9
COLLEGIUM CIVITAS
Zadanie 3. [15 pkt]
Dla oszacowania przedziałowego frekwencji wyborczej (odsetka osób uczestniczących w wyborach) w populacji obywateli pewnego kraju
wylosowano prostą, niezależną próbę losową o liczebności 900 osób. Okazało się, że procent osób planujących pójść na wybory w
zbadanej próbie wynosił 90%.
a. Oszacuj przedziałowo frekwencję wyborczą przyjmując poziom ufności równy 0,98 [10 pkt]
b. Jak liczną należałoby wylosować próbę, aby na tym samym poziomie ufności oszacować frekwencję wyborczą z dokładnością do
+/- 2 punktów procentowych? [5 pkt]
Rozwiązanie zadania 3
Zakładamy, że w badanej populacji określona jest dychotomiczna (zerojedynkowa) zmienna X przyjmująca wartość 0 jeśli respondent nie
zamierza wziąć udziału w wyborach i 1 – jeśli zamierza. Rozkład zmiennej w zbadanej próbie będzie więc następujący:
Xi
0
1
razem
N(X=xi)
90
810
900
Średnia tej zmiennej w próbie wynosi E(X)=0,9 i jest równa udziałowi osób W PRÓBIE,
które zamierzają wziąć udział w wyborach.
W POPULACJI średnia tej samej zmiennej również jest równa udziałowi osób, które
zamierzają wziąć udział w wyborach
a) WYZNACZANIE PRZEDZIAŁU UFNOŚCI DLA ŚREDNIEJ
Przedział ufności dla średniej wyznacza się ze wzoru:
x ± λγ
σ
n
, gdzie
x jest wynikiem badania próby.
Dla poziomu ufności 0,98 mamy: Φ (λγ ) = 0,99 zatem
λγ = 2,33
Nie mamy odchylenia standardowego w populacji σ, w związku z tym musimy dokonać estymacji punktowej odchylenia na podstawie
zbadanej próby
σ = s = 0,9 * 0,1 = 0,3
W rezultacie otrzymujemy:
d = 2,33
0,3
= 0,0233 , czyli odsetek osób, które zamierzają wziąć udział w nadchodzących wyborach znajduje się w przedziale:
30
(88,67%; 92,33%)
b) WYZNACZANIE MINIMALNEJ LICZEBNOŚCI PRÓBY
Jeśli chcemy dopiero wylosować próbę, by oszacować frekwencję, to nie wiemy – oczywiście – jaka ona może być i tym samym – jakie
może być odchylenie standardowe zmiennej X w populacji. Zakładamy najmniej optymistyczny scenariusz, że odchylenie to będzie
maksymalne, czyli, że będzie wynosiło 0,5.
Przekształcamy wzór na d względem n:
Jeśli
d = 0,02 to d = 0,0004 ,
2
więc
n=
λγ2 σ 2
d2
2,33 2 0,25
=
= 3393,063
0,0004
Minimalna liczebność próby, która musielibyśmy wylosować wynosi n=3394