ELEMENTARNA ANALIZA DANYCH Egzamin 19 czerwca 2009

Transkrypt

ELEMENTARNA ANALIZA DANYCH Egzamin 19 czerwca 2009
ELEMENTARNA ANALIZA DANYCH
Egzamin 19 czerwca 2009
Imię i nazwisko
Zaliczenie:
____ 1___
2___
3a___
Ocena:
____ 5a___ 5b___ 5c___
3b___ 4___
6a___ 6b___
6c___ 7___ 8a ___ 8b___ 8c___
1. Miarą rozbieŜnoci pomiędzy wektorami X ′ = x 1 , x 2 , ..., x n  i Y ′ = y 1 , y 2 , ..., y n 
jest dX, Y = |x 1 − y 1 | + |x n − y n |. Znajdź wartość średnią i rozrzut dla tej miary
rozbieŜności. JeŜeli zadanie nie ma jednego rozwiązania, opisz zbiór wszystkich wartości
typowych.
2. X ′ = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10. Oblicz Q 1 , X i q 1 , X .
2
2
3. Dystrybuanta pewnego wektora X ma postać:
Fu, X =
0
u≤1
0.5
1<u≤2
0.8
2<u≤3
1
u>3
a. Oblicz wartośc średniejarytmetycznejdlawektora X.
b.Obliczwartościkwantyli Q0.4, Q0.53, Q0.8
4.Wektor X jest symetryczny z medianą m. Na jakiej krzywej leŜy wykres
kwantylowo-kwantylowy wektora −X względem wektora X?
5. Dane o ludności krajów Unii Europejskiej, uporządkowane według liczby ludności
(4 oznacza 400 000)
1
2
3
4
5
6
7
8
9
Malta Luksemburg Cypr
Estonia Słowenia Łotwa Irlandia Litwa Finlandia
4
4
13
20
10
11
13
14
8
12
23
36
15
16
36
17
51
18
Dania Słowacja Bułgaria Austria Szwecja Węgry Belgia Grecja Czechy
52
19
54
75
20
81
21
88
22
100
23
101
24
105
25
106
26
27
Portugalia Holandia Rumunia Polska Hiszpania Włochy Francja Brytania Niemcy
108
155
203
386
392
572
580
583
816
a. Wyznacz 5 pierwszych wartości binarnych (mediana + 2 pary dolnych i górnych).
b. Oszacuj na ich podstawie, z dokładnością do 0.5 potęgę przekształcenia
symetryzującego te dane.
c. Czy ”polska strategia pierwiastkowa” , polegająca na zastąpieniu liczby
mieszkańców przez ich pierwiastek ma tu jakie uzasadnienie? (Wsk. sprawdź symetrię
pierwszych 5 wartości binarnych z pkt. a wyraŜonych w skali pierwiastkowej. Wartość
pierwiastka moŜesz oszacować z dokładnością do najbliŜszej liczby całkowitej)
6. Składowe główne, wyznaczone dla macierzy korelacji między długością D,
szerokością S i wysokością W pewnego zbioru prostopadłościanów są równe:
h 1 = 0.6, 0.7, −0.39 ′ , h 2 = 0.4, 0.16, 0.9 ′ , h 3 = 0.7, −0.7, −0.18 ′
Wartości własne i ich pierwiastki kwadratowe wynoszą:
1
λ 1 = 1.96 1.4, λ 2 = 0.81 0.9, λ 3 = 0.230.48
a. Jaką część zmienności wyjaśniają dwie pierwsze składowe główne?
b. Wyznacz dwie pierwsze współrzędne korelacyjne zmiennych D, S, W
c. Trzy prostopadłościany A, B i C mają wymiary D, S, W:
A = 2, 2, w 1  ′ , B = 2, 2, w 2  ′ , C = 1, 3, w 1  ′
Współrzędne prostopadłościanów w bazie dwóch pierwszych składowych głównych
wynoszą:
A : 1.04, 4.72 ′ , B : 1.82, 2.92 ′ , C = 1.14, 4.48 ′
Czy prawdą jest, Ŝe w 1 < w 2 ?
7. Dane (5 obserwacji z R 2 ) są w macierzy X ′ =
4 6 2 5 2
3 7 8 6 7
Podzielono je na dwie grupy:
′
X 1 =
4 6
3 7
2 5 2
′
, X 2 =
8 6 7
Znajdź lepszy podział na dwie grupy. Uzasadnij, Ŝe jest to lepszy podział.
8. PoniŜej przedstawiony jest wykres symetrii danych z zadania 5. Linią przerywaną
narysowana jest linia prosta, o równaniu y = 0.81x + 64.4, dobrze przybliŜająca ten
wykres. Na podstawie tego równania odpowiedz:
a. czy dane są symetryczne? Jeśli nie, to jaki rodzaj asymetrii tu występuje?
b. oszacuj wartość współczynnika asymetrii γα (0 < α < 0.5)
c. oszacuj medianę
450,0
y = 0,8098x + 64,406
400,0
350,0
300,0
250,0
200,0
150,0
100,0
50,0
0,0
0,0
50,0
100,0
150,0
200,0
250,0
300,0
350,0
400,0
450,0
2