Ekonometria Lista 2 Z2ZF01 Lista zadań obejmuje następujące

Transkrypt

Ekonometria Lista 2 Z2ZF01 Lista zadań obejmuje następujące
Ekonometria
Lista 2
Z2ZF01
Lista zadań obejmuje następujące zagadnienia:
• Współczynnik korelacji liniowej Pearsona
• Współczynnik korelacji wielorakiej
• Wybrane metody doboru zmiennych do modelu liniowego
1
Na podstawie 50 obserwacji oszacowano proste regresji zmiennych X i Y : yb = −0.45x + 15.43,
x
b = −2.184y + 33.88. Sprawdzić na poziomie istotności 5%, czy współczynnik korelacji liniowej
między zmiennymi:
a) jest statystycznie istotnie różny od zera;
b) jest statystycznie istotnie ujemny.
2
Dana jest macierz:


1
0.8
x
1 −0.4 .
R =  0.8
x −0.4
1
Dla jakich wartości x podana macierz może być macierzą korelacyjną?
3
Współczynniki korelacji liniowej między zmiennymi Y , X1 oraz X2 łączonymi w pary wynoszą:
r1 = 0.8, r2 = 0.7, r12 = 0.9. Obliczyć i zinterpretować współczynnik korelacji wielorakiej
między zmienną Y a zmiennymi X1 i X2 .
4
Macierz R zawiera współczynniki korelacji między zmiennymi X1 , X2 , X3 , X4 .


1 0.53 −0.3 0.57

1 −0.92 0.99 

R=

1 −0.9 
1
a) Jaka jest siła zależności zmiennej X2 od X1 i X4 jednocześnie?
b3 = a0 + a1 X1 + a2 X4 .
b) Obliczyć współczynnik korelacji wielorakiej dla modelu X
5
Dany jest wektor współczynników korelacji R0 zmiennej objaśnianej Y z potencjalnymi zmiennymi objaśniającymi X1 , X2 , X3 , X4 oraz macierz korelacji zmiennych X1 , X2 , X3 , X4 .




0.6
1
 −0.7 
 −0.6

1

.
R0 = 
R=
 −0.8 ,
 −0.8

0.5
1
0.5
0.3 −0.2 −0.7
1
Która z kombinacji zmiennych objaśniających: C1 = {X1 , X3 } czy C2 = {X2 , X3 }, jest lepsza ze
względu na współczynnik korelacji wielorakiej?
1
Ekonometria
Lista 2
Z2ZF01
6
Dla danych z zadania 5 dobrać zmienne objaśniające metodą analizy współczynników korelacji.
Liczba obserwacji wynosiła 25. Przyjąć poziom istotności 5%.
7
Dla danych z zadania 5 dobrać zmienne objaśniające metodą grafową.
współczynnik korelacji oparty na regule minimaksowej.
Przyjąć krytyczny
8
Dla danych z zadania 5 sprawdzić, która spośród dwuelementowych kombinacji potencjalnych
zmiennych objaśniających jest lepsza w sensie metody pojemności informacji.
9
Współczynnik korelacji zmiennych X1 i X2 wynosi (−0.25). Ile wynosi pojemność integralna
kombinacji {X1 , X2 }, jeżeli pojemność integralna kombinacji {X1 } wynosi 0.64, a pojemność
integralna kombinacji {X2 } jest równa 0.36?
10
Rozpatrywane są potencjalne zmienne objaśniające X1 i X2 . R0 = [r1 0.8]T , r12 = 0.9. Dla
jakiego r1 kombinacja {X1 } jest najlepsza w sensie metody pojemności informacyjnej?
11
Rozpatrywanych jest m potencjalnych zmiennych objaśniających i jedna zmienna objaśniana.
a) Wyprowadzić liczbę wszystkich możliwych kombinacji zmiennych objaśniających.
b) Wyjaśnić, dlaczego dla dużego m przegląd wszystkich możliwych kombinacji w celu wybrania najlepszego modelu (np. za pomocą wskaźników pojemności informacji) staje się
kłopotliwy?
Forward stepwise selection method
Zamiast przeszukiwać wszystkie możliwe podzbiory zbioru potencjalnych zmiennych objaśniających, można wykorzystać algorytm lokalnie optymalny. Popularnym algorytmem jest
forward stepwise selection method. W algorytmie tym punktem wyjścia jest zdegenerowany
model zawierający wyłącznie wyraz wolny. Do modelu są następnie dodawane sekwencyjnie
zmienne objaśniające, które w największym stopniu poprawiają jego dopasowanie do danych.
Niech w danym kroku model obejmuje k zmiennych objaśniających (k < m), a odpowiedni
b Następnie dodawana jest jedna z pozostałych zmiennych
wektor ocen parametrów to α.
e Do pomiaru poprawy dopasowania
objaśniających (wówczas otrzymywany jest wektor α).
związanego z dodaniem zmiennej służy statystyka F , określona wzorem:
F =
b − RSS(α)
e
RSS(α)
,
e
RSS(α)/(n
− k − 2)
gdzie n to liczba obserwacji, RSS — suma kwadratów reszt modelu (residual sum of squares).
Typowa strategia polega na dodaniu w danym kroku tej zmiennej, która daje największą
wartość statystyki F (w największym stopniu poprawia dopasowanie modelu). Działanie algorytmu zatrzymywane jest w sytuacji, gdy żadna z pozostałych zmiennych nie daje wartości empirycznej statystyki F większej od wybranego, wysokiego kwantylu (np. 90%, 95%) rozkładu
F1,n−k−2 .
2
Ekonometria
Lista 2
Z2ZF01
12
Za pomocą metody forward stepwise selection uzyskano model objemujący 12 spośród 15 potencjalnych zmiennych objaśniających. Suma kwadratów reszt modelu zawierającego 12 zmiennych
objaśniających wyniosła 161.8. Zbiór danych, na podstawie których estymowano model, liczył
140 obserwacji. W tabeli zestawiono sumy kwadratów reszt modeli, powstałych po włączeniu
do obecnego modelu jednej z pozostałych zmiennych:
e
RSS(α)
X2
X5
X12
158.2
158.8
159.9
Która z pozostałych zmiennych zostanie włączona do modelu w kolejnym kroku algorytmu?
Przyjąć jako krytyczny 95 percentyl rozkładu. Kwantyl 95% rozkładu statystyki F wynosi
F0.95;1,126 = 3.9163.
3