opis metody

Transkrypt

opis metody
DOBÓR ZMIENNYCH OBJAŚNIAJĄCYCH DO MODELU
Zmienne objaśniające w modelu ekonometrycznym powinny być nieprzypadkowe. W ich określeniu pomaga np.
teoria ekonomii, która dzięki opisowi procesów gospodarczych (do czego jest powołana), dostarcza tym samym
gotowych propozycji w zakresie listy zmiennych objaśniających dla konkretnych przypadków. Jednak teoria
ekonomii nie zajmuje się oceną konkretnych typów zmiennych w konkretnych przypadkach badawczych. Często
bywa tak, że teoria ekonomii nie precyzuje w jasny sposób, które zmienny należy brać pod uwagę w określonym
kontekście badawczym. Dla tworzącego model ekonometryczny pozostaje zatem problem takiego doboru
zmiennych objaśniających do modelu, aby jak najlepiej scharakteryzować funkcyjną zależność pomiędzy zmienną
objaśnianą, a zmiennymi objaśniającymi.
W praktyce ten problem sprowadza się do zredukowania listy zmiennych dostarczanych prze teorię ekonomii
(lub inne nauki szczegółowo analizujące problem pośrednio badany przez ekonometryka) przy zachowaniu
pewnych reguł. Najważniejsze z nich to:
• należy pozostawić w modelu zmienne silnie skorelowane ze zmienną objaśnianą, przy jednoczesnym
słabym skorelowaniu zmiennych objaśniających między sobą;
• pozostawione zmienne powinny silnie reprezentować zmienne, które nie znalazły się w zbiorze
zmiennych objaśniających modelu (choćby z powodu konieczności ograniczenia liczby tych
zmiennych), a pomimo to mają jakiś wpływ na zmienną objaśnianą;
Wśród procedur statystycznych, które wyszczególnia się jako metody redukcji zbioru zmiennych objaśniających
do modelu, wyróżnia się tzw. metodę wskaźników pojemności informacyjnej Hellwiga (obok np. metody
analizy grafów, metody analizy macierzy współczynników korelacji).
Idea badania pojemności nośników informacji metodą Hellwiga (takie określenie również spotykane jest w
literaturze) sprowadza się do ustalenia listy zmiennych, które są silnie skorelowane ze zmienną objaśniającą przy
jednoczesnym słabym skorelowaniu wzajemnym.
Krok 1. Budujemy wektor korelacji R0, którego elementami są współczynniki ri, korelacji poszczególnych
realizacji zmiennej objaśnianej Y oraz potencjalnych zmiennych objaśniających X1, X2, ..., Xm, obliczone według
wzoru:
n
∑(y
ri =
t
− y )( xti − x )
t =1
n
∑(y
n
t
− y ) 2 ∑ ( xti − x ) 2
t =1
t =1
gdzie m jest liczbą potencjalnych zmiennych objaśniających modelu, n jest liczbą pomiarów natomiast
i = 1,2, ..., m.
Krok 2. Budujemy macierz korelacji R, która obrazuje współczynniki korelacji między potencjalnymi zmiennymi
objaśniającymi X1, X2, ..., Xm. Elementy składowe macierzy obliczone są według wzoru:
n
∑ (x
rij =
ti
− xi )( xtj − x j )
t =1
n
n
t =1
t =1
∑ ( x ti − xi ) 2 ∑ ( x tj − x j ) 2
Macierz R jest symetryczna (rij = rji) i wygląda następująco:
1
r
21
R= 
 ...

rm1
r12
1
...
rm2
... r1m 
... r2 m 

... ... 

... 1 
Krok 3. Rozpatrywane są wszystkie kombinacje zbioru potencjalnych zmiennych objaśniających, których liczba
równa jest:
L = 2m. – 1
Dla każdej kombinacji potencjalnych zmiennych objaśniających oblicza się tzw. indywidualne wskaźniki
pojemności informacyjnej hij, zdefiniowane:
r2 j
hlj =
ml
1+ ∑ rij
i =1
i≠ j
gdzie l = 1, 2, ..., L (l oznacza numer kombinacji) oraz j = 1, 2, ..., ml (j oznacza numer zmiennej w kombinacji),
ml
natomiast ml oznacza liczbę zmiennych w rozpatrywanej kombinacji ( ∑ rij wskazuje na sumę bezwzględnych
i =1
i≠ j
wartości współczynników korelacji j-tej zmiennej objaśniającej z pozostałymi występującymi w rozpatrywanej
kombinacji).
Krok 4. Obliczona zostaje integralna pojemność nośników informacji, która zdefiniowana jest jako suma
pojemności indywidualnych w ramach każdej z kombinacji:
ml
Hl =
∑h
lj
(l = 1, 2, ..., L).
j =1
Indywidualne oraz integralne wskaźniki są unormowane w przedziale [0;1] oraz przyjmują tym większe
wartości, im silniejsza jest korelacja między zmiennymi objaśniającymi i zmienną objaśnianą, a także im słabsza
jest korelacja wzajemna między zmiennymi objaśniającymi.
Po przyjęciu wartości maksymalnej dla obliczonych wskaźników integralnej pojemności informacyjnej, odrzuca
się te zmienne, których charakterystyki jej nie osiągają.