Problemy zwi ˛azane z danymi

Transkrypt

Problemy zwi ˛azane z danymi
Rozdział 7
Problemy zwiazane
˛
z danymi
W tym rozdziale zajmiemy si˛e problemami b˛edacymi
˛
wynikiem niedoskonałości używanej w estymacji próby.
Najpoważniejszym problemem w trakcie estymacji jest brak informacji na temat pewnych zmiennych.
Przeanalizujemy wpływ pomini˛ecia takich niedost˛epnych w bazie zmiennych na wyniki oszacowań.Przy
okazji zbadamy także wpływ wprowadzenia do modelu zmiennych nie majacych
˛
istotnego wpływu na
wielkość zmiennej zależnej.
Ważnym etapem badania ekonometrycznego jest werifikacja poprawności i jakości danych. Niekiedy
bł˛edne wyniki badania ekonometrycznego sa˛ skutkiem niewielkiej liczby bł˛ednych obserwacji. Ważnym
etapem badania ekonometrycznego jest weryfikacja danych pod katem
˛
ich poprawności i logicznej spójności. Taki wst˛epny etap pracy nad danymi polegajacy
˛ na ich weryfikacji i czyszczeniu jest cz˛esto najbardziej pracochłonny ale cz˛esto także decyduje o sukcesie badania.
Własności zbioru danych moga˛ powodować trudności w identyfikacji wpływu poszczególnych zmiennych objaśniajacych
˛
na analizowana˛ zmienna˛ objaśniana.˛ Dzieje si˛e tak wtedy, gdy zmienne objaśniajace
˛
sa˛ silnie skorelowane. Powiedzmy, że x1 i x2 sa˛ silnie dodatnio skorelowane a wi˛ec rosna˛ ”naogół” razem.
Jeśli równocześnie rośnie y, to trudno jest odpowiedzieć na pytanie, czy wzrost y jest zwiazany
˛
ze wzrostem x1 , czy też x2 . Taka˛ silna˛ korelacj˛e mi˛edzy zmiennymi nazywamy współliniowościa.˛ Choć cz˛esto
trudno jest pozbyć si˛e współiniowości z modelu, to jednak samo jej wykrycie ma wpływ na interpretacj˛e
wyników badania.
Rozważania w tym rozdziale b˛eda˛ miały z konieczności miały charakter nieformalny, ponieważ nie da
si˛e sformułować formalnego modelu, który mógłby posłużyć do statystycznej analizy problemów zwia˛
zanych z niedoskonałościa˛ zbioru danych. Podane reguły maja˛ charakter zdroworozsadkowy,
˛
lub też sa˛
”ogólnie przyj˛eta˛ praktyka”.
˛
c
Copyright °2006
by Jerzy Mycielski
139
ROZDZIAŁ 7. PROBLEMY ZWIAZANE
˛
Z DANYMI
140
7.1 Zmienne pomini˛ete i nieistotne
Analizowane b˛edziemy dwa modele. Pierwszym modelem b˛edzie model ze zmiennymi niezależnymi
zawartymi w macierzy X 1 , drugi zawierać b˛edzie poza tymi zmiennymi także zmienne niezależne zawarte w macierzy X 2 .
y = X 1 β1 + u
(7.1)
y = X 1 β1 + X 2 β2 + ε
(7.2)
Każdy z tych dwóch modeli może potencjalnie opisywać prawidłowo zmienna˛ y. Problemy pojawia˛
si˛e wtedy, gdy przy liczeniu estymatora parametrów wykorzystamy niewłościwy model.
Powiedzmy, że estymujemy model (7.1) a w rzeczywistości prawdziwy jest model (7.2). Inaczej mówiac
˛ zakładamy, że β 2 = 0 podczas, gdy w rzeczywistości β 2 6= 0. Przypadek ten w literaturze przedmiotu nazywany jest przypadkiem zmiennych pomini˛etych (omitted variables).
Inny przypadek zachodzi, gdy estymujemy model (7.2) a w rzeczywistości β 2 = 0. Problem w tym
przypadku polega na uwgl˛ednieniu w modelu zmiennych, które w rzeczywistości nie maja˛ wpływu na
zmienna˛ zależna.˛
Okazuje si˛e, że skutki pomini˛ecia istotnych zmiennych sa˛ znacznie poważniejsze niż skutki umieszczenia nieistotnych zmiennych w modelu.
7.1.1 Zmienne pomini˛ete
e . Zakładamy, że prawOznaczmy estymator M N K wektora parametrów β 1 w modelu (7.1) jako β
1
e można wi˛ec rozpisać w sposób
dziwy mechanizm generujacy
˛ y dany jest modelem (7.2) estymator β
1
nast˛epujacy:
˛
¡
¢
e = X 0 X 1 −1 X 0 y
β
1
1
1
¡ 0
¢−1 0
X 1 (X 1 β 1 + X 2 β 2 + u)
= X 1X 1
¡
¢−1 0
¡ 0
¢−1 0
X 1ε
X 1 X 2 β 2 + X 01 X 1
= β1 + X 1 X 1
Wartość oczekiwana˛ tego estymatora jest równa:
³ ´
¡
¢
¡
¢
e = β + X 0 X 1 −1 X 0 X 2 β + X 0 X 1 −1 X 0 E (ε)
E β
2
1
1
1
1
1
1
¡ 0
¢−1 0
X 1 X 2 β2
= β1 + X 1 X 1
Z wyniku wnioskujemy, że w przypadku pomini˛ecia istotnych zmiennych estymator M N K ma obcia˛żenie równe:
³ ´
¡
¢
e − β = X 0 X 1 −1 X 0 X 2 β
E β
2
1
1
1
1
Istnieja˛ dwa ważne przypadki, dla których pomini˛ecie zmiennej nie powoduje obcia˛żenia estymatora.
Pierwszy przypadek jest trywialny i zachodzi dla β 2 = 0.
7.1. ZMIENNE POMINIETE
˛ I NIEISTOTNE
141
Bardziej interesujaca
˛ jest sytuacja, gdy X 01 X 2 = 0, to jest dla przypadek, kiedy X 1 i X 2 sa˛ ortogonalne. W takim przypadku, mimo pomini˛ecia cz˛eści zmiennych objaśniajacych
˛
estymator M N K
b˛edzie dalej nieobcia˛żony. Co wi˛ecej, można pokazać, że jeśli kowariancje empirycznych mi˛edzy zmiennymi zawartymi w w X 1 i X 2 sa˛ równa zeru, to estymatory parametrów przy wszystkich zmiennych
poza stała˛ b˛eda˛ nieobcia˛żone (patrz dodatek matematyczny). Ponieważ stała w modelu najcz˛eściej nie
jest intepretowana, wi˛ec problem zwiazany
˛
z obcia˛żeniem estymatora nie pojawi si˛e wtedy, gdy zmienne
pomini˛ete nie sa˛ skorelowane ze zmiennymi, które zostały uwzgl˛ednione w modelu. Wniosek ten ma
szerokie zastosowanie w badaniach eksperymentalnych.
Przykład 7.1.1 Przeprowadzono badanie skuteczności leku. Grup˛e chorych na cukrzyc˛e podzielono losowo na grup˛e, która podano lek podnoszacy
˛ poziom insuliny i grup˛e kontrolna,˛ której podano placebo.
Po podaniu leku/lplaceba zmierzono chorym poziom insuliny. Wiadomo, że wpływ na poziom insuliny
ma nie tylko lek ale także inne czynniki takie jak uwarunkowania genetyczne, zaawansowanie cukrzycy
etc. Czy tak zaprojektowane badanie da właściwe oszacowanie wpływu leku na poziom insuliny, skoro
pomini˛eto te dodatkowe czynniki?
Analizowany model ma nast˛epujac
˛ a˛ postać:
yi = β0 + β1 Di + xi β 2 + εi ,
gdzie Di = 1 jeśli podano lek, a Di = 0 jeśli podano placebo. Parametr β1 mierzy wzrost poziomu
insuliny po podaniu leku. Jeśli fakt podania leku był leku był losowy, to także zależy on od wielkości xi a
b D,x ≈ Cov (Di , xi ) = 0. Zgodnie z tym
tym samym korelacja mi˛edzy Di i xi jest zerowa. W rezultacie Σ
2
co powiedziano, mimo pomini˛ecia istotnych zmiennych objaśniajacych,
˛
oszacowanie M N K parametru
β1 jest, przy takiej konstrukcji badania, nieobciażone.
˛
Z powyższych rozważań wynika, że problem obcia˛żenia estymatora pojawi si˛e, gdy istotne zmienne
pomini˛ete w modelu sa˛ skorelowane sa˛ ze zmiennymi uwgl˛ednionymi w modelu. Pomini˛ecie istotnych
zmiennych jest prawdopodobnie najcz˛estszym powodem bł˛edów w oszacowaniach, ponieważ praktyce
nigdy nie dysponujemy danymi dotyczacymi
˛
wszystkich zmiennych, które moga˛ wpłynać
˛ na zmienna˛
zależna.˛ W przypadku otrzymania nieintuicyjnego wyniku badania, należy wi˛ec zawsze zastanowić si˛e,
czy wynik ten nie jest wynikiem pomini˛ecia jakiś istotnych czynników wpływajacych
˛
na zmienna˛ zależna.
Przykład 7.1.2 Na podstawie bazy danych z Badania Ekonomicznej Aktywności Ludności z 1 kwartału
1994 przeprowadzono regresj˛e logarytmu płacy na numerze ankietera. Otrzymano nast˛epujace
˛ wyniki.
Współczynnik
(Bład
˛ Std.)
t
Pr (|t| > t∗ )
ANKR
0.001635
(0.000099)
16.53
0.000
stała
5.557534
(0.004223)
1315.95
0.000
log(płaca)
Tablica 7.1: Wynik regresji z pomini˛eta˛ jedna˛ obserwacja˛
ROZDZIAŁ 7. PROBLEMY ZWIAZANE
˛
Z DANYMI
142
Uzyskany w ten sposób wynik jest bardzo niepokojacy.
˛ Sugeruje on, że to, który ankieter przeprowadza badanie wpływa na uzyskane odpowiedzi na temat wysokości płacy. Wniosek ten jest jednak bł˛edny.
Zasi˛eg terytorialny działalności poszczególnych ankieterów jest ograniczony. Ci ankieterzy, którzy działaja˛ na terenach w lepszej sytuacji gospodarczej badaja˛ osoby o średnio wyższych płacach niż ci, którzy
działaja˛ na terenach w gorszej sytuacji.
Dodajmy do modelu zmienne zerojedynkowe zwiazane
˛
z województwem i wielkościa˛ miejscowości, w
której mieszkał respondent. Poniżej znajduje si˛e tabela zawierajaca
˛ cz˛eść oszacowań parametrów z tej
regresji:
Współczynnik
(Bład
˛ Std.)
t
Pr (|t| > t∗ )
ANKR
-0.000217
(0.000148)
-1.46
0.144
Bialskopodlaskie
..
.
-0.149512
..
.
(0.042862)
..
.
-3.49
0.000
Zielonogórskie
-0.121923
(0.027524)
-4.43
0.000
miasta 500 000 i wiecej
..
.
-0.078974
..
.
(0.019422)
..
.
-4.07
0.000
wieś
-0.247112
(0.016657)
-14.84
0.000
stała
5.904140
(0.015481)
381.37
0.000
log(płaca)
Tablica 7.2: Wynik regresji z pomini˛eta˛ jedna˛ obserwacja˛
Po wprowadzeniu dodakowych zmiennych, zmienna zwiazana
˛
z numerem ankietera stała si˛e nieistotna. Powodem powstania obciażenia,
˛
które doprowadziło do istotnie różnego od zera oszacowania
współczynnika przy tej zmiennej była korelacja mi˛edzy numerami województw i wielkościa˛ miejscowości
a numerem ankietera. Rzeczywiście współczynnik determinacji w regresji numeru ankietara na województwie i wielkości miejscowości wynosi aż R2 = 0.59.
Jak wcześniej już wcześniej wspomniano, problem zmiennych pomini˛etych jest trudny do rozwiaza˛
nia, ponieważ zazwyczaj nie dysponujemy danymi dotyczacymi
˛
tych potencjalnie waznych
˛
zmiennych.
W takiej sytuacji cenna jest umiej˛etność określenia kierunku ewentualnego obcia˛żenia. W ogólnym przypadku trudne jest podanie znaku takiego obcia˛żenia. Określenie kierunku obciazenia
˛
jest możliwe w
najprostszym przypadku, kiedy estymowany model zawiera stała˛ i jedna zmienna objaśniajac
˛ a˛ a pomini˛eta została jedna dodatkowa zmienna objaśniajaca.Wnioski
˛
z tego najprostszego przypadku sa˛ cz˛esto
stosowane, choć nie całkiem poprawnie, także w ogólniejszym przypadku modelu z wieloma zmiennymi.
Pokazaliśmy w podrozdziale 2.4,że modelu z jedna˛ zmienna˛ objaśniajac
˛ a˛
yi = β0 + β1 x1i + εi
7.1. ZMIENNE POMINIETE
˛ I NIEISTOTNE
143
estymator parametru β1 dany jest wzorem
e = sx1 y gdzie
β
1
s2x1
PN
PN
2
(x1i − x1 )
2
i=1 (x1i − x1 ) (yi − y)
syx1 =
, sx1 = i=1
N
N
Prawdziwy model ma postać yi = β0 +β1 x1i +β2 x2i +εi a wi˛ec wartość oczekiwana sxy jest równa:
1 XN
E (sxy ) =
(x1i − x1 ) E [β1 (x1i − x1 ) + β2 (x2i − x2 ) + (εi − ε)]
i=1
N
PN
PN
2
(x1i − x1 ) (x2i − x2 )
i=1 (x1i − x1 )
+ β2 i=1
= β2
N
N
PN
(x1i − x1 )
+ i=1
E (εi − ε) = β1 s2x1 + β2 sx1 x2
| {z }
N
0
e wynosi
Wartość oczekiwana estymatora β
1
³ ´ β s2 + β s
sx x
sx
2 x1 x2
e = 1 x1
= β1 + β2 21 2 = β1 + β2 2 ρx1 x2
E β
1
2
sx1
sx1
sx1
Na podstawie uzyskanego wzoru można cz˛esto wysnuć wnioski jakościowe na temat kierunku obcia˛żenia parametru przy zmiennej umieszczonej w modelu. Jeśli tylko wiemy jaki jest znak parametu β2
oraz jaki jest kierunek korelacji mi˛edzy zmienna˛ umieszczona˛ w modelu i pomini˛eta,˛ to możliwe b˛edzie
ustalenie znaku obcia˛żenia:
³ ´
e − β1 = β2 sx2 ρx x
E β
1
sx1 1 2
Przykład 7.1.3 Zbudowano prosty model liniowy, w którym zmienna˛ objaśniana˛ była stopa przyrostu
naturalnego na określonym terenie a zmienna˛ objaśniajac
˛ a˛ ilość bocianów zamieszkujacych
˛
na tym tere˛
si˛e dzieci. Czyżby
nie. Stwierdzono, że ilość bocianów istotnie i pozytywanie wpływa na ilość rodzacych
istotnie bociany przynosiły dzieci?
Analizowany model ma nast˛epujac
˛ a˛ postać:
yi = β0 + β1 x1i + εi ,
gdzie xi jest liczba˛ bocianów mieszkajacych
˛
na danym terenie a yi przyrostem naturalnym na tym terenie.
W bardziej rozbudowanym modelu
yi = β0 + β1 x1i + β2 x2i + εi ,
gdzie x2i jest miara˛ g˛estości zaludnienia danego terenu. Wiadomo, że w Polsce jak i w wielu innych
krajach, przyrost naturalny jest wyższy na terenach słabiej zaludnionych (głównie na wsi) a wi˛ec β2 > 0.
Na terenach takich jest także wi˛ecej bocianów, co implikuje, że ρx1 x2 > 0. Dodatnie oszacowanie przy
s
zmiennej bociany jest najprawdopodobniej wynikiem obciażenia
˛
estymatora E (b1 )−β1 = β2 sxx2 ρx1 x2 >
1
0, które spowodowało, że oszacowany współczynnik jest istotnie wiekszy od zera mimo, że parametr
β1 = 0.
ROZDZIAŁ 7. PROBLEMY ZWIAZANE
˛
Z DANYMI
144
Omówione powyżej przykłady pokazuja,˛ że potencjalnie obcia˛żenie zwiazane
˛
z pomini˛eciem zmiennej może doprowadzić do tego, że uznamy zmienna˛ nie majac
˛ a˛ wpływu na zmienna˛ zależna za zmienna˛
istotna˛ w modelu. Oczywiście przypadek ten jest z punktu widzenia prawidłowości uzyskanych wyników
przypadkiem najgorszym, szczególnie jeśli celem badania było stalenie, czy dana zmienna wpływa na
zmienna˛ zależna.˛ W praktyce cz˛esto problem zmiennych pomini˛etych prowadzi do nieco mniej poważnego problemu przeszacowania lub niedoszacowania wpływu zmiennej objaśniajacej
˛ na zmienna˛ objaśniana.˛
Przykład 7.1.4 (c.d. 3.1.1) Przeanalizujmy wpływ stażu na wysokość płacy. Można tego dokonać przeprowadzajac
˛ regresj˛e logarytmu płacy na wysokości stażu. Uzyskano nast˛epujacy
˛ wynik:
log (płaca) = 7.370 + 0.011 × staż
(.0134)
(.0006)
Uwzgl˛ednijmy jednak w regresji poza stażem także wiek zatrudnionego. Okaże si˛e wtedy, że jakkolwiek
wpływ stażu pozostaje dalej dodatni to jednak spada prawie o połow˛e:
log (płaca) = 7.215 + 0.006 × staż+0.006 × wiek
(0.038)
(0.001)
(0.001)
7.1.2 Zmienne nieistotne
Odwrotnościa˛ problemu zmiennych pomini˛etych jest problem zmiennych nieistotnych. Załóżmy, że
estymujemy model (7.2), gdy prawdziwym modelem jest model (7.1). W takim przypadku szacowany
parametr β 2 = 0 a zmienne zawarte w X 2 nie wpływaja˛ na zmienna˛ zależna.˛ Przypadek ten ten można
przeanalizować wracajac
˛ do na rozważań na temat własności estymatorów z ograniczeniami. Ustaliliśmy
wtedy, że dla prawdziwych ograniczeń postaci H0 : Hβ = h, estymator z ograniczeniami jest nieobcia˛żony i ma mniejsza˛ wariancj˛e od estymatora bez ograniczeń. Wynika z tego, że jeśli prawdziwe jest
ograniczenie β 2 = 0 a zatem prawdziwy jest model (7.1) a estymowanym modelem jest model (7.2), to
uzyskany estymator parametru β 1 b˛edzie nieobcia˛żony ale b˛edzie miał wyższa˛ wariancj˛e niż estymator
uzyskany na podstawie modelu (7.1). Inaczej mówiac,
˛ w modelu, w którym wyst˛epuja˛ zmienne nieistotne
estymator M N K jest ma wyższa˛ wariancja niż w modelu, z którego usuni˛eto zmienne nieistotne.
Wniosek ten wyjaśnia dlaczego budujac
˛ model da˛żymy do usuni˛ecia z niego zmiennych nieistotnych.
Mimo, że usuwanie zmiennych pogarsza jakość dopasowania (patrz podrozdział 2.10), to jednak usuwanie zmiennych zmiennych nieistotnych poprawia dokładność oszacowań przy zmiennych istotnych.
Druga˛ korzyścia˛ zwiazan
˛ a˛ z usuwaniem nieistotnych z modelu jest uzyskiwane w ten sposób uproszczenie modelu. Podobnie jednak jak w przypadku narzucania na model ograniczeń, usuwanie zmiennych z
modelu zwiazane
˛
jest z niebezpieczeństwem usuni˛ecia z modelu zmiennej istotnej, co doprowadzić może,
do pojawienia si˛e obcia˛żenia estymatora.
Pytania:
1. Jaki skutek może mieć pomini˛ecie istotnej zmiennej w modelu?
7.2. OBSERWACJE NIETYPOWE I BŁEDNE
˛
145
2. W jakim szczególnym przypadku można uzyskać prawidłowe oszacowania parametrów, mimo, że
w modelu pomini˛eto istotne zmienne?
3. Dlaczego z modelu powinno si˛e usuwać zmienne nieistotne?
4. Parametry przy zmiennych x1 i x2 sa˛ dodatnie. Zmienne sa˛ ujemnie skorelowane. Jaki b˛edzie
wpływ pomini˛ecia zmiennej x1 na oszacowanie parametr przy zmiennej x2 ?
7.2
Obserwacje nietypowe i bł˛edne
Cz˛estym problemem przy estymacji modelu sa˛ zanieczyszczenia bazy danych. Moga˛ one być zwia˛
zane zarówno z nietypowościa˛ cz˛esci obserwacji jak i na przykład bł˛edami w kodowaniu zmiennych. W
literaturze wyróżnia si˛e dwa przypadki. Po pierwsze obserwacja może być nietypowa, to znaczy charakteryzować si˛e nietypowymi na tle pozostałych obserwacji cechami. Obserwacja nietypowa nie jest jednak
bł˛edna w tym sensie, że mechanizm, który generuje determinuje zmienna˛ zależna˛ dla tej obserwacji jest
w dalszym ciagu
˛ tym mechanizmem, który opisywany jest przez nasz model.
Drugim przypadkiem jest przypadek obserwacji bł˛ednej. Obserwacja bł˛edna jest to obserwacja, której powstania nie da si˛e wytłumaczyć za pomoca˛ mechnizmu, który stanowi baz˛e teoretyczna˛ naszego
modelu. Obserwacje bł˛edne cz˛esto pojawiaja˛ si˛e w wyniku bł˛edów powstałych przy wpisywaniu obserwacji do bazy danych. Niekiedy jednak obserwacje takie sa˛ rzeczywistymi obserwacjami, zwiazanymi
˛
z
pewnymi nietypowymi zdarzeniami, których nie opisujemy za pomoca˛ naszego modelu.
Niezależnie od tego czy obserwacja jest nietypowa, czy też bł˛edna jej wpływ na wynik regresji zależy
od tego na ile pasuje do prostej regresji. Najbardziej niepokojaca
˛ jest sytuacja, w której obserwacja ma
nietypowe wartości dla zmiennych niezależnych a przy tym słabo pasuje do prostej regresji. Na rysunku
7.1 zilustrowano sytuacj˛e, w której obserwacja nietypowa dobrze pasuje do krzywej regresji. Jeśli zakreślona kółkiem obserwacja nietypowa jest poprawna to jej wystapienie
˛
w próbie pozytywanie wpłynie
na prezycyzj˛e oszacowań współczynników. Zaznaczone na rysunku proste regresji oszacowane na pełnej próbie i próbie bez nietypowej obserwacji nie różnia˛ si˛e zbyt silnie od siebie, ponieważ obserwacja˛
tak czy inaczej ”pasuje” do krzywej regresji. Oznacza to, że w tym szczególnym przypadku, nawet jeśli obserwacja nietypowa jest w rzeczywistości bł˛edna, to nie wpłynie ona zbyt silnie na oszacowania
parametrów.
Odwrotna sytuacja zilustrowana jest na rysunku 7.2. W tym przypad obserwacja nietypowa nie tylko
charakteryzuje si˛e nietypowa˛ wielkościa˛ zmiennej niezależnej ale dodatkowo zupełnie nie pasuje do
zwiazku
˛
mi˛edzy zmienna˛ zależna˛ i zmiennymi niezależnymi, który można wywnioskować na podstawie pozostałych obserwacji. Wyniki regresji różnia˛ si˛e mocno w zależności od tego, czy nietypowa obserwacja została zawarta w próbie, czy też została z niej usuni˛eta. W tym przypadku, jeśli nietypowa
obserwacja była bł˛edna, to umieszczenie jej w próbie b˛edzie miało katastrofalne skutki dla jakości uzyskanych oszacowań. Z drugiej strony, jeśli obserwacja te jest poprawna, to uwgl˛ednienie jej w próbie
poprawi znacznie jakość oszacowań. Analizujac
˛ dane szczególna˛ uwag˛e powinniśmy zwrócić na wi˛ec
ROZDZIAŁ 7. PROBLEMY ZWIAZANE
˛
Z DANYMI
146
y
y
obserwacj˛e, które maja˛ nietypowe wielkości zmiennych objaśniajacych
˛
i słabo posuja˛ do prostej regresji.
x
x
Rysunek 7.1: Obserwacja nietypowa pasujaca
˛ doRysunek 7.2: Obserwacja nietypowa nie pasujaca
˛ do
prostej regresji
prostej regresji
Na postawie samego modelu nie da si˛e ustalić, które obserwacje sa˛ bł˛edne. Sam fakt, że obserwacja
nie pasuje do modelu nie może być powodem uznania jej za obserwacj˛e bł˛edna.˛ Gdybyśmy tak post˛epowali, to zawsze udawałoby nam si˛e uzyskać dobrze dopasowany model - poprostu wszystkie obserwacje,
które do modelu nie pasuja˛ usuwalibyśmy z próby.
Cz˛eść obserwacji możemy uznać za bł˛edne na podstawie teorii lub na podstawie dodatkowych informacji spoza próby Przykładowo, jeśli zmienna wiek przyjmie pewnej obserwacji wartość ujemna˛ to
obserwacja ta˛ można uznać za bł˛edna˛ ponieważ wiemy, że zmienna wiek może przyjmować wyłacz˛
nie wartości dodatnie. Bardziej subtelne przypadki zwiazane
˛
sa˛ z obserwacjami, które sa˛ bł˛edne w tym
sensie, że nie moga˛ być wyjaśnione za pomoca˛ teorii, która posłużyła nam do zbudowania estymowanego modelu. Przykładowo, jeśli estymujemy krzywa˛ popytu na żywność, to może si˛e zdarzyć, że w
próbie znajda˛ si˛e nietypowe obserwacje zwiazane
˛
z okresami, w których obowiazywała
˛
reglamentacja
żywności. Obserwacje potraktować tak jak obserwacje bł˛edne i usunać
˛ je z próby, ponieważ standardowy
mikroekonomiczny model opisujacy
˛ krzywa˛ popytu nie może być stosowany w przypadku, w którym
podział dóbr nie jest rynkowy.
Przykład 7.2.1 Dostaliśmy za zadanie porównanie rentowności dwóch typów kontraktów: A i B. Dysponujemy nast˛epujacymi
˛
10 danymi historycznymi dotyczacymi
˛
stóp zwrotu (IRR) dla kontraktu A:
{10, 8, 8, 9, 11, 10, 8, 9, 11, 10} i B: {16, 15, 18, 17, 16, −80, 17, 16, 16, 17}. Zwraca uwag˛e jedna nietypowa ujemna obserwacja dla kontraktu B (dotyczy ona dłużnika, który zbankrutował), czy obserwacj˛e
t˛e można pominać?
˛ Zdefiniujmy zmienna˛ zerojedynkowa˛ B przyjmujac
˛ a˛ wartość 1 dla kontraktów z grupy
B.
7.2. OBSERWACJE NIETYPOWE I BŁEDNE
˛
q
B
stała
147
Współczynnik
Bład
˛ Std.
t
Pr (|t| > t∗ )
7.155556
(.4808912)
14.88
0.000
9.4
(.330972)
28.40
0.000
Tablica 7.3: Wynik regresji z pomini˛eta˛ jedna˛ obserwacja˛
q
B
stała
Współczynnik
Bład
˛ Std.
t
Pr (|t| > t∗ )
-3.5
(10.66526)
-0.33
0.747
9.4
(7.541478)
1.25
0.229
Tablica 7.4: Wynik regresji z uwzgl˛ednionymi wszystkimi obserwacjami
Wnioski dotyczace
˛ dochodowości konraktów zależa˛ od pomini˛ecia badź
˛ nietypowej obserwacji. Kontrakt B jest statystycznie lepszy od kontraktu A jeśli pominiemy obserwacj˛e nietypowa.˛ Jeśli uwzgl˛ednimy
wszystkie obserwacje, to na podstawie próby nie da si˛e rozstrzygnać,
˛ który kontrakt jest lepszy. Ujemny
znak przy zmiennej B, sugeruje jednak, że kontrakt B jest gorszy od kontaktu A.
Nietypowa˛ obserwacj˛e można odrzucić jedynie wtedy, gdy uda nam si˛e dowieść na podstawie informacji spoza próby, że kontrakt typu B, który zakończył si˛e bankructwem dłużnika był z jakiegoś powodu
nietypowy - np. popełniono rażace
˛ bł˛edy w ocenie wniosku.
W dalszej cz˛esci rozdziału zajmiemy si˛e statystykami opisowymi, za pomoca˛ których można wykryć
te obserwacje w próbie, które sa˛ nietypowe, słabo pasuja˛ do prostej regresji, badź
˛ wyjatkowo
˛
silnie wpływaja˛ na wynik regresji. Nie sa˛ to jednak statystyki za pomoca˛ których można przetestować, czy dana
obserwacja jest bł˛edna. Jak wyjaśniono wcześniej, aby uznać obserwacj˛e za bł˛edna˛ należy to uzasadnić
innymi argumentami niż tylko to, że jest ona nietypowa lub nie pasuje do modelu.
7.2.1 Dźwignia
Do stwierdzenia, czy xi jest nietypowe na tle pozostałych x cz˛esto używa si˛e statystyki nazywana˛
dźwignia˛ (levarege) hi
¡
¢−1 0
X δ i = δ 0i P X δ i = (P X )ii
hi = δ 0i X X 0 X
¡
¢−1 0
xi
= xi X 0 X
¡
¢−1 0
0
X . Dźwignia ma nast˛epujace
˛ własności:
gdzie δi = [0, . . . , 0, 1, 0 . . . , 0] a P X = X X 0 X
• dla każdego modelu
0 ≤ hi ≤ 1
ROZDZIAŁ 7. PROBLEMY ZWIAZANE
˛
Z DANYMI
148
• dla modelu ze stała˛
1
≤ hi ≤ 1
N
Przyj˛eta w literaturze nieformalna reguła mówi, że obserwacj˛e można traktować jako nietypowa˛ jeśli
hi >
2K
N .
Jak już wiemy, to że obserwacja dla xi jest nietypowa na tle pozostałych x nie oznacza, że
obserwacja i nie pasuje do modelu. Aby si˛e o tym przekonać należy przyjrzeć si˛e resztom.
7.2.2 Standaryzowane reszty
Aby zidentyfikować szczególnie duże reszty musimy je najpierw wystandaryzować. Szcz˛esliwie w
podrozdziale 4.3.1 wyprowadziliśmy wzór (4.5), który opisuje relacj˛e mi˛edzy resztami a bł˛edami losowymi. Wykorzystujac
˛ ten wzór można policzyć wariancj˛e wektora reszt:
¡
¢
Var (e) = Var (M X ε) = M X Iσ 2 M X = σ 2 M X
Wariancja elementu i wektora reszt jest wi˛ec równa:
¡ ¢
Var (ei ) = Var δ 0i e = σ 2 δ 0i M X δ i
¡
¢
= σ 2 1 − δ 0i P X δ i = σ 2 (1 − hi )
¡
¢
Jeśli ε ∼ N 0, σ 2 I , to wystandaryzowana reszta ma standardowy rozkład normalny:
eei =
ei
√
∼ N (0, 1)
σ 1 − hi
Ponieważ parametr σ jest nieznany, wi˛ec σ stosuje si˛e jej estymator s a uzyskane w ten sposób reszty
maja,˛ 1 rozkład t-Studenta:
ei
√
ei
σ 1−hi
ebi = √
∼ tN −K
=q
±
e0 e
s 1 − hi
(N − K)
σ2
Przyj˛eło si˛e uznawać za nietypowe te obserwacje dla których |b
ei | > 2. Jednak trzeba pami˛etać o tym,
że liczba obserwacji, dla których |b
ei | > 2 zależy od wielkości próby.
Przykład 7.2.2 Przykładowo dla N = 100 i K = 2 prawdopodobieństwo, że |b
ei | > 2 wynosi:
Pr (|b
ei | > 2) = 2 [1 − Ft98 (2)] = 0.0482
Wartość oczekiwana liczby obserwacji, dla których |b
ei | > 2 jest równa 4.82.
Liczba obserwacji, dla których zaobserwujemy tak wysokie |b
ei | > 2 jest w przybliżeniu równa 5%
ogółu obserwacji. Niepokojacy
˛ jest nie tyle fakt wyst˛epowania dużych reszt, ile raczej wyst˛epownie dużych wartości reszt dla obserwacji wysoce nietypowych, a wi˛ec o wysokich dźwigniach. Obserwacje maja˛
1 Można
to pokazać na podstawie rozważań analogicznych do tych z podrozdziału 5.2.1
7.2. OBSERWACJE NIETYPOWE I BŁEDNE
˛
149
duży wpływ na wynik oszacowań, co oznacza, że ich poprawność jest szczegolnie ważna. Do wykrycia
takich obserwacji może nam posłużyć rysunek, na którym na osi poziomej sa˛ kwadraty standryzowanych
reszt a na osi pionowej wielkość dźwigni. Dla obserwacji zilustrowanych na rysunkach 7.1 i 7.2 wykresy
takie znajduja˛ si˛e odpowiednio na rysunkach ?? i 7.4. Widać na nich, że o ile w pierwszym przypadku nie
zaobserwowano żadnej obserwacji o dużej dźwigni i dużej wartości bezwzgl˛ednej reszty, o tyle w drugim
przypadku obserwacja taka istnieje. Jak już wiemy obserwacja ta ma rzeczywiście duży wpływ na wynik
.5
Dźwignia
0
0
.1
.2
.2
Dźwignia
.4
.3
.6
.4
.8
regresji.
0
.1
.2
Kwadrat standaryzowanych reszt
.3
0
.1
.2
.3
Kwadrat standaryzowanych reszt
.4
.5
Rysunek 7.3: Dźwignie i reszty dla obserwacji
Rysunek 7.4: Dźwignie i reszty dla obserwacji
z rysunku 7.1
z rysunku 7.2
Możliwe jest sformułowanie statystyki, która bezpośrednio mierzy wpływ obserwacji na wynik regresji.
7.2.3 Odległość Cooka
Jedna˛ z miar wpływu pojedynczej obserwacji na wynik regresji jest zmiana wielkości wartości dopasowanych uzyskiwanych z modelu po usuni˛eciu tej obserwacji z próby. Obserwacj˛e, która istotnie wpływa
na wielkość wartości dopasowanych można uznać za wpływowa.˛ Oznaczmy jako X (i) macierz wszytkich obserwacji poza obserwacja˛ i-ta,˛ jako b estymator M N K uzyskany na podstawie pełnej próby i jako
b(i) estymator M N K uzyskany na podstawie próby z usuni˛eta˛ i-ta˛ obserwacja.˛ Miara˛ różnicy mi˛edzy
b = X (i) b i wartościami dopasowanymi y
b (i) = x(i) b(i)
wartościami dopasowanymi z pełnej regresji y
uzyskiwanymi z próby powstałej po usuni˛eciu i-tej obserwacji jest odległościa˛ Cooka (Cook distance):
CDi =
´
´0 ³
³
b−y
b (i)
b−y
b (i)
y
y
Ks2
=
eb2i hi
K 1 − hi
Miara ta jest równa znormalizowanje przez Ks2 sumie kwadratów różnic mi˛edzy odpowiednimi wartościami dopasowanymi uzyskanymi z pełnej próby i próby powstałej po usuni˛eciu i-tej obserwacji. Z
drugiego wzoru wynika, że istotnie najbardziej wpływowe sa˛ obserwacje które maja˛ równocześnie duże
eb2i i hi . Nieformalna zasada mówi, że należy si˛e przyjrzeć tym obserwacjom, dla których CDi >
4
N.
ROZDZIAŁ 7. PROBLEMY ZWIAZANE
˛
Z DANYMI
150
Przykład 7.2.3 (c.d. 3.5.2) Sprawdzamy baz˛e danych, na której oszacowany został model dla zależność
wydatków na mieszkanie od dochodu gospodarstwa. Po oszacowaniu modelu wygenerowano nast˛epujac
˛ a˛
tabel˛e dla 5 obserwacji o najwi˛ekszych statystykach dźwigni. Dla wszystkich tych obserwacji wielkość
dźwigni jest niepokojaca
˛ bo wi˛eksza od
2K
N
=
2×2
4111
= 0.001. Dla 4 z 5 tych obserwacji wielkość standa-
ryzowanych reszt jest też wi˛eksza od 2. Podobnie dla 4 z 5 zidentyfikowanych w ten sposób obserwacji
wielkość statystyki Cooka przekracza
4
N
=
4
4111
wydatki
dochód
375.9
16
414.84
23
400
47
132.35
78.9
370.68
118
= 0.001.
std. reszta
dźwignia
cook
3.5828
.0140
.0911
3.4911
.0120
.0740
2.9048
.0086
.0363
.5827
.0064
.0011
2.1032
.0050
.0110
Tablica 7.5: Tablica uporzadkowana
˛
dla 4 najwi˛ekszych odległości Cooka
Jeśli popatrzymy na tablic˛e najbardziej wpływowych obserwacji zidentyfikowanych według wielkości
statystyk Cooka, to przekonamy si˛e, że znajduja˛ si˛e w niej 3 z 5 obserwacji, które pojawiły si˛e w tablicy
7.5.
wydatki
dochód
std. reszta
dźwignia
cook
3.67
16150
-9.6313
.0029
.1314
375.9
16
3.5828
.0140
.0911
414.84
23
3.4911
.0120
.0740
400
47
2.9048
.0085
.0363
2.72
780
-7.9285
.0008
.0233
Tablica 7.6: Tablica uporzadkowana
˛
dla 4 najwi˛ekszych odległości Cooka
Zastanówmy si˛e, czy obserwacje z tablicy 7.5 można usunać
˛ z bazy danych. Można to zrobić jeśli
jesteśmy w stanie uzasadnić, że sa˛ one albo wyrażnie bł˛edne lub też maja˛ własności, których nie da
si˛e wyjaśnić za pomoca˛ teorii, z której korzystamy przy budowie modelu. Zauważmy, że dla wszystkich
tych obserwacji wydatki na mieszkanie sa˛ wieksze od dochodu. Obserwacje rzeczywiście nie pasuja˛ do
standardowej teorii popytu konsumenta, ponieważ nie spełniaja˛ ograniczenia budżetowego! Posługujac
˛
si˛e tym argumentem moża z bazy danych usunać
˛ wszystkie obserwacje, dla których wydatki sa˛ wieksze
of dochodu2 . Na rysunku 7.6 widać jednak, że tylko niewielka cz˛eść z tych obserwacji charakteryzuje si˛e
duża dźwignia˛ i nie sa˛ to też obserwacje o najwi˛ekszych standaryzowanych resztach. W rezultacie wyniki
2O
usuni˛eciu z bazy danych obserwacji zidentyfikowanych jako bł˛edne powinno si˛e wpomnieć w opisie badania.
7.2. OBSERWACJE NIETYPOWE I BŁEDNE
˛
151
Rysunek 7.5: Dźwignia i standaryzowane reszty dla obserwacji poprawnych i bł˛ednych
regresji sprzed i po usuni˛eciu obserwacji uznanych za bł˛edne różnia˛ si˛e istotnie choć liczbowo nie sa˛ zbyt
duże.
Rysunek 7.6: Wyniki regresji przed i po usuni˛eciu bł˛ednych obserwacji
ln (wydatki) = 2.768599 + .4087146 × ln (dochód)
(.106037)
(.0139339)
ln (wydatki) = 2.569444 + .4335826 × ln (dochód)
(.1062327)
(.0139497)
Pytania:
1. Co to jest obserwacja nietypowa? Kiedy obserwacj˛e nietypowa˛ można uznać za bł˛edna?
˛
152
ROZDZIAŁ 7. PROBLEMY ZWIAZANE
˛
Z DANYMI
2. W jakim przypadku obserwacja nietypowa b˛edzie miała znaczacy
˛ wpływ na wynik regresji?
3. Jakich statystyk używamy do wykrywamy obserwacji nietypowych i bł˛ednych?