Problemy zwi ˛azane z danymi

Transkrypt

Rozdział 7
Problemy zwiazane
˛
z danymi
W tym rozdziale zajmiemy si˛e problemami b˛edacymi
˛
wynikiem niedoskonałości używanej w estymacji próby.
Najpoważniejszym problemem w trakcie estymacji jest brak informacji na temat pewnych zmiennych.
Przeanalizujemy wpływ pomini˛ecia takich niedost˛epnych w bazie zmiennych na wyniki oszacowań.Przy
okazji zbadamy także wpływ wprowadzenia do modelu zmiennych nie majacych
˛
istotnego wpływu na
wielkość zmiennej zależnej.
Ważnym etapem badania ekonometrycznego jest werifikacja poprawności i jakości danych. Niekiedy
bł˛edne wyniki badania ekonometrycznego sa˛ skutkiem niewielkiej liczby bł˛ednych obserwacji. Ważnym
etapem badania ekonometrycznego jest weryfikacja danych pod katem
˛
ich poprawności i logicznej spójności. Taki wst˛epny etap pracy nad danymi polegajacy
˛ na ich weryfikacji i czyszczeniu jest cz˛esto najbardziej pracochłonny ale cz˛esto także decyduje o sukcesie badania.
Własności zbioru danych moga˛ powodować trudności w identyfikacji wpływu poszczególnych zmiennych objaśniajacych
˛
na analizowana˛ zmienna˛ objaśniana.˛ Dzieje si˛e tak wtedy, gdy zmienne objaśniajace
˛
sa˛ silnie skorelowane. Powiedzmy, że x1 i x2 sa˛ silnie dodatnio skorelowane a wi˛ec rosna˛ ”naogół” razem.
Jeśli równocześnie rośnie y, to trudno jest odpowiedzieć na pytanie, czy wzrost y jest zwiazany
˛
ze wzrostem x1 , czy też x2 . Taka˛ silna˛ korelacj˛e mi˛edzy zmiennymi nazywamy współliniowościa.˛ Choć cz˛esto
trudno jest pozbyć si˛e współiniowości z modelu, to jednak samo jej wykrycie ma wpływ na interpretacj˛e
wyników badania.
Rozważania w tym rozdziale b˛eda˛ miały z konieczności miały charakter nieformalny, ponieważ nie da
si˛e sformułować formalnego modelu, który mógłby posłużyć do statystycznej analizy problemów zwia˛
zanych z niedoskonałościa˛ zbioru danych. Podane reguły maja˛ charakter zdroworozsadkowy,
˛
lub też sa˛
”ogólnie przyj˛eta˛ praktyka”.
˛
c
Copyright °2006
by Jerzy Mycielski
139
ROZDZIAŁ 7. PROBLEMY ZWIAZANE
˛
Z DANYMI
140
7.1 Zmienne pomini˛ete i nieistotne
Analizowane b˛edziemy dwa modele. Pierwszym modelem b˛edzie model ze zmiennymi niezależnymi
zawartymi w macierzy X 1 , drugi zawierać b˛edzie poza tymi zmiennymi także zmienne niezależne zawarte w macierzy X 2 .
y = X 1 β1 + u
(7.1)
y = X 1 β1 + X 2 β2 + ε
(7.2)
Każdy z tych dwóch modeli może potencjalnie opisywać prawidłowo zmienna˛ y. Problemy pojawia˛
si˛e wtedy, gdy przy liczeniu estymatora parametrów wykorzystamy niewłościwy model.
Powiedzmy, że estymujemy model (7.1) a w rzeczywistości prawdziwy jest model (7.2). Inaczej mówiac
˛ zakładamy, że β 2 = 0 podczas, gdy w rzeczywistości β 2 6= 0. Przypadek ten w literaturze przedmiotu nazywany jest przypadkiem zmiennych pomini˛etych (omitted variables).
Inny przypadek zachodzi, gdy estymujemy model (7.2) a w rzeczywistości β 2 = 0. Problem w tym
przypadku polega na uwgl˛ednieniu w modelu zmiennych, które w rzeczywistości nie maja˛ wpływu na
zmienna˛ zależna.˛
Okazuje si˛e, że skutki pomini˛ecia istotnych zmiennych sa˛ znacznie poważniejsze niż skutki umieszczenia nieistotnych zmiennych w modelu.
7.1.1 Zmienne pomini˛ete
e . Zakładamy, że prawOznaczmy estymator M N K wektora parametrów β 1 w modelu (7.1) jako β
1
e można wi˛ec rozpisać w sposób
dziwy mechanizm generujacy
˛ y dany jest modelem (7.2) estymator β
1
nast˛epujacy:
˛
¡
¢
e = X 0 X 1 −1 X 0 y
β
1
1
1
¡ 0
¢−1 0
X 1 (X 1 β 1 + X 2 β 2 + u)
= X 1X 1
¡
¢−1 0
¡ 0
¢−1 0
X 1ε
X 1 X 2 β 2 + X 01 X 1
= β1 + X 1 X 1
Wartość oczekiwana˛ tego estymatora jest równa:
³ ´
¡
¢
¡
¢
e = β + X 0 X 1 −1 X 0 X 2 β + X 0 X 1 −1 X 0 E (ε)
E β
2
1
1
1
1
1
1
¡ 0
¢−1 0
X 1 X 2 β2
= β1 + X 1 X 1
Z wyniku wnioskujemy, że w przypadku pomini˛ecia istotnych zmiennych estymator M N K ma obcia˛żenie równe:
³ ´
¡
¢
e − β = X 0 X 1 −1 X 0 X 2 β
E β
2
1
1
1
1
Istnieja˛ dwa ważne przypadki, dla których pomini˛ecie zmiennej nie powoduje obcia˛żenia estymatora.
Pierwszy przypadek jest trywialny i zachodzi dla β 2 = 0.
7.1. ZMIENNE POMINIETE
˛ I NIEISTOTNE
141
Bardziej interesujaca
˛ jest sytuacja, gdy X 01 X 2 = 0, to jest dla przypadek, kiedy X 1 i X 2 sa˛ ortogonalne. W takim przypadku, mimo pomini˛ecia cz˛eści zmiennych objaśniajacych
˛
estymator M N K
b˛edzie dalej nieobcia˛żony. Co wi˛ecej, można pokazać, że jeśli kowariancje empirycznych mi˛edzy zmiennymi zawartymi w w X 1 i X 2 sa˛ równa zeru, to estymatory parametrów przy wszystkich zmiennych
poza stała˛ b˛eda˛ nieobcia˛żone (patrz dodatek matematyczny). Ponieważ stała w modelu najcz˛eściej nie
jest intepretowana, wi˛ec problem zwiazany
˛
z obcia˛żeniem estymatora nie pojawi si˛e wtedy, gdy zmienne
pomini˛ete nie sa˛ skorelowane ze zmiennymi, które zostały uwzgl˛ednione w modelu. Wniosek ten ma
szerokie zastosowanie w badaniach eksperymentalnych.
Przykład 7.1.1 Przeprowadzono badanie skuteczności leku. Grup˛e chorych na cukrzyc˛e podzielono losowo na grup˛e, która podano lek podnoszacy
˛ poziom insuliny i grup˛e kontrolna,˛ której podano placebo.
Po podaniu leku/lplaceba zmierzono chorym poziom insuliny. Wiadomo, że wpływ na poziom insuliny
ma nie tylko lek ale także inne czynniki takie jak uwarunkowania genetyczne, zaawansowanie cukrzycy
etc. Czy tak zaprojektowane badanie da właściwe oszacowanie wpływu leku na poziom insuliny, skoro
pomini˛eto te dodatkowe czynniki?
Analizowany model ma nast˛epujac
˛ a˛ postać:
yi = β0 + β1 Di + xi β 2 + εi ,
gdzie Di = 1 jeśli podano lek, a Di = 0 jeśli podano placebo. Parametr β1 mierzy wzrost poziomu
insuliny po podaniu leku. Jeśli fakt podania leku był leku był losowy, to także zależy on od wielkości xi a
b D,x ≈ Cov (Di , xi ) = 0. Zgodnie z tym
tym samym korelacja mi˛edzy Di i xi jest zerowa. W rezultacie Σ
2
co powiedziano, mimo pomini˛ecia istotnych zmiennych objaśniajacych,
˛
oszacowanie M N K parametru
β1 jest, przy takiej konstrukcji badania, nieobciażone.
˛
Z powyższych rozważań wynika, że problem obcia˛żenia estymatora pojawi si˛e, gdy istotne zmienne
pomini˛ete w modelu sa˛ skorelowane sa˛ ze zmiennymi uwgl˛ednionymi w modelu. Pomini˛ecie istotnych
zmiennych jest prawdopodobnie najcz˛estszym powodem bł˛edów w oszacowaniach, ponieważ praktyce
nigdy nie dysponujemy danymi dotyczacymi
˛
wszystkich zmiennych, które moga˛ wpłynać
˛ na zmienna˛
zależna.˛ W przypadku otrzymania nieintuicyjnego wyniku badania, należy wi˛ec zawsze zastanowić si˛e,
czy wynik ten nie jest wynikiem pomini˛ecia jakiś istotnych czynników wpływajacych
˛
na zmienna˛ zależna.
Przykład 7.1.2 Na podstawie bazy danych z Badania Ekonomicznej Aktywności Ludności z 1 kwartału
1994 przeprowadzono regresj˛e logarytmu płacy na numerze ankietera. Otrzymano nast˛epujace
˛ wyniki.
Współczynnik
(Bład
˛ Std.)
t
Pr (|t| > t∗ )
ANKR
0.001635
(0.000099)
16.53
0.000
stała
5.557534
(0.004223)
1315.95
0.000
log(płaca)
Tablica 7.1: Wynik regresji z pomini˛eta˛ jedna˛ obserwacja˛
˛
Z DANYMI
142
Uzyskany w ten sposób wynik jest bardzo niepokojacy.
˛ Sugeruje on, że to, który ankieter przeprowadza badanie wpływa na uzyskane odpowiedzi na temat wysokości płacy. Wniosek ten jest jednak bł˛edny.
Zasi˛eg terytorialny działalności poszczególnych ankieterów jest ograniczony. Ci ankieterzy, którzy działaja˛ na terenach w lepszej sytuacji gospodarczej badaja˛ osoby o średnio wyższych płacach niż ci, którzy
działaja˛ na terenach w gorszej sytuacji.
Dodajmy do modelu zmienne zerojedynkowe zwiazane
˛
z województwem i wielkościa˛ miejscowości, w
której mieszkał respondent. Poniżej znajduje si˛e tabela zawierajaca
˛ cz˛eść oszacowań parametrów z tej
regresji:
Współczynnik
(Bład
˛ Std.)
t
Pr (|t| > t∗ )
ANKR
-0.000217
(0.000148)
-1.46
0.144
Bialskopodlaskie
..
.
-0.149512
..
.
(0.042862)
..
.
-3.49
0.000
Zielonogórskie
-0.121923
(0.027524)
-4.43
0.000
miasta 500 000 i wiecej
..
.
-0.078974
..
.
(0.019422)
..
.
-4.07
0.000
wieś
-0.247112
(0.016657)
-14.84
0.000
stała
5.904140
(0.015481)
381.37
0.000
log(płaca)
Po wprowadzeniu dodakowych zmiennych, zmienna zwiazana
˛
z numerem ankietera stała si˛e nieistotna. Powodem powstania obciażenia,
˛
które doprowadziło do istotnie różnego od zera oszacowania
współczynnika przy tej zmiennej była korelacja mi˛edzy numerami województw i wielkościa˛ miejscowości
a numerem ankietera. Rzeczywiście współczynnik determinacji w regresji numeru ankietara na województwie i wielkości miejscowości wynosi aż R2 = 0.59.
Jak wcześniej już wcześniej wspomniano, problem zmiennych pomini˛etych jest trudny do rozwiaza˛
nia, ponieważ zazwyczaj nie dysponujemy danymi dotyczacymi
˛
tych potencjalnie waznych
˛
zmiennych.
W takiej sytuacji cenna jest umiej˛etność określenia kierunku ewentualnego obcia˛żenia. W ogólnym przypadku trudne jest podanie znaku takiego obcia˛żenia. Określenie kierunku obciazenia
˛
jest możliwe w
najprostszym przypadku, kiedy estymowany model zawiera stała˛ i jedna zmienna objaśniajac
˛ a˛ a pomini˛eta została jedna dodatkowa zmienna objaśniajaca.Wnioski
˛
z tego najprostszego przypadku sa˛ cz˛esto
stosowane, choć nie całkiem poprawnie, także w ogólniejszym przypadku modelu z wieloma zmiennymi.
Pokazaliśmy w podrozdziale 2.4,że modelu z jedna˛ zmienna˛ objaśniajac
˛ a˛
yi = β0 + β1 x1i + εi
7.1. ZMIENNE POMINIETE
˛ I NIEISTOTNE
143
estymator parametru β1 dany jest wzorem
e = sx1 y gdzie
β
1
s2x1
PN
PN
2
(x1i − x1 )
2
i=1 (x1i − x1 ) (yi − y)
syx1 =
, sx1 = i=1
N
N
Prawdziwy model ma postać yi = β0 +β1 x1i +β2 x2i +εi a wi˛ec wartość oczekiwana sxy jest równa:
1 XN
E (sxy ) =
(x1i − x1 ) E [β1 (x1i − x1 ) + β2 (x2i − x2 ) + (εi − ε)]
i=1
N
PN
PN
2
(x1i − x1 ) (x2i − x2 )
i=1 (x1i − x1 )
+ β2 i=1
= β2
N
N
PN
(x1i − x1 )
+ i=1
E (εi − ε) = β1 s2x1 + β2 sx1 x2
| {z }
N
0
e wynosi
Wartość oczekiwana estymatora β
1
³ ´ β s2 + β s
sx x
sx
2 x1 x2
e = 1 x1
= β1 + β2 21 2 = β1 + β2 2 ρx1 x2
E β
1
2
sx1
sx1
sx1
Na podstawie uzyskanego wzoru można cz˛esto wysnuć wnioski jakościowe na temat kierunku obcia˛żenia parametru przy zmiennej umieszczonej w modelu. Jeśli tylko wiemy jaki jest znak parametu β2
oraz jaki jest kierunek korelacji mi˛edzy zmienna˛ umieszczona˛ w modelu i pomini˛eta,˛ to możliwe b˛edzie
ustalenie znaku obcia˛żenia:
³ ´
e − β1 = β2 sx2 ρx x
E β
1
sx1 1 2
Przykład 7.1.3 Zbudowano prosty model liniowy, w którym zmienna˛ objaśniana˛ była stopa przyrostu
naturalnego na określonym terenie a zmienna˛ objaśniajac
˛ a˛ ilość bocianów zamieszkujacych
˛
na tym tere˛
si˛e dzieci. Czyżby
nie. Stwierdzono, że ilość bocianów istotnie i pozytywanie wpływa na ilość rodzacych
istotnie bociany przynosiły dzieci?
Analizowany model ma nast˛epujac
˛ a˛ postać:
yi = β0 + β1 x1i + εi ,
gdzie xi jest liczba˛ bocianów mieszkajacych
˛
na danym terenie a yi przyrostem naturalnym na tym terenie.
W bardziej rozbudowanym modelu
yi = β0 + β1 x1i + β2 x2i + εi ,
gdzie x2i jest miara˛ g˛estości zaludnienia danego terenu. Wiadomo, że w Polsce jak i w wielu innych
krajach, przyrost naturalny jest wyższy na terenach słabiej zaludnionych (głównie na wsi) a wi˛ec β2 > 0.
Na terenach takich jest także wi˛ecej bocianów, co implikuje, że ρx1 x2 > 0. Dodatnie oszacowanie przy
s
zmiennej bociany jest najprawdopodobniej wynikiem obciażenia
˛
estymatora E (b1 )−β1 = β2 sxx2 ρx1 x2 >
1
0, które spowodowało, że oszacowany współczynnik jest istotnie wiekszy od zera mimo, że parametr
β1 = 0.
˛
Z DANYMI
144
Omówione powyżej przykłady pokazuja,˛ że potencjalnie obcia˛żenie zwiazane
˛
z pomini˛eciem zmiennej może doprowadzić do tego, że uznamy zmienna˛ nie majac
˛ a˛ wpływu na zmienna˛ zależna za zmienna˛
istotna˛ w modelu. Oczywiście przypadek ten jest z punktu widzenia prawidłowości uzyskanych wyników
przypadkiem najgorszym, szczególnie jeśli celem badania było stalenie, czy dana zmienna wpływa na
zmienna˛ zależna.˛ W praktyce cz˛esto problem zmiennych pomini˛etych prowadzi do nieco mniej poważnego problemu przeszacowania lub niedoszacowania wpływu zmiennej objaśniajacej
˛ na zmienna˛ objaśniana.˛
Przykład 7.1.4 (c.d. 3.1.1) Przeanalizujmy wpływ stażu na wysokość płacy. Można tego dokonać przeprowadzajac
˛ regresj˛e logarytmu płacy na wysokości stażu. Uzyskano nast˛epujacy
˛ wynik:
log (płaca) = 7.370 + 0.011 × staż
(.0134)
(.0006)
Uwzgl˛ednijmy jednak w regresji poza stażem także wiek zatrudnionego. Okaże si˛e wtedy, że jakkolwiek
wpływ stażu pozostaje dalej dodatni to jednak spada prawie o połow˛e:
log (płaca) = 7.215 + 0.006 × staż+0.006 × wiek
(0.038)
(0.001)
(0.001)
7.1.2 Zmienne nieistotne
Odwrotnościa˛ problemu zmiennych pomini˛etych jest problem zmiennych nieistotnych. Załóżmy, że
estymujemy model (7.2), gdy prawdziwym modelem jest model (7.1). W takim przypadku szacowany
parametr β 2 = 0 a zmienne zawarte w X 2 nie wpływaja˛ na zmienna˛ zależna.˛ Przypadek ten ten można
przeanalizować wracajac
˛ do na rozważań na temat własności estymatorów z ograniczeniami. Ustaliliśmy
wtedy, że dla prawdziwych ograniczeń postaci H0 : Hβ = h, estymator z ograniczeniami jest nieobcia˛żony i ma mniejsza˛ wariancj˛e od estymatora bez ograniczeń. Wynika z tego, że jeśli prawdziwe jest
ograniczenie β 2 = 0 a zatem prawdziwy jest model (7.1) a estymowanym modelem jest model (7.2), to
uzyskany estymator parametru β 1 b˛edzie nieobcia˛żony ale b˛edzie miał wyższa˛ wariancj˛e niż estymator
uzyskany na podstawie modelu (7.1). Inaczej mówiac,
˛ w modelu, w którym wyst˛epuja˛ zmienne nieistotne
estymator M N K jest ma wyższa˛ wariancja niż w modelu, z którego usuni˛eto zmienne nieistotne.
Wniosek ten wyjaśnia dlaczego budujac
˛ model da˛żymy do usuni˛ecia z niego zmiennych nieistotnych.
Mimo, że usuwanie zmiennych pogarsza jakość dopasowania (patrz podrozdział 2.10), to jednak usuwanie zmiennych zmiennych nieistotnych poprawia dokładność oszacowań przy zmiennych istotnych.
Druga˛ korzyścia˛ zwiazan
˛ a˛ z usuwaniem nieistotnych z modelu jest uzyskiwane w ten sposób uproszczenie modelu. Podobnie jednak jak w przypadku narzucania na model ograniczeń, usuwanie zmiennych z
modelu zwiazane
˛
jest z niebezpieczeństwem usuni˛ecia z modelu zmiennej istotnej, co doprowadzić może,
do pojawienia si˛e obcia˛żenia estymatora.
Pytania:
1. Jaki skutek może mieć pomini˛ecie istotnej zmiennej w modelu?
7.2. OBSERWACJE NIETYPOWE I BŁEDNE
˛
145
2. W jakim szczególnym przypadku można uzyskać prawidłowe oszacowania parametrów, mimo, że
w modelu pomini˛eto istotne zmienne?
3. Dlaczego z modelu powinno si˛e usuwać zmienne nieistotne?
4. Parametry przy zmiennych x1 i x2 sa˛ dodatnie. Zmienne sa˛ ujemnie skorelowane. Jaki b˛edzie
wpływ pomini˛ecia zmiennej x1 na oszacowanie parametr przy zmiennej x2 ?
7.2
Obserwacje nietypowe i bł˛edne
Cz˛estym problemem przy estymacji modelu sa˛ zanieczyszczenia bazy danych. Moga˛ one być zwia˛
zane zarówno z nietypowościa˛ cz˛esci obserwacji jak i na przykład bł˛edami w kodowaniu zmiennych. W
literaturze wyróżnia si˛e dwa przypadki. Po pierwsze obserwacja może być nietypowa, to znaczy charakteryzować si˛e nietypowymi na tle pozostałych obserwacji cechami. Obserwacja nietypowa nie jest jednak
bł˛edna w tym sensie, że mechanizm, który generuje determinuje zmienna˛ zależna˛ dla tej obserwacji jest
w dalszym ciagu
˛ tym mechanizmem, który opisywany jest przez nasz model.
Drugim przypadkiem jest przypadek obserwacji bł˛ednej. Obserwacja bł˛edna jest to obserwacja, której powstania nie da si˛e wytłumaczyć za pomoca˛ mechnizmu, który stanowi baz˛e teoretyczna˛ naszego
modelu. Obserwacje bł˛edne cz˛esto pojawiaja˛ si˛e w wyniku bł˛edów powstałych przy wpisywaniu obserwacji do bazy danych. Niekiedy jednak obserwacje takie sa˛ rzeczywistymi obserwacjami, zwiazanymi
˛
z
pewnymi nietypowymi zdarzeniami, których nie opisujemy za pomoca˛ naszego modelu.
Niezależnie od tego czy obserwacja jest nietypowa, czy też bł˛edna jej wpływ na wynik regresji zależy
od tego na ile pasuje do prostej regresji. Najbardziej niepokojaca
˛ jest sytuacja, w której obserwacja ma
nietypowe wartości dla zmiennych niezależnych a przy tym słabo pasuje do prostej regresji. Na rysunku
7.1 zilustrowano sytuacj˛e, w której obserwacja nietypowa dobrze pasuje do krzywej regresji. Jeśli zakreślona kółkiem obserwacja nietypowa jest poprawna to jej wystapienie
˛
w próbie pozytywanie wpłynie
na prezycyzj˛e oszacowań współczynników. Zaznaczone na rysunku proste regresji oszacowane na pełnej próbie i próbie bez nietypowej obserwacji nie różnia˛ si˛e zbyt silnie od siebie, ponieważ obserwacja˛
tak czy inaczej ”pasuje” do krzywej regresji. Oznacza to, że w tym szczególnym przypadku, nawet jeśli obserwacja nietypowa jest w rzeczywistości bł˛edna, to nie wpłynie ona zbyt silnie na oszacowania
parametrów.
Odwrotna sytuacja zilustrowana jest na rysunku 7.2. W tym przypad obserwacja nietypowa nie tylko
charakteryzuje si˛e nietypowa˛ wielkościa˛ zmiennej niezależnej ale dodatkowo zupełnie nie pasuje do
zwiazku
˛
mi˛edzy zmienna˛ zależna˛ i zmiennymi niezależnymi, który można wywnioskować na podstawie pozostałych obserwacji. Wyniki regresji różnia˛ si˛e mocno w zależności od tego, czy nietypowa obserwacja została zawarta w próbie, czy też została z niej usuni˛eta. W tym przypadku, jeśli nietypowa
obserwacja była bł˛edna, to umieszczenie jej w próbie b˛edzie miało katastrofalne skutki dla jakości uzyskanych oszacowań. Z drugiej strony, jeśli obserwacja te jest poprawna, to uwgl˛ednienie jej w próbie
poprawi znacznie jakość oszacowań. Analizujac
˛ dane szczególna˛ uwag˛e powinniśmy zwrócić na wi˛ec
˛
Z DANYMI
146
y
y
obserwacj˛e, które maja˛ nietypowe wielkości zmiennych objaśniajacych
˛
i słabo posuja˛ do prostej regresji.
x
x
Rysunek 7.1: Obserwacja nietypowa pasujaca
˛ doRysunek 7.2: Obserwacja nietypowa nie pasujaca
˛ do
prostej regresji
prostej regresji
Na postawie samego modelu nie da si˛e ustalić, które obserwacje sa˛ bł˛edne. Sam fakt, że obserwacja
nie pasuje do modelu nie może być powodem uznania jej za obserwacj˛e bł˛edna.˛ Gdybyśmy tak post˛epowali, to zawsze udawałoby nam si˛e uzyskać dobrze dopasowany model - poprostu wszystkie obserwacje,
które do modelu nie pasuja˛ usuwalibyśmy z próby.
Cz˛eść obserwacji możemy uznać za bł˛edne na podstawie teorii lub na podstawie dodatkowych informacji spoza próby Przykładowo, jeśli zmienna wiek przyjmie pewnej obserwacji wartość ujemna˛ to
obserwacja ta˛ można uznać za bł˛edna˛ ponieważ wiemy, że zmienna wiek może przyjmować wyłacz˛
nie wartości dodatnie. Bardziej subtelne przypadki zwiazane
˛
sa˛ z obserwacjami, które sa˛ bł˛edne w tym
sensie, że nie moga˛ być wyjaśnione za pomoca˛ teorii, która posłużyła nam do zbudowania estymowanego modelu. Przykładowo, jeśli estymujemy krzywa˛ popytu na żywność, to może si˛e zdarzyć, że w
próbie znajda˛ si˛e nietypowe obserwacje zwiazane
˛
z okresami, w których obowiazywała
˛
reglamentacja
żywności. Obserwacje potraktować tak jak obserwacje bł˛edne i usunać
˛ je z próby, ponieważ standardowy
mikroekonomiczny model opisujacy
˛ krzywa˛ popytu nie może być stosowany w przypadku, w którym
podział dóbr nie jest rynkowy.
Przykład 7.2.1 Dostaliśmy za zadanie porównanie rentowności dwóch typów kontraktów: A i B. Dysponujemy nast˛epujacymi
˛
10 danymi historycznymi dotyczacymi
˛
stóp zwrotu (IRR) dla kontraktu A:
{10, 8, 8, 9, 11, 10, 8, 9, 11, 10} i B: {16, 15, 18, 17, 16, −80, 17, 16, 16, 17}. Zwraca uwag˛e jedna nietypowa ujemna obserwacja dla kontraktu B (dotyczy ona dłużnika, który zbankrutował), czy obserwacj˛e
t˛e można pominać?
˛ Zdefiniujmy zmienna˛ zerojedynkowa˛ B przyjmujac
˛ a˛ wartość 1 dla kontraktów z grupy
B.
˛
q
B
stała
147
Współczynnik
Bład
˛ Std.
t
Pr (|t| > t∗ )
7.155556
(.4808912)
14.88
0.000
9.4
(.330972)
28.40
0.000
q
B
stała
Współczynnik
Bład
˛ Std.
t
Pr (|t| > t∗ )
-3.5
(10.66526)
-0.33
0.747
9.4
(7.541478)
1.25
0.229
Tablica 7.4: Wynik regresji z uwzgl˛ednionymi wszystkimi obserwacjami
Wnioski dotyczace
˛ dochodowości konraktów zależa˛ od pomini˛ecia badź
˛ nietypowej obserwacji. Kontrakt B jest statystycznie lepszy od kontraktu A jeśli pominiemy obserwacj˛e nietypowa.˛ Jeśli uwzgl˛ednimy
wszystkie obserwacje, to na podstawie próby nie da si˛e rozstrzygnać,
˛ który kontrakt jest lepszy. Ujemny
znak przy zmiennej B, sugeruje jednak, że kontrakt B jest gorszy od kontaktu A.
Nietypowa˛ obserwacj˛e można odrzucić jedynie wtedy, gdy uda nam si˛e dowieść na podstawie informacji spoza próby, że kontrakt typu B, który zakończył si˛e bankructwem dłużnika był z jakiegoś powodu
nietypowy - np. popełniono rażace
˛ bł˛edy w ocenie wniosku.
W dalszej cz˛esci rozdziału zajmiemy si˛e statystykami opisowymi, za pomoca˛ których można wykryć
te obserwacje w próbie, które sa˛ nietypowe, słabo pasuja˛ do prostej regresji, badź
˛ wyjatkowo
˛
silnie wpływaja˛ na wynik regresji. Nie sa˛ to jednak statystyki za pomoca˛ których można przetestować, czy dana
obserwacja jest bł˛edna. Jak wyjaśniono wcześniej, aby uznać obserwacj˛e za bł˛edna˛ należy to uzasadnić
innymi argumentami niż tylko to, że jest ona nietypowa lub nie pasuje do modelu.
7.2.1 Dźwignia
Do stwierdzenia, czy xi jest nietypowe na tle pozostałych x cz˛esto używa si˛e statystyki nazywana˛
dźwignia˛ (levarege) hi
¡
¢−1 0
X δ i = δ 0i P X δ i = (P X )ii
hi = δ 0i X X 0 X
¡
¢−1 0
xi
= xi X 0 X
¡
¢−1 0
0
X . Dźwignia ma nast˛epujace
˛ własności:
gdzie δi = [0, . . . , 0, 1, 0 . . . , 0] a P X = X X 0 X
• dla każdego modelu
0 ≤ hi ≤ 1
˛
Z DANYMI
148
• dla modelu ze stała˛
1
≤ hi ≤ 1
N
Przyj˛eta w literaturze nieformalna reguła mówi, że obserwacj˛e można traktować jako nietypowa˛ jeśli
hi >
2K
N .
Jak już wiemy, to że obserwacja dla xi jest nietypowa na tle pozostałych x nie oznacza, że
obserwacja i nie pasuje do modelu. Aby si˛e o tym przekonać należy przyjrzeć si˛e resztom.
7.2.2 Standaryzowane reszty
Aby zidentyfikować szczególnie duże reszty musimy je najpierw wystandaryzować. Szcz˛esliwie w
podrozdziale 4.3.1 wyprowadziliśmy wzór (4.5), który opisuje relacj˛e mi˛edzy resztami a bł˛edami losowymi. Wykorzystujac
˛ ten wzór można policzyć wariancj˛e wektora reszt:
¡
¢
Var (e) = Var (M X ε) = M X Iσ 2 M X = σ 2 M X
Wariancja elementu i wektora reszt jest wi˛ec równa:
¡ ¢
Var (ei ) = Var δ 0i e = σ 2 δ 0i M X δ i
¡
¢
= σ 2 1 − δ 0i P X δ i = σ 2 (1 − hi )
¡
¢
Jeśli ε ∼ N 0, σ 2 I , to wystandaryzowana reszta ma standardowy rozkład normalny:
eei =
ei
√
∼ N (0, 1)
σ 1 − hi
Ponieważ parametr σ jest nieznany, wi˛ec σ stosuje si˛e jej estymator s a uzyskane w ten sposób reszty
maja,˛ 1 rozkład t-Studenta:
ei
√
ei
σ 1−hi
ebi = √
∼ tN −K
=q
±
e0 e
s 1 − hi
(N − K)
σ2
Przyj˛eło si˛e uznawać za nietypowe te obserwacje dla których |b
ei | > 2. Jednak trzeba pami˛etać o tym,
że liczba obserwacji, dla których |b
ei | > 2 zależy od wielkości próby.
Przykład 7.2.2 Przykładowo dla N = 100 i K = 2 prawdopodobieństwo, że |b
ei | > 2 wynosi:
Pr (|b
ei | > 2) = 2 [1 − Ft98 (2)] = 0.0482
Wartość oczekiwana liczby obserwacji, dla których |b
ei | > 2 jest równa 4.82.
Liczba obserwacji, dla których zaobserwujemy tak wysokie |b
ei | > 2 jest w przybliżeniu równa 5%
ogółu obserwacji. Niepokojacy
˛ jest nie tyle fakt wyst˛epowania dużych reszt, ile raczej wyst˛epownie dużych wartości reszt dla obserwacji wysoce nietypowych, a wi˛ec o wysokich dźwigniach. Obserwacje maja˛
1 Można
to pokazać na podstawie rozważań analogicznych do tych z podrozdziału 5.2.1
˛
149
duży wpływ na wynik oszacowań, co oznacza, że ich poprawność jest szczegolnie ważna. Do wykrycia
takich obserwacji może nam posłużyć rysunek, na którym na osi poziomej sa˛ kwadraty standryzowanych
reszt a na osi pionowej wielkość dźwigni. Dla obserwacji zilustrowanych na rysunkach 7.1 i 7.2 wykresy
takie znajduja˛ si˛e odpowiednio na rysunkach ?? i 7.4. Widać na nich, że o ile w pierwszym przypadku nie
zaobserwowano żadnej obserwacji o dużej dźwigni i dużej wartości bezwzgl˛ednej reszty, o tyle w drugim
przypadku obserwacja taka istnieje. Jak już wiemy obserwacja ta ma rzeczywiście duży wpływ na wynik
.5
Dźwignia
0
0
.1
.2
.2
Dźwignia
.4
.3
.6
.4
.8
regresji.
0
.1
.2
Kwadrat standaryzowanych reszt
.3
0
.1
.2
.3
Kwadrat standaryzowanych reszt
.4
.5
Rysunek 7.3: Dźwignie i reszty dla obserwacji
Rysunek 7.4: Dźwignie i reszty dla obserwacji
z rysunku 7.1
z rysunku 7.2
Możliwe jest sformułowanie statystyki, która bezpośrednio mierzy wpływ obserwacji na wynik regresji.
7.2.3 Odległość Cooka
Jedna˛ z miar wpływu pojedynczej obserwacji na wynik regresji jest zmiana wielkości wartości dopasowanych uzyskiwanych z modelu po usuni˛eciu tej obserwacji z próby. Obserwacj˛e, która istotnie wpływa
na wielkość wartości dopasowanych można uznać za wpływowa.˛ Oznaczmy jako X (i) macierz wszytkich obserwacji poza obserwacja˛ i-ta,˛ jako b estymator M N K uzyskany na podstawie pełnej próby i jako
b(i) estymator M N K uzyskany na podstawie próby z usuni˛eta˛ i-ta˛ obserwacja.˛ Miara˛ różnicy mi˛edzy
b = X (i) b i wartościami dopasowanymi y
b (i) = x(i) b(i)
wartościami dopasowanymi z pełnej regresji y
uzyskiwanymi z próby powstałej po usuni˛eciu i-tej obserwacji jest odległościa˛ Cooka (Cook distance):
CDi =
´
´0 ³
³
b−y
b (i)
b−y
b (i)
y
y
Ks2
=
eb2i hi
K 1 − hi
Miara ta jest równa znormalizowanje przez Ks2 sumie kwadratów różnic mi˛edzy odpowiednimi wartościami dopasowanymi uzyskanymi z pełnej próby i próby powstałej po usuni˛eciu i-tej obserwacji. Z
drugiego wzoru wynika, że istotnie najbardziej wpływowe sa˛ obserwacje które maja˛ równocześnie duże
eb2i i hi . Nieformalna zasada mówi, że należy si˛e przyjrzeć tym obserwacjom, dla których CDi >
4
N.
˛
Z DANYMI
150
Przykład 7.2.3 (c.d. 3.5.2) Sprawdzamy baz˛e danych, na której oszacowany został model dla zależność
wydatków na mieszkanie od dochodu gospodarstwa. Po oszacowaniu modelu wygenerowano nast˛epujac
˛ a˛
tabel˛e dla 5 obserwacji o najwi˛ekszych statystykach dźwigni. Dla wszystkich tych obserwacji wielkość
dźwigni jest niepokojaca
˛ bo wi˛eksza od
2K
N
=
2×2
4111
= 0.001. Dla 4 z 5 tych obserwacji wielkość standa-
ryzowanych reszt jest też wi˛eksza od 2. Podobnie dla 4 z 5 zidentyfikowanych w ten sposób obserwacji
wielkość statystyki Cooka przekracza
4
N
=
4
4111
wydatki
dochód
375.9
16
414.84
23
400
47
132.35
78.9
370.68
118
= 0.001.
std. reszta
dźwignia
cook
3.5828
.0140
.0911
3.4911
.0120
.0740
2.9048
.0086
.0363
.5827
.0064
.0011
2.1032
.0050
.0110
Tablica 7.5: Tablica uporzadkowana
˛
dla 4 najwi˛ekszych odległości Cooka
Jeśli popatrzymy na tablic˛e najbardziej wpływowych obserwacji zidentyfikowanych według wielkości
statystyk Cooka, to przekonamy si˛e, że znajduja˛ si˛e w niej 3 z 5 obserwacji, które pojawiły si˛e w tablicy
7.5.
wydatki
dochód
std. reszta
dźwignia
cook
3.67
16150
-9.6313
.0029
.1314
375.9
16
3.5828
.0140
.0911
414.84
23
3.4911
.0120
.0740
400
47
2.9048
.0085
.0363
2.72
780
-7.9285
.0008
.0233
Tablica 7.6: Tablica uporzadkowana
˛
dla 4 najwi˛ekszych odległości Cooka
Zastanówmy si˛e, czy obserwacje z tablicy 7.5 można usunać
˛ z bazy danych. Można to zrobić jeśli
jesteśmy w stanie uzasadnić, że sa˛ one albo wyrażnie bł˛edne lub też maja˛ własności, których nie da
si˛e wyjaśnić za pomoca˛ teorii, z której korzystamy przy budowie modelu. Zauważmy, że dla wszystkich
tych obserwacji wydatki na mieszkanie sa˛ wieksze od dochodu. Obserwacje rzeczywiście nie pasuja˛ do
standardowej teorii popytu konsumenta, ponieważ nie spełniaja˛ ograniczenia budżetowego! Posługujac
˛
si˛e tym argumentem moża z bazy danych usunać
˛ wszystkie obserwacje, dla których wydatki sa˛ wieksze
of dochodu2 . Na rysunku 7.6 widać jednak, że tylko niewielka cz˛eść z tych obserwacji charakteryzuje si˛e
duża dźwignia˛ i nie sa˛ to też obserwacje o najwi˛ekszych standaryzowanych resztach. W rezultacie wyniki
2O
usuni˛eciu z bazy danych obserwacji zidentyfikowanych jako bł˛edne powinno si˛e wpomnieć w opisie badania.
˛
151
Rysunek 7.5: Dźwignia i standaryzowane reszty dla obserwacji poprawnych i bł˛ednych
regresji sprzed i po usuni˛eciu obserwacji uznanych za bł˛edne różnia˛ si˛e istotnie choć liczbowo nie sa˛ zbyt
duże.
Rysunek 7.6: Wyniki regresji przed i po usuni˛eciu bł˛ednych obserwacji
ln (wydatki) = 2.768599 + .4087146 × ln (dochód)
(.106037)
(.0139339)
ln (wydatki) = 2.569444 + .4335826 × ln (dochód)
(.1062327)
(.0139497)
Pytania:
1. Co to jest obserwacja nietypowa? Kiedy obserwacj˛e nietypowa˛ można uznać za bł˛edna?
˛
152
˛
Z DANYMI
2. W jakim przypadku obserwacja nietypowa b˛edzie miała znaczacy
˛ wpływ na wynik regresji?
3. Jakich statystyk używamy do wykrywamy obserwacji nietypowych i bł˛ednych?

Problemy zwi ˛azane z danymi

Transkrypt

Podobne dokumenty

Instytut Historii Uniwersytetu im. Adama Mickiewicza w Poznaniu

Podr˛ecznik KDebugDialog

Zadania - Olimpiada Fizyczna

Spór Hayek-Lange z dzisiejszej perspektywy

Konfiguracja poł ˛acze ´n

Wprowadzenie do teorii chaosu w nierównowagowej mechanice

Zadanie 11.1. Wiemy, ˙ze stopy zwrotu 3 akcji s a opisywane przez

LVIII OLIMPIADA FIZYCZNA — ZADANIA ZAWODÓW I STOPNIA