Problemy zwi ˛azane z danymi
Transkrypt
Problemy zwi ˛azane z danymi
Rozdział 7 Problemy zwiazane ˛ z danymi W tym rozdziale zajmiemy si˛e problemami b˛edacymi ˛ wynikiem niedoskonałości używanej w estymacji próby. Najpoważniejszym problemem w trakcie estymacji jest brak informacji na temat pewnych zmiennych. Przeanalizujemy wpływ pomini˛ecia takich niedost˛epnych w bazie zmiennych na wyniki oszacowań.Przy okazji zbadamy także wpływ wprowadzenia do modelu zmiennych nie majacych ˛ istotnego wpływu na wielkość zmiennej zależnej. Ważnym etapem badania ekonometrycznego jest werifikacja poprawności i jakości danych. Niekiedy bł˛edne wyniki badania ekonometrycznego sa˛ skutkiem niewielkiej liczby bł˛ednych obserwacji. Ważnym etapem badania ekonometrycznego jest weryfikacja danych pod katem ˛ ich poprawności i logicznej spójności. Taki wst˛epny etap pracy nad danymi polegajacy ˛ na ich weryfikacji i czyszczeniu jest cz˛esto najbardziej pracochłonny ale cz˛esto także decyduje o sukcesie badania. Własności zbioru danych moga˛ powodować trudności w identyfikacji wpływu poszczególnych zmiennych objaśniajacych ˛ na analizowana˛ zmienna˛ objaśniana.˛ Dzieje si˛e tak wtedy, gdy zmienne objaśniajace ˛ sa˛ silnie skorelowane. Powiedzmy, że x1 i x2 sa˛ silnie dodatnio skorelowane a wi˛ec rosna˛ ”naogół” razem. Jeśli równocześnie rośnie y, to trudno jest odpowiedzieć na pytanie, czy wzrost y jest zwiazany ˛ ze wzrostem x1 , czy też x2 . Taka˛ silna˛ korelacj˛e mi˛edzy zmiennymi nazywamy współliniowościa.˛ Choć cz˛esto trudno jest pozbyć si˛e współiniowości z modelu, to jednak samo jej wykrycie ma wpływ na interpretacj˛e wyników badania. Rozważania w tym rozdziale b˛eda˛ miały z konieczności miały charakter nieformalny, ponieważ nie da si˛e sformułować formalnego modelu, który mógłby posłużyć do statystycznej analizy problemów zwia˛ zanych z niedoskonałościa˛ zbioru danych. Podane reguły maja˛ charakter zdroworozsadkowy, ˛ lub też sa˛ ”ogólnie przyj˛eta˛ praktyka”. ˛ c Copyright °2006 by Jerzy Mycielski 139 ROZDZIAŁ 7. PROBLEMY ZWIAZANE ˛ Z DANYMI 140 7.1 Zmienne pomini˛ete i nieistotne Analizowane b˛edziemy dwa modele. Pierwszym modelem b˛edzie model ze zmiennymi niezależnymi zawartymi w macierzy X 1 , drugi zawierać b˛edzie poza tymi zmiennymi także zmienne niezależne zawarte w macierzy X 2 . y = X 1 β1 + u (7.1) y = X 1 β1 + X 2 β2 + ε (7.2) Każdy z tych dwóch modeli może potencjalnie opisywać prawidłowo zmienna˛ y. Problemy pojawia˛ si˛e wtedy, gdy przy liczeniu estymatora parametrów wykorzystamy niewłościwy model. Powiedzmy, że estymujemy model (7.1) a w rzeczywistości prawdziwy jest model (7.2). Inaczej mówiac ˛ zakładamy, że β 2 = 0 podczas, gdy w rzeczywistości β 2 6= 0. Przypadek ten w literaturze przedmiotu nazywany jest przypadkiem zmiennych pomini˛etych (omitted variables). Inny przypadek zachodzi, gdy estymujemy model (7.2) a w rzeczywistości β 2 = 0. Problem w tym przypadku polega na uwgl˛ednieniu w modelu zmiennych, które w rzeczywistości nie maja˛ wpływu na zmienna˛ zależna.˛ Okazuje si˛e, że skutki pomini˛ecia istotnych zmiennych sa˛ znacznie poważniejsze niż skutki umieszczenia nieistotnych zmiennych w modelu. 7.1.1 Zmienne pomini˛ete e . Zakładamy, że prawOznaczmy estymator M N K wektora parametrów β 1 w modelu (7.1) jako β 1 e można wi˛ec rozpisać w sposób dziwy mechanizm generujacy ˛ y dany jest modelem (7.2) estymator β 1 nast˛epujacy: ˛ ¡ ¢ e = X 0 X 1 −1 X 0 y β 1 1 1 ¡ 0 ¢−1 0 X 1 (X 1 β 1 + X 2 β 2 + u) = X 1X 1 ¡ ¢−1 0 ¡ 0 ¢−1 0 X 1ε X 1 X 2 β 2 + X 01 X 1 = β1 + X 1 X 1 Wartość oczekiwana˛ tego estymatora jest równa: ³ ´ ¡ ¢ ¡ ¢ e = β + X 0 X 1 −1 X 0 X 2 β + X 0 X 1 −1 X 0 E (ε) E β 2 1 1 1 1 1 1 ¡ 0 ¢−1 0 X 1 X 2 β2 = β1 + X 1 X 1 Z wyniku wnioskujemy, że w przypadku pomini˛ecia istotnych zmiennych estymator M N K ma obcia˛żenie równe: ³ ´ ¡ ¢ e − β = X 0 X 1 −1 X 0 X 2 β E β 2 1 1 1 1 Istnieja˛ dwa ważne przypadki, dla których pomini˛ecie zmiennej nie powoduje obcia˛żenia estymatora. Pierwszy przypadek jest trywialny i zachodzi dla β 2 = 0. 7.1. ZMIENNE POMINIETE ˛ I NIEISTOTNE 141 Bardziej interesujaca ˛ jest sytuacja, gdy X 01 X 2 = 0, to jest dla przypadek, kiedy X 1 i X 2 sa˛ ortogonalne. W takim przypadku, mimo pomini˛ecia cz˛eści zmiennych objaśniajacych ˛ estymator M N K b˛edzie dalej nieobcia˛żony. Co wi˛ecej, można pokazać, że jeśli kowariancje empirycznych mi˛edzy zmiennymi zawartymi w w X 1 i X 2 sa˛ równa zeru, to estymatory parametrów przy wszystkich zmiennych poza stała˛ b˛eda˛ nieobcia˛żone (patrz dodatek matematyczny). Ponieważ stała w modelu najcz˛eściej nie jest intepretowana, wi˛ec problem zwiazany ˛ z obcia˛żeniem estymatora nie pojawi si˛e wtedy, gdy zmienne pomini˛ete nie sa˛ skorelowane ze zmiennymi, które zostały uwzgl˛ednione w modelu. Wniosek ten ma szerokie zastosowanie w badaniach eksperymentalnych. Przykład 7.1.1 Przeprowadzono badanie skuteczności leku. Grup˛e chorych na cukrzyc˛e podzielono losowo na grup˛e, która podano lek podnoszacy ˛ poziom insuliny i grup˛e kontrolna,˛ której podano placebo. Po podaniu leku/lplaceba zmierzono chorym poziom insuliny. Wiadomo, że wpływ na poziom insuliny ma nie tylko lek ale także inne czynniki takie jak uwarunkowania genetyczne, zaawansowanie cukrzycy etc. Czy tak zaprojektowane badanie da właściwe oszacowanie wpływu leku na poziom insuliny, skoro pomini˛eto te dodatkowe czynniki? Analizowany model ma nast˛epujac ˛ a˛ postać: yi = β0 + β1 Di + xi β 2 + εi , gdzie Di = 1 jeśli podano lek, a Di = 0 jeśli podano placebo. Parametr β1 mierzy wzrost poziomu insuliny po podaniu leku. Jeśli fakt podania leku był leku był losowy, to także zależy on od wielkości xi a b D,x ≈ Cov (Di , xi ) = 0. Zgodnie z tym tym samym korelacja mi˛edzy Di i xi jest zerowa. W rezultacie Σ 2 co powiedziano, mimo pomini˛ecia istotnych zmiennych objaśniajacych, ˛ oszacowanie M N K parametru β1 jest, przy takiej konstrukcji badania, nieobciażone. ˛ Z powyższych rozważań wynika, że problem obcia˛żenia estymatora pojawi si˛e, gdy istotne zmienne pomini˛ete w modelu sa˛ skorelowane sa˛ ze zmiennymi uwgl˛ednionymi w modelu. Pomini˛ecie istotnych zmiennych jest prawdopodobnie najcz˛estszym powodem bł˛edów w oszacowaniach, ponieważ praktyce nigdy nie dysponujemy danymi dotyczacymi ˛ wszystkich zmiennych, które moga˛ wpłynać ˛ na zmienna˛ zależna.˛ W przypadku otrzymania nieintuicyjnego wyniku badania, należy wi˛ec zawsze zastanowić si˛e, czy wynik ten nie jest wynikiem pomini˛ecia jakiś istotnych czynników wpływajacych ˛ na zmienna˛ zależna. Przykład 7.1.2 Na podstawie bazy danych z Badania Ekonomicznej Aktywności Ludności z 1 kwartału 1994 przeprowadzono regresj˛e logarytmu płacy na numerze ankietera. Otrzymano nast˛epujace ˛ wyniki. Współczynnik (Bład ˛ Std.) t Pr (|t| > t∗ ) ANKR 0.001635 (0.000099) 16.53 0.000 stała 5.557534 (0.004223) 1315.95 0.000 log(płaca) Tablica 7.1: Wynik regresji z pomini˛eta˛ jedna˛ obserwacja˛ ROZDZIAŁ 7. PROBLEMY ZWIAZANE ˛ Z DANYMI 142 Uzyskany w ten sposób wynik jest bardzo niepokojacy. ˛ Sugeruje on, że to, który ankieter przeprowadza badanie wpływa na uzyskane odpowiedzi na temat wysokości płacy. Wniosek ten jest jednak bł˛edny. Zasi˛eg terytorialny działalności poszczególnych ankieterów jest ograniczony. Ci ankieterzy, którzy działaja˛ na terenach w lepszej sytuacji gospodarczej badaja˛ osoby o średnio wyższych płacach niż ci, którzy działaja˛ na terenach w gorszej sytuacji. Dodajmy do modelu zmienne zerojedynkowe zwiazane ˛ z województwem i wielkościa˛ miejscowości, w której mieszkał respondent. Poniżej znajduje si˛e tabela zawierajaca ˛ cz˛eść oszacowań parametrów z tej regresji: Współczynnik (Bład ˛ Std.) t Pr (|t| > t∗ ) ANKR -0.000217 (0.000148) -1.46 0.144 Bialskopodlaskie .. . -0.149512 .. . (0.042862) .. . -3.49 0.000 Zielonogórskie -0.121923 (0.027524) -4.43 0.000 miasta 500 000 i wiecej .. . -0.078974 .. . (0.019422) .. . -4.07 0.000 wieś -0.247112 (0.016657) -14.84 0.000 stała 5.904140 (0.015481) 381.37 0.000 log(płaca) Tablica 7.2: Wynik regresji z pomini˛eta˛ jedna˛ obserwacja˛ Po wprowadzeniu dodakowych zmiennych, zmienna zwiazana ˛ z numerem ankietera stała si˛e nieistotna. Powodem powstania obciażenia, ˛ które doprowadziło do istotnie różnego od zera oszacowania współczynnika przy tej zmiennej była korelacja mi˛edzy numerami województw i wielkościa˛ miejscowości a numerem ankietera. Rzeczywiście współczynnik determinacji w regresji numeru ankietara na województwie i wielkości miejscowości wynosi aż R2 = 0.59. Jak wcześniej już wcześniej wspomniano, problem zmiennych pomini˛etych jest trudny do rozwiaza˛ nia, ponieważ zazwyczaj nie dysponujemy danymi dotyczacymi ˛ tych potencjalnie waznych ˛ zmiennych. W takiej sytuacji cenna jest umiej˛etność określenia kierunku ewentualnego obcia˛żenia. W ogólnym przypadku trudne jest podanie znaku takiego obcia˛żenia. Określenie kierunku obciazenia ˛ jest możliwe w najprostszym przypadku, kiedy estymowany model zawiera stała˛ i jedna zmienna objaśniajac ˛ a˛ a pomini˛eta została jedna dodatkowa zmienna objaśniajaca.Wnioski ˛ z tego najprostszego przypadku sa˛ cz˛esto stosowane, choć nie całkiem poprawnie, także w ogólniejszym przypadku modelu z wieloma zmiennymi. Pokazaliśmy w podrozdziale 2.4,że modelu z jedna˛ zmienna˛ objaśniajac ˛ a˛ yi = β0 + β1 x1i + εi 7.1. ZMIENNE POMINIETE ˛ I NIEISTOTNE 143 estymator parametru β1 dany jest wzorem e = sx1 y gdzie β 1 s2x1 PN PN 2 (x1i − x1 ) 2 i=1 (x1i − x1 ) (yi − y) syx1 = , sx1 = i=1 N N Prawdziwy model ma postać yi = β0 +β1 x1i +β2 x2i +εi a wi˛ec wartość oczekiwana sxy jest równa: 1 XN E (sxy ) = (x1i − x1 ) E [β1 (x1i − x1 ) + β2 (x2i − x2 ) + (εi − ε)] i=1 N PN PN 2 (x1i − x1 ) (x2i − x2 ) i=1 (x1i − x1 ) + β2 i=1 = β2 N N PN (x1i − x1 ) + i=1 E (εi − ε) = β1 s2x1 + β2 sx1 x2 | {z } N 0 e wynosi Wartość oczekiwana estymatora β 1 ³ ´ β s2 + β s sx x sx 2 x1 x2 e = 1 x1 = β1 + β2 21 2 = β1 + β2 2 ρx1 x2 E β 1 2 sx1 sx1 sx1 Na podstawie uzyskanego wzoru można cz˛esto wysnuć wnioski jakościowe na temat kierunku obcia˛żenia parametru przy zmiennej umieszczonej w modelu. Jeśli tylko wiemy jaki jest znak parametu β2 oraz jaki jest kierunek korelacji mi˛edzy zmienna˛ umieszczona˛ w modelu i pomini˛eta,˛ to możliwe b˛edzie ustalenie znaku obcia˛żenia: ³ ´ e − β1 = β2 sx2 ρx x E β 1 sx1 1 2 Przykład 7.1.3 Zbudowano prosty model liniowy, w którym zmienna˛ objaśniana˛ była stopa przyrostu naturalnego na określonym terenie a zmienna˛ objaśniajac ˛ a˛ ilość bocianów zamieszkujacych ˛ na tym tere˛ si˛e dzieci. Czyżby nie. Stwierdzono, że ilość bocianów istotnie i pozytywanie wpływa na ilość rodzacych istotnie bociany przynosiły dzieci? Analizowany model ma nast˛epujac ˛ a˛ postać: yi = β0 + β1 x1i + εi , gdzie xi jest liczba˛ bocianów mieszkajacych ˛ na danym terenie a yi przyrostem naturalnym na tym terenie. W bardziej rozbudowanym modelu yi = β0 + β1 x1i + β2 x2i + εi , gdzie x2i jest miara˛ g˛estości zaludnienia danego terenu. Wiadomo, że w Polsce jak i w wielu innych krajach, przyrost naturalny jest wyższy na terenach słabiej zaludnionych (głównie na wsi) a wi˛ec β2 > 0. Na terenach takich jest także wi˛ecej bocianów, co implikuje, że ρx1 x2 > 0. Dodatnie oszacowanie przy s zmiennej bociany jest najprawdopodobniej wynikiem obciażenia ˛ estymatora E (b1 )−β1 = β2 sxx2 ρx1 x2 > 1 0, które spowodowało, że oszacowany współczynnik jest istotnie wiekszy od zera mimo, że parametr β1 = 0. ROZDZIAŁ 7. PROBLEMY ZWIAZANE ˛ Z DANYMI 144 Omówione powyżej przykłady pokazuja,˛ że potencjalnie obcia˛żenie zwiazane ˛ z pomini˛eciem zmiennej może doprowadzić do tego, że uznamy zmienna˛ nie majac ˛ a˛ wpływu na zmienna˛ zależna za zmienna˛ istotna˛ w modelu. Oczywiście przypadek ten jest z punktu widzenia prawidłowości uzyskanych wyników przypadkiem najgorszym, szczególnie jeśli celem badania było stalenie, czy dana zmienna wpływa na zmienna˛ zależna.˛ W praktyce cz˛esto problem zmiennych pomini˛etych prowadzi do nieco mniej poważnego problemu przeszacowania lub niedoszacowania wpływu zmiennej objaśniajacej ˛ na zmienna˛ objaśniana.˛ Przykład 7.1.4 (c.d. 3.1.1) Przeanalizujmy wpływ stażu na wysokość płacy. Można tego dokonać przeprowadzajac ˛ regresj˛e logarytmu płacy na wysokości stażu. Uzyskano nast˛epujacy ˛ wynik: log (płaca) = 7.370 + 0.011 × staż (.0134) (.0006) Uwzgl˛ednijmy jednak w regresji poza stażem także wiek zatrudnionego. Okaże si˛e wtedy, że jakkolwiek wpływ stażu pozostaje dalej dodatni to jednak spada prawie o połow˛e: log (płaca) = 7.215 + 0.006 × staż+0.006 × wiek (0.038) (0.001) (0.001) 7.1.2 Zmienne nieistotne Odwrotnościa˛ problemu zmiennych pomini˛etych jest problem zmiennych nieistotnych. Załóżmy, że estymujemy model (7.2), gdy prawdziwym modelem jest model (7.1). W takim przypadku szacowany parametr β 2 = 0 a zmienne zawarte w X 2 nie wpływaja˛ na zmienna˛ zależna.˛ Przypadek ten ten można przeanalizować wracajac ˛ do na rozważań na temat własności estymatorów z ograniczeniami. Ustaliliśmy wtedy, że dla prawdziwych ograniczeń postaci H0 : Hβ = h, estymator z ograniczeniami jest nieobcia˛żony i ma mniejsza˛ wariancj˛e od estymatora bez ograniczeń. Wynika z tego, że jeśli prawdziwe jest ograniczenie β 2 = 0 a zatem prawdziwy jest model (7.1) a estymowanym modelem jest model (7.2), to uzyskany estymator parametru β 1 b˛edzie nieobcia˛żony ale b˛edzie miał wyższa˛ wariancj˛e niż estymator uzyskany na podstawie modelu (7.1). Inaczej mówiac, ˛ w modelu, w którym wyst˛epuja˛ zmienne nieistotne estymator M N K jest ma wyższa˛ wariancja niż w modelu, z którego usuni˛eto zmienne nieistotne. Wniosek ten wyjaśnia dlaczego budujac ˛ model da˛żymy do usuni˛ecia z niego zmiennych nieistotnych. Mimo, że usuwanie zmiennych pogarsza jakość dopasowania (patrz podrozdział 2.10), to jednak usuwanie zmiennych zmiennych nieistotnych poprawia dokładność oszacowań przy zmiennych istotnych. Druga˛ korzyścia˛ zwiazan ˛ a˛ z usuwaniem nieistotnych z modelu jest uzyskiwane w ten sposób uproszczenie modelu. Podobnie jednak jak w przypadku narzucania na model ograniczeń, usuwanie zmiennych z modelu zwiazane ˛ jest z niebezpieczeństwem usuni˛ecia z modelu zmiennej istotnej, co doprowadzić może, do pojawienia si˛e obcia˛żenia estymatora. Pytania: 1. Jaki skutek może mieć pomini˛ecie istotnej zmiennej w modelu? 7.2. OBSERWACJE NIETYPOWE I BŁEDNE ˛ 145 2. W jakim szczególnym przypadku można uzyskać prawidłowe oszacowania parametrów, mimo, że w modelu pomini˛eto istotne zmienne? 3. Dlaczego z modelu powinno si˛e usuwać zmienne nieistotne? 4. Parametry przy zmiennych x1 i x2 sa˛ dodatnie. Zmienne sa˛ ujemnie skorelowane. Jaki b˛edzie wpływ pomini˛ecia zmiennej x1 na oszacowanie parametr przy zmiennej x2 ? 7.2 Obserwacje nietypowe i bł˛edne Cz˛estym problemem przy estymacji modelu sa˛ zanieczyszczenia bazy danych. Moga˛ one być zwia˛ zane zarówno z nietypowościa˛ cz˛esci obserwacji jak i na przykład bł˛edami w kodowaniu zmiennych. W literaturze wyróżnia si˛e dwa przypadki. Po pierwsze obserwacja może być nietypowa, to znaczy charakteryzować si˛e nietypowymi na tle pozostałych obserwacji cechami. Obserwacja nietypowa nie jest jednak bł˛edna w tym sensie, że mechanizm, który generuje determinuje zmienna˛ zależna˛ dla tej obserwacji jest w dalszym ciagu ˛ tym mechanizmem, który opisywany jest przez nasz model. Drugim przypadkiem jest przypadek obserwacji bł˛ednej. Obserwacja bł˛edna jest to obserwacja, której powstania nie da si˛e wytłumaczyć za pomoca˛ mechnizmu, który stanowi baz˛e teoretyczna˛ naszego modelu. Obserwacje bł˛edne cz˛esto pojawiaja˛ si˛e w wyniku bł˛edów powstałych przy wpisywaniu obserwacji do bazy danych. Niekiedy jednak obserwacje takie sa˛ rzeczywistymi obserwacjami, zwiazanymi ˛ z pewnymi nietypowymi zdarzeniami, których nie opisujemy za pomoca˛ naszego modelu. Niezależnie od tego czy obserwacja jest nietypowa, czy też bł˛edna jej wpływ na wynik regresji zależy od tego na ile pasuje do prostej regresji. Najbardziej niepokojaca ˛ jest sytuacja, w której obserwacja ma nietypowe wartości dla zmiennych niezależnych a przy tym słabo pasuje do prostej regresji. Na rysunku 7.1 zilustrowano sytuacj˛e, w której obserwacja nietypowa dobrze pasuje do krzywej regresji. Jeśli zakreślona kółkiem obserwacja nietypowa jest poprawna to jej wystapienie ˛ w próbie pozytywanie wpłynie na prezycyzj˛e oszacowań współczynników. Zaznaczone na rysunku proste regresji oszacowane na pełnej próbie i próbie bez nietypowej obserwacji nie różnia˛ si˛e zbyt silnie od siebie, ponieważ obserwacja˛ tak czy inaczej ”pasuje” do krzywej regresji. Oznacza to, że w tym szczególnym przypadku, nawet jeśli obserwacja nietypowa jest w rzeczywistości bł˛edna, to nie wpłynie ona zbyt silnie na oszacowania parametrów. Odwrotna sytuacja zilustrowana jest na rysunku 7.2. W tym przypad obserwacja nietypowa nie tylko charakteryzuje si˛e nietypowa˛ wielkościa˛ zmiennej niezależnej ale dodatkowo zupełnie nie pasuje do zwiazku ˛ mi˛edzy zmienna˛ zależna˛ i zmiennymi niezależnymi, który można wywnioskować na podstawie pozostałych obserwacji. Wyniki regresji różnia˛ si˛e mocno w zależności od tego, czy nietypowa obserwacja została zawarta w próbie, czy też została z niej usuni˛eta. W tym przypadku, jeśli nietypowa obserwacja była bł˛edna, to umieszczenie jej w próbie b˛edzie miało katastrofalne skutki dla jakości uzyskanych oszacowań. Z drugiej strony, jeśli obserwacja te jest poprawna, to uwgl˛ednienie jej w próbie poprawi znacznie jakość oszacowań. Analizujac ˛ dane szczególna˛ uwag˛e powinniśmy zwrócić na wi˛ec ROZDZIAŁ 7. PROBLEMY ZWIAZANE ˛ Z DANYMI 146 y y obserwacj˛e, które maja˛ nietypowe wielkości zmiennych objaśniajacych ˛ i słabo posuja˛ do prostej regresji. x x Rysunek 7.1: Obserwacja nietypowa pasujaca ˛ doRysunek 7.2: Obserwacja nietypowa nie pasujaca ˛ do prostej regresji prostej regresji Na postawie samego modelu nie da si˛e ustalić, które obserwacje sa˛ bł˛edne. Sam fakt, że obserwacja nie pasuje do modelu nie może być powodem uznania jej za obserwacj˛e bł˛edna.˛ Gdybyśmy tak post˛epowali, to zawsze udawałoby nam si˛e uzyskać dobrze dopasowany model - poprostu wszystkie obserwacje, które do modelu nie pasuja˛ usuwalibyśmy z próby. Cz˛eść obserwacji możemy uznać za bł˛edne na podstawie teorii lub na podstawie dodatkowych informacji spoza próby Przykładowo, jeśli zmienna wiek przyjmie pewnej obserwacji wartość ujemna˛ to obserwacja ta˛ można uznać za bł˛edna˛ ponieważ wiemy, że zmienna wiek może przyjmować wyłacz˛ nie wartości dodatnie. Bardziej subtelne przypadki zwiazane ˛ sa˛ z obserwacjami, które sa˛ bł˛edne w tym sensie, że nie moga˛ być wyjaśnione za pomoca˛ teorii, która posłużyła nam do zbudowania estymowanego modelu. Przykładowo, jeśli estymujemy krzywa˛ popytu na żywność, to może si˛e zdarzyć, że w próbie znajda˛ si˛e nietypowe obserwacje zwiazane ˛ z okresami, w których obowiazywała ˛ reglamentacja żywności. Obserwacje potraktować tak jak obserwacje bł˛edne i usunać ˛ je z próby, ponieważ standardowy mikroekonomiczny model opisujacy ˛ krzywa˛ popytu nie może być stosowany w przypadku, w którym podział dóbr nie jest rynkowy. Przykład 7.2.1 Dostaliśmy za zadanie porównanie rentowności dwóch typów kontraktów: A i B. Dysponujemy nast˛epujacymi ˛ 10 danymi historycznymi dotyczacymi ˛ stóp zwrotu (IRR) dla kontraktu A: {10, 8, 8, 9, 11, 10, 8, 9, 11, 10} i B: {16, 15, 18, 17, 16, −80, 17, 16, 16, 17}. Zwraca uwag˛e jedna nietypowa ujemna obserwacja dla kontraktu B (dotyczy ona dłużnika, który zbankrutował), czy obserwacj˛e t˛e można pominać? ˛ Zdefiniujmy zmienna˛ zerojedynkowa˛ B przyjmujac ˛ a˛ wartość 1 dla kontraktów z grupy B. 7.2. OBSERWACJE NIETYPOWE I BŁEDNE ˛ q B stała 147 Współczynnik Bład ˛ Std. t Pr (|t| > t∗ ) 7.155556 (.4808912) 14.88 0.000 9.4 (.330972) 28.40 0.000 Tablica 7.3: Wynik regresji z pomini˛eta˛ jedna˛ obserwacja˛ q B stała Współczynnik Bład ˛ Std. t Pr (|t| > t∗ ) -3.5 (10.66526) -0.33 0.747 9.4 (7.541478) 1.25 0.229 Tablica 7.4: Wynik regresji z uwzgl˛ednionymi wszystkimi obserwacjami Wnioski dotyczace ˛ dochodowości konraktów zależa˛ od pomini˛ecia badź ˛ nietypowej obserwacji. Kontrakt B jest statystycznie lepszy od kontraktu A jeśli pominiemy obserwacj˛e nietypowa.˛ Jeśli uwzgl˛ednimy wszystkie obserwacje, to na podstawie próby nie da si˛e rozstrzygnać, ˛ który kontrakt jest lepszy. Ujemny znak przy zmiennej B, sugeruje jednak, że kontrakt B jest gorszy od kontaktu A. Nietypowa˛ obserwacj˛e można odrzucić jedynie wtedy, gdy uda nam si˛e dowieść na podstawie informacji spoza próby, że kontrakt typu B, który zakończył si˛e bankructwem dłużnika był z jakiegoś powodu nietypowy - np. popełniono rażace ˛ bł˛edy w ocenie wniosku. W dalszej cz˛esci rozdziału zajmiemy si˛e statystykami opisowymi, za pomoca˛ których można wykryć te obserwacje w próbie, które sa˛ nietypowe, słabo pasuja˛ do prostej regresji, badź ˛ wyjatkowo ˛ silnie wpływaja˛ na wynik regresji. Nie sa˛ to jednak statystyki za pomoca˛ których można przetestować, czy dana obserwacja jest bł˛edna. Jak wyjaśniono wcześniej, aby uznać obserwacj˛e za bł˛edna˛ należy to uzasadnić innymi argumentami niż tylko to, że jest ona nietypowa lub nie pasuje do modelu. 7.2.1 Dźwignia Do stwierdzenia, czy xi jest nietypowe na tle pozostałych x cz˛esto używa si˛e statystyki nazywana˛ dźwignia˛ (levarege) hi ¡ ¢−1 0 X δ i = δ 0i P X δ i = (P X )ii hi = δ 0i X X 0 X ¡ ¢−1 0 xi = xi X 0 X ¡ ¢−1 0 0 X . Dźwignia ma nast˛epujace ˛ własności: gdzie δi = [0, . . . , 0, 1, 0 . . . , 0] a P X = X X 0 X • dla każdego modelu 0 ≤ hi ≤ 1 ROZDZIAŁ 7. PROBLEMY ZWIAZANE ˛ Z DANYMI 148 • dla modelu ze stała˛ 1 ≤ hi ≤ 1 N Przyj˛eta w literaturze nieformalna reguła mówi, że obserwacj˛e można traktować jako nietypowa˛ jeśli hi > 2K N . Jak już wiemy, to że obserwacja dla xi jest nietypowa na tle pozostałych x nie oznacza, że obserwacja i nie pasuje do modelu. Aby si˛e o tym przekonać należy przyjrzeć si˛e resztom. 7.2.2 Standaryzowane reszty Aby zidentyfikować szczególnie duże reszty musimy je najpierw wystandaryzować. Szcz˛esliwie w podrozdziale 4.3.1 wyprowadziliśmy wzór (4.5), który opisuje relacj˛e mi˛edzy resztami a bł˛edami losowymi. Wykorzystujac ˛ ten wzór można policzyć wariancj˛e wektora reszt: ¡ ¢ Var (e) = Var (M X ε) = M X Iσ 2 M X = σ 2 M X Wariancja elementu i wektora reszt jest wi˛ec równa: ¡ ¢ Var (ei ) = Var δ 0i e = σ 2 δ 0i M X δ i ¡ ¢ = σ 2 1 − δ 0i P X δ i = σ 2 (1 − hi ) ¡ ¢ Jeśli ε ∼ N 0, σ 2 I , to wystandaryzowana reszta ma standardowy rozkład normalny: eei = ei √ ∼ N (0, 1) σ 1 − hi Ponieważ parametr σ jest nieznany, wi˛ec σ stosuje si˛e jej estymator s a uzyskane w ten sposób reszty maja,˛ 1 rozkład t-Studenta: ei √ ei σ 1−hi ebi = √ ∼ tN −K =q ± e0 e s 1 − hi (N − K) σ2 Przyj˛eło si˛e uznawać za nietypowe te obserwacje dla których |b ei | > 2. Jednak trzeba pami˛etać o tym, że liczba obserwacji, dla których |b ei | > 2 zależy od wielkości próby. Przykład 7.2.2 Przykładowo dla N = 100 i K = 2 prawdopodobieństwo, że |b ei | > 2 wynosi: Pr (|b ei | > 2) = 2 [1 − Ft98 (2)] = 0.0482 Wartość oczekiwana liczby obserwacji, dla których |b ei | > 2 jest równa 4.82. Liczba obserwacji, dla których zaobserwujemy tak wysokie |b ei | > 2 jest w przybliżeniu równa 5% ogółu obserwacji. Niepokojacy ˛ jest nie tyle fakt wyst˛epowania dużych reszt, ile raczej wyst˛epownie dużych wartości reszt dla obserwacji wysoce nietypowych, a wi˛ec o wysokich dźwigniach. Obserwacje maja˛ 1 Można to pokazać na podstawie rozważań analogicznych do tych z podrozdziału 5.2.1 7.2. OBSERWACJE NIETYPOWE I BŁEDNE ˛ 149 duży wpływ na wynik oszacowań, co oznacza, że ich poprawność jest szczegolnie ważna. Do wykrycia takich obserwacji może nam posłużyć rysunek, na którym na osi poziomej sa˛ kwadraty standryzowanych reszt a na osi pionowej wielkość dźwigni. Dla obserwacji zilustrowanych na rysunkach 7.1 i 7.2 wykresy takie znajduja˛ si˛e odpowiednio na rysunkach ?? i 7.4. Widać na nich, że o ile w pierwszym przypadku nie zaobserwowano żadnej obserwacji o dużej dźwigni i dużej wartości bezwzgl˛ednej reszty, o tyle w drugim przypadku obserwacja taka istnieje. Jak już wiemy obserwacja ta ma rzeczywiście duży wpływ na wynik .5 Dźwignia 0 0 .1 .2 .2 Dźwignia .4 .3 .6 .4 .8 regresji. 0 .1 .2 Kwadrat standaryzowanych reszt .3 0 .1 .2 .3 Kwadrat standaryzowanych reszt .4 .5 Rysunek 7.3: Dźwignie i reszty dla obserwacji Rysunek 7.4: Dźwignie i reszty dla obserwacji z rysunku 7.1 z rysunku 7.2 Możliwe jest sformułowanie statystyki, która bezpośrednio mierzy wpływ obserwacji na wynik regresji. 7.2.3 Odległość Cooka Jedna˛ z miar wpływu pojedynczej obserwacji na wynik regresji jest zmiana wielkości wartości dopasowanych uzyskiwanych z modelu po usuni˛eciu tej obserwacji z próby. Obserwacj˛e, która istotnie wpływa na wielkość wartości dopasowanych można uznać za wpływowa.˛ Oznaczmy jako X (i) macierz wszytkich obserwacji poza obserwacja˛ i-ta,˛ jako b estymator M N K uzyskany na podstawie pełnej próby i jako b(i) estymator M N K uzyskany na podstawie próby z usuni˛eta˛ i-ta˛ obserwacja.˛ Miara˛ różnicy mi˛edzy b = X (i) b i wartościami dopasowanymi y b (i) = x(i) b(i) wartościami dopasowanymi z pełnej regresji y uzyskiwanymi z próby powstałej po usuni˛eciu i-tej obserwacji jest odległościa˛ Cooka (Cook distance): CDi = ´ ´0 ³ ³ b−y b (i) b−y b (i) y y Ks2 = eb2i hi K 1 − hi Miara ta jest równa znormalizowanje przez Ks2 sumie kwadratów różnic mi˛edzy odpowiednimi wartościami dopasowanymi uzyskanymi z pełnej próby i próby powstałej po usuni˛eciu i-tej obserwacji. Z drugiego wzoru wynika, że istotnie najbardziej wpływowe sa˛ obserwacje które maja˛ równocześnie duże eb2i i hi . Nieformalna zasada mówi, że należy si˛e przyjrzeć tym obserwacjom, dla których CDi > 4 N. ROZDZIAŁ 7. PROBLEMY ZWIAZANE ˛ Z DANYMI 150 Przykład 7.2.3 (c.d. 3.5.2) Sprawdzamy baz˛e danych, na której oszacowany został model dla zależność wydatków na mieszkanie od dochodu gospodarstwa. Po oszacowaniu modelu wygenerowano nast˛epujac ˛ a˛ tabel˛e dla 5 obserwacji o najwi˛ekszych statystykach dźwigni. Dla wszystkich tych obserwacji wielkość dźwigni jest niepokojaca ˛ bo wi˛eksza od 2K N = 2×2 4111 = 0.001. Dla 4 z 5 tych obserwacji wielkość standa- ryzowanych reszt jest też wi˛eksza od 2. Podobnie dla 4 z 5 zidentyfikowanych w ten sposób obserwacji wielkość statystyki Cooka przekracza 4 N = 4 4111 wydatki dochód 375.9 16 414.84 23 400 47 132.35 78.9 370.68 118 = 0.001. std. reszta dźwignia cook 3.5828 .0140 .0911 3.4911 .0120 .0740 2.9048 .0086 .0363 .5827 .0064 .0011 2.1032 .0050 .0110 Tablica 7.5: Tablica uporzadkowana ˛ dla 4 najwi˛ekszych odległości Cooka Jeśli popatrzymy na tablic˛e najbardziej wpływowych obserwacji zidentyfikowanych według wielkości statystyk Cooka, to przekonamy si˛e, że znajduja˛ si˛e w niej 3 z 5 obserwacji, które pojawiły si˛e w tablicy 7.5. wydatki dochód std. reszta dźwignia cook 3.67 16150 -9.6313 .0029 .1314 375.9 16 3.5828 .0140 .0911 414.84 23 3.4911 .0120 .0740 400 47 2.9048 .0085 .0363 2.72 780 -7.9285 .0008 .0233 Tablica 7.6: Tablica uporzadkowana ˛ dla 4 najwi˛ekszych odległości Cooka Zastanówmy si˛e, czy obserwacje z tablicy 7.5 można usunać ˛ z bazy danych. Można to zrobić jeśli jesteśmy w stanie uzasadnić, że sa˛ one albo wyrażnie bł˛edne lub też maja˛ własności, których nie da si˛e wyjaśnić za pomoca˛ teorii, z której korzystamy przy budowie modelu. Zauważmy, że dla wszystkich tych obserwacji wydatki na mieszkanie sa˛ wieksze od dochodu. Obserwacje rzeczywiście nie pasuja˛ do standardowej teorii popytu konsumenta, ponieważ nie spełniaja˛ ograniczenia budżetowego! Posługujac ˛ si˛e tym argumentem moża z bazy danych usunać ˛ wszystkie obserwacje, dla których wydatki sa˛ wieksze of dochodu2 . Na rysunku 7.6 widać jednak, że tylko niewielka cz˛eść z tych obserwacji charakteryzuje si˛e duża dźwignia˛ i nie sa˛ to też obserwacje o najwi˛ekszych standaryzowanych resztach. W rezultacie wyniki 2O usuni˛eciu z bazy danych obserwacji zidentyfikowanych jako bł˛edne powinno si˛e wpomnieć w opisie badania. 7.2. OBSERWACJE NIETYPOWE I BŁEDNE ˛ 151 Rysunek 7.5: Dźwignia i standaryzowane reszty dla obserwacji poprawnych i bł˛ednych regresji sprzed i po usuni˛eciu obserwacji uznanych za bł˛edne różnia˛ si˛e istotnie choć liczbowo nie sa˛ zbyt duże. Rysunek 7.6: Wyniki regresji przed i po usuni˛eciu bł˛ednych obserwacji ln (wydatki) = 2.768599 + .4087146 × ln (dochód) (.106037) (.0139339) ln (wydatki) = 2.569444 + .4335826 × ln (dochód) (.1062327) (.0139497) Pytania: 1. Co to jest obserwacja nietypowa? Kiedy obserwacj˛e nietypowa˛ można uznać za bł˛edna? ˛ 152 ROZDZIAŁ 7. PROBLEMY ZWIAZANE ˛ Z DANYMI 2. W jakim przypadku obserwacja nietypowa b˛edzie miała znaczacy ˛ wpływ na wynik regresji? 3. Jakich statystyk używamy do wykrywamy obserwacji nietypowych i bł˛ednych?