P O B I E R Z

Transkrypt

P O B I E R Z
Współliniowość zmiennych objaśniających:
test Walda i test Studenta w badaniu istotności
zmiennych objaśniających - przykłady.
Przykład: Test Walda a test Studenta w badaniu istotności
zmiennych objaśniających.
Model zużycia energii przez mieszkańców w mieszkaniach na pewnym
osiedlu:
ZE - zużycia energii ( w kWh / m-c),
Pow -powierzchnia mieszkania,
LL - liczba lokatorów,
Etap I: propozycja postaci modelu
ZE = β1+ β2Pow+ β3LL + Z
1
Dane:
Etap II: Estymacja parametrów modelu
Dane:
X=
... ...
...
Estymator MNK
b = (XTX)-1XTY
Y=
...
2
b = (XTX)-1XTCM =
Oszacowany model:
ZE = 515.3 + 2.15 Pow +27.17 LL
Etap III A
Wskaźniki jakości modelu:
Etap III B:
Istotność zmiennych objaśniających w modelu regresyjnym
(poziom istotności α=0.05)
Test Walda dla całego układu zmiennych objaśniających (model z wyrazem wolnym)
- zakładamy normalny rozkład zmiennej losowej Z
ZE = β1+ β2Pow+ β3LL + Z
Hipoteza zerowa:
β2= β3=0
(obie zmienne - Pow i LL - są nieistotne)
Hipoteza alternatywna:
β2 ≠ 0 lub β3 ≠ 0
(przynajmniej jedna zmienna z nich jest istotna)
Dla przeprowadzenia testu Walda przyjmujemy założenie dodatkowe:
zmienna losowa Z ma rozkład normalny
3
Etap III B:
Istotność zmiennych objaśniających w modelu regresyjnym
(poziom istotności α=0.05)
Test Walda dla całego układu zmiennych objaśniających (model z wyrazem wolnym)
- zakładamy normalny rozkład zmiennej losowej Z
ZE = β1+ β2Pow+ β3LL + Z
Statystyka testowa:
Zbiór krytyczny:
Wniosek:
Etap III B:
Istotność zmiennych objaśniających w modelu regresyjnym
(poziom istotności α=0.05)
Test Studenta dla poszczególnych zmiennych objaśniających
- zakładamy normalny rozkład zmiennej losowej Z
Obliczenia wstępne
A = (XTX)-1 =
4
Etap III B:
Istotność zmiennych objaśniających w modelu regresyjnym
(poziom istotności α=0.05)
Test Studenta dla istotności zmiennej Pow
- zakładamy normalny rozkład zmiennej losowej Z
ZE = β1+ β2Pow+ β3LL + Z
Hipoteza zerowa:
β2=0
Hipoteza alternatywna: β2≠ 0
( zmienna Pow jest „nieistotna”)
( zmienna Pow jest „istotna”)
Statystyka testowa:
Zbiór krytyczny:
Wniosek:
Etap III B:
Istotność zmiennych objaśniających w modelu regresyjnym
(poziom istotności α=0.05)
Test Studenta dla istotności zmiennej LL
- zakładamy normalny rozkład zmiennej losowej Z
ZE = β1+ β2Pow+ β3LL + Z
Hipoteza zerowa:
β2=0
Hipoteza alternatywna: β2≠ 0
( zmienna LL jest „nieistotna”)
( zmienna LL jest „istotna”)
Statystyka testowa:
Zbiór krytyczny:
Wniosek:
5
Etap I: propozycja nowej postaci modelu
ZE = β1+ β2Pow+ Z
Etap II: Estymacja parametrów modelu
b = (XTX)-1XTY =
Oszacowany model:
ZE = 485.2 + 3.99 Pow
Etap III A
Wskaźniki jakości modelu:
6
Etap III B:
Istotność zmiennych objaśniających w modelu regresyjnym
(poziom istotności α=0.05)
Test Studenta dla istotności zmiennej Pow
- zakładamy normalność rozkładu zmiennej losowej Z
ZE = β1+ β2Pow+ Z
Hipoteza zerowa:
β2=0
Hipoteza alternatywna: β2≠ 0
( zmienna Pow jest „nieistotna”)
( zmienna Pow jest „istotna”)
Statystyka testowa:
Zbiór krytyczny:
Dość częstą przyczyną zjawiska obserwowanego w naszym przykładzie („każda zmienna
nieistotna”) jest współliniowość („korelacja (?!)”) między pewnymi zmiennymi
U nas: rPow,LL = 0.91
UWAGA 1. Często, nieprawidłowo (!) w takim przypadku mówi się, że należy jedną
(przynajmniej) z takich zmiennych usunąć z modelu. Argumentuje się, że w takim przepadku
obie „niosą tę samą informację” oraz że może to być przyczyną poważnych błędów w
obliczeniach – tak być może, ale wcale tak być nie musi. W wielu typowych sytuacjach tak nie
jest! Pokażemy to w kolejnych przykładach.
UWAGA 2. Często, nieprawidłowo (!) zaleca się „oglądanie” diagramów korelacyjnych bo (jak
się twierdzi) „wysoka korelacja” między zmiennymi objaśniającymi jest szkodliwa, zaś „wysoka
korelacja” pomiędzy zmiennymi wyjaśnianą i objaśnianą jest pożądana. W konsekwencji pojawia
się całkowicie błędne zalecenie, żeby w modelu pozostawić zmienne objaśniające, które ze sobą
nie są skorelowane, zaś są silnie skorelowane ze zmienna wyjaśnianą .
UWAGA 3. O tym czy daną zmienną (lub ich grupę) usunąć przede wszystkim decydują
testy, nigdy analiza korelacji! Przed usunięciem grupy zmiennych z modelu stosujemy test
mnożnika Lagrange’a lub uogólniony test Walda dla tej podgrupy zmiennych. Najlepiej
eliminować zmienne pojedynczo. W bardziej zaawanasowanej analizie stosujemy też pewne
wskaźniki algebraiczne (wywiedlne z teorii), które umożliwiają ocenę stopnia „zagrożenia”
wynikającego ze współliniowości zmiennych objaśniających. Omówimy je w dalszym ciągu
wykładu.
7
Oto kolejny przykład – pokazuje, że znaczna współliniowość zmiennych
objaśniających nie musi prowadzić do usunięcia którejś z nich zmiennej
objaśniającej. Odwrotnie – usunięcie którejkolwiek ze zmiennych byłoby
karygodnym błędem. Widać też, że oglądanie diagramów korelacyjnych nic
nie daje w zakresie modelowania regresyjnego.
Przykład 2.
Y
X1
X2
Dane:
8
Etap II: Estymacja parametrów modelu
Y =β0 + β1 X1 + β2X2 + Z
b = (XTX)-1XTCM =
Wskaźniki jakości modelu:
Oszacowany model:
Y = 611.8 + 4.82 X1 – 9.48 X2
(8.57) (0.066)
(0.13)
Etap III B:
Istotność zmiennych objaśniających w modelu regresyjnym
(poziom istotności α=0.05)
Test Walda dla całego układu zmiennych objaśniających (model z wyrazem wolnym)
- zakładamy normalny rozkład zmiennej losowej Z
F=2699
(!)
9
Etap III B:
Istotność zmiennych objaśniających w modelu regresyjnym
(poziom istotności α=0.05)
Test Studenta dla istotności zmiennej X1
Hipoteza zerowa:
β1=0
Hipoteza alternatywna: β1≠ 0
( zmienna jest „nieistotna”)
( zmienna jest „istotna”)
Statystyka testowa:
Test Studenta dla istotności zmiennej X2
Hipoteza zerowa:
β2=0
Hipoteza alternatywna: β2≠ 0
( zmienna jest „nieistotna”)
( zmienna jest „istotna”)
Statystyka testowa:
Zauważmy, że u nas rX1,X2 = 0.967
!!!
Czy zatem należy usunąć jedną ze zmiennych?
10
Etap I: propozycja nowej postaci modelu
Y =β0 + β1 X1 + Z
Etap II: Estymacja parametrów modelu
b=
Etap III A
Wskaźniki jakości modelu:
!
Etap I: propozycja nowej postaci modelu
Y =β0 + β2 X2 + Z
Etap II: Estymacja parametrów modelu
b=
Etap III A
Wskaźniki jakości modelu:
!
11
Zależność Y od X2
Zależność Y od X1
Zależność X1 od X2
A teraz wyjaśnienie błędności rozumowania opartego na analizie „korelacji”
Wynika owa błędność z niezrozumienia oczywistego dla każdego matematyka
faktu, że wielowymiarowa „zależność liniowa” zmiennej y od zmiennych x1,…,xk,
nijak nie przekłada się na „zależność liniową” y od poszczególnych zmiennych
xi .
Łatwo to geometrycznie zobrazować w 3D
Rozważmy model
Y =2 + 3 X1 −3X2 +Z
Oczywiście Y zależy liniowo od zmiennych objaśniających.
Jak będzie wyglądał wykres danych ?
Jeśli model jest naprawdę dobry (tj. gdy Z ma niewielką wariancję),
to obserwacje ułożą się na płaszczyźnie, mniej więcej tak jak rysunku:
12
A teraz diagram korelacyjny. Co to właściwie jest?
Diagram korelacyjny, np. pomiędzy Y i X1 jest rzutem tej „chmury” czarnych
punktów na płaszczyznę X1 Y . Wygląda to tak:
A taka sytuacja:
Diagram korelacyjny, np. pomiędzy Y i X1 wygląda teraz tak:
A teraz co sugeruje diagram korelacyjny?
13
Co sugeruje diagram korelacyjny?
Widzimy, że diagram korelacyjny wskazuje na całkowity brak „liniowej
zależności liniowej (czy jakiejkolwiek innej) pomiędzy Y i X1, co jak wiemy,
przeczy faktowi.
Należy to zapamiętać: oglądanie obrazków 2D nic nam nie mówi na temat
liniowości zależności w większym wymiarze. Już w 3D można się bardzo
pomylić, a co dopiero w wymiarach, gdzie nawet nasza wyobraźnie nic nie jest
wstanie nam podpowiedzieć!
14
Kolejny przykład – tym razem z beletrystyką
Przykład 3.
Model wielkości popytu na wycieczki statkiem zbudowany dla mieszkańców Tertapolis, wioski na jednej
z wysepek na morzu egejskim. Zmienne objaśniające to
cena wycieczek (od osoby) i liczba turystów znajdujących
się w wiosce
15
Dane:
P
C
L
P
C
L
Macierz korelacji
P
C
L
P
C
L
16
Zależność P od C
Zależność P od L
Związek C z L
P = 205 − 51,3 C + 0.34 LL
(16,5) (1,40)
(0,01)
Dla wyrazu wolnego wartość statystyki t=12,38
Dla zmiennej C wartość statystyki t=-36,7
Dla zmiennej L wartość statystyki t=33,6
Współczynnik determinacji : R2 = 98,6%
Odchylenie standardowe zakłócenia Z: 13,5
17
Wybór modelu ze względu na cele (E.E. Leamer, Speccification Searches,1978)
1. Model interpretacyjny, gdy celem jest wyjaśnienie związku zachodzącego
pomiędzy różnymi zmiennymi
2. Model najprostszy, zwykle gdy celem jest predykcja
Dobór zmiennych
Podejście Hendrego (D. Hendry 1979)
Intended overparametrization with data-based simplification
Najczęstsze sposoby (kryteria) upraszczania;
1. Test Studenta
2. Test Walda dla modelu z restrykcjami
3. Rozmaite kryteria wskaźnikowe
18
Dobór zmiennych
Modelowanie krokowe - procedura komputerowa (Stepwise regression)
(N. Draper, H. Smith, 1981)
Krok 1
Dla wszystkich rozważanych zmiennych objaśniających X1,X2,...,Xk ,
wyliczmy wartości statystyki t w k modelach z jedną zmienną
objaśniającą. Jeśli żadna ze zmiennych nie przekracza zadanego progu ,
kończymy modelowanie. W przeciwnym przypadku wybieramy tę, która
ma największą wartość statystyki t i przechodzimy do kroku 2.
Krok 2
Do modelu otrzymanego w kroku poprzednim dodajemy tę zmienną z
pozostałych, która daje (po dołączeniu) największą wartość statystyki t
Krok 3
Z otrzymanego modelu usuwamy jedną zmienną - tę dla której wartość
statystyki t jest najmniejsza, o ile spadła poniżej zadanego progu.
Krok 4
Powtarzamy kroki 2 i 3 aż zostaną wyczerpane wszystkie możliwości
Modelowanie krokowe - procedura komputerowa (Stepwise regression)
Główne wady modelowania krokowego
Nie ma gwarancji, że otrzymany model jest najlepszy, gdyż nie wszystkie są
rozpatrywane. Np. nie badamy modeli linearyzowalnych, liniowych względem
parametrów, nie badamy interakcji pomiędzy zmiennymi. Nie uwzględnia się
również możliwości wystąpienia nierzetelnych obserwacji ważących i
odstających. Nie badamy nawet 2k możliwych modeli liniowych.
Nie uwzględniane są inne kryteria jakości modelu.
Algorytm nie uwzględnia łącznego efektu kilku zmiennych objaśniających
Nie wykorzystuje wiedzy eksperckiej.
19
Modelowanie krokowe - procedura komputerowa (Stepwise regression)
Warianty algorytmu
1. Selekcja w przód (forward selection). Zaczyna od modelu z jedną
zmienna i następnie dodaje zmienne pojedynczo
2. Selekcja w tył (backward selection). Zaczyna od modelu ze
wszystkimi zmiennymi, a następnie usuwa zmienne pojedynczo
3. Wykorzystywanie testu Walda (F-ratio) do badania łącznego
wpływu grupy zmiennych (byłby to Krok 5 – badanie czy wśród
odrzuconych nie znajduje się zmienna istotna - może się tak zdarzyć!)
Inne ilościowe metody analizy danych w kontekście ich przydatności i
wykorzystania w analizie regresji omówimy na kolejnych wykładach.
W szczególności omówimy problem występowania:
- obserwacji odstających
- obserwacji ważących
- współliniowości – jej detekcji i ewentualnym środkom zaradczym
20