wyjaśnienie dotyczące określania wartości wpływowych i odstających

Transkrypt

wyjaśnienie dotyczące określania wartości wpływowych i odstających
Wartości wpływowe i odstające – interpretacja
W regresji prostej obserwacja posiadająca nietypową wartośd Yi dla danej wartości Xi posiada wysoką
odmiennośd (discrepancy). Natomiast obserwacja posiadająca typową wartośd Yi (małe wartości reszt
ei) i nietypową wartośd Xi posiada wysoką dźwignię (leverage).
Często odmienne obserwacje mają duże wartości pozostałości regresji ei ale nie zawsze.
Obserwacja posiadająca wysoką dźwignię może mied małą wartośd ei, ponieważ przyciąga linię
(płaszczyznę w regresji wielokrotnej) regresji
blisko Yi. W konsekwencji, wpływ danej obserwacji
na współczynniki regresji jest wyrażany jako funkcja odmienności i dźwigni tej obserwacji.
WPŁYW_OBSERWACJI = DŹWIGNIA X ODMIENNOŚD
Diagnostyka wpływu obserwacji na wyniki analizy regresji sprowadza się do analizy odmienności i
dźwigni tych obserwacji, lub bezpośredniej oceny wpływu obserwacji na współczynniki testowanego
modelu regresji.
Najczęściej stosowaną miarą dźwigni danej obserwacji i jest tzw. wartośd hi (hat-value) tej
obserwacji. W regresji prostej, wartośd hi mierzy dystans danej obserwacji od średniej wartości
zmiennej X:
Odległość Cooka. Jest to miara stopnia zmiany współczynników regresji, gdyby dany
przypadek pominąć w obliczeniach współczynników. O ile odległości Mahalanobisa mierzą
odległość przypadku od środka ciężkości wyznaczonego przez zmienne niezależne, a reszty
standaryzowane - od linii regresji, o tyle odległości Cooka łączą te dwie odległości i przez to
są łączną miarą wpływu poszczególnych obserwacji na linię regresji.
Wszystkie wartości dla danej odległości powinny być tego samego rzędu. Jeśli tak nie jest, to
prawdopodobnie dany przypadek ma istotnie duży wpływ na obciążenie równania regresji.
Potwierdza to nasz przykład. Odległość Cooka dla przypadku 10. wybija się wyraźnie spośród
pozostałych wartości. Jeszcze wyraźniej widać to dla usuniętych wartości resztowych.
Przypadek 10. ma tę wartość 10-krotnie większą od pozostałych; wniosek jest prosty.
Przeglądając wartości podanych statystyk, szukamy tych przypadków, dla których wartości te
wyraźnie "wybijają się" spośród pozostałych.