wyjaśnienie dotyczące określania wartości wpływowych i odstających
Transkrypt
wyjaśnienie dotyczące określania wartości wpływowych i odstających
Wartości wpływowe i odstające – interpretacja W regresji prostej obserwacja posiadająca nietypową wartośd Yi dla danej wartości Xi posiada wysoką odmiennośd (discrepancy). Natomiast obserwacja posiadająca typową wartośd Yi (małe wartości reszt ei) i nietypową wartośd Xi posiada wysoką dźwignię (leverage). Często odmienne obserwacje mają duże wartości pozostałości regresji ei ale nie zawsze. Obserwacja posiadająca wysoką dźwignię może mied małą wartośd ei, ponieważ przyciąga linię (płaszczyznę w regresji wielokrotnej) regresji blisko Yi. W konsekwencji, wpływ danej obserwacji na współczynniki regresji jest wyrażany jako funkcja odmienności i dźwigni tej obserwacji. WPŁYW_OBSERWACJI = DŹWIGNIA X ODMIENNOŚD Diagnostyka wpływu obserwacji na wyniki analizy regresji sprowadza się do analizy odmienności i dźwigni tych obserwacji, lub bezpośredniej oceny wpływu obserwacji na współczynniki testowanego modelu regresji. Najczęściej stosowaną miarą dźwigni danej obserwacji i jest tzw. wartośd hi (hat-value) tej obserwacji. W regresji prostej, wartośd hi mierzy dystans danej obserwacji od średniej wartości zmiennej X: Odległość Cooka. Jest to miara stopnia zmiany współczynników regresji, gdyby dany przypadek pominąć w obliczeniach współczynników. O ile odległości Mahalanobisa mierzą odległość przypadku od środka ciężkości wyznaczonego przez zmienne niezależne, a reszty standaryzowane - od linii regresji, o tyle odległości Cooka łączą te dwie odległości i przez to są łączną miarą wpływu poszczególnych obserwacji na linię regresji. Wszystkie wartości dla danej odległości powinny być tego samego rzędu. Jeśli tak nie jest, to prawdopodobnie dany przypadek ma istotnie duży wpływ na obciążenie równania regresji. Potwierdza to nasz przykład. Odległość Cooka dla przypadku 10. wybija się wyraźnie spośród pozostałych wartości. Jeszcze wyraźniej widać to dla usuniętych wartości resztowych. Przypadek 10. ma tę wartość 10-krotnie większą od pozostałych; wniosek jest prosty. Przeglądając wartości podanych statystyk, szukamy tych przypadków, dla których wartości te wyraźnie "wybijają się" spośród pozostałych.