Regresja liniowa
Transkrypt
Regresja liniowa
UNIWERSYTET IM. ADAMA MICKIEWICZA W POZNANIU Ważne pojęcia Wydział Nauk Społecznych Instytut Psychologii ❖ średnia ❖ wariancja ❖ zmienna zależna/ niezależna ❖ predyktor ❖ korelacja ❖ wielkość efektu 2015 © dr Paweł Kleka Wielozmiennowe Techniki Analizy Danych - wykład 1. Analiza regresji Po co WTAD? ❖ testowanie łącznego i jednoczesnego wpływu grupy zmiennych niezależnych ❖ w przeciwieństwie do badania pojedynczych efektów Rodzaje analiz ❖ konfirmacyjna - wyniki potwierdzają teorię ❖ eksploracyjna - budowanie teorii z wyników Elementy analizy regresji Założenia regresji ❖ sprawdzamy założenia ❖ wartości odstające, wpływające i dźwignie ❖ zmienna zależna i niezależna są ilościowe* ❖ istotność modelu ❖ normalność rozkładu zmiennej zależnej ❖ istotność współczynników ❖ relacja „niezależna - zależna“ jest liniowa ❖ interpretacja wyniku -> wzór regresji ❖ obserwacje są niezależne ❖ analiza reszt Normalność - reguły na oko ❖ przypadki > 3 SD ❖ skośność > 3 ❖ kurtoza >10 ❖ wartości odstające Wartości odstające Wartości wpływające Dźwignie R2 = 0,764 0,667 Wykres regresji Predykcja średnią i medianą R, R2 i skorygowane R2 df = N - ile predyktorów - 1 Suma kwadratów odchyleń od średniej Suma kwadratów różnic między wartością przewidywaną a rzeczywistą kowariancja wspólna zmienność zmienność „karana“ za liczbę predyktorów i obserwacji Wykres regresji Kalorie = -8,8 + 10,9 * alkohol R2 = 0,836 W SPSSie: Ograniczenie do zakresu ❖ standaryzowane reszty <3 ❖ standaryzowane Dfbeta < 2/sqrt(N) ❖ odległość Cook’a <duża ;-) Metody wprowadzania predyktorów Metody ❖ wprowadzania - wszystkie zmienne jednocześnie ❖ krokowa - w każdej iteracji dodawana jest najlepsza wg F i/lub usuwana jest najgorsza zmienna Xi ❖ usuwania - usuwające zmienne wg bloku ❖ eliminacji wstecznej - usuwanie wg kryterium najmniejszej korelacji cząstkowej ❖ selekcji postępującej - dodawane wg kryterium największej korelacji cząstkowej Interpretacja cena = 3904,29 + 25,04 × pojemność - 0,11 × przebieg - 1401,49 × lata Przykład Wykres rozrzutu Korelacje proste, n-3 Dopasowanie krzywej: lata~cena Efekt transformacji Test współliniowości Analiza reszt VIF < 2, ok Pierwiastkowa ❖ ❖ jeśli istnieje heteroskedastyczność to parametry modelu regresji są błędne ratunkiem są transformacje Y ❖ Y = sqrt(Y) ❖ najsłabsza transformacja ❖ skuteczna, gdy wariancja reszt jest proporcjonalna do średniej warunkowej Y ze względu na wartości zmiennych objaśniających Logarytmiczna ❖ Y= log Y ❖ średnia transformacja ❖ pożyteczna, gdy wariancja reszt jest w przybliżeniu proporcjonalna do kwadratu warunkowej średniej z Y Kodowanie zmiennych jakościowych ❖ dummy variables - zmienne instrumentalne ❖ n = k -1 Odwrotnościowa ❖ Y = 1/Y ❖ bardzo silna ❖ pożyteczna, gdy wariancja reszt jest w przybliżeniu proporcjonalna do czwartej potęgi warunkowej średniej zY