Laboratorium 6 - Selekcja zmiennych, ogólna hipoteza liniowa 6.1
Transkrypt
Laboratorium 6 - Selekcja zmiennych, ogólna hipoteza liniowa 6.1
SAR 2016/2017 Laboratorium 6 - Selekcja zmiennych, ogólna hipoteza liniowa 6.1 Dane w pliku uscrime.txt zawierają informacje dotyczące 47 stanów USA: R - wskaźnik przestępczości, S - =1 (stany południowe), = 0 (pozostałe stany), Age - liczba mężczyzn w wieku 14-24 przypadających na 1000 mieszkańców, Ex0, Ex1 - wydatki na policję w latach, odpowiednio, 1960 i 1959, LF - wskaźnik udziału pracowników w wieku 14-24 lat, W - wskaźnik dobrobytu, M - liczba mężczyzn przypadających na 1000 kobiet, N - liczba mieszkańców stanu (w setkach tys.), NW - liczba osób rasy niebiałej przypadających na 1000 mieszkańców, U1, U2 - wskaźnik bezrobocia dla mężczyzn w wieku, odpowiednio, 14-24 lat i 35-39 lat, X - wskaźnik nierówności dochodu (liczba rodzin na 1000, których dochód jest mniejszy niż połowa mediany dochodu wszystkich rodzin). (a) Dopasować model opisujący zależność współczynnika przestępczości od pozostałych zmiennych. Sporządzić wykresy rozproszenia i obliczyć współczynniki korelacji dla wszystkich par zmiennych objaśniających. Znaleźć parę zmiennych najsilniej skorelowanych i usunąć jedną z tych zmiennych z modelu. (b) Wybrać ”najlepszy” podzbiór zmiennych objaśniających stosując: · metodę pełnego przeszukiwania przestrzeni modeli (napisz własną funkcję w R), · kryteria: AIC, BIC, modyfikowany R2 . (c) Wybrać ”najlepszy” podzbiór zmiennych objaśniających stosując: · metody: eliminacji (selekcja wstecz), dołączania (selekcja wprzód), selekcję krokową, · kryteria: AIC, BIC, modyfikowany R2 . (d) Wybrać ”najlepszy” podzbiór zmiennych objaśniających stosując metodę opartą na wstępnym uporządkowaniu zmiennych według t-statystyk. Metoda działa w następujący sposób. Dopasowujemy model pełny i obliczamy t-statystyki dla wszystkich zmiennych. Następnie porządkujemy zmienne według tstatystyk (od najbardziej istotnej do najmniej istotnej). Z zagnieżdżonej rodziny modeli (danej przez uporządkowanie) wybieramy ten dla którego wartość kryterium BIC/AIC jest minimalna. 6.2 Wykonaj następujący eksperyment. Celem eksperymentu jest porównanie jak zmienia się prawdopodobieństwo poprawnej selekcji w zależność od wielkości próby dla kryteriów BIC i AIC. • Wygeneruj dane (X, Y ) zakładając że wiersze macierzy X są generowane z p = 9- wymiarowego rozkładu normalnego (zakładamy że zmienne są niezależne) według równania liniowego: Y = Xβ + , gdzie β = (1, 1, 1, 0, 0, 0, 0, 0, 0)0 i jest wektorem błędów z rozkładu standardowego normalnego. Uwaga: nie ma wyrazu wolnego! • Użyj funkcji step() z argumentem direction=”backward” aby wybrać prawdziwy model, t.j. model składający się z pierwszych trzech zmiennych. • Powtórz powyższą procedurę L = 50 razy aby wyestymować prawdopodobieństwo poprawnej selekcji • Powtórz eksperyment dla n = 25, 50, 75, 100, 125, 150, 175, 200 dla AIC i BIC. Zaprezentuj otrzymane wyniki na wykresie pokazującym zależność prawdopodobieństwa poprawnej selekcji od wielkości próby n. Podpowiedź: przydatna funkcja w R: setequal(). Uwaga: obliczenia mogą zająć parę minut. 6.3 • Zapoznaj się z działaniem funkcji linearHypothesis {car}. Przeanalizuj przykłady znajdujące się w pomocy dla tej funkcji dotyczące zbiorów danych Davis oraz Duncan. • Wczytaj dane znajdujące się w pliku ExerciseCholesterol.txt. Dane dotyczą eksperymentu przeprowadzonego na grupie 26 osób którego celem było ustalenie jaki jest związek pomiędzy aktywnością fizyczną, wagą a zawartością cholesterolu HDL (lipoproteina wysokiej gęstości). Osoby znajdujące się w grupie 1 nie uczestniczyły w ćwiczeniach fizycznych. Osoby w grupie 2 zostały objęte programem dość intensywnych ćwiczeń, natomiast osoby w grupie 3 zostały objęte programem bardzo intensywych ćwiczeń. Dla każdej grupy dopasowano model jednokrotnej regresji liniowej opisujący zależność zawartości cholesterolu (zmianna yi ) od wagi ciała xi : yi = β0 + β1 xi + i , i = 1, . . . , 8, yi = γ0 + γ1 xi + i , i = 9, . . . , 16, yi = δ0 + δ1 xi + i , i = 17, . . . , 26, Badaczy interesowało czy w trzech badanych grupach współczynnik nachylenia prostej był taki sam, t.j. hipoteza H0 : β1 = γ1 = δ1 . Zaproponuj i przeprowadź odpowiedni test dla tak postawionej hipotezy użyając funkcji linearHypothesis {car}.