Laboratorium 6 - Selekcja zmiennych, ogólna hipoteza liniowa 6.1

Transkrypt

Laboratorium 6 - Selekcja zmiennych, ogólna hipoteza liniowa 6.1
SAR 2016/2017
Laboratorium 6 - Selekcja zmiennych, ogólna hipoteza liniowa
6.1 Dane w pliku uscrime.txt zawierają informacje dotyczące 47 stanów USA:
R - wskaźnik przestępczości,
S - =1 (stany południowe), = 0 (pozostałe stany),
Age - liczba mężczyzn w wieku 14-24 przypadających na 1000 mieszkańców,
Ex0, Ex1 - wydatki na policję w latach, odpowiednio, 1960 i 1959,
LF - wskaźnik udziału pracowników w wieku 14-24 lat,
W - wskaźnik dobrobytu,
M - liczba mężczyzn przypadających na 1000 kobiet, N - liczba mieszkańców stanu (w setkach tys.),
NW - liczba osób rasy niebiałej przypadających na 1000 mieszkańców,
U1, U2 - wskaźnik bezrobocia dla mężczyzn w wieku, odpowiednio, 14-24 lat i 35-39 lat,
X - wskaźnik nierówności dochodu (liczba rodzin na 1000, których dochód jest mniejszy niż połowa
mediany dochodu wszystkich rodzin).
(a) Dopasować model opisujący zależność współczynnika przestępczości od pozostałych zmiennych. Sporządzić wykresy rozproszenia i obliczyć współczynniki korelacji dla wszystkich par zmiennych objaśniających. Znaleźć parę zmiennych najsilniej skorelowanych i usunąć jedną z tych zmiennych z modelu.
(b) Wybrać ”najlepszy” podzbiór zmiennych objaśniających stosując:
· metodę pełnego przeszukiwania przestrzeni modeli (napisz własną funkcję w R),
· kryteria: AIC, BIC, modyfikowany R2 .
(c) Wybrać ”najlepszy” podzbiór zmiennych objaśniających stosując:
· metody: eliminacji (selekcja wstecz), dołączania (selekcja wprzód), selekcję krokową,
· kryteria: AIC, BIC, modyfikowany R2 .
(d) Wybrać ”najlepszy” podzbiór zmiennych objaśniających stosując metodę opartą na wstępnym uporządkowaniu zmiennych według t-statystyk. Metoda działa w następujący sposób. Dopasowujemy model
pełny i obliczamy t-statystyki dla wszystkich zmiennych. Następnie porządkujemy zmienne według tstatystyk (od najbardziej istotnej do najmniej istotnej). Z zagnieżdżonej rodziny modeli (danej przez
uporządkowanie) wybieramy ten dla którego wartość kryterium BIC/AIC jest minimalna.
6.2
Wykonaj następujący eksperyment. Celem eksperymentu jest porównanie jak zmienia się prawdopodobieństwo poprawnej selekcji w zależność od wielkości próby dla kryteriów BIC i AIC.
• Wygeneruj dane (X, Y ) zakładając że wiersze macierzy X są generowane z p = 9- wymiarowego
rozkładu normalnego (zakładamy że zmienne są niezależne) według równania liniowego:
Y = Xβ + ,
gdzie β = (1, 1, 1, 0, 0, 0, 0, 0, 0)0 i jest wektorem błędów z rozkładu standardowego normalnego.
Uwaga: nie ma wyrazu wolnego!
• Użyj funkcji step() z argumentem direction=”backward” aby wybrać prawdziwy model, t.j.
model składający się z pierwszych trzech zmiennych.
• Powtórz powyższą procedurę L = 50 razy aby wyestymować prawdopodobieństwo poprawnej selekcji
• Powtórz eksperyment dla n = 25, 50, 75, 100, 125, 150, 175, 200 dla AIC i BIC. Zaprezentuj otrzymane wyniki na wykresie pokazującym zależność prawdopodobieństwa poprawnej selekcji od wielkości próby n.
Podpowiedź: przydatna funkcja w R: setequal().
Uwaga: obliczenia mogą zająć parę minut.
6.3
• Zapoznaj się z działaniem funkcji linearHypothesis {car}. Przeanalizuj przykłady znajdujące
się w pomocy dla tej funkcji dotyczące zbiorów danych Davis oraz Duncan.
• Wczytaj dane znajdujące się w pliku ExerciseCholesterol.txt. Dane dotyczą eksperymentu
przeprowadzonego na grupie 26 osób którego celem było ustalenie jaki jest związek pomiędzy aktywnością fizyczną, wagą a zawartością cholesterolu HDL (lipoproteina wysokiej gęstości). Osoby
znajdujące się w grupie 1 nie uczestniczyły w ćwiczeniach fizycznych. Osoby w grupie 2 zostały objęte programem dość intensywnych ćwiczeń, natomiast osoby w grupie 3 zostały objęte programem
bardzo intensywych ćwiczeń. Dla każdej grupy dopasowano model jednokrotnej regresji liniowej
opisujący zależność zawartości cholesterolu (zmianna yi ) od wagi ciała xi :
yi = β0 + β1 xi + i , i = 1, . . . , 8,
yi = γ0 + γ1 xi + i , i = 9, . . . , 16,
yi = δ0 + δ1 xi + i , i = 17, . . . , 26,
Badaczy interesowało czy w trzech badanych grupach współczynnik nachylenia prostej był taki sam,
t.j. hipoteza H0 : β1 = γ1 = δ1 .
Zaproponuj i przeprowadź odpowiedni test dla tak postawionej hipotezy użyając funkcji linearHypothesis
{car}.

Podobne dokumenty