Laboratorium Funkcje w pakiecie R: • lm() • step() • AIC() • nls
Transkrypt
Laboratorium Funkcje w pakiecie R: • lm() • step() • AIC() • nls
MODELOWANIE MATEMATYCZNE 2015 Laboratorium Funkcje w pakiecie R: • lm() • step() • AIC() • nls() • prplot(faraway) • vif(car) Zadanie 1 Przykład symulacyjny. Wygeneruj n = 500 obserwacji w następujący sposób: yi = 2 + 3 sin(xi ) + log(xi ) + i , xi ∼ U[1, 10], i ∼ N (0, σ), σ = 0.5 (biały szum). Celem jest identyfikacja funkcji 2+3 sin(x)+log(x) na podstawie obserwacji (yi , xi ), i = 1, . . . , n. • Wykonaj wykres rozproszenia dla par punktów (xi , yi ). Na wykres nanieś krzywą odpowaidającą funkcji 2 + 3 sin(x) + log(x). • Dopasuj model liniowy opisujący zmienną y, jako atrybuty wykorzystując funkcje bazowe {1, x, x2 , x3 , x4 , sin(x), cos(x), tan(x), log(x)}. • Wybierz optymalny zbiór zmiennych wykorzystując kryteria informacyjne z karami: Akaike i Bayesa (Schwarza). W wybranych modelach oblicz estymatory współczynników. Czy znajdujemy prawdziwą zależność? W którym przypadku wybieramy model mający więcej zmiennych? • Nanieś krzywą odpowiadającą wybranemu modelowi na wykres rozproszenia. • Powtórz eksperyment dla innych wartości σ = 1, 2, 3. Zadanie 2 Dane USMAcroG(AER) zawierają informację o kwartalnych wskaźnikach makroekonomicznych w USA, z lat 1950-2001. Użyjemy zmiennych consumption (wydatki), dpi (rozporządzalny dochód osobisty), cpi (consumer price index=indeks wzrostu cen), government (wydatki rządowe), unemp (stopa bezrobocia). Cel analizy: modelowanie zmian wydatków w zależności od zmian pozostałych wskaźników. • Utwórz nowy zbiór danych zawierający zmiany dla poszczególnych zmiennych: MacroDiff=apply(USMAcroG,2,diff). Dalsza analiza będzie dotyczyć nowego zbioru. • Wykonaj wykresy rozproszenia dla par rozważanych zmiennych. Które spośród atrybutów mogą mieć wpływ na modelowaną zmienną? Czy w tych danych występuje problem współliniowości atrybutów? • Dopasuj model opisujący zależność zmiennej consumption od pozostałych zmiennych. • Wybierz optymalny zbiór zmiennych stosując kryterium informacyjne z karą Akaike (użyj funkcji step()). Które zmienne zostały usunięte i w jakiej kolejności? Oblicz różnicę między wartościami funkcji kryterialnej dla modelu pełnego i wybranego? • Oblicz korelacje pomiędzy zmiennymi oraz współczynniki podbicia wariancji (funkcja vif(car)). Zadanie 3 Dane w pliku http://www.ipipan.eu/~teisseyrep/TEACHING/MM/DANE/savings. txt dotyczą sytuacji ekonomicznej mieszkańców 50 krajów. Poszczególne kolumny zawierają wartości średnie z lat 1960-1970: Country - nazwa kraju, Savings - łączne oszczędności przypadające na osobę podzielone przez dochód netto, dpi - dochód netto przypadający na jednego mieszkańca, ddpi - tempo wzrostu dochodu (w %), Pop15 , Pop75 - procent obywateli w wieku, odpowiednio, mniejszym niż 15 lat i powyżej 75 lat. • Dopasować model liniowy opisujący zależność Savings od dpi , ddpi , Pop15 i Pop75 . • Sporządzić wykres częściowych rezyduów dla zmiennej Pop15. Jaką dodatkową relację w danych możemy zauważyć na tym wykresie? Zadanie 4 (zadanie domowe) Przykład symulacyjny. • Wygeneruj dane z modelu liniowego yi = 0.5 + 2x1,i + 1x2,i + 0.5x3,i + 0.3x4,i + εi , dla i = 1, . . . , n, x1,i , x2,i , x3,i , x4,i ∼ N (0, 1), εi ∼ N (0, σ), n = 20, σ = 1. Dopasuj model liniowy dla wygenerowanych danych i oblicz estymatory współczynników. Powtórz eksperyment L = 50 razy i na tej podstawie oszacuj błąd średniokwadratowy M SE = E(||β̂ − β||2 ), gdzie || · || jest normą euklidesową. • Powtórz eksperyment dla n = 20, 30, 40, . . . , 300 i narysuj wykres pokazujący zależność M SE od n. • Narysuj podobne wykresy (na jednym rysunku) dla σ = 0.5, 2, 3.