Laboratorium Funkcje w pakiecie R: • lm() • step() • AIC() • nls

Transkrypt

Laboratorium Funkcje w pakiecie R: • lm() • step() • AIC() • nls
MODELOWANIE MATEMATYCZNE 2015
Laboratorium
Funkcje w pakiecie R:
• lm()
• step()
• AIC()
• nls()
• prplot(faraway)
• vif(car)
Zadanie 1
Przykład symulacyjny. Wygeneruj n = 500 obserwacji w następujący sposób:
yi = 2 + 3 sin(xi ) + log(xi ) + i ,
xi ∼ U[1, 10],
i ∼ N (0, σ), σ = 0.5
(biały szum).
Celem jest identyfikacja funkcji 2+3 sin(x)+log(x) na podstawie obserwacji (yi , xi ), i = 1, . . . , n.
• Wykonaj wykres rozproszenia dla par punktów (xi , yi ). Na wykres nanieś krzywą odpowaidającą funkcji 2 + 3 sin(x) + log(x).
• Dopasuj model liniowy opisujący zmienną y, jako atrybuty wykorzystując funkcje bazowe
{1, x, x2 , x3 , x4 , sin(x), cos(x), tan(x), log(x)}.
• Wybierz optymalny zbiór zmiennych wykorzystując kryteria informacyjne z karami: Akaike
i Bayesa (Schwarza). W wybranych modelach oblicz estymatory współczynników. Czy
znajdujemy prawdziwą zależność? W którym przypadku wybieramy model mający więcej
zmiennych?
• Nanieś krzywą odpowiadającą wybranemu modelowi na wykres rozproszenia.
• Powtórz eksperyment dla innych wartości σ = 1, 2, 3.
Zadanie 2 Dane USMAcroG(AER) zawierają informację o kwartalnych wskaźnikach makroekonomicznych w USA, z lat 1950-2001. Użyjemy zmiennych consumption (wydatki), dpi (rozporządzalny dochód osobisty), cpi (consumer price index=indeks wzrostu cen), government
(wydatki rządowe), unemp (stopa bezrobocia).
Cel analizy: modelowanie zmian wydatków w zależności od zmian pozostałych wskaźników.
• Utwórz nowy zbiór danych zawierający zmiany dla poszczególnych zmiennych:
MacroDiff=apply(USMAcroG,2,diff). Dalsza analiza będzie dotyczyć nowego zbioru.
• Wykonaj wykresy rozproszenia dla par rozważanych zmiennych. Które spośród atrybutów mogą mieć wpływ na modelowaną zmienną? Czy w tych danych występuje problem
współliniowości atrybutów?
• Dopasuj model opisujący zależność zmiennej consumption od pozostałych zmiennych.
• Wybierz optymalny zbiór zmiennych stosując kryterium informacyjne z karą Akaike (użyj
funkcji step()). Które zmienne zostały usunięte i w jakiej kolejności? Oblicz różnicę między wartościami funkcji kryterialnej dla modelu pełnego i wybranego?
• Oblicz korelacje pomiędzy zmiennymi oraz współczynniki podbicia wariancji (funkcja vif(car)).
Zadanie 3 Dane w pliku http://www.ipipan.eu/~teisseyrep/TEACHING/MM/DANE/savings.
txt dotyczą sytuacji ekonomicznej mieszkańców 50 krajów. Poszczególne kolumny zawierają
wartości średnie z lat 1960-1970:
Country - nazwa kraju,
Savings - łączne oszczędności przypadające na osobę podzielone przez dochód netto,
dpi - dochód netto przypadający na jednego mieszkańca, ddpi - tempo wzrostu dochodu (w
%),
Pop15 , Pop75 - procent obywateli w wieku, odpowiednio, mniejszym niż 15 lat i powyżej 75
lat.
• Dopasować model liniowy opisujący zależność Savings od dpi , ddpi , Pop15 i Pop75 .
• Sporządzić wykres częściowych rezyduów dla zmiennej Pop15. Jaką dodatkową relację w
danych możemy zauważyć na tym wykresie?
Zadanie 4 (zadanie domowe) Przykład symulacyjny.
• Wygeneruj dane z modelu liniowego
yi = 0.5 + 2x1,i + 1x2,i + 0.5x3,i + 0.3x4,i + εi ,
dla i = 1, . . . , n, x1,i , x2,i , x3,i , x4,i ∼ N (0, 1), εi ∼ N (0, σ), n = 20, σ = 1. Dopasuj
model liniowy dla wygenerowanych danych i oblicz estymatory współczynników. Powtórz
eksperyment L = 50 razy i na tej podstawie oszacuj błąd średniokwadratowy
M SE = E(||β̂ − β||2 ),
gdzie || · || jest normą euklidesową.
• Powtórz eksperyment dla n = 20, 30, 40, . . . , 300 i narysuj wykres pokazujący zależność
M SE od n.
• Narysuj podobne wykresy (na jednym rysunku) dla σ = 0.5, 2, 3.