Analiza i dobór modelu

Transkrypt

Analiza i dobór modelu
Analiza i dobór modelu
Wielokrotnie przy wyborze odpowiedniego modelu (równania matematycznego), który miałby
opisać nasze dane nie znamy podstaw fizycznych, chemicznych, które mogłyby sugerować
szukaną postać funkcyjną. W takim wypadku rozsądnym podejściem jest zastosowanie
wielomianu. Wynika to z faktu, że każdą funkcję (ciągła, różniczkowalna) można przedstawić
przy pomocy wielomianu. Wynika to z twierdzenia Taylora. Powstaje jednak pytanie, jaki
stopień powinien mieć szukany wielomian. Kryterium SSE czy R2 jest niestety nieadekwatne
ponieważ, stosując wielomian o stopniu (liczba punktów) – 2 otrzymamy „idealne”
dopasowanie tzn. SSE = 0, a R2 = 1. W ćwiczeniu nauczysz się podstawowych metod oceny
jakości dopasowania modelu przy pomocy analizy przedziałów ufności.
Przedziały ufności parametrów modelu.
a. Poleceniem load census wczytaj dane przykładowe dotyczące liczbę ludności w
USA w latach 1790 do 1990,
b. Znajdź w dokumentacji informacje dotyczące funkcji fit
c. Przedstaw dane na wykresie,
d. Dopasuj wielomian stopnia piątego do danych przykładowych (ludnosc =
fit(cdate,pop,’poly5’)),
e. Jakie są wartości skrajne przedziałów ufności (dokładności) danych
parametrów? Czy dopasowanie jest dokładne?
f. Duża niepewność dopasowania wynika z różnicy rzędów wielkości pomiędzy
zmienną zależną a niezależną. Powtórz obliczenia ale tym razem znormalizuj
dane tzn. przekształć je przy pomocy transformacji:
𝑥𝑛𝑒𝑤 =
𝑥 − 𝑥̅
𝜎
g. Czy nowe przedziały ufności parametrów się zmniejszyły? Czy dopasowanie
jest lepsze czy gorsze? Dlaczego?
h. Istnieje przekonanie (błędne), że dopasowanie jest tym lepsze im większy
stopień wielomianu. Zauważ, że trzy pierwsze współczynniki wielomianu są
bliskie zeru natomiast ich przedziały ufności zawierają zero. Sugeruje to
przeszacowanie modelu tzn. użyliśmy zbyt dużego stopnia do poziomu
zmienności danych. Posługując się tą wiedzą jaki stopień wielomianu
sugerujesz za właściwy?
i. Dopasuj nowy wielomian do swoich danych i oblicz jaka jest przewidywana
wielkości populacji USA w roku 2016. Jak model odzwierciedla
rzeczywistość? Porównaj przewidywania z wielomianem 5 tego stopnia.
Przedziały ufności modelu.
a. Wczytaj przykładowe dane posługując się następującym ciągiem instrukcji:
b.
c.
d.
e.
f.
x = [1:0.1:3 9:0.1:10]';
c = [2.5 -0.5 1.3 -0.1];
y = c(1) + c(2)*x + c(3)*x.^2 + c(4)*x.^3 + (rand(size(x))-0.5);
Wykreśl dane posługując się poleceniem scatter. Co zauważasz?
Powyższy przykład ilustruje często spotykany problem w biotechnologii i
innych dziedzinach nauki i techniki tzn. posiadanie jedynie skrajnych danych.
Użyj pakietu cftool i dopasuj wielomian 5 tego i 3 ego stopnia. Porównaj
rozkład residuów obu modelu posługując się znanymi sobie metodami.
Bardzo często analiza residuów nie daje spodziewanych rezultatów i poziom
dopasowania danych wydaje się taki sam. Poleceniem Tools  Prediciton
Bounds znajdź przedziały ufności obu modeli. Co zauważasz? Czy na
podstawie analizy przedziału ufności jesteś w stanie stwierdzić, który model
jest bardziej wiarygodny?
Podsumuj obie metody i wybierz najlepszy Twoim zdaniem stopień modelu.

Podobne dokumenty