Analiza i dobór modelu
Transkrypt
Analiza i dobór modelu
Analiza i dobór modelu Wielokrotnie przy wyborze odpowiedniego modelu (równania matematycznego), który miałby opisać nasze dane nie znamy podstaw fizycznych, chemicznych, które mogłyby sugerować szukaną postać funkcyjną. W takim wypadku rozsądnym podejściem jest zastosowanie wielomianu. Wynika to z faktu, że każdą funkcję (ciągła, różniczkowalna) można przedstawić przy pomocy wielomianu. Wynika to z twierdzenia Taylora. Powstaje jednak pytanie, jaki stopień powinien mieć szukany wielomian. Kryterium SSE czy R2 jest niestety nieadekwatne ponieważ, stosując wielomian o stopniu (liczba punktów) – 2 otrzymamy „idealne” dopasowanie tzn. SSE = 0, a R2 = 1. W ćwiczeniu nauczysz się podstawowych metod oceny jakości dopasowania modelu przy pomocy analizy przedziałów ufności. Przedziały ufności parametrów modelu. a. Poleceniem load census wczytaj dane przykładowe dotyczące liczbę ludności w USA w latach 1790 do 1990, b. Znajdź w dokumentacji informacje dotyczące funkcji fit c. Przedstaw dane na wykresie, d. Dopasuj wielomian stopnia piątego do danych przykładowych (ludnosc = fit(cdate,pop,’poly5’)), e. Jakie są wartości skrajne przedziałów ufności (dokładności) danych parametrów? Czy dopasowanie jest dokładne? f. Duża niepewność dopasowania wynika z różnicy rzędów wielkości pomiędzy zmienną zależną a niezależną. Powtórz obliczenia ale tym razem znormalizuj dane tzn. przekształć je przy pomocy transformacji: 𝑥𝑛𝑒𝑤 = 𝑥 − 𝑥̅ 𝜎 g. Czy nowe przedziały ufności parametrów się zmniejszyły? Czy dopasowanie jest lepsze czy gorsze? Dlaczego? h. Istnieje przekonanie (błędne), że dopasowanie jest tym lepsze im większy stopień wielomianu. Zauważ, że trzy pierwsze współczynniki wielomianu są bliskie zeru natomiast ich przedziały ufności zawierają zero. Sugeruje to przeszacowanie modelu tzn. użyliśmy zbyt dużego stopnia do poziomu zmienności danych. Posługując się tą wiedzą jaki stopień wielomianu sugerujesz za właściwy? i. Dopasuj nowy wielomian do swoich danych i oblicz jaka jest przewidywana wielkości populacji USA w roku 2016. Jak model odzwierciedla rzeczywistość? Porównaj przewidywania z wielomianem 5 tego stopnia. Przedziały ufności modelu. a. Wczytaj przykładowe dane posługując się następującym ciągiem instrukcji: b. c. d. e. f. x = [1:0.1:3 9:0.1:10]'; c = [2.5 -0.5 1.3 -0.1]; y = c(1) + c(2)*x + c(3)*x.^2 + c(4)*x.^3 + (rand(size(x))-0.5); Wykreśl dane posługując się poleceniem scatter. Co zauważasz? Powyższy przykład ilustruje często spotykany problem w biotechnologii i innych dziedzinach nauki i techniki tzn. posiadanie jedynie skrajnych danych. Użyj pakietu cftool i dopasuj wielomian 5 tego i 3 ego stopnia. Porównaj rozkład residuów obu modelu posługując się znanymi sobie metodami. Bardzo często analiza residuów nie daje spodziewanych rezultatów i poziom dopasowania danych wydaje się taki sam. Poleceniem Tools Prediciton Bounds znajdź przedziały ufności obu modeli. Co zauważasz? Czy na podstawie analizy przedziału ufności jesteś w stanie stwierdzić, który model jest bardziej wiarygodny? Podsumuj obie metody i wybierz najlepszy Twoim zdaniem stopień modelu.