Laboratorium Funkcje w pakiecie R: • glm() • lda() Zadanie 1 Wczytaj

Transkrypt

Laboratorium Funkcje w pakiecie R: • glm() • lda() Zadanie 1 Wczytaj
MODELOWANIE MATEMATYCZNE 2015
Laboratorium
Funkcje w pakiecie R:
• glm()
• lda()
Zadanie 1 Wczytaj dane z pliku http://www.ipipan.eu/~teisseyrep/TEACHING/MM/DANE/
SAheart.data dotyczące pacjentów którzy przeszli zawał serca.
W pliku http://www.ipipan.eu/~teisseyrep/TEACHING/MM/DANE/SAheart.info znajduje się
opis poszczególnych zmiennych.
• Podziel dane (losowo) na dwa zbiory: zbiór treningowy (na tym zbiorze będziemy budować
model) oraz testowy (na tym zbiorze będziemy dokonywać predykcji).
• Dopasuj model logistyczny na zbiorze treningowym.
• Dokonaj predykcji dla obserwacji ze zbioru testowego (korzystając ze wzoru na prawdopodobieństwo aposteriori oraz z funkcji predict).
• Wykonaj tabelę klasyfikacji. Jaki procent pacjentów jest dobrze klasyfikowany. Jaki procent chorych pacjentów model rozpoznaje poprawnie?
• Dokonaj selekcji zmiennych używając funkcji step. Dla mniejszego modelu wykonaj tabelę
klasyfikacji. Porównaj wyniki z tymi otrzymanymi dla dużego modelu.
• Dopasuj model logistyczny dla dwóch zmiennych: alcohol i sbp. Dla tego modelu wykonaj
tabelę klasyfikacji. Porównaj wyniki z tymi otrzymanymi dla poprzednich modeli.
Zadanie 2 Wczytaj dane z pliku http://www.ipipan.eu/~teisseyrep/TEACHING/MM/DANE/
SAheart.data dotyczące pacjentów którzy przeszli zawał serca.
W pliku http://www.ipipan.eu/~teisseyrep/TEACHING/MM/DANE/SAheart.info znajduje się
opis poszczególnych zmiennych.
• Podziel dane (losowo) na dwa zbiory: zbiór treningowy (na tym zbiorze będziemy budować
model) oraz testowy (na tym zbiorze będziemy dokonywać predykcji). Zastosuj ten sam
podział co w zadaniu 1.
• Dopasuj model na zbiorze treningowym używając metody lda.
• Dokonaj predykcji dla obserwacji ze zbioru testowego (korzystając z funkcji predict).
• Wykonaj tabelę klasyfikacji. Jaki procent pacjentów jest dobrze klasyfikowany. Jaki procent chorych pacjentów model rozpoznaje poprawnie?
• Porównaj wyniki z tymi otrzymanymi dla modelu logistycznego.