Zajmiemy się zbiorem: http://archive.ics.uci.edu/ml/datasets/Pima+

Transkrypt

Zajmiemy się zbiorem:
http://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes
Zbiór ten zawiera dane statystyczne dotyczące kobiet pod kątem klasyfikacji czy chorują na cukrzycę czy też nie. Jest to
zbiór zawierający 768 elementów.
Plik odpowiednio przygotowany możesz ściągnąć spod adresu:
http://zsi.tech.us.edu.pl/~nowak/smad/pima.data
Rozejrzyj się w danych:
Znajdź cechy o nietypowych wartościach…
Wartość atrybutu klasa “ 0” oznacza osobę zdrową (jest ich 500) zaś wartość “1” oznacza osobę chorą na
cukrzycę (jest ich 268). Atrybuty takiego rodzaju powinniśmy kodować z wartości binarnych na inne wartości
np. True/False albo Positive/Negative.
Przed kodowaniem – atrybut ten traktowany jako cecha ilościowa podaje niepoprawne opisy danych, gdyż
wylicza wartość średniej…która tak naprawdę jest niemożliwa, i w ogóle nieprzydatna.
Kodowanie danej ilościowej na jakościową będzie możliwe dzięki funkcji factor.
Gdybyśmy teraz chcieli podejrzeć dane (po kodowaniu):
Teraz już dane wyglądają poprawnie.
Sprawdź jakie wykresy zostaną wygenerowane.
Analiza regresji:
Zainteresuj się zmiennymi „grubość skóry” i „BMI”.
Zbadaj czy da się dla nich zastosować zadanie regresji, a konkretnie, czy da się na podstawie
wartości BMI wnioskować na temat wartości atrybutu grubość_skóry ?

Zajmiemy się zbiorem: http://archive.ics.uci.edu/ml/datasets/Pima+

Transkrypt

Podobne dokumenty

Sprawdź swoje BMI Możesz obliczyć swoje na stronie www.izz.waw

Stanowisko ZG PTD ws. listy refundacyjnej z dn. 1

arkusz doborowy PC 2014 PDF

Romb 90x30x3

Zobacz cukrzycę: Działajmy już dziś, by zmienić jutro. 14 listopada

Wskazania do operacji

(Testowanie poprawnoœci wyboru postaci analitycznej)

Regresja liniowa

wyjaśnienie dotyczące określania wartości wpływowych i odstających

1. Poniższe dane dotyczą liczby odwiedzających punkt sprzedaży

SD Stary SYLABUS Statystyka i analiza regresji MaĹ‚gorzata

Zajęcia nr 1

zajecia semestr letni 11 do 12

Lista nr 12

Przykladowy test

Statystyka i symulacje z wykorzystaniem R

MODUŁ 2. Zaawansowane metody analizy statystycznej w tym

model regresji logistycznej - E-SGH

popularyzatorski opis rezultatów projektu

Minimalizacja Czynników Ryzyka Choroby Niedokrwiennej Serca –

Metody statystyczne stosowane w badaniach klinicznych

Symbole mapy numerycznej jako bloki rysunkowe