Zajmiemy się zbiorem: http://archive.ics.uci.edu/ml/datasets/Pima+

Transkrypt

Zajmiemy się zbiorem: http://archive.ics.uci.edu/ml/datasets/Pima+
Zajmiemy się zbiorem:
http://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes
Zbiór ten zawiera dane statystyczne dotyczące kobiet pod kątem klasyfikacji czy chorują na cukrzycę czy też nie. Jest to
zbiór zawierający 768 elementów.
Plik odpowiednio przygotowany możesz ściągnąć spod adresu:
http://zsi.tech.us.edu.pl/~nowak/smad/pima.data
Rozejrzyj się w danych:
Znajdź cechy o nietypowych wartościach…
Wartość atrybutu klasa “ 0” oznacza osobę zdrową (jest ich 500) zaś wartość “1” oznacza osobę chorą na
cukrzycę (jest ich 268). Atrybuty takiego rodzaju powinniśmy kodować z wartości binarnych na inne wartości
np. True/False albo Positive/Negative.
Przed kodowaniem – atrybut ten traktowany jako cecha ilościowa podaje niepoprawne opisy danych, gdyż
wylicza wartość średniej…która tak naprawdę jest niemożliwa, i w ogóle nieprzydatna.
Kodowanie danej ilościowej na jakościową będzie możliwe dzięki funkcji factor.
Gdybyśmy teraz chcieli podejrzeć dane (po kodowaniu):
Teraz już dane wyglądają poprawnie.
Sprawdź jakie wykresy zostaną wygenerowane.
Analiza regresji:
Zainteresuj się zmiennymi „grubość skóry” i „BMI”.
Zbadaj czy da się dla nich zastosować zadanie regresji, a konkretnie, czy da się na podstawie
wartości BMI wnioskować na temat wartości atrybutu grubość_skóry ?

Podobne dokumenty