Zajęcia nr VII – poznajemy Rattle i pakiet R.

Transkrypt

Zajęcia nr VII – poznajemy Rattle i pakiet R.
Zajęcia nr VII – poznajemy Rattle i pakiet R.
Okno główne Rattle wygląda następująco:
Widzimy główne zakładki:
Data – pozwala odczytad dane z różnych źródeł danych (pliki TXT, CSV) i inne bazy danych.
Jak widzimy po wczytaniu zbioru IRIS.TXT – użytkownik widzi jakie zmienne są w analizowanym zbiorze, jakiego typu
(tutaj numeryczne), która zmienna została wybrana jako zmienna objaśniania (wtedy przy takiej zmiennej mamy
znacznik TARGET), pewne zmienne możemy ignorowad w analizach (kolumna IGNORE). Widzimy także w kolumnie
COMMENT ile dany atrybut (cecha) ma unikalnych wartości, ile wartości brakujących.
Klikając przycisk VIEW otrzymujemy podgląd zbioru danych:
Z kolei klikając przycisk EDIT możemy edytowad analizowany zbiór danych.
W ramach statystyk [type = summary] podsumowujących zastosowad możemy:







Explore – pozwoli przejrzed dane, dokonad podstawowych statystyki:
Summary – statystyki podsumowujące
Describe – statystyki opisujące
Basics – statystyki podstawowe
Kurtosis – mówi, jaka jest kurioza w analizowanym zbiorze
Skewness – mówi o skośności danych w zbiorze
Show Missing – jeśli jest zaznaczone uwzględnia braki w danych podczas analizy
Statystyki podsumowujące zazwyczaj dostarczają ogólnych informacji o danych. Możemy zobaczyd typ każdej danej,
wartości minimalne, maksymalne, średnie oraz medianę i pierwszy oraz trzeci kwartyl.
Klikając w opcję „Describe”
Z kolei wybierając opcję „basic”
W ramach metod rozkładów danych [type = distribution] zastosowad możemy:
Wybierając np. opcję „Box plot” wygenerujemy wykresy pudełkowe dla wybranych zmiennych. Np. zaznaczając opcje
Box plot dla zmiennej X5.1 i X0.2 otrzymamy następujące wykresy.
Zaznaczając opcję „histogram” dla tych samych zmiennych otrzymamy następujące wykresy:
Klikacjąc w zakładce Explore opcję Coorelation możemy obliczyd korelację zachodzącą między wszystkimi zmiennymi w
analizowanym zbiorze.
Oprócz graficznej wizualizacji tej korelacji mamy także informację o konkretnych wartościach korelacji oraz o użytej do
jej pomiaru metryce (czy to była miara Spearmana, Kendalla czy Pearsona).
Wybierając opcję „Principal Components” w zakładce Explore docieramy do analizy składowych głównych (Principal
Component Analysis):
Zadanie 1.
Przejrzed zasoby Internetu i zapoznad się z celem metody analizy składowych głównych. Student powinien wiedzied do
czego służy ta metoda, jakie ma wady i zalety, w jakich zastosowaniach najczęściej się ją spotyka, oraz jakie są jej
wymagania co do danych podlegających takiej analizie.
Omijamy zakładkę TEST – służy ona do testowania hipotez statystycznych a tym się zajmowad na tym przedmiocie nie
będziemy !!!
Przechodzimy do zakładki TRANSFORM. Mamy tu do czynienia z różnymi metodami transformacji danych, ich
normalizacji i skalowania.
Tutaj student winien przypomnied sobie treśd zajęd http://zsi.tech.us.edu.pl/~nowak/ed/mv.pdf gdzie była mowa o
normalizacji danych a także radzenia sobie z niekompletnością danych.
W zakładce transform dostępnych jest szereg narzędzi zarówno do zadania normalizacji jak i zadania wypełniania
braków w danych.
Zakładka CLUSTER pozwoli na zastosowanie analizy skupieo do wydobywania wiedzy z danych. W tym celu student
powinien przejrzed zasoby Internetu i zdobyd informacje wstępne o tym co jest celem analizy skupieo, co ona daje w
efekcie.
Zakładkę PREDICTIVE będziemy z pewnością analizowad na zajęciach z PED. Bardzo popularną metodą analizy danych
jest metoda generowania drzew decyzyjnych. Metoda ta pozwala na szybką klasyfikację danych.
W powiększeniu:
A klikając teraz opcję (przycisk) [Draw]otrzymujemy drzewo decyzyjne postaci:
Które można już zapisad w wybranym formacie: JPG, png czy PDF.
Zadanie do wykonania:
1. Dla swojego zbioru danych proszę wygenerowad skrócone charakterystyki, i dla wybranej cechy opisującej
obiekty w tym zbiorze podad wartośd minimalną i maksymalną, a następnie wyrysowad dla niej odpowiednio
wykres pudełkowy. Dla innej cechy (nie numerycznej) proszona podstawie charakterystyk opisowych podad
wartośd dominującą w zbiorze, jaki ma ona zakres procentowy, i wyrysowad odpowiedni wykres dla niej.
2. Dla tego samego zbioru proszę przeskalowad wartości dla wybranej cechy nie numerycznej w kilku możliwych
metodach.
3. Sprawdzid między którymi zmiennymi istnieje największa korelacja dodatnia bądź ujemna, a między którymi jest
brak korelacji.