Zajęcia nr VII – poznajemy Rattle i pakiet R.
Transkrypt
Zajęcia nr VII – poznajemy Rattle i pakiet R.
Zajęcia nr VII – poznajemy Rattle i pakiet R. Okno główne Rattle wygląda następująco: Widzimy główne zakładki: Data – pozwala odczytad dane z różnych źródeł danych (pliki TXT, CSV) i inne bazy danych. Jak widzimy po wczytaniu zbioru IRIS.TXT – użytkownik widzi jakie zmienne są w analizowanym zbiorze, jakiego typu (tutaj numeryczne), która zmienna została wybrana jako zmienna objaśniania (wtedy przy takiej zmiennej mamy znacznik TARGET), pewne zmienne możemy ignorowad w analizach (kolumna IGNORE). Widzimy także w kolumnie COMMENT ile dany atrybut (cecha) ma unikalnych wartości, ile wartości brakujących. Klikając przycisk VIEW otrzymujemy podgląd zbioru danych: Z kolei klikając przycisk EDIT możemy edytowad analizowany zbiór danych. W ramach statystyk [type = summary] podsumowujących zastosowad możemy: Explore – pozwoli przejrzed dane, dokonad podstawowych statystyki: Summary – statystyki podsumowujące Describe – statystyki opisujące Basics – statystyki podstawowe Kurtosis – mówi, jaka jest kurioza w analizowanym zbiorze Skewness – mówi o skośności danych w zbiorze Show Missing – jeśli jest zaznaczone uwzględnia braki w danych podczas analizy Statystyki podsumowujące zazwyczaj dostarczają ogólnych informacji o danych. Możemy zobaczyd typ każdej danej, wartości minimalne, maksymalne, średnie oraz medianę i pierwszy oraz trzeci kwartyl. Klikając w opcję „Describe” Z kolei wybierając opcję „basic” W ramach metod rozkładów danych [type = distribution] zastosowad możemy: Wybierając np. opcję „Box plot” wygenerujemy wykresy pudełkowe dla wybranych zmiennych. Np. zaznaczając opcje Box plot dla zmiennej X5.1 i X0.2 otrzymamy następujące wykresy. Zaznaczając opcję „histogram” dla tych samych zmiennych otrzymamy następujące wykresy: Klikacjąc w zakładce Explore opcję Coorelation możemy obliczyd korelację zachodzącą między wszystkimi zmiennymi w analizowanym zbiorze. Oprócz graficznej wizualizacji tej korelacji mamy także informację o konkretnych wartościach korelacji oraz o użytej do jej pomiaru metryce (czy to była miara Spearmana, Kendalla czy Pearsona). Wybierając opcję „Principal Components” w zakładce Explore docieramy do analizy składowych głównych (Principal Component Analysis): Zadanie 1. Przejrzed zasoby Internetu i zapoznad się z celem metody analizy składowych głównych. Student powinien wiedzied do czego służy ta metoda, jakie ma wady i zalety, w jakich zastosowaniach najczęściej się ją spotyka, oraz jakie są jej wymagania co do danych podlegających takiej analizie. Omijamy zakładkę TEST – służy ona do testowania hipotez statystycznych a tym się zajmowad na tym przedmiocie nie będziemy !!! Przechodzimy do zakładki TRANSFORM. Mamy tu do czynienia z różnymi metodami transformacji danych, ich normalizacji i skalowania. Tutaj student winien przypomnied sobie treśd zajęd http://zsi.tech.us.edu.pl/~nowak/ed/mv.pdf gdzie była mowa o normalizacji danych a także radzenia sobie z niekompletnością danych. W zakładce transform dostępnych jest szereg narzędzi zarówno do zadania normalizacji jak i zadania wypełniania braków w danych. Zakładka CLUSTER pozwoli na zastosowanie analizy skupieo do wydobywania wiedzy z danych. W tym celu student powinien przejrzed zasoby Internetu i zdobyd informacje wstępne o tym co jest celem analizy skupieo, co ona daje w efekcie. Zakładkę PREDICTIVE będziemy z pewnością analizowad na zajęciach z PED. Bardzo popularną metodą analizy danych jest metoda generowania drzew decyzyjnych. Metoda ta pozwala na szybką klasyfikację danych. W powiększeniu: A klikając teraz opcję (przycisk) [Draw]otrzymujemy drzewo decyzyjne postaci: Które można już zapisad w wybranym formacie: JPG, png czy PDF. Zadanie do wykonania: 1. Dla swojego zbioru danych proszę wygenerowad skrócone charakterystyki, i dla wybranej cechy opisującej obiekty w tym zbiorze podad wartośd minimalną i maksymalną, a następnie wyrysowad dla niej odpowiednio wykres pudełkowy. Dla innej cechy (nie numerycznej) proszona podstawie charakterystyk opisowych podad wartośd dominującą w zbiorze, jaki ma ona zakres procentowy, i wyrysowad odpowiedni wykres dla niej. 2. Dla tego samego zbioru proszę przeskalowad wartości dla wybranej cechy nie numerycznej w kilku możliwych metodach. 3. Sprawdzid między którymi zmiennymi istnieje największa korelacja dodatnia bądź ujemna, a między którymi jest brak korelacji.