Statystyczna analiza danych Wykład 1 Zmienne i rekordy Rodzaje
Transkrypt
Statystyczna analiza danych Wykład 1 Zmienne i rekordy Rodzaje
Wykład 1 Statystyczna analiza danych Zmienne i rekordy Graficzne reprezentacje danych Statystyki opisowe Rodzaje zmiennych Rekordy– odpowiadają opisywanym obiektom (zwierzętom, ludziom, rzeczom) Zmienna – pewna charakterystyka danego obiektu Zmienne Jakościowe Ilościowe Porządkowe Nie porządkowe Ciągłe Dyskretne Typy zmiennych Jakościowe – charakterystyka przyjmuje kilka możliwych wartości, które definiują klasy Porządkowe: odpowiedzi na pytania w ankiecie ; nigdy, rzadko, czasami, często, zawsze Nie porządkowe: gładki & żółty, gładki & zielony, pomarszczony & żółty, pomarszczony & zielony płeć, rasa, zawód Ilościowe Ciągłe : wzrost, waga, stężenie Dyskretne : liczba kwiatów, liczba gładkich & żółtych groszków 1 Dane pracowników CyberStat Analiza opisowa - wykresy Zaczynamy od opisu pojedynczych zmiennych. Zmienne jakościowe Rozkład – podaje liczbę lub procent osobników w danej kategorii. Wykres słupkowy Wykształcenie Liczba (w mln) Procent Podstawowe 4.7 12.3 Średnie 11.8 30.7 Pomaturalne 10.9 28.3 Licencjat 8.5 22.1 Wyższe 2.5 6.6 Wykres kołowy Zmienna ilościowa – Diagram pnia i liścia Pień – na ogół wszystkie cyfry poza ostatnią Liść – na ogół ostatnia cyfra Przykład 1 Roczna liczba kończących uderzeń jednego z najlepszych graczy baseballa, Babe Ruth : 54 59 35 41 46 25 47 60 54 46 49 46 41 34 22 2 Opis rozkładu Histogramy Kształt, środek, rozrzut. Kształt – Ile punktów szczytowych (mod) ? Symetryczny albo skośny. Środek – punkt centralny Rozrzut – odstęp między największymi i najmniejszymi wartościami. Identyfikacja obserwacji odstających (nie pasujących do reszty). Tabela częstości Class Count Percent Class Count Percent 0.1-5.0 30 60 20.1-25 1 2 5.1-10.0 10 20 25.1-30 2 4 10.1-15 4 8 30.1-35 0 0 15.1-20 2 4 35.1-40 1 2 Opis rozkładu za pomocą liczb Średnia Mediana Kwartyle Wykresy pudełkowe Standardowe odchylenie 3 Dane – Przykład 1 Y<read.table("C:/Users/mbogdan/ECMI/data/individual s.dat", header=TRUE) counts <- table(Y$edu) pie(counts) barplot(counts) hist(Y$income) mean(Y$income) sd(Y$income) boxplot(Y$income) 4