Statystyczna analiza danych Wykład 1 Zmienne i rekordy Rodzaje

Transkrypt

Statystyczna analiza danych Wykład 1 Zmienne i rekordy Rodzaje
Wykład 1
Statystyczna analiza danych
Zmienne i rekordy
Graficzne reprezentacje danych
Statystyki opisowe
Rodzaje zmiennych
Rekordy– odpowiadają opisywanym
obiektom (zwierzętom, ludziom, rzeczom)
Zmienna – pewna charakterystyka danego
obiektu
Zmienne
Jakościowe
Ilościowe
Porządkowe Nie porządkowe Ciągłe
Dyskretne
Typy zmiennych
Jakościowe – charakterystyka przyjmuje kilka
możliwych wartości, które definiują klasy
Porządkowe: odpowiedzi na pytania w ankiecie ;
nigdy, rzadko, czasami, często, zawsze
Nie porządkowe:
gładki & żółty, gładki & zielony, pomarszczony
& żółty, pomarszczony & zielony
płeć, rasa, zawód
Ilościowe
Ciągłe : wzrost, waga, stężenie
Dyskretne : liczba kwiatów, liczba gładkich &
żółtych groszków
1
Dane pracowników CyberStat
Analiza opisowa - wykresy
Zaczynamy od opisu pojedynczych
zmiennych.
Zmienne jakościowe
Rozkład – podaje liczbę lub procent
osobników w danej kategorii.
Wykres słupkowy
Wykształcenie
Liczba (w mln)
Procent
Podstawowe
4.7
12.3
Średnie
11.8
30.7
Pomaturalne
10.9
28.3
Licencjat
8.5
22.1
Wyższe
2.5
6.6
Wykres kołowy
Zmienna ilościowa – Diagram pnia i
liścia
Pień – na ogół wszystkie cyfry poza ostatnią
Liść – na ogół ostatnia cyfra
Przykład 1
Roczna liczba kończących uderzeń jednego z
najlepszych graczy baseballa, Babe Ruth :
54 59 35 41 46 25 47 60 54 46 49 46 41 34 22
2
Opis rozkładu
Histogramy
Kształt, środek, rozrzut.
Kształt –
Ile punktów szczytowych (mod) ?
Symetryczny albo skośny.
Środek – punkt centralny
Rozrzut – odstęp między największymi i
najmniejszymi wartościami.
Identyfikacja obserwacji odstających (nie pasujących
do reszty).
Tabela częstości
Class
Count
Percent Class
Count
Percent
0.1-5.0
30
60
20.1-25 1
2
5.1-10.0 10
20
25.1-30 2
4
10.1-15 4
8
30.1-35 0
0
15.1-20 2
4
35.1-40 1
2
Opis rozkładu za pomocą liczb
Średnia
Mediana
Kwartyle
Wykresy pudełkowe
Standardowe odchylenie
3
Dane – Przykład 1
Y<read.table("C:/Users/mbogdan/ECMI/data/individual
s.dat", header=TRUE)
counts <- table(Y$edu)
pie(counts)
barplot(counts)
hist(Y$income)
mean(Y$income)
sd(Y$income)
boxplot(Y$income)
4