Zmienne i rekordy Rodzaje zmiennych Typy zmiennych

Transkrypt

Zmienne i rekordy Rodzaje zmiennych Typy zmiennych
Typy zmiennych



Graficzne reprezentacje danych
Statystyki opisowe
Jakościowe – charakterystyka przyjmuje kilka
możliwych wartości, które definiują klasy




Porządkowe: odpowiedzi na pytania w ankiecie ;
nigdy, rzadko, czasami, często, zawsze
Nie porządkowe:
gładki & żółty, gładki & zielony, pomarszczony
& żółty, pomarszczony & zielony
płeć, rasa, zawód
Zmienne i rekordy


Rekordy– odpowiadają opisywanym
obiektom (zwierzętom, ludziom, rzeczom)
Zmienna – pewna charakterystyka danego
obiektu
Ilościowe


Ciągłe : wzrost, waga, stężenie
Dyskretne : liczba kwiatów, liczba gładkich &
żółtych groszków
Dane pracowników CyberStat
Rodzaje zmiennych
Zmienne
Jakościowe

Ilościowe
Porządkowe Nie porządkowe Ciągłe
Dyskretne
Wykres kołowy
Analiza opisowa - wykresy



Zaczynamy od opisu pojedynczych
zmiennych.
Zmienne jakościowe
Rozkład – podaje liczbę lub procent
osobników w danej kategorii.
Wykształcenie
Liczba (w mln)
Procent
Podstawowe
4.7
12.3
Średnie
11.8
30.7
Pomaturalne
10.9
28.3
Licencjat
8.5
22.1
Wyższe
2.5
6.6
Wykres słupkowy
Zmienna ilościowa – Diagram pnia i
liścia
Pień – na ogół wszystkie cyfry poza ostatnią
Liść – na ogół ostatnia cyfra
Przykład 1
Roczna liczba kończących uderzeń jednego z
najlepszych graczy baseballa, Babe Ruth :
54 59 35 41 46 25 47 60 54 46 49 46 41 34 22
Opis rozkładu







Kształt, środek, rozrzut.
Kształt –
Ile punktów szczytowych (mod) ?
Symetryczny albo skośny.
Środek – punkt centralny
Rozrzut – odstęp między największymi i
najmniejszymi wartościami.
Identyfikacja obserwacji odstających (nie pasujących
do reszty).
Histogramy
Opis rozkładu za pomocą liczb





Tabela częstości
Class
Count
Średnia
Mediana
Kwartyle
Wykresy pudełkowe
Standardowe odchylenie
Miary położenia rozkładu
Percent Class
Count
Percent
●
30
60
20.1-25 1
2
•
5.1-10.0 10
20
25.1-30 2
4
•
10.1-15 4
8
30.1-35 0
0
•
15.1-20 2
4
35.1-40 1
2
0.1-5.0
Średnia z próby:
symbol y oznacza liczbę; arytmetyczną
średnią z obserwacji
Symbol Y oznacza pojęcie średniej z
próby
Średnia jest „środkiem ciężkości” zbioru
danych
Przykład: Przyrost wagi owiec
●
●
Dane : 11, 13, 19, 2, 10, 1
y1=11, y2=13,…, y6=1
Przykłady
●
Przykład 1 (n = 5)
●
●
●
6
●
å yi  y1 + y2 + ... + y6  11 + 13 + ... + 1  56
Przykład 2 (n = 6)
●
i 1
●
y  56 / 6  9.33
Odchylenia
●
Dane: 366 327 274 292 274 230
Średnia z próby = 293.8
Mediana =
Średnia a mediana
●
devi  yi - y
dev1  y1 - y  11 - 9.33  1.67
Dane: 6.3 5.9 7.0 6.9 5.9
Średnia z próby = 32/5 = 6.4
Mediana =
Przykład 1 cd. (n = 5)
Dane: 6.3 5.9 7.0 6.9 5.9
Średnia = 32/5 = 6.4
Mediana = 6.3
Błąd w zapisie danych:
Dane: 6.3 5.9 70 6.9 5.9
Średnia = 19
Mediana = 6.3
●
●
●
●
Σ devi= ?
●
●
●
Mediana próbkowa:
●
●
Środkowa obserwacja jeżeli n jest
nieparzyste
Średnia z dwóch środkowych wartości gdy
n jest parzyste
Średnia a mediana
●
Mediana dzieli powierzchnię histogramu
na połowę
●
●
●
Jest odporna – nie mają na nią wpływu obserwacje
„odstające”
Średnia to „środek ciężkości” histogramu
Obserwacje odstające mają duży wpływ na średnią –
średnia nie jest odporna
Średnia a mediana
●
●
●
●
Jeżeli histogram jest w przybliżeniu symetryczny, to średnia
i mediana są zbliżone.
Jeżeli histogram jest skośny na prawo, to średnia jest
zwykle większa niż mediana.
Obie te miary położenia są jednakowo ważne.
Średnia jest częściej wykorzystywana do testowania i
estymacji (o czym później).
Miary położenia cd.:Kwartyle
●
Kwartyle dzielą zbiór danych na cztery grupy.
●
Drugi kwartyl (Q2) to mediana.
●
●
7
12
8
2
4
3
5
4
3
4
5
6
9
3
5
Rozstęp międzykwartylowy
●
IQR=Q3-Q1 (inter-quartile range)
Pierwszy kwartyl (Q1) to mediana grupy obserwacji
mniejszych niż Q2.
Trzeci kwartyl (Q3) to mediana grupy obserwacji większych
niż Q2.
Przykład
●
Przykład (n=15)
Dane: 3 5 6 2 1 7 4
Wykres ramkowy (Boxplot)
●
●
●
Boxplot – graficzna reprezentacja:
mediany, kwartyli, maximum i
minimum z danych.
„Ramka” („pudełko”) powstaje z
obrysowania kwartyli
Linie („wąsy”) ciągą się do wartości
najmniejszej i największej.
BoxPlot
Przykładowy zmodyfikowany wykres
ramkowy (boxplot)
5
10
15
12
10
8
6
4
2
0
Zmodyfikowany Boxplot
●
Obserwacja odstająca:
●
●
Miary rorzutu:
błąd w zapisie danych, błąd maszyny, zmiana warunków
eksperymentu itp.
Kryterium do identyfikacji obserwacji odstających:
●
●
Dolna granica = Q1 - 1.5*IQR
Górna granica = Q3 + 1.5*IQR




Rozstęp (max – min) – bardzo wrażliwy na obserwacje
odstające, nieprzydatny do testowania
Rozstęp międzykwartylowy (IQR=Q3-Q1) – rozstęp
środkowych 50% obserwacji
Standardowe odchylenie / Wariancja
Współczynnik zmienności (CV)
Próbkowe odchylenie standardowe
(SD, s)
●
Dane : 1 2 2 3 3 4 4 4 5 6 6 7 8 15 16


Wyrażone w jednostkach pomiarowych
Informuje o ile przeciętnie odległe od średniej
są obserwacje.
n
s
å(y
i
- y )2 /( n - 1) (definition)
i 1
n
 (å yi2 - ny 2 ) /( n - 1) (calculations)
i 1
W mianowniku jest n-1:
●
SS
s
,where
n -1
n
Miary rozrzutu, cd.
Współczynnik zmienności (CV)
CV  s / y
n
SS  å ( yi - y ) 2 å yi2 - ny 2
i 1
●
i 1
Przykład
Dane : 35.1, 30.6, 36.9, 29.8 (n=4)
●
Rozstęp =
Próbkowa wariancja: s2
●
●
Przeciętny kwadrat odległości od średniej próbkowej: s2
Mierzona w jednostkach będących kwadratem jednostek, w
których wyrażone są dane
●
●
●
Suma obserwacji:
y = 35.1 + 30.6 + 36.9 + 29.8 = 132.4
średnia: y
s z definicji:
SS =
wariancja: s2 =
s=
Dlaczego n-1 ?
●
s2 jest nieobciążonym estymatorem wariancji w populacji
●
Σ devi=0 stąd
●
n-1 stopni swobody = n-1 jednostek informacji

Uwaga: Proszę zachowywać dużo cyfr znaczących przy
rachunkach. Zaokrąglamy dopiero na koniec.

Współczynnik zmienności: CV=
n -1
devn  -å devi
i 1
Przykład cd
Ogólne uwagi





Duże s=duży rozrzut. Małe s=mały rozrzut.
Jeżeli histogram (rozkład ) jest w kształcie dzwonu
(„normalny”), to około:
68% obserwacji jest w odległości  1 s od średniej
95% obserwacji jest w odległości  2 s od średniej
99% obserwacji jest w odległości  3 s od średniej
●
Ocena s z histogramu
Nierówność Czebyszewa
●
Nawet, gdy rozkład nie jest normalny to
●

co najmniej 75% obserwacji jest w odległości  2 s od
średniej

co najmniej 89% obserwacji jest w odległości  3 s od
średniej.
Średnia y = 14.4, odchylenie standardowe s =
2.9.
●
●
Odcinek I  ( y - 2 s, y + 2 s )
zawiera około 95 % danych.
Ocena s = (długość I) /4.
Reguła działa najlepiej, gdy histogram jest w
kształcie dzwonu (bliski normalnemu).
Przykład (puls po ćwiczeniach)
●
Przykład
13
14
12
14
13
12
17
14
13
19
14
11
10
14
15
13
20
20
18
12
●
95 % pomiarów jest pomiędzy 75 a 125
●
Faktyczne s = 13.4
Porównanie miar rozrzutu i położenia
Miary rozrzutu służą do oszacowania zmienności w danych.
Odporność:
 Załóżmy, że mamy dość skupiony „dzwonowy”
(normalny) zbiór danych.
 Co się stanie, gdy jedną dużą obserwację zastąpimy
bardzo dużą wartością?
●
●
●
Mediana
●
Rozstęp
●
Średnia
●
Kwartyle i rozstęp międzykwartylowy
●
Standardowe odchylenie

Podobne dokumenty