Rozdział 1 Przykładowe zbiory danych, ich ilustracja i charakterystyki

Transkrypt

Rozdział 1 Przykładowe zbiory danych, ich ilustracja i charakterystyki
Rozdział 1
Przykładowe zbiory danych,
ich ilustracja i charakterystyki
Przykład 1 Rozważmy następujący eksperyment. W losowo wybranym autobusie komunikacji miejskiej przeprowadzono ankietę u losowo wybranych 20 osób, która zawierała
jedno pytanie: “Czy Pan/i podróżuje autobusem do lub z pracy?”, na które były dwie możliwe odpowiedzi: (a) tak, (b) nie. Uzyskane dane były następujące: a, b, b, a, a, a, a, a, b,
a, b, a, a, a, b, a, a, b, a, a. Dane te można “zebrać” w tzw. tabeli liczności, którą ilustruje
tablica 1.1.
Tablica 1.1: Tabela liczności dla danych z przykładu 1
Klasa Liczba
a
14
b
6
Często w tabeli liczności zamieszcza się również informację jaki procent wszystkich danych stanowią dane w poszczególnych klasach. Dla rozpatrywanych danych tabela liczności
wraz z powyżej opisanymi procentami przedstawiona jest w tablicy 1.2.
Tablica 1.2: Tabela liczności i procentów dla danych z przykładu 1
Klasa Liczba Procent
a
14
70%
b
6
30%
1
Rysunek 1.1: Wykres kołowy dla danych z przykładu 1
Dane te można również zilustrować na wykresie kołowym, jak na rysunku 1.1.
Dane rozpatrywane w przykładzie 1 nazywane są danymi nominalnymi (nie są wartościami liczbowymi). W przykładzie 2 dane są już wartościami liczbowymi.
Przykład 2 W fabryce czekolady, z taśmy produkcyjnej pobrano losowo 20 tabliczek czekolad, których waga powinna wynosić 100 gram i dokonano ich zważenia. Uzyskane dane
zamieszczone są w pierwszej kolumnie tablicy 1.3.
W przypadku, gdy zaobserwowane dane są pewnymi wartościami liczbowymi, w praktyce
często “opisuje się” je przez podanie wartości tzw. statystyk opisowych. Do takich statystyk
należy wartość średnia (średnia arytmetyczna z danych)
n
1X
xi ,
n i=1
(1.1)
n
1 X
(xi − x̄)2 ,
n − 1 i=1
(1.2)
x̄ =
wariancja
s2 =
odchylenie standardowe
√
s=
s2 =
v
u
u
t
n
1 X
(xi − x̄)2 .
n − 1 i=1
2
(1.3)
Tablica 1.3: Dane do przykładu 2
Waga Norma
100,48
1
99,65
1
98,99
0
100,13
1
100,43
1
100,95
1
99,24
1
98,99
0
101,05
0
100,15
1
102,36
0
101,59
0
99,87
1
100,25
1
101,71
0
99,97
1
99,84
1
99,62
1
99,69
1
100,02
1
Wartość średnia należy do tzw. miar położenia, natomiast wariancja i odchylenie standardowe - do tzw. miar zmienności. W przypadku rozpatrywanych danych mamy
x̄ = 100, 2495,
s2 = 0, 806040,
s = 0, 897797.
Statystykami opisowymi, które również warto podawać przy opisie danych jest wartość najmniejsza nazywana minimum oraz wartość największa – maksimum. W przypadku rozpatrywanych danych są to odpowiednio wartości xmin = 98, 98849 oraz xmax = 102, 3607.
Różnica
r = xmax − xmin
nazywana jest rozstępem i należy ona do miar zmienności. Inna miarą położenia, poza
wartością średnią, jest mediana, czyli tzw. wartość środkowa. Jeżeli dane uporządkowa3
Rysunek 1.2: Histogram dla danych z przykładu 2
libyśmy rosnąco od xmin do xmax i rozmiar danych byłby liczbą nieparzystą, to mediana
byłaby dokładnie wartością w środku tak uporządkowanego ciągu. W przypadku, gdy rozmiar danych byłby liczbą parzystą, powiedzmy n, to medianę definiuje się różnie: albo jako
wartość średnią z dwóch wartości n/2 i n/2 + 1 w uporządkowanym ciągu, albo jako dowolną wartość pomiędzy tymi wartościami. W przypadku rozpatrywanych danych mediana
jest równa 100,0746.
Dla danych, które przyjmują wartości liczbowe, często tworzy się tzw. histogram (wykres częstości). Jeżeli na osi X zaznaczymy przedziały (klasy) o równej długości, to nad odpowiednimi przedziałami możemy narysować prostokąt, którego wysokość odpowiada liczbie
danych, które do tego przedziału należą. Rysunek 1.2 zawiera histogram dla rozpatrywanych danych.
Rozpatrzmy teraz sytuację, w której nie interesuje nas dokładnie, jaka była waga czekolady, ale tylko, czy ta waga była w normie, czy nie. W drugiej kolumnie Tablicy 1.3
wartość 1 oznacza, że waga tabliczki jest w przedziale (99, 101), co uznajemy, że jest
w granicach normy, natomiast wartość 0 oznacza, że jej waga jest poza normą.
Zauważmy, że wartości 0 i 1 możemy traktować jako wartości pewnej funkcji określonej
na zbiorze naszych danych. W statystyce matematycznej takie funkcje nazywane są zmiennymi losowymi, które to zmienne będą formalnie zdefiniowane w następnym rozdziale.
4