Rozdział 1 Przykładowe zbiory danych, ich ilustracja i charakterystyki
Transkrypt
Rozdział 1 Przykładowe zbiory danych, ich ilustracja i charakterystyki
Rozdział 1 Przykładowe zbiory danych, ich ilustracja i charakterystyki Przykład 1 Rozważmy następujący eksperyment. W losowo wybranym autobusie komunikacji miejskiej przeprowadzono ankietę u losowo wybranych 20 osób, która zawierała jedno pytanie: “Czy Pan/i podróżuje autobusem do lub z pracy?”, na które były dwie możliwe odpowiedzi: (a) tak, (b) nie. Uzyskane dane były następujące: a, b, b, a, a, a, a, a, b, a, b, a, a, a, b, a, a, b, a, a. Dane te można “zebrać” w tzw. tabeli liczności, którą ilustruje tablica 1.1. Tablica 1.1: Tabela liczności dla danych z przykładu 1 Klasa Liczba a 14 b 6 Często w tabeli liczności zamieszcza się również informację jaki procent wszystkich danych stanowią dane w poszczególnych klasach. Dla rozpatrywanych danych tabela liczności wraz z powyżej opisanymi procentami przedstawiona jest w tablicy 1.2. Tablica 1.2: Tabela liczności i procentów dla danych z przykładu 1 Klasa Liczba Procent a 14 70% b 6 30% 1 Rysunek 1.1: Wykres kołowy dla danych z przykładu 1 Dane te można również zilustrować na wykresie kołowym, jak na rysunku 1.1. Dane rozpatrywane w przykładzie 1 nazywane są danymi nominalnymi (nie są wartościami liczbowymi). W przykładzie 2 dane są już wartościami liczbowymi. Przykład 2 W fabryce czekolady, z taśmy produkcyjnej pobrano losowo 20 tabliczek czekolad, których waga powinna wynosić 100 gram i dokonano ich zważenia. Uzyskane dane zamieszczone są w pierwszej kolumnie tablicy 1.3. W przypadku, gdy zaobserwowane dane są pewnymi wartościami liczbowymi, w praktyce często “opisuje się” je przez podanie wartości tzw. statystyk opisowych. Do takich statystyk należy wartość średnia (średnia arytmetyczna z danych) n 1X xi , n i=1 (1.1) n 1 X (xi − x̄)2 , n − 1 i=1 (1.2) x̄ = wariancja s2 = odchylenie standardowe √ s= s2 = v u u t n 1 X (xi − x̄)2 . n − 1 i=1 2 (1.3) Tablica 1.3: Dane do przykładu 2 Waga Norma 100,48 1 99,65 1 98,99 0 100,13 1 100,43 1 100,95 1 99,24 1 98,99 0 101,05 0 100,15 1 102,36 0 101,59 0 99,87 1 100,25 1 101,71 0 99,97 1 99,84 1 99,62 1 99,69 1 100,02 1 Wartość średnia należy do tzw. miar położenia, natomiast wariancja i odchylenie standardowe - do tzw. miar zmienności. W przypadku rozpatrywanych danych mamy x̄ = 100, 2495, s2 = 0, 806040, s = 0, 897797. Statystykami opisowymi, które również warto podawać przy opisie danych jest wartość najmniejsza nazywana minimum oraz wartość największa – maksimum. W przypadku rozpatrywanych danych są to odpowiednio wartości xmin = 98, 98849 oraz xmax = 102, 3607. Różnica r = xmax − xmin nazywana jest rozstępem i należy ona do miar zmienności. Inna miarą położenia, poza wartością średnią, jest mediana, czyli tzw. wartość środkowa. Jeżeli dane uporządkowa3 Rysunek 1.2: Histogram dla danych z przykładu 2 libyśmy rosnąco od xmin do xmax i rozmiar danych byłby liczbą nieparzystą, to mediana byłaby dokładnie wartością w środku tak uporządkowanego ciągu. W przypadku, gdy rozmiar danych byłby liczbą parzystą, powiedzmy n, to medianę definiuje się różnie: albo jako wartość średnią z dwóch wartości n/2 i n/2 + 1 w uporządkowanym ciągu, albo jako dowolną wartość pomiędzy tymi wartościami. W przypadku rozpatrywanych danych mediana jest równa 100,0746. Dla danych, które przyjmują wartości liczbowe, często tworzy się tzw. histogram (wykres częstości). Jeżeli na osi X zaznaczymy przedziały (klasy) o równej długości, to nad odpowiednimi przedziałami możemy narysować prostokąt, którego wysokość odpowiada liczbie danych, które do tego przedziału należą. Rysunek 1.2 zawiera histogram dla rozpatrywanych danych. Rozpatrzmy teraz sytuację, w której nie interesuje nas dokładnie, jaka była waga czekolady, ale tylko, czy ta waga była w normie, czy nie. W drugiej kolumnie Tablicy 1.3 wartość 1 oznacza, że waga tabliczki jest w przedziale (99, 101), co uznajemy, że jest w granicach normy, natomiast wartość 0 oznacza, że jej waga jest poza normą. Zauważmy, że wartości 0 i 1 możemy traktować jako wartości pewnej funkcji określonej na zbiorze naszych danych. W statystyce matematycznej takie funkcje nazywane są zmiennymi losowymi, które to zmienne będą formalnie zdefiniowane w następnym rozdziale. 4