Zmienne i rekordy Rodzaje zmiennych Typy zmiennych
Transkrypt
Zmienne i rekordy Rodzaje zmiennych Typy zmiennych
Typy zmiennych Graficzne reprezentacje danych Statystyki opisowe Jakościowe – charakterystyka przyjmuje kilka możliwych wartości, które definiują klasy Porządkowe: odpowiedzi na pytania w ankiecie ; nigdy, rzadko, czasami, często, zawsze Nie porządkowe: gładki & żółty, gładki & zielony, pomarszczony & żółty, pomarszczony & zielony płeć, rasa, zawód Zmienne i rekordy Rekordy– odpowiadają opisywanym obiektom (zwierzętom, ludziom, rzeczom) Zmienna – pewna charakterystyka danego obiektu Ilościowe Ciągłe : wzrost, waga, stężenie Dyskretne : liczba kwiatów, liczba gładkich & żółtych groszków Dane pracowników CyberStat Rodzaje zmiennych Zmienne Jakościowe Ilościowe Porządkowe Nie porządkowe Ciągłe Dyskretne Wykres kołowy Analiza opisowa - wykresy Zaczynamy od opisu pojedynczych zmiennych. Zmienne jakościowe Rozkład – podaje liczbę lub procent osobników w danej kategorii. Wykształcenie Liczba (w mln) Procent Podstawowe 4.7 12.3 Średnie 11.8 30.7 Pomaturalne 10.9 28.3 Licencjat 8.5 22.1 Wyższe 2.5 6.6 Wykres słupkowy Zmienna ilościowa – Diagram pnia i liścia Pień – na ogół wszystkie cyfry poza ostatnią Liść – na ogół ostatnia cyfra Przykład 1 Roczna liczba kończących uderzeń jednego z najlepszych graczy baseballa, Babe Ruth : 54 59 35 41 46 25 47 60 54 46 49 46 41 34 22 Opis rozkładu Kształt, środek, rozrzut. Kształt – Ile punktów szczytowych (mod) ? Symetryczny albo skośny. Środek – punkt centralny Rozrzut – odstęp między największymi i najmniejszymi wartościami. Identyfikacja obserwacji odstających (nie pasujących do reszty). Histogramy Opis rozkładu za pomocą liczb Tabela częstości Class Count Średnia Mediana Kwartyle Wykresy pudełkowe Standardowe odchylenie Miary położenia rozkładu Percent Class Count Percent ● 30 60 20.1-25 1 2 • 5.1-10.0 10 20 25.1-30 2 4 • 10.1-15 4 8 30.1-35 0 0 • 15.1-20 2 4 35.1-40 1 2 0.1-5.0 Średnia z próby: symbol y oznacza liczbę; arytmetyczną średnią z obserwacji Symbol Y oznacza pojęcie średniej z próby Średnia jest „środkiem ciężkości” zbioru danych Przykład: Przyrost wagi owiec ● ● Dane : 11, 13, 19, 2, 10, 1 y1=11, y2=13,…, y6=1 Przykłady ● Przykład 1 (n = 5) ● ● ● 6 ● å yi y1 + y2 + ... + y6 11 + 13 + ... + 1 56 Przykład 2 (n = 6) ● i 1 ● y 56 / 6 9.33 Odchylenia ● Dane: 366 327 274 292 274 230 Średnia z próby = 293.8 Mediana = Średnia a mediana ● devi yi - y dev1 y1 - y 11 - 9.33 1.67 Dane: 6.3 5.9 7.0 6.9 5.9 Średnia z próby = 32/5 = 6.4 Mediana = Przykład 1 cd. (n = 5) Dane: 6.3 5.9 7.0 6.9 5.9 Średnia = 32/5 = 6.4 Mediana = 6.3 Błąd w zapisie danych: Dane: 6.3 5.9 70 6.9 5.9 Średnia = 19 Mediana = 6.3 ● ● ● ● Σ devi= ? ● ● ● Mediana próbkowa: ● ● Środkowa obserwacja jeżeli n jest nieparzyste Średnia z dwóch środkowych wartości gdy n jest parzyste Średnia a mediana ● Mediana dzieli powierzchnię histogramu na połowę ● ● ● Jest odporna – nie mają na nią wpływu obserwacje „odstające” Średnia to „środek ciężkości” histogramu Obserwacje odstające mają duży wpływ na średnią – średnia nie jest odporna Średnia a mediana ● ● ● ● Jeżeli histogram jest w przybliżeniu symetryczny, to średnia i mediana są zbliżone. Jeżeli histogram jest skośny na prawo, to średnia jest zwykle większa niż mediana. Obie te miary położenia są jednakowo ważne. Średnia jest częściej wykorzystywana do testowania i estymacji (o czym później). Miary położenia cd.:Kwartyle ● Kwartyle dzielą zbiór danych na cztery grupy. ● Drugi kwartyl (Q2) to mediana. ● ● 7 12 8 2 4 3 5 4 3 4 5 6 9 3 5 Rozstęp międzykwartylowy ● IQR=Q3-Q1 (inter-quartile range) Pierwszy kwartyl (Q1) to mediana grupy obserwacji mniejszych niż Q2. Trzeci kwartyl (Q3) to mediana grupy obserwacji większych niż Q2. Przykład ● Przykład (n=15) Dane: 3 5 6 2 1 7 4 Wykres ramkowy (Boxplot) ● ● ● Boxplot – graficzna reprezentacja: mediany, kwartyli, maximum i minimum z danych. „Ramka” („pudełko”) powstaje z obrysowania kwartyli Linie („wąsy”) ciągą się do wartości najmniejszej i największej. BoxPlot Przykładowy zmodyfikowany wykres ramkowy (boxplot) 5 10 15 12 10 8 6 4 2 0 Zmodyfikowany Boxplot ● Obserwacja odstająca: ● ● Miary rorzutu: błąd w zapisie danych, błąd maszyny, zmiana warunków eksperymentu itp. Kryterium do identyfikacji obserwacji odstających: ● ● Dolna granica = Q1 - 1.5*IQR Górna granica = Q3 + 1.5*IQR Rozstęp (max – min) – bardzo wrażliwy na obserwacje odstające, nieprzydatny do testowania Rozstęp międzykwartylowy (IQR=Q3-Q1) – rozstęp środkowych 50% obserwacji Standardowe odchylenie / Wariancja Współczynnik zmienności (CV) Próbkowe odchylenie standardowe (SD, s) ● Dane : 1 2 2 3 3 4 4 4 5 6 6 7 8 15 16 Wyrażone w jednostkach pomiarowych Informuje o ile przeciętnie odległe od średniej są obserwacje. n s å(y i - y )2 /( n - 1) (definition) i 1 n (å yi2 - ny 2 ) /( n - 1) (calculations) i 1 W mianowniku jest n-1: ● SS s ,where n -1 n Miary rozrzutu, cd. Współczynnik zmienności (CV) CV s / y n SS å ( yi - y ) 2 å yi2 - ny 2 i 1 ● i 1 Przykład Dane : 35.1, 30.6, 36.9, 29.8 (n=4) ● Rozstęp = Próbkowa wariancja: s2 ● ● Przeciętny kwadrat odległości od średniej próbkowej: s2 Mierzona w jednostkach będących kwadratem jednostek, w których wyrażone są dane ● ● ● Suma obserwacji: y = 35.1 + 30.6 + 36.9 + 29.8 = 132.4 średnia: y s z definicji: SS = wariancja: s2 = s= Dlaczego n-1 ? ● s2 jest nieobciążonym estymatorem wariancji w populacji ● Σ devi=0 stąd ● n-1 stopni swobody = n-1 jednostek informacji Uwaga: Proszę zachowywać dużo cyfr znaczących przy rachunkach. Zaokrąglamy dopiero na koniec. Współczynnik zmienności: CV= n -1 devn -å devi i 1 Przykład cd Ogólne uwagi Duże s=duży rozrzut. Małe s=mały rozrzut. Jeżeli histogram (rozkład ) jest w kształcie dzwonu („normalny”), to około: 68% obserwacji jest w odległości 1 s od średniej 95% obserwacji jest w odległości 2 s od średniej 99% obserwacji jest w odległości 3 s od średniej ● Ocena s z histogramu Nierówność Czebyszewa ● Nawet, gdy rozkład nie jest normalny to ● co najmniej 75% obserwacji jest w odległości 2 s od średniej co najmniej 89% obserwacji jest w odległości 3 s od średniej. Średnia y = 14.4, odchylenie standardowe s = 2.9. ● ● Odcinek I ( y - 2 s, y + 2 s ) zawiera około 95 % danych. Ocena s = (długość I) /4. Reguła działa najlepiej, gdy histogram jest w kształcie dzwonu (bliski normalnemu). Przykład (puls po ćwiczeniach) ● Przykład 13 14 12 14 13 12 17 14 13 19 14 11 10 14 15 13 20 20 18 12 ● 95 % pomiarów jest pomiędzy 75 a 125 ● Faktyczne s = 13.4 Porównanie miar rozrzutu i położenia Miary rozrzutu służą do oszacowania zmienności w danych. Odporność: Załóżmy, że mamy dość skupiony „dzwonowy” (normalny) zbiór danych. Co się stanie, gdy jedną dużą obserwację zastąpimy bardzo dużą wartością? ● ● ● Mediana ● Rozstęp ● Średnia ● Kwartyle i rozstęp międzykwartylowy ● Standardowe odchylenie