Graficzna prezentacja danych statystycznych
Transkrypt
Graficzna prezentacja danych statystycznych
Skale pomiaru zmiennych Przykładowe wykresy Graficzna prezentacja danych statystycznych Szkolenie dla pracowników Urzędu Statystycznego nt. Wybrane metody statystyczne w analizach makroekonomicznych dr Michał Trzęsiok Katowice, 12 i 26 czerwca 2014 r. dr Michał Trzęsiok Graficzna prezentacja danych statystycznych Skale pomiaru zmiennych Przykładowe wykresy Nieprecyzyjny podział Ścisły podział cech Skale pomiaru a miary statystyczne i typ wykresu Dopasowanie narzędzia do typu zmiennej Dobór narzędzia do analizy Zarówno dobór miar statystycznych jak i sposób prezentacji danych zależą od typu zmiennej (cechy), którą badamy. Cecha to pewna własność obiektów należących do pewnej zbiorowości, wspólna dla wszystkich i przyjmująca wartości z określonego zbioru Ze względu na sposób wyrażania wartości cechy można je podzielić na: metryczne (ilościowe, mierzalne), niemetryczne (jakościowe, niemierzalne, opisowe) dr Michał Trzęsiok Graficzna prezentacja danych statystycznych Skale pomiaru zmiennych Przykładowe wykresy Nieprecyzyjny podział Ścisły podział cech Skale pomiaru a miary statystyczne i typ wykresu Zmienne ilościowe i jakościowe Cecha ilościowa Wartościami cech ilościowych są liczby, uzyskane w wyniku pomiaru (np. wielkość PKB danego kraju, wielkość zatrudnienia w firmie, liczba dzieci w rodzinie) Cecha jakościowa Wartościami cech jakościowych (choć dla odróżnienia częściej mówi się o wariantach cechy jakościowej a nie jej wartościach) są kategorie, uzyskane w wyniku pomiaru (kategorie czyli różnego typu symbole, słowa) (np. płeć, imię, kolor) Kontrowersje Podział cech na ilościowe i jakościowe jest nieprecyzyjny i wywołuje spory. Aby tego uniknąć, cechy dzielimy ze względu na skale pomiaru [wyróżniamy 4 skale pomiaru] dr Michał Trzęsiok Graficzna prezentacja danych statystycznych Skale pomiaru zmiennych Przykładowe wykresy Nieprecyzyjny podział Ścisły podział cech Skale pomiaru a miary statystyczne i typ wykresu Skale pomiaru wg Stevensa Pomiar to porównanie cech ze wzorcem wyposażonym w odpowiednią skalę Skala nominalna (skala nazw) gdy między wartościami cechy X dla dwóch obiektów zachodzi jedna z relacji: xA = xB lub xA 6= xB (np. zmienna płeć o wariantach: kobieta, mężczyzna) Skala porządkowa gdy można określić znak różnicy pomiędzy wartościami cechy X , tj. zachodzi jedna z relacji: xA > xB lub xA < xB lub xA = xB lub xA 6= xB (np. zmienna wykształcenie o wariantach: podstawowe, zawodowe, średnie, wyższe) dr Michał Trzęsiok Graficzna prezentacja danych statystycznych Skale pomiaru zmiennych Przykładowe wykresy Nieprecyzyjny podział Ścisły podział cech Skale pomiaru a miary statystyczne i typ wykresu Skale pomiaru wg Stevensa (2) Skala przedziałowa gdy można określić wielkość różnicy pomiędzy wartościami cechy X (o ile jednostek), tj. na wartościach cechy dopuszczalne są operacje: >, <, =, +, − (np. zmienna temperatura o wartościach na skali Celsjusza lub poziom inteligencji mierzony liczbą punktów z testu IQ) Skala ilorazowa gdy można określić krotność różnicy pomiędzy wartościami cechy X (ile razy), tj. na wartościach cechy dopuszczalne są operacje: >, <, =, +, −, ∗, (np. zmienna temperatura o wartościach na skali Kelvina lub wzrost lub wiek) Skala nominalna i porządkowa to tzw. skale słabe, a skala przedziałowa i ilorazowa to tzw. skale mocne dr Michał Trzęsiok Graficzna prezentacja danych statystycznych Skale pomiaru zmiennych Przykładowe wykresy Nieprecyzyjny podział Ścisły podział cech Skale pomiaru a miary statystyczne i typ wykresu Dodatkowy podział zmiennych ilościowych Zmienna skokowa (dyskretna) przyjmujące wartości z pewnego skończonego lub przeliczalnego zbioru; wyróżnia ją brak wartości pośrednich dla bliskich sobie wartości (np. zmienna dzietność kobiet o wartościach ze zbioru: {0, 1, 2, 3, 4 . . .}; nie jest możliwe uzyskanie dzietności równej np. π) Zmienna ciągła przyjmujące wartości z pewnego nieskończonego, a dokładniej – nieprzeliczalnego zbioru; wyróżnia ją to, że dla dowolnych dwóch wartości zawsze możliwe jest uzyskanie wartości pośredniej (np. zmienna wzrost; wprawdzie mówimy, że ktoś miał 112 cm a potem, że urósł i ma 113 cm, ale tak naprawdę)jakąkolwiek liczbę między 112 a 113 pomyślimy, to każdy z nas musiał kiedyś mieć taki wzrost dr Michał Trzęsiok Graficzna prezentacja danych statystycznych Skale pomiaru zmiennych Przykładowe wykresy Nieprecyzyjny podział Ścisły podział cech Skale pomiaru a miary statystyczne i typ wykresu Dopasowanie mierników do skali pomiaru zmiennej Miary położenia Miary rozproszenia Miary korelacji Nominalna Porządkowa Dominanta Mediana Przedziałowa Średnia arytmetyczna Średnia geometryczna i harmoniczna Entropia Odchylenie ćwiartkowe Odchylenie standardowe Współczynnik zmienności Statystyka χ2 Współczynnik korelacji τ Kendalla Współczynnik korelacji Pearsona Stosunek korelacyjny Ilorazowa dr Michał Trzęsiok Graficzna prezentacja danych statystycznych Skale pomiaru zmiennych Przykładowe wykresy Nieprecyzyjny podział Ścisły podział cech Skale pomiaru a miary statystyczne i typ wykresu Dopasowanie typu wykresu do skali pomiaru zmiennej dla zmiennych skokowych – diagramy dla zmiennych ciągłych – histogramy Złote reguły tworzenia histogramu 1 wszystkie obserwacje ze zbioru danych muszą być uwzględnione na wykresie 2 sąsiednie przedziały na histogramie musza się „sklejać” (nie może być „dziur” między przedziałami) 3 przedziały na histogramie nie mogą mieć części wspólnej (przedziały muszą być otwarto–domknięte) dr Michał Trzęsiok Graficzna prezentacja danych statystycznych Skale pomiaru zmiennych Przykładowe wykresy Linki do dobrych przykładów Przekształcanie zmiennych na potrzeby wykresów Linki do dobrych i złych przykładów wizualizacji danych http://www.gapminder.org/ http://www.ted.com/talks/hans rosling shows the best stats you ve ever seen http://smarterpoland.pl/index.php/category/zly-wykres/ http://prezi.com/xs3u0qcd6jph/jak-pokazywac-dane-i-jak-tego-nie-robic-torun-2013/ http://smarterpoland.pl/index.php/2014/01/lektury-szkolne/ dr Michał Trzęsiok Graficzna prezentacja danych statystycznych Skale pomiaru zmiennych Przykładowe wykresy Linki do dobrych przykładów Przekształcanie zmiennych na potrzeby wykresów Sprowadzanie wartości zmiennych do porównywalności Zmienne można doprowadzić do porównywalności poprzez ujednolicenie rzędów wielkości oraz pozbawienie różnych mian. W tym celu stosuje się transformacje normalizacyjne: standaryzacja (średnia = 0, wariancja = 1): zi = xi − x̄ s normalizacja (zachowanie zróżnicowania i proporcji): zi = dr Michał Trzęsiok xi max {|xi |} Graficzna prezentacja danych statystycznych Skale pomiaru zmiennych Przykładowe wykresy Linki do dobrych przykładów Przekształcanie zmiennych na potrzeby wykresów Przekształcenia dla zmiennych o asymetrii prawostronnej Dla zmiennych, które charakteryzują się silną asymetrią prawostronną (duża koncentracja wartości poniżej średniej) można zastosować przekształcenie skali do skali logarytmicznej lub spierwiastkować. W ten sposób obserwacje ekstremalne nie są aż tak oddalone na wykresie a obserwacje w części poniżej średniej są „rozciągnięte”, przez co lepiej widać ich wewnętrzne zróżnicowanie: logarytmowanie skali: xi∗ = ln xi pierwiastkowanie skali : xi∗ = dr Michał Trzęsiok √ xi Graficzna prezentacja danych statystycznych Skale pomiaru zmiennych Przykładowe wykresy Linki do dobrych przykładów Przekształcanie zmiennych na potrzeby wykresów Graficzna prezentacja danych statystycznych Szkolenie dla pracowników Urzędu Statystycznego nt. Wybrane metody statystyczne w analizach makroekonomicznych dr Michał Trzęsiok Katowice, 12 i 26 czerwca 2014 r. dr Michał Trzęsiok Graficzna prezentacja danych statystycznych