Graficzna prezentacja danych statystycznych

Transkrypt

Graficzna prezentacja danych statystycznych
Skale pomiaru zmiennych
Przykładowe wykresy
Graficzna prezentacja danych statystycznych
Szkolenie dla pracowników Urzędu Statystycznego
nt. Wybrane metody statystyczne w analizach
makroekonomicznych
dr Michał Trzęsiok
Katowice, 12 i 26 czerwca 2014 r.
dr Michał Trzęsiok
Graficzna prezentacja danych statystycznych
Skale pomiaru zmiennych
Przykładowe wykresy
Nieprecyzyjny podział
Ścisły podział cech
Skale pomiaru a miary statystyczne i typ wykresu
Dopasowanie narzędzia do typu zmiennej
Dobór narzędzia do analizy
Zarówno dobór miar statystycznych jak i sposób prezentacji danych
zależą od typu zmiennej (cechy), którą badamy.
Cecha
to pewna własność obiektów należących do pewnej zbiorowości,
wspólna dla wszystkich i przyjmująca wartości z określonego zbioru
Ze względu na sposób wyrażania wartości cechy można je podzielić
na:
metryczne (ilościowe, mierzalne),
niemetryczne (jakościowe, niemierzalne, opisowe)
dr Michał Trzęsiok
Graficzna prezentacja danych statystycznych
Skale pomiaru zmiennych
Przykładowe wykresy
Nieprecyzyjny podział
Ścisły podział cech
Skale pomiaru a miary statystyczne i typ wykresu
Zmienne ilościowe i jakościowe
Cecha ilościowa
Wartościami cech ilościowych są liczby, uzyskane w wyniku
pomiaru (np. wielkość PKB danego kraju, wielkość zatrudnienia
w firmie, liczba dzieci w rodzinie)
Cecha jakościowa
Wartościami cech jakościowych (choć dla odróżnienia częściej
mówi się o wariantach cechy jakościowej a nie jej wartościach) są
kategorie, uzyskane w wyniku pomiaru (kategorie czyli różnego
typu symbole, słowa) (np. płeć, imię, kolor)
Kontrowersje
Podział cech na ilościowe i jakościowe jest nieprecyzyjny
i wywołuje spory. Aby tego uniknąć, cechy dzielimy ze względu na
skale pomiaru [wyróżniamy 4 skale pomiaru]
dr Michał Trzęsiok
Graficzna prezentacja danych statystycznych
Skale pomiaru zmiennych
Przykładowe wykresy
Nieprecyzyjny podział
Ścisły podział cech
Skale pomiaru a miary statystyczne i typ wykresu
Skale pomiaru wg Stevensa
Pomiar
to porównanie cech ze wzorcem wyposażonym w odpowiednią skalę
Skala nominalna (skala nazw)
gdy między wartościami cechy X dla dwóch obiektów zachodzi jedna z relacji:
xA = xB lub xA 6= xB
(np. zmienna płeć o wariantach: kobieta, mężczyzna)
Skala porządkowa
gdy można określić znak różnicy pomiędzy wartościami cechy X , tj. zachodzi jedna
z relacji:
xA > xB lub xA < xB lub xA = xB lub xA 6= xB
(np. zmienna wykształcenie o wariantach: podstawowe, zawodowe, średnie, wyższe)
dr Michał Trzęsiok
Graficzna prezentacja danych statystycznych
Skale pomiaru zmiennych
Przykładowe wykresy
Nieprecyzyjny podział
Ścisły podział cech
Skale pomiaru a miary statystyczne i typ wykresu
Skale pomiaru wg Stevensa (2)
Skala przedziałowa
gdy można określić wielkość różnicy pomiędzy wartościami cechy X (o ile jednostek),
tj. na wartościach cechy dopuszczalne są operacje:
>, <, =, +, −
(np. zmienna temperatura o wartościach na skali Celsjusza lub poziom inteligencji
mierzony liczbą punktów z testu IQ)
Skala ilorazowa
gdy można określić krotność różnicy pomiędzy wartościami cechy X (ile razy), tj. na
wartościach cechy dopuszczalne są operacje:
>, <, =, +, −, ∗,
(np. zmienna temperatura o wartościach na skali Kelvina lub wzrost lub wiek)
Skala nominalna i porządkowa to tzw. skale słabe, a skala przedziałowa i ilorazowa to
tzw. skale mocne
dr Michał Trzęsiok
Graficzna prezentacja danych statystycznych
Skale pomiaru zmiennych
Przykładowe wykresy
Nieprecyzyjny podział
Ścisły podział cech
Skale pomiaru a miary statystyczne i typ wykresu
Dodatkowy podział zmiennych ilościowych
Zmienna skokowa (dyskretna)
przyjmujące wartości z pewnego skończonego lub przeliczalnego zbioru;
wyróżnia ją brak wartości pośrednich dla bliskich sobie wartości
(np. zmienna dzietność kobiet o wartościach ze zbioru: {0, 1, 2, 3, 4 . . .};
nie jest możliwe uzyskanie dzietności równej np. π)
Zmienna ciągła
przyjmujące wartości z pewnego nieskończonego, a dokładniej –
nieprzeliczalnego zbioru; wyróżnia ją to, że dla dowolnych dwóch wartości
zawsze możliwe jest uzyskanie wartości pośredniej
(np. zmienna wzrost; wprawdzie mówimy, że ktoś miał 112 cm a potem,
że urósł i ma 113 cm, ale tak naprawdę)jakąkolwiek liczbę między 112
a 113 pomyślimy, to każdy z nas musiał kiedyś mieć taki wzrost
dr Michał Trzęsiok
Graficzna prezentacja danych statystycznych
Skale pomiaru zmiennych
Przykładowe wykresy
Nieprecyzyjny podział
Ścisły podział cech
Skale pomiaru a miary statystyczne i typ wykresu
Dopasowanie mierników do skali pomiaru zmiennej
Miary
położenia
Miary
rozproszenia
Miary
korelacji
Nominalna
Porządkowa
Dominanta
Mediana
Przedziałowa
Średnia
arytmetyczna
Średnia
geometryczna
i harmoniczna
Entropia
Odchylenie
ćwiartkowe
Odchylenie
standardowe
Współczynnik
zmienności
Statystyka χ2
Współczynnik
korelacji τ Kendalla
Współczynnik
korelacji Pearsona
Stosunek
korelacyjny
Ilorazowa
dr Michał Trzęsiok
Graficzna prezentacja danych statystycznych
Skale pomiaru zmiennych
Przykładowe wykresy
Nieprecyzyjny podział
Ścisły podział cech
Skale pomiaru a miary statystyczne i typ wykresu
Dopasowanie typu wykresu do skali pomiaru zmiennej
dla zmiennych skokowych – diagramy
dla zmiennych ciągłych – histogramy
Złote reguły tworzenia histogramu
1
wszystkie obserwacje ze zbioru danych muszą być
uwzględnione na wykresie
2
sąsiednie przedziały na histogramie musza się „sklejać” (nie
może być „dziur” między przedziałami)
3
przedziały na histogramie nie mogą mieć części wspólnej
(przedziały muszą być otwarto–domknięte)
dr Michał Trzęsiok
Graficzna prezentacja danych statystycznych
Skale pomiaru zmiennych
Przykładowe wykresy
Linki do dobrych przykładów
Przekształcanie zmiennych na potrzeby wykresów
Linki do dobrych i złych przykładów wizualizacji danych
http://www.gapminder.org/
http://www.ted.com/talks/hans rosling shows the best stats you ve ever seen
http://smarterpoland.pl/index.php/category/zly-wykres/
http://prezi.com/xs3u0qcd6jph/jak-pokazywac-dane-i-jak-tego-nie-robic-torun-2013/
http://smarterpoland.pl/index.php/2014/01/lektury-szkolne/
dr Michał Trzęsiok
Graficzna prezentacja danych statystycznych
Skale pomiaru zmiennych
Przykładowe wykresy
Linki do dobrych przykładów
Przekształcanie zmiennych na potrzeby wykresów
Sprowadzanie wartości zmiennych do porównywalności
Zmienne można doprowadzić do porównywalności poprzez
ujednolicenie rzędów wielkości oraz pozbawienie różnych mian.
W tym celu stosuje się transformacje normalizacyjne:
standaryzacja (średnia = 0, wariancja = 1):
zi =
xi − x̄
s
normalizacja (zachowanie zróżnicowania i proporcji):
zi =
dr Michał Trzęsiok
xi
max {|xi |}
Graficzna prezentacja danych statystycznych
Skale pomiaru zmiennych
Przykładowe wykresy
Linki do dobrych przykładów
Przekształcanie zmiennych na potrzeby wykresów
Przekształcenia dla zmiennych o asymetrii prawostronnej
Dla zmiennych, które charakteryzują się silną asymetrią
prawostronną (duża koncentracja wartości poniżej średniej) można
zastosować przekształcenie skali do skali logarytmicznej lub
spierwiastkować. W ten sposób obserwacje ekstremalne nie są aż
tak oddalone na wykresie a obserwacje w części poniżej średniej są
„rozciągnięte”, przez co lepiej widać ich wewnętrzne zróżnicowanie:
logarytmowanie skali:
xi∗ = ln xi
pierwiastkowanie skali :
xi∗ =
dr Michał Trzęsiok
√
xi
Graficzna prezentacja danych statystycznych
Skale pomiaru zmiennych
Przykładowe wykresy
Linki do dobrych przykładów
Przekształcanie zmiennych na potrzeby wykresów
Graficzna prezentacja danych statystycznych
Szkolenie dla pracowników Urzędu Statystycznego
nt. Wybrane metody statystyczne w analizach
makroekonomicznych
dr Michał Trzęsiok
Katowice, 12 i 26 czerwca 2014 r.
dr Michał Trzęsiok
Graficzna prezentacja danych statystycznych

Podobne dokumenty