tabele liczności • wykresy słupkowe • histogramy • wykresy kołowe
Transkrypt
tabele liczności • wykresy słupkowe • histogramy • wykresy kołowe
STATYSTYKA OPISOWA (lab. 4) opr. Marek Sobolewski ANALIZA ZALEŻNOŚCI POMIĘDZY DWIEMA CECHAMI STATYSTYCZNYMI. TABELE WIELODZIELCZE, ANALIZA KORELACJI, STATYSTYKI W GRUPACH. ELEMENTY WNIOSKOWANIA STATYSTYCZNEGO NA PRZYKŁADZIE TESTU NIEZALEŻNOŚCI CHI-KWADRAT. W trakcie zajęć wprowadzone zostaną metody analizy zależności pomiędzy dwiema cechami statystycznymi. Wybór odpowiedniej techniki analitycznej uwarunkowany jest charakterem porównywanych cech: dla dwóch cech nominalnych tworzy się dwuwymiarową tabelę liczności, w której wyznacza się strukturę procentową odpowiedzi na jedno pytanie względem wariantów drugiej cechy (i/lub vice versa) – w programie STATISTICA jest to analiza TABEL WIELODZIELCZYCH; w przypadku, gdy jedna cecha ma charakter liczbowy a druga nominalny, wyznacza się statystyki opisowe (średnią, medianę i inne) dla cechy liczbowej względem wariantów cechy nominalnej – w programie STATISTICA służy do tego analiza PRZEKROJE (ANOVA); kiedy obie cechy mają charakter liczbowy, wyznacza się współczynnik korelacji, który pozwala określić siłę i kierunek zależności – w programie STATISTICA służy do tego analiza MACIERZE KORELACJI. O testach statystycznych TESTY STATYSTYCZNE służą do oceny, czy zależności zaobserwowane w próbie są efektem ogólniejszej prawidłowości panującej w całej populacji czy tylko przypadkowym rezultatem. Wynikiem testu statystycznego jest tzw. PRAWDOPODOBIEŃSTWO TESTOWE (p), którego niskie wartości świadczą o istotności statystycznej rozważanej zależności. Przyjmuje się przy tym najczęściej następujące reguły: gdy p < 0,05 mówimy o statystycznie istotnej zależności (oznaczamy ten fakt za pomocą *); p < 0,01 to wysoce istotna zależności (**); p < 0,001 to bardzo wysoko istotna statystycznie zależność (***). Przykład 1 (Opinie o integracji z UE (2004)) Badanie przeprowadzono bezpośrednio po wejściu Polski do UE w lecie 2004 r. Stosując poznane już metody grupowania danych w programie STATISTICA proszę odpowiedzieć na następujące pytania: ile osób ……… i jaki procent ankietowanych osób ………% obawiał się podwyżek cen żywności po wejściu Polski do UE; ile osób ……… i jaki procent ankietowanych osób ………% obawiał się podwyżek cen energii elektrycznej po wejściu Polski do UE; Celem dalszej analizy będzie porównanie poglądów na te kwestie wśród mieszkańców miast i wsi. Ponieważ rozważane cechy mają charakter nominalny, więc właściwym narzędziem będzie ANALIZA TABEL WIELODZIELCZYCH. Etapy analizy: 1) Za pomocą polecenia STATYSTYKA wybieramy grupę analiz STATYSTYKI PODSTAWOWE I TABELE a następnie TABELE WIELODZIELCZE. Określamy tabelę (wybieramy zmienne) – na pierwszej liście wskazujemy Miejsce zamieszkania a na drugiej Czy obawiasz się wzrostu cen żywności? – i przechodzimy do okna wyników za pomocą przycisku OK. 2) Wywołujemy tabelę wynikową za pomocą przycisku PODSUMOWANIE. Dowiadujemy się, jak mieszkańcy miast i wsi odpowiadali na rozważane pytanie – jednak porównanie opinii obu tych grup jest trudne, bez wyznaczenia struktury procentowej. Ponieważ miejsce ustawione jest „w wierszach”, w zakładce OPCJE zaznaczamy PROCENTY W WIERSZACH. 1 STATYSTYKA OPISOWA (lab. 4) opr. Marek Sobolewski 3) Zaznaczamy także test CHIKWADRAT Pearsona i NW. Aby wywołać tabele wynikowe nie posługujemy się przyciskiem PODSUMOWANIE lecz w zakładce WIĘCEJ naciskamy DOKŁADNE TABELE DWUDZIELCZE. W dwóch tabelach wynikowych znajdują się liczności i procenty oraz wynik testu niezależności chikwadrat. Wyniki komponujemy w poniższej tabeli a następnie interpretujemy wartość p i opisujmy charakter zależności, jeżeli takowa występuje. Miejsce zamieszkania miasto wieś Razem Czy obawiasz się wzrostu cen żywności? (p = tak nie …… (…… %) …… (…… %) …… (…… %) …… (…… %) …… …… ) Razem …… …… …… Opis i interpretacja wartości p oraz struktury procentowej odpowiedzi ............................................................. .............................................................................................................................................................................. .............................................................................................................................................................................. .............................................................................................................................................................................. Przykład 2 (Opinie o integracji z UE (2004)) W analogiczny sposób proszę zbadać zależności pomiędzy: płcią i obawą przed wzrostem cen żywności; sytuacją finansową i sposobem głosowania w referendum europejskim. Liczności i wartości procentowe proszę umieścić w poniższych tabelach, podobnie wartości p – proszę zinterpretować uzyskane wyniki. Dla każdej tabeli należy przemyśleć sposób wyznaczania struktury procentowej – według wierszy czy według kolumn? Czy obawiasz się wzrostu cen żywności? tak nie Razem Płeć (p = mężczyzna …… (…… %) …… (…… %) …… ) kobieta …… (…… %) …… (…… %) …… Razem …… …… …… Opis i interpretacja wartości p oraz struktury procentowej odpowiedzi ............................................................. .............................................................................................................................................................................. .............................................................................................................................................................................. .............................................................................................................................................................................. Sposób głosowania w referendum europejskim tak nie Razem raczej dobra Sytuacja finansowa (p = dobra średnia ) raczej zła zła …… (…… %) …… (…… %) …… (…… %) …… (…… %) …… (…… %) …… (…… %) …… (…… %) …… (…… %) …… (…… %) …… (…… %) …… …… …… …… …… Razem …… …… …… Opis i interpretacja wartości p oraz struktury procentowej odpowiedzi ............................................................. .............................................................................................................................................................................. .............................................................................................................................................................................. .............................................................................................................................................................................. 2 STATYSTYKA OPISOWA (lab. 4) opr. Marek Sobolewski Przykład 3 (Wybrane wskaźniki (Europa)) Celem analizy będzie porównanie poziomu rozwoju społeczeństw postkomunistycznych do pozostałych państw europejskich. Analiza będzie miała charakter ogólny, porównamy pewne statystyki opisowe wybranych wskaźników rozwoju społecznego i gospodarczego w grupie państw postkomunistycznych i kapitalistycznych („od zawsze”). Ponieważ jedna z porównywanych cech ma charakter nominalny a pozostałe liczbowy, do analizy wykorzystana zostanie metoda PRZEKROJE (PROSTA ANOVA) z grupy STATYSTYKI PODSTAWOWE I TABELE. Po otworzeniu okna tej analizy należy dokonać wyboru zmiennych. Uwaga! Proszę zwrócić uwagę, iż na drugiej liście zmiennych wybieramy cechę nominalną (grupującą) – w naszym przypadku zmienną Historia, zaś na pierwszej liście cechę (lub cechy) o charakterze liczbowych – lista tych cech znajduje się w poniższej tabeli. Po zatwierdzeniu wyboru zmiennych, przechodzi do okna Statystyki w grupach (wyniki). W tym oknie w zakładce Statystyki opisowe wybieramy takie miary, by móc uzupełnić poniższą tabelę. Wyniki proszę sformatować, a wybrane statystyki umieścić w poniższej tabeli. Wybrane miary poziomu rozwoju społecznego i gospodarczego Państwa… postkomunistyczne kapitalistyczne Me min max Me min max Oczekiwany czas trwania życia mężczyzn (2010) PKB per capita (2010) $PPP Indeks Wolności Gospodarczej (2012) Na podstawie uzyskanych wielkości proszę opisać wyniki, zwracając szczególną uwagę na kwestię porównania obu grup krajów ............................................................................................................................... .............................................................................................................................................................................. .............................................................................................................................................................................. .............................................................................................................................................................................. .............................................................................................................................................................................. .............................................................................................................................................................................. Proszę wznowić analizę i wykonać ilustrację graficzną wyników za pomocą wykresu SKATEGORYZOWANEGO RAMKA-WĄSY (proszę wybrać wykres, na którym pokazany zostanie poziom mediany każdego wskaźnika w grupie państw postkomunistycznych i pozostałych). 3 STATYSTYKA OPISOWA (lab. 4) opr. Marek Sobolewski Przykład 4 (Wybrane wskaźniki (Europa)) Celem analizy będzie zbadanie zależności pomiędzy PKB per capita a poziomem bezrobocia w roku 2010. Ponieważ obie cechy mają charakter liczbowy, więc odpowiednim narzędziem do wykonania analizy będzie współczynnik korelacji. Proszę teraz zapoznać się z podstawowymi informacjami o współczynniku korelacji zawartymi w przypisie1. 1) Aby wyznaczyć wartość współczynnika korelacji z grupy STATYSTYKI PODSTAWOWE I TABELE wybieramy MACIERZE KORELACJI. Następnie dokonujemy wyboru zmiennych za pomocą przycisku DWIE LISTY ZMIENNYCH. Na pierwszej liście wskazujemy cechę, którą uznajemy bardziej za przyczynę niż skutek (tu proponujemy wybrać PKB per capita (2010) zaś na drugiej liście cechę, której wartości mogą być uzależnione od pierwszej (wybieramy Stopę bezrobocia (2010), zakładając że bogate państwa mają mniejsze problemy z sytuacją na rynku pracy). Oczywiście zmienne można wybrać też na odwrót – wyniki obliczeń będą identyczne, zaś jedyna różnica będzie dotyczyła układu tabeli i wykresu. 2) Wywołujemy wyniki za pomocą przycisku podsumowanie. Proszę odczytać i podać wartość współczynnika korelacji: r = ……..., a następnie zinterpretować otrzymanego wyniki (czy zależność istnieje, a jeżeli tak to jaka jest jej siła i kierunek): ............................................................... ................................................................................................................................................................. ................................................................................................................................................................. 3) Proszę przywołać okno analizy i zilustrować wyniki za pomocą wykresu rozrzutu (zakładka Więcej, 2W Rozrzutu). Można też wywołać wykres Z nazwami przypadków, na którym wszystkie kraje będą podpisane (przy dużej liczbie przypadków ten wykres jest raczej trudny do sformatowania, tak by jego wygląd był estetyczny i czytelny, ale można się z niego dowiedzieć, w których krajach badane cechy przyjmują wartości skrajne). 4) W analogiczny sposób proszę zbadać wpływ poziomu wolności gospodarczej2 na trzy zmienne: PKB per capita (2010), oczekiwany czas trwania życia mężczyzn (2010) i stopę bezrobocia (2010). Na którą z tych zmiennych poziom wolności gospodarczej nie ma niemal żadnego wpływu? 1 2 Współczynnik korelacji liniowej służy do badania siły zależności liniowej pomiędzy dwiema cechami liczbowymi i jest wskaźnikiem przyjmującym wartości z przedziału 1 do 1. O sile korelacji świadczy wartość bezwzględna współczynnika a znak o jego kierunku. Tak więc, współczynniki korelacji 0,9 czy –0,9 świadczą o tej samej (bardzo wysokiej sile korelacji), choć wnioski wyciągane na ich podstawie będą przeciwstawne – w pierwszym przypadku wraz ze wzrostem wartości jednej cechy wartości drugiej też rosną, a w drugim przypadku spadają. Przyjmuje się następującą skalę przymiotnikową, dotyczącą siły korelacji: | r | < 0,3 – brak korelacji; 0,3 | r | < 0,5 – słaba korelacja; 0,5 | r | < 0,7 – przeciętna korelacja; 0,7 | r | < 0,9 – silna korelacja; 0,9 | r | < 1 – bardzo silna korelacja; | r | = 1 – idealna korelacja. Dodatkowe informacje: wyniki mogą (i powinny) być uzupełniane rezultatami testu istotności współczynnika korelacji (p), które pozwalały ocenić, czy znaleziona w próbie zależność jest odbiciem ogólniejszej relacji panującej w całej populacji, czy tylko kwestią przypadku. Kwadrat współczynnika korelacji (R2), zwany współczynnikiem determinacji, określa jaki procent zmienności jednej cechy jest wyjaśniany przez wartości drugiej cechy (współczynnik determinacji jest zwykle wyrażany w procentach). Indeks Wolności Gospodarczej jest wskaźnikiem wyznaczanym corocznie dla większości państw świata. Wartości indeksu są syntezą informacji o obciążeniach fiskalnych, możliwości założenia własnej działalności gospodarczej, stopniu koncesjonowania działalności gospodarczej przez państwo i wielu innych czynników. Wartość Indeksu Wolności Gospodarczej zawiera się w przedziale od 0 do 100, przy czym wyższe wartości oznaczają większą swobodę w działalności gospodarczej. 4