Wykład 1: O statystyce i analizie danych
Transkrypt
Wykład 1: O statystyce i analizie danych
Wykład 1: O statystyce i analizie danych Podstawowe informacje wykładowca: dr Marek Sobolewski konsultacje: poniedziałek 10.30-12.00, czwartek 9.00-10.30 (p. L-400) strona internetowa: www.msobolew.sd.prz.edu.pl prowadzący laboratoria: Marek Sobolewski wykład – 30 godz. laboratorium – 15 godz. forma zaliczenia: kolokwium Zakres materiału (wykład) • podstawowe pojęcia związane ze statystyczną analizą danych • konstrukcja arkusza danych statystycznych w programie STATISTICA • sposoby zbierania danych statystycznych (internetowe bazy danych) • metody opisu danych statystycznych (grupowanie, statystyki opisowe, prezentacje graficzne) • indeksy statystyczne – analiza dynamiki zjawisk społeczno-gospodarczych • elementy wnioskowania statystycznego – praktyczne wykorzystanie testów statystycznych • analiza zależności pomiędzy dwiema cechami statystycznymi (współczynnik korelacji) • przykład analizy wielowymiarowej – taksonomiczne metody porządkowania liniowego Zakres materiału (laboratorium) 1. 2. 3. 4. 5. 6. 7. Arkusz danych w programie STATISTICA – konstrukcja, modyfikacja, formuły arkusza danych Tabelaryczny i graficzny sposób prezentacji danych (grupowanie – tabele liczności, wykresy kołowe i histogramy, wykresy słupkowe) Statystyki opisowe – sposób wyznaczania i interpretacji za pomocą programu STATISTICA (tabele i wykresy ramka-wąsy) Graficzne metody prezentacji danych w programie STATISTICA jako uzupełnienie metod grupowania danych i wyznaczania statystyk opisowych Analiza zależności pomiędzy dwiema cechami – elementy wnioskowania statystycznego. Analiza danych czasowych – indeksy dynamiki Kolokwium zaliczeniowe Niektóre tematy będą realizowane tylko na wykładzie Program STATISTICA Większość obliczeń i prezentacji graficznych wykonywać będziemy za pomocą programu STATISTICA (9.0) – specjalistycznego narzędzia analizy danych. Program STATISTICA jest zainstalowany w pracowniach, ponadto licencja którą posiada Wydział Zarządzania i Marketingu, uprawnia studentów do posługiwania się programem na komputerach domowych. Informacje o sposobie uzyskania wersji instalacyjnej programu STATISTICA znajdują się na stronie (hasło: kmi2012): http://kmiwe.portal.prz.edu.pl/do-pobrania/ Część obliczeń i analiz wykonywać będziemy także za pomocą arkusza kalkulacyjnego Excel. Zbiory danych Podczas nauki statystyki będziemy najczęściej korzystać z gotowych zbiorów danych – wszystkie pliki będą dostępne na komputerach w pracowni w folderze: C:\Elementy statystyki (pliki danych 2012) Arkusze danych będą też dostępne na stronie domowej wykładowcy w zakładce materiały do pobrania. Uwaga! Do korzystania z baz danych wymagane jest zainstalowanie programu STATISTICA. Literatura 1. Hydzik P., Sobolewski M., Komputerowa analiza danych społeczno-gospodarczych, Oficyna Wydawnicza Politechniki Rzeszowskiej, Rzeszów 2007. 2. Laudański L.M., Statystyka nie tylko dla licencjatów, Oficyna Wydawnicza Politechniki Rzeszowskiej, Rzeszów 2007. Dodatkowe pozycje podawane będą do poszczególnych tematów CO TO JEST STATYSTYKA? STATYSTYKA – zbiór metod badania zjawisk masowych (zbieranie i przetwarzanie danych): • Statystyka opisowa to narzędzia prezentacji i opisu posiadanych danych. • Statystyka matematyczna to zbiór narzędzi wnioskowania statystycznego, które pozwalają na podstawie posiadanych danych wyciągać wnioski natury ogólniejszej. STATYSTYKA / ANALIZA DANYCH a „stosunki międzynarodowe” Według standardów nauczania dla kierunku Stosunki międzynarodowe absolwent powinien „[…] zdobyć umiejętności analizy problemów krajowych w perspektywie międzynarodowej […] absolwent powinien być przygotowany do pracy: na stanowiskach analityka i specjalisty średniego szczebla w administracji państwowej i samorządowej; w organizacjach i instytucjach międzynarodowych lub krajowych współpracujących z zagranicą oraz w przedsiębiorstwach działających na rynkach międzynarodowych […]” Jednostka statystyczna, próba i populacja Przedmiotem analiz statystycznych są tzw. JEDNOSTKI STATYSTYCZNE, czyli obiekty podlegające badaniu, których cechy (dane) są analizowane. Zbiór jednostek statystycznych, o których posiadamy dane będące przedmiotem analizy nazywany jest PRÓBĄ (STATYSTYCZNĄ). Szerszy zbiór jednostek, o którym nie posiadamy danych, lecz chcemy go poznać na podstawie próby jest określany jako POPULACJA. Aby móc wnioskować o populacji na podstawie próby należy zastosować metody WNIOSKOWANIA STATYSTYCZNEGO – niezbędnym jednak warunkiem jest to, by próba była REPREZENTATYWNA dla całej populacji. Przykłady badań statystycznych Temat badania Sondaż wyborczy Wykorzystanie środków unijnych w gminach woj. podkarpackiego Poziom życia w Polsce na tle innych państw Unii Europejskiej Zadowolenie mieszkańców Rzeszowa z rozwoju miasta w ostatnich latach Jednostka statystyczna Próba Populacja Dorosły mieszkaniec Polski Losowy podzbiór mieszkańców Polski (zwykle ok. 1000 osób) Wszyscy mieszkańcy Polski (BADANIE CZĘŚCIOWE) Gmina Gminy woj. podkarpackiego (N = 160) Tak jak próba (BADANIE PEŁNE) Państwo Państwa należące do UE (N = 27) Tak jak próba (BADANIE PEŁNE) Losowo wybrani mieszkańcy Rzeszowa Wszyscy mieszkańcy Rzeszowa (BADANIE CZĘŚCIOWE) Mieszkaniec Rzeszowa Rodzaje badań statystycznych Badanie statystyczne może mieć charakter PEŁNY lub NIEPEŁNY (badanie częściowe). Wykonanie jedynie badanie częściowego może być spowodowane: • kosztami i czasochłonnością wykonania badania pełnego (sondaż wyborczy, badanie opinii publicznej); • niemożnością wykonania badania pełnego, z powodu otwartego charakteru populacji (badanie skuteczności leków, jakości nauczania statystyki); • niszczeniem elementów podlegających badaniu (kontrola jakości produktów spożywczych). Cechy statystyczne i ich rodzaje Dobór metody analizy statystycznej zależy od charakteru CECH podlegających badaniu. Z praktycznego punktu widzenia istotna jest umiejętność rozróżnienia trzech typów cech statystycznych: • cechy mierzalne (ilościowe, liczbowe) Sątotocechy, cechy,których którychwartości wartościsą sąwyrażane wyrażaneza zapomocą pomocąliczb: liczb: Są wiek,dochody, dochody,ocena ocenazezestatystyki, statystyki,stopa stopabezrobocia, bezrobocia,środki środki wiek, unijnepozyskane pozyskaneprzez przezgminę gminęwwroku roku2009, 2009,itd. itd. unijne • cechy porządkowe Są toto cechy, cechy,których którychwartości wartości nie niesą są wyrażane wyrażaneza za pomocą pomocą Są liczb ale ale dają dają się się logicznie logicznie uszeregować: uszeregować: poziom poziom liczb wykształcenie,stosunek stosunekemocjonalny emocjonalnydo doreklamy, reklamy,itd. itd. wykształcenie, • cechy nominalne (jakościowe) Sątotocechy, cechy,których którychwarianty wariantyokreślają określajątylko tylkoi iwyłącznie wyłącznie Są przynależnośćdo dopewnej pewnejgrupy: grupy:płeć, płeć,miejsce miejscezamieszkania, zamieszkania, przynależność kierunekstudiów, studiów,posiadanie posiadanieprawa prawajazdy, jazdy,itd. itd. kierunek Typy danych statystycznych Ze względu na charakter jednostek statystycznych podlegających badaniu wyodrębniamy trzy podstawowe typy zbiorów danych: • dane ankietowe (kwestionariuszowe) - charakteryzują się losowym doborem próby z większej populacji, jednostki podlegające badaniu są nierozróżnialne; • dane przekrojowe - zwykle są efektem przeprowadzenia badania pełnego, jednostki podlegające badaniu są rozróżnialne i mogą to być: państwa, regiony, miasta itp.; • dane czasowe - jednostki są tutaj kolejnymi momentami (okresami) czasu, w których dokonywano pomiaru - mogą to być sesje giełdowe, dni, tygodnie, lata. Oczywiście są one rozróżnialne, co więcej istotna jest ich kolejność.