Wykład 1: O statystyce i analizie danych

Transkrypt

Wykład 1: O statystyce i analizie danych
Wykład 1:
O statystyce
i analizie danych
Podstawowe informacje
wykładowca: dr Marek Sobolewski
konsultacje: poniedziałek 10.30-12.00,
czwartek 9.00-10.30 (p. L-400)
strona internetowa: www.msobolew.sd.prz.edu.pl
prowadzący laboratoria: Marek Sobolewski
wykład – 30 godz.
laboratorium – 15 godz.
forma zaliczenia: kolokwium
Zakres materiału (wykład)
• podstawowe pojęcia związane ze statystyczną analizą danych
• konstrukcja arkusza danych statystycznych w programie STATISTICA
• sposoby zbierania danych statystycznych (internetowe bazy danych)
• metody opisu danych statystycznych (grupowanie, statystyki opisowe,
prezentacje graficzne)
• indeksy statystyczne – analiza dynamiki zjawisk społeczno-gospodarczych
• elementy wnioskowania statystycznego – praktyczne wykorzystanie testów
statystycznych
• analiza zależności pomiędzy dwiema cechami statystycznymi
(współczynnik korelacji)
• przykład analizy wielowymiarowej – taksonomiczne metody
porządkowania liniowego
Zakres materiału (laboratorium)
1.
2.
3.
4.
5.
6.
7.
Arkusz danych w programie STATISTICA – konstrukcja, modyfikacja,
formuły arkusza danych
Tabelaryczny i graficzny sposób prezentacji danych (grupowanie –
tabele liczności, wykresy kołowe i histogramy, wykresy słupkowe)
Statystyki opisowe – sposób wyznaczania i interpretacji za pomocą
programu STATISTICA (tabele i wykresy ramka-wąsy)
Graficzne metody prezentacji danych w programie STATISTICA jako
uzupełnienie metod grupowania danych i wyznaczania statystyk
opisowych
Analiza zależności pomiędzy dwiema cechami – elementy wnioskowania
statystycznego.
Analiza danych czasowych – indeksy dynamiki
Kolokwium zaliczeniowe
Niektóre tematy
będą realizowane
tylko na wykładzie
Program STATISTICA
Większość obliczeń i prezentacji graficznych wykonywać
będziemy za pomocą programu STATISTICA (9.0) –
specjalistycznego narzędzia analizy danych.
Program STATISTICA jest zainstalowany w pracowniach,
ponadto licencja którą posiada Wydział Zarządzania i
Marketingu, uprawnia studentów do posługiwania się
programem na komputerach domowych.
Informacje o sposobie uzyskania wersji instalacyjnej programu
STATISTICA znajdują się na stronie (hasło: kmi2012):
http://kmiwe.portal.prz.edu.pl/do-pobrania/
Część obliczeń i analiz wykonywać będziemy także za pomocą arkusza
kalkulacyjnego Excel.
Zbiory danych
Podczas nauki statystyki będziemy najczęściej korzystać z
gotowych zbiorów danych – wszystkie pliki będą dostępne na
komputerach w pracowni w folderze:
C:\Elementy statystyki (pliki danych 2012)
Arkusze danych będą też dostępne na stronie domowej
wykładowcy w zakładce materiały do pobrania.
Uwaga! Do korzystania z baz danych wymagane jest
zainstalowanie programu STATISTICA.
Literatura
1. Hydzik P., Sobolewski M., Komputerowa analiza danych
społeczno-gospodarczych,
Oficyna
Wydawnicza
Politechniki Rzeszowskiej, Rzeszów 2007.
2. Laudański L.M., Statystyka nie tylko dla licencjatów,
Oficyna Wydawnicza Politechniki Rzeszowskiej,
Rzeszów 2007.
Dodatkowe pozycje podawane będą
do poszczególnych tematów
CO TO JEST STATYSTYKA?
STATYSTYKA – zbiór metod badania zjawisk masowych
(zbieranie i przetwarzanie danych):
• Statystyka opisowa to narzędzia prezentacji i opisu
posiadanych danych.
• Statystyka matematyczna to zbiór narzędzi wnioskowania
statystycznego, które pozwalają na podstawie posiadanych
danych wyciągać wnioski natury ogólniejszej.
STATYSTYKA / ANALIZA DANYCH
a „stosunki międzynarodowe”
Według standardów nauczania dla kierunku Stosunki międzynarodowe
absolwent powinien „[…] zdobyć umiejętności analizy problemów krajowych
w perspektywie międzynarodowej […] absolwent powinien być przygotowany
do pracy: na stanowiskach analityka i specjalisty średniego szczebla w
administracji państwowej i samorządowej; w organizacjach i instytucjach
międzynarodowych lub krajowych współpracujących z zagranicą oraz w
przedsiębiorstwach działających na rynkach międzynarodowych […]”
Jednostka statystyczna,
próba i populacja
Przedmiotem analiz statystycznych są tzw. JEDNOSTKI
STATYSTYCZNE, czyli obiekty podlegające badaniu, których
cechy (dane) są analizowane.
Zbiór jednostek statystycznych, o których posiadamy dane
będące przedmiotem analizy nazywany jest PRÓBĄ
(STATYSTYCZNĄ).
Szerszy zbiór jednostek, o którym nie posiadamy danych, lecz
chcemy go poznać na podstawie próby jest określany jako
POPULACJA.
Aby móc wnioskować o populacji na podstawie próby należy
zastosować metody WNIOSKOWANIA STATYSTYCZNEGO –
niezbędnym jednak warunkiem jest to, by próba była
REPREZENTATYWNA dla całej populacji.
Przykłady badań statystycznych
Temat badania
Sondaż wyborczy
Wykorzystanie środków
unijnych
w gminach woj.
podkarpackiego
Poziom życia w Polsce
na tle innych państw
Unii Europejskiej
Zadowolenie
mieszkańców Rzeszowa
z rozwoju miasta w
ostatnich latach
Jednostka
statystyczna
Próba
Populacja
Dorosły mieszkaniec
Polski
Losowy podzbiór
mieszkańców Polski
(zwykle ok. 1000 osób)
Wszyscy mieszkańcy
Polski
(BADANIE
CZĘŚCIOWE)
Gmina
Gminy woj.
podkarpackiego
(N = 160)
Tak jak próba
(BADANIE PEŁNE)
Państwo
Państwa należące
do UE
(N = 27)
Tak jak próba
(BADANIE PEŁNE)
Losowo wybrani
mieszkańcy Rzeszowa
Wszyscy mieszkańcy
Rzeszowa
(BADANIE
CZĘŚCIOWE)
Mieszkaniec Rzeszowa
Rodzaje badań
statystycznych
Badanie statystyczne może mieć charakter PEŁNY lub
NIEPEŁNY (badanie częściowe).
Wykonanie jedynie badanie częściowego może być
spowodowane:
• kosztami i czasochłonnością wykonania badania pełnego
(sondaż wyborczy, badanie opinii publicznej);
• niemożnością wykonania badania pełnego, z powodu
otwartego charakteru populacji (badanie skuteczności leków,
jakości nauczania statystyki);
• niszczeniem elementów podlegających badaniu (kontrola
jakości produktów spożywczych).
Cechy statystyczne
i ich rodzaje
Dobór metody analizy statystycznej zależy od charakteru CECH
podlegających badaniu. Z praktycznego punktu widzenia istotna
jest umiejętność rozróżnienia trzech typów cech statystycznych:
• cechy mierzalne (ilościowe, liczbowe)
Sątotocechy,
cechy,których
którychwartości
wartościsą
sąwyrażane
wyrażaneza
zapomocą
pomocąliczb:
liczb:
Są
wiek,dochody,
dochody,ocena
ocenazezestatystyki,
statystyki,stopa
stopabezrobocia,
bezrobocia,środki
środki
wiek,
unijnepozyskane
pozyskaneprzez
przezgminę
gminęwwroku
roku2009,
2009,itd.
itd.
unijne
• cechy porządkowe
Są toto cechy,
cechy,których
którychwartości
wartości nie
niesą
są wyrażane
wyrażaneza
za pomocą
pomocą
Są
liczb ale
ale dają
dają się
się logicznie
logicznie uszeregować:
uszeregować: poziom
poziom
liczb
wykształcenie,stosunek
stosunekemocjonalny
emocjonalnydo
doreklamy,
reklamy,itd.
itd.
wykształcenie,
• cechy nominalne (jakościowe)
Sątotocechy,
cechy,których
którychwarianty
wariantyokreślają
określajątylko
tylkoi iwyłącznie
wyłącznie
Są
przynależnośćdo
dopewnej
pewnejgrupy:
grupy:płeć,
płeć,miejsce
miejscezamieszkania,
zamieszkania,
przynależność
kierunekstudiów,
studiów,posiadanie
posiadanieprawa
prawajazdy,
jazdy,itd.
itd.
kierunek
Typy danych
statystycznych
Ze względu na charakter jednostek statystycznych podlegających
badaniu wyodrębniamy trzy podstawowe typy zbiorów danych:
• dane ankietowe (kwestionariuszowe) - charakteryzują się
losowym doborem próby z większej populacji, jednostki
podlegające badaniu są nierozróżnialne;
• dane przekrojowe - zwykle są efektem przeprowadzenia
badania pełnego, jednostki podlegające badaniu są rozróżnialne i
mogą to być: państwa, regiony, miasta itp.;
• dane czasowe - jednostki są tutaj kolejnymi momentami
(okresami) czasu, w których dokonywano pomiaru - mogą to być
sesje giełdowe, dni, tygodnie, lata. Oczywiście są one
rozróżnialne, co więcej istotna jest ich kolejność.