Pierwsza część materiałów na nowe tysiąclecie w pdf, całość

Transkrypt

Pierwsza część materiałów na nowe tysiąclecie w pdf, całość
Materiały pomocnicze
do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW
Semestr zimowy 2000/2001
część 1
Prowadzący ćwiczenia:
mgr Sylwia Bedyńska
mgr Agata Bieniek
mgr Jerzy Madej
mgr Piotr Radkiewicz
mgr Marcin Skład
mgr Irena Zinserling
Materiały opracowane przez zespół ISS, w składzie: Agata Bieniek, Jerzy Madej, Grzegorz
Król, Dorota Król, Piotr Radkiewicz, Marcin Skład, Irena Zinserling,
Pod kierunkiem prof. Grażyny Wieczorkowskiej
1
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
PAKIET STATYSTYCZNY SPSS
Analiza statystyczna danych eksperymentalnych czy też sondażowych jest sztuką,
której będziemy się uczyć w tym semestrze. W dzisiejszych czasach jest to dużo łatwiejsze
niż kiedyś, ponieważ dysponujemy komputerami wyposażonymi w dobry pakiet statystyczny.
Najpopularniejszym w świecie pakietem statystycznym, stosowanym w badaniach
marketingowych, społecznych i ekonomicznych, jest SPSS, program charakteryzujący się
wszechstronnością i łatwością użytkowania. Jest to rozbudowany system analizy danych
zdolny do współpracy z wieloma rodzajami danych i potrafiący korzystać z różnych
formatów plików arkuszy kalkulacyjnych i baz danych. Jest on wyposażony w procedury
generujące zarówno proste statystyki opisowe jak i złożone analizy statystyczne. Jego
niekwestionowaną zaletą są bogate i urozmaicone możliwości prezentacji danych (tabele,
tabelaryczne raporty, wykresy, rozkłady, trendy).
SPSS posiada okienkowy interfejs i możliwości uruchamiania większości procedur
przez kliknięcie myszką na odpowiednią pozycję menu. Z łatwością współpracuje także przy
pomocy OLE z innymi aplikacjami1, co bardzo często ułatwia przygotowywanie raportów.
”Okienkowa” forma programu jest swego rodzaju nadbudówką nad językiem poleceń
SPSS. Na język ten składają się procedury statystycznej analizy danych oraz procedury
służące do obróbki, transformacji i selekcji danych. Polecenia mogą być bezpośrednio
wykonywane w okienkach, przenoszone do specjalnego okienka i dopiero tam wykonywane,
lub wpisywane z klawiatury i dopiero wykonywane. Daje to potencjalną możliwość
budowania z poszczególnych poleceń całych programów transformacji i analizy danych, które
można następnie wielokrotnie wykonywać i modyfikować, korzystając z funkcji edytorskich.
SPSS jest pakietem składającym się z podstawowego modułu Base (obróbka,
transformacje, selekcja i graficzna prezentacja danych, statystyki opisowe i proste analizy
statystyczne) oraz z dodatkowych modułów, nabywanych opcjonalnie i wykorzystywanych
według zindywidualizowanych potrzeb.
Wyłącznym dystrybutorem pakietu SPSS na Polskę jest krakowska firma
COMPANION, która prowadzi również szkolenia w zakresie obsługi i analiz
z wykorzystaniem tego pakietu.
1
Znanym nam wyjątkiem jest MS Word 7.0/8.0, który nie przyjmuje obiektów graficznych SPSS.
2
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
ŚCIĄGAWKA Z SPSS
OKNA SPSS:
Po uruchomieniu programu widoczne są 2 lub 3 okna:
Edytor Raportów - okienko z wynikami analiz
[ albo *.SPO]
Edytor Danych - okienko z tabelą danych
[ albo *.SAV]
i czasami:
Edytor Poleceń - okienko komend
[ albo *.SPS]
Jeśli nie ma okienka Edytor Poleceń, należy je uruchomić przez menu: Plik > Nowy > Polecenia
Między okienkami można przechodzić przez menu: Okno - należy wybrać 1, 2 lub 3.
----------------------------------------------------------------------------------------------------------------------------------------
OPIS MENU:
(każde wcięcie oznacza wejście głębiej w menu)
PLIK
NOWY
DANE
POLECENIA
RAPORT
OTWÓRZ
dane
okienko komend (stare nie jest kasowane, nowe ma numer np.2)
okienko wyników (stare nie jest kasowane, nowe ma numer np.2)
otwórz zbiór zapisany na dysku. W zależności od tego, czy chcemy otworzyć
zbiór danych, polecenia, czy raport, należy w dolnym pasku pojawiającego
się okienka wybrać odpowiednie rozszerzenie pliku oraz podać lokalizację
(w dużym górnym oknie).
CZYTAJ DANE W ASCII – tu wczytujemy dane zapisane np. w pliku tekstowym
Z SEPARATORAMI PÓL DANYCH – gdy wpisane zmienne są rozdzielone (np. spacjami)
O ZADANEJ SZEROKOŚCI KOLUMN – gdy sami opisujemy w jakich kolumnach
mieszczą się kolejne zmienne
ZAPISZ
zapisz pod bieżącą nazwą
ZAPISZ JAKO...
zapisz pod nową nazwą i lokalizacją
DRUKUJ
wydrukuj okienko które jest na wierzchu
ZATRZYMAJ OBLICZENIA
zatrzymaj analizy w toku (np. jeśli się pomyliłe(a)ś)
ZAKOŃCZ
koniec pracy z SPSS
EDYCJA
edycja, jak w każdym edytorze (trochę się różni zależnie od okna)
COFNIJ
cofnij to co przed chwilą zrobiłeś
WYTNIJ
wytnij do pamięci
KOPIUJ
skopiuj do pamięci
WKLEJ
wstaw z pamięci
USUŃ
usuń zaznaczony fragment
ZNAJDŹ
znajdź np. określone słowo, liczbę itp.
ZAZNACZ WSZYSTKO zaznacz wszystko co się znajduje w otwartym oknie/dokumencie
SZUKAJ
szukaj, znajdź
ZAMIEŃ
szukaj i zamień
OPCJE
ustawianie preferencji użytkownika
DANE
dane, operacje na zbiorze danych
DEFINIUJ ZMIENNĄ definiowanie zmiennych (etykiety, wartości, braki danych)
WSTAW ZMIENNĄ
wstaw zmienną (nową kolumnę) w środek, przed kursorem
WSTAW OBSERWACJĘ – gdy chcemy dodać kolejną osobę (linijkę) do danych
SORTUJ OBSERWACJE sortuj dane według podanego kryterium
TRANSPONUJ
transpozycja, czyli zamiana rzędów na kolumny i na odwrót
POŁĄCZ DANE
połącz zbiory, dodając przypadki lub zmienne
AGREGUJ
agregowanie danych
PODZIEL NA PODZBIORY
podziel plik na podgrupy (np. do zrobienia korelacji w grupach)
WYBIERZ OBSERWACJE
wybierz przypadki z całego zbioru
PRZEKSZTAŁCENIA
przekształcenia danych
OBLICZ WARTOŚCI oblicz, utwórz nową zmienną, zmień istniejącą
ZLICZ WYSTĄPIENIA zlicz ile razy wystąpiła dana wartość (np. ile razy OB. zaznaczyła 7 na skali)
3
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
REKODUJ
przekoduj
NA TE SAME ZMIENNE w te same zmienne
NA INNE ZMIENNE
w nowe zmienne (opcja bezpieczniejsza!)
RANGUJ OBSERWACJE rangowanie, kwartyle, dzielenie wg mediany i podobne przekształcenia
WYKONAJ ZAWIESZONE wykonaj zaległe obliczenia (użyć jeśli w pasku statusu na dole ekranu
pojawi się napis "TRANSFORMACJE ZAWIESZONE")
STATYSTYKI
obliczenia statystyczne
OPIS STATYSTYCZNYopisz dane
CZĘSTOŚCI frekwencje, liczenie przedziałów procentowych
STATYSTYKI OPISOWE : średnia, odchylenie standardowe, kurtoza, skośność, min., max...
TABELE KRZYŻOWE tu należy szukać testu chi-kwadrat
PORÓWNYWANIE ŚREDNICH -porównaj średnie
ŚREDNIE...
drukuje średnie i odchylenia standard. W PODGRUPACH! (nie trzeba
dzielić zbioru na podgrupy przez DANE/PODZIEL NA PODZBIORY)
TEST –T DLA JEDNEJ PRÓBY...
TEST –T DLA PRÓB NIEZALEZNYCH...
TEST –T DLA PRÓB ZALEZNYCH...
JEDNOCZYNNIKOWA ANOVA najprostsza (i najłatwiejsza w użyciu) analiza wariancji
OGÓLNY MODEL LINIOWY modele analizy wariancji
OGÓLNY CZYNNIKOWY prosta, wieloczynnikowa
WIELU ZMIENNYCH
bardziej złożona - wieloczynnikowa z kontrastami
KORELACJE korelacje (żeby zrobić w grupach, najpierw trzeba PODZIELIĆ NA PODZBIORY)
PARAMI
proste korelacje
WYKRESY
SŁUPKOWY
LINIOWY
WARSTWOWY
KOŁOWY
MAX-MIN
PARETO
grafika
słupkowy
liniowy
powierzchniowy
kołowy
kreśli zestawy dwóch lub trzech wartości, np. min. i max. cena
słupkowy z nałożoną linią pokazującą skumulowane wartości wszystkich
poprzednich słupków
KARTY KONTROLNE liniowy, do pokazywania przebiegu procesów
SKRZYNKOWY
blokowy, pokazuje medianę, kwartyle, przypadki skrajne
SŁUPKI BŁĘDU
j. w.
ROZRZUTU
wykres rozrzutu (korelacyjny)
HISTOGRAM
histogram, rozkłady poszczególnych zmiennych
P-P
skumulowany rozkład zmiennej na tle rozkładu normalnego
K-K
rozkład zmiennej na tle rozkładu normalnego
• wykresy dla serii czasowych i danych panelowych:
SEKWENCYJNY
SZEREGI CZASOWE
AUTOKORELACJE
KORELACJE KRZYŻOWE
ANALIZA SPEKTRALNA
NARZĘDZIA
użyteczne polecenia
ZMIENNE
lista zmiennych
SŁOWNIK DANYCH
NOWA OBSERWACJA -AUTO automatycznie dodaje nowy przypadek, lepiej żeby nie wyłączać
OKNO
NAZWY
okno, manipulacja wyglądem, przejście z okna do okna
lista otwartych okienek do wyboru
POMOC
pomoc do programu
SPIS TREŚCI I INDEKS
(UWAGA – wyjaśnienia po angielsku!)
SAMOUCZEK
STRONA MACIERZYSTA SPSS
STATISTIC COACH
INFORMACJE O PROGRAMIE
----------------------------------------------------------------------------------------------------------------------------------------
4
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
NAJCZĘŚCIEJ UŻYWANE PRZYCISKI
OK
WKLEJ
RESETUJ
ANULUJ
OPCJE
DALEJ
DODAJ
ZMIEŃ
USUŃ
DEFINIUJ (GRUPY)
potwierdzenie (wykonanie) polecenia
nie wykonuj, tylko zapisz polecenie w okienku poleceń (SYNTAX)
wyczyść zawartość bieżącego okienka ze starych śmieci
rezygnacja
różne opcje
kontynuacja
dodaj
zmień
usuń (wycofaj)
ustal zakres (najczęściej czynnika, np. 0...4)
----------------------------------------------------------------------------------------------------------------------------------------
O WYKRESACH W SPSS
Każdy nowy wykres pojawia się w oknie Edytor Raportów. W tym oknie można edytować wykresy
poprzez dwukrotne kliknięcie myszką na obszarze wykresu. Po wykonaniu tej operacji, pojawi się nowe okno –
Edytor Wykresów.
Menu okna EDYTOR WYKRESÓW
Grupy menu:
PLIK i EDYCJA nie różnią się zbytnio od innych okien.
GALERIA daje możliwość zmiany typu wykresu (kołowy, słupkowy, liniowy itd.)
USTAWIENIA dają możliwość manipulowania wyglądem bieżącego wykresu.
UWAGA: zawartość tego menu zmienia się wraz z typem wykresu. Jest inna na
przykład dla słupkowego i inna dla wykresu rozrzutu.
• OPCJE
- specyficzne dla każdego typu wykresu
• OSIE
- wygląd osi pionowej i poziomej: opis, wielkość, typ oznaczeń
• ODSTĘPY
- zmiana odstępów między słupkami w wykresach
• TYTUŁ
- tytuł wykresu - (zwykle tu należy zmienić czcionkę na CE)
• PRZYPIS
- stopka dla wykresu
• LEGENDA
- wyświetlanie legendy wykresu
• KOMENTARZ - dodaje tekst w wybranym miejscu wykresu. Nie dla każdego typu
• LINIA REFERENCYJNA - wstawia poziomą / pionową linię odniesienia
• RAMKA WEWNĘTRZNA/ZEWNĘTRZNA - obramowanie wewnętrzne / zewnętrzne
• ODŚWIEŻ
- przerysuj wykres jeszcze raz (np. po wprowadzonych zmianach)
5
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
SŁOWNICZEK SPSS (może się przydać w oknie Edytor Poleceń)
ALL - wszystkie/wszystko
ANOVA (skrót od ANalysis Of VAriance)- analiza wariancji
BETWEEN - pomiędzy (grupami)
BIVARIATE - proste, dwuzmiennowe
CASE - przypadek
COMPUTE - oblicz, utwórz, przelicz
CONDITION - warunek do spełnienia
COUNT - zlicz
DATA - dane
DEPENDENT - zależny, wyjaśniany (wyjaśniana zmienna, cecha), np. poziom adrenaliny
FACTOR - czynnik wyjaśniający, to samo co INDEPENDENT
F/t, F/t value - wartość testu F/t
IF - jeśli, warunek do spełnienia
INDEPENDENT - niezależny, wyjaśniający (np. stres wyjaśnia różnice w poziomie adrenaliny)
MEAN - średnia
OUTPUT - wyniki
SIGNIFICANCE LEVEL - poziom istotności
SIG, SIGNIFICANCE OF (F) - istotność testu, czyli jakie jest prawdopodobieństwo, że nie ma żadnych
różnic pomiędzy grupami, które porównujemy. Np. jeśli istotność (p) jest mniejsza od 0.05, to przyjmuje się,
że występują istotne statystycznie różnice.
STANDARD DEVIATION - odchylenie standardowe
SYNTAX - komendy
TARGET VARIABLE - nowa nazwa
VARIABLE - zmienna
WITHIN - wewnątrz (grup)
$casenum - numer przypadku - tego nie widać, a czasem się przydaje przy wyborze przypadków do
przekształceń, jeśli się nie stworzyło własnej numeracji np. zastosuj wzór dla
osoby od 1 do 20:
$casenum < 21, czyli dla każdej osoby o numerze mniejszym niż 21.
SŁOWNICZEK STATYSTYCZNY
axis approximation case cell cell width cell format chi-square test coefficient comparing comparing groups computing variables confidence interval correlation bivariate correlation partial correlation correlation matrix crosstabulation covariance descriptive statistics dichotomy dichotomous variable distribution estimation error estimation frequencies kurtosis – kurtoza,
oś
przybliżenie
przypadek
komórka
szerokość komórki
format komórki
test chi-kwadrat
współczynnik
porównywanie
porównywanie grup
tworzenie zmiennych
przedział ufności
korelacja
korelacja dwuzmiennowa
korelacja cząstkowa
macierz korelacji
tabele krzyżowe
kowariancja
statystyki opisowe
dwuwartościowość
zmienna dwuwartościowa
rozkład
oszacowanie
oszacowanie błędu
częstości
miara koncentracji rozkładu
6
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
label -
etykietka
etykietka zmiennej
etykietka jednej z wartości zmiennej
mean średnia
measures of central tendency miary tendencji centralnej
measures of dispersion miary rozproszenia
median mediana
mode modalna (dominanta)
missing values braki danych
multiple R współczynnik korelacji wielokrotnej
normal curve krzywa normalna
percentiles centyle
pie chart wykres kołowy
probability prawdopodobieństwo
conditional probabbility - prawdopodobieństwo warunkowe
joint probability prawdopodobieństwo łączne
R coefficient współczynnik korelacji R
R square coefficient współczynnik determinacji R kwadrat
random sample próba losowa
range zakres
row wiersz
rows and columns wiersze i kolumny
quartiles kwartyle
sample size wielkość próby
scatterplot wykres rozrzutu
scale skala
nominal scale skala nominalna
ordinal scale skala porządkowa (rangowa)
interval scale skala przedziałowa (interwałowa)
ratio scale skala stosunkowa (ilorazowa)
skewness skośność
split-file analysis analiza podzbiorów w zbiorze danych
standard deviation odchylenie standardowe
standard error błąd standardowy
T-test test T
independent-samples T-test - test T dla prób niezależnych
one-sample T-test test T dla jednej próby
paired samples T-test - test T dla prób zależnych (sparowanych)
variable zmienna
numeric variable zmienna numeryczna
string variable zmienna tekstowa
variance wariancja
weighting cases ważenie przypadków
z-scores wyniki standaryzowane
variable label value label -
7
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
INFORMACJE O PGSS
Na zajęciach analizowane będą dane pochodzące z Polskiego Generalnego Sondażu Społecznego
Cele i problematyka PGSS
Polski Generalny Sondaż Społeczny (PGSS) jest, od 1992 roku, powtarzanym badaniem zmian
zachodzących w społeczeństwie polskim. Problematyka badań obejmuje główne nurty zainteresowań polskiej i
światowej czołówki badaczy różnych dyscyplin nauk społecznych: socjologii, psychologii społecznej, nauk
politycznych, ekonomii oraz aksjologii. W celu umożliwienia systematycznego badania trendów związanych z
polityczną, ekonomiczną i społeczno-kulturową transformacją w Polsce, w programie PGSS położono nacisk na
dokładną replikę większości pytań i wskaźników w kolejnych edycjach badania. Dane PGSS pochodzą z
indywidualnych wywiadów kwestionariuszowych, realizowanych na reprezentatywnych próbach około 1650
dorosłych Polaków (powyżej 17 roku życia). Połączone zbiory danych z pięciu badań zrealizowanych w latach
1992-1997 obejmują około 9 tysięcy zbadanych osób, a każda z nich jest charakteryzowana przez blisko 800
wskaźników społecznych.
W zbiorach, którymi będziemy posługiwać się podczas ćwiczeń przy komputerach uwzględniono tylko
część zmiennych – podzbiór odpowiedzi na kilkadziesiąt pytań.
W PGSS położono duży nacisk na konstrukcję wskaźników umożliwiających badanie trendów w
uwarstwieniu i nierównościach społecznych w Polsce, obejmujących różne płaszczyzny położenia społecznoekonomicznego (dochody, zarobki, warunki życia), zawodowego (pozycje i role zawodowe, segmentacja rynku
pracy, bezrobocie), edukacyjnego i kulturowego (pochodzenie społeczne, struktura rodziny, zróżnicowania
regionalne). Danym tym towarzyszą wskaźniki mierzące: subiektywną percepcję uwarstwienia i nierówności w
Polsce, klasowe i warstwowe autoidentyfikacje, ocenę warunków życia własnych i rodziny oraz szanse na ich
poprawę.
Wydzielona grupa pytań charakteryzuje poglądy i zachowania polityczne Polaków, obejmujące
między innymi;
(a) zachowania wyborcze (wybory parlamentarne i prezydenckie),
(b) percepcję polityki (zainteresowania polityką i życiem publicznym, preferowane cele polityki,
ocena roli rządu w gospodarce i życiu społecznym),
(c) preferencje ideologiczne (opinie o komunizmie i socjalizmie, orientacje na skali lewica/prawica,
tolerancja ideologiczna),
(d) oceny funkcjonowania systemu politycznego (opinie o funkcjonowaniu demokracji, zaufanie do
głównych instytucji politycznych, społecznych i gospodarczych w Polsce, oceny wydatków
budżetu na cele publiczne).
Międzynarodowa pozycja PGSS
PGSS zdobył wysokie uznanie w oczach światowej czołówki badaczy nauk społecznych. W ciągu
pięciu edycji badania, z danych (w postaci elektronicznej) i z publikacji PGSS (wydano 5 tomów w j. angielskim
i polskim) skorzystało wielu międzynarodowych badaczy, zatrudnionych w czołowych ośrodkach badań
społecznych. Oceniamy, że wyniki PGSS należą obecnie do najczęściej cytowanych na świecie programów
badań z nauk społecznych realizowanych w Polsce w latach dziewięćdziesiątych. Posiadamy również
informacje, że wyniki PGSS są także wykorzystywane w procesie kształcenia studentów w około 15
uniwersytetach w USA, Niemczech, Japonii i Norwegii.
Dane pochodzące z badań PGSS spełniają międzynarodowe standardy metodologiczne, czego dowodem
jest ich elektroniczna archiwizacja przez 6 największych na świecie archiwów wyników badań społecznych:
Inter-University Consortium for Political and Social Sciences (ICPSR, University of Michigan, USA),
Zentarlarchiv für Empirische Sozialforschung (ZA, Uniwersytet w Kolonii, Niemcy), The Ropper Center
(University of Connecticut), Consortium for International Earth Science Information Network (CESIN, USA),
The Data Archive (University of Essex, UK), TARKI Archive (Węgry). Włączenie wyników badań do tych
archiwów jest dla badaczy i użytkowników jednoznacznym gwarantem najwyższej jakości i rzetelności
naukowej danych.
8
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
PRÓBA A POPULACJA
Jednym z podstawowych celów nauki jest wyjaśnianie i przewidywanie wyników obserwacji
zdarzeń i relacji przyczynowych, jakie między nimi zachodzą. Tym zagadnieniem będziemy
zajmować się w pierwszym semestrze ćwiczeń.
Pierwszym krokiem, jaki musimy uczynić, jest zdefiniowanie populacji, na temat której
chcemy formułować sądy. Należy wiec powiedzieć, co rozumiemy przez pojęcia populacja i próba.
POPULACJA to pełny zbiór jednostek i pomiarów, które mają co najmniej jedną cechę wspólną, a
PRÓBA jest podzbiorem wylosowanym z populacji w celu wnioskowania o zbiorze. Populacją są np.
wszyscy ludzie wychowani w kulturze zachodniej, Polacy w okresie transformacji systemowej itd.
Podczas tych ćwiczeń analizować będziemy dane z PGSS, które stanowią próbę reprezentatywną
populacji dorosłych Polaków.
PRÓBA
POPULACJA
Wartości liczbowe wyliczane na
podstawie próby nazywane są
STATYSTYKAMI
np. jeżeli wyliczymy sumę wyników z
testu przeprowadzonego w danej klasie,
to wyliczymy statystykę
Wartości liczbowe wyliczane ze
wszystkich elementów populacji
podstawie próby nazywane są
PARAMETRAMI
Statystyki opisujące próbę
będziemy oznaczać literami
łacińskimi M, S ....
Parametry opisujące populację będziemy
oznaczać literami greckimi α, β, µ , δ.
Następnym krokiem jest wyszczególnienie liczby i rodzaju zmiennych charakteryzujących
populację. Proponujemy zestaw kilkudziesięciu dobrze zdefiniowanych zmiennych z PGSS.
Kolejnym krokiem jest stworzenie modelu. MODELEM nazwiemy pewne odwzorowanie
rzeczywistości, uzyskane przez DEFINIOWANIE i POMIAR.
W modelu następuje sprowadzenie rzeczywistości do pewnych jej elementów, określonych
jako zmienne i stałe, wraz z relacjami, jakie pomiędzy tymi elementami zachodzą. Tak więc w naszym
modelu weźmiemy pod uwagę tylko niektóre cechy badanego zdarzenia, pomijając wiele innych.
Przykładowo, sytuację materialną możemy definiować przez wysokość dochodów uzyskanych z
pracy, zaniedbując różnice miedzy zamożnością rodzin, z których badani się wywodzą.
TYPY SKAL
W psychologii mamy do czynienia z różnymi liczbami. Często liczbami oznaczamy kategorie
zmiennych np. przypisując w próbie mężczyznom liczbę 1, a kobietom liczbę 2. Czynność
przypisywania liczb osobom, czy cechom będziemy nazywali POMIAREM, a to jakie działania
matematyczne będziemy mogli przeprowadzić na tak przypisanych liczbach, jest określone przez TYP
SKALI POMIAROWEJ.
Pomiar możemy przedstawić jako przypisywanie obiektom liczb.
9
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
W psychologii używa się 4 rodzajów skal pomiarowych:
1. skala nominalna – gdy obiektom przynależącym do tej samej kategorii przypisuje się tę samą
liczbę np. płeć, region itp. Liczba przypisana w przypadku tej skali spełnia tylko rolę
identyfikatora, informuje o przynależności, np. nie można tych liczb do siebie dodawać.
2. skala porządkowa (rangowa) – gdy przypisanie obiektom liczb pozwala je uporządkować pod
względem nasilenia cechy, np. wszystkich respondentów możemy uporządkować ze względu na
wykształcenie (podstawowe, średnie itd.). Na podstawie danych możemy powiedzieć, że ktoś jest
bardziej wykształcony od innej osoby, ale już nie możemy powiedzieć o ile, bo skala nie ma stałej
jednostki pomiaru.
3. skala przedziałowa (interwałowa) – zostaje określona przez wskazanie STAŁEJ jednostki miary
i relacji przyporządkowującej każdemu wynikowi obserwacji liczbę określoną z dokładnością do
przekształcenia liniowego (y = ax + b), co oznacza, że nie zmieniając relacji między
poszczególnymi badanymi obiektami możemy do wszystkich wyników dodawać/odejmować stałą
i/lub mnożyć przez stałą np. centymetry możemy zamienić na cale (1 cal = 2.54 cm) albo stopnie
Celsjusza na stopnie Fahrenheita (trzeba przemnożyć stopnie Celsjusza przez 1.8, a następnie do
wyniku dodać 32).
4. skala ilorazowa (stosunkowa) określona zostaje przez wskazanie stałej jednostki miary, istnienie
zera bezwzględnego (jednostronnego ograniczenia zakresu skali) oraz wskazanie relacji
przyporządkowania każdemu wynikowi obserwacji liczby. Tym, co odróżnia skalę ilorazową od
przedziałowej jest istnienie ZERA BAZWZGLĘDNEGO.
W zależności od typu skali pomiarowej możemy odpowiadać (lub nie) na różne pytania
dotyczące relacji obiektów opisywanych na tych skalach.
TYP SKALI POMIAROWEJ
Rodzaje pytań
Skala
nominalna
Skala
porządkowa
(rangowa)
Skala
przedziałowa
(interwałowa)
Skala
ilorazowa
(stosunkowa)
Czy obiekt X jest różny od
obiektu Y?
TAK
TAK
TAK
TAK
Czy obiekt X jest lepszy od
obiektu Y ?
NIE
TAK
TAK
TAK
O ile obiekt X jest lepszy od
obiektu Y ?
NIE
NIE
TAK
TAK
Ile razy obiekt X jest lepszy
od obiektu Y pod względem...
NIE
NIE
NIE
TAK
Zależnie od typu skali możemy wyliczyć (lub nie) różne miary charakteryzujące rozkłady zmiennych.
Miary rozproszenia
(poziom pomiaru)
Miary tendencji
centralnej
Miary
współzmienności
nominalna
Modalna
porządkowa
Mediana
dyspersja względem
klasyfikacji
kwartyle
przedziałowa i
ilorazowa
(ilościowe)
Średnia
współczynnik siły
związku
współczynnik korelacji
rang
współczynnik korelacji
liniowej
Skala
wariancja, odchylenie
standardowe, szerokość
przedziału, zmienność
Konsekwencją przekształcania skal jest możliwość wyliczania miar określonych dla skal niższego
rzędu, ale nie odwrotnie. Dla danych wyrażonych na skalach co najmniej przedziałowych wprowadza
się ponadto miary asymetrii (skośności) i spłaszczenia (kurtozy).
10
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
Zmienna mierzona na
wyższym poziomie pomiaru
może być mierzona na
wszystkich niższych, ponieważ
każda wyższa skala spełnia
automatycznie
założenia
wszystkich niższych. Dlatego
każdą
zmienną
możemy
traktować tak jakby była
mierzona na skali nominalnej.
Niektóre ze zmiennych
spełniają
założenia
skali
porządkowej. Niektóre z tych
porządkowych spełniają warunki przedziałowości. itd. Tak
jak wszystko co żyje jest
organizmem,
niektóre
z
organizmów
są
ssakami,
niektóre z ssaków są ludźmi,
niektórzy ludzie to studenci (czyli każdy student jest organizmem, i każda zmienna ilorazowa jest
także nominalną).
1. Skala nominalna – skala identyfikuje tylko przynależność respondenta do pewnej kategorii, tutaj
określa miejsce zamieszkania respondenta.
800
700
600
500
Liczebność
400
300
200
I
N
O
I
I
KI
SC
-W
K
LS
PO
D
N
C
SK
I
LS
PO
N
D
O
H
O
O
AŁ
M
SC
W
ŁN
PÓ
O
I
R
O
H
C
M
PO
ZA
K
ĄS
ŚL
Y
N
AL
O
TR
LK
IE
W
EN
C
H
D
O
N
I
REGION ZAMIESZKANIA (8 REGIONOW)
11
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
2.
Skala porządkowa – skala ‘porządkuje’ zadowolenie z sytuacji politycznej w Polsce.
1000
800
600
Liczebność
400
200
0
zo
rd
Ba
on
ol
y
on
ol
y
y
on
ol
ow
on
ow
ad
ez
ni
w
do
za
ie
N
ol
w
y
on
ol
ow
d
za
ad
y
do
ie
jn
ze
ac
R
jz
ze
ac
R
za
on
ol
o
ow
dz
d
Za
r
Ba
y
ZADOW Z SYTUACJI POLITYCZNEJ W KRAJU
3. Skala przedziałowa – skala nie tylko porządkuje respondentów pod względem nasilenia chęci
życia, zakłada również stałą odległość pomiędzy jednostkami skali, co pozwala na pomiar
dystansu pomiędzy osobami.
2000
Liczebność
1000
0
ol
og
ni
n
oc
m
e
zo
rd
Ba
9
8
7
6
5
4
3
2
W
e
o
ce
ch
i
ce
ch
m
i
m
SKALA CHECI ZYCIA
12
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
4. Skala ilorazowa (stosunkowa) –porządkuje respondentów i określa różnice w wieku. Pozwala
również na uzyskanie informacji ile razy osoba A jest starsza od osoby B.
140
120
100
80
60
40
20
0
98
90
82
74
66
58
50
42
34
26
18
WIEK RESPONDENTA
13
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
STATYSTYKI OPISOWE ROZKŁADÓW
Oczywiście możemy oceniać „na oko” różnice pomiędzy rozkładami czy grupami wyników,
ale zdecydowanie lepszym pomysłem jest posługiwanie pewnymi wielkościami, które służą nam do
opisu charakterystyki rozkładu czy grupy wyników. Do tego celu służą nam statystyki opisowe, które
możemy podzielić na miary tendencji centralnej opisujące przeciętne wyniki oraz miary dyspersji
opisujące ich rozproszenie.
Podstawowe statystyki opisowe można pogrupować na miary tendencji centralnej,
opisujące przeciętne wyniki oraz miary dyspersji opisujące rozproszenie wyników.
Miary tendencji centralnej
N
Średnia arytmetyczna
M =
åX
i =1
i
N
=
X 1 + X 2 + ... + X N
, gdzie X 1 , X 2 ,..., X N to konkretne
N
wyniki
Przykład: 5 osób piszących test uzyskało odpowiednio: 2,2,6,7,8 punktów. Średnia wynosi 5 punktów
(2 + 2 + 6 + 7 + 8 = 25; 25 dzielone przez 5 osób daje średnią 5).
Wartość średnia nie jest wystarczającą wielkością do opisu rozkładu punktów, możemy mieć np.
wyniki 5, 5, 5, 5, 5 i średnia również jest równa 5, więc musimy posługiwać się dodatkowo wielkością
opisującą rozproszenie wyników wokół średniej.
Średnia ma trzy istotne własności :
1. Jest wrażliwa na ekstremalne wyniki, np. gdyby w grupie osób przeciętnie zarabiających
znalazł się miliarder to średnia zarobków w tej grupie źle reprezentowałaby wysokość
zarobków.
2. Suma odchyleń wszystkich wyników od średniej równa jest zero, co zapisujemy:
N
å
( X
i =1
i
− M ) = 0
np. korzystając z powyższego przykładu z testem, opuszczając dla uproszczenia indeksy :
Σ(X – M) = (2-5)+(2-5)+(6-5)+(7-6)+(8-5) = -3-3+1+2+3 = 0.
3. Suma kwadratów odchyleń wszystkich wyników od stałej jest minimalna, kiedy ta stała jest
N
średnią, co możemy zapisać
å(X
i =1
i
− M ) 2 = minimum .
Mediana to wartość przeciętna zmiennej na skali co najmniej porządkowej. Wartość ta dzieli na
połowę uporządkowane wyniki od najmniejszego do największego, tak że poniżej niej znajduje się co
najmniej 50% wyników. W naszym przykładzie z testem, medianą jest wartość 6, bo poniżej i
powyżej tej wartości znajdują się po dwa wyniki: 2, 2, 6, 7, 8.
Modalna (dominanta) to wartość najczęściej występująca. W naszym przykładzie jest to wartość 2
występująca dwukrotnie.
14
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
Sposób obliczania kwartyli (decyli, centyli) i innych miar opartych na procentach.
Wśród 12 uczniów przeprowadzono test przyrodniczy. Za każdy poprawnie rozpoznane drzewo
dostawało się 1 punkt. Drzew było 20.
Uzyskane wyniki:
10, 6, 20, 0, 5, 13, 5, 11, 10, 17, 14, 8
1. Wyniki surowe porządkujemy od najmniejszego do największego, powtarzające się grupujemy obok siebie:
A więc: 0, 5, 5, 6, 8, 10, 10, 11, 13, 14, 17, 20
2. Ilość wyników (100%) dzielimy na 4 (kwartyle), 10 (decyle), 100 (centyle), otrzymujemy w ten sposób ile
wyników mieści się w danym przedziale procentowym (dla kwartyli – po 25 %, dla decyli po 10%, dla
centyli po 1 %).
Liczymy kwartyle w naszej grupie uczniów: 12 / 4 daje nam 3.
Dzielimy nasz zbiór na grupy po 3 wyniki: 0, 5, 5, * 6, 8, 10, * 10, 11, 13, * 14, 17, 20
W pierwszym kwartylu powinniśmy mieć 3 kolejne wyniki, poczynając od najniższego (0, 5 i 5), a więc
pierwszy kwartyl obejmuje wyniki do 5 włącznie.
Kolejne 3 tworzą drugi kwartyl, następne 3 – trzeci kwartyl, a trzy końcowe – czwarty kwartyl.
3. gdy podział wypada pomiędzy takimi samymi wynikami, to wtedy wszystkie wyniki o tej samej wartości
zaliczamy do danego kwartyla (tak jak to robi się przy liczeniu mediany)
W naszej grupie do drugiego kwartyla zaliczymy wyniki 6, 8, 10, 10 – a więc cztery a nie trzy, ponieważ nie
możemy uznać, że jedna 10 jest większa od drugiej. Pierwszy i drugi kwartyl łącznie ma obejmować co
najmniej połowę wyników. W naszej grupie górną granicą drugiego kwartyla jest 10.
Natomiast do kwartyla trzeciego zaliczymy tylko wyniki 11 i 13, bo do 3 kwartyla włącznie (= 13) mieści się
co najmniej 75 % wyników, a czwarty ma zawierać nie więcej niż 25 % najlepszych wyników.
Przy niektórych układach wyników wartości graniczne kwartyli mogą się pokrywać, np. w poniższym
zbiorze górna granica pierwszego i drugiego kwartyla wynosi 5 (trzeciego 11, czwartego 20):
0, 5, 5, 5, 5, 5, 5, 10, 11, 14, 17, 20
Podobnie postępujemy przy podziałach na 10 czy 100 części. Należy pamiętać, że opieramy się na ilości
wyników, i że mają one być uporządkowane od najmniejszego do największego.
Przy obliczaniu kwartyli (czy innych podziałów procentowych) dla większych grup możemy posłużyć się
procentami skumulowanymi.
Miary rozproszenia wokół średniej
Zmienność określana jako suma kwadratów odchyleń od średniej M definiowana wzorem:
N
SS = å ( X i − M ) 2
i =1
Wariancja s 2 =
SS
, to po prostu zmienność SS podzielona przez liczbę stopni swobody, które
( N − 1)
tutaj oznaczają liczebność próby N minus jeden.
Odchylenie standardowe - s to pierwiastek kwadratowy z wariancji
s=
SS
( N − 1)
odchylenie standardowe = wariancja
Odchylenie standardowe i wariancja to najważniejsze ze statystyk opisowych jednej zmiennej.
Odgrywają również kluczową rolę w badaniu współzależności pomiędzy dwoma i więcej zmiennymi.
15
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
ROZKŁADY
Podstawowym sposobem prezentacji zmiennej jest rozkład częstości (frekwencje). Rozkład
frekwencji przedstawia wynik oraz jego częstość pojawiania się. W dalszej części będziemy
posługiwali się określeniem ‘rozkład frekwencji’ lub ‘frekwencje’.
Jednym ze sposobów prezentacji frekwencji w postaci graficznej jest wykres słupkowy,
którego szczególnym rodzajem jest histogram. Na wykresie słupkowym na osi poziomej odkładany
jest wynik (zarobki, IQ - czyli to, co mierzymy), a na osi pionowej przedstawiana jest częstość
pojawiania się danego wyniku (liczebność). Warto zauważyć, że oś pozioma w histogramie jest osią
"ciągłą", co znaczy, że w postaci histogramu możemy prezentować zmienne na skali co najmniej
przedziałowej, dlatego, że tylko skale przedziałowe mają stałą jednostkę pomiaru (jednostka IQ, zł
itp.). Stałość jednostki pomiaru pozwala nam prezentować wyniki na osi poziomej histogramu w
postaci przedziałów. Na przykład liczba osób zarabiających od 1000 do 1100 zł, od 1100 do 1200 zł,
wtedy jednostką na osi poziomej jest 100 zł. Osoby (ze względu na ich zarobki) przyporządkowujemy
do tak skonstruowanych przedziałów.
Przykład:
Wśród studentów przeprowadzono ankietę, jedno z pytań dotyczyło liczby przeczytanych artykułów naukowych
w przeciągu semestru. Otrzymano następujący rozkład częstości (frekwencji) zmiennej:
częstość
1,00
2,00
3,00
4,00
5,00
6,00
7,00
8,00
9,00
10,00
11,00
13,00
mediana
modalna
ogółem
N ważnych
1603
7
21
70
149
242
323
525
151
75
32
7
1
------1603
Braki danych
procent
ważnych
procent
,4
1,3
4,4
9,3
15,1
20,1
32,8
9,4
4,7
2,0
,4
,1
------100,0
0
procent
skumulowany
,4
1,3
4,4
9,3
15,1
20,1
32,8
9,4
4,7
2,0
,4
,1
------100,0
,4
1,7
6,1
15,4
30,5
50,7
83,4
92,8
97,5
99,5
99,9
100,0
Informacja o tym ile razy występuje dana
wartość zmiennej (frekwencja) oraz w
następnej kolumnie jaki to procent ze
wszystkich wartości
600
Statystyki opisowe zmiennej :
średnia
mediana
kurtoza
minimum
6,220
6
0,421
1
odch. std.
dominanta
skośność
maximum
500
1,665
7
-0,199
13
400
300
Liczebność
200
Histogram zmiennej
'Liczba przeczytanych artykułów'.
100
0
13
11
10
9
8
7
6
5
4
3
2
1
Ilość przeczytanych artykułów
Liczba przeczytanych artykułów
W tym miejscu powtórzymy statystyki opisowe zmiennej z przykładu "liczba przeczytanych artykułów”.
W badaniu brało udział 1603 studentów (N ważnych). Zakres zmienności zmiennej mieści się w granicach od
minimum 1 (jeden przeczytany artykuł) do 13 artykułów (maksimum). Studenci przeczytali średnio 6,22
artykułów, odchylenie standardowe wyników od średniej wynosi 1,665. Mediana rozkładu zmiennej równa jest 6
artykułów (median). Studenci najczęściej odpowiadali, że przeczytali 7 artykułów, co jest równe wartości
modalnej (dominancie).
16
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
Ze względu na kształt rozkładu frekwencji (częstości) możemy mówić o rozkładach
jednomodalnych, bimodalnych, wielomodalnych.
Rozkład jednomodalny
Rozkład dwumodalny
Rozkład wielomodalny
Kryterium tego podziału stanowi częstość występowania wartości modalnej.
Rozkłady jednomodalne możemy podzielić na skośne (asymetryczne) i symetryczne.
Rozkład dodatnio skośny, gdzie wskaźnik skośności
jest dodatni oraz występuje relacja
modalna < mediana < średnia
Rozkład ujemnie skośny, gdzie wskaźnik skośności
jest ujemny oraz występuje relacja
modalna > mediana > średnia
Rozkład symetryczny, który może być rozkładem
normalnym, miara skośności równa jest zero występuje relacja:
średnia = mediana = modalna
ROZKŁAD NORMALNY
ROZKŁAD NORMALNY
Rozkład normalny odgrywa szczególnie istotną rolę we wnioskowaniu statystycznym.
Pierwsze badania tego rozkładu przeprowadzono w siedemnastym wieku, jednak popularność
zawdzięcza on Carlowi Friedrichowi Gaussowi. Od niego pochodzi jedna z nazw rozkładu - „krzywa
Gaussa” inaczej zwana krzywą normalną.
Własności rozkładu normalnego:
♦ Wykres rozkładu ma kształt dzwonu, jest symetryczny względem średniej, która jest jednocześnie
modalną i medianą rozkładu
♦ Lewa i prawa gałąź rozkładu zbliża się asymptotycznie do osi poziomej (nigdy jej nie przecina)
17
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
♦ Około 68% powierzchni pod krzywą mieści się w granicach jednego odchylenia standardowego
na prawo i lewo od średniej
♦ Pole obszaru w granicach od 1,96 odchylenia standardowego na lewo od średniej do 1,96 na
prawo obejmuje 95% powierzchni pod krzywą, a od 2,58 na lewo do 2,58 na prawo obejmuje 99%
całkowitej powierzchni pod krzywą, przy czym odpowiednio 5% i 1% mieści się poza tymi
granicami.
Wszystkie rozkłady normalne mają taki sam podstawowy (dzwonowaty) kształt, różnić się mogą
jedynie co do średnich i odchyleń standardowych. Średnią rozkładu może być dowolna wartość,
podobnie jego odchylenie standardowe mierzyć może dowolna, nieujemna wartość.
2,15%
2,15%
0,13%
0,13%
13,59%
µ−3σ
µ−2σ
34,13% 34,13% 13,59%
µ−σ
µ
µ+σ
µ+2σ
µ+3σ
84
100
116
132
164
-1
0
1
Rozkład IQ N(100,16)
68
Jednostki Z
-2
2
3
STANDARYZACJA WYNIKÓW
Aby dokonać standaryzacji wyników musimy dysponować pomiarem co najmniej na skali
przedziałowej.
Dodanie/odjęcie stałej od zbioru wyników zmienia ich średnią, ale nie zmienia odchylenia
standardowego. Mnożenie/dzielenie przez stałą k zmienia zarówno średnią jak i odchylenie
standardowe wyjściowego zbioru wyników.
Używając powyższych transformacji dodawania/odejmowania oraz mnożenia/dzielenia
danego zbioru wyników przez stałą k, można przekształcić każdy rozkład (pod warunkiem, że jego
odchylenie standardowe nie wynosi zero) w rozkład o średniej równej zero i odchyleniu
standardowym wynoszącym jeden. Takie przekształcenie rozkładu nazywa się standaryzacją.
Rozkłady nie posiadające średniej w punkcie zero i odchylenia standardowego równego jeden
noszą nazwę niestandaryzowanych rozkładów normalnych. Aby taki rozkład przemienić w
standaryzowany rozkład normalny konieczna jest transformacja surowych wyników na
standaryzowane wyniki „Z”. Wykonuje się ją w oparciu o następujący wzór:
Z =
wynik − średnia
X −M
czyli Z =
odchylenie stand .
s
Rozkład ten ma taki sam kształt jak rozkład niestandaryzowany. Własnością
standaryzowanego rozkładu normalnego jest to, że obszar pod krzywą równy jest jedności. Proporcja
18
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
wyników w standaryzowanym rozkładzie normalnym, która leży w danym obszarze krzywej, równa
jest obszarowi leżącemu pod nią.
Wynik standaryzowany „Z” pokazuje o ile odchyleń standardowych uzyskany przez nas
wynik położony jest poniżej lub powyżej średniej. Innymi słowy, jak daleko w jednostkach odchylenia
standardowego leży nasz wynik od średniej.
Przykład
Wiemy, że średnia testu inteligencji w populacji wynosi 100 a odchylenie standardowe 15. Nasz
podopieczny uzyskał z tego testu wynik 130. Można zadać pytanie, jak daleko jego wynik leży od średniej?
Z =
(130
− 100
15
)=
2
Oznacza to, że nasz znajomy uzyskał wynik leżący o dwa odchylenia standardowe powyżej średniej.
Wyniki standaryzowane często stosuje się w celu porównywania pomiarów otrzymywanych przy użyciu
różnych skal.
Załóżmy, że średni wynik semestralnego testu na Twojej uczelni wynosi 2 a odchylenie standardowe
0.75. Na uczelni Twojego kolegi ocenia się wyniki testu na dziesięciopunktowej skali i tam średnia równa jest 5.5
a odchylenie standardowe 1.75. Ty osiągnąłeś z testu wynik 3.6 a twój znajomy 8.5. Jak myślisz, który z was
otrzymał lepszy wynik z testu i co to oznacza?
Z =
(8 . 5 − 5 . 5 ) = 1 . 71
Z=
1 . 75
(3.6 − 2) = 2.13
0.75
Ponieważ wyniki standaryzowane mają średnią równą zero i ujednolicone odchylenie standardowe,
łatwo można je poddawać przekształceniom algebraicznym.
Centyl definujemy jako taką wartość zmiennej poniżej której znajduje się 1 procent
wszystkich wyników.
Centyl dla wyniku IQ - 84
równy jest 50% - 34,13% = 15,87%
34,13%
Zadanie:
Wiedząc, że IQ ma rozkład N(100,16) w populacji, określ:
a) wynik centylowy dla osoby o IQ = 84
15,87%
b) wynik centylowy dla osoby o IQ = 132
84
µ−σ
100
µ
IQ
c)
Procent wyników między IQ 116 a 132
równy jest 47,72% - 34,13% = 13,59%
Centyl dla wyniku IQ - 132
równy jest 50% + 47,72% = 97,72%
Procent powierzchni
pod krzywą do średniej
procent osób, które uzyskają wynik większy od 116
a mniejszy od 132
34,13%
Procent powierzchni pod
krzywą od średniej do 2z
50,0%
47,72%
13,59%
100
µ
132
µ+2σ
IQ
100
µ
116 132
µ+σ µ+2σ
IQ
19
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
MIARY ODCHYLEŃ OD ROZKŁADU NORMALNEGO
1.
asymetria (skośność) – polega na nierównomierności rozproszenia wyników, co wyraża się
również w tym, że wartości liczbowe średniej, mediany i modalnej nie pokrywają się. Mamy dwa
rodzaje takich rozkładów: jeden, w którym wyniki wypadają przeważnie poniżej średniej
arytmetycznej i drugi - w którym wyniki wypadają powyżej średniej. Są one nazywane
rozkładami UJEMNIE i DODATNIO SKOŚNYMI. Rysunki poniżej przedstawiają przykłady
takich rozkładów
Przykładem rozkładu ujemnie skośnego (skewness<0) jest rozkład zmiennej DESLIVE (Skala chęci
życia):
2500
2000
1500
1000
Częstość
500
Odch.Std = 2,21
Średnia = 8
N = 4013,00
0
2
3
4
5
6
7
8
9
10
SKALA CHECI ZYCIA
2.
kurtoza (kurtosis) rozkładu wyraża się tym, że gęstość rozkładu obserwacji w pobliżu średniej
jest większa lub mniejsza niż dla rozkładu normalnego. Gdy gęstość rozkładu w pobliżu średniej
jest mniejsza niż dla rozkładu normalnego, mówimy o SPŁASZCZENIU rozkładu. Gdy gęstość
jest większa - rozkład jest SMUKŁY. Miarą nasilenia kurtosis jest współczynnik K (K>0 rozkład
smukły; K<0 rozkład spłaszczony).
Przykładem smukłego rozkładu (K>0) jest rozkład zmiennej SIBS (liczba braci i sióstr):
LICZBA BRACI I SIOSTR
400
300
200
Częstość
100
Odch.Std = 2,26
Średnia = 2,9
N = 1183,00
0
,5
4,5
2,5
LICZBA BRACI I SIOSTR
8,5
6,5
12,5
10,5
14,5
20
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
ĆWICZENIA W SPSSie
WPROWADZANIE DANYCH DO SPSS
Istnieją 4 podstawowe metody przeniesienia danych do SPSS z papieru.
1. wpisanie danych w oknie danych SPSS
2. wpisanie w innym programie operującym na danych i przeniesienie do SPSS
3. wpisanie w trybie ASCII (stała szerokość kolumn) - wpisanie w pliku tekstowym
4. wpisanie w trybie ASCII (separatory danych) - wpisanie w pliku tekstowym
Kiedy, który sposób zastosować?
Ad. 1 Moje umiejętności pracy z SPSS niewielkie, zbiór danych niewielki, wpisuję własnoręcznie
Ad. 2 Moje umiejętności pracy z SPSS wystarczające lub wysokie, zbiór dowolnej wielkości, wpisuje ktoś inny
Ad. 3 Moje umiejętności pracy z SPSS wystarczające lub wysokie, zbiór danych większy (przynajmniej ponad
40 osób) wpisuję własnoręcznie
Ad. 4 Moje umiejętności pracy z SPSS wystarczające lub wysokie, zbiór danych dowolny, badanie prowadzone
komputerem, nikt nic nie wpisuje poza osobą badaną.
Jak to zrobić?
Ad. 1 NAJPROSTSZY sposób - po prostu wpisać w odpowiednie kratki odpowiednie wyniki, pamiętając
jednak o utworzeniu dodatkowej zmiennej „numer osoby”, które to numery wpiszemy podczas
wprowadzania danych także na wypełnione ankiety! W miarę możliwości wszystkie zmienne wpisujemy w
postaci numerycznej, np.: województwo mazowieckie >>1, warmińskie>>2 i.t.d.
Ad. 2 W zależności od metody może to być Ms Access, Excel, inne bazy danych lub specjalna aplikacja do
„wklepywania” danych.
Ad. 3 Przed wprowadzeniem na kartce opisujemy po kolei ile cyfr maksymalnie będziemy potrzebowali na
każdą zmienną. Następnie wpisujemy dane do notatnika (notepad.exe) lub innego edytora ASCII w ten
sposób aby ciąg cyfr dla każdej osoby był identycznej długości. Przykładowo: jeśli ustaliliśmy, że nr osoby
może mieć maksymalnie 3 cyfry, to dla pierwszej osoby nr który jej wpiszemy nie będzie „1” tylko „001”.
W pliku tekstowym jedna lina stanowi jedną osobę. Kolejne liczby w linii to kolejne zmienne. Zaletą tej
metody jest, iż po wstępnym opanowaniu jest ona NAJSZYBSZA, bo nie wciskamy tu ani razu klawisza
ponad niezbędne minimum. Po wpisaniu danych do pliku tekstowego, importujemy go do SPSS informując
program, które w kolejności cyfry (kolumny) należą do których zmiennych, np.: od pierwszej do trzeciej
cyfry (kolumny) - numer osoby, czwarta - płeć, piąta do ósmej - rok urodzenia itd.
Ad. 4 W tym wypadku musimy tylko poinformować program w jakiej kolejności są ułożone zmienne, jak się
mają nazywać oraz jakim znakiem są oddzielone kolejne zmienne w pliku tekstowym.
Wygląd pliku tekstowego
Dane surowe:ASCII
01 13534
02 25243
03 34125
03 53592
04 35421
...
11 24512
Numer
osoby
p1 p2
1, 1,3,5,3,4
2, 2,5,2,4,3
3, 3,4,1,2,5
3, 5,3,5,9,2
4, 3,5,4,2,1
...
11,2,4,5,1,2
Przykłady poleceń do wczytania danych surowych z pliku
tekstowego:
Stała
szerokość
kolumn
W formacie o stałej długości:
3
p3
DATA LIST FILE 'a:\badanie.txt'/
numer 1-2
pyt1 4
pyt2 5
pyt3 6
pyt4 7.
p4
Zmienne
oddzielone
separatorami
formacie z separatorami:
4 W
SET
UNDEFINED= WARN.
DATA LIST
FILE='a:\badanie.txt’ FREE / numer * p1 * p2 * p3 *
p4 *.
21
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
Nazwa zmiennej może zawierać maksymalnie 8 znaków, lepiej bez polskich liter, nie może zaczynać się od
cyfry, zawierać spacji, myślników (może być myślnik na dole, tzw. „klepka”), przecinków itp.
Kiedy już wpiszemy wyniki, albo zanim to zrobimy, musimy wprowadzić niezbędne informacje do nagłówków
zmiennych. Niezbędne mogą okazać się opisy (etykiety) zmiennych mówiące więcej niż ich nazwy. W
etykietach, w przeciwieństwie do nazw, możemy używać dowolnych znaków.
Dla części zmiennych będziemy chcieli również przypisać etykiety wartościom zmiennej, żeby wiedzieć co
oznaczają poszczególne liczby, np. że 1 oznacza kobietę, 2 mężczyznę, a nie na odwrót.
Ostatnią niezbędną czynnością będzie określenie jakie liczby oznaczają dla danej zmiennej brak danych.
Najczęściej stosuje się ciągi 9-tek aby oznaczyć brak informacji (np. pominiętą odpowiedź na pytanie). Do
oznaczenia odpowiedzi NIE WIEM stosuje się cyfrę 8 lub ciągi 9-tek zakończone 8-ką. Przykładowo, liczba 999
dla wzrostu nie oznacza, że osoba ma blisko 10 metrów a jedynie, że nie odpowiedziała na pytanie o wzrost i
powinna być pomijana w analizach uwzględniających wzrost, a 998 oznacza, że osoba badana nie wiedziała ile
ma wzrostu.
Dodatkowo możemy w nagłówku określić na jakiej skali jest mierzona dana zmienna. Informacja ta nie będzie
w żaden sposób wykorzystywana przez komputer, jedynie wyświetlana będzie za każdym razem gdy zajrzymy
do opisu zmiennej.
Informacje do nagłówków zmiennych możemy wprowadzać w oknie danych dwukrotnie klikając nagłówek
kolumny w której jest interesująca nas zmienna, wchodząc do menu DANE → DEFINIUJ ZMIENNĄ lub
możemy to zrobić bezpośrednio w języku poleceń SPSS.
Ta druga metoda ma tą przewagę, że jednocześnie możemy deklarować braki danych lub przypisywać etykiety
wartości więcej niż jednej zmiennej. Przykładowe polecenie umieszczone poniżej przypisuje etykiety wartości i
definicje braków danych trzem zmiennym (p1, p2, p3) jednocześnie.
W edytorze poleceń zamiast pisać cały wyraz na ogół wystarczą pierwsze 3 litery polecenia np.:
Variable = var
Label=lab
Najpierw wpisujemy etykiety zmiennych (dla każdej inna):
var lab p1 'wakacje były:'.
var lab p2 'weekendy były:'.
var lab p3 'poniedziałki były:'.
Potem etykiety wartości - w tym przykładzie dla wszystkich trzech takie same.
val lab p1 p2 p3
1 'Zdecydowanie nudne'
2 'Raczej nudne'
3 'Średnie'
4 'Raczej ciekawe'
5 'Zdecydowanie ciekawe'.
Na koniec deklaracja braków danych - w tym przypadku 99, 98 i 97:
MISSING VALUES
p1 p2 p3 (99,98,97).
22
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
ROZKŁADY CZĘSTOŚCI I STATYSTYKI OPISOWE
Aby otrzymać rozkład częstości zmiennej, wchodzimy do menu:
STATYSTYKI à OPIS STATYSTYCZNY à CZĘSTOŚCI
FREQUENCIES
VARIABLES = life.
Wydruk przedstawia rozkład częstości zmiennej 'Życie jest pasjonujące/zwyczajne/nudne' (LIFE) :
LIFE
Ważnych
Braki
danych
1
2
3
Ogółem
8
9
Ogółem
Ogółem
Częstość
1108
2474
376
3958
79
12
91
4049
Procent
27,4
61,1
9,3
97,8
2,0
,3
2,2
100,0
Procent
ważnych
28,0
62,5
9,5
100,0
Procent
skumulowany
28,0
90,5
100,0
Ten rozkład częstości można przedstawić graficznie w postaci wykresu słupkowego.
FREQUENCIES
VARIABLES = life
/BARCHART FREQ.
3000
2000
Liczebność
1000
0
Pasjonujace
Zwyczajne
Nudne
ZYCIE JEST PASJONUJACE/ZWYCZAJNE/NUDNE
Jeśli chcemy uzyskać nie tylko rozkład częstości, ale i podstawowe statystyki opisowe, stosując jedno
polecenie, to korzystamy dodatkowo z klawiszy STATYSTYKI i WYKRESY, znajdujących się w okienku
częstości (frekwencji).
FREQUENCIES
VARIABLES=sibs
/NTILES= 4
/STATISTICS=STDDEV VARIANCE MINIMUM MAXIMUM MEAN MEDIAN MODE SKEWNESS KURTOSIS
/HISTOGRAM NORMAL
/ORDER ANALYSIS .
23
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
Statystyki
LICZBA BRACI I SIOSTR
N
Ważnych
Braki danych
Średnia
Mediana
Dominanta
Odchylenie standardowe
Wariancja
Skośność
Kurtoza
Minimum
Maksimum
Percentyle
25
50
75
1183
2866
2,94
2,00
1
2,26
5,13
1,361
2,025
0
13
1,00
2,00
4,00
LICZBA BRACI I SIOSTR
Częstość
ZADNEJ
65
1 OSOBA
291
2 OSOBY
271
3 OSOBY
197
4 OSOBY
128
5 OSOB
79
6 OSOB
51
7 OSOB
36
8 OSOB
32
9 OSOB
14
10 OSOB
5
11 OSOB
9
12 OSOB
3
13 OSOB
2
Ogółem
1183
ND: NIE ZAD/BALLOT
2858
BRAK DANYCH
8
Ogółem
2866
4049
Ważnych
Braki
danych
Ogółem
Procent
1,6
7,2
6,7
4,9
3,2
2,0
1,3
,9
,8
,3
,1
,2
,1
,0
29,2
70,6
,2
70,8
100,0
Procent
ważnych
5,5
24,6
22,9
16,7
10,8
6,7
4,3
3,0
2,7
1,2
,4
,8
,3
,2
100,0
Procent
skumulowany
5,5
30,1
53,0
69,7
80,5
87,2
91,5
94,5
97,2
98,4
98,8
99,6
99,8
100,0
LICZBA BRACI I SIOSTR
600
500
400
300
Częstość
200
100
Odch.Std = 2,26
Średnia = 2,9
N = 1183,00
0
0,0
2,0
4,0
LICZBA BRACI I SIOSTR
6,0
8,0
10,0
12,0
14,0
24
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
Zadanie praktyczne
Na podstawie wydruku zamieszczonego na poprzedniej stronie podaj:
a) średnią
b) medianę
c) modalną
d) 3 kwartyl
e) czy rozkład jest spłaszczony/wysmukły
f) ile osób badanych ma pięcioro rodzeństwa
g) jaki to procent badanej próby
h) jaki procent osób badanych ma nie więcej niż troje braci i sióstr
i) jaki procent osób badanych ma więcej niż czworo rodzeństwa
j) na jakiej skali pomiarowej jest zmienna SIBS?
Statystyki opisowe dla zmiennej, która nas interesuje, najszybciej można uzyskać poprzez komendę
STATYSTYKI OPISOWE. Powiedzmy, że chcielibyśmy wiedzieć jaka jest średnia, odchylenie standardowe i
inne miary dla zmiennej INCOME (dochód gospodarstwa domowego) w całej próbie.
Część statystyk niedostępnych w STATYSTYKACH OPISOWYCH (takich jak modalna, mediana, kwartyle)
można znaleźć jedynie w CZĘSTOŚCIACH.
Aby obliczyć jedynie miary rozrzutu i rozproszenia dla zmiennej na skali przedziałowej wchodzimy do menu:
STATYSTYKI à OPIS STATYSTYCZNY à STATYSTYKI OPISOWE
i w OPCJACH zaznaczamy wybrane statystyki (w poniższym przykładzie średnia, odchylenie standardowe,
wariancja, minimum i maksimum).
DESCRIPTIVES
VARIABLES=income
/STATISTICS=MEAN STDDEV VARIANCE MIN MAX.
Statystyki opisowe
N
INCOME DOCHOD
LACZNY GOSP
DOMOWEGO (NOWE ZL)
Ważnych N (wyłączanie
obserwacjami)
Minimum
Maksimum
0
20000
3883
3883
Zadanie praktyczne
Na podstawie powyższego wydruku podaj:
a) liczbę osób uwzględnionych w analizie
b) średnią
c) odchylenie standardowe
d) minimum
e) maksimum
f) rozstęp
g) wariancję
h) typ skali pomiarowej
Średnia
846,43
Odchylenie
standardowe
Wariancja
823,40
677993,2
25
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
ZADANIA DO POLICZENIA „RĘCZNIE”
Zadanie 1
Psycholog zebrał informacje na temat liczby randek, jaką 10 studentów miało w ciągu ostatniego miesiąca.
Otrzymał następujące wyniki: 1, 8, 12, 3, 8, 14, 4, 5, 8, 16
Oblicz:
a) średnią
b) medianę
c) modalną
d) zakres zmienności
e) odchylenie standardowe
f) wariancję
Na jakiej skali pomiarowej są wyniki?
Zadanie 2
Znając miary tendencji centralnej określ dla każdego rozkładu jego skośność.
Gdzie M - średnia, Me - mediana, Mo - modalna.
a) M = 14
b) M = 14
c) M = 14
Me = 12
Me = 16
Me = 14
Mo = 10,
Mo = 18,
Mo = 14,
Zadanie 3
Bez obliczania wariancji poranguj trzy rozkłady ze względu na rosnące rozproszenie wokół średniej:
A:
21,19,28,22,20
B:
11,15,38,15,11
C:
22,22,22,22,22
Policz średnią i odchylenie standardowe, aby sprawdzić swoje przypuszczenia.
Zadanie 4
Studenci uzyskali następujące wyniki w teście: 10, 50, 20, 70, 90, 20, 30, 40, 0 punktów
a) Jaka jest wartość średnia tych wyników?
b) Jaka jest mediana tych wyników?
c) Jaka jest modalna (dominanta) tych wyników?
d) Jakie jest odchylenie standardowe tych wyników?
e) Jak jest wariancja tych wyników?
Zadanie 5
Prowadzący postanowił porównać wyniki uzyskane przez studentów z trzech kolokwiów ze statystyki. Zrobił
tabelkę rozkładów częstości uzyskiwanych punktów. Policz dla każdego kolokwium miary tendencji centralnej i
miary rozproszenia. Które najlepiej opisują rozkład wyników z poszczególnych kolokwiów?
stopień
6
5
4
3
2
1
modalna (dominanta)
mediana
średnia
odchylenie standardowe
najtrafniejsza miara
1 kolokwium
8
1
0
0
8
3
Ilość osób
2 kolokwium
0
1
10
8
1
0
3 kolokwium
0
10
2
2
3
3
26
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
Zadanie 6
Na podstawie poniższej tabeli częstości zmiennej PRAY (Jak często się modli?) określ wartość modalną,
medianę i kwartyle wyników uzyskiwanych w teście.
PRAY JAK CZĘSTO SIĘ MODLI?
1
2
3
4
5
6
7
8
9
10
11
nigdy
rzadziej niż raz na rok
1-2 razy w roku
kilka razy w roku
1 raz miesiącu
2-3 razy w miesiącu
prawie co tydzień
co tydzień
kilka razy na tydzień
raz dziennie
kilka razy dziennie
ogółem
Częstość
Procent
106
30
50
131
76
88
77
180
267
807
404
4049
2,6
,7
1,2
3,2
1,9
2,2
1,9
4,4
6,6
19,9
10,0
100,0
Procent
ważnych
4,8
1,4
2,3
5,9
3,4
4,0
3,5
8,1
12,0
36,4
18,2
Procent
skumulowany
4,8
6,1
8,4
14,3
17,7
21,7
25,2
33,3
45,4
81,8
100,0
a) modalna (dominanta)
b) mediana
c) 1 kwartyl
d) 2 kwartyl
e) 3 kwartyl
f) 4 kwartyl
Jaka to skala pomiarowa?
Zadanie 7
W szpitalu rehabilitacyjnym średnia długość pobytu pacjentów wynosi 12 tygodni, odchylenie standardowe
pobytu 1 tydzień. Przyjmując, że rozkład długości pobytu jest normalny określ:
a)
Jaki procent pacjentów mieści się w jednym odchyleniu standardowym powyżej średniej?
?
12 13
b) Jaki procent pacjentów mieści się zakresie trzech odchyleń standardowych powyżej i poniżej średniej?
?
12
c)
15
Ilu pacjentów ze 100 będzie w szpitalu dłużej niż 13 tygodni?
?
12 13
d) Jaki procent pacjentów będzie w szpitalu nie dłużej niż 12 tygodni?
27
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
e)
Jaki procent pacjentów będzie w szpitalu pomiędzy 11,5 a 13 tygodniami?
?
11,5
f)
13
Dyrekcja szpitala kategoryzuje pacjentów ze względu na długość pobytu pacjentów w szpitalu. 'Stali' to
30% pacjentów będących najdłużej w szpitalu, natomiast 'Tymczasowi' to 20% pacjentów będących
najkrócej w szpitalu. Określ, do której grupy trafi Jan, jeżeli ma za sobą 12,6 tygodnia pobytu, a do której
Stefan z 11,5 tygodnia pobytu.
tymczasowi
stali
Z= -0,84
0,52
g) W grupie 50-latków średni czas pobytu w szpitalu wynosi 10 tygodni z odchyleniem 1,5 tygodnia. W grupie
60-latków średnia wynosi 14 z odchyleniem 2 tygodnie. 60-letni Piotr (8 tygodni pobytu) i 50-letni Marcin
(7 tygodni pobytu) licytują się, który z nich spędził więcej czasu w szpitalu w odniesieniu do swojej grupy
wiekowej. Wykonaj odpowiednie obliczenia
Zadanie 8
W dwóch testach składających się ze 100 pytań (prawidłowa odpowiedź 1 punkt) studenci otrzymali następujące
wyniki, przy założeniu, że mają one rozkład normalny:
Średnia
Odchylenie std
N
a)
Test 1
48
10
4000
Test 2
56
14
6000
Uczeń A w teście 1 uzyskał wynik 43, uczeń B w teście 2 uzyskał wynik 42. Który z nich uzyskał lepszy
wynik na tle swojej grupy?
b) Określ procent uczniów, którzy w teście 1 otrzymali wynik lepszy niż 58?
c) Określ procent uczniów, którzy w teście 2 otrzymali wyniki pomiędzy 42 a 70?
d) Określ procent uczniów, którzy otrzymali wyniki niższe niż 28 punktów w teście 2?
e) Określ procent uczniów, którzy otrzymali w teście 1 wynik poniżej lub równy 78 punktów?
f) Czy jest możliwe aby uczeń piszący test 2 otrzymał wynik 98? Odpowiedź uzasadnij.
28
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
Przykładowe ZADANIA TEORETYCZNE
1. Gdy liczymy jaki najczęściej stopień dostają studenci na egzaminie ze statystyki, to liczymy:
a) modalną (dominantę)
b) medianę
c) średnią
d) minimum
2. Gdy liczymy jaki wynik dzieli uczniów na połowę na podstawie punktów uzyskanych w teście z metodologii,
to liczymy:
a) modalną (dominantę)
b) medianę
c) średnią
d) minimum
3. Gdy sprawdzamy jaki był najgorszy na całej uczelni wynik egzaminu wstępnego, to sprawdzamy:
a) modalną (dominantę)
b) medianę
c) średnią
d) minimum
4. Odchylenie standardowe:
a) pozwala na policzenie kwartyli
b) mówi o tym jaka jest różnica między najwyższym i najniższym wynikiem
c) należy do miar tendencji centralnej
d) mówi o rozproszeniu wyników wokół średniej
5. Rozstęp:
a) mówi o rozproszeniu wyników wokół średniej
b) mówi o różnicy między najwyższym i najniższym wynikiem
c) liczony jest na podstawie średniej
d) może zastępować odchylenie standardowe
6. Jeżeli Marcin uzyskał wynik równy 1 kwartylowi, w teście, który ma wyniki od 0 do 100 punktów, oznacza
to, że:
a) Marcin uzyskał 25 punktów
b) Marcin zrobił 1/4 testu
c) 25% osób miało wyniki gorsze lub równe wynikowi Marcina
d) 75 osób miało wyniki lepsze od Marcina
7. Jeśli w teście ze statystyki, mierzącym na ile studenci opanowali ten przedmiot, Weronika poprawnie
wypełniła 50% testu, to jej wynik:
a) jest równy modalnej
b) jest równy medianie
c) jest równy średniej
d) nie możemy ocenić czemu jest równy
8. Jeżeli Jan uzyskał wynik równy 30 centylowi w teście, który ma wyniki od 0 do 100 punktów, oznacza to, że:
a) Jan uzyskał 30 punktów
b) 30% osób miało wyniki gorsze lub równe wynikowi Jana
c) 30 osób miało wyniki gorsze od Jana
d) 30% osób miało wyniki lepsze od Jana
9. Jeżeli Zofia uzyskała wynik równy 5 decylowi w teście, który ma wyniki od 0 do 10 punktów, oznacza to, że:
a) Zofia uzyskała 5 punktów
b) Zofia zrobiła 50% testu
c) 50% osób miało wyniki gorsze lub równe wynikowi Zofii
d) 5 osób miało wyniki lepsze od Zofii
29
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
10. Jeśli w teście wiadomości, mierzącym na skali od 0 do 10 na ile studenci znają skale pomiarowe, Ewa
uzyskała wynik równy medianie, a Adam uzyskał wynik równy drugiemu kwartylowi, to:
a) Adam odpowiedział lepiej niż Ewa,
b) Ewa odpowiedziała lepiej od Adama,
c) obydwoje odpowiedzieli równie dobrze,
d) większość dzieci odpowiedziała lepiej od Ewy.
11. Które z poniższych stwierdzeń jest prawdziwe dla rozkładu normalnego:
a) w zależności od odchylenia standardowego rozkłady są albo symetryczne, albo niesymetryczne
b) w przypadku rozkładu normalnego trudno jest mówić o jakimś konkretnym, specyficznym kształcie
c) średnia ≠ medianie ≠ modalnej
d) 68,26% wyników leży w odległości ± jednego odchylenia standardowego od średniej
M
a
t
e
r
i
a
ł
y
12. Miara skośności rozkładu większa od 1, mówi nam o tym, że:
a) modalna < mediany < średniej
b) modalna > mediany > średniej
c) średnia = medianie = modalnej
d) rozkład jest symetryczny
13. Skośność mówi nam o :
a) spłaszczeniu/wysmukłości rozkładu
b) nierównym odchyleniu standardowym
c) niesymetryczności rozkładu wyników
d) wartość średniej wszystkich wyników
14. Kurtoza mówi nam o:
a) spłaszczeniu/wysmukłości rozkładu
b) tym, że mediana, modalna i średnia nie są sobie równe
c) niesymetryczności rozkładu wyników
d) wielkości średniej
15. Miara skośności rozkładu przedstawionego na wykresie jest
a) zerowa
b) ujemna
c) dodatnia
d) nie możemy jej policzyć
600
500
Częstość
p
o
m
o
c
n
i
c
400
300
200
100
Odc h.Std = 2.26
Średnia = 2.9
N = 1183.00
0
0.0
2.0
4.0
6.0
8.0
10.0
12.0
14.0
16. Wynik Kazika w teście inteligencji był równy 50 centylowi. Test rozwiązywało 40 studentów, mediana
wynosiła 52 punkty, a odchylenie standardowe 6. Ile punktów otrzymał Kazik?
a) 50
b) 52
c) 56
d) 58
30
Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001.
17. Szkolna pielęgniarka zmierzyła Agatkę i Jacka, a potem wystandaryzowała ich wzrost zgodnie z grupą
wiekową. Wystandaryzowany wzrost Agatki wynosił -2z (w jej grupie wiekowej średnia wynosiła 146 cm, a
odchylenie standardowe 8 cm). Wystandaryzowany wzrost Jacka wynosił 1,5z (w jego grupie wiekowej
średnia wynosiła 130 cm, a odchylenie standardowe 10 cm). Które z dzieci było wyższe?
a) Agatka
b) Jacek
c) oboje byli tego samego wzrostu
d) nie możemy tego ocenić
18. Janusz dostał z testu statystycznego 29 punktów (średnia w grupie wynosiła 26, a odchylenie standardowe
1,5). Natomiast z testu psychologicznego dostał 15 punktów (średnia wynosiła 9 punktów a odchylenie
standardowe 4). W którym teście Janusz otrzymał lepsze wyniki, na tle swojej grupy?
a) w teście statystycznym
b) w teście psychologicznym
c) w obu testach otrzymał takie same wyniki
d) nie możemy tego ocenić
19. Joanna dostała z testu matematycznego 22 punkty. Średnia w grupie wynosiła 26, a odchylenie standardowe
4. Jaki procent uczniów był lepszy od Joanny?
a) około 16%
b) 50%
c) około 66%
d) około 84%
20. Podaj w którym centylu jest wynik Magdy, wiedząc, że dostała ona 27 punktów z testu, którego wyniki mają
rozkład normalny o średniej wynoszącej 22,5 punkty i odchyleniu standardowym wynoszącym 1,5?
a) 84 centylu
b) 64 centylu
c) 90 centylu
d) 100 centylu

Podobne dokumenty