Pierwsza część materiałów na nowe tysiąclecie w pdf, całość
Transkrypt
Pierwsza część materiałów na nowe tysiąclecie w pdf, całość
Materiały pomocnicze do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW Semestr zimowy 2000/2001 część 1 Prowadzący ćwiczenia: mgr Sylwia Bedyńska mgr Agata Bieniek mgr Jerzy Madej mgr Piotr Radkiewicz mgr Marcin Skład mgr Irena Zinserling Materiały opracowane przez zespół ISS, w składzie: Agata Bieniek, Jerzy Madej, Grzegorz Król, Dorota Król, Piotr Radkiewicz, Marcin Skład, Irena Zinserling, Pod kierunkiem prof. Grażyny Wieczorkowskiej 1 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. PAKIET STATYSTYCZNY SPSS Analiza statystyczna danych eksperymentalnych czy też sondażowych jest sztuką, której będziemy się uczyć w tym semestrze. W dzisiejszych czasach jest to dużo łatwiejsze niż kiedyś, ponieważ dysponujemy komputerami wyposażonymi w dobry pakiet statystyczny. Najpopularniejszym w świecie pakietem statystycznym, stosowanym w badaniach marketingowych, społecznych i ekonomicznych, jest SPSS, program charakteryzujący się wszechstronnością i łatwością użytkowania. Jest to rozbudowany system analizy danych zdolny do współpracy z wieloma rodzajami danych i potrafiący korzystać z różnych formatów plików arkuszy kalkulacyjnych i baz danych. Jest on wyposażony w procedury generujące zarówno proste statystyki opisowe jak i złożone analizy statystyczne. Jego niekwestionowaną zaletą są bogate i urozmaicone możliwości prezentacji danych (tabele, tabelaryczne raporty, wykresy, rozkłady, trendy). SPSS posiada okienkowy interfejs i możliwości uruchamiania większości procedur przez kliknięcie myszką na odpowiednią pozycję menu. Z łatwością współpracuje także przy pomocy OLE z innymi aplikacjami1, co bardzo często ułatwia przygotowywanie raportów. ”Okienkowa” forma programu jest swego rodzaju nadbudówką nad językiem poleceń SPSS. Na język ten składają się procedury statystycznej analizy danych oraz procedury służące do obróbki, transformacji i selekcji danych. Polecenia mogą być bezpośrednio wykonywane w okienkach, przenoszone do specjalnego okienka i dopiero tam wykonywane, lub wpisywane z klawiatury i dopiero wykonywane. Daje to potencjalną możliwość budowania z poszczególnych poleceń całych programów transformacji i analizy danych, które można następnie wielokrotnie wykonywać i modyfikować, korzystając z funkcji edytorskich. SPSS jest pakietem składającym się z podstawowego modułu Base (obróbka, transformacje, selekcja i graficzna prezentacja danych, statystyki opisowe i proste analizy statystyczne) oraz z dodatkowych modułów, nabywanych opcjonalnie i wykorzystywanych według zindywidualizowanych potrzeb. Wyłącznym dystrybutorem pakietu SPSS na Polskę jest krakowska firma COMPANION, która prowadzi również szkolenia w zakresie obsługi i analiz z wykorzystaniem tego pakietu. 1 Znanym nam wyjątkiem jest MS Word 7.0/8.0, który nie przyjmuje obiektów graficznych SPSS. 2 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. ŚCIĄGAWKA Z SPSS OKNA SPSS: Po uruchomieniu programu widoczne są 2 lub 3 okna: Edytor Raportów - okienko z wynikami analiz [ albo *.SPO] Edytor Danych - okienko z tabelą danych [ albo *.SAV] i czasami: Edytor Poleceń - okienko komend [ albo *.SPS] Jeśli nie ma okienka Edytor Poleceń, należy je uruchomić przez menu: Plik > Nowy > Polecenia Między okienkami można przechodzić przez menu: Okno - należy wybrać 1, 2 lub 3. ---------------------------------------------------------------------------------------------------------------------------------------- OPIS MENU: (każde wcięcie oznacza wejście głębiej w menu) PLIK NOWY DANE POLECENIA RAPORT OTWÓRZ dane okienko komend (stare nie jest kasowane, nowe ma numer np.2) okienko wyników (stare nie jest kasowane, nowe ma numer np.2) otwórz zbiór zapisany na dysku. W zależności od tego, czy chcemy otworzyć zbiór danych, polecenia, czy raport, należy w dolnym pasku pojawiającego się okienka wybrać odpowiednie rozszerzenie pliku oraz podać lokalizację (w dużym górnym oknie). CZYTAJ DANE W ASCII – tu wczytujemy dane zapisane np. w pliku tekstowym Z SEPARATORAMI PÓL DANYCH – gdy wpisane zmienne są rozdzielone (np. spacjami) O ZADANEJ SZEROKOŚCI KOLUMN – gdy sami opisujemy w jakich kolumnach mieszczą się kolejne zmienne ZAPISZ zapisz pod bieżącą nazwą ZAPISZ JAKO... zapisz pod nową nazwą i lokalizacją DRUKUJ wydrukuj okienko które jest na wierzchu ZATRZYMAJ OBLICZENIA zatrzymaj analizy w toku (np. jeśli się pomyliłe(a)ś) ZAKOŃCZ koniec pracy z SPSS EDYCJA edycja, jak w każdym edytorze (trochę się różni zależnie od okna) COFNIJ cofnij to co przed chwilą zrobiłeś WYTNIJ wytnij do pamięci KOPIUJ skopiuj do pamięci WKLEJ wstaw z pamięci USUŃ usuń zaznaczony fragment ZNAJDŹ znajdź np. określone słowo, liczbę itp. ZAZNACZ WSZYSTKO zaznacz wszystko co się znajduje w otwartym oknie/dokumencie SZUKAJ szukaj, znajdź ZAMIEŃ szukaj i zamień OPCJE ustawianie preferencji użytkownika DANE dane, operacje na zbiorze danych DEFINIUJ ZMIENNĄ definiowanie zmiennych (etykiety, wartości, braki danych) WSTAW ZMIENNĄ wstaw zmienną (nową kolumnę) w środek, przed kursorem WSTAW OBSERWACJĘ – gdy chcemy dodać kolejną osobę (linijkę) do danych SORTUJ OBSERWACJE sortuj dane według podanego kryterium TRANSPONUJ transpozycja, czyli zamiana rzędów na kolumny i na odwrót POŁĄCZ DANE połącz zbiory, dodając przypadki lub zmienne AGREGUJ agregowanie danych PODZIEL NA PODZBIORY podziel plik na podgrupy (np. do zrobienia korelacji w grupach) WYBIERZ OBSERWACJE wybierz przypadki z całego zbioru PRZEKSZTAŁCENIA przekształcenia danych OBLICZ WARTOŚCI oblicz, utwórz nową zmienną, zmień istniejącą ZLICZ WYSTĄPIENIA zlicz ile razy wystąpiła dana wartość (np. ile razy OB. zaznaczyła 7 na skali) 3 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. REKODUJ przekoduj NA TE SAME ZMIENNE w te same zmienne NA INNE ZMIENNE w nowe zmienne (opcja bezpieczniejsza!) RANGUJ OBSERWACJE rangowanie, kwartyle, dzielenie wg mediany i podobne przekształcenia WYKONAJ ZAWIESZONE wykonaj zaległe obliczenia (użyć jeśli w pasku statusu na dole ekranu pojawi się napis "TRANSFORMACJE ZAWIESZONE") STATYSTYKI obliczenia statystyczne OPIS STATYSTYCZNYopisz dane CZĘSTOŚCI frekwencje, liczenie przedziałów procentowych STATYSTYKI OPISOWE : średnia, odchylenie standardowe, kurtoza, skośność, min., max... TABELE KRZYŻOWE tu należy szukać testu chi-kwadrat PORÓWNYWANIE ŚREDNICH -porównaj średnie ŚREDNIE... drukuje średnie i odchylenia standard. W PODGRUPACH! (nie trzeba dzielić zbioru na podgrupy przez DANE/PODZIEL NA PODZBIORY) TEST –T DLA JEDNEJ PRÓBY... TEST –T DLA PRÓB NIEZALEZNYCH... TEST –T DLA PRÓB ZALEZNYCH... JEDNOCZYNNIKOWA ANOVA najprostsza (i najłatwiejsza w użyciu) analiza wariancji OGÓLNY MODEL LINIOWY modele analizy wariancji OGÓLNY CZYNNIKOWY prosta, wieloczynnikowa WIELU ZMIENNYCH bardziej złożona - wieloczynnikowa z kontrastami KORELACJE korelacje (żeby zrobić w grupach, najpierw trzeba PODZIELIĆ NA PODZBIORY) PARAMI proste korelacje WYKRESY SŁUPKOWY LINIOWY WARSTWOWY KOŁOWY MAX-MIN PARETO grafika słupkowy liniowy powierzchniowy kołowy kreśli zestawy dwóch lub trzech wartości, np. min. i max. cena słupkowy z nałożoną linią pokazującą skumulowane wartości wszystkich poprzednich słupków KARTY KONTROLNE liniowy, do pokazywania przebiegu procesów SKRZYNKOWY blokowy, pokazuje medianę, kwartyle, przypadki skrajne SŁUPKI BŁĘDU j. w. ROZRZUTU wykres rozrzutu (korelacyjny) HISTOGRAM histogram, rozkłady poszczególnych zmiennych P-P skumulowany rozkład zmiennej na tle rozkładu normalnego K-K rozkład zmiennej na tle rozkładu normalnego • wykresy dla serii czasowych i danych panelowych: SEKWENCYJNY SZEREGI CZASOWE AUTOKORELACJE KORELACJE KRZYŻOWE ANALIZA SPEKTRALNA NARZĘDZIA użyteczne polecenia ZMIENNE lista zmiennych SŁOWNIK DANYCH NOWA OBSERWACJA -AUTO automatycznie dodaje nowy przypadek, lepiej żeby nie wyłączać OKNO NAZWY okno, manipulacja wyglądem, przejście z okna do okna lista otwartych okienek do wyboru POMOC pomoc do programu SPIS TREŚCI I INDEKS (UWAGA – wyjaśnienia po angielsku!) SAMOUCZEK STRONA MACIERZYSTA SPSS STATISTIC COACH INFORMACJE O PROGRAMIE ---------------------------------------------------------------------------------------------------------------------------------------- 4 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. NAJCZĘŚCIEJ UŻYWANE PRZYCISKI OK WKLEJ RESETUJ ANULUJ OPCJE DALEJ DODAJ ZMIEŃ USUŃ DEFINIUJ (GRUPY) potwierdzenie (wykonanie) polecenia nie wykonuj, tylko zapisz polecenie w okienku poleceń (SYNTAX) wyczyść zawartość bieżącego okienka ze starych śmieci rezygnacja różne opcje kontynuacja dodaj zmień usuń (wycofaj) ustal zakres (najczęściej czynnika, np. 0...4) ---------------------------------------------------------------------------------------------------------------------------------------- O WYKRESACH W SPSS Każdy nowy wykres pojawia się w oknie Edytor Raportów. W tym oknie można edytować wykresy poprzez dwukrotne kliknięcie myszką na obszarze wykresu. Po wykonaniu tej operacji, pojawi się nowe okno – Edytor Wykresów. Menu okna EDYTOR WYKRESÓW Grupy menu: PLIK i EDYCJA nie różnią się zbytnio od innych okien. GALERIA daje możliwość zmiany typu wykresu (kołowy, słupkowy, liniowy itd.) USTAWIENIA dają możliwość manipulowania wyglądem bieżącego wykresu. UWAGA: zawartość tego menu zmienia się wraz z typem wykresu. Jest inna na przykład dla słupkowego i inna dla wykresu rozrzutu. • OPCJE - specyficzne dla każdego typu wykresu • OSIE - wygląd osi pionowej i poziomej: opis, wielkość, typ oznaczeń • ODSTĘPY - zmiana odstępów między słupkami w wykresach • TYTUŁ - tytuł wykresu - (zwykle tu należy zmienić czcionkę na CE) • PRZYPIS - stopka dla wykresu • LEGENDA - wyświetlanie legendy wykresu • KOMENTARZ - dodaje tekst w wybranym miejscu wykresu. Nie dla każdego typu • LINIA REFERENCYJNA - wstawia poziomą / pionową linię odniesienia • RAMKA WEWNĘTRZNA/ZEWNĘTRZNA - obramowanie wewnętrzne / zewnętrzne • ODŚWIEŻ - przerysuj wykres jeszcze raz (np. po wprowadzonych zmianach) 5 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. SŁOWNICZEK SPSS (może się przydać w oknie Edytor Poleceń) ALL - wszystkie/wszystko ANOVA (skrót od ANalysis Of VAriance)- analiza wariancji BETWEEN - pomiędzy (grupami) BIVARIATE - proste, dwuzmiennowe CASE - przypadek COMPUTE - oblicz, utwórz, przelicz CONDITION - warunek do spełnienia COUNT - zlicz DATA - dane DEPENDENT - zależny, wyjaśniany (wyjaśniana zmienna, cecha), np. poziom adrenaliny FACTOR - czynnik wyjaśniający, to samo co INDEPENDENT F/t, F/t value - wartość testu F/t IF - jeśli, warunek do spełnienia INDEPENDENT - niezależny, wyjaśniający (np. stres wyjaśnia różnice w poziomie adrenaliny) MEAN - średnia OUTPUT - wyniki SIGNIFICANCE LEVEL - poziom istotności SIG, SIGNIFICANCE OF (F) - istotność testu, czyli jakie jest prawdopodobieństwo, że nie ma żadnych różnic pomiędzy grupami, które porównujemy. Np. jeśli istotność (p) jest mniejsza od 0.05, to przyjmuje się, że występują istotne statystycznie różnice. STANDARD DEVIATION - odchylenie standardowe SYNTAX - komendy TARGET VARIABLE - nowa nazwa VARIABLE - zmienna WITHIN - wewnątrz (grup) $casenum - numer przypadku - tego nie widać, a czasem się przydaje przy wyborze przypadków do przekształceń, jeśli się nie stworzyło własnej numeracji np. zastosuj wzór dla osoby od 1 do 20: $casenum < 21, czyli dla każdej osoby o numerze mniejszym niż 21. SŁOWNICZEK STATYSTYCZNY axis approximation case cell cell width cell format chi-square test coefficient comparing comparing groups computing variables confidence interval correlation bivariate correlation partial correlation correlation matrix crosstabulation covariance descriptive statistics dichotomy dichotomous variable distribution estimation error estimation frequencies kurtosis – kurtoza, oś przybliżenie przypadek komórka szerokość komórki format komórki test chi-kwadrat współczynnik porównywanie porównywanie grup tworzenie zmiennych przedział ufności korelacja korelacja dwuzmiennowa korelacja cząstkowa macierz korelacji tabele krzyżowe kowariancja statystyki opisowe dwuwartościowość zmienna dwuwartościowa rozkład oszacowanie oszacowanie błędu częstości miara koncentracji rozkładu 6 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. label - etykietka etykietka zmiennej etykietka jednej z wartości zmiennej mean średnia measures of central tendency miary tendencji centralnej measures of dispersion miary rozproszenia median mediana mode modalna (dominanta) missing values braki danych multiple R współczynnik korelacji wielokrotnej normal curve krzywa normalna percentiles centyle pie chart wykres kołowy probability prawdopodobieństwo conditional probabbility - prawdopodobieństwo warunkowe joint probability prawdopodobieństwo łączne R coefficient współczynnik korelacji R R square coefficient współczynnik determinacji R kwadrat random sample próba losowa range zakres row wiersz rows and columns wiersze i kolumny quartiles kwartyle sample size wielkość próby scatterplot wykres rozrzutu scale skala nominal scale skala nominalna ordinal scale skala porządkowa (rangowa) interval scale skala przedziałowa (interwałowa) ratio scale skala stosunkowa (ilorazowa) skewness skośność split-file analysis analiza podzbiorów w zbiorze danych standard deviation odchylenie standardowe standard error błąd standardowy T-test test T independent-samples T-test - test T dla prób niezależnych one-sample T-test test T dla jednej próby paired samples T-test - test T dla prób zależnych (sparowanych) variable zmienna numeric variable zmienna numeryczna string variable zmienna tekstowa variance wariancja weighting cases ważenie przypadków z-scores wyniki standaryzowane variable label value label - 7 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. INFORMACJE O PGSS Na zajęciach analizowane będą dane pochodzące z Polskiego Generalnego Sondażu Społecznego Cele i problematyka PGSS Polski Generalny Sondaż Społeczny (PGSS) jest, od 1992 roku, powtarzanym badaniem zmian zachodzących w społeczeństwie polskim. Problematyka badań obejmuje główne nurty zainteresowań polskiej i światowej czołówki badaczy różnych dyscyplin nauk społecznych: socjologii, psychologii społecznej, nauk politycznych, ekonomii oraz aksjologii. W celu umożliwienia systematycznego badania trendów związanych z polityczną, ekonomiczną i społeczno-kulturową transformacją w Polsce, w programie PGSS położono nacisk na dokładną replikę większości pytań i wskaźników w kolejnych edycjach badania. Dane PGSS pochodzą z indywidualnych wywiadów kwestionariuszowych, realizowanych na reprezentatywnych próbach około 1650 dorosłych Polaków (powyżej 17 roku życia). Połączone zbiory danych z pięciu badań zrealizowanych w latach 1992-1997 obejmują około 9 tysięcy zbadanych osób, a każda z nich jest charakteryzowana przez blisko 800 wskaźników społecznych. W zbiorach, którymi będziemy posługiwać się podczas ćwiczeń przy komputerach uwzględniono tylko część zmiennych – podzbiór odpowiedzi na kilkadziesiąt pytań. W PGSS położono duży nacisk na konstrukcję wskaźników umożliwiających badanie trendów w uwarstwieniu i nierównościach społecznych w Polsce, obejmujących różne płaszczyzny położenia społecznoekonomicznego (dochody, zarobki, warunki życia), zawodowego (pozycje i role zawodowe, segmentacja rynku pracy, bezrobocie), edukacyjnego i kulturowego (pochodzenie społeczne, struktura rodziny, zróżnicowania regionalne). Danym tym towarzyszą wskaźniki mierzące: subiektywną percepcję uwarstwienia i nierówności w Polsce, klasowe i warstwowe autoidentyfikacje, ocenę warunków życia własnych i rodziny oraz szanse na ich poprawę. Wydzielona grupa pytań charakteryzuje poglądy i zachowania polityczne Polaków, obejmujące między innymi; (a) zachowania wyborcze (wybory parlamentarne i prezydenckie), (b) percepcję polityki (zainteresowania polityką i życiem publicznym, preferowane cele polityki, ocena roli rządu w gospodarce i życiu społecznym), (c) preferencje ideologiczne (opinie o komunizmie i socjalizmie, orientacje na skali lewica/prawica, tolerancja ideologiczna), (d) oceny funkcjonowania systemu politycznego (opinie o funkcjonowaniu demokracji, zaufanie do głównych instytucji politycznych, społecznych i gospodarczych w Polsce, oceny wydatków budżetu na cele publiczne). Międzynarodowa pozycja PGSS PGSS zdobył wysokie uznanie w oczach światowej czołówki badaczy nauk społecznych. W ciągu pięciu edycji badania, z danych (w postaci elektronicznej) i z publikacji PGSS (wydano 5 tomów w j. angielskim i polskim) skorzystało wielu międzynarodowych badaczy, zatrudnionych w czołowych ośrodkach badań społecznych. Oceniamy, że wyniki PGSS należą obecnie do najczęściej cytowanych na świecie programów badań z nauk społecznych realizowanych w Polsce w latach dziewięćdziesiątych. Posiadamy również informacje, że wyniki PGSS są także wykorzystywane w procesie kształcenia studentów w około 15 uniwersytetach w USA, Niemczech, Japonii i Norwegii. Dane pochodzące z badań PGSS spełniają międzynarodowe standardy metodologiczne, czego dowodem jest ich elektroniczna archiwizacja przez 6 największych na świecie archiwów wyników badań społecznych: Inter-University Consortium for Political and Social Sciences (ICPSR, University of Michigan, USA), Zentarlarchiv für Empirische Sozialforschung (ZA, Uniwersytet w Kolonii, Niemcy), The Ropper Center (University of Connecticut), Consortium for International Earth Science Information Network (CESIN, USA), The Data Archive (University of Essex, UK), TARKI Archive (Węgry). Włączenie wyników badań do tych archiwów jest dla badaczy i użytkowników jednoznacznym gwarantem najwyższej jakości i rzetelności naukowej danych. 8 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. PRÓBA A POPULACJA Jednym z podstawowych celów nauki jest wyjaśnianie i przewidywanie wyników obserwacji zdarzeń i relacji przyczynowych, jakie między nimi zachodzą. Tym zagadnieniem będziemy zajmować się w pierwszym semestrze ćwiczeń. Pierwszym krokiem, jaki musimy uczynić, jest zdefiniowanie populacji, na temat której chcemy formułować sądy. Należy wiec powiedzieć, co rozumiemy przez pojęcia populacja i próba. POPULACJA to pełny zbiór jednostek i pomiarów, które mają co najmniej jedną cechę wspólną, a PRÓBA jest podzbiorem wylosowanym z populacji w celu wnioskowania o zbiorze. Populacją są np. wszyscy ludzie wychowani w kulturze zachodniej, Polacy w okresie transformacji systemowej itd. Podczas tych ćwiczeń analizować będziemy dane z PGSS, które stanowią próbę reprezentatywną populacji dorosłych Polaków. PRÓBA POPULACJA Wartości liczbowe wyliczane na podstawie próby nazywane są STATYSTYKAMI np. jeżeli wyliczymy sumę wyników z testu przeprowadzonego w danej klasie, to wyliczymy statystykę Wartości liczbowe wyliczane ze wszystkich elementów populacji podstawie próby nazywane są PARAMETRAMI Statystyki opisujące próbę będziemy oznaczać literami łacińskimi M, S .... Parametry opisujące populację będziemy oznaczać literami greckimi α, β, µ , δ. Następnym krokiem jest wyszczególnienie liczby i rodzaju zmiennych charakteryzujących populację. Proponujemy zestaw kilkudziesięciu dobrze zdefiniowanych zmiennych z PGSS. Kolejnym krokiem jest stworzenie modelu. MODELEM nazwiemy pewne odwzorowanie rzeczywistości, uzyskane przez DEFINIOWANIE i POMIAR. W modelu następuje sprowadzenie rzeczywistości do pewnych jej elementów, określonych jako zmienne i stałe, wraz z relacjami, jakie pomiędzy tymi elementami zachodzą. Tak więc w naszym modelu weźmiemy pod uwagę tylko niektóre cechy badanego zdarzenia, pomijając wiele innych. Przykładowo, sytuację materialną możemy definiować przez wysokość dochodów uzyskanych z pracy, zaniedbując różnice miedzy zamożnością rodzin, z których badani się wywodzą. TYPY SKAL W psychologii mamy do czynienia z różnymi liczbami. Często liczbami oznaczamy kategorie zmiennych np. przypisując w próbie mężczyznom liczbę 1, a kobietom liczbę 2. Czynność przypisywania liczb osobom, czy cechom będziemy nazywali POMIAREM, a to jakie działania matematyczne będziemy mogli przeprowadzić na tak przypisanych liczbach, jest określone przez TYP SKALI POMIAROWEJ. Pomiar możemy przedstawić jako przypisywanie obiektom liczb. 9 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. W psychologii używa się 4 rodzajów skal pomiarowych: 1. skala nominalna – gdy obiektom przynależącym do tej samej kategorii przypisuje się tę samą liczbę np. płeć, region itp. Liczba przypisana w przypadku tej skali spełnia tylko rolę identyfikatora, informuje o przynależności, np. nie można tych liczb do siebie dodawać. 2. skala porządkowa (rangowa) – gdy przypisanie obiektom liczb pozwala je uporządkować pod względem nasilenia cechy, np. wszystkich respondentów możemy uporządkować ze względu na wykształcenie (podstawowe, średnie itd.). Na podstawie danych możemy powiedzieć, że ktoś jest bardziej wykształcony od innej osoby, ale już nie możemy powiedzieć o ile, bo skala nie ma stałej jednostki pomiaru. 3. skala przedziałowa (interwałowa) – zostaje określona przez wskazanie STAŁEJ jednostki miary i relacji przyporządkowującej każdemu wynikowi obserwacji liczbę określoną z dokładnością do przekształcenia liniowego (y = ax + b), co oznacza, że nie zmieniając relacji między poszczególnymi badanymi obiektami możemy do wszystkich wyników dodawać/odejmować stałą i/lub mnożyć przez stałą np. centymetry możemy zamienić na cale (1 cal = 2.54 cm) albo stopnie Celsjusza na stopnie Fahrenheita (trzeba przemnożyć stopnie Celsjusza przez 1.8, a następnie do wyniku dodać 32). 4. skala ilorazowa (stosunkowa) określona zostaje przez wskazanie stałej jednostki miary, istnienie zera bezwzględnego (jednostronnego ograniczenia zakresu skali) oraz wskazanie relacji przyporządkowania każdemu wynikowi obserwacji liczby. Tym, co odróżnia skalę ilorazową od przedziałowej jest istnienie ZERA BAZWZGLĘDNEGO. W zależności od typu skali pomiarowej możemy odpowiadać (lub nie) na różne pytania dotyczące relacji obiektów opisywanych na tych skalach. TYP SKALI POMIAROWEJ Rodzaje pytań Skala nominalna Skala porządkowa (rangowa) Skala przedziałowa (interwałowa) Skala ilorazowa (stosunkowa) Czy obiekt X jest różny od obiektu Y? TAK TAK TAK TAK Czy obiekt X jest lepszy od obiektu Y ? NIE TAK TAK TAK O ile obiekt X jest lepszy od obiektu Y ? NIE NIE TAK TAK Ile razy obiekt X jest lepszy od obiektu Y pod względem... NIE NIE NIE TAK Zależnie od typu skali możemy wyliczyć (lub nie) różne miary charakteryzujące rozkłady zmiennych. Miary rozproszenia (poziom pomiaru) Miary tendencji centralnej Miary współzmienności nominalna Modalna porządkowa Mediana dyspersja względem klasyfikacji kwartyle przedziałowa i ilorazowa (ilościowe) Średnia współczynnik siły związku współczynnik korelacji rang współczynnik korelacji liniowej Skala wariancja, odchylenie standardowe, szerokość przedziału, zmienność Konsekwencją przekształcania skal jest możliwość wyliczania miar określonych dla skal niższego rzędu, ale nie odwrotnie. Dla danych wyrażonych na skalach co najmniej przedziałowych wprowadza się ponadto miary asymetrii (skośności) i spłaszczenia (kurtozy). 10 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. Zmienna mierzona na wyższym poziomie pomiaru może być mierzona na wszystkich niższych, ponieważ każda wyższa skala spełnia automatycznie założenia wszystkich niższych. Dlatego każdą zmienną możemy traktować tak jakby była mierzona na skali nominalnej. Niektóre ze zmiennych spełniają założenia skali porządkowej. Niektóre z tych porządkowych spełniają warunki przedziałowości. itd. Tak jak wszystko co żyje jest organizmem, niektóre z organizmów są ssakami, niektóre z ssaków są ludźmi, niektórzy ludzie to studenci (czyli każdy student jest organizmem, i każda zmienna ilorazowa jest także nominalną). 1. Skala nominalna – skala identyfikuje tylko przynależność respondenta do pewnej kategorii, tutaj określa miejsce zamieszkania respondenta. 800 700 600 500 Liczebność 400 300 200 I N O I I KI SC -W K LS PO D N C SK I LS PO N D O H O O AŁ M SC W ŁN PÓ O I R O H C M PO ZA K ĄS ŚL Y N AL O TR LK IE W EN C H D O N I REGION ZAMIESZKANIA (8 REGIONOW) 11 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. 2. Skala porządkowa – skala ‘porządkuje’ zadowolenie z sytuacji politycznej w Polsce. 1000 800 600 Liczebność 400 200 0 zo rd Ba on ol y on ol y y on ol ow on ow ad ez ni w do za ie N ol w y on ol ow d za ad y do ie jn ze ac R jz ze ac R za on ol o ow dz d Za r Ba y ZADOW Z SYTUACJI POLITYCZNEJ W KRAJU 3. Skala przedziałowa – skala nie tylko porządkuje respondentów pod względem nasilenia chęci życia, zakłada również stałą odległość pomiędzy jednostkami skali, co pozwala na pomiar dystansu pomiędzy osobami. 2000 Liczebność 1000 0 ol og ni n oc m e zo rd Ba 9 8 7 6 5 4 3 2 W e o ce ch i ce ch m i m SKALA CHECI ZYCIA 12 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. 4. Skala ilorazowa (stosunkowa) –porządkuje respondentów i określa różnice w wieku. Pozwala również na uzyskanie informacji ile razy osoba A jest starsza od osoby B. 140 120 100 80 60 40 20 0 98 90 82 74 66 58 50 42 34 26 18 WIEK RESPONDENTA 13 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. STATYSTYKI OPISOWE ROZKŁADÓW Oczywiście możemy oceniać „na oko” różnice pomiędzy rozkładami czy grupami wyników, ale zdecydowanie lepszym pomysłem jest posługiwanie pewnymi wielkościami, które służą nam do opisu charakterystyki rozkładu czy grupy wyników. Do tego celu służą nam statystyki opisowe, które możemy podzielić na miary tendencji centralnej opisujące przeciętne wyniki oraz miary dyspersji opisujące ich rozproszenie. Podstawowe statystyki opisowe można pogrupować na miary tendencji centralnej, opisujące przeciętne wyniki oraz miary dyspersji opisujące rozproszenie wyników. Miary tendencji centralnej N Średnia arytmetyczna M = åX i =1 i N = X 1 + X 2 + ... + X N , gdzie X 1 , X 2 ,..., X N to konkretne N wyniki Przykład: 5 osób piszących test uzyskało odpowiednio: 2,2,6,7,8 punktów. Średnia wynosi 5 punktów (2 + 2 + 6 + 7 + 8 = 25; 25 dzielone przez 5 osób daje średnią 5). Wartość średnia nie jest wystarczającą wielkością do opisu rozkładu punktów, możemy mieć np. wyniki 5, 5, 5, 5, 5 i średnia również jest równa 5, więc musimy posługiwać się dodatkowo wielkością opisującą rozproszenie wyników wokół średniej. Średnia ma trzy istotne własności : 1. Jest wrażliwa na ekstremalne wyniki, np. gdyby w grupie osób przeciętnie zarabiających znalazł się miliarder to średnia zarobków w tej grupie źle reprezentowałaby wysokość zarobków. 2. Suma odchyleń wszystkich wyników od średniej równa jest zero, co zapisujemy: N å ( X i =1 i − M ) = 0 np. korzystając z powyższego przykładu z testem, opuszczając dla uproszczenia indeksy : Σ(X – M) = (2-5)+(2-5)+(6-5)+(7-6)+(8-5) = -3-3+1+2+3 = 0. 3. Suma kwadratów odchyleń wszystkich wyników od stałej jest minimalna, kiedy ta stała jest N średnią, co możemy zapisać å(X i =1 i − M ) 2 = minimum . Mediana to wartość przeciętna zmiennej na skali co najmniej porządkowej. Wartość ta dzieli na połowę uporządkowane wyniki od najmniejszego do największego, tak że poniżej niej znajduje się co najmniej 50% wyników. W naszym przykładzie z testem, medianą jest wartość 6, bo poniżej i powyżej tej wartości znajdują się po dwa wyniki: 2, 2, 6, 7, 8. Modalna (dominanta) to wartość najczęściej występująca. W naszym przykładzie jest to wartość 2 występująca dwukrotnie. 14 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. Sposób obliczania kwartyli (decyli, centyli) i innych miar opartych na procentach. Wśród 12 uczniów przeprowadzono test przyrodniczy. Za każdy poprawnie rozpoznane drzewo dostawało się 1 punkt. Drzew było 20. Uzyskane wyniki: 10, 6, 20, 0, 5, 13, 5, 11, 10, 17, 14, 8 1. Wyniki surowe porządkujemy od najmniejszego do największego, powtarzające się grupujemy obok siebie: A więc: 0, 5, 5, 6, 8, 10, 10, 11, 13, 14, 17, 20 2. Ilość wyników (100%) dzielimy na 4 (kwartyle), 10 (decyle), 100 (centyle), otrzymujemy w ten sposób ile wyników mieści się w danym przedziale procentowym (dla kwartyli – po 25 %, dla decyli po 10%, dla centyli po 1 %). Liczymy kwartyle w naszej grupie uczniów: 12 / 4 daje nam 3. Dzielimy nasz zbiór na grupy po 3 wyniki: 0, 5, 5, * 6, 8, 10, * 10, 11, 13, * 14, 17, 20 W pierwszym kwartylu powinniśmy mieć 3 kolejne wyniki, poczynając od najniższego (0, 5 i 5), a więc pierwszy kwartyl obejmuje wyniki do 5 włącznie. Kolejne 3 tworzą drugi kwartyl, następne 3 – trzeci kwartyl, a trzy końcowe – czwarty kwartyl. 3. gdy podział wypada pomiędzy takimi samymi wynikami, to wtedy wszystkie wyniki o tej samej wartości zaliczamy do danego kwartyla (tak jak to robi się przy liczeniu mediany) W naszej grupie do drugiego kwartyla zaliczymy wyniki 6, 8, 10, 10 – a więc cztery a nie trzy, ponieważ nie możemy uznać, że jedna 10 jest większa od drugiej. Pierwszy i drugi kwartyl łącznie ma obejmować co najmniej połowę wyników. W naszej grupie górną granicą drugiego kwartyla jest 10. Natomiast do kwartyla trzeciego zaliczymy tylko wyniki 11 i 13, bo do 3 kwartyla włącznie (= 13) mieści się co najmniej 75 % wyników, a czwarty ma zawierać nie więcej niż 25 % najlepszych wyników. Przy niektórych układach wyników wartości graniczne kwartyli mogą się pokrywać, np. w poniższym zbiorze górna granica pierwszego i drugiego kwartyla wynosi 5 (trzeciego 11, czwartego 20): 0, 5, 5, 5, 5, 5, 5, 10, 11, 14, 17, 20 Podobnie postępujemy przy podziałach na 10 czy 100 części. Należy pamiętać, że opieramy się na ilości wyników, i że mają one być uporządkowane od najmniejszego do największego. Przy obliczaniu kwartyli (czy innych podziałów procentowych) dla większych grup możemy posłużyć się procentami skumulowanymi. Miary rozproszenia wokół średniej Zmienność określana jako suma kwadratów odchyleń od średniej M definiowana wzorem: N SS = å ( X i − M ) 2 i =1 Wariancja s 2 = SS , to po prostu zmienność SS podzielona przez liczbę stopni swobody, które ( N − 1) tutaj oznaczają liczebność próby N minus jeden. Odchylenie standardowe - s to pierwiastek kwadratowy z wariancji s= SS ( N − 1) odchylenie standardowe = wariancja Odchylenie standardowe i wariancja to najważniejsze ze statystyk opisowych jednej zmiennej. Odgrywają również kluczową rolę w badaniu współzależności pomiędzy dwoma i więcej zmiennymi. 15 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. ROZKŁADY Podstawowym sposobem prezentacji zmiennej jest rozkład częstości (frekwencje). Rozkład frekwencji przedstawia wynik oraz jego częstość pojawiania się. W dalszej części będziemy posługiwali się określeniem ‘rozkład frekwencji’ lub ‘frekwencje’. Jednym ze sposobów prezentacji frekwencji w postaci graficznej jest wykres słupkowy, którego szczególnym rodzajem jest histogram. Na wykresie słupkowym na osi poziomej odkładany jest wynik (zarobki, IQ - czyli to, co mierzymy), a na osi pionowej przedstawiana jest częstość pojawiania się danego wyniku (liczebność). Warto zauważyć, że oś pozioma w histogramie jest osią "ciągłą", co znaczy, że w postaci histogramu możemy prezentować zmienne na skali co najmniej przedziałowej, dlatego, że tylko skale przedziałowe mają stałą jednostkę pomiaru (jednostka IQ, zł itp.). Stałość jednostki pomiaru pozwala nam prezentować wyniki na osi poziomej histogramu w postaci przedziałów. Na przykład liczba osób zarabiających od 1000 do 1100 zł, od 1100 do 1200 zł, wtedy jednostką na osi poziomej jest 100 zł. Osoby (ze względu na ich zarobki) przyporządkowujemy do tak skonstruowanych przedziałów. Przykład: Wśród studentów przeprowadzono ankietę, jedno z pytań dotyczyło liczby przeczytanych artykułów naukowych w przeciągu semestru. Otrzymano następujący rozkład częstości (frekwencji) zmiennej: częstość 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 10,00 11,00 13,00 mediana modalna ogółem N ważnych 1603 7 21 70 149 242 323 525 151 75 32 7 1 ------1603 Braki danych procent ważnych procent ,4 1,3 4,4 9,3 15,1 20,1 32,8 9,4 4,7 2,0 ,4 ,1 ------100,0 0 procent skumulowany ,4 1,3 4,4 9,3 15,1 20,1 32,8 9,4 4,7 2,0 ,4 ,1 ------100,0 ,4 1,7 6,1 15,4 30,5 50,7 83,4 92,8 97,5 99,5 99,9 100,0 Informacja o tym ile razy występuje dana wartość zmiennej (frekwencja) oraz w następnej kolumnie jaki to procent ze wszystkich wartości 600 Statystyki opisowe zmiennej : średnia mediana kurtoza minimum 6,220 6 0,421 1 odch. std. dominanta skośność maximum 500 1,665 7 -0,199 13 400 300 Liczebność 200 Histogram zmiennej 'Liczba przeczytanych artykułów'. 100 0 13 11 10 9 8 7 6 5 4 3 2 1 Ilość przeczytanych artykułów Liczba przeczytanych artykułów W tym miejscu powtórzymy statystyki opisowe zmiennej z przykładu "liczba przeczytanych artykułów”. W badaniu brało udział 1603 studentów (N ważnych). Zakres zmienności zmiennej mieści się w granicach od minimum 1 (jeden przeczytany artykuł) do 13 artykułów (maksimum). Studenci przeczytali średnio 6,22 artykułów, odchylenie standardowe wyników od średniej wynosi 1,665. Mediana rozkładu zmiennej równa jest 6 artykułów (median). Studenci najczęściej odpowiadali, że przeczytali 7 artykułów, co jest równe wartości modalnej (dominancie). 16 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. Ze względu na kształt rozkładu frekwencji (częstości) możemy mówić o rozkładach jednomodalnych, bimodalnych, wielomodalnych. Rozkład jednomodalny Rozkład dwumodalny Rozkład wielomodalny Kryterium tego podziału stanowi częstość występowania wartości modalnej. Rozkłady jednomodalne możemy podzielić na skośne (asymetryczne) i symetryczne. Rozkład dodatnio skośny, gdzie wskaźnik skośności jest dodatni oraz występuje relacja modalna < mediana < średnia Rozkład ujemnie skośny, gdzie wskaźnik skośności jest ujemny oraz występuje relacja modalna > mediana > średnia Rozkład symetryczny, który może być rozkładem normalnym, miara skośności równa jest zero występuje relacja: średnia = mediana = modalna ROZKŁAD NORMALNY ROZKŁAD NORMALNY Rozkład normalny odgrywa szczególnie istotną rolę we wnioskowaniu statystycznym. Pierwsze badania tego rozkładu przeprowadzono w siedemnastym wieku, jednak popularność zawdzięcza on Carlowi Friedrichowi Gaussowi. Od niego pochodzi jedna z nazw rozkładu - „krzywa Gaussa” inaczej zwana krzywą normalną. Własności rozkładu normalnego: ♦ Wykres rozkładu ma kształt dzwonu, jest symetryczny względem średniej, która jest jednocześnie modalną i medianą rozkładu ♦ Lewa i prawa gałąź rozkładu zbliża się asymptotycznie do osi poziomej (nigdy jej nie przecina) 17 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. ♦ Około 68% powierzchni pod krzywą mieści się w granicach jednego odchylenia standardowego na prawo i lewo od średniej ♦ Pole obszaru w granicach od 1,96 odchylenia standardowego na lewo od średniej do 1,96 na prawo obejmuje 95% powierzchni pod krzywą, a od 2,58 na lewo do 2,58 na prawo obejmuje 99% całkowitej powierzchni pod krzywą, przy czym odpowiednio 5% i 1% mieści się poza tymi granicami. Wszystkie rozkłady normalne mają taki sam podstawowy (dzwonowaty) kształt, różnić się mogą jedynie co do średnich i odchyleń standardowych. Średnią rozkładu może być dowolna wartość, podobnie jego odchylenie standardowe mierzyć może dowolna, nieujemna wartość. 2,15% 2,15% 0,13% 0,13% 13,59% µ−3σ µ−2σ 34,13% 34,13% 13,59% µ−σ µ µ+σ µ+2σ µ+3σ 84 100 116 132 164 -1 0 1 Rozkład IQ N(100,16) 68 Jednostki Z -2 2 3 STANDARYZACJA WYNIKÓW Aby dokonać standaryzacji wyników musimy dysponować pomiarem co najmniej na skali przedziałowej. Dodanie/odjęcie stałej od zbioru wyników zmienia ich średnią, ale nie zmienia odchylenia standardowego. Mnożenie/dzielenie przez stałą k zmienia zarówno średnią jak i odchylenie standardowe wyjściowego zbioru wyników. Używając powyższych transformacji dodawania/odejmowania oraz mnożenia/dzielenia danego zbioru wyników przez stałą k, można przekształcić każdy rozkład (pod warunkiem, że jego odchylenie standardowe nie wynosi zero) w rozkład o średniej równej zero i odchyleniu standardowym wynoszącym jeden. Takie przekształcenie rozkładu nazywa się standaryzacją. Rozkłady nie posiadające średniej w punkcie zero i odchylenia standardowego równego jeden noszą nazwę niestandaryzowanych rozkładów normalnych. Aby taki rozkład przemienić w standaryzowany rozkład normalny konieczna jest transformacja surowych wyników na standaryzowane wyniki „Z”. Wykonuje się ją w oparciu o następujący wzór: Z = wynik − średnia X −M czyli Z = odchylenie stand . s Rozkład ten ma taki sam kształt jak rozkład niestandaryzowany. Własnością standaryzowanego rozkładu normalnego jest to, że obszar pod krzywą równy jest jedności. Proporcja 18 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. wyników w standaryzowanym rozkładzie normalnym, która leży w danym obszarze krzywej, równa jest obszarowi leżącemu pod nią. Wynik standaryzowany „Z” pokazuje o ile odchyleń standardowych uzyskany przez nas wynik położony jest poniżej lub powyżej średniej. Innymi słowy, jak daleko w jednostkach odchylenia standardowego leży nasz wynik od średniej. Przykład Wiemy, że średnia testu inteligencji w populacji wynosi 100 a odchylenie standardowe 15. Nasz podopieczny uzyskał z tego testu wynik 130. Można zadać pytanie, jak daleko jego wynik leży od średniej? Z = (130 − 100 15 )= 2 Oznacza to, że nasz znajomy uzyskał wynik leżący o dwa odchylenia standardowe powyżej średniej. Wyniki standaryzowane często stosuje się w celu porównywania pomiarów otrzymywanych przy użyciu różnych skal. Załóżmy, że średni wynik semestralnego testu na Twojej uczelni wynosi 2 a odchylenie standardowe 0.75. Na uczelni Twojego kolegi ocenia się wyniki testu na dziesięciopunktowej skali i tam średnia równa jest 5.5 a odchylenie standardowe 1.75. Ty osiągnąłeś z testu wynik 3.6 a twój znajomy 8.5. Jak myślisz, który z was otrzymał lepszy wynik z testu i co to oznacza? Z = (8 . 5 − 5 . 5 ) = 1 . 71 Z= 1 . 75 (3.6 − 2) = 2.13 0.75 Ponieważ wyniki standaryzowane mają średnią równą zero i ujednolicone odchylenie standardowe, łatwo można je poddawać przekształceniom algebraicznym. Centyl definujemy jako taką wartość zmiennej poniżej której znajduje się 1 procent wszystkich wyników. Centyl dla wyniku IQ - 84 równy jest 50% - 34,13% = 15,87% 34,13% Zadanie: Wiedząc, że IQ ma rozkład N(100,16) w populacji, określ: a) wynik centylowy dla osoby o IQ = 84 15,87% b) wynik centylowy dla osoby o IQ = 132 84 µ−σ 100 µ IQ c) Procent wyników między IQ 116 a 132 równy jest 47,72% - 34,13% = 13,59% Centyl dla wyniku IQ - 132 równy jest 50% + 47,72% = 97,72% Procent powierzchni pod krzywą do średniej procent osób, które uzyskają wynik większy od 116 a mniejszy od 132 34,13% Procent powierzchni pod krzywą od średniej do 2z 50,0% 47,72% 13,59% 100 µ 132 µ+2σ IQ 100 µ 116 132 µ+σ µ+2σ IQ 19 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. MIARY ODCHYLEŃ OD ROZKŁADU NORMALNEGO 1. asymetria (skośność) – polega na nierównomierności rozproszenia wyników, co wyraża się również w tym, że wartości liczbowe średniej, mediany i modalnej nie pokrywają się. Mamy dwa rodzaje takich rozkładów: jeden, w którym wyniki wypadają przeważnie poniżej średniej arytmetycznej i drugi - w którym wyniki wypadają powyżej średniej. Są one nazywane rozkładami UJEMNIE i DODATNIO SKOŚNYMI. Rysunki poniżej przedstawiają przykłady takich rozkładów Przykładem rozkładu ujemnie skośnego (skewness<0) jest rozkład zmiennej DESLIVE (Skala chęci życia): 2500 2000 1500 1000 Częstość 500 Odch.Std = 2,21 Średnia = 8 N = 4013,00 0 2 3 4 5 6 7 8 9 10 SKALA CHECI ZYCIA 2. kurtoza (kurtosis) rozkładu wyraża się tym, że gęstość rozkładu obserwacji w pobliżu średniej jest większa lub mniejsza niż dla rozkładu normalnego. Gdy gęstość rozkładu w pobliżu średniej jest mniejsza niż dla rozkładu normalnego, mówimy o SPŁASZCZENIU rozkładu. Gdy gęstość jest większa - rozkład jest SMUKŁY. Miarą nasilenia kurtosis jest współczynnik K (K>0 rozkład smukły; K<0 rozkład spłaszczony). Przykładem smukłego rozkładu (K>0) jest rozkład zmiennej SIBS (liczba braci i sióstr): LICZBA BRACI I SIOSTR 400 300 200 Częstość 100 Odch.Std = 2,26 Średnia = 2,9 N = 1183,00 0 ,5 4,5 2,5 LICZBA BRACI I SIOSTR 8,5 6,5 12,5 10,5 14,5 20 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. ĆWICZENIA W SPSSie WPROWADZANIE DANYCH DO SPSS Istnieją 4 podstawowe metody przeniesienia danych do SPSS z papieru. 1. wpisanie danych w oknie danych SPSS 2. wpisanie w innym programie operującym na danych i przeniesienie do SPSS 3. wpisanie w trybie ASCII (stała szerokość kolumn) - wpisanie w pliku tekstowym 4. wpisanie w trybie ASCII (separatory danych) - wpisanie w pliku tekstowym Kiedy, który sposób zastosować? Ad. 1 Moje umiejętności pracy z SPSS niewielkie, zbiór danych niewielki, wpisuję własnoręcznie Ad. 2 Moje umiejętności pracy z SPSS wystarczające lub wysokie, zbiór dowolnej wielkości, wpisuje ktoś inny Ad. 3 Moje umiejętności pracy z SPSS wystarczające lub wysokie, zbiór danych większy (przynajmniej ponad 40 osób) wpisuję własnoręcznie Ad. 4 Moje umiejętności pracy z SPSS wystarczające lub wysokie, zbiór danych dowolny, badanie prowadzone komputerem, nikt nic nie wpisuje poza osobą badaną. Jak to zrobić? Ad. 1 NAJPROSTSZY sposób - po prostu wpisać w odpowiednie kratki odpowiednie wyniki, pamiętając jednak o utworzeniu dodatkowej zmiennej „numer osoby”, które to numery wpiszemy podczas wprowadzania danych także na wypełnione ankiety! W miarę możliwości wszystkie zmienne wpisujemy w postaci numerycznej, np.: województwo mazowieckie >>1, warmińskie>>2 i.t.d. Ad. 2 W zależności od metody może to być Ms Access, Excel, inne bazy danych lub specjalna aplikacja do „wklepywania” danych. Ad. 3 Przed wprowadzeniem na kartce opisujemy po kolei ile cyfr maksymalnie będziemy potrzebowali na każdą zmienną. Następnie wpisujemy dane do notatnika (notepad.exe) lub innego edytora ASCII w ten sposób aby ciąg cyfr dla każdej osoby był identycznej długości. Przykładowo: jeśli ustaliliśmy, że nr osoby może mieć maksymalnie 3 cyfry, to dla pierwszej osoby nr który jej wpiszemy nie będzie „1” tylko „001”. W pliku tekstowym jedna lina stanowi jedną osobę. Kolejne liczby w linii to kolejne zmienne. Zaletą tej metody jest, iż po wstępnym opanowaniu jest ona NAJSZYBSZA, bo nie wciskamy tu ani razu klawisza ponad niezbędne minimum. Po wpisaniu danych do pliku tekstowego, importujemy go do SPSS informując program, które w kolejności cyfry (kolumny) należą do których zmiennych, np.: od pierwszej do trzeciej cyfry (kolumny) - numer osoby, czwarta - płeć, piąta do ósmej - rok urodzenia itd. Ad. 4 W tym wypadku musimy tylko poinformować program w jakiej kolejności są ułożone zmienne, jak się mają nazywać oraz jakim znakiem są oddzielone kolejne zmienne w pliku tekstowym. Wygląd pliku tekstowego Dane surowe:ASCII 01 13534 02 25243 03 34125 03 53592 04 35421 ... 11 24512 Numer osoby p1 p2 1, 1,3,5,3,4 2, 2,5,2,4,3 3, 3,4,1,2,5 3, 5,3,5,9,2 4, 3,5,4,2,1 ... 11,2,4,5,1,2 Przykłady poleceń do wczytania danych surowych z pliku tekstowego: Stała szerokość kolumn W formacie o stałej długości: 3 p3 DATA LIST FILE 'a:\badanie.txt'/ numer 1-2 pyt1 4 pyt2 5 pyt3 6 pyt4 7. p4 Zmienne oddzielone separatorami formacie z separatorami: 4 W SET UNDEFINED= WARN. DATA LIST FILE='a:\badanie.txt’ FREE / numer * p1 * p2 * p3 * p4 *. 21 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. Nazwa zmiennej może zawierać maksymalnie 8 znaków, lepiej bez polskich liter, nie może zaczynać się od cyfry, zawierać spacji, myślników (może być myślnik na dole, tzw. „klepka”), przecinków itp. Kiedy już wpiszemy wyniki, albo zanim to zrobimy, musimy wprowadzić niezbędne informacje do nagłówków zmiennych. Niezbędne mogą okazać się opisy (etykiety) zmiennych mówiące więcej niż ich nazwy. W etykietach, w przeciwieństwie do nazw, możemy używać dowolnych znaków. Dla części zmiennych będziemy chcieli również przypisać etykiety wartościom zmiennej, żeby wiedzieć co oznaczają poszczególne liczby, np. że 1 oznacza kobietę, 2 mężczyznę, a nie na odwrót. Ostatnią niezbędną czynnością będzie określenie jakie liczby oznaczają dla danej zmiennej brak danych. Najczęściej stosuje się ciągi 9-tek aby oznaczyć brak informacji (np. pominiętą odpowiedź na pytanie). Do oznaczenia odpowiedzi NIE WIEM stosuje się cyfrę 8 lub ciągi 9-tek zakończone 8-ką. Przykładowo, liczba 999 dla wzrostu nie oznacza, że osoba ma blisko 10 metrów a jedynie, że nie odpowiedziała na pytanie o wzrost i powinna być pomijana w analizach uwzględniających wzrost, a 998 oznacza, że osoba badana nie wiedziała ile ma wzrostu. Dodatkowo możemy w nagłówku określić na jakiej skali jest mierzona dana zmienna. Informacja ta nie będzie w żaden sposób wykorzystywana przez komputer, jedynie wyświetlana będzie za każdym razem gdy zajrzymy do opisu zmiennej. Informacje do nagłówków zmiennych możemy wprowadzać w oknie danych dwukrotnie klikając nagłówek kolumny w której jest interesująca nas zmienna, wchodząc do menu DANE → DEFINIUJ ZMIENNĄ lub możemy to zrobić bezpośrednio w języku poleceń SPSS. Ta druga metoda ma tą przewagę, że jednocześnie możemy deklarować braki danych lub przypisywać etykiety wartości więcej niż jednej zmiennej. Przykładowe polecenie umieszczone poniżej przypisuje etykiety wartości i definicje braków danych trzem zmiennym (p1, p2, p3) jednocześnie. W edytorze poleceń zamiast pisać cały wyraz na ogół wystarczą pierwsze 3 litery polecenia np.: Variable = var Label=lab Najpierw wpisujemy etykiety zmiennych (dla każdej inna): var lab p1 'wakacje były:'. var lab p2 'weekendy były:'. var lab p3 'poniedziałki były:'. Potem etykiety wartości - w tym przykładzie dla wszystkich trzech takie same. val lab p1 p2 p3 1 'Zdecydowanie nudne' 2 'Raczej nudne' 3 'Średnie' 4 'Raczej ciekawe' 5 'Zdecydowanie ciekawe'. Na koniec deklaracja braków danych - w tym przypadku 99, 98 i 97: MISSING VALUES p1 p2 p3 (99,98,97). 22 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. ROZKŁADY CZĘSTOŚCI I STATYSTYKI OPISOWE Aby otrzymać rozkład częstości zmiennej, wchodzimy do menu: STATYSTYKI à OPIS STATYSTYCZNY à CZĘSTOŚCI FREQUENCIES VARIABLES = life. Wydruk przedstawia rozkład częstości zmiennej 'Życie jest pasjonujące/zwyczajne/nudne' (LIFE) : LIFE Ważnych Braki danych 1 2 3 Ogółem 8 9 Ogółem Ogółem Częstość 1108 2474 376 3958 79 12 91 4049 Procent 27,4 61,1 9,3 97,8 2,0 ,3 2,2 100,0 Procent ważnych 28,0 62,5 9,5 100,0 Procent skumulowany 28,0 90,5 100,0 Ten rozkład częstości można przedstawić graficznie w postaci wykresu słupkowego. FREQUENCIES VARIABLES = life /BARCHART FREQ. 3000 2000 Liczebność 1000 0 Pasjonujace Zwyczajne Nudne ZYCIE JEST PASJONUJACE/ZWYCZAJNE/NUDNE Jeśli chcemy uzyskać nie tylko rozkład częstości, ale i podstawowe statystyki opisowe, stosując jedno polecenie, to korzystamy dodatkowo z klawiszy STATYSTYKI i WYKRESY, znajdujących się w okienku częstości (frekwencji). FREQUENCIES VARIABLES=sibs /NTILES= 4 /STATISTICS=STDDEV VARIANCE MINIMUM MAXIMUM MEAN MEDIAN MODE SKEWNESS KURTOSIS /HISTOGRAM NORMAL /ORDER ANALYSIS . 23 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. Statystyki LICZBA BRACI I SIOSTR N Ważnych Braki danych Średnia Mediana Dominanta Odchylenie standardowe Wariancja Skośność Kurtoza Minimum Maksimum Percentyle 25 50 75 1183 2866 2,94 2,00 1 2,26 5,13 1,361 2,025 0 13 1,00 2,00 4,00 LICZBA BRACI I SIOSTR Częstość ZADNEJ 65 1 OSOBA 291 2 OSOBY 271 3 OSOBY 197 4 OSOBY 128 5 OSOB 79 6 OSOB 51 7 OSOB 36 8 OSOB 32 9 OSOB 14 10 OSOB 5 11 OSOB 9 12 OSOB 3 13 OSOB 2 Ogółem 1183 ND: NIE ZAD/BALLOT 2858 BRAK DANYCH 8 Ogółem 2866 4049 Ważnych Braki danych Ogółem Procent 1,6 7,2 6,7 4,9 3,2 2,0 1,3 ,9 ,8 ,3 ,1 ,2 ,1 ,0 29,2 70,6 ,2 70,8 100,0 Procent ważnych 5,5 24,6 22,9 16,7 10,8 6,7 4,3 3,0 2,7 1,2 ,4 ,8 ,3 ,2 100,0 Procent skumulowany 5,5 30,1 53,0 69,7 80,5 87,2 91,5 94,5 97,2 98,4 98,8 99,6 99,8 100,0 LICZBA BRACI I SIOSTR 600 500 400 300 Częstość 200 100 Odch.Std = 2,26 Średnia = 2,9 N = 1183,00 0 0,0 2,0 4,0 LICZBA BRACI I SIOSTR 6,0 8,0 10,0 12,0 14,0 24 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. Zadanie praktyczne Na podstawie wydruku zamieszczonego na poprzedniej stronie podaj: a) średnią b) medianę c) modalną d) 3 kwartyl e) czy rozkład jest spłaszczony/wysmukły f) ile osób badanych ma pięcioro rodzeństwa g) jaki to procent badanej próby h) jaki procent osób badanych ma nie więcej niż troje braci i sióstr i) jaki procent osób badanych ma więcej niż czworo rodzeństwa j) na jakiej skali pomiarowej jest zmienna SIBS? Statystyki opisowe dla zmiennej, która nas interesuje, najszybciej można uzyskać poprzez komendę STATYSTYKI OPISOWE. Powiedzmy, że chcielibyśmy wiedzieć jaka jest średnia, odchylenie standardowe i inne miary dla zmiennej INCOME (dochód gospodarstwa domowego) w całej próbie. Część statystyk niedostępnych w STATYSTYKACH OPISOWYCH (takich jak modalna, mediana, kwartyle) można znaleźć jedynie w CZĘSTOŚCIACH. Aby obliczyć jedynie miary rozrzutu i rozproszenia dla zmiennej na skali przedziałowej wchodzimy do menu: STATYSTYKI à OPIS STATYSTYCZNY à STATYSTYKI OPISOWE i w OPCJACH zaznaczamy wybrane statystyki (w poniższym przykładzie średnia, odchylenie standardowe, wariancja, minimum i maksimum). DESCRIPTIVES VARIABLES=income /STATISTICS=MEAN STDDEV VARIANCE MIN MAX. Statystyki opisowe N INCOME DOCHOD LACZNY GOSP DOMOWEGO (NOWE ZL) Ważnych N (wyłączanie obserwacjami) Minimum Maksimum 0 20000 3883 3883 Zadanie praktyczne Na podstawie powyższego wydruku podaj: a) liczbę osób uwzględnionych w analizie b) średnią c) odchylenie standardowe d) minimum e) maksimum f) rozstęp g) wariancję h) typ skali pomiarowej Średnia 846,43 Odchylenie standardowe Wariancja 823,40 677993,2 25 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. ZADANIA DO POLICZENIA „RĘCZNIE” Zadanie 1 Psycholog zebrał informacje na temat liczby randek, jaką 10 studentów miało w ciągu ostatniego miesiąca. Otrzymał następujące wyniki: 1, 8, 12, 3, 8, 14, 4, 5, 8, 16 Oblicz: a) średnią b) medianę c) modalną d) zakres zmienności e) odchylenie standardowe f) wariancję Na jakiej skali pomiarowej są wyniki? Zadanie 2 Znając miary tendencji centralnej określ dla każdego rozkładu jego skośność. Gdzie M - średnia, Me - mediana, Mo - modalna. a) M = 14 b) M = 14 c) M = 14 Me = 12 Me = 16 Me = 14 Mo = 10, Mo = 18, Mo = 14, Zadanie 3 Bez obliczania wariancji poranguj trzy rozkłady ze względu na rosnące rozproszenie wokół średniej: A: 21,19,28,22,20 B: 11,15,38,15,11 C: 22,22,22,22,22 Policz średnią i odchylenie standardowe, aby sprawdzić swoje przypuszczenia. Zadanie 4 Studenci uzyskali następujące wyniki w teście: 10, 50, 20, 70, 90, 20, 30, 40, 0 punktów a) Jaka jest wartość średnia tych wyników? b) Jaka jest mediana tych wyników? c) Jaka jest modalna (dominanta) tych wyników? d) Jakie jest odchylenie standardowe tych wyników? e) Jak jest wariancja tych wyników? Zadanie 5 Prowadzący postanowił porównać wyniki uzyskane przez studentów z trzech kolokwiów ze statystyki. Zrobił tabelkę rozkładów częstości uzyskiwanych punktów. Policz dla każdego kolokwium miary tendencji centralnej i miary rozproszenia. Które najlepiej opisują rozkład wyników z poszczególnych kolokwiów? stopień 6 5 4 3 2 1 modalna (dominanta) mediana średnia odchylenie standardowe najtrafniejsza miara 1 kolokwium 8 1 0 0 8 3 Ilość osób 2 kolokwium 0 1 10 8 1 0 3 kolokwium 0 10 2 2 3 3 26 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. Zadanie 6 Na podstawie poniższej tabeli częstości zmiennej PRAY (Jak często się modli?) określ wartość modalną, medianę i kwartyle wyników uzyskiwanych w teście. PRAY JAK CZĘSTO SIĘ MODLI? 1 2 3 4 5 6 7 8 9 10 11 nigdy rzadziej niż raz na rok 1-2 razy w roku kilka razy w roku 1 raz miesiącu 2-3 razy w miesiącu prawie co tydzień co tydzień kilka razy na tydzień raz dziennie kilka razy dziennie ogółem Częstość Procent 106 30 50 131 76 88 77 180 267 807 404 4049 2,6 ,7 1,2 3,2 1,9 2,2 1,9 4,4 6,6 19,9 10,0 100,0 Procent ważnych 4,8 1,4 2,3 5,9 3,4 4,0 3,5 8,1 12,0 36,4 18,2 Procent skumulowany 4,8 6,1 8,4 14,3 17,7 21,7 25,2 33,3 45,4 81,8 100,0 a) modalna (dominanta) b) mediana c) 1 kwartyl d) 2 kwartyl e) 3 kwartyl f) 4 kwartyl Jaka to skala pomiarowa? Zadanie 7 W szpitalu rehabilitacyjnym średnia długość pobytu pacjentów wynosi 12 tygodni, odchylenie standardowe pobytu 1 tydzień. Przyjmując, że rozkład długości pobytu jest normalny określ: a) Jaki procent pacjentów mieści się w jednym odchyleniu standardowym powyżej średniej? ? 12 13 b) Jaki procent pacjentów mieści się zakresie trzech odchyleń standardowych powyżej i poniżej średniej? ? 12 c) 15 Ilu pacjentów ze 100 będzie w szpitalu dłużej niż 13 tygodni? ? 12 13 d) Jaki procent pacjentów będzie w szpitalu nie dłużej niż 12 tygodni? 27 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. e) Jaki procent pacjentów będzie w szpitalu pomiędzy 11,5 a 13 tygodniami? ? 11,5 f) 13 Dyrekcja szpitala kategoryzuje pacjentów ze względu na długość pobytu pacjentów w szpitalu. 'Stali' to 30% pacjentów będących najdłużej w szpitalu, natomiast 'Tymczasowi' to 20% pacjentów będących najkrócej w szpitalu. Określ, do której grupy trafi Jan, jeżeli ma za sobą 12,6 tygodnia pobytu, a do której Stefan z 11,5 tygodnia pobytu. tymczasowi stali Z= -0,84 0,52 g) W grupie 50-latków średni czas pobytu w szpitalu wynosi 10 tygodni z odchyleniem 1,5 tygodnia. W grupie 60-latków średnia wynosi 14 z odchyleniem 2 tygodnie. 60-letni Piotr (8 tygodni pobytu) i 50-letni Marcin (7 tygodni pobytu) licytują się, który z nich spędził więcej czasu w szpitalu w odniesieniu do swojej grupy wiekowej. Wykonaj odpowiednie obliczenia Zadanie 8 W dwóch testach składających się ze 100 pytań (prawidłowa odpowiedź 1 punkt) studenci otrzymali następujące wyniki, przy założeniu, że mają one rozkład normalny: Średnia Odchylenie std N a) Test 1 48 10 4000 Test 2 56 14 6000 Uczeń A w teście 1 uzyskał wynik 43, uczeń B w teście 2 uzyskał wynik 42. Który z nich uzyskał lepszy wynik na tle swojej grupy? b) Określ procent uczniów, którzy w teście 1 otrzymali wynik lepszy niż 58? c) Określ procent uczniów, którzy w teście 2 otrzymali wyniki pomiędzy 42 a 70? d) Określ procent uczniów, którzy otrzymali wyniki niższe niż 28 punktów w teście 2? e) Określ procent uczniów, którzy otrzymali w teście 1 wynik poniżej lub równy 78 punktów? f) Czy jest możliwe aby uczeń piszący test 2 otrzymał wynik 98? Odpowiedź uzasadnij. 28 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. Przykładowe ZADANIA TEORETYCZNE 1. Gdy liczymy jaki najczęściej stopień dostają studenci na egzaminie ze statystyki, to liczymy: a) modalną (dominantę) b) medianę c) średnią d) minimum 2. Gdy liczymy jaki wynik dzieli uczniów na połowę na podstawie punktów uzyskanych w teście z metodologii, to liczymy: a) modalną (dominantę) b) medianę c) średnią d) minimum 3. Gdy sprawdzamy jaki był najgorszy na całej uczelni wynik egzaminu wstępnego, to sprawdzamy: a) modalną (dominantę) b) medianę c) średnią d) minimum 4. Odchylenie standardowe: a) pozwala na policzenie kwartyli b) mówi o tym jaka jest różnica między najwyższym i najniższym wynikiem c) należy do miar tendencji centralnej d) mówi o rozproszeniu wyników wokół średniej 5. Rozstęp: a) mówi o rozproszeniu wyników wokół średniej b) mówi o różnicy między najwyższym i najniższym wynikiem c) liczony jest na podstawie średniej d) może zastępować odchylenie standardowe 6. Jeżeli Marcin uzyskał wynik równy 1 kwartylowi, w teście, który ma wyniki od 0 do 100 punktów, oznacza to, że: a) Marcin uzyskał 25 punktów b) Marcin zrobił 1/4 testu c) 25% osób miało wyniki gorsze lub równe wynikowi Marcina d) 75 osób miało wyniki lepsze od Marcina 7. Jeśli w teście ze statystyki, mierzącym na ile studenci opanowali ten przedmiot, Weronika poprawnie wypełniła 50% testu, to jej wynik: a) jest równy modalnej b) jest równy medianie c) jest równy średniej d) nie możemy ocenić czemu jest równy 8. Jeżeli Jan uzyskał wynik równy 30 centylowi w teście, który ma wyniki od 0 do 100 punktów, oznacza to, że: a) Jan uzyskał 30 punktów b) 30% osób miało wyniki gorsze lub równe wynikowi Jana c) 30 osób miało wyniki gorsze od Jana d) 30% osób miało wyniki lepsze od Jana 9. Jeżeli Zofia uzyskała wynik równy 5 decylowi w teście, który ma wyniki od 0 do 10 punktów, oznacza to, że: a) Zofia uzyskała 5 punktów b) Zofia zrobiła 50% testu c) 50% osób miało wyniki gorsze lub równe wynikowi Zofii d) 5 osób miało wyniki lepsze od Zofii 29 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. 10. Jeśli w teście wiadomości, mierzącym na skali od 0 do 10 na ile studenci znają skale pomiarowe, Ewa uzyskała wynik równy medianie, a Adam uzyskał wynik równy drugiemu kwartylowi, to: a) Adam odpowiedział lepiej niż Ewa, b) Ewa odpowiedziała lepiej od Adama, c) obydwoje odpowiedzieli równie dobrze, d) większość dzieci odpowiedziała lepiej od Ewy. 11. Które z poniższych stwierdzeń jest prawdziwe dla rozkładu normalnego: a) w zależności od odchylenia standardowego rozkłady są albo symetryczne, albo niesymetryczne b) w przypadku rozkładu normalnego trudno jest mówić o jakimś konkretnym, specyficznym kształcie c) średnia ≠ medianie ≠ modalnej d) 68,26% wyników leży w odległości ± jednego odchylenia standardowego od średniej M a t e r i a ł y 12. Miara skośności rozkładu większa od 1, mówi nam o tym, że: a) modalna < mediany < średniej b) modalna > mediany > średniej c) średnia = medianie = modalnej d) rozkład jest symetryczny 13. Skośność mówi nam o : a) spłaszczeniu/wysmukłości rozkładu b) nierównym odchyleniu standardowym c) niesymetryczności rozkładu wyników d) wartość średniej wszystkich wyników 14. Kurtoza mówi nam o: a) spłaszczeniu/wysmukłości rozkładu b) tym, że mediana, modalna i średnia nie są sobie równe c) niesymetryczności rozkładu wyników d) wielkości średniej 15. Miara skośności rozkładu przedstawionego na wykresie jest a) zerowa b) ujemna c) dodatnia d) nie możemy jej policzyć 600 500 Częstość p o m o c n i c 400 300 200 100 Odc h.Std = 2.26 Średnia = 2.9 N = 1183.00 0 0.0 2.0 4.0 6.0 8.0 10.0 12.0 14.0 16. Wynik Kazika w teście inteligencji był równy 50 centylowi. Test rozwiązywało 40 studentów, mediana wynosiła 52 punkty, a odchylenie standardowe 6. Ile punktów otrzymał Kazik? a) 50 b) 52 c) 56 d) 58 30 Materiały do kursu STATYSTYKA I ZASTOSOWANIA KOMPUTERÓW - semestr zimowy 2000/2001. 17. Szkolna pielęgniarka zmierzyła Agatkę i Jacka, a potem wystandaryzowała ich wzrost zgodnie z grupą wiekową. Wystandaryzowany wzrost Agatki wynosił -2z (w jej grupie wiekowej średnia wynosiła 146 cm, a odchylenie standardowe 8 cm). Wystandaryzowany wzrost Jacka wynosił 1,5z (w jego grupie wiekowej średnia wynosiła 130 cm, a odchylenie standardowe 10 cm). Które z dzieci było wyższe? a) Agatka b) Jacek c) oboje byli tego samego wzrostu d) nie możemy tego ocenić 18. Janusz dostał z testu statystycznego 29 punktów (średnia w grupie wynosiła 26, a odchylenie standardowe 1,5). Natomiast z testu psychologicznego dostał 15 punktów (średnia wynosiła 9 punktów a odchylenie standardowe 4). W którym teście Janusz otrzymał lepsze wyniki, na tle swojej grupy? a) w teście statystycznym b) w teście psychologicznym c) w obu testach otrzymał takie same wyniki d) nie możemy tego ocenić 19. Joanna dostała z testu matematycznego 22 punkty. Średnia w grupie wynosiła 26, a odchylenie standardowe 4. Jaki procent uczniów był lepszy od Joanny? a) około 16% b) 50% c) około 66% d) około 84% 20. Podaj w którym centylu jest wynik Magdy, wiedząc, że dostała ona 27 punktów z testu, którego wyniki mają rozkład normalny o średniej wynoszącej 22,5 punkty i odchyleniu standardowym wynoszącym 1,5? a) 84 centylu b) 64 centylu c) 90 centylu d) 100 centylu