zaj_1.1

Transkrypt

zaj_1.1

Materiały do zajęć: “Statystyka - ćwiczenia”
Organizacja edytora danych
Edytor danych pakietu SPSS wygląda podobnie do arkusza kalkulacyjnego.
Poszczególne obserwacje (np. osoby badane) są wyświetlane w kolejnych wierszach, a kolumny odpowidają
zmiennym. Komórki arkusza zawierają wartości zmiennych dla określonych obserwacji.
Współrzędne
aktywnej
komórki
ścieżka dostępu
(”adres” używanego pliku na dysku)
Menu
Wartość
aktywnej
komórki
Nazwy
zmiennych
(nagłówki)
Kolejne
“osoby
badane”
Aktywna
komórka
Rysunek 1.1.
Aktywna komórka jest zaznaczona grubszą czarną obwódką a jej współrzędne (numer obserwacji i nazwa zmiennej)
oraz wartość są wyświetlone w polach poniżej menu.
Poniżej tabeli zawierającej dane znajdują się dwie zakłądki umożliwiające przełączanie się z tabeli danych do listy
zmiennych.
Aktywna zakładka
zawierająca arkusz z danymi
Nieaktywna zakładka zawielająca listę
zmiennych i ich opisy
Rysunek 1.2.
Definiowanie zmienych
Aby zdefiniować nową zmienną kliknij dwa razy na pustym nagłówku lub przełącz się na zakładkę “Zmienne” (patrz
Rysunek 1.2.). Ukaże się wówczas arkusz pozwalający definiować zmienne. Warto zwrócić uwagę, że w porównaniu
z edytorem danych edytor zmiennych ma odwrotną orientację - zmienne są teraz poszczególnymi rzędami tabeli
a kolejne kolumny określają różne parametry zmiennej.
Parametry
zmiennej
Kolejne
zmienne
Rysunek 1.3.
Deklarowanie zmiennej należy rozpocząć od nadania jej nazwy, którą wpisuje się w pierwszą komórkę rzędu. Nazwy
zmiennych nie mogą zawierać znaków specjalnych (tj. - , . ; : ” ‘ ( ) + = * / % ^ & | < > ?) ani spacji. Nie może się też
zaczynać od cyfry, choć może je zawierać. Jako nazwy zmiennych nie mogą być też użyte słowa zastrzeżone: ALL,
AND, BY, EQ, GE, GT, LT, NE, NOT, OR, TO, WITH. Nie można też dwóch zmiennych nazwać tak samo.
Jeśli nazwa zmiennej jest bardzo krótka i istnieje ryzyko, że autor zbioru danych zapomni, czego dana zmienna
dotyczy, to warto opisać zmienną “Etykietą” - np. na Rysunku 1.3. zmienna o tajemniczej nazwie “doch_mies” została
opisana etykietą “dochód miesięczny brutto w tysiącach złotych”.
Etykiety można nadać także poszczególnym wartościom zmiennej. W tym celu należy “kliknąć” na komórkę pod
nagłówkiem “Wartości”. W prawej części komórki pojawi się wówczas szary kwadracik z trzykropkiem.
Rysunek 1.4.
Po “kliknięciu” na kwadracik z trzykropkiem pojawi się następujące okno:
Wprowadzone
wartości wraz
z etykietami
Rysunek 1.5.
Definiowanie wartości zmiennej nazywa się także kodowaniem. Polega ono właśnie na przypisaniu każdej wartości
zmiennej jakiejś wartości liczbowej. Badacz ma tu pewną dowolność. W przypadku zmiennej nominalnej może
używać całkowicie dowolnych wartości. W przypadku zmiennych co najmniej porządkowych należy przypisywać
wartości rosnąco (jak w podanym przykładzie) bądź malejąco w zależności od potrzeb lub gustu badacza. Zazwyczaj
w specyficzny sposób koduje się również odpowiedzi typu “nie umiem udzielić odpowiedzi”, “brak danych”, “pytanie nie
zostało zadane” itp. - przyznaje się im wartości znacznie różniące się od właściwych wartości zmiennych np. jeśli
zmienna przyjmuje wartości od 0 do 2 (jak w powyższym przykładzie), takiego typu odpowiedzi kodujemy jako “9”, “8”
itp. Oczywiście dla każdego rodzaju odpowiedzi inna wartość.
Aby przypisać etykiety poszczególnym wartościom zmiennej należy wpisać pierwszą wartość w okienko zatytułowane
“Wartość” a następnie jej etykietę w okienko poniżej zatytułowane “Etykieta” a następnie nacisnąć klawisz “Dodaj”. Tę
samą procedurę należy powtórzyć dla każdej wartości zmiennej.
Aby usunąć wprowadzone wartości wraz z etykietami należy użyć klawisza “Usuń”. W celu zmiany wprowadzonych
wartości lub etykiet użyj klawisza “Zmień”.
Po zakończeniu wprowadzania etykiet wciśnij klawisz “OK”. Spowoduje to zamknięcie okna zatytułowanego “Etykiety
wartości”.
Kolejnym etapem definiowania jest zadeklarowanie brakujących danych (missing value), o ile takie istnieją, w celu
wykluczenia ich z analizy. Do brakujących danych zalicza się zazwyczaj omawiane powyżej odpowiedzi typu “brak
danych”, “nie umiem udzielić odpowiedzi”, “pytanie nie zostało zadane” itp. W celu zdefiniowania jakie wartości mają
być uważane za brakujące dane należy “kliknąć” na komórkę w kolumnie “Braki danych” a następnie na szary
kwadracik z wielokropkiem. Otworzy się wówczas następujące okno:
Kółka do
zaznaczania
wybranej opcji
Okna na pojedyncze
brakujące wartości
Okna do wpisywania
dolnej granicy przedziału
brakujących wartości
Okna do wpisywania
górnej granicy przedziału
brakujących wartości
Rysunek 1.6.
Jako opcja domyślna zaznaczone jest “Brak braków danych”. Jeśli jednak w kodowanej zmiennej występują jakieś
wartości, które chcemy potraktować jako brak danych, należy wybrać (poprzez “kilinięcie” w kółku) którąś z pozostałych opcji. Do wyboru mamy:
* “Wartości dyskretne braków” czyli pojedyncze brakujące wartości to opcja najbardziej odpowiednia gdy mamy tylko
jedną , dwie lub trzy wartości, które chcemy uznać za braki. Wpisujemy wtedy takie wartości do okienek
znajdujących się poniżej oraz
* “Przedział wartości plus wartość dyskretna” - to opcja odpowiednia gdy istnieje wiele wartości, które uznajemy za
brakujące dane i są one zgrupowane. W takiej sytuacji wpisujemy najniższą z wartości w okienku “Dolna granica”
a najwyższą w okienku “Górna granica”. Z analizy zostaną wykluczone wszystkie dane większe lub równe wartości
wpisanej w “Dolna granica” i mniejsze lub równe wartości wpisanej w “Górna granica”. Dodatkowo opcja ta pozwala
na określenie jeszcze jednej wartości nie należącej do przedziału.
Po wyborze odpowiedniej opcji i wpisaniu wartości, które chcemy wykluczyć z analizy należy nacisnąć przycisk “OK”,
co spowoduje zamknięcia okna “Braki danych”.
Jeśli definiowana zmienna przybiera wartości wymagające użycia wielu miejsc po przecinku, lub przeciwnie, z jakiś
względów zależy nam na tym, by arkusz pokazywał jedynie pełne liczby bez zer po przecinku możemy to ustalić
zmieniając wartości w kolumnach “Szerokość” (ilość cyfr jaka zmieści się w komórce) oraz “Dziesiętne” (ilość miejsc po
przecinku. Ustalona liczba cyfr po przecinku pokazuje się w arkuszu nawet jeżeli dana wartość jest liczbą całkowitą.
Ponadto w SPSS można definiować różne typy zmiennych. Opcja domyślna to “Numeryczne”, czyli liczby np.: -1,
0,256. Czy 10 000. W większości przypadków takie ustawienie jest najwłaściwsze. Jeśli jednak, z jakiś względów,
użytkownik chce ustalić inny typ zmiennej, należy “kliknąć” na komórkę w kolumnie “Typ” a następnie na szary kwadrat
z trzykropkiem pojawiający się w prawej części komórki. Pojwi się wówczas następujące okno:
Dostępne typy zmiennych
maksymalna liczba cyfr dla wartości zmiennej
liczba miejsc po przecinku
Rysunek 1.7.
W powyższym oknie możemy wybrać jeden spośród następujących typów danych:
* “Numeryczny” (domyślny)
* “Przecinkowy” - liczby w formacie numerycznym, gdzie przecinki oddzielają kolejne potęgi tysiąca, a kropka miejsca
dziesiętne - np.. 1,589,562.25
* “Z kropką” - liczby w formacie numerycznym, gdzie kropki oddzielają kolejne potęgi tysiąca, a przecinek miejsca
dziesiętne - np.. 1.569.456,78
* “Notacja naukowa” - liczby zapisane w postaci xEy = x* 10y - np. 1,12E7
* ” Data i czas” - zmienne określające daty lub czas
* “Dolar” - wartości zapisane z symbolem waluty USD - np.. $200
* “Tekstowy” - zmienne tekstowe (nie więcej niż 255 znaków)
Można również zdefiniować własny typ danych wybierając “Format użytkownika”.
Po wybraniu odpowiedniego typui należy nacisnąć przycisk “OK” by zamknąć okno “Typ zmiennej”.
Dość istotną kwestią jest możliwość zadeklarowania poziomu pomiaru. W ostatniej kolumnie zatytułowanej “Poziom”
jako domyślny poziom pomiaru zadeklarowany jest poziom “Ilościowy”. Oznacza to, że na takiej zmiennej program
będzie obliczał wszystkie statystyki. Jeśli jednak zmienna nie jest zmienną ilościową (tj. przedziałową lub ilorazową)
a użytkownik chciałby, by program uniemożliwił obliczanie na niej statystyk nieodpowiednich dla danego poziomu
pomiaru, można zadeklarować zmienną jako porządkową lub nominalną. W tym celu należy ustawić kursor w komórce
w kolumnie”Poziom” a następnie “kliknąć” na szary kwadracik ze strzałką w dół znajdujący się w prawej części komórki.
Pojawi się wówczas następująca lista poziomów pomiaru: “Ilościowy”, “Porządkowy”, “Nominalny”. Należy wybrać
z listy właściwy poziom pomiaru.
Ostatnim co można zdefiniować jest format kolumny. Pozwala to na ustalenie szerokości kolumny (”Kolumny”)
pokazującej się w tabeli danych (nie ma to nic wspólnego z ilością cyfr mieszczących się w komórce, jest to jedynie
widok danej kolumny) oraz wyrównania danych w kolumnach (”Wyrównanie”). Zazwyczaj opcje te są pomijane. Jeśli
jednak badacz jest wyjątkowym estetą może zmienić ustawienia w komórkach zatytułowanych “Kolumny”
i “Wyrównanie” Wystarczy pisać właściwą liczbę lub zmienić ją za pomocą strzałek w kolumnie “Kolumny” oraz wybrać
rodzaj wyrównania z rozwijalnej listy - “Do lewej”, “Do prawej”, “Wyśrodkuj”.
Po zakończeniu definiowania zmiennej jej nazwa powinna pojawić się w nagłówku kolumny w edytorze danych.
Zazwyczaj, ze względów praktycznych, najpierw definiuje się większą ilość zmiennych, a dopiero potem wprowadza
dane.
Przeglądanie listy zmiennych
Czasem, gdy po długiej przerwie powracamy do pracy ze zbiorem danych, lub musimy pracować na cudzym zbiorze,
trudno jest się rozeznać w nazwach i sposobie kodowania zmiennych. Dlatego tak ważne jest odpowiednie
definiowanie zmiennej, a przede wszystkim właściwe etykiety zmiennej i poszczególnych wartości. Jeśli zmienna jest
właściwie zdefiniowana to łatwo się zorientować co to za wymiar, jakie ma kategorie i jak są zakodowane. By zobaczyć
etykiety zmiennej i poszczególnych jej wartości można “kliknąć” dwukrotnie na jaj nagłówku lub przełączyć się na
zakładkę “Zmienne” tak jak w przypadku definiowania zmiennej, pojawi się wówczas arkusz zawierający formaty
wszystkich zmiennych. Lepiej jest jednak w tym celu użyć polecenia “Zmienne” z menu “Narzędzia”.
Rysunek 1.8.
Pojawi się wówczas alfabetyczna lista wszystkich zmiennych z danego zbioru wraz ze szczegółowym opisem
wybranej z listy zmiennej. W opisie podane są wszystkie istotne informacje o zmiennej w tym także etykiety wszystkich
zadeklarowanych zmiennej.
Lista zmiennych
Opis wybranej
zmiennej
Rysunek 1.9.
Po zakończeniu przeglądania listy zmiennych należy ją zamknąć używając klawisza “Zamknij”.
W przypadku bardzo obszernych zbiorów danych niezwykle przydatny jest klawisz “Przejdź do”, którego naciśnięcia
powoduje automatyczne ustawienie kursora w pierwszym rekordzie wybranej zmiennej.

zaj_1.1

Transkrypt

Podobne dokumenty

Dodatek – Algorytm k-NN

Pierwsze kroki w analizie danych

STATYSTYKA OPISOWA LICZBOWE CHARAKTERYSTYKI(MIARY

Zagadnienia na egzamin licencjacki

10. Analiza post-optymalizacyjna. Zagadnienie dualizmu, tworzenie

Laboratorium 1 - Analiza danych w R 1.1 Wczytaj zbiór danych

macierz symetryczna

Lekcja szósta - Zespół Szkół nr 13 w Gdyni

Rekodowanie zmiennej

Zagadnienia na egzamin licencjacki