Wykład 2: Arkusz danych w programie STATISTICA

Transkrypt

Wykład 2: Arkusz danych w programie STATISTICA
Wykład 2:
Arkusz danych
w programie STATISTICA
Elementy arkusza danych
Numer i
nazwa zmiennej
Jednostki statystyczne
Nazwy
przypadków
Cechy statystyczne
Zmienne (kolumny)
Przypadki
(wiersze)
Tworzenie arkusza danych
• ustalanie rozmiaru arkusza danych (liczba zmiennych i
przypadków)
• zapisanie pliku (rozszerzenie .sta)
• nazywanie zmiennych (i opcjonalnie przypadków)
• w przypadku wystąpienia wartości tekstowych ustalenie
sposobu
kodowania
za
pomocą
ETYKIET
TEKSTOWYCH
• ustalanie formatu zmiennych
• wprowadzanie danych
Oczywiście wszystkie elementy mogą być modyfikowane
w trakcie pracy nad arkuszem danym
(por. Modyfikacja arkusza danych)
Informacje o zmiennych
Wszystkie informacje o danej zmiennej dostępne są po
dwukrotnym kliknięciu jej nazwy – w tzw. oknie
specyfikacji zmiennej
Nazwa zmiennej
Kod braku danych
Lista wszystkich
zmiennych
Kodowanie
etykiet tekstowych
Format wyświetlania
wartości
Miejsce na „długą nazwę” i/lub
formułę obliczeniową
Kodowanie wartości tekstowych
Podczas wprowadzania wartości cech nominalnych warto
posłużyć się kodami liczbowymi, co gwarantuje dużo większą
efektywność pracy z arkuszem danych.
W tym celu należy posłużyć się edytorem etykiet tekstowych.
Etapy tworzenia arkusza danych wraz z wprowadzaniem etykiet
tekstowych zostaną omówione w oparciu o przykładowy
KWESTIONARIUSZ ANKIETY.
1
Wartości liczbowe
(kody) przypisywane
wariantom odpowiedzi
2
3
4
1
2
3
4
5
1
2
3
Identyczne etykiety tekstowe dla
kolejnych pytań
4
1
2
3
4
1
3
1
1
2
2
1
2
Uwagi do wpisywania
etykiet tekstowych
1. Etykiety tekstowe można także wklejać do okna edytora
etykiet z innych programów (WORD, Excel)
2. Etykiety tekstowe wprowadzone dla jednej zmiennej można
„powielić” do kolejnych zmiennych (na przykład za pomocą
opcji: ZASTOSUJ DO
3. Brzmienie etykiet
tekstowych można
modyfikować także
po wprowadzeniu
(lub w trakcie)
danych
Wprowadzanie danych
Każdy wiersz odpowiada jednostce statystycznej – dane
wpisujemy wierszami, posługując się liczbowymi kodami
wprowadzonymi do etykiet tekstowych
Wklejanie danych z innych programów
Wiele informacji o charakterze przekrojowym (dane o
państwach, miastach, regionach, gminach, etc.) lub czasowym
można znaleźć się w ogólnodostępnych, internetowych bazach
danych.
W takim przypadku dane źródłowe (zwykle w formie arkusza
Excela) należy odpowiednio opisać* i przenieść do programu
STATISTICA za pomocą poleceń KOPIUJ / WKLEJ.
* w programie STATISTICA arkusz danych ma wydzielony jeden wiersze
(nagłówki kolumn – nazwy zmiennych) oraz jedną kolumnę (nazwy wierszy –
przypadków). Należy zadbać aby w pliku źródłowych nazwy przypadków i cech
były wpisane w taki właśnie sposób i posłużyć się poleceniem KOPIUJ a
następnie (w STATISTICE) WKLEJ Z NAGŁÓWKAMI…
Modyfikacje arkusza danych
Wszystkie elementy arkusza danych mogą być poddawane
modyfikacjom w trakcie (lub po) wpisywania danych.
Do ogólnych operacji na arkuszu (dodawania, usuwanie,
przenoszenie, kopiowanie, etc.) kolumn i wierszy najlepiej
wykorzystać dwa przyciski znajdujące się na pasku narzędzi
ARKUSZ:
Podajemy numer
kolumny, nazwę zmiennej
lub klikamy dwa razy i
wybieramy z listy
Dodając (lub usuwając, kopiując,
wklejając)
zmienną
musimy
się
niejednokrotnie odwołać do zmiennych
już istniejących w arkuszu. Na przykład
dodając zmienne w arkuszu, musimy
wypełnić pole WSTAW PO – do zmiennej
możemy odwołać się w takiej sytuacji
poprzez jej numer, nazwę, albo wybrać z
listy po dwukrotnym kliknięciu pola.
Formuły arkusza danych
Niejednokrotnie w arkuszu należy przeprowadzić pewne
dodatkowe obliczenia – zasadniczo służą do tego dwa narzędzia:
1) Formuły arkusza danych
2) Przekodowywanie wartości zmiennych
Formuły arkusza danych są obliczane dla całych kolumn (w
odróżnieniu od arkusza w Excelu). W formułach można
odwoływać się do nazw zmiennych lub (prościej!) korzystać z
odwołań typu: v1, v5, v20 (gdzie v jest literą kluczową a liczba
numerem kolumny w arkuszu danych).
Formuły są zwykle automatycznie przeliczane po
wprowadzeniu i przy każdej zmianie w arkuszu danych.
ich
Wykorzystanie formuły arkusza danych
Poniższy przykład obrazuje sposób wprowadzania formuł
danych w arkuszu programu STATISTICA i ich praktyczne
wykorzystanie (plik danych: Środki z UE).
Arkusz zawiera informacje (m.in.) o sumie wykorzystanych środków
unijnych oraz licznie ludności w gminach woj. podkarpackiego w latach 20062009. Aby móc porównać efektywność wykorzystania środków unijnych
policzony zostanie odpowiedni wskaźnik.
1. W arkuszu danych wprowadzamy nową kolumnę i nadajemy jej nazwę
2. Sprawdzamy w arkuszu „położenie” zmiennych, które wykorzystamy w
formule i ustalamy jej wzór:
= (v22+v23+v24+v25) / ((v2+v3+v4+v5)/4)
Suma środków z UE
Średnia liczba mieszk.
3. Wprowadzamy wzór w oknie specyfikacji nowej zmiennej i wyliczamy
wartości wskaźnika wykorzystania środków z UE per capita
Przekodowywanie danych
Opcja przekodowywania pozwala na zmianę wartości zmiennych
nie w oparciu o formuły matematyczne, lecz na podstawie
pewnych kryteriów logicznych.
Okno przekodowywanie zmiennych można wywołać za pomocą
przycisku
i polecenia PRZEKODUJ.
Przykład dotyczy pliku danych Opinie studentów o UE (2010), który zawiera
informacje zebrane za pomocą przedstawionego na s. 6 i 7 kwestionariusza
ankiety. W pytaniu 2. proszono o podanie liczby państw będących członkami UE.
Oczywiście prawidłowa odpowiedź wynosi 27, podczas dalszej analizy istotne jest
w zasadzie tylko to, czy ktoś udzielił prawidłowej odpowiedzi czy też nie. Innymi
słowy, wartości 27 można zastąpić wariantem „poprawna odpowiedź (27)” a
wszystkie pozostałe „odpowiedź błędna”. W tym celu trzeba będzie w arkuszu
utworzyć nową kolumnę, odpowiednio ją nazwać i nadać jej wartości za pomocą
warunków logicznych.
Tu będzie przykład
W arkuszu danych wstawiamy nową zmienną i
nazywamy ją Wiedza o liczbie państw w UE
Zaznaczamy nową zmienną i wybieramy za
poleceniem przycisku ZMIENNE opcję
PRZEKODUJ.
Nadajemy wartościom 1 i 2 odpowiednie etykiety
tekstowe: 1 – poprawna odpowiedź (27)
2 – błędna odpowiedź
Tworzenie podzbioru arkusza danych
Niejednokrotnie istnieje potrzeba
istniejącego arkusza danych:
stworzenia
podzbioru
• jeżeli przedmiotem analizy wykorzystania środków unijnych mają być tylko
gminy miejskie, to należy z bazy danych dotyczących wszystkich gmin woj.
podkarpackiego wybrać stosowny podzbiór.
Wybieramy polecenie DANE / PODZBIÓR
Za pomocą przycisku PRZYPADKI określamy zakres wybieranych
przypadków, z których utworzony zostanie nowy arkusz danych.
Ponieważ kod gminy jest to ostatnia cyfra kodu jednostki terytorialnej (1
– miejska, 2 – wiejska, 3 – miejsko-wiejska), więc zadanie polega na
wybraniu tych przypadków, dla których w zmiennej 1. (v1) na ostatnim
miejscu znajduje się cyfra 1.
Wykorzystujemy funkcję mid, która pozwala wybrać z tekstu dowolny
ciąg znaków. W naszym przypadku warunek logiczny będzie miał postać:
Mid(v1;10;1)="1"
Zmienna z tekstem
Długość łańcucha znaków
Początek wybieranego
łańcucha znaków
Wprowadzamy tę formułę w
oknie SELEKCJI
PRZYPADKÓW i otrzymujemy
nowy arkusz z odpowiednim
zawierający dane tylko o
gminach miejskich.

Podobne dokumenty