Wykład 2: Arkusz danych w programie STATISTICA
Transkrypt
Wykład 2: Arkusz danych w programie STATISTICA
Wykład 2: Arkusz danych w programie STATISTICA Elementy arkusza danych Numer i nazwa zmiennej Jednostki statystyczne Nazwy przypadków Cechy statystyczne Zmienne (kolumny) Przypadki (wiersze) Tworzenie arkusza danych • ustalanie rozmiaru arkusza danych (liczba zmiennych i przypadków) • zapisanie pliku (rozszerzenie .sta) • nazywanie zmiennych (i opcjonalnie przypadków) • w przypadku wystąpienia wartości tekstowych ustalenie sposobu kodowania za pomocą ETYKIET TEKSTOWYCH • ustalanie formatu zmiennych • wprowadzanie danych Oczywiście wszystkie elementy mogą być modyfikowane w trakcie pracy nad arkuszem danym (por. Modyfikacja arkusza danych) Informacje o zmiennych Wszystkie informacje o danej zmiennej dostępne są po dwukrotnym kliknięciu jej nazwy – w tzw. oknie specyfikacji zmiennej Nazwa zmiennej Kod braku danych Lista wszystkich zmiennych Kodowanie etykiet tekstowych Format wyświetlania wartości Miejsce na „długą nazwę” i/lub formułę obliczeniową Kodowanie wartości tekstowych Podczas wprowadzania wartości cech nominalnych warto posłużyć się kodami liczbowymi, co gwarantuje dużo większą efektywność pracy z arkuszem danych. W tym celu należy posłużyć się edytorem etykiet tekstowych. Etapy tworzenia arkusza danych wraz z wprowadzaniem etykiet tekstowych zostaną omówione w oparciu o przykładowy KWESTIONARIUSZ ANKIETY. 1 Wartości liczbowe (kody) przypisywane wariantom odpowiedzi 2 3 4 1 2 3 4 5 1 2 3 Identyczne etykiety tekstowe dla kolejnych pytań 4 1 2 3 4 1 3 1 1 2 2 1 2 Uwagi do wpisywania etykiet tekstowych 1. Etykiety tekstowe można także wklejać do okna edytora etykiet z innych programów (WORD, Excel) 2. Etykiety tekstowe wprowadzone dla jednej zmiennej można „powielić” do kolejnych zmiennych (na przykład za pomocą opcji: ZASTOSUJ DO 3. Brzmienie etykiet tekstowych można modyfikować także po wprowadzeniu (lub w trakcie) danych Wprowadzanie danych Każdy wiersz odpowiada jednostce statystycznej – dane wpisujemy wierszami, posługując się liczbowymi kodami wprowadzonymi do etykiet tekstowych Wklejanie danych z innych programów Wiele informacji o charakterze przekrojowym (dane o państwach, miastach, regionach, gminach, etc.) lub czasowym można znaleźć się w ogólnodostępnych, internetowych bazach danych. W takim przypadku dane źródłowe (zwykle w formie arkusza Excela) należy odpowiednio opisać* i przenieść do programu STATISTICA za pomocą poleceń KOPIUJ / WKLEJ. * w programie STATISTICA arkusz danych ma wydzielony jeden wiersze (nagłówki kolumn – nazwy zmiennych) oraz jedną kolumnę (nazwy wierszy – przypadków). Należy zadbać aby w pliku źródłowych nazwy przypadków i cech były wpisane w taki właśnie sposób i posłużyć się poleceniem KOPIUJ a następnie (w STATISTICE) WKLEJ Z NAGŁÓWKAMI… Modyfikacje arkusza danych Wszystkie elementy arkusza danych mogą być poddawane modyfikacjom w trakcie (lub po) wpisywania danych. Do ogólnych operacji na arkuszu (dodawania, usuwanie, przenoszenie, kopiowanie, etc.) kolumn i wierszy najlepiej wykorzystać dwa przyciski znajdujące się na pasku narzędzi ARKUSZ: Podajemy numer kolumny, nazwę zmiennej lub klikamy dwa razy i wybieramy z listy Dodając (lub usuwając, kopiując, wklejając) zmienną musimy się niejednokrotnie odwołać do zmiennych już istniejących w arkuszu. Na przykład dodając zmienne w arkuszu, musimy wypełnić pole WSTAW PO – do zmiennej możemy odwołać się w takiej sytuacji poprzez jej numer, nazwę, albo wybrać z listy po dwukrotnym kliknięciu pola. Formuły arkusza danych Niejednokrotnie w arkuszu należy przeprowadzić pewne dodatkowe obliczenia – zasadniczo służą do tego dwa narzędzia: 1) Formuły arkusza danych 2) Przekodowywanie wartości zmiennych Formuły arkusza danych są obliczane dla całych kolumn (w odróżnieniu od arkusza w Excelu). W formułach można odwoływać się do nazw zmiennych lub (prościej!) korzystać z odwołań typu: v1, v5, v20 (gdzie v jest literą kluczową a liczba numerem kolumny w arkuszu danych). Formuły są zwykle automatycznie przeliczane po wprowadzeniu i przy każdej zmianie w arkuszu danych. ich Wykorzystanie formuły arkusza danych Poniższy przykład obrazuje sposób wprowadzania formuł danych w arkuszu programu STATISTICA i ich praktyczne wykorzystanie (plik danych: Środki z UE). Arkusz zawiera informacje (m.in.) o sumie wykorzystanych środków unijnych oraz licznie ludności w gminach woj. podkarpackiego w latach 20062009. Aby móc porównać efektywność wykorzystania środków unijnych policzony zostanie odpowiedni wskaźnik. 1. W arkuszu danych wprowadzamy nową kolumnę i nadajemy jej nazwę 2. Sprawdzamy w arkuszu „położenie” zmiennych, które wykorzystamy w formule i ustalamy jej wzór: = (v22+v23+v24+v25) / ((v2+v3+v4+v5)/4) Suma środków z UE Średnia liczba mieszk. 3. Wprowadzamy wzór w oknie specyfikacji nowej zmiennej i wyliczamy wartości wskaźnika wykorzystania środków z UE per capita Przekodowywanie danych Opcja przekodowywania pozwala na zmianę wartości zmiennych nie w oparciu o formuły matematyczne, lecz na podstawie pewnych kryteriów logicznych. Okno przekodowywanie zmiennych można wywołać za pomocą przycisku i polecenia PRZEKODUJ. Przykład dotyczy pliku danych Opinie studentów o UE (2010), który zawiera informacje zebrane za pomocą przedstawionego na s. 6 i 7 kwestionariusza ankiety. W pytaniu 2. proszono o podanie liczby państw będących członkami UE. Oczywiście prawidłowa odpowiedź wynosi 27, podczas dalszej analizy istotne jest w zasadzie tylko to, czy ktoś udzielił prawidłowej odpowiedzi czy też nie. Innymi słowy, wartości 27 można zastąpić wariantem „poprawna odpowiedź (27)” a wszystkie pozostałe „odpowiedź błędna”. W tym celu trzeba będzie w arkuszu utworzyć nową kolumnę, odpowiednio ją nazwać i nadać jej wartości za pomocą warunków logicznych. Tu będzie przykład W arkuszu danych wstawiamy nową zmienną i nazywamy ją Wiedza o liczbie państw w UE Zaznaczamy nową zmienną i wybieramy za poleceniem przycisku ZMIENNE opcję PRZEKODUJ. Nadajemy wartościom 1 i 2 odpowiednie etykiety tekstowe: 1 – poprawna odpowiedź (27) 2 – błędna odpowiedź Tworzenie podzbioru arkusza danych Niejednokrotnie istnieje potrzeba istniejącego arkusza danych: stworzenia podzbioru • jeżeli przedmiotem analizy wykorzystania środków unijnych mają być tylko gminy miejskie, to należy z bazy danych dotyczących wszystkich gmin woj. podkarpackiego wybrać stosowny podzbiór. Wybieramy polecenie DANE / PODZBIÓR Za pomocą przycisku PRZYPADKI określamy zakres wybieranych przypadków, z których utworzony zostanie nowy arkusz danych. Ponieważ kod gminy jest to ostatnia cyfra kodu jednostki terytorialnej (1 – miejska, 2 – wiejska, 3 – miejsko-wiejska), więc zadanie polega na wybraniu tych przypadków, dla których w zmiennej 1. (v1) na ostatnim miejscu znajduje się cyfra 1. Wykorzystujemy funkcję mid, która pozwala wybrać z tekstu dowolny ciąg znaków. W naszym przypadku warunek logiczny będzie miał postać: Mid(v1;10;1)="1" Zmienna z tekstem Długość łańcucha znaków Początek wybieranego łańcucha znaków Wprowadzamy tę formułę w oknie SELEKCJI PRZYPADKÓW i otrzymujemy nowy arkusz z odpowiednim zawierający dane tylko o gminach miejskich.