1 Przygotowanie ankiety

Transkrypt

1 Przygotowanie ankiety
1
Przygotowanie ankiety
Na dzisiejszych zajeciach
¾
skupimy sie¾ na zasadach tworzenia, wprowadzania oraz
wstepnej
¾
analizie danych zawartych w ankietach. Za÷
óz·my, z·e ankieta sk÷ada sie¾
nastepuj
¾ acych
¾
cześci:
¾
a) metryczka
numer ankietera
numer ankiety
p÷
eć
wiek
wykszta÷
cenie
miejscowość
K/M
średnie
licencjat/inz·ynier
magister
doktor
wieś
miasto do 20 000
miasto 20000 50000
miasto 50000- 500 000
miasto powyz·ej 500 000
b) pytania z wielokrotnymi odpowiedziami, w naszym przypadku pytanie
mog÷
oby brzmieć:
Czy wybierajac
¾ kurs kierowa÷
eś/ kierowa÷aś sie¾
marka¾ uczelni?
rzetelnościa¾ prowadzenia kursów?
lokalizacja¾ uczelni?
dostepności
¾
a¾ parkingów?
jakościa¾ obs÷
ugi?
cena¾ kursu?
terminami zjazdów?
czasem trwania kursu?
liczba¾ laboratoriów?
moz·liwościa¾ rozbicia p÷atności na raty?
dostepności
¾
a¾ do…nansowania?
moz·liwościa¾ uzyskania certy…katów?
moz·liwościa¾ zniz·ki na karte¾ STAT?
innymi czynnikami, jakimi?
tak
tak
tak
tak
tak
tak
tak
tak
tak
tak
tak
tak
tak
nie
nie
nie
nie
nie
nie
nie
nie
nie
nie
nie
nie
nie
c) w nastepnej
¾
cześci
¾ zebrane sa¾pytania powiazane
¾
ze skala¾Likerta (ograniczymy
sie¾ tutaj do klasycznej 5 stopniowej skali Likerta). Rozwaz·ane przez nas pyta-
1
nia bed
¾ a¾ dotyczy÷
y róz·nych aspektów dotyczacych
¾
kursów. W kaz·dym pytaniu
mamy do dyspozycji nastepuj
¾ ace
¾ odpowiedzi:
- zdecydowanie sie¾ zgadzam
- raczej sie¾ zgadzam
- nie mam zdania w tej sprawie
- raczej sie¾ nie zgadzam
- zdecydowanie sie¾ nie zgadzam
Ankietowanym postawiono natomiast postawiono pytania dotyczace
¾ nastepu¾
jacych
¾
kwestii:
Przy wyborze kursu kierowa÷em sie¾ marka¾ uczelni.
Przy wyborze kursu cena nie by÷
a najwaz·niejsza, waz·niejsze by÷y inne aspekty.
Przy wyborze kierowa÷
em sie¾ jakościa¾ obs÷ugi.
Przy wyborze kursu decydowa÷
y wzgledy
¾ …nansowe, cena mia÷a decydujace
¾
znaczenie.
Jestem zadowolony z odbytego kursu, nie mam z·adnych zastrzez·eń.
Kurs spe÷
ni÷wszystkie moje oczekiwania.
Przy wyborze kursu kierowa÷em sie¾ renoma¾ uczelni.
Nie jestem w pe÷
ni zadowolony z kursu.
Oczywiście ÷
atwo tutaj spostrzec, z·e cześć stwierdzeń sie¾ dubluje, natomiast
cześć sie¾ wzajemnie uzupe÷
nia. Jest to ca÷kowicie zamierzone i w dalszej cześci
¾
pomoz·e nam sprawdzić wiarygodność odpowiedzi.
d) ostatnia cześć
¾ sk÷
ada sie¾ z zestawu pytań dla których stosujemy skale¾
dyferencja÷
u semantycznego. W naszych rozwaz·aniach bedziemy
¾
zak÷adali, z·e
w kaz·dym stwierdzeniu ankietowany móg÷zaznaczyć jedna¾ z 7 odpowiedzi, z
których pierwsza by÷
a skrajnie negatywna, 4 neutralna, zaś 7 skrajnie pozytywna.
Rozwaz·amy nastepuj
¾ ace
¾ cechy w tej cześci:
¾
popularność uczelni
obs÷
uga studentów
koszty kursu
warunki studiowania
prowadzacy
¾
pracownie (komputery, oprogramowanie)
warunki lokalowe
zadowolenie z kursu
2
Dla ujednolicenia nazw zmiennych zastosujmy nazwy jak na poniz·szych zrzutach
3
Jeśli mamy juz· ustalone nazwy zmiennych warto zastanowić sie¾ jakie wartości
moga¾ przyjmować poszczególne zmienne. Jeśli chodzi o dwie ostatnie cześci
¾ to
nie ma tutaj raczej z·adnych problemów z określeniem moz·liwych wartości. Zmienne odnoszace
¾ sie¾ do ostatniej cześci
¾ przyjmuja¾ wartości od 1 do 7. W cześci
¾
trzeciej zaś od 1 do 5. Cześć
¾ druga musi zapewniać nam moz·liwość stwierdzenia,
czy wybrane zosta÷
y konkretne odpowiedzi. Najwygodniejsze wydaje sie¾ zastosowanie 0 dla "nie", zaś 1 dla "tak". Najwiecej
¾ problemów moz·e nieść określenie moz·liwych odpowiedzi dla metryczki. Pole numer ankietera oraz numer
ankiety nalez·y ograniczyć jedynie poprzez liczbe¾ ankieterów oraz liczbe¾ ankiet,
nie jesteśmy jednak w stanie (jak równiez· nie ma to wiekszego
¾
sensu) określić
moz·liwych odpowiedzi. Podobne przemyślenia odnosza¾sie¾ do zmiennej wiek, nie
jesteśmy w stanie określić wieku respondentów, chcemy jedynie aby by÷y to os4
oby doros÷
e. Jeśli chodzi natomiast o kolejna¾ pozycje,
¾ czyli p÷
eć to tutaj nie ma
problemów z określeniem moz·liwych odpowiedzi i stosownym przygotowaniem
formularza. Jeśli chodzi o zmienna¾ wykszta÷
cenie to przyjmijmy konwencje¾ jak
w poniz·szej tabeli
wartość etykieta
średnie
0
1
licencjat / inz·ynier
2
magister
3
doktor
w podobny sposób określimy wartości dla zmiennej zamieszka÷y
wartość
0
1
2
3
4
2
etykieta
wieś
miasto do 20 000
miasto 20000 50000
miasto 50000- 500 000
miasto powyz·ej 500 000
Wstepna
¾
analiza danych
Podczas wstepnej
¾
analizy danych postaramy sie¾ poznać podstawowe charakterystyki naszej próby. Postaramy sie¾ stwierdzić jaki procent stanowia¾ kobiety,
jak kszta÷
tuje sie¾ rozk÷
ad próby ze wzgledy
¾ na wiek, wykszta÷
cenia, czy tez·
miejsce zamieszkania. Na wstepie
¾
za pomoca¾ wykresy ko÷
owego przedstawmy
podzia÷naszej próby ze wzgledu
¾ na wiek
5
Jak ÷
atwo stwierdzić me¾z·czyźni sa¾ w wiekszości
¾
i stanowia¾ 52% próby.
Nastepnie
¾
wyznaczmy histogram wieku naszych respondentów
W dalszej cześci
¾ gra…cznie przedstawiamy rozk÷ad wykszta÷
cenia
6
i ostatecznie miejsce zamieszkania
Jakie wnioski moz·na wysnuć ze wstepnej
¾
analizy danych za pomoca¾gra…cznych
reprezentacji cześci
¾ sk÷
adowych metryczki?
3
Sprawdzenie poprawności danych
W tej cześci
¾ skupimy sie¾ na dość istotnej cześci
¾ analizy badań ankietowych.
Jest dość trudna i sporna cześć.
¾
Pojawia sie¾ bowiem problem czy usuwać z
dalszej analizy ewidentnie b÷
ednie
¾
wype÷nione ankiety, czy moz·e wystepuj
¾ ace
¾
b÷
edy
¾ sa¾ jedynie kwestia¾ pośpiechu i niezamierzonej pomy÷ki. Zauwaz·my, z·e w
cześci
¾ pytania z wielokrotnymi odpowiedziami pojawia sie¾ odpowiedź dotyczaca
¾
zniz·ki za posiadanie karty STAT. Karta ta jest moim wymys÷
em i jeśli wiem nie
istnieje w rzeczywistości. W zwiazku
¾
z tym wszystkie osoby, które odpowiedzia÷y
7
"TAK" w tym pytaniu sa¾ powiedzmy niezgodne z prawda¾ ;).
Jak widać na powyz·szym wykresie osób, które mijaja¾ sie¾ z prawda¾ jest dość
duz·o i usuniecie
¾ ich mog÷
oby znacznie zmniejszyć prawdziwość wyników. Ukrywanie w moz·liwych odpowiedziach takich, które sa¾ niemoz·liwe albo …kcyjne jest
wskazane i pozwala nam ocenić szczerość i prawdziwość odpowiedzi respondentów.
Podobny trik zosta÷równiez· zastosowany w sekcji pytać ze skala¾ Likerta.
Przy dok÷
adniejszej analizie moz·emy ÷atwo zauwaz·yć, z·e pytania:
Przy wyborze kursu cena nie by÷
a najwaz·niejsza, waz·niejsze by÷y inne aspekty.
Przy wyborze kursu decydowa÷
y wzgledy
¾ …nansowe, cena mia÷a decydujace
¾
znaczenie.
Wzajemnie sie¾ uzupe÷
niaja,
¾ czyli jeśli w pierwszym pytaniu pojawia sie¾
odpowiedź powiedzmy "zdecydowanie sie¾ zgadzam" to w drugim powinno pojawić sie¾ "zdecydowania sie¾ nie zgadzam". Oczywiście taka korelacja by÷aby
idealna, ale oczywiście moz·emy dopuścić inne powiazania.
¾
Nie powinniśmy jednak akceptować odpowiedzi "zdecydowanie sie¾ zgadzam" na dwa tak postawione
pytania. Podobnie zachowuja¾ sie¾ stwierdzenia:
Jestem zadowolony z odbytego kursu, nie mam z·adnych zastrzez·eń.
Nie jestem w pe÷
ni zadowolony z kursu.
Postarajmy sie¾ teraz wy÷apać odpowiedzi, które sugeruja¾ powiedzmy zbytni
pośpiech podczas wype÷
niania ankiet. Zastanówmy sie¾ jakie pary odpowiedzi
uznajemy za "podejrzane"? Przyjmijmy konwencje,
¾ z·e za podejrzane uznamy
8
nastepuj
¾ ace
¾ pary odpowiedzi:
zdecydowanie sie¾ zgadzam
raczej sie¾ zgadzam
zdecydowanie sie¾ zgadzam
zdecydowanie sie¾ nie zgadzam
zdecydowaniem sie¾ nie zgadzam
raczej sie¾ nie zgadzam
Stwórzmy zatem dwie nowe zmienne, które przyjma¾wartość 1 gdy nastapi
¾ któryś
z powyz·szych przypadków oraz wartość 0 gdy z·aden z nich nie wystapi.
¾ Oczywiście najpierw uzupe÷
nimy nowa¾ zmienna¾ zerami, a potem wstawimy jedynki
w odpowiednich miejscach. Kluczowe jest tutaj zastosowanie odpowiedniego
warunku. Moz·emy oczywiście napisać koniunkcje¾ odpowiednich przypadków
gdzie w warunki selekcji wpisano nastepuj
¾ acy
¾ warunek:
(cenaNieistotnaL=1 & taniaPropozycjaL=5) j (cenaNieistotnaL=2 & taniaPropozycjaL =5) j (cenaNieistotnaL = 1 & taniaPropozycjaL = 4) j (cenaNieistotnaL
9
=5 & taniaPropozycjaL =1) j (cenaNieistotnaL =5 & taniaPropozycjaL = 2) j
(cenaNieistotnaL = 4 & taniaPropozycjaL= 1).
Oczywiście jeśli troche¾ pokombinujemy moz·emy wykorzystać szanse jakie
daja¾ nam moz·liwe wartości przyjmowane przez poszczególne zmienne. Okazuje
sie,
¾ z·e ten sam rezultat otrzymujemy poprzez zastosowanie nastepuj
¾ acej
¾ formu÷y
10
Analogiczne rozwaz·ania zastosujemy do drugiej pary zmiennych kolizyjnych
A nastepnie
¾
w nowej zmiennej oznaczymy sobie te przypadki, w których
nastapi÷
¾ y dwie kolizje. Jeśli chcemy jedynie wy÷apać dwie kolizje to najprościej
zastosować nastepuj
¾ ac
¾ a¾ formu÷e¾
Jeśli jednak interesuje nas liczba kolizji to iloczyn musimy zastapić
¾ suma.
¾
Zastanówmy sie¾ teraz w jaki sposób moz·na wykrywać potencjalne braki
rzetelności w wype÷
nianiu ankiety w sekcji pytań ze skala¾ dyferencja÷u semantycznego. W tym miejscu nasuwa sie¾ nastepuj
¾ ace
¾ spostrzez·enie: jez·eli w pierwszej dla poczatkowych
¾
stwierdzeń opinia jest pozytywna, natomiast w ostatnim (podsumowujacym)
¾
stwierdzeniu jest ona negatywna, to moz·emy sadzić,
¾
z·e
ankieta nie by÷
a uwaz·nie wype÷niana i ktoś z rozmachu zakreśla÷odpowiedzi (sa¾
to dość czesto
¾ spotykane sytuacje, dlatego uk÷
adajac
¾ ankiete¾ dobrze jest czasami
odwrócić jakieś stwierdzenie). Wy÷
apmy zatem w kolejnej zmiennej kontrolnej
opisana¾ powyz·ej sytuacje¾ oraz jej zaprzeczenie, tzn. wiekszość
¾
wskazań jest
negatywna a ostateczne podsumowanie jest pozytywne. Przy czym za negatywne bedziemy
¾
tutaj przyjmować odpowiedzi od 1 do 3 zaś za pozytywne od
5 do 7. W tym celu stworzymy sobie nowa¾ zmienna,
¾ która przyjmuje wartość
1 jeśli wszystkie poczatkowe
¾
odpowiedzi sa¾ pozytywne, wartość -1 jeśli wszystkie sa¾ negatywne oraz wartość 0 w pozosta÷
ych przypadkach. Standardowo
najpierw wyzerujemy wszystkie odpowiedzi, nastepnie
¾
wpisujac
¾ odpowiednia¾
11
formu÷
a¾ ustalamy w jakich przypadkach jest wartość 1
zastepuj
¾ ac
¾ nierówność > przez < ustalamy, gdzie jest wartość -1. Teraz zostaje
juz· jedynie wy÷
apanie tych przypadków w których kontrolaDS ma wartość 1
oraz zmienna kursZadowolenieDS ma wartość negatywna¾ i odwrotnie.
W taki sposób moz·emy dokonać wstepnej
¾
analizy poprawności danych oraz
dokonać zarysu analizy danych ankietowych. G÷ebszej
¾
analizy statystycznej tych
dokonamy na kolejnym przedmiocie o nazwie "Statystyczna Analiza Danych".
12

Podobne dokumenty