1 Przygotowanie ankiety
Transkrypt
1 Przygotowanie ankiety
1 Przygotowanie ankiety Na dzisiejszych zajeciach ¾ skupimy sie¾ na zasadach tworzenia, wprowadzania oraz wstepnej ¾ analizie danych zawartych w ankietach. Za÷ óz·my, z·e ankieta sk÷ada sie¾ nastepuj ¾ acych ¾ cześci: ¾ a) metryczka numer ankietera numer ankiety p÷ eć wiek wykszta÷ cenie miejscowość K/M średnie licencjat/inz·ynier magister doktor wieś miasto do 20 000 miasto 20000 50000 miasto 50000- 500 000 miasto powyz·ej 500 000 b) pytania z wielokrotnymi odpowiedziami, w naszym przypadku pytanie mog÷ oby brzmieć: Czy wybierajac ¾ kurs kierowa÷ eś/ kierowa÷aś sie¾ marka¾ uczelni? rzetelnościa¾ prowadzenia kursów? lokalizacja¾ uczelni? dostepności ¾ a¾ parkingów? jakościa¾ obs÷ ugi? cena¾ kursu? terminami zjazdów? czasem trwania kursu? liczba¾ laboratoriów? moz·liwościa¾ rozbicia p÷atności na raty? dostepności ¾ a¾ do…nansowania? moz·liwościa¾ uzyskania certy…katów? moz·liwościa¾ zniz·ki na karte¾ STAT? innymi czynnikami, jakimi? tak tak tak tak tak tak tak tak tak tak tak tak tak nie nie nie nie nie nie nie nie nie nie nie nie nie c) w nastepnej ¾ cześci ¾ zebrane sa¾pytania powiazane ¾ ze skala¾Likerta (ograniczymy sie¾ tutaj do klasycznej 5 stopniowej skali Likerta). Rozwaz·ane przez nas pyta- 1 nia bed ¾ a¾ dotyczy÷ y róz·nych aspektów dotyczacych ¾ kursów. W kaz·dym pytaniu mamy do dyspozycji nastepuj ¾ ace ¾ odpowiedzi: - zdecydowanie sie¾ zgadzam - raczej sie¾ zgadzam - nie mam zdania w tej sprawie - raczej sie¾ nie zgadzam - zdecydowanie sie¾ nie zgadzam Ankietowanym postawiono natomiast postawiono pytania dotyczace ¾ nastepu¾ jacych ¾ kwestii: Przy wyborze kursu kierowa÷em sie¾ marka¾ uczelni. Przy wyborze kursu cena nie by÷ a najwaz·niejsza, waz·niejsze by÷y inne aspekty. Przy wyborze kierowa÷ em sie¾ jakościa¾ obs÷ugi. Przy wyborze kursu decydowa÷ y wzgledy ¾ …nansowe, cena mia÷a decydujace ¾ znaczenie. Jestem zadowolony z odbytego kursu, nie mam z·adnych zastrzez·eń. Kurs spe÷ ni÷wszystkie moje oczekiwania. Przy wyborze kursu kierowa÷em sie¾ renoma¾ uczelni. Nie jestem w pe÷ ni zadowolony z kursu. Oczywiście ÷ atwo tutaj spostrzec, z·e cześć stwierdzeń sie¾ dubluje, natomiast cześć sie¾ wzajemnie uzupe÷ nia. Jest to ca÷kowicie zamierzone i w dalszej cześci ¾ pomoz·e nam sprawdzić wiarygodność odpowiedzi. d) ostatnia cześć ¾ sk÷ ada sie¾ z zestawu pytań dla których stosujemy skale¾ dyferencja÷ u semantycznego. W naszych rozwaz·aniach bedziemy ¾ zak÷adali, z·e w kaz·dym stwierdzeniu ankietowany móg÷zaznaczyć jedna¾ z 7 odpowiedzi, z których pierwsza by÷ a skrajnie negatywna, 4 neutralna, zaś 7 skrajnie pozytywna. Rozwaz·amy nastepuj ¾ ace ¾ cechy w tej cześci: ¾ popularność uczelni obs÷ uga studentów koszty kursu warunki studiowania prowadzacy ¾ pracownie (komputery, oprogramowanie) warunki lokalowe zadowolenie z kursu 2 Dla ujednolicenia nazw zmiennych zastosujmy nazwy jak na poniz·szych zrzutach 3 Jeśli mamy juz· ustalone nazwy zmiennych warto zastanowić sie¾ jakie wartości moga¾ przyjmować poszczególne zmienne. Jeśli chodzi o dwie ostatnie cześci ¾ to nie ma tutaj raczej z·adnych problemów z określeniem moz·liwych wartości. Zmienne odnoszace ¾ sie¾ do ostatniej cześci ¾ przyjmuja¾ wartości od 1 do 7. W cześci ¾ trzeciej zaś od 1 do 5. Cześć ¾ druga musi zapewniać nam moz·liwość stwierdzenia, czy wybrane zosta÷ y konkretne odpowiedzi. Najwygodniejsze wydaje sie¾ zastosowanie 0 dla "nie", zaś 1 dla "tak". Najwiecej ¾ problemów moz·e nieść określenie moz·liwych odpowiedzi dla metryczki. Pole numer ankietera oraz numer ankiety nalez·y ograniczyć jedynie poprzez liczbe¾ ankieterów oraz liczbe¾ ankiet, nie jesteśmy jednak w stanie (jak równiez· nie ma to wiekszego ¾ sensu) określić moz·liwych odpowiedzi. Podobne przemyślenia odnosza¾sie¾ do zmiennej wiek, nie jesteśmy w stanie określić wieku respondentów, chcemy jedynie aby by÷y to os4 oby doros÷ e. Jeśli chodzi natomiast o kolejna¾ pozycje, ¾ czyli p÷ eć to tutaj nie ma problemów z określeniem moz·liwych odpowiedzi i stosownym przygotowaniem formularza. Jeśli chodzi o zmienna¾ wykszta÷ cenie to przyjmijmy konwencje¾ jak w poniz·szej tabeli wartość etykieta średnie 0 1 licencjat / inz·ynier 2 magister 3 doktor w podobny sposób określimy wartości dla zmiennej zamieszka÷y wartość 0 1 2 3 4 2 etykieta wieś miasto do 20 000 miasto 20000 50000 miasto 50000- 500 000 miasto powyz·ej 500 000 Wstepna ¾ analiza danych Podczas wstepnej ¾ analizy danych postaramy sie¾ poznać podstawowe charakterystyki naszej próby. Postaramy sie¾ stwierdzić jaki procent stanowia¾ kobiety, jak kszta÷ tuje sie¾ rozk÷ ad próby ze wzgledy ¾ na wiek, wykszta÷ cenia, czy tez· miejsce zamieszkania. Na wstepie ¾ za pomoca¾ wykresy ko÷ owego przedstawmy podzia÷naszej próby ze wzgledu ¾ na wiek 5 Jak ÷ atwo stwierdzić me¾z·czyźni sa¾ w wiekszości ¾ i stanowia¾ 52% próby. Nastepnie ¾ wyznaczmy histogram wieku naszych respondentów W dalszej cześci ¾ gra…cznie przedstawiamy rozk÷ad wykszta÷ cenia 6 i ostatecznie miejsce zamieszkania Jakie wnioski moz·na wysnuć ze wstepnej ¾ analizy danych za pomoca¾gra…cznych reprezentacji cześci ¾ sk÷ adowych metryczki? 3 Sprawdzenie poprawności danych W tej cześci ¾ skupimy sie¾ na dość istotnej cześci ¾ analizy badań ankietowych. Jest dość trudna i sporna cześć. ¾ Pojawia sie¾ bowiem problem czy usuwać z dalszej analizy ewidentnie b÷ ednie ¾ wype÷nione ankiety, czy moz·e wystepuj ¾ ace ¾ b÷ edy ¾ sa¾ jedynie kwestia¾ pośpiechu i niezamierzonej pomy÷ki. Zauwaz·my, z·e w cześci ¾ pytania z wielokrotnymi odpowiedziami pojawia sie¾ odpowiedź dotyczaca ¾ zniz·ki za posiadanie karty STAT. Karta ta jest moim wymys÷ em i jeśli wiem nie istnieje w rzeczywistości. W zwiazku ¾ z tym wszystkie osoby, które odpowiedzia÷y 7 "TAK" w tym pytaniu sa¾ powiedzmy niezgodne z prawda¾ ;). Jak widać na powyz·szym wykresie osób, które mijaja¾ sie¾ z prawda¾ jest dość duz·o i usuniecie ¾ ich mog÷ oby znacznie zmniejszyć prawdziwość wyników. Ukrywanie w moz·liwych odpowiedziach takich, które sa¾ niemoz·liwe albo …kcyjne jest wskazane i pozwala nam ocenić szczerość i prawdziwość odpowiedzi respondentów. Podobny trik zosta÷równiez· zastosowany w sekcji pytać ze skala¾ Likerta. Przy dok÷ adniejszej analizie moz·emy ÷atwo zauwaz·yć, z·e pytania: Przy wyborze kursu cena nie by÷ a najwaz·niejsza, waz·niejsze by÷y inne aspekty. Przy wyborze kursu decydowa÷ y wzgledy ¾ …nansowe, cena mia÷a decydujace ¾ znaczenie. Wzajemnie sie¾ uzupe÷ niaja, ¾ czyli jeśli w pierwszym pytaniu pojawia sie¾ odpowiedź powiedzmy "zdecydowanie sie¾ zgadzam" to w drugim powinno pojawić sie¾ "zdecydowania sie¾ nie zgadzam". Oczywiście taka korelacja by÷aby idealna, ale oczywiście moz·emy dopuścić inne powiazania. ¾ Nie powinniśmy jednak akceptować odpowiedzi "zdecydowanie sie¾ zgadzam" na dwa tak postawione pytania. Podobnie zachowuja¾ sie¾ stwierdzenia: Jestem zadowolony z odbytego kursu, nie mam z·adnych zastrzez·eń. Nie jestem w pe÷ ni zadowolony z kursu. Postarajmy sie¾ teraz wy÷apać odpowiedzi, które sugeruja¾ powiedzmy zbytni pośpiech podczas wype÷ niania ankiet. Zastanówmy sie¾ jakie pary odpowiedzi uznajemy za "podejrzane"? Przyjmijmy konwencje, ¾ z·e za podejrzane uznamy 8 nastepuj ¾ ace ¾ pary odpowiedzi: zdecydowanie sie¾ zgadzam raczej sie¾ zgadzam zdecydowanie sie¾ zgadzam zdecydowanie sie¾ nie zgadzam zdecydowaniem sie¾ nie zgadzam raczej sie¾ nie zgadzam Stwórzmy zatem dwie nowe zmienne, które przyjma¾wartość 1 gdy nastapi ¾ któryś z powyz·szych przypadków oraz wartość 0 gdy z·aden z nich nie wystapi. ¾ Oczywiście najpierw uzupe÷ nimy nowa¾ zmienna¾ zerami, a potem wstawimy jedynki w odpowiednich miejscach. Kluczowe jest tutaj zastosowanie odpowiedniego warunku. Moz·emy oczywiście napisać koniunkcje¾ odpowiednich przypadków gdzie w warunki selekcji wpisano nastepuj ¾ acy ¾ warunek: (cenaNieistotnaL=1 & taniaPropozycjaL=5) j (cenaNieistotnaL=2 & taniaPropozycjaL =5) j (cenaNieistotnaL = 1 & taniaPropozycjaL = 4) j (cenaNieistotnaL 9 =5 & taniaPropozycjaL =1) j (cenaNieistotnaL =5 & taniaPropozycjaL = 2) j (cenaNieistotnaL = 4 & taniaPropozycjaL= 1). Oczywiście jeśli troche¾ pokombinujemy moz·emy wykorzystać szanse jakie daja¾ nam moz·liwe wartości przyjmowane przez poszczególne zmienne. Okazuje sie, ¾ z·e ten sam rezultat otrzymujemy poprzez zastosowanie nastepuj ¾ acej ¾ formu÷y 10 Analogiczne rozwaz·ania zastosujemy do drugiej pary zmiennych kolizyjnych A nastepnie ¾ w nowej zmiennej oznaczymy sobie te przypadki, w których nastapi÷ ¾ y dwie kolizje. Jeśli chcemy jedynie wy÷apać dwie kolizje to najprościej zastosować nastepuj ¾ ac ¾ a¾ formu÷e¾ Jeśli jednak interesuje nas liczba kolizji to iloczyn musimy zastapić ¾ suma. ¾ Zastanówmy sie¾ teraz w jaki sposób moz·na wykrywać potencjalne braki rzetelności w wype÷ nianiu ankiety w sekcji pytań ze skala¾ dyferencja÷u semantycznego. W tym miejscu nasuwa sie¾ nastepuj ¾ ace ¾ spostrzez·enie: jez·eli w pierwszej dla poczatkowych ¾ stwierdzeń opinia jest pozytywna, natomiast w ostatnim (podsumowujacym) ¾ stwierdzeniu jest ona negatywna, to moz·emy sadzić, ¾ z·e ankieta nie by÷ a uwaz·nie wype÷niana i ktoś z rozmachu zakreśla÷odpowiedzi (sa¾ to dość czesto ¾ spotykane sytuacje, dlatego uk÷ adajac ¾ ankiete¾ dobrze jest czasami odwrócić jakieś stwierdzenie). Wy÷ apmy zatem w kolejnej zmiennej kontrolnej opisana¾ powyz·ej sytuacje¾ oraz jej zaprzeczenie, tzn. wiekszość ¾ wskazań jest negatywna a ostateczne podsumowanie jest pozytywne. Przy czym za negatywne bedziemy ¾ tutaj przyjmować odpowiedzi od 1 do 3 zaś za pozytywne od 5 do 7. W tym celu stworzymy sobie nowa¾ zmienna, ¾ która przyjmuje wartość 1 jeśli wszystkie poczatkowe ¾ odpowiedzi sa¾ pozytywne, wartość -1 jeśli wszystkie sa¾ negatywne oraz wartość 0 w pozosta÷ ych przypadkach. Standardowo najpierw wyzerujemy wszystkie odpowiedzi, nastepnie ¾ wpisujac ¾ odpowiednia¾ 11 formu÷ a¾ ustalamy w jakich przypadkach jest wartość 1 zastepuj ¾ ac ¾ nierówność > przez < ustalamy, gdzie jest wartość -1. Teraz zostaje juz· jedynie wy÷ apanie tych przypadków w których kontrolaDS ma wartość 1 oraz zmienna kursZadowolenieDS ma wartość negatywna¾ i odwrotnie. W taki sposób moz·emy dokonać wstepnej ¾ analizy poprawności danych oraz dokonać zarysu analizy danych ankietowych. G÷ebszej ¾ analizy statystycznej tych dokonamy na kolejnym przedmiocie o nazwie "Statystyczna Analiza Danych". 12