Artykuł w formacie PDF
Transkrypt
Artykuł w formacie PDF
Strona |1 Nauki ścisłe priorytetem społeczeństwa opartego na wiedzy Artykuły na platformę CMS Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki opisowej, która zajmuje się opracowywaniem, przedstawianiem w różnych formach i analizowaniem wyników badań prowadzonych na próbie losowej. Zostaną zaprezentowane sposoby porządkowania i wizualizacji danych statystycznych (szeregi rozdzielcze, histogramy i inne diagramy) oraz statystyki opisowe i badanie korelacji między cechami. Te zagadnienia wykraczają poza podstawę programową matematyki, ale nie są to treści trudne i przy odpowiedniej wizualizacji komputerowej uczeń z łatwością je zrozumie. Problem Przeprowadzono sondaż na próbie 40 uczniów szkoły. Każdy z nich odpowiadał na pytanie: „Ile książek przeczytałeś w ciągu minionego miesiąca?” Oto odpowiedzi kolejnych uczniów: 5, 1, 2, 0, 5, 4, 4, 1, 1, 1, 2, 0, 0, 0, 3, 1, 1, 2, 5, 4, 6, 4, 0, 1, 2, 3, 5, 2, 1, 2, 3, 0, 2, 4, 3, 2, 2, 3, 0, 1. Co można powiedzieć o czytelnictwie w tej grupie młodzieży? Wprowadzenie teoretyczne Statystyka to dział matematyki, który zajmuje się wnioskowaniem statystycznym, czyli formułowaniem i weryfikowaniem wniosków ogólnych (hipotez statystycznych) na podstawie skończonej liczby wyników obserwacji losowych. Prowadząc badania statystyczne pewnej zbiorowości (populacji), wybieramy reprezentatywną jej grupę zwaną próbą. Próbę poddajemy bezpośrednim badaniom, a wyniki uogólniamy na całą populację. Badane zjawisko nazywamy cechą statystyczną (można też używać nazwy „zmienna” – jest ona powszechnie używana w oprogramowaniu z zakresu statystyki), a wyniki badania przeprowadzonego na próbie – wartościami cechy. Wiarygodność takich badań w dużej mierze zależy od wyboru próby. Statystyka dzieli się na dwa główne działy: statystykę opisową, która zajmuje się opracowywaniem, przedstawianiem w różnych formach i analizowaniem wyników badań prowadzonych na próbie losowej oraz statystykę matematyczną, która zajmuje się wnioskowaniem o rozkładzie wartości cechy w całej populacji na podstawie wyników badania próby. Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego Strona |2 Nauki ścisłe priorytetem społeczeństwa opartego na wiedzy Artykuły na platformę CMS Uzyskane w trakcie badania próby wyniki można przedstawiać w różnych formach graficznych (tabele, różnorodne diagramy) oraz dokonywać ich analizy przy pomocy tzw. statystyk liczbowych. W środkach masowego przekazu bardzo często widzimy efekty zastosowania metod statystyki opisowej do wizualizacji wyników badań różnorodnych zjawisk społecznych, politycznych, ekonomicznych, kulturalnych i innych. W opracowywaniu danych statystycznych (zwłaszcza przy wykonywaniu diagramów i skomplikowanych obliczeń) bardzo przydatne jest odpowiednie oprogramowanie. Programem, z którego będziemy korzystać przy rozpatrywaniu zagadnień statystycznych jest Statystyka i prawdopodobieństwo. Jego angielskojęzyczną wersję demonstracyjną możesz pobrać ze strony www.vusoft2.nl (plik vustatengdemo.zip). Możesz też użyć dowolnego arkusza kalkulacyjnego. Badanie zagadnienia W postawionym na wstępie problemie za populację można uznać na przykład wszystkich uczniów danej szkoły. Próba badawcza to czterdziestu wybranych uczniów, zaś badaną cechą jest liczba przeczytanych książek. Postawione pytanie: ” Co można powiedzieć o czytelnictwie w tej grupie młodzieży?” należy uszczegółowić. Jakie konkretne pytania można zadać, aby uzyskać jak najwięcej informacji opisujących zjawisko w sposób możliwie najbardziej dokładny? Przede wszystkim zauważmy, że dane nie są uporządkowane, a więc nie są czytelne. Wszelkie analizowanie i wnioskowanie jest utrudnione. Przy pomocy programu Statystyka i prawdopodobieństwo można uporządkować dane w postaci tabeli zwanej tablicą (tabelą) liczebności, korzystając z opcji Statystyka/Tablice/Tablica liczebności. Oto tabela: l.książek 0-1 2-3 4-5 6-7 Ogółem Liczeb. 16 14 9 1 40 Lewa kolumna zawiera tzw. klasy wartości cechy. Takie grupowanie danych ma miejsce, gdy liczba obserwacji jest duża. Jeżeli chcemy mieć w lewej kolumnie tabeli wyszczególnione wszystkie Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego Strona |3 Nauki ścisłe priorytetem społeczeństwa opartego na wiedzy Artykuły na platformę CMS wartości badanej cechy (tzn. liczby przeczytanych książek), korzystamy w ostatnio używanej opcji z przycisku Klasy, określając liczbę klas jako 7 (tyle wartości ma badana cecha): l.książek 0 1 2 3 4 5 6 Ogółem Liczeb. 7 9 10 4 5 4 1 40 Jeśli natomiast zaznaczymy pole Procenty, otrzymamy taką tabelę: l.książek 0 1 2 3 4 5 6 Ogółem Liczeb. 7 9 10 4 5 4 1 40 % 17,50 22,50 25,00 10,00 12,50 10,00 2,50 100% Jakie więc pytania możemy postawić w oparciu o powyższe tablice? Na przykład takie: Jaką liczbę książek przeczytało najwięcej uczniów? Jaki to procent badanej liczby uczniów? Jaką liczbę książek przeczytało najmniej uczniów? Jaki to procent badanej liczby uczniów? Czy są uczniowie, którzy wcale nie czytają? Czy jest ich wielu? Jaki to procent badanej grupy uczniów? Odpowiedz na powyższe pytania. Może dostrzegasz inne zagadnienia, o które warto zapytać? Tabelaryczny układ danych nie jest najbardziej obrazowy. Przedstawmy teraz powyższe dane w postaci różnego rodzaju wykresów (diagramów). Można to zrobić korzystając z opcji Statystyka/Wykresy i wybierając odpowiedni typ wykresu lub Pokaż wszystko. Można skorzystać też z opcji Wykresy danych z Menu głównego. I tak, możemy otrzymać wykres słupkowy z uwzględnieniem liczebności: Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego Strona |4 Nauki ścisłe priorytetem społeczeństwa opartego na wiedzy Artykuły na platformę CMS lub z uwzględnieniem udziału procentowego poszczególnych liczb przeczytanych książek w ogólnym czytelnictwie: Jakie wnioski możesz wyciągnąć z obserwacji tego wykresu? Wyraźnie widać, że większa liczba badanych uczniów czyta mniej książek (0, 1 lub 2). Można też sporządzić diagram kołowy, bardzo przydatny przy badaniu struktury zjawiska: Badanie zjawiska czytelności wśród uczniów mogłoby być bardziej wnikliwe, gdybyśmy zapytali badanych uczniów o inne cechy. Rozszerzmy nasze badanie tak, aby czytelnictwo było widoczne w kontekście innych cech. Spytajmy uczniów o płeć i ocenę z języka polskiego. Przyporządkujmy oznaczenia płci w sposób następujący: niech liczba 0 oznacza chłopca, 1 – dziewczynkę. Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego Strona |5 Nauki ścisłe priorytetem społeczeństwa opartego na wiedzy Artykuły na platformę CMS Jakie pytania można teraz postawić do naszego zagadnienia? Na przykład takie: Kto czyta więcej książek: chłopcy czy dziewczęta? Kto ma lepsze oceny z języka polskiego: chłopcy czy dziewczęta? Czy istnieje związek (w statystyce ten związek nazywamy korelacją) pomiędzy oceną z języka polskiego a liczbą przeczytanych książek? Aby odpowiedzieć na pytania dotyczące różnic w czytelnictwie chłopców i dziewcząt, podzielmy nasze dane na dwie grupy względem zmiennej płeć. W tym celu skorzystamy z opcji Statystyka/Dane/Podziel, wybierając zmienną płeć jako zmienną podziału. Dokonany został podział na dwie klasy: chłopców i dziewczęta. Znajduje to odbicie w tablicy liczebności: płeć l.książek 0 1 2 3 4 5 6 Ogółem płeć 0 płeć 1 Liczeb. % Liczeb. % Ogółem 6 25,00 1 6,25 7 9 37,50 0 0,00 9 4 16,67 6 37,50 10 3 12,50 1 6,25 4 1 4,17 4 25,00 5 0 0,00 4 25,00 4 1 4,17 0 0,00 1 24 100% 16 100% 40 oraz w wykresach, którym można nadać wybraną formę: Możesz ocenić, który z wykresów jest bardziej czytelny i wygodny, jeśli chodzi o dokonywanie porównań. Powyżej umieszczone wykresy ilustrują poziom czytelnictwa wśród chłopców i dziewcząt. Jeżeli chcesz zobrazować oceny z polskiego, musisz przed wykonaniem wykresu wskazać odpowiednią zmienną. Otrzymasz wówczas na przykład taki wykres: Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego Strona |6 Nauki ścisłe priorytetem społeczeństwa opartego na wiedzy Artykuły na platformę CMS Aby zbadać, czy istnieje związek pomiędzy oceną z języka polskiego a liczbą przeczytanych książek, można skorzystać z opcji Statystyka/Wykres/Wykres rozrzutu. O tym, czy istnieje związek pomiędzy zmiennymi wnioskujemy z obserwacji wykresu i współczynników umieszczonych w tabeli nad wykresami. Jeśli (przy przyjętym modelu liniowym) punkty widoczne na wykresie układają się w pobliżu prostej, istnieje związek. O istnieniu tego związku mówi też współczynnik korelacji, który jest liczbą z przedziału -1, 1. Im większa jest wartość bezwzględna tego współczynnika, tym większa jest korelacja. Dokonaliśmy opracowania i graficznej analizy danych pochodzących z pewnego badania. Zaplanowaliśmy również rozszerzenie badania tak, aby badane zjawisko (poziom czytelnictwa) mogło być zanalizowane bardziej wszechstronnie. Wnioski: Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego Strona |7 Nauki ścisłe priorytetem społeczeństwa opartego na wiedzy Artykuły na platformę CMS Czytelnictwo książek wśród uczniów nie jest dobrze rozwinięte. Dziewczynki czytają więcej książek niż chłopcy. Dziewczynki mają lepsze oceny z języka polskiego niż chłopcy. Istnieje ścisła korelacja pomiędzy oceną z języka polskiego a liczbą przeczytanych książek, przy czym jest ona wyższa w przypadku chłopców niż dziewcząt. Powyżej sformułowane wnioski stanowią uogólnienia dotyczące całej populacji, a płynące z obserwacji grupy. Są to hipotezy statystyczne, z wyjątkiem pierwszego wniosku, który jest bardzo nieprecyzyjnie sformułowany – nie wiemy, co to znaczy w sensie matematycznym „czytelnictwo nie jest dobrze rozwinięte”. Hipotezę statystyczną można zweryfikować (zbadać, czy jest ona słuszna, czy nie) posługując się metodami statystyki matematycznej. Może w tym również pomóc program Statystyka i prawdopodobieństwo, nie jest to jednak przedmiotem rozważań w szkole ponadgimnazjalnej. Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego