Artykuł w formacie PDF

Transkrypt

Artykuł w formacie PDF
Strona |1
Nauki ścisłe priorytetem społeczeństwa opartego na wiedzy
Artykuły na platformę CMS
Dr Anna Rybak
Instytut Informatyki
Uniwersytet w Białymstoku
Sposoby prezentacji problemów w statystyce
Wprowadzenie
W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki opisowej, która
zajmuje się opracowywaniem, przedstawianiem w różnych formach i analizowaniem wyników
badań prowadzonych na próbie losowej. Zostaną zaprezentowane sposoby porządkowania i
wizualizacji danych statystycznych (szeregi rozdzielcze, histogramy i inne diagramy) oraz statystyki
opisowe i badanie korelacji między cechami. Te zagadnienia wykraczają poza podstawę
programową matematyki, ale nie są to treści trudne i przy odpowiedniej wizualizacji komputerowej
uczeń z łatwością je zrozumie.
Problem
Przeprowadzono sondaż na próbie 40 uczniów szkoły. Każdy z nich odpowiadał na pytanie: „Ile
książek przeczytałeś w ciągu minionego miesiąca?”
Oto odpowiedzi kolejnych uczniów:
5, 1, 2, 0, 5, 4, 4, 1, 1, 1, 2, 0, 0, 0, 3, 1, 1, 2, 5, 4, 6, 4, 0, 1, 2, 3, 5, 2, 1, 2, 3, 0, 2,
4, 3, 2, 2, 3, 0, 1.
Co można powiedzieć o czytelnictwie w tej grupie młodzieży?
Wprowadzenie teoretyczne
Statystyka to dział matematyki, który zajmuje się wnioskowaniem statystycznym, czyli
formułowaniem i weryfikowaniem wniosków ogólnych (hipotez statystycznych) na podstawie
skończonej liczby wyników obserwacji losowych.
Prowadząc badania statystyczne pewnej zbiorowości (populacji), wybieramy reprezentatywną jej
grupę zwaną próbą. Próbę poddajemy bezpośrednim badaniom, a wyniki uogólniamy na całą
populację.
Badane zjawisko nazywamy cechą statystyczną (można też używać nazwy „zmienna” – jest ona
powszechnie używana w oprogramowaniu z zakresu statystyki), a wyniki badania
przeprowadzonego na próbie – wartościami cechy.
Wiarygodność takich badań w dużej mierze zależy od wyboru próby.
Statystyka dzieli się na dwa główne działy:
statystykę opisową, która zajmuje się opracowywaniem, przedstawianiem w różnych
formach i analizowaniem wyników badań prowadzonych na próbie losowej
oraz
statystykę matematyczną, która zajmuje się wnioskowaniem o rozkładzie wartości cechy
w całej populacji na podstawie wyników badania próby.
Projekt współfinansowany przez Unię Europejską
w ramach Europejskiego Funduszu Społecznego
Strona |2
Nauki ścisłe priorytetem społeczeństwa opartego na wiedzy
Artykuły na platformę CMS
Uzyskane w trakcie badania próby wyniki można przedstawiać w różnych formach graficznych
(tabele, różnorodne diagramy) oraz dokonywać ich analizy przy pomocy tzw. statystyk liczbowych.
W środkach masowego przekazu bardzo często widzimy efekty zastosowania metod statystyki
opisowej do wizualizacji wyników badań różnorodnych zjawisk społecznych, politycznych,
ekonomicznych, kulturalnych i innych.
W opracowywaniu danych statystycznych (zwłaszcza przy wykonywaniu diagramów
i skomplikowanych obliczeń) bardzo przydatne jest odpowiednie oprogramowanie.
Programem, z którego będziemy korzystać przy rozpatrywaniu zagadnień statystycznych jest
Statystyka i prawdopodobieństwo. Jego angielskojęzyczną wersję demonstracyjną możesz pobrać
ze strony www.vusoft2.nl (plik vustatengdemo.zip). Możesz też użyć dowolnego arkusza
kalkulacyjnego.
Badanie zagadnienia
W postawionym na wstępie problemie za populację można uznać na przykład wszystkich uczniów
danej szkoły. Próba badawcza to czterdziestu wybranych uczniów, zaś badaną cechą jest liczba
przeczytanych książek.
Postawione pytanie:
” Co można powiedzieć o czytelnictwie w tej grupie młodzieży?”
należy uszczegółowić. Jakie konkretne pytania można zadać, aby uzyskać jak najwięcej informacji
opisujących zjawisko w sposób możliwie najbardziej dokładny?
Przede wszystkim zauważmy, że dane nie są uporządkowane, a więc nie są czytelne. Wszelkie
analizowanie i wnioskowanie jest utrudnione.
Przy pomocy programu Statystyka i prawdopodobieństwo można uporządkować dane
w postaci tabeli zwanej tablicą (tabelą) liczebności, korzystając z opcji Statystyka/Tablice/Tablica
liczebności.
Oto tabela:
l.książek
0-1
2-3
4-5
6-7
Ogółem
Liczeb.
16
14
9
1
40
Lewa kolumna zawiera tzw. klasy wartości cechy. Takie grupowanie danych ma miejsce, gdy liczba
obserwacji jest duża. Jeżeli chcemy mieć w lewej kolumnie tabeli wyszczególnione wszystkie
Projekt współfinansowany przez Unię Europejską
w ramach Europejskiego Funduszu Społecznego
Strona |3
Nauki ścisłe priorytetem społeczeństwa opartego na wiedzy
Artykuły na platformę CMS
wartości badanej cechy (tzn. liczby przeczytanych książek), korzystamy w ostatnio używanej opcji
z przycisku Klasy, określając liczbę klas jako 7 (tyle wartości ma badana cecha):
l.książek
0
1
2
3
4
5
6
Ogółem
Liczeb.
7
9
10
4
5
4
1
40
Jeśli natomiast zaznaczymy pole Procenty, otrzymamy taką tabelę:
l.książek
0
1
2
3
4
5
6
Ogółem
Liczeb.
7
9
10
4
5
4
1
40
%
17,50
22,50
25,00
10,00
12,50
10,00
2,50
100%
Jakie więc pytania możemy postawić w oparciu o powyższe tablice? Na przykład takie:
Jaką liczbę książek przeczytało najwięcej uczniów?
Jaki to procent badanej liczby uczniów?
Jaką liczbę książek przeczytało najmniej uczniów?
Jaki to procent badanej liczby uczniów?
Czy są uczniowie, którzy wcale nie czytają? Czy jest ich wielu? Jaki to procent badanej grupy
uczniów?
Odpowiedz na powyższe pytania. Może dostrzegasz inne zagadnienia, o które warto zapytać?
Tabelaryczny układ danych nie jest najbardziej obrazowy. Przedstawmy teraz powyższe dane
w postaci różnego rodzaju wykresów (diagramów). Można to zrobić korzystając z opcji
Statystyka/Wykresy i wybierając odpowiedni typ wykresu lub Pokaż wszystko. Można skorzystać
też z opcji Wykresy danych z Menu głównego.
I tak, możemy otrzymać wykres słupkowy z uwzględnieniem liczebności:
Projekt współfinansowany przez Unię Europejską
w ramach Europejskiego Funduszu Społecznego
Strona |4
Nauki ścisłe priorytetem społeczeństwa opartego na wiedzy
Artykuły na platformę CMS
lub z uwzględnieniem udziału procentowego poszczególnych liczb przeczytanych książek
w ogólnym czytelnictwie:
Jakie wnioski możesz wyciągnąć z obserwacji tego wykresu?
Wyraźnie widać, że większa liczba badanych uczniów czyta mniej książek (0, 1 lub 2).
Można też sporządzić diagram kołowy, bardzo przydatny przy badaniu struktury zjawiska:
Badanie zjawiska czytelności wśród uczniów mogłoby być bardziej wnikliwe, gdybyśmy zapytali
badanych uczniów o inne cechy. Rozszerzmy nasze badanie tak, aby czytelnictwo było widoczne w
kontekście innych cech. Spytajmy uczniów o płeć i ocenę z języka polskiego. Przyporządkujmy
oznaczenia płci w sposób następujący:
niech liczba 0 oznacza chłopca, 1 – dziewczynkę.
Projekt współfinansowany przez Unię Europejską
w ramach Europejskiego Funduszu Społecznego
Strona |5
Nauki ścisłe priorytetem społeczeństwa opartego na wiedzy
Artykuły na platformę CMS
Jakie pytania można teraz postawić do naszego zagadnienia? Na przykład takie:
Kto czyta więcej książek: chłopcy czy dziewczęta?
Kto ma lepsze oceny z języka polskiego: chłopcy czy dziewczęta?
Czy istnieje związek (w statystyce ten związek nazywamy korelacją) pomiędzy oceną z języka
polskiego a liczbą przeczytanych książek?
Aby odpowiedzieć na pytania dotyczące różnic w czytelnictwie chłopców i dziewcząt, podzielmy
nasze dane na dwie grupy względem zmiennej płeć. W tym celu skorzystamy z opcji
Statystyka/Dane/Podziel, wybierając zmienną płeć jako zmienną podziału. Dokonany został
podział na dwie klasy: chłopców i dziewczęta. Znajduje to odbicie w tablicy liczebności:
płeć
l.książek
0
1
2
3
4
5
6
Ogółem
płeć 0
płeć 1
Liczeb.
%
Liczeb.
%
Ogółem
6 25,00
1
6,25
7
9 37,50
0
0,00
9
4 16,67
6 37,50
10
3 12,50
1
6,25
4
1
4,17
4 25,00
5
0
0,00
4 25,00
4
1
4,17
0
0,00
1
24 100%
16 100%
40
oraz w wykresach, którym można nadać wybraną formę:
Możesz ocenić, który z wykresów jest bardziej czytelny i wygodny, jeśli chodzi o dokonywanie
porównań.
Powyżej umieszczone wykresy ilustrują poziom czytelnictwa wśród chłopców i dziewcząt.
Jeżeli chcesz zobrazować oceny z polskiego, musisz przed wykonaniem wykresu wskazać
odpowiednią zmienną. Otrzymasz wówczas na przykład taki wykres:
Projekt współfinansowany przez Unię Europejską
w ramach Europejskiego Funduszu Społecznego
Strona |6
Nauki ścisłe priorytetem społeczeństwa opartego na wiedzy
Artykuły na platformę CMS
Aby zbadać, czy istnieje związek pomiędzy oceną z języka polskiego a liczbą przeczytanych książek,
można skorzystać z opcji Statystyka/Wykres/Wykres rozrzutu.
O tym, czy istnieje związek pomiędzy zmiennymi wnioskujemy z obserwacji wykresu
i współczynników umieszczonych w tabeli nad wykresami. Jeśli (przy przyjętym modelu liniowym)
punkty widoczne na wykresie układają się w pobliżu prostej, istnieje związek.
O istnieniu tego związku mówi też współczynnik korelacji, który jest liczbą z przedziału
-1, 1. Im większa jest wartość bezwzględna tego współczynnika, tym większa jest korelacja.
Dokonaliśmy opracowania i graficznej analizy danych pochodzących z pewnego badania.
Zaplanowaliśmy również rozszerzenie badania tak, aby badane zjawisko (poziom czytelnictwa)
mogło być zanalizowane bardziej wszechstronnie.
Wnioski:
Projekt współfinansowany przez Unię Europejską
w ramach Europejskiego Funduszu Społecznego
Strona |7
Nauki ścisłe priorytetem społeczeństwa opartego na wiedzy
Artykuły na platformę CMS
Czytelnictwo książek wśród uczniów nie jest dobrze rozwinięte.
Dziewczynki czytają więcej książek niż chłopcy.
Dziewczynki mają lepsze oceny z języka polskiego niż chłopcy.
Istnieje ścisła korelacja pomiędzy oceną z języka polskiego a liczbą przeczytanych książek,
przy czym jest ona wyższa w przypadku chłopców niż dziewcząt.
Powyżej sformułowane wnioski stanowią uogólnienia dotyczące całej populacji, a płynące
z obserwacji grupy. Są to hipotezy statystyczne, z wyjątkiem pierwszego wniosku, który jest bardzo
nieprecyzyjnie sformułowany – nie wiemy, co to znaczy w sensie matematycznym „czytelnictwo nie
jest dobrze rozwinięte”. Hipotezę statystyczną można zweryfikować (zbadać, czy jest ona słuszna,
czy nie) posługując się metodami statystyki matematycznej. Może w tym również pomóc program
Statystyka i prawdopodobieństwo, nie jest to jednak przedmiotem rozważań w szkole
ponadgimnazjalnej.
Projekt współfinansowany przez Unię Europejską
w ramach Europejskiego Funduszu Społecznego