Ta nielubiana statystyka... Jak obliczyć średnią, medianę, wariancję

Transkrypt

Ta nielubiana statystyka... Jak obliczyć średnią, medianę, wariancję
Ta nielubiana statystyka...
Jak obliczyć średnią, medianę, wariancję, odchylenie standardowe...
Statystyka jest nauką zajmującą się badaniem masowych zjawisk.
Badanie statystyczne polega na ocenie zjawiska, przykładowo preferencje polityczne
uczniów klas trzecich szkół ponadgimnazjalnych mogą być badane pod kątem wyboru opcji
politycznej: lewicowej, prawicowej czy centrowej.
Uczniów klas trzecich szkół ponadgimnazjalnych jest setki tysięcy. Zadanie pytania o
preferencje polityczne takiej liczbie osób jest wykonalne, ale bardzo kosztowne.
Wobec tego bada się tylko pewną ilość osób z „populacji” uczniów. Łatwo domyślić się, że
badanie takie jest tym dokładniejsze (tzn. wyniki są bardziej zbliżone do stanu faktycznego),
im :
• „próba”, czyli zbiór badanych uczniów jest liczniejszy,
• lepszy jest wybór osób, tzn. gdy wybrana reprezentacja odpowiada rzeczywistości,
czyli wybrano proporcjonalną liczbę uczniów dużych, średnich, małych miast, wsi,
dziewcząt i chłopców, z rodzin inteligenckich, robotniczych, ...itd.
Można powiedzieć tak: zadaniem statystyka jest dobranie takiej próby, by
prawdopodobieństwo znaczącej różnicy między otrzymanym wynikiem badania, a
rzeczywistością było jak najmniejsze.
Nie jest to jednak problem ucznia zdającego maturę. Od niego wymaga się, by na podstawie
podanej próby dokonał wyliczenia podstawowych wielkości charakteryzujących badaną
próbę, jak średnia arytmetyczna lub ważona, mediana, dominanta, wariancja, odchylenie
standardowe. Jak należy interpretować otrzymane wyniki musi wiedzieć bardzo ogólnie,
najczęściej nie będzie o to zapytany, i często nie będzie tego wiedział nauczyciel !
Nie dziw się drogi klubowiczu ! Statystyka jest bardzo specyficznym działem matematyki,
który przeciętny student matematyki poznaje bardzo pobieżnie i nie pytajcie mnie, po
została ona dołączona do wymagań maturalnych, bo tajemnic umysłu ministra nie
zgłębisz...
Powyższe ogólne przybliżenie tematu wyjaśnia, dlaczego niniejsza porada będzie poradą
„poprzez przykład”, przeanalizowany pod kątem tych obliczeń, które maturzysta powinien
podczas egzaminu wykonać.
A teraz konkrety:
Przeprowadzono badanie preferencji politycznych wśród uczniów klas trzecich szkół
ponadgimnazjalnych. Wybrano losowo 150 uczniów, którym zadano pytanie: „Na którą
partię polityczną głosowaliby, gdyby wybory do sejmu odbywały się dzisiaj”. Uczniowie
mieli do wyboru 10 partii.
Odpowiedzi uczniów przedstawiono w tabeli, w której poszczególnym partiom przypisano
numery od 1 do 10, segregując je od najbardziej lewicowych (LEP), do najbardziej
prawicowych (NIE):
Numer
Nazwa partii
Ilość głosów
Lewicowa Eurokracja Partnerska – LEP
1
6
Narodowo-Awangardowy Związek Innowacyjny – NAZI
2
2
Socjalistyczna Osłona Cenowa – SOC
3
15
Socjalizm Ludowo Demokratyczny – SLD
4
21
Demokratyczna Unia- Radykalne Elity Narodowe – DUREN
5
25
Partia Innych Celów – PIC
6
26
Partia
Ugodowo-Patriotyczna
Awangarda
–
PUPA
7
18
Partia Anty-Nie Dla Alkoholizmu – PANDA
8
14
Partia Łysych i Okrągłych Turystów – PŁOT
9
15
Nie Innowacjom Eksperymentatorów – NIE
10
8
Z tabeli odczytujemy przykładowo, że na partię PUPA (nr 7) głosowałoby 18 uczniów, czyli
„wynik 7” otrzymano 18 razy (wynikiem jest numer partii, na którą głosowano).
Można więc powiedzieć, że otrzymano ciąg wyników:
11
,4
1,12
,14
,13
,1, 2{
,2 , 31
,34
,34
,3,4
3,34
,32
,3,4
3,34
,34
,3,4
3,4
33
,3,......, 10
104
,104
,4
102
,10
104
,3
10
4
1,4
4,10
4,4
6 razy
2 razy
15 razy
8 razy
składający się ze 150 wyrazów.
Średnia z próby (średnia arytmetyczna) wynosi:
x=
=
1 ⋅ 6 + 2 ⋅ 2 + 3 ⋅ 15 + 4 ⋅ 21 + 5 ⋅ 25 + 6 ⋅ 26 + 7 ⋅ 18 + 8 ⋅ 14 + 9 ⋅ 15 + 10 ⋅ 8
=
150
6 + 4 + 45 + 84 + 125 + 156 + 126 + 112 + 135 + 80 873 291 582
= 5,82
=
=
=
150
150 50 100
Średnia z próby jest zwykłą średnią arytmetyczną z otrzymanego ciągu wyników:
suma wszystkich wyników
x=
wielkosc próby
Mediana z próby jest to środkowy wyraz z ciągu wyników.
Gdyby np. ciąg wyników był siedmiowyrazowy: 1,1,2,3,6,8,10 , to środkowym wyrazem jest
liczba 3.
Jeśli zaś ciąg wyników ma parzystą liczbę wyrazów, np. 1,5,9,10 , to mediana jest średnią
5+9
arytmetyczną wyrazów środkowych, czyli
= 7.
2
W naszym przykładzie ciąg jest 150-wyrazowy (tylu uczniów głosowało na partie).
Środkowymi wyrazami są wyrazy: 75-ty i 76-ty. Nietrudno wyliczyć, że obydwa są równe 6,
czyli mediana wynosi 6.
Dominanta jest to najczęstszy wynik występujący w próbie.
Dominant może być wiele. W naszej próbie jest jedna: 26 (najwięcej uczniów głosowało na
PIC), ale gdyby np. na DUREN też oddało głos 26-u uczniów, to byłyby dwie dominanty.
Odchylenie standardowe jest liczbą charakteryzującą próbę (w jaki sposób ta liczba
charakteryzuje próbę wyjaśnię później).
Odchylenie standardowe można obliczyć na dwa sposoby.
Dla lepszego ich zrozumienia zapiszemy nieco zmienioną tabelę wyników badania,
wprowadzając przy tym odpowiednie oznaczenia:
Numer partii
Numer partii
Ilość głosów
Ilość głosów
x1 = 1
c1 = 6
x6 = 6
c 6 = 26
x2 = 2
c2 = 2
x7 = 7
c 7 = 18
x3 = 3
c 3 = 15
x8 = 8
c 8 = 14
x4 = 4
x5 = 5
c 4 = 21
c 5 = 25
x9 = 9
c 9 = 15
x 10 = 10
c 10 = 8
Sposób 1
Należy obliczyć sumę:
(
)
2
(
)
2
(
)
2
(
)
2
SUMA = c 1 ⋅ x 1 − x + c 2 ⋅ x 2 − x + c 3 ⋅ x 3 − x + ... + c 10 ⋅ x 10 − x ,
gdzie x jest wyliczoną wcześniej średnią z próby ( x = 5,82 ) .
Liczymy:
SUMA = 6 ⋅ (1 − 5,82) 2 + 2 ⋅ ( 2 − 5,82) 2 + 15 ⋅ ( 3 − 5,82) 2 + 21 ⋅ (4 − 5,82) 2 + 25 ⋅ (5 − 5,82) 2 +
+ 26 ⋅ (6 − 5,82) 2 + 18 ⋅ (7 − 5,82) 2 + 14 ⋅ (8 − 5,82) 2 + 15 ⋅ (9 − 5,82) 2 + 8 ⋅ (10 − 5,82) 2 =
= 139,3944 + 29,1848 + 119,286 + 69,5604 + 16,81 + 0,8424 + 25,0632 + 66,5336 +
+ 151,686 + 139,7792 = 758,14
Teraz obliczymy odchylenie standardowe według wzoru:
SUMA
s=
, gdzie n – liczebność próby, czyli n = 150 .
n
s=
758,14
≅ 5,054267 ≅ 2,248
150
Wariancja z próby jest to kwadrat odchylenia standardowego:
s 2 ≅ 5,054267
Uwaga: sposób 1 jest wrażliwy na przybliżenia. Jeśli średnią wyliczymy niedokładnie, to
obliczona tym sposobem wariancja i odchylenie standardowe mogą znacznie różnić się od
wyniku dokładnego.
Sposób 2
Należy obliczyć sumę:
2
SUMA = c 1 ⋅ x 12 + c 2 ⋅ x 22 + c 3 ⋅ x 23 + ... + c 10 ⋅ x 10
SUMA = 6 ⋅ 1 2 + 2 ⋅ 2 2 + 15 ⋅ 3 2 + 21 ⋅ 4 2 + 25 ⋅ 5 2 + 26 ⋅ 6 2 + 18 ⋅ 7 2 + 14 ⋅ 8 2 + 15 ⋅ 9 2 + 8 ⋅ 10 2 =
= 6 + 8 + 135 + 336 + 625 + 936 + 882 + 896 + 1215 + 800 = 5839
Teraz obliczymy odchylenie standardowe według wzoru:
2
SUMA
s=
− x , gdzie n – liczebność próby, czyli n = 150 , x - średnia z próby
n
( )
5839
2
− (5,82) ≅ 38,926667 − 33,8724 = 5,054267 ≅ 2,248
150
Podobnie wariancja: s 2 ≅ 5,054267
......................................................................................................................................................
Jak należy interpretować wyniki tych obliczeń?
Pojęcia średniej, mediany i dominanty są proste do interpretacji:
• średnia wynosi 5,82, czyli jest to wynik pomiędzy partią DUREN (5), a partią PIC
(6). Ponieważ średnia arytmetyczna liczb 1,2,3,...,10 wynosi 5,5, wynik 5,82 oznacza
lekkie przesunięcie sympatii politycznych w kierunku partii prawicowych.
• Poprzedni wniosek potwierdza mediana, jako środkowy wyraz z ciągu wyników –
otrzymaliśmy medianę równą 6
• Dominanta – najczęstszy wynik. Najwięcej osób głosowałoby na partię PIC (6).
s=
Nie jest tak oczywistą interpretacja odchylenia standardowego.
Często mówi się, że jest to miara rozrzutu wyników, czyli jest to liczba tym większa, im
większy procent wyników przyjmuje wartości skrajne (u nas byłyby to wyniki 1,2,3 lub
8,9,10), czyli bardzo różniące się od średniej.
Przy bardzo dużych próbach (np. badanie wzrostu mieszkających w Polsce dzieci w wieku
12 lat) zachodzą ciekawe prawidłowości:
• Ponad 68% badanej populacji różni się od średniej z próby mniej niż wynosi odchylenie standardowe.
• Ponad 95,5% badanej populacji różni się od średniej z próby mniej niż wynoszą
dwa odchylenia standardowe.
......................................................................................................................................................
Na koniec porozmawiamy jeszcze o tzw. „Średniej ważonej”.
Taką średnią liczymy z liczb, którym przypisano wagi.
Poprzemy to przykładem ze szkolnego podwórka:
Nauczyciel oznajmił, że podczas końcowej klasyfikacji oblicza średnią ważoną:
• Ocena ze sprawdzianu ma wagę 3
• Ocena z odpowiedzi ustnej ma wagę 2
• Inne oceny mają wagę 1
Załóżmy, że uczeń otrzymał w trakcie nauki:
• Oceny ze sprawdzianów: 2, 4, 4
• Odpowiedzi ustne: 1, 3
• Inne oceny: 5, 3, 1, 3
Ujmiemy to w tabeli:
Ocena
2
4
4
1
3
5
3
1
3
Waga
3
3
3
2
2
1
1
1
1
Średnią ważoną liczymy według wzoru:
suma iloczynów : ocena ⋅ waga oceny
sw =
suma wag
W naszym przykładzie:
2 ⋅ 3 + 4 ⋅ 3 + 4 ⋅ 3 + 1 ⋅ 2 + 3 ⋅ 2 + 5 ⋅ 1 + 3 ⋅ 1 + 1 ⋅ 1 + 3 ⋅ 1 50
sw =
=
≅ 2,94
3+ 3+ 3+ 2+ 2+1+1+1+1
17
Oceną końcową będzie więc ocena dostateczna.

Podobne dokumenty