Elementy statystyki opisowej.

Transkrypt

Elementy statystyki opisowej.
//wmii.uwm.edu.pl/~germaniuk
adres strony internetowej
Literatura.
W. Krysicki J. Bartos Rachunek prawdopodobieństwa i statystyka matematyczna w
Zadaniach.
Część I
Rachunek prawdopodobieństwa
Część II Statystyka matematyczna
Wojciech Kordecki
Rachunek prawdopodobieństwa i statystyka matematyczna
Definicje, twierdzenia, wzory.
Elementy statystyki opisowej.
Statystyka matematyczna zajmuje się analizą i opisem dużych zbiorowości i zjawisk
masowych przy pomocy metod rachunku prawdopodobieństwa. Badaniu podlega
pewien zbiór elementów ze względu na jedną lub więcej cech, który oznaczać będziemy
przez Ζ . Zbiór Ζ posiadający przynajmniej jedną cechę wspólną dla wszystkich jego
elementów i własność ze względu na którą elementy tego zbioru różnią się między
sobą nazywamy populacją generalną.
Badaniu mogą podlegać wszystkie elementy zbioru Ζ / badanie kompletne / lub jego
część / badanie częściowe /. Badanie kompletnie w większości nie jest możliwe / zbiór jest
nieskończony, badanie jest pracochłonne, niszczy badane elementy / dlatego statystyka
matematyczna zajmuje się głównie wnioskowaniem o całej zbiorowości na podstawie
informacji uzyskanych z pewnego skończonego podzbioru ß zboru Ζ . Ten skończony zbiór
będziemy nazywać próbą. Aby próba wiernie reprezentowała populację generalną Ζ to
każdy element tej populacji powinien mieć jednakowe prawdopodobieństwo trafienia do
próby. Taką próbę nazywamy próbą losową prosta.
Badaniu może podlegać jedna cecha lub więcej cech elementów populacji generalnej.
Na początek zajmiemy się badaniem jednej cechy. Badane cechy mogą być mierzalne
wyrażane za pomocą liczby i niemierzalne / odcień barwy, kolor włosów, płeć, zawód …. /.
W praktyce cechą niemierzalnym przyporządkowuje się liczby. Cechy mierzalne mogą być
typu ciągłego / wartości cechy mogą przyjąć wszystkie liczby z określonego przedziału / i
typu skokowego / wszystkich wartości cechy jest skończona lub przeliczalną ilość /.
Statystyka opisowa zajmuje się wstępnym opisem próby bez posługiwania się rachunku
prawdopodobieństwa.
Szereg rozdzielczy.
x1 , x2 , x3 ,............, xn
Niech
będą wartościami cechy n – elementowej próby.
Przy większej liczebności próby (n > 30 ) w celu ułatwienia analizy próbę grupuje się w
klasy tj. przedziały najczęściej jednakowej długości przyjmując uproszczenie, że wszystkie
wartości należące do klasy mają wartość równą wartości środka przedziału. Następnie
oblicza się liczebności przedziałów tzn. liczby - ilość elementów próby które maję wartości
cechy z określonego przedziału. Ustalenie tych elementów tworzy szereg rozdzielczy danych
próby.
Próba nie przedstawiona za pomocą szeregu rozdzielczego nazywamy próbą
nieuporządkowaną /danymi nieuporządkowanymi /.
Istnieje kilka reguł ustalenia orientacyjnego liczby klas k i długości przedziału.
Liczba klas nie może być za mała / traci się szczegóły danych / i nie za duża / traci się
przejrzystość danych /.
Oblicza się tzw. rozstęp danych
R  xmax  xmin gdzie
xmax , xmin jest
odpowiednio największą i najmniejszą wartością cechy w próbie.
Liczba klas k  n lub można odczytać z tabeli
Liczba pomiarów n Liczba klas k
30 - 60
6-8
60 - 100
7 - 10
100 - 200
9 - 12
200 - 500
11 - 17
500 - 1500
16 - 25
R
h
k z nadmiarem tak aby hk  R
Długość przedziału przyjmuje się
1

Punkty stanowiące granice poszczególnych klas ustala się z dokładnością 2
gdzie
 jest dokładnością pomiaru wartości cechy w próbie.
Po ustaleniu tych elementów tworzy się szereg rozdzielczy próby.
Przedziały
Klasowe cechy
Liczebność
klasy
Środki
klas
Częstość
cechy w klasie
Łamana rozkładu
empirycznego
ai - bi
ni
xi  (ai  bi ) 2
gi  ni n
wi  gi h
a1 - b1
a2 - b2
n1
n2
x1
x2
g1
g2
w1
w2
..
..
.
.
.
.
.
.
.
.
ak - bk
nk
xk
gk
wk
n  n1  n2  .....  nk
h  bi  ai
k
ai , bi
k
k
gj
j 1
j 1
h
k
k
nj
j 1
n
 hw j   h
g
j 1
j

liczebność próby
długość przedziału klasowego
liczba przedziałów klasowych
końce i – tego przedziału klasowego
k

j 1

nj
n

1 k
 ni  1
n j 1
k
1
 ni  1
n j 1
Stąd pole zawarte między łamaną łączącą punkty o współrzędnych
( x1 - h 2 , 0) , ( x1 , w1 ) , ……….. , ( xk , wk ) , ( xk  h 2 , 0)
Analogicznie wartości
gi 
ni
n
i  1,2,...., k
a osią OX jest równe 1 .
określają empiryczne
wartości prawdopodobieństwa zdarzenia - wartość cechy elementu wylosowanego z
populacji generalnej będzie należała do i – tego przedziału klasowego. Wartości te wraz
ze wzrostem liczby n do nieskończoności dążą do wartości teoretycznych całej populacji
generalnej.
Parametry opisowe próby obliczane za pomocą szeregu rozdzielczego.
Średnia arytmetyczna
x1n1  x2 n2  ....  xk nk
1 k
  xi ni
n
n i 1
Wartości xi i = 1,2,….,k to środki przedziałów klasowych. Wartość
x
x w
przybliżeniu równa się średniej arytmetycznej z wartości cechy próby nieuporządkowanej.
k
xmun  x  xmax
Ponadto
i
wtedy i tyko wtedy gdy od wartości
Wariancja
x
 x  0 . Ostania własność jest prawdziwa
xi
x.
i
i 1
odejmujemy wartość
( x1  x ) 2 n1  ( x2  x ) 2 n2  .....  ( xk  x ) 2 nk
1 k
s 
  ( xi  x ) 2 ni
n
n i 1
2
x1 n1  x2 n2  .....  xk nk
1 k
2
2
s 
 x  (  xi ni )  x 2
n
n i 1
2
2
2
2
Jest to średni rozrzut w kwadracie wartości cechy w próbie względem średniej
arytmetycznej x .
Odchylenie standardowe
s
s2
Jest to średni rozrzut wartości cechy w próbie względem średniej arytmetycznej x
Mniejsza wariancja i odchylenie standardowe - rozrzut wartości cechy mniejsze a
skupienie większe i odwrotnie większa wariancja i odchylenie standardowe - rozrzut
wartości cechy większy a skupienie mniejsze. Wariancja i odchylenie jest miarą rozrzutu
wartości cechy w próbie względem średniej arytmetycznej x .
Mediana czyli wartość środkowa.
Z szeregu rozdzielczego wartość środkową cechy oblicza się za pomocą wzoru:
me  al 
h n l 1
(   ni ) gdzie indeks
nl 2 i 1
l to numer klasy zawierająca wartość
środkową próby nieuporządkowanej.
Moda czyli dominanta
Modę czyli wartość dominującą w próbie z szeregu rozdzielczego oblicza się wzorem:
nl  nl 1
mo  al 
h
gdzie indeks l to numer klasy najliczniejszej.
(nl  nl 1 )  (nl  nl 1 )
Moment centralny l  tego rzędu
( x1  x ) l n1  ( x2  x ) l n2  .....  ( xk  x ) l nk
1 k
l 
  ( xi  x ) l ni
n
n i 1
Współczynnik asymetrii / skośności /
G3 
3
s3
Jest miarą odstępstwa od symetrii wartości cechy w próbie. Dla
symetryczne względem wartości
G3  0
dane są
x . Gdy G3  0 to antysymetria występuje w lewą
stronę. Gdy G3  0 to antysymetria jest w prawą stronę.
Współczynnik spłaszczenia / eksces /
G4 
4
s4
3
Jest miarą odstępstwa wartości cechy w próbie od rozkładu normalnego w pionie. /
rozkład ten będzie zdefiniowany w dalszej wykładu /. W rozkładzie normalnym G4  0 i
G3  0 .
Przykład
W badaniu rzeczywistego czasu przebywania cząstek reagentów
w reaktorze przepływowym doświadczalnie stosując metodę typu
sygnał /odpowiednio dobrana substancja, zwana traserem / -odpowiedz, uzyskano następujące wyniki / w d /
4,6 5,5
5 4,9 3,9 4,3 4,3 3,7 4,5 4,6 4,2 5,3 5,3 3,8
4
4
3,9 2,7 3,3 6,2 5,4 4,5 5,9 8,3 3,3
6 3,8 6,1 3,2 3,9 6,1 4,5
6,2 5,3 5,7 5,1 5,4 6,3 4,7 5,2 4,8 4,4 4,3
6 3,7 3,7 5,1 4,7
5,3 5,7 5,4 6,6 5,5 4,6 5,2 4,6 5,9 4,3 5,3 4,6 4,7 5,3 6,5 3,7
a) Określić populację generalną i rodzaj cechy oraz utworzyć szereg rozdzielczy.
b). Podać interpretację danych /utworzyć histogram danych/
c). Obliczyć podstawowe parametry próby / średnią arytmetyczną ,wariancją,…./
Ad a),b)….
Elementem populacji generalnej jest doświadczenie badające rzeczywisty czas przebywania
cząstek reagentów w reaktorze przepływowym. Doświadczeń można przeprowadzić
nieskończenie wiele a więc populacja jest nieskończona. Cecha – czas przebywania
reagentów wyrażona w dniach jest typu ciągłego ponieważ można uzyskać każdą wartość z
przedziału np. 2 do 10. Dokładność pomiaru  = 0,1 dnia.
R  xmax  xmin = 8,3 - 2,7 = 5,6 . Dla liczby klas k = 7, 8 ,9.
R
Długość przedziału h 
 0,8 ; 0,7 ; 0,62
k
R
Dla k = 6 h 
 0,9333 a więc decydując się na k = 6 i h  1 mamy najlepsze
k
przybliżenie z nadmiarem długości przedziału klasowego i przyzwoitą długość.
Skrajny lewy koniec przedziału klasowego
a1
przyjmujemy 2,5.
czas przebywania
reagentów /w d /
ai
2,5
3,5
4,5
5,5
6,5
7,5
bi
liczba
środki
pomiarów przedziałów
ni
xi  (ai  bi ) 2
3,5
4
3
4,5
17
4
5,5
27
5
6,5
13
6
7,5
2
7
8,5
1
8
n =
64
h  bi  ai
długość przedziału klasowego
Częstość
funkcja
przedziału gęstości
gi  ni n wi  gi h
0,063
0,266
0,422
0,203
0,031
0,016
0,06
0,27
0,42
0,20
0,03
0,02
Ad c).
czas przebywania
regentów / w d /
Liczba
pomiarów
środki
przedziałów
składniki
składniki
składniki
składniki
składniki
ai
bi
ni
a  bi
xi  i
2
2,5
3,5
4
3
12
14,77
36
-28,39
54,57
3,5
4,5
17
4
68
14,45
272
-13,32
12,28
4,5
5,5
27
5
135
0,16
675
0,01
0
5,5
6,5
13
6
78
15,11
468
16,29
17,56
6,5
7,5
7,5
8,5
n=
2
1
7
8
14
8
315
8,64
9,47
62,61
98
64
1613
17,95
29,16
21,7
37,3
89,77
211,49
xi ni
64
Średnia arytmetyczna x
=
Wariancja sp. I
s2
=
Wariancja sp. II
s2
=
( xi  x ) ni
2
315
64
62,61
64
1613
 4,922
64
( x i  x ) n i ( xi  x ) 4 ni
2
3
xi ni
= 4,92
/ z próby nieuporządkowanej
x
= 4,89 /
= 0,98
/ z próby nieuporządkowanej
s2
= 0,98 /
= 0,98
0,98
Odchylenie standardowe s =
= 0,99
Wartość środkowa należy do 3 – go przedziału stąd indeks w wzorze na medianę l = 3
Mediana
= 4,5  1 ( 64  (4  7))
= 4,91
me
27 2
Najliczniejszy przedział ma indeks l = 3 stąd
27  17
Moda (dominanta) m0 = 4,5 
1 = 4,83
Moment centralny
(27  1)  (27  13)
3 – go rzędu 3 = 21,7
64
Współczynnik asymetrii / skośności /
Moment centralny 4 – go rzędu  4 =
Współczynnik spłaszczenia / eksces /
= 0,34
G3 
3
s
211,49
64
G4 

0,34
0,993
= 0,35
= 3,3045
4
s
3
4
3
3,3045
3
0,99 4
= 0,4
Parametry opisowe z próby nieuporządkowanej
Niech
x1 , x2 , x3 ,............, xn
nieuporządkowanej.
Średnia arytmetyczna
będą wartościami cechy n – elementowej próby
x1  x2  ....  xn
1 n
x
  xi
n
n i 1
k
xmun  x  xmax
i
x
i 1
tyko wtedy gdy od wartości
xi
i
 x  0 . Ostania własność jest prawdziwa wtedy i
odejmujemy wartość
x.
Wariancja
( x1  x ) 2  ( x2  x ) 2  .....  ( xn  x ) 2
1 n
s 
  ( xi  x ) 2
n
n i 1
2
x1  x2  .....  xn
1 n
2
2
s 
 x  (  xi )  x 2
n
n i 1
2
2
2
2
Jest to średni rozrzut w kwadracie wartości cechy w próbie względem średniej
arytmetycznej x .
Odchylenie standardowe
s
s2
Jest to średni rozrzut wartości cechy w próbie względem średniej arytmetycznej x
Mniejsza wariancja i odchylenie standardowe - rozrzut wartości cechy mniejsze a
skupienie większe i odwrotnie większa wariancja i odchylenie standardowe - rozrzut
wartości cechy większy a skupienie mniejsze. Wariancja i odchylenie jest miarą rozrzutu
wartości cech w próbie względem średniej arytmetycznej x .
Mediana czyli wartość środkowa.
Z szeregu rozdzielczego wartość środkową cechy oblicza się za pomocą wzoru:
 x*n 1
 ( 2 )

me   x*  x*
n
n
( 1)
 (2)
2

2

dla n nieparzystego
dla n parzystego
Gdzie x1*  x2*  .....  xn* dane próby nieuporządkowanej ustawione w kolejności rosnącej.
Moda czyli dominanta
Modę czyli wartość dominującą w próbie jest to wartość najczęściej występująca w próbie
Moment centralny l  tego rzędu
( x1  x ) l  ( x2  x ) l  .....  ( xn  x ) l
1 n
l 
  ( xi  x ) l
n
n i 1
Współczynnik asymetrii / skośności /
G3 
3
s3
Jest miarą odstępstwa od symetrii wartości cechy w próbie. Dla
symetryczne względem wartości
G3  0
dane są
x . Gdy G3  0 to antysymetria występuje w lewą
stronę. Gdy G3  0 to antysymetria jest w prawą stronę.
Współczynnik spłaszczenia / eksces /
G4 
4
s4
3
Jest miarą odstępstwa wartości cechy w próbie od rozkładu normalnego w pionie. /
rozkład ten będzie zdefiniowany w dalszej wykładu /. W rozkładzie normalnym
G4  0
i
G3  0 .
Przykład
Badano wpływ preparatu jodowego na nieśność kur. Z populacji kur wybrano grupę
doświadczalną której podano ten preparat. Liczba jaj zniesionych w okresie zimowym była
następująca: 78 , 123 , 70 ,84 ,80.
a). Określić typ danych, elementy populacji generalnej i typ cechy.
b). Obliczyć podstawowe parametry próby.
Ad. a).
Dane próby są nieuporządkowane ponieważ nie możemy utworzyć szeregu rozdzielczego
(n=5<30). Elementem badanej populacji generalnej jest kura której podaje się preparat
jodowy których może w czasie być nieskończenie wiele a więc zbiór badanej populacji
generalnej jest nieskończony. Cecha – liczba jaj zniesionych w okresie zimowym przez kurę z
tej populacji jest typu skokowego (dyskretnego) i wartości jest przeliczalna ilość / nie
możemy wykluczyć 1000 jaj ale z prawdopodobieństwem prawie zerowym lub zerowym /.
Ad. b).
Średnia arytmetyczna
x
x1  x2  ....  xn
78  123  70  84  80

 87
n
5
Wariancja
s2 
( x1  x ) 2  ( x2  x ) 2  ....  ( xn  x ) 2 (78  87) 2  (123  87) 2  (70  87) 2  (84  87) 2  (80  87) 2

 344,8
n
5
Sposób II.
2
2
2
x1  x2  .....  xn
782  1232  702  842  802
2
s 
 x2 
 87 2  344,8
n
5
Odchylenie standardowe
s  s 2  344,8  18,57
Mediana czyli wartość środkowa.
me  80
Pozostałe podane parametry dla tak małej próby nie mają większego znaczeni.