Elementy statystyki opisowej.
Transkrypt
Elementy statystyki opisowej.
//wmii.uwm.edu.pl/~germaniuk adres strony internetowej Literatura. W. Krysicki J. Bartos Rachunek prawdopodobieństwa i statystyka matematyczna w Zadaniach. Część I Rachunek prawdopodobieństwa Część II Statystyka matematyczna Wojciech Kordecki Rachunek prawdopodobieństwa i statystyka matematyczna Definicje, twierdzenia, wzory. Elementy statystyki opisowej. Statystyka matematyczna zajmuje się analizą i opisem dużych zbiorowości i zjawisk masowych przy pomocy metod rachunku prawdopodobieństwa. Badaniu podlega pewien zbiór elementów ze względu na jedną lub więcej cech, który oznaczać będziemy przez Ζ . Zbiór Ζ posiadający przynajmniej jedną cechę wspólną dla wszystkich jego elementów i własność ze względu na którą elementy tego zbioru różnią się między sobą nazywamy populacją generalną. Badaniu mogą podlegać wszystkie elementy zbioru Ζ / badanie kompletne / lub jego część / badanie częściowe /. Badanie kompletnie w większości nie jest możliwe / zbiór jest nieskończony, badanie jest pracochłonne, niszczy badane elementy / dlatego statystyka matematyczna zajmuje się głównie wnioskowaniem o całej zbiorowości na podstawie informacji uzyskanych z pewnego skończonego podzbioru ß zboru Ζ . Ten skończony zbiór będziemy nazywać próbą. Aby próba wiernie reprezentowała populację generalną Ζ to każdy element tej populacji powinien mieć jednakowe prawdopodobieństwo trafienia do próby. Taką próbę nazywamy próbą losową prosta. Badaniu może podlegać jedna cecha lub więcej cech elementów populacji generalnej. Na początek zajmiemy się badaniem jednej cechy. Badane cechy mogą być mierzalne wyrażane za pomocą liczby i niemierzalne / odcień barwy, kolor włosów, płeć, zawód …. /. W praktyce cechą niemierzalnym przyporządkowuje się liczby. Cechy mierzalne mogą być typu ciągłego / wartości cechy mogą przyjąć wszystkie liczby z określonego przedziału / i typu skokowego / wszystkich wartości cechy jest skończona lub przeliczalną ilość /. Statystyka opisowa zajmuje się wstępnym opisem próby bez posługiwania się rachunku prawdopodobieństwa. Szereg rozdzielczy. x1 , x2 , x3 ,............, xn Niech będą wartościami cechy n – elementowej próby. Przy większej liczebności próby (n > 30 ) w celu ułatwienia analizy próbę grupuje się w klasy tj. przedziały najczęściej jednakowej długości przyjmując uproszczenie, że wszystkie wartości należące do klasy mają wartość równą wartości środka przedziału. Następnie oblicza się liczebności przedziałów tzn. liczby - ilość elementów próby które maję wartości cechy z określonego przedziału. Ustalenie tych elementów tworzy szereg rozdzielczy danych próby. Próba nie przedstawiona za pomocą szeregu rozdzielczego nazywamy próbą nieuporządkowaną /danymi nieuporządkowanymi /. Istnieje kilka reguł ustalenia orientacyjnego liczby klas k i długości przedziału. Liczba klas nie może być za mała / traci się szczegóły danych / i nie za duża / traci się przejrzystość danych /. Oblicza się tzw. rozstęp danych R xmax xmin gdzie xmax , xmin jest odpowiednio największą i najmniejszą wartością cechy w próbie. Liczba klas k n lub można odczytać z tabeli Liczba pomiarów n Liczba klas k 30 - 60 6-8 60 - 100 7 - 10 100 - 200 9 - 12 200 - 500 11 - 17 500 - 1500 16 - 25 R h k z nadmiarem tak aby hk R Długość przedziału przyjmuje się 1 Punkty stanowiące granice poszczególnych klas ustala się z dokładnością 2 gdzie jest dokładnością pomiaru wartości cechy w próbie. Po ustaleniu tych elementów tworzy się szereg rozdzielczy próby. Przedziały Klasowe cechy Liczebność klasy Środki klas Częstość cechy w klasie Łamana rozkładu empirycznego ai - bi ni xi (ai bi ) 2 gi ni n wi gi h a1 - b1 a2 - b2 n1 n2 x1 x2 g1 g2 w1 w2 .. .. . . . . . . . . ak - bk nk xk gk wk n n1 n2 ..... nk h bi ai k ai , bi k k gj j 1 j 1 h k k nj j 1 n hw j h g j 1 j liczebność próby długość przedziału klasowego liczba przedziałów klasowych końce i – tego przedziału klasowego k j 1 nj n 1 k ni 1 n j 1 k 1 ni 1 n j 1 Stąd pole zawarte między łamaną łączącą punkty o współrzędnych ( x1 - h 2 , 0) , ( x1 , w1 ) , ……….. , ( xk , wk ) , ( xk h 2 , 0) Analogicznie wartości gi ni n i 1,2,...., k a osią OX jest równe 1 . określają empiryczne wartości prawdopodobieństwa zdarzenia - wartość cechy elementu wylosowanego z populacji generalnej będzie należała do i – tego przedziału klasowego. Wartości te wraz ze wzrostem liczby n do nieskończoności dążą do wartości teoretycznych całej populacji generalnej. Parametry opisowe próby obliczane za pomocą szeregu rozdzielczego. Średnia arytmetyczna x1n1 x2 n2 .... xk nk 1 k xi ni n n i 1 Wartości xi i = 1,2,….,k to środki przedziałów klasowych. Wartość x x w przybliżeniu równa się średniej arytmetycznej z wartości cechy próby nieuporządkowanej. k xmun x xmax Ponadto i wtedy i tyko wtedy gdy od wartości Wariancja x x 0 . Ostania własność jest prawdziwa xi x. i i 1 odejmujemy wartość ( x1 x ) 2 n1 ( x2 x ) 2 n2 ..... ( xk x ) 2 nk 1 k s ( xi x ) 2 ni n n i 1 2 x1 n1 x2 n2 ..... xk nk 1 k 2 2 s x ( xi ni ) x 2 n n i 1 2 2 2 2 Jest to średni rozrzut w kwadracie wartości cechy w próbie względem średniej arytmetycznej x . Odchylenie standardowe s s2 Jest to średni rozrzut wartości cechy w próbie względem średniej arytmetycznej x Mniejsza wariancja i odchylenie standardowe - rozrzut wartości cechy mniejsze a skupienie większe i odwrotnie większa wariancja i odchylenie standardowe - rozrzut wartości cechy większy a skupienie mniejsze. Wariancja i odchylenie jest miarą rozrzutu wartości cechy w próbie względem średniej arytmetycznej x . Mediana czyli wartość środkowa. Z szeregu rozdzielczego wartość środkową cechy oblicza się za pomocą wzoru: me al h n l 1 ( ni ) gdzie indeks nl 2 i 1 l to numer klasy zawierająca wartość środkową próby nieuporządkowanej. Moda czyli dominanta Modę czyli wartość dominującą w próbie z szeregu rozdzielczego oblicza się wzorem: nl nl 1 mo al h gdzie indeks l to numer klasy najliczniejszej. (nl nl 1 ) (nl nl 1 ) Moment centralny l tego rzędu ( x1 x ) l n1 ( x2 x ) l n2 ..... ( xk x ) l nk 1 k l ( xi x ) l ni n n i 1 Współczynnik asymetrii / skośności / G3 3 s3 Jest miarą odstępstwa od symetrii wartości cechy w próbie. Dla symetryczne względem wartości G3 0 dane są x . Gdy G3 0 to antysymetria występuje w lewą stronę. Gdy G3 0 to antysymetria jest w prawą stronę. Współczynnik spłaszczenia / eksces / G4 4 s4 3 Jest miarą odstępstwa wartości cechy w próbie od rozkładu normalnego w pionie. / rozkład ten będzie zdefiniowany w dalszej wykładu /. W rozkładzie normalnym G4 0 i G3 0 . Przykład W badaniu rzeczywistego czasu przebywania cząstek reagentów w reaktorze przepływowym doświadczalnie stosując metodę typu sygnał /odpowiednio dobrana substancja, zwana traserem / -odpowiedz, uzyskano następujące wyniki / w d / 4,6 5,5 5 4,9 3,9 4,3 4,3 3,7 4,5 4,6 4,2 5,3 5,3 3,8 4 4 3,9 2,7 3,3 6,2 5,4 4,5 5,9 8,3 3,3 6 3,8 6,1 3,2 3,9 6,1 4,5 6,2 5,3 5,7 5,1 5,4 6,3 4,7 5,2 4,8 4,4 4,3 6 3,7 3,7 5,1 4,7 5,3 5,7 5,4 6,6 5,5 4,6 5,2 4,6 5,9 4,3 5,3 4,6 4,7 5,3 6,5 3,7 a) Określić populację generalną i rodzaj cechy oraz utworzyć szereg rozdzielczy. b). Podać interpretację danych /utworzyć histogram danych/ c). Obliczyć podstawowe parametry próby / średnią arytmetyczną ,wariancją,…./ Ad a),b)…. Elementem populacji generalnej jest doświadczenie badające rzeczywisty czas przebywania cząstek reagentów w reaktorze przepływowym. Doświadczeń można przeprowadzić nieskończenie wiele a więc populacja jest nieskończona. Cecha – czas przebywania reagentów wyrażona w dniach jest typu ciągłego ponieważ można uzyskać każdą wartość z przedziału np. 2 do 10. Dokładność pomiaru = 0,1 dnia. R xmax xmin = 8,3 - 2,7 = 5,6 . Dla liczby klas k = 7, 8 ,9. R Długość przedziału h 0,8 ; 0,7 ; 0,62 k R Dla k = 6 h 0,9333 a więc decydując się na k = 6 i h 1 mamy najlepsze k przybliżenie z nadmiarem długości przedziału klasowego i przyzwoitą długość. Skrajny lewy koniec przedziału klasowego a1 przyjmujemy 2,5. czas przebywania reagentów /w d / ai 2,5 3,5 4,5 5,5 6,5 7,5 bi liczba środki pomiarów przedziałów ni xi (ai bi ) 2 3,5 4 3 4,5 17 4 5,5 27 5 6,5 13 6 7,5 2 7 8,5 1 8 n = 64 h bi ai długość przedziału klasowego Częstość funkcja przedziału gęstości gi ni n wi gi h 0,063 0,266 0,422 0,203 0,031 0,016 0,06 0,27 0,42 0,20 0,03 0,02 Ad c). czas przebywania regentów / w d / Liczba pomiarów środki przedziałów składniki składniki składniki składniki składniki ai bi ni a bi xi i 2 2,5 3,5 4 3 12 14,77 36 -28,39 54,57 3,5 4,5 17 4 68 14,45 272 -13,32 12,28 4,5 5,5 27 5 135 0,16 675 0,01 0 5,5 6,5 13 6 78 15,11 468 16,29 17,56 6,5 7,5 7,5 8,5 n= 2 1 7 8 14 8 315 8,64 9,47 62,61 98 64 1613 17,95 29,16 21,7 37,3 89,77 211,49 xi ni 64 Średnia arytmetyczna x = Wariancja sp. I s2 = Wariancja sp. II s2 = ( xi x ) ni 2 315 64 62,61 64 1613 4,922 64 ( x i x ) n i ( xi x ) 4 ni 2 3 xi ni = 4,92 / z próby nieuporządkowanej x = 4,89 / = 0,98 / z próby nieuporządkowanej s2 = 0,98 / = 0,98 0,98 Odchylenie standardowe s = = 0,99 Wartość środkowa należy do 3 – go przedziału stąd indeks w wzorze na medianę l = 3 Mediana = 4,5 1 ( 64 (4 7)) = 4,91 me 27 2 Najliczniejszy przedział ma indeks l = 3 stąd 27 17 Moda (dominanta) m0 = 4,5 1 = 4,83 Moment centralny (27 1) (27 13) 3 – go rzędu 3 = 21,7 64 Współczynnik asymetrii / skośności / Moment centralny 4 – go rzędu 4 = Współczynnik spłaszczenia / eksces / = 0,34 G3 3 s 211,49 64 G4 0,34 0,993 = 0,35 = 3,3045 4 s 3 4 3 3,3045 3 0,99 4 = 0,4 Parametry opisowe z próby nieuporządkowanej Niech x1 , x2 , x3 ,............, xn nieuporządkowanej. Średnia arytmetyczna będą wartościami cechy n – elementowej próby x1 x2 .... xn 1 n x xi n n i 1 k xmun x xmax i x i 1 tyko wtedy gdy od wartości xi i x 0 . Ostania własność jest prawdziwa wtedy i odejmujemy wartość x. Wariancja ( x1 x ) 2 ( x2 x ) 2 ..... ( xn x ) 2 1 n s ( xi x ) 2 n n i 1 2 x1 x2 ..... xn 1 n 2 2 s x ( xi ) x 2 n n i 1 2 2 2 2 Jest to średni rozrzut w kwadracie wartości cechy w próbie względem średniej arytmetycznej x . Odchylenie standardowe s s2 Jest to średni rozrzut wartości cechy w próbie względem średniej arytmetycznej x Mniejsza wariancja i odchylenie standardowe - rozrzut wartości cechy mniejsze a skupienie większe i odwrotnie większa wariancja i odchylenie standardowe - rozrzut wartości cechy większy a skupienie mniejsze. Wariancja i odchylenie jest miarą rozrzutu wartości cech w próbie względem średniej arytmetycznej x . Mediana czyli wartość środkowa. Z szeregu rozdzielczego wartość środkową cechy oblicza się za pomocą wzoru: x*n 1 ( 2 ) me x* x* n n ( 1) (2) 2 2 dla n nieparzystego dla n parzystego Gdzie x1* x2* ..... xn* dane próby nieuporządkowanej ustawione w kolejności rosnącej. Moda czyli dominanta Modę czyli wartość dominującą w próbie jest to wartość najczęściej występująca w próbie Moment centralny l tego rzędu ( x1 x ) l ( x2 x ) l ..... ( xn x ) l 1 n l ( xi x ) l n n i 1 Współczynnik asymetrii / skośności / G3 3 s3 Jest miarą odstępstwa od symetrii wartości cechy w próbie. Dla symetryczne względem wartości G3 0 dane są x . Gdy G3 0 to antysymetria występuje w lewą stronę. Gdy G3 0 to antysymetria jest w prawą stronę. Współczynnik spłaszczenia / eksces / G4 4 s4 3 Jest miarą odstępstwa wartości cechy w próbie od rozkładu normalnego w pionie. / rozkład ten będzie zdefiniowany w dalszej wykładu /. W rozkładzie normalnym G4 0 i G3 0 . Przykład Badano wpływ preparatu jodowego na nieśność kur. Z populacji kur wybrano grupę doświadczalną której podano ten preparat. Liczba jaj zniesionych w okresie zimowym była następująca: 78 , 123 , 70 ,84 ,80. a). Określić typ danych, elementy populacji generalnej i typ cechy. b). Obliczyć podstawowe parametry próby. Ad. a). Dane próby są nieuporządkowane ponieważ nie możemy utworzyć szeregu rozdzielczego (n=5<30). Elementem badanej populacji generalnej jest kura której podaje się preparat jodowy których może w czasie być nieskończenie wiele a więc zbiór badanej populacji generalnej jest nieskończony. Cecha – liczba jaj zniesionych w okresie zimowym przez kurę z tej populacji jest typu skokowego (dyskretnego) i wartości jest przeliczalna ilość / nie możemy wykluczyć 1000 jaj ale z prawdopodobieństwem prawie zerowym lub zerowym /. Ad. b). Średnia arytmetyczna x x1 x2 .... xn 78 123 70 84 80 87 n 5 Wariancja s2 ( x1 x ) 2 ( x2 x ) 2 .... ( xn x ) 2 (78 87) 2 (123 87) 2 (70 87) 2 (84 87) 2 (80 87) 2 344,8 n 5 Sposób II. 2 2 2 x1 x2 ..... xn 782 1232 702 842 802 2 s x2 87 2 344,8 n 5 Odchylenie standardowe s s 2 344,8 18,57 Mediana czyli wartość środkowa. me 80 Pozostałe podane parametry dla tak małej próby nie mają większego znaczeni.