636,1 x fx
Transkrypt
636,1 x fx
Statystyka Wydział Zarządzania Politechniki Białostockiej Mikołaj Rybaczuk Politechnika Białostocka Wydział Zarządzania Katedra Informatyki i Logistyki MATERIAŁY DO WYKŁADÓW I ĆWICZEŃ ZE STATYSTYKI Białystok 2003 Statystyka Wydział Zarządzania Politechniki Białostockiej 1. Statystyka – zespół informacji liczbowych dotyczących wybranej grupy zjawisk masowych. Statystyka majątku narodowego, statystyka produkcji, ⇒ sztuka zdobywania informacji. Każdą decyzję poprzedza zebranie informacji. 2. Statystyka – dyscyplina naukowa traktująca o metodach (narzędziach) opisu i wnioskowania o prawidłowościach występujących w procesach masowych. Badanie statystyczne – pozyskiwanie danych, pomiary, zliczanie, analiza i interpretacja danych. Dane a) pierwotne – źródłowe, indywidualne, uzyskane drogą bezpośredniej obserwacji (ankieta, wywiad, eksperyment), b) wtórne – pogrupowane, przetworzone dane pierwotne. Badania statystyczne dotyczą pewnych zbiorowości zwanych populacją generalną lub zbiorowością generalną skończoną lub nieskończoną. Elementy populacji generalnej mają różne właściwości zwane cechami statystycznymi mierzalnymi lub niemierzalnymi. Cechy mierzalne mogą być skokowe lub ciągłe. Badania statystyczne mogą być pełne lub częściowe. Badania częściowe polegają na zbadaniu podzbioru elementów populacji generalnej zwanego próbą. Liczebność próby – liczba elementów populacji wybranych do próby. 2 Statystyka Wydział Zarządzania Politechniki Białostockiej STATYSTYKA OPISOWA Empiryczny rozkład cechy Dane źródłowe (surowe): Zmierzono wzrost 100 kandydatów na zarządzanie i marketing: 185, 190, 175, 165, 183, 169, 181, 174, 183, 175, 178, 179, 173, 169, 184, 181, 179, 182, 177, 176, 179, 182, 179, 185, 182, 178, 184, 186, 169, 180, 180, 180, 174, 175, 177, 173, 182, 172, 175, 185, 190, 171, 178, 190, 165, 176, 178, 171, 178, 179, 180, 172, 191, 173, 185, 175, 175, 177, 174, 181, 188, 178, 179, 173, 182, 185, 173, 180, 179, 180, 185, 178, 174, 177, 169, 173, 181, 172, 175, 175, 170, 182, 174, 174, 178, 181, 169, 187, 173, 182, 165, 176, 181, 175, 175, 176, 178, 174, 182, 188. Min=165, Max=191, średnia arytmetyczna=177.9, średnia geometryczna=177.8, mediana=178, dominanta=175, kwartyl pierwszy=174, kwartyl trzeci=182, wariancja=31.848, odchylenie standardowe=5.643, skośność=0.076, kurtoza=-0.120, suma=17790. Szereg rozdzielczy: Ustalanie liczby klas: k < 5 log n k≈ n k ≈ 1 + 3.3 log n k≤ Szerokość klasy: ≈(xmax–xmin)/k Numer klasy Zakres klasy Liczba Liczebności Częstości Częstości obserwacji skumulow. skumulow. ni 1 2 3 4 5 6 7 [160; 165] (165; 170] (170; 175] (175; 180] (180; 185] (185; 190] (190; 195] n 10 wi 1 7 22 34 25 9 2 1 8 30 64 89 98 100 3 0.01 0.07 0.22 0.34 0.25 0.09 0.02 0.01 0.08 0.30 0.64 0.89 0.98 1.00 Statystyka Wydział Zarządzania Politechniki Białostockiej 4 Statystyka Wydział Zarządzania Politechniki Białostockiej Miary położenia rozkładu: Średnia arytmetyczna: a) gdy dysponujemy n indywidualnymi obserwacjami: x 1 = n n ∑ xi i =1 b) gdy dysponujemy szeregiem rozdzielczym liczebności z k przedziałami: k x= 1 ∑ xˆ i n i 1 i = n c) gdy dysponujemy szeregiem rozdzielczym częstości z k przedziałami: x = k ∑ xˆ i w i , gdzie i =1 Numer Zakres klasy klasy 1 2 3 4 5 6 7 Liczba obserwacji [160; 165] (165; 170] (170; 175] (175; 180] (180; 185] (185; 190] (190; 195] Środek klasy ni xˆ 1 7 22 34 25 9 2 162.5 167.5 172.5 177.5 182.5 187.5 192.5 i 7 ∑ xˆ i wi = 17800 Średnia geometryczna: x g = n 5 2 n xˆ n wi i 162.5 1172.5 3795 6035 4562.5 1687.5 385 0.01 0.07 0.22 0.34 0.25 0.09 0.20 1 17800 = 178 100 x ⋅x ! x ! x 1 ni Częstości i x= i =1 wi = i n Statystyka Wydział Zarządzania Politechniki Białostockiej Średnia harmoniczna: Stosuje się wtedy, gdy wartości cechy podane są w przeliczeniu na stałą jednostkę innej cechy (wskaźniki natężenia), wagi natomiast w jednostkach liczników tych cech – np.: prędkość pojazdu w km/h (wi – km), pracochłonność w min/szt. (wi – czas w min.), gęstość zaludnienia (wi – osoby), spożycie w kg/osobę (wi – kg), cena jednostkowa w zł/szt. (wi – zł). x H = dla szeregu rozdzielczego H = w ∑ x i =1 i =1 x H = ∑n ∑n x W = , gdzie k 1 ∑ i =1 k i =1 W przypadku stosowania wag x n i k x W n i i k ∑w i =1 i i i w i = x n i Mediana: a) gdy dysponujemy n indywidualnymi obserwacjami – jest to wartość cechy, która dzieli obserwacje na tyle samo mniejszych i większych od niej. b) gdy dysponujemy szeregiem rozdzielczym liczebności: gdzie: n hm me = x 0m + − n ( x 0m ) 2 nm x 0m − dolna granica przedziału, w którym znajduje się n ( x 0m ) hm, nm − − wartość mediany, suma liczebności wszystkich przedziałów klasowych poprzedzających przedział mediany, odpowiednio: rozpiętość i liczebność przedziału mediany. 6 i i Statystyka Wydział Zarządzania Politechniki Białostockiej c) gdy dysponujemy szeregiem rozdzielczym częstości: 1 hm me = x 0m + − F n ( x 0m ) 2 wm x 0m − F n ( x 0m ) − skumulowana częstość względna dla dolnej granicy przedziału mediany, hm, w m − odpowiednio: rozpiętość i częstość przedziału mediany. gdzie: dolna granica przedziału, w którym znajduje się wartość mediany, Dominanta: d) gdy dysponujemy n indywidualnymi obserwacjami – jest to wartość cechy, która występuje najczęściej. e) gdy dysponujemy szeregiem rozdzielczym liczebności: do = x0d + gdzie: nd − nd − 1 hd (nd − nd − 1) + (nd − nd + 1) x 0 d − dolna granica przedziału dominującego, nd − n d −1 − liczebność przedziału dominującego, liczebność przedziału poprzedzającego dominujący, n d +1 − liczebność przedziału następnego po dominującym, h d − rozpiętość przedziału dominującego. 7 Statystyka Wydział Zarządzania Politechniki Białostockiej Kwantyle: Kwantylem rzędu p (0<p<1) w rozkładzie empirycznym nazywamy taką wartość cechy kp., dla której (jako pierwszej) dystrybuanta empiryczna spełnia warunek: F n( k p ) ≥ p gdzie: x0p − Fn ( x 0p ) − hp, wp − [ ]h k p = x0 p + p − Fn (x0 p) p w p dolna granica przedziału, w którym znajduje się wartość kwantyla rzędu p, skumulowana częstość względna dla dolnej granicy przedziału kwantyla rzędu p, odpowiednio: rozpiętość i częstość przedziału kwantyla rzędu p. Szczególne kwantyle: − centyle (percentyle – P1, P2, ..., P99), − decyle (D1, D2, ..., D9), − kwartyle (Q1 [pierwszy, dolny], Q2 [mediana], Q3 [trzeci, górny]). 8 Statystyka Wydział Zarządzania Politechniki Białostockiej Miary zróżnicowania (rozrzutu) cechy: Rozstęp: różnica między największą i najmniejszą wartością cechy. Rozstęp (przedział) ćwiartkowy: różnica między kwartylami Q3 i Q1. Odchylenie ćwiartkowe: połowa rozstępu ćwiartkowego, czyli Q= Q −Q 2 3 1 Wariancja: a) gdy dysponujemy n indywidualnymi obserwacjami: 2 s 2 ŝ 1 n 2 2 = ∑(x − x)2 = x − x n i =1 i 1 n 2 x ) = − ( x ∑ n −1 i=1 i 2 ŝ n 2 = S n −1 b) gdy dysponujemy szeregiem rozdzielczym liczebności z k przedziałami: ŝ 2 k 1 = ∑ n − 1 i =1 ( x̂ i − x ) 2 n i c) gdy dysponujemy szeregiem rozdzielczym częstości z k przedziałami: s 2 k = ∑ (x̂ − x) 2 i i =1 Odchylenie standardowe: Współczynnik zmienności: s wi gdzie = 2 s lub n i = wi ŝ n = s V = ⋅ 100 % x 9 ŝ 2 Statystyka Wydział Zarządzania Politechniki Białostockiej Asymetria rozkładu empirycznego Miarą stopnia i kierunku asymetrii jest współczynnik asymetrii A otrzymany w wyniku podzielenia momentu trzeciego stopnia przez odchylenie standardowe do potęgi trzeciej. A= M 3 s ' 3 1 n gdzie dla danych źródłowych M ' = 3 3 ( x i − x) ∑ n i =1 lub dla danych pogrupowanych w szereg rozdzielczy 1 k 3 x ) = − x̂ ( M3 n ∑ ni i i =1 ' Współczynnik skośności: ze względu na łatwość obliczeń jest częściej stosowany (w przypadku skrajnej asymetrii przekracza 1 co do wartości bezwzględnej): x − do A1 = s Pozycyjny współczynnik asymetrii: A 2 = (Q 3 − me)− (me− Q 1 ) 2Q gdzie Q jest odchyleniem ćwiartkowym. 10 Statystyka Wydział Zarządzania Politechniki Białostockiej 24 22 22 20 20 18 Liczba obserwacji 16 13 14 12 12 11 10 8 8 6 6 3 4 2 0 0 0 2 1 400 200 800 600 1200 1000 1600 1400 0 2000 1800 2 2200 2400 2800 2600 3000 Liczba obs. Histogram (Rozk l_na_cw.sta 16v*100c) 24 22 20 18 16 14 12 10 8 6 4 2 0 22 15 12 8 4 0 11 10 9 5 3 1 0 <= 680 (700;720] (740;760] (780;800] (820;840] (860;880] > 900 (680;700] (720;740] (760;780] (800;820] (840;860] (880;900] ZEST_11 Liczba obs. Histogram (Rozk l_na_cw.sta 16v*100c) 24 22 20 18 16 14 12 10 8 6 4 2 0 22 15 10 12 11 9 8 5 3 4 1 0 0 <= 500 (520;540] (560;580] (600;620] (640;660] (680;700] > 720 (500;520] (540;560] (580;600] (620;640] (660;680] (700;720] ZES T_11A 11 Statystyka Wydział Zarządzania Politechniki Białostockiej Koncentracja wartości cechy – nierównomierne rozdysponowanie łącznej sumy wartości cechy w badanej zbiorowości pomiędzy jednostki tworzące tę zbiorowość (skrajny przypadek – całą sumą wartości cechy dysponuje tylko jedna jednostka zbiorowości). Współczynnik koncentracji – miara skupienia (kurtozy) k = 1 n k ( ) 4 ∑ x i− x n s i =1 i 4 Stanowi on podstawę do obliczenia współczynnika ekscesu – relatywna ocena stopnia spłaszczenia: − g<0 – większe rozproszenie, − g>0 – mniejsze rozproszenie względem krzywej standardowej, dla której k=3. g = k −3 12 Statystyka Wydział Zarządzania Politechniki Białostockiej Współczynnik Giniego – miara koncentracji (0 – brak koncentracji, 1 – zupełna koncentracja) K = 2T = 1− 2P Skumulowane częstości wartości cechy Znaczenie K i P na rysunku. 1 0.9 Krzywa Lorentza 0.8 Linia równomiernego rozdziału 0.7 0.6 0.5 0.4 T 0.3 0.2 G 0.1 0 G G ' ' i P i −1 w i i −1 G i Skumulowane częstości jednostek zi = ' G i −1 = G i −1 = i −1 ∑w j =1 j i −1 ∑z j =1 G i ' = Gi j = xi ni k ∑ xj j =1 i ∑w j =1 13 j i ∑z j =1 j w = G −G i i i −1 Statystyka Wydział Zarządzania Politechniki Białostockiej Obliczenia dla szeregu rozdzielczego ze str. 3. i Częstość Częstość Skumulowana i studentów wzrostu częstość wzrostu i −1 + i ∑ zj ∑ zj wi zi j =1 j =1 ∑z j =1 1 1 2 3 4 5 6 7 Razem 2 0,01 0,07 0,22 0,34 0,25 0,09 0,02 1,00 3 0,00913 0,06587 0,21320 0,33904 0,25632 0,09480 0,02164 1,00000 zi = 4 0,00913 0,07500 0,28820 0,62724 0,88356 0,97836 1,00000 – 5 0,00913 0,08413 0,36320 0,91544 1,51080 1,86192 1,97836 – suma wzrostu w klasie suma wzrostu ogólem K=1-0,98197=0,01803 14 (2)*(5) j 6 0,00009 0,00589 0,07990 0,31125 0,37770 0,16757 0,03957 0,97197 Statystyka Wydział Zarządzania Politechniki Białostockiej Miary indeksowe dynamiki szeregu czasowego Mierniki dynamiki zjawisk Miary dynam iki Przyrosty Absolutne jednopodstawowe łańcuchowe W zględne jednopodstawowe łańcuchowe Indeksy dynam iki Indywidualne jednopodstawowe łańcuchowe Agregatowe (zespołowe) jednopodstawowe łańcuchowe 15 Statystyka Wydział Zarządzania Politechniki Białostockiej Miary dynamiki jednopodstawowe (o stałej podstawie) służą do kreślenia zmian, jakie nastąpiły w kolejnych okresach względem okresu przyjętego jako podstawowy – podstawowego (t*=1) lub innego wyróżnionego (t*=k). Miary dynamiki o podstawie ruchomej (łańcuchowe) służą do oceny zmian, jakie nastąpiły w kolejnych okresach względem okresu poprzedniego (t*=t-1). Przyrosty a) absolutne – obliczane w stosunku do jednego okresu: – t*=1 y2-y1, y3-y1, ..., yn-1-y1, yn-y1; – t*=k y1-yk, y2-yk, ..., yn-1-yk, yn-yk; ∆t/k=yt-yk, t=1,2,...,n; b) absolutne – obliczane w stosunku do stale zmieniającego się okresu bazowego: – y2-y1, y3-y2, ..., yn-1-yn-2, yn-yn-1; ∆t/t-1=yt-yt-1, t=1,2,...,n. c) względne (wskaźniki tempa wzrostu) – stosunek przyrostu absolutnego zjawiska do jego poziomu w okresie bazowym: – postać jednopodstawowa: ∆t / k = y t − y k ; t = 1, 2, ! , n = dt/k y y k k – postać łańcuchowa: d y−y ∆ ; = = y y t / t −1 t / t −1 t −1 t t −1 t = 2, 3,!, n t −1 Przyrosty względne pomnożone przez 100 nazywane są tempem zmian (przyrostu lub obniżki). 16 Statystyka Wydział Zarządzania Politechniki Białostockiej Indywidualne indeksy dynamiki Indeksy dynamiki – mierniki określające stosunek wielkości zjawiska w dwóch różnych okresach. Indeksy indywidualne dynamiki – dotyczą zjawisk opisanych pojedynczym szeregiem czasowym. – postać jednopodstawowa: yn = = 1 + d n /1 ; in /1 y y = =1+ d y 1 – postać łańcuchowa: i n n / n −1 Indeksy na ogół wyrażamy w procentach. n / n −1 . n −1 Przykład Zanotowano ceny akcji Banku Rozwoju Eksportu w dniach 11-25 lipca 1994 roku. Obliczyć i zinterpretować przyrosty bezwzględne i względne oraz indeksy indywidualne. Przyrosty absolutne Przyrosty względne (w %) Indeksy (w %) Cena Nr jednojednoakcji jednołańcułańcułańcuokresu (zł) podstapodstapodsta- t 1 2 3 4 5 6 7 8 9 yt 32.3 32 32.9 34.6 38 41.8 44.9 42.2 38.6 wowe ∆t/1 0.0 -0.3 0.6 2.3 5.7 9.5 12.6 9.9 6.3 chowe wowe ∆t/t-1 dt/1⋅100 dt/t-1⋅100 0.0 -0.3 -0,93 -0.93 0.9 1.86 2.81 1.7 7.12 5.17 3.4 17.65 9.83 3.8 29.41 10.00 3.1 39.01 7.42 -2.7 30.65 -6.01 -3.6 19.50 -8.53 chowe 17 wowe it/1⋅100 100.00 99.09 101.86 107.12 117.65 129.41 139.01 130.65 119.50 chowe it/t-1⋅100 99.07 102.81 105.17 109.83 110.00 107.42 93.99 91.47 Statystyka Wydział Zarządzania Politechniki Białostockiej Definicja średniej geometrycznej: x = x ⋅x ⋅ ! ⋅x G n 1 2 n Średnie tempo zmian zjawiska w czasie wyznacza się za pomocą średniej geometrycznej indeksów łańcuchowych: i = i ⋅ in−1/ n−2 ⋅ ! ⋅ i2 /1 = n−1 in /1 lub w postaci logarytmicznej: G n −1 n / n −1 1 n 1 log iG = = ∑ it / t −1 n − 1 log in /1 n − 1 t =1 Średniookresowe tempo zmian (stopa wzrostu) w badanych okresach: r = T n = iG − 1 lub w procentach: T [%] = i ⋅ 100 − 100 n G Średnie tempo zmian ma wadę polegającą na pomijaniu wartości zawartych między wyrazami skrajnymi szeregu czasowego. Jeżeli założymy, że średnie tempo jest stałe we wszystkich badanych okresach, to wielkość zjawiska w momencie n można wyznaczyć znając początkową wartość zjawiska (y0) z wzoru: yn = y0 (1+ r ) n Ostatnie wyrażenie może być wykorzystane do określenia przyszłej wartości pieniądza przy stałej stopie procentowej – np. wartości zainwestowanego kapitału po n latach przy założeniu rocznej kapitalizacji odsetek. Indeksy indywidualne są szeroko stosowane w analizach ekonomicznych. Szczególne znaczenie mają indeksy ilości, cen i wartości różnych produktów (stosunek okresu n do bazowego). 18 Statystyka Wydział Zarządzania Politechniki Białostockiej pn - indeks cen p0 qn = iq q - indeks iloślo 0 w iw = n - indeks wartośwa w0 (pn, p0 – ceny artykułu) ip = (qn, q0 – ilości artykułu) (wn, w0 – wartości artykułu) Agregatowe indeksy dynamiki wartości absolutnych – indeksy dynamiki zespołu zjawisk Przykład Student w przerwie między zajęciami zjada posiłek składający się z kanapki, soku, ciastka i kawy. Koszt takiego posiłku w czerwcu w stosunku do stycznia uległ zmianie: Ceny Lp. Indeks cen styczeń Czerwiec Rodzaj j p0j pnj ipj=pnj/p0j 1 Kanapka 1.0 1.2 1.20 Sok 0.8 1.0 1,25 2 3 Ciastko 0.4 0.8 2,00 4 Kawa 0.4 1.0 2.50 Razem 2.6 4.0 6.95 Indywidualny indeks zestawu obliczamy ze wzoru: 4 4 ∑p 40 = = = 1.538; ip ∑ p0 j 26 j =1 4 nj ip = ∑i j =1 4 pj = 6.95 = 1.73 4 j =1 Koszt posiłku wzrósł o 53.8%. Średnio ceny składników wzrosły o 73%. Wysoki wzrost cen tańszych składników posiłku spowodował wyższy wzrost średniego indeksu cen. 19 Statystyka Wydział Zarządzania Politechniki Białostockiej Przykład W ciągu miesiąca student wypija przeciętnie 15 filiżanek kawy, 5 opakowań soku, zjada 10 kanapek i 5 ciastek. Rodzaj pnj q0j pnj/p0j p0jq0j pnjq0j j p0j 1 Kanapka 1.0 1.2 10 1.20 10 12 2 Sok 0.8 1.0 5 1,25 4 5 3 Ciastko 0.4 0.8 5 2,00 2 4 4 Kawa 0.4 1.0 15 2.50 6 15 Razem 2.6 4.0 6.95 22 36 Ilości składników traktujemy jako wagi. Agregatowy indeks cen formuły Laspeyresa: k LI p = ∑p q nj j =1 k 0j ∑p q 0j j =1 = 36 = 1.636 22 0j Wzrost cen spowodował wzrost wydatków przeciętnego studenta o 63.6%. Przykład Załóżmy, że w badanym okresie nastąpiła zmiana cen oraz zmiana struktury spożywanych składników: j Rodzaj p0j pnj q0j qnj p0jq0j pnjq0j p0jqnj pnjqnj 1 Kanapka 1.0 1.2 10 10 10 12 10.0 12.0 2 Sok 0.8 1.0 5 10 4 5 8.0 10.0 3 Ciastko 0.4 0.8 5 8 2 4 3.2 6.4 4 Kawa 0.4 1.0 15 8 6 15 3.2 8.0 Razem 2.6 4.0 22 36 24.4 36.4 Agregatowy indeks cen formuły Paaschego: k PI p = ∑p q j =1 k nj nj ∑p q j =1 0j = 36.4 = 1.492 24.4 nj Na skutek zmian cen wydatki wzrosły o 49.2%. 20 Statystyka Wydział Zarządzania Politechniki Białostockiej Agregatowe indeksy cen obrazują dynamikę zmian wartości zespołu badanych jednostek (w przykładach składniki posiłku) na skutek zmiany cen. Indeks cen formuły Laspeyresa jest średnią arytmetyczną wartości indywidualnych indeksów cen, zaś indeks cen formuły Paaschego jest średnią harmoniczną wartości indywidualnych. Definicja średniej harmonicznej: n ∑w gdzie w - wagi x = 1 , lub x = ∑ ∑w x x 1 H H n i =1 i i =1 i n i i =1 i i Agregatowy indeks ilości formuły Laspeyresa: k LI q = ∑p q j =1 k 0j ∑p q j =1 0j nj 24.4 = 1.109 22 = 0j Agregatowy indeks ilości formuły Paaschego: k PI q = ∑p q j =1 k nj ∑p q j =1 nj nj 36.4 = 1.01 36 = 0j Agregatowe indeksy ilości obrazują zmiany wartości zespołu jednostek (w przykładach - składników posiłku) na skutek zmiany ilości. Agregatowy indeks wartości – określa jak zmienił się koszt w badanych okresach ze względu na zmiany cen i ilości łącznie: k Iw = ∑p q nj ∑p q 0j j =1 k j =1 Równość indeksowa: nj 0j = 36.4 = 1.655 22 I = I ⋅I = I ⋅I w 21 P p L q P q L p Statystyka Wydział Zarządzania Politechniki Białostockiej Agregatowe indeksy dynamiki wielkości stosunkowych Obliczane są dla wskaźników natężenia (kształtowanie się jednego zjawiska na tle innego – iloraz). Załóżmy, że między badanymi wielkościami zachodzą zależności: j = 1, 2, ..., k yj = xj ; z j Porównując ilorazy w dwóch okresach otrzymujemy indywidualny indeks wielkości stosunkowych: x x i = : ; z z nj 0j nj 0j j = 1, 2, ..., k jn , 0 oraz indeks wszechstronny (wyraża zmiany w ogólnym poziomie zmiennej y , które są spowodowane równocześnie zmianami cząstkowych poziomów zmiennych x i z): Iy = (z) ∑x ∑x j =1 k ∑z j =1 nj nj : j =1 k ∑z j =1 0j k k k k = 0j ∑y z nj j =1 k ∑z j =1 nj 0j : ∑y z 0j j =1 k ∑z j =1 0j 0j = y y n 0 Przykład Dysponujemy danymi o funduszu płac i zatrudnieniu w dwóch zakładach przedsiębiorstwa. Przeanalizować dynamikę przeciętnych płac w dwóch okresach mając dane: Okres podstawowy Okres badany Fundusz Zatrud- Przeciętna Fundusz Zatrud- Przeciętna Zakład płac nienie płaca płac nienie płaca (mln zł) (mln zł) (mln zł) (mln zł) x0j z0j y0j= x0j/z0j xnj znj ynj= xnj/znj I 240 60 4 336 70 4.8 II 20 10 2 300 120 2.5 y =3.71 y =3.35 Razem 260 70 636 190 0 n 22 Statystyka Wydział Zarządzania Politechniki Białostockiej Wszechstronny indeks przeciętnej płacy wyznaczony z powyższych wzorów wynosi 0.9 – spadek dynamiki przeciętnych płac w całym przedsiębiorstwie o 10%. W zakładzie I nastąpił wzrost przeciętnej płacy o 20% (4.8/4=1.2), w zakładzie II – o 25% (2.5/2=1.25). Indeksy o stałej strukturze eliminujące wpływ zmian w strukturze agregatu: a) Laspeyresa k LI y = (s) ∑y z nj j =1 k 0j ∑y z 0j j =1 = 313 = 1.204 260 = 636 = 1.223 520 0j b) Paaschego k PI y = (s) ∑y z j =1 k nj nj ∑y z 0j j =1 nj Wniosek: Przy założeniu stałego poziomu i struktury zatrudnienia z okresu podstawowego (indeks formuły Laspeyresa) płaca w przedsiębiorstwie wzrosłaby w okresie badanym w stosunku do podstawowego o 20.4%. Gdyby przyjąć niezmienne zatrudnienie, ale z okresu badanego (indeks Paaschego), wzrost ten wynosiłby 22.3%. Indeksy wpływu zmian strukturalnych: c) Laspeyresa k k L I = w. s . ∑y z ∑y z nj 0j j =1 k ∑z j =1 nj : 0j j =1 k ∑z j =1 0j (z) 520 260 : = I = = 0.737 190 70 I y (s) 0j P 23 y Statystyka Wydział Zarządzania Politechniki Białostockiej d) Paaschego k k PI w . s . = ∑y z ∑y z nj nj j =1 k ∑z j =1 nj : nj j =1 k ∑z j =1 0j 0j (z) 636 313 : = I y( s ) = = 0.749 190 70 LI y Wniosek: Gdyby przyjąć średnie płace w obu zakładach na poziomie okresu podstawowego, to ogólna przeciętna płaca w przedsiębiorstwie w okresie badanym w stosunku do podstawowego byłaby niższa o 26.3% na skutek zmian w strukturze zatrudnienia. Gdyby przyjąć średnie płace z okresu badanego – spadek wynosiłby 25.1%. Przykładami indeksów agregatowych są indeksy giełdowe oraz indeksy kosztów utrzymania i inflacji (w oparciu o które oblicza się płacę minimalną, zasiłek dla bezrobotnych, wielkości emerytur i rent) 24 Statystyka Wydział Zarządzania Politechniki Białostockiej Zmienne losowe i ich rozkłady Zmienne losowe skokowe (dyskretne) i ciągłe Rozkład zmiennej losowej skokowej stanowi zbiór par (xi,pi) dla i=1,2,...,n, gdzie xi – wartości zmiennej losowej, pi – prawdopodobieńtwa, z jakimi wartości te są przyjmowane. Zapisujemy to: n i=1, 2,..., n, P{X=xi}=pi, ∑ pi = 1 i =1 Rozkład zmiennej losowej ciągłej określa funkcja gęstości f(x) określona na zbiorze liczb rzeczywistych o następujących własnościach: 10. f(x)≥0 ∞ 20. ∫ f ( x)dx =P{−∞ < X ≤ ∞} = 1. -∞ Druga własność oznacza, że pole między wykresem funkcji f(x) a osią OX jest dokładnie równe 1. Funkcja gêstoœci prawdopodobieñstwa y=normal(x;0;1) 0,45 0,40 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0,00 -3,50 -1,75 a 0,00 b 1,75 3,50 Dla dowolnych a<b prawdopodobieństwo, że zmienna losowa osiągnie wartości z przedziału [a; b] wynosi (na rysunku – pole nad tym odcinkiem): b ∫ f ( x)dx =P{a < X ≤ b} a 25 Statystyka Wydział Zarządzania Politechniki Białostockiej Dystrybuantą zmiennej losowej X nazywamy funkcję zdefiniowaną następująco: F(x)=P{X≤x}. Własności dystrybuanty: a) 0≤F(x)≤1 b) F(x) jest funkcją niemalejącą c) F(x) jest funkcją przynajmniej prawostronnie ciągłą d) lim F ( x ) = 0 lim F ( x) = 1 oraz x →−∞ x →∞ Dystrybuantą zmiennej losowej skokowej nazywamy funkcję określoną wzorem: F ( x) = ∑p xi ≤ x i Dystrybuantą zmiennej losowej ciągłej nazywamy funkcję określoną wzorem: x F ( x) = ∫ f ( x)dx −∞ Wartość oczekiwana zmiennej losowej jest określona za pomocą jednego ze wzorów: a) skokowej n E ( X ) = ∑ xi i =1 b) ciągłej p ∞ E ( X ) = ∑ xi lub i E( X ) = i =1 ∞ p i ∫ xf ( x)dx −∞ Wariancja zmiennej losowej jest określona wzorem: a) skokowej n 2 2 ( ) X = ( ( )) E X p − ∑ xi D i i =1 lub D 2 n ( X ) = ∑ xi i =1 26 2 p i − ( E ( X )) 2 Statystyka Wydział Zarządzania Politechniki Białostockiej b) ciągłej lub D 2 D (X ) = ∞ 2 ( ) x E X f ( x)dx − [ ] ∫ −∞ 2 (X ) = ∞ ∫ x 2 f ( x)dx - ( E(X)) −∞ Odchylenie standardowe: 2 σ= D (X ) 27 2 Statystyka Wydział Zarządzania Politechniki Białostockiej Wybrane rozkłady dyskretne Rozkład zero-jedynkowy P{X=1}=p P{X=0}=q=1-p E(X)=1⋅p+0⋅q=p D (X)=(1-p)2⋅p+(0-p)2⋅q=pq 2 Rozkład dwumianowy (binomialny) k n−k n k n−k n! P{X = k } = p q = pq k!(n − k )! k gdzie k=0, 1, 2,..., n oraz q=1-p. D2(X)=npq E(X)=np Przykład: Zmienną losową zdefiniowano jako liczbę wyrzuconych orłów przy pięciokrotnym rzucie monetą. P{X=0}=0.03125 P{X=1}=0.15625 P{X=2}=0.31250 P{X=3}=0.31250 P{X=4}=0.15625 P{X=5}=0.03125 Rozkład Poissona k λ P{X = k } = e− λ k! D2(X)=m E(X)=m=λ 28 Statystyka Wydział Zarządzania Politechniki Białostockiej Przykład: W pewnym przedsiębiorstwie zaobserwowano, że w ciągu miesiąca zdarzają się średnio 2 wypadki (m=2) i że rozkład liczby wypadków może być opisany za pomocą rozkładu Poissona. P{X=0}=0.135 P{X=1}=0.271 P{X=2}=0.271 P{X=3}=0.180 P{X=4}=0.090 29 Statystyka Wydział Zarządzania Politechniki Białostockiej Wybrane rozkłady ciągłej zmiennej losowej Rozkład jednostajny Rozkład normalny Funkcja gęstości rozkładu: Rozkład normalny posiada następującą funkcję gęstości: ( x − m) e 2σ 2 2 f ( x) = 1 σ 2π gdzie -∞ < x < +∞ m parametr jest szacowany średnią arytmetyczną σ>0 jest odchyleniem standardowym szacowany za pomocą s. e jest stałą Eulera (2.71...) π = pi (3.1415...) 0.8 N(5,0.5) 0.6 0.4 N(3,1) N(5,1) 0.2 N(3,2) 0.0 -2 -1 0 1 2 3 x 30 4 5 6 7 Statystyka Wydział Zarządzania Politechniki Białostockiej Standaryzacja: U= X −m σ N (m,σ ) → N (0,1) Częstości względne Rozkład wzrostu studentek II roku ZiM PB (rok akademicki 1997/98) 0.20 0.18 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 145 P{165<X<175}=0.574 N(166.6,5.08) 150 155 160 165 170 175 180 185 Wzrost (X) Częstości względne Dystrybuanta wzrostu studentek II roku ZiM PB (rok akademicki 1997/98) 1.0 0.950 0.9 0.8 0.7 0.6 0.5 0.376 0.4 0.3 0.2 N(166.6,5.08) 0.1 0.0 145 150 155 160 165 Wzrost 31 170 175 180 185 Statystyka Wydział Zarządzania Politechniki Białostockiej Funkcja gęstości prawdopodobieństwa N(100,10) 0.05 Prawo trzech sigma: 0.04 P{m-1σ<X<m+1σ}=0.6827 P{m-2σ<X<m+2σ}=0.9545 P{m-3σ<X<m+3σ}=0.9973 0.03 0.6827 0.02 0.9545 0.01 0.9973 0.00 70 80 90 100 110 120 130 Rozkład χ2 (Chi-kwadrat) Rozkładem χ2 z ν stopniami swobody nazywamy rozkład następującej sumy: 2 2 2 U 1 +U 2 + ! +U ν gzie U1, U2,…,Uν są niezależnymi zmiennymi losowymi o rozkładzie normalnym N(0,1). Funkcja gęstości rozkładu: Rozkład χ2 posiada następującą funkcję gęstości: 1 2 f (χ ) = ν 2 2 ν ⋅ Γ 2 ν 2 2 −1 ⋅ (χ ) 32 χ − ⋅e 2 2 Statystyka Wydział Zarządzania Politechniki Białostockiej χ2 > 0, ν = n-1, n = 1, 2, ... gdzie n e Γ jest liczbą stopni swobody jest stałą Eulera (2.71...) (gamma) jest funkcją Gamma (z argumentem α) Rozkład Chi2 0.175 2 P{Chi <12.55}=0.972 0.131 n=5 2 P{Chi <12.55}=0.75 0.087 0.044 0.000 0.00 n=10 6.25 12.50 Chi 18.75 25.00 2 Rozkład t (Studenta) Rozkładem Studenta z ν stopniami swobody nazywamy rozkład przwdopodobieństwa zmiennej losowej t określonej następująco: t= U χ 2 ν ν 33 Statystyka Wydział Zarządzania Politechniki Białostockiej gdzie U i χ są niezależnymi zmiennymi losowymi, U ma rozkład normalny N(0,1) a χ ma rozkład Chi-kwadrat z ν stopniami swobody. 2 ν 2 ν Funkcja gęstości rozkładu: Rozkład t-Studenta posiada następującą funkcję gęstości (dla n = 1, 2, . . .): ν +1 ) Γ( 2 t 2 f (t ) = 1+ ν ν νπ Γ( ) 2 ( ) v +1 − 2 gdzie -∞<t<+∞, ν = n-1 n jest parametrem kształtu - liczbą stopni swobody Γ (gamma) jest funkcją Gamma π jest stałą Pi (3.1415 . . .). Rozkład t-Studenta 0.4 P{t<1}=0.83 0.3 n=10 0.2 n=1 P{t<1}=0.75 0.1 0.0 -3 -2 -1 0 t 34 1 2 3 Statystyka Wydział Zarządzania Politechniki Białostockiej Rozkład F Snedecora Rozkładem Snedecora ze stopniami swobody (r1,r2) nazywamy rozkład prawdopodobieństwa ilorazu: 1 Fr r , 1 2 = r 1 1 r 2 χr 1 χr 2 2 2 gdzie χ r χ r są niezależnymi zmiennymi losowymi mający mi rozkład Chi2 odpowiednio z r1 i r2 stopniami swobody. 2 , 1 2 2 Funkcja gęstości rozkładu Snedecora 1.0 0.8 F28,16 0.6 0.4 F4,10 0.2 0.0 0 1 2 3 F 35 4 5 6 Statystyka Wydział Zarządzania Politechniki Białostockiej Rozkład logarytmiczno-normalny Funkcja gęstości rozkładu: Rozkład Lognormalny posiada następującą funkcję gęstości:: f ( y) = 1 e yσ 2π − (ln y − µ ) 2 2σ 2 y>0, µ > 0, σ > 0 gdzie µ jest parametrem skali σ jest parametrem kształtu e jest stałą Eulera (2.71...) π = pi (3.1415...) µ− E (Y ) = e D 2 1 2 σ 2 σ σ − 1 e 2µ + (Y ) = e 2 2 Zmienna losowa X=ln Y ma rozkład normalny N(µ,σ), więc P{a≤Y≤b}=P{ln a≤X≤ ln b}. Przykład: P{2≤Y≤5}=P{ln 2≤X≤ ln 5} obliczamy korzystając z rozkładu normalnego N(0,1) dokonując wcześniej ewentualnej standaryzacji. 36 Statystyka Wydział Zarządzania Politechniki Białostockiej Rozkład logarytmiczno-normalny 1.0 0.8 LN(1,0.5) 0.6 0.4 LN(0,0.5) 0.2 0.0 0 1 2 3 4 37 5 6 7 8 Statystyka Wydział Zarządzania Politechniki Białostockiej PRAWA WIELKICH LICZB Prawo wielkich liczb Bernouliego Ciąg zmiennych losowych {Xn} o rozkładach określonych wzorem (rozkład dwumianowy): n k n−k k P{ X n = } = p q n k jest zbieżny stochastycznie do wartości p. (prawdopodobieństwa sukcesu), tzn. k lim P{| − p |< ε } = 1 n→∞ n Sens zbieżności stochastycznej: wraz ze wzrostem n maleje prawdopodobieństwo występowania dużych różnic między zaobserwowaną częstością k/n a prawdopodobieństwem p. Nie oznacza ona, że granicą tej częstości jest p, czyli k . lim = p n →∞ n Prawo wielkich liczb Czebyszewa Jeżeli dla ciągu zmiennych losowych {Xk} (k=1,2,...), z których każda ma skończoną wartość oczekiwaną E(Xk) oraz wariancję D2(Xk) jest spełniony warunek 2 lim D ( X k ) = 0 , k →∞ to ciąg ten jest zbieżny stochastycznie do wartości oczekiwanej E(Xk), tzn. lim P{| X k − E ( X k ) |< ε } = 1 k →∞ 38 Statystyka Wydział Zarządzania Politechniki Białostockiej TWIERDZENIA GRANICZNE Twierdzenie Moivre’a-Laplace’a Niech Xn będzie zmienną losową o rozkładzie dwumianowym z liczbą doświadczeń n i prawdopodobieństwem sukcesu p w każdym doświadczeniu oraz niech X będzie zmienną losową o rozkładzie normalnym N(np, npq ). Oznaczmy przez Fn(x) wartość dystrybuanty zmiennej losowej Xn w punkcie x i przez F(x) wartość dystrybuanty zmiennej losowej X w punkcie x. Między dystrybuantami Fn(x) i F(x) zachodzi związek: lim F n ( x) = n →∞ F ( x) . Oznacza to, że jeśli próba jest duża (w praktyce n>30), to rozkład zmiennej losowej o rozkładzie dwumianowym można przybliżyć rozkładem normalnym o parametrach jak wyżej. Przykład: OBOP ocenia, że 50% polskich rodzin żyje poniżej minimum socjalnego. Wybrano losowo próbę 100 rodzin polskich. Policzmy, jakie jest prawdopodobieństwo, że wśród wybranych będzie ponad 40 rodzin żyjących poniżej minimum. Zmienna X100 ma rozkład dwumianowy z n=100 i p=0.5. Nie można jej przybliżyć rozkładem Poissona (muszą być spełnione warunki: n>=20, stały iloczyn np równy m, p<0.2), gdyż p>0.2. Rozkład tej zmiennej można przybliżyć (gdyż n>30) rozkładem normalnym N(50,5). P{X>40}=1-F(40)=0.9773 (zastosować standaryzację i sprawdzić odczyt dystrybuanty z tablic). 39 Statystyka Wydział Zarządzania Politechniki Białostockiej Szczególny przypadek: zmienna Xn o rozkładzie dwumianowym z parametrami n i p przyjmuje wartości 0, 1, 2, 3, ..., n. Wtedy zmienna Yn przyjmuje wartości 0, 1/n, 2/n, 3/n, ..., 1. Rozkład zmiennej Yn można przybliżyć rozkładem N(p, pq ). n Przykład: Wadliwość produktu A wynosi 5%. Z produkcji pobrano 100 sztuk towaru. Jakie jest prawdopodobieństwo, że udział wadliwych sztuk w wybranej partii jest większy niż 4%. Ponieważ n=100>30, rozkład przybliżymy rozkładem N(0,05, 0.05 ⋅ 0.95 ) 100 - n=100, p=0.05, q=0.95. Korzystając z tablic dystrybuant rozkładu normalnego możemy odczytać P{Yn>0.04}=1-F(0.04). Centralne twierdzenie graniczne Lindenberga-Lèvy’ego Jeżeli zmienne losowe X1, X2, ..., Xn są niezależne i zmienna losowa Xi dla i=1, 2, ..., n ma rozkład N(mi,σi), to zmienna losowa Y=X1+X2+ ... +Xn dla dużych n ma rozkład 2 2 2 N( m1+m2+ ... +mn, σ 1 + σ 2 + ! + σ n ). Przypadek szczególny: Załóżmy, że zmienne losowe X1, X2, ..., Xn są niezależne. Jeżeli wszystkie zmienne losowe Xi dla i=1, 2, ..., n mają rozkład N(m,σ), to zmienna losowa Y= X1+X2+ ... +Xn ma rozkład N(nm, σ n ). 40 Statystyka Wydział Zarządzania Politechniki Białostockiej Przykład. Grupa 50 studentów II roku ZiM PB planuje wycieczkę z przelotem samolotem do miejsca pobytu. Wiedząc, że średnio każdy student waży 61 kg z odchyleniem standardowym 10.5 kg, oraz że waga ma rozkład normalny, obliczyć prawdopodobieństwo, że łączna waga grupy przekroczy 3200 kg. Każda ze zmiennych Xi dla i=1, 2, ..., 50 ma rozkład N(61,10.5). Łączna waga studentów Y=X1+X2+ ... +Xn, przy założeniu identyczności rozkładów, będzie miała rozkład N(50*61 kg, 10.5* 50 ), czyli N(3050,74.2). P{Y>3200}=1-F(3200)=0.0216 Wniosek z centralnego twierdzenia granicznego Jeżeli zmienne losowe X1, X2, ..., Xn są niezależne i zmienna losowa Xi dla i=1, 2, ..., n ma rozkład N(mi,σi), to zmienna losowa X = 1 (X1+X2+ ... +Xn) ma rozkład n N( 1 (m1+m2+ ... +mn), 1 n n σ +σ 2 2 1 2 +!+σ n 2 ). Szczególny przypadek: Jeżeli zmienne losowe X1, X2, ..., Xn są niezależne i wszystkie zmienne losowe Xi dla i=1, 2, ..., n mają rozkład N(m,σ), to 1 zmienna losowa X = (X1+X2+ ... +Xn) ma rozkład n σ N(m, ). n Przykład: Z magazynu w sposób losowy wybrano 100 pudełek proszku do prania. Waga każdego pudełka jest zmienną losową o wartości oczekiwanej 1 kg i odchyleniu standardowym równym 0.05 kg. Policzyć prawdopodobieństwo, że średnia waga proszku w wybranych pudełkach jest większa niż 1.05 kg. 41 Statystyka Wydział Zarządzania Politechniki Białostockiej Średnia waga proszku ma rozkład normalny N(1 kg,0.005 kg). P{ X 100 >1.05}=1-F(1.05)=0. Rozkład różnicy Jeżeli zmienne losowe X1, X2 są niezależne i zmienna losowa Xi dla i=1, 2 ma rozkład N(mi,σi), to zmienna losowa Z=X1–X2 ma rozkład 2 2 + N( m1–m2, σ 1 σ 2 ). 42 Statystyka Wydział Zarządzania Politechniki Białostockiej Zasady wnioskowania statystycznego Cecha statystyczna a zmienna losowa. Próba a zbiorowość statystyczna (populacja). Postępowanie polegające na dopasowaniu jednego ze znanych rozkładów prawdopodobieństw do właściwości cech w populacji (na podstawie informacji z próby) nazywamy wnioskowaniem statystycznym. Cele wnioskowania statystycznego: - ustalenie, jaki rozkład prawdopodobieństwa jest właściwy dla badanej cechy, - skonstruowanie na podstawie przyjętego rozkładu prawdopodobieństwa rozkład cechy statystycznej. Wnioskowanie nieparametryczne – gdy wnioskowanie dotyczy postaci rozkładu prawdopodobieństwa, czyli postaci funkcji prawdopodobieństw, funkcji gęstości, dystrybuanty. Wnioskowanie parametryczne – gdy wiadomo jaki jest rozkład badanej cechy, a problem polega na ustaleniu wartości parametrów tego rozkładu. Metody wnioskowania statystycznego: - estymacja, czyli szacowanie na podstawie informacji z próby postaci rozkładu cechy statystycznej w populacji generalnej, - weryfikacja hipotez statystycznych, czyli sprawdzanie na podstawie informacji z próby formułowanych założeń o rozkładzie cechy statystycznej z populacji. 43 Statystyka Wydział Zarządzania Politechniki Białostockiej By wyniki wnioskowania statystycznego były prawidłowe, próba powinna być dobierana losowo a stosowane techniki muszą być wybierane właściwie. Próba losowa prosta – jest to ciąg niezależnych zmiennych losowych X1, X2, ..., Xn o jednakowym rozkładzie, takim jak rozkład zmiennej losowej X w populacji. Statystyką z próby nazywamy zmienną losową Zn będącą funkcją zmiennych X1, X2, ..., Xn stanowiących próbę losową. Rozkład statystyki Zn=z(X1, X2, ..., Xn) zależy od rozkładu w populacji i liczebności próby. Stwierdzenia istotne dla wnioskowania statystycznego: 1. 2. 3. 4. Jeżeli dobór próby jest losowy, to najbardziej prawdopodobne są próby zbliżone strukturą do struktury populacji. Losowość próby oznacza, że każda z możliwych do wylosowania prób ma określone prawdopodobieństwo pojawienia się, zwane jej wiarygodnością. Statystyki z próby (średnia arytmetyczna, dominanta, wariancja, częstość i inne) są zmiennymi losowymi. Średnia arytmetyczna z próby losowej pobranej z populacji, w której rozkład prawdopodobieństw jest określony co do wartości parametrów E(X)=m i D2(X)=σ2, ma rozkład prawdopodobieństwa, który: ! jest określony przez parametry o wartościach odpo2 wiednio: E( X ) = m 2 D (X ) = σ n ! wraz ze wzrostem próby rozkład średniej arytmetycznej dąży do rozkładu normalnego (twierdzenie Lindenberga-Lèvy’ego). 44 Statystyka Wydział Zarządzania Politechniki Białostockiej Rozkłady dokładne wybranych statystyk Rozkład średniej arytmetycznej z próby n-elementowej pochodzącej z populacji normalnej o znanym m i σ: Zn = X n ma rozkład N(m, σ ). n Rozkład średniej arytmetycznej z próby pochodzącej z populacji normalnej o nieznanym odchyleniu standardowym Statystyka X −m = T n−1 S n − 1 ma rozkład Studenta z n-1 stopniami swobody, gdzie S jest odchyleniem standardowym obliczonym z n-elementowej próby wg wzoru: ( ) 2 1 n S = n∑ X i− X i =1 Przy dużych n (>30) statystyka T n −1 ma rozkład zbliżony do rozkładu N(0,1). 2 Przykład: Z populacji o rozkładzie normalnym N(12,σ) przy nieznanym σ pobrano próbkę liczącą 10 elementów. Jakie jest prawdopodobieństwo, że średnia arytmetyczna z próby jest większa od 11.5 przy odchyleniu S=1.5. X − 12 9 ma rozkład Studenta z 9= Zmienna losowa T 9 1.5 cioma stopniami swobody. P{ X 10 >11.5}=P{ 11.5 − 12 X − 12 3> 3 }=P{T9>-1}=0.85 1.5 1.5 45 Statystyka Wydział Zarządzania Politechniki Białostockiej Gdyby n=50, możemy skorzystać z tego, że rozkład Tn przy n dużych jest zbliżony do rozkładu N(0,1). P{ X >11.5}=P{ 50 11.5 − 12 X − 12 7> 7 }= 1.5 1.5 =P{T9>-2.33}=F(-2.33)=1-F(2.33)=0.9906. Rozkład różnicy średnich arytmetycznych z prób pochodzących z dwóch populacji normalnych o znanych odchyleniach standardowych 1 próba pochodzi z populacji o rozkładzie N(m1,σ1) 2 próba pochodzi z populacji o rozkładzie N(m2,σ2) Zn = X 1 − X 2 ma rozkład N(m1–m2, σ +σ n n 2 2 1 2 1 2 ). Rozkład różnicy średnich arytmetycznych z prób pochodzących z dwóch populacji normalnych z nieznanymi (ale nie różniącymi się) odchyleniami standardowymi Statystyka Tn + 1 n 2 − 2 = ( X 1 − X 2) − (m1 − m2) n ⋅S +n ⋅S 2 1 1 2 2 2 n ⋅n ( + − ) n n 2 + n n 1 2 1 1 2 2 ma rozkład Studenta z n1+n2-2 stopniami swobody, gdzie n1 i n2 – liczebności prób, S1 i S2 – odchylenia standardowe z pierwszej i drugiej próbki. 46 Statystyka Wydział Zarządzania Politechniki Białostockiej Rozkład wariancji z próby dla populacji normalnej Jeżeli cecha X ma w populacji generalnej rozkład N(m,σ) a S2 jest to wariancja policzona z n-elementowej próby, to statystyka 2 2 nS χ = 2 n −1 σ ma rozkład chi-kwadrat z n-1 stopniami swobody. Rozkład ilorazu wariancji dla dwóch prób z populacji normalnych Z dwu niezależnych populacji o rozkładach normalnych N(m1,σ1) i N(m2,σ2) wylosowano próby proste liczące odpo2 2 wiednio r1 i r2 elementów i obliczono wariancje S 1 i S 2 , to 2 statystyka rS σ (r − 1) = F r −1 r −1 rS σ (r − 1) 1 1 2 1 1 1 , 2 2 2 2 2 2 2 ma rozkład Snedecora z r1-1 i r2-1 stopniami swobody. 47 Statystyka Wydział Zarządzania Politechniki Białostockiej Rozkład częstości (frakcji) Jeżeli zmienna losowa X zdefiniowana jako liczba „sukcesów” w n losowaniach ma rozkład dwumianowy z prawdopodobieństwem wylosowania „sukcesu” w pojedynczym losowaniu p, to (biorąc pod uwagę twierdzenie Moivre’a-Laplace’a) przy liczbie doświadczeń n częstość występowania „sukcesów” = i , gdzie ni oznacza liczbę sukcesów, także n w n ma rozkład dwumianowy o parametrach: i E ( wi ) = p, D( wi ) = p (1 − p ) n Przy odpowiednio dużej liczbie pomiarów (n>120), rozkład częstości wi można przybliżyć rozkładem normalnym z powyższymi parametrami. Rozkład różnicy dwóch częstości (frakcji) Jeżeli mamy dwie niezależne zmienne losowe, każda o rozkładach dwumianowym, odpowiednio o parametrach p1 przy liczbie doświadczeń n1 i p2 przy n2 doświadczeniach, to różnica między częstościami wi=w1i-w2i ma rozkład graniczny (przy odpowiednio dużych n [n>120]) normalny o parametrach p−p, (1 − p ) p (1 − p ) p + σ = D( w ) = n n m = E ( wi ) = 1 2 1 1 2 2 i 1 48 2 Statystyka Wydział Zarządzania Politechniki Białostockiej Podstawy teorii estymacji (szacowania) Estymacja punktowa Jednym z narzędzi wnioskowania statystycznego jest estymator. Estymator to statystyka zbudowana na wynikach próby. Estymatorami mogą być: średnia arytmetyczna, dominanta, kolejne kwartyle, odchylenie standardowe i inne. W przypadku wnioskowania parametrycznego estymatory służą do oszacowania parametrów rozkładów. Przykłady parametrów podlegających oszacowaniu w trakcie wnioskowania statystycznego: - λ =E(X) – gdy zmienna X ma rozkład Poissona, - p= E(X)/n – gdy zmienna X ma rozkład dwumianowy, - m= E(X) i σ = D 2 ( X ) – gdy zmienna losowa X ma rozkład normalny itd. W przypadku wnioskowania nieparametrycznego celem jest ustalenie postaci funkcji gęstości lub dystrybuanty rozkładu, a estymatory służą do oceny prawdopodobieństw P{X=x0} dla cech skokowych lub P{x1<X<x2} w przypadku cech ciągłych. Oznaczmy ogólnie estymator przez Tn, a szacowany parametr przez Θ (teta). Różnicę Tn-Θ=d nazywamy błędem oszacowania (estymacji). Błąd szacunku jest zmienną losową, a miarą tego błędu jest ∆=E(Tn–Θ)2 Jeżeli E(Tn)=Θ, to ∆ jest wariancją D2(Tn) estymatora Tn. Odchylenie standardowe D(Tn) nazywamy standardowym błędem szacunku parametru Θ. Wyrażenie D(Tn)/Θ nazywamy względnym błędem szacunku. 49 Statystyka Wydział Zarządzania Politechniki Białostockiej Pożądane właściwości estymatorów: Nieobciążoność estymatora: Tn jest niebciążonym estymatorem parametru Θ, jeśli E(Tn)=Θ. W przeciwnym przypadku estymator nazywamy obciążonym, a b(Tn)=E(Tn)–Θ nazywamy obciążeniem estymatora. Przykłady estymatorów nieobciążonych: - średnia arytmetyczna jest nieobciążonym estymatorem wartości oczekiwanej, 2 2 1 n = ˆ − X ∑ - wariancja obliczona ze wzoru S n i =1 X i jest obciążonym estymatorem wariancji D2(X) w populacji z obciąże2 niem b( Ŝ )=–D2(X)/n. 2 n Wariancja S2= n − 1 Sˆ jest estymatorem nieobciążonym. ( ) Efektywność estymatora: Najefektywniejszym estymatorem spośród nieobciążonych estymatorów jest ten, który ma najmniejszą wariancję. 1 2 Rozważmy dwa nieobciążone estymatory T n i T n parame* tru Θ. Jeżeli estymator T n jest estymatorem najefektywnieji szym parametru Θ, to dla dowolnego estymatora T n iloraz: 2 i e(T n) = D D (T 2 Jest miarą efektywności estymatora wartości z przedziału (0;1]. 50 * (T n) i n ) T i n . i e(T n) przyjmuje Statystyka Wydział Zarządzania Politechniki Białostockiej Funkcja gęstości estymatora T2n o parametrach Θ i D(T2n) Funkcja gęstości estymatora T1n o parametrach Θ i D(T1n) Θ Zgodność estymatora: Estymator Tn parametru Θ jest estymatorem zgodnym, jeżeli dla dowolnie małego ε>0 zachodzi: lim P( T n − Θ < ε ) = 1 n →∞ Estymatory: - nieobciążone dają, średnio biorąc, prawdziwe oceny parametru, - najefektywniejsze dają, średnio biorąc, oceny parametru najmniej różniące się od faktycznych wartości, - zgodne dają oceny tym bliższe prawdy, im liczniejsza jest próba będąca podstawą wnioskowania. Metody konstrukcji estymatorów: metoda największej wiarygodności i metoda najmniejszych kwadratów. 51 Statystyka Wydział Zarządzania Politechniki Białostockiej Podsumowanie estymacji punktowej: Przykład: Stwierdzono, że liczba awarii urządzenia w ciągu godziny może być uznana za zmienną losową o rozkładzie Poissona. Nieznana jest wartość parametru m=E(X) w tym rozkładzie. W ciągu 100 godzin pracy tego urządzenia zarejestrowano 10 awarii. Najlepszym estymatorem parametru m jest średnia arytmetyczna. Dla tej próby x =10/100=0.1. Estymacja punktowa polega na przyjęciu za wartość parametru wartości jego estymatora, czyli m=0.1. Jedyną informacją o jakości takiego postępowania jest ocena zróżnicowania wartości, jakie może przyjmować estymator, czyli ocena jego średniego błędu szacunku wyrażonego przez odchylenie standardowe D(Tn). W przykładzie D( X ) m D( x ) = n = n = 0.1 / 10 = 0.01 Można powiedzieć, że m= x =0.1 ze średnim błędem szacunku D( x )=0.01. Wynik estymacji punktowej można zapisać w następujący sposób: Θ=Tn±D(Tn) Jeżeli estymator Θ ma rozkład normalny, to P{Θ–D(Tn)<Tn<Θ+D(Tn)}=0.68, czyli P{ Tn–D(Tn)< Θ < Tn +D(Tn)}=0.68. 52 Statystyka Wydział Zarządzania Politechniki Białostockiej Estymacja przedziałowa Załóżmy, że cecha X ma rozkład z nieznanym parametrem µ. Załóżmy, że na podstawie n-elementowej próby pochodzącej z tej populacji możemy wyznaczyć dwie funkcje ì( x1 , x2 ,! , xn) oraz µ ( x1 , x2 ,! , xn) i dla przyjętego prawdopodobieństwa 1α zachodzi: P{ì( x1 , x2 ,! , xn) < ì < ì( x1 , x2 ,! , xn)} = 1 − α Przedział (ì, ì) nazywamy przedziałem ufności parametru µ, natomiast ustalone z góry prawdopodobieństwo 1-α współczynnikiem ufności. Precyzja estymacji przedziałowej zależy: - od decydenta, który ustala poziom ufności, - od sytuacji decyzyjnej, czyli zakresu informacji o rozkładzie badanej cechy, np. czy znane jest odchylenie standardowe rozkładu D(X). Ustalmy, że Sˆ 2 1 n = ∑ n − 1 i =1 (X i − X ) 2 oraz S 2 1 n = ∑ n i =1 (X i − X ) . 2 Przedział ufności dla parametru m w populacji normalnej z nieznanym odchyleniem standardowym. x−m = t n−1 s n − 1 { } P − tα ,n −1 ≤ t n−1 ≤ tα ,n −1 = 1 − α x−m P− tα,n−1 ≤ n −1 ≤ tα,n−1 = 1 − α s s s Px−t ≤ m ≤ x+t = 1 −α α ,n−1 α ,n−1 1 1 n n − − 53 Statystyka Wydział Zarządzania Politechniki Białostockiej Przedział ufności dla parametru p w populacji z rozkładem dwumianowym. Jeżeli zmienna losowa X ma rozkład dwumianowy z nieznaX nym p, estymatorem może być częstość pˆ = , który ma n także rozkład dwumianowy z wartością oczekiwaną E( p̂ )=p p (1 − p ) . i odchylenie standardowym D( pˆ ) = n Dla dostatecznie dużych n na podstawie twierdzenia X Moivre’a-Laplace’a statystyka pˆ = ma w przybliżeniu n rozkład p (1 − p ) ) N ( p, n a statystyka pˆ − p U= rozkład normalny N(0,1). p (1 − p ) n { } P − uα ≤ U ≤ uα = 1 − α Zatem Przyjmując P pˆ − uα P − uα ≤ pˆ − p ≤ uα = 1 − α p(1 − p) n p (1 − p ) ≈ n pˆ (1 − pˆ ) n pˆ (1 − pˆ ) ≤ p ≤ pˆ + uα n 54 pˆ (1 − pˆ ) = 1−α n Statystyka Wydział Zarządzania Politechniki Białostockiej Wybrane parametry i ich najlepsze estymatory oraz reguły konstrukcji przedziałów ufności: Parametr Esty- Rozkład Przedział ufności mator parametry σ σ Normalny E(X)=m x x − uα ≤ m ≤ x + uα n n σ znane Normalny n<=120 (30) S σ nieznane x − ≤m≤ x+ t α , n −1 n −1 χ χ S Normalny χ α ,n−1 2 lub n − 1 2 α , n −1 2 " ≤ s σ 2 α , n −1 1+ p̂ 2 ≤ 2 s α 1− ,n−1 2 n −1 χ 2 α 1− , n −1 2 " s 2 n>30 S p S n −1 Normalny n>120 (30) S S lub inny x − uα ≤ m ≤ x + uα n n σ nieznane Normalny n<=30 n n 2 2 ≤ ≤ 2 2 s σ D2(X)=σ2 D(X) t u α 2n ≤σ ≤ S 1− u α 2n n>120 Rozkład dwumiapˆ (1 − pˆ ) pˆ (1 − pˆ ) − ≤ ≤ + p p p ˆ ˆ u u α α nowy n n 55 Statystyka Wydział Zarządzania Politechniki Białostockiej Problem minimalnej liczebności próbki a) Cecha ma rozkład N(m,σ) przy znanym σ i konieczności 2 2 oszacowania parametru m: uα ⋅σ n= d 2 b) Cecha ma rozkład N(m,σ) przy nieznanym σ i konieczności oszacowania parametru m: Z wstępnej liczącej n0 elementów próbki oblicza się n 2 i =1 0 a następnie ( " 1 = S n −1 ∑ X i − X " ⋅ t n s 2 n= α, ) 2 2 0 −1 d 2 c) W przypadku szacowania prawdopodobieństwa „sukcesu” p należy na podstawie próbki liczącej co najmniej 100 elementów należy oszacować wstępnie p i wyliczyć minimalną liczebność próbki: 2 ⋅ p ⋅ (1 − p ) n = uα 2 d Jeżeli brak jest podstaw do oszacowania p, przyjmujemy najmniej sprzyjający przypadek p=q=0.5 i mamy: 2 u = n 4d α 2 56 Statystyka Wydział Zarządzania Politechniki Białostockiej TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipoteza statystyczna – każde przypuszczenie dotyczące rozkładu cechy w populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Prawdziwość hipotezy statystycznej ocenia się na podstawie wyników próby losowej. Hipotezy: – nieparametryczne dotyczą postaci funkcyjnej rozkładu, współzależności cech, losowości próby; – parametryczne dotyczą parametrów rozkładu w populacji generalnej. Hipotezą zerową H0 nazywamy hipotezę sprawdzaną (weryfikowaną, testowaną). Hipotezą alternatywną H1 nazywamy hipotezę, którą przyjmujemy, gdy odrzucamy hipotezę H0. Test statystyczny jest to reguła postępowania, która przyporządkowuje wynikom próby losowej decyzję przyjęcia lub odrzucenia hipotezy H0. Błąd I rodzaju polega na odrzuceniu hipotezy H0, mimo że jest ona prawdziwa. Poziomem istotności α nazywamy prawdopodobieństwo popełnienia błędu I rodzaju. Wartości α są bliskie zera i na ogół przyjmuje się jako równe 0.1, 0.05, 0.02, 0.01, 0.005, 0.002, 0.001. Błąd II rodzaju polega na przyjęciu hipotezy H0, gdy jest ona fałszywa. Prawdopodobieństwo popełnienia błędu II rodzaju oznacza się przez β. Wartości α i β są powiązane. Zmniejszanie jednej z nich powoduje zwiększanie drugiej. 57 Statystyka Wydział Zarządzania Politechniki Białostockiej Testy istotności (testy najmocniejsze) dla zadanego z góry poziomu istotności α zapewniają możliwie najmniejszą wartość prawdopodobieństwa β. Sprawdzianem hipotezy nazywamy taką statystykę z próby Zn o znanym rozkładzie (najczęściej statystyka ta ma rozkład normalny N(0,1), t-Studenta, χ2, F Snedecora), której wartość zn policzona na podstawie próby losowej, pozwala na podjęcie decyzji, czy odrzucić hipotezę H0. Rozkład sprawdzianu określa, z jakich tablic należy odczytywać wartość krytyczną Zα, która wyznacza obszar krytyczny. Obszarem krytycznym (odrzucenia hipotezy H0) nazywamy zbiór tych wartości sprawdzianu hipotezy Z, które przemawiają za odrzuceniem hipotezy H0. W zależności od postaci hipotezy alternatywnej H1 obszar krytyczny może być obszarem jednostronnym lub dwustronnym. Parametryczne testy istotności Testowanie hipotezy o wartości średniej w populacji Model I. Populacja generalna ma rozkład N(m,σ), przy czym σ jest znane. Na podstawie próby n-elementowej sprawdzić hipotezę a) H0: m= m0, H1: m≠m0. H1: m<m0. b) H0: m= m0, H1: m>m0. c) H0: m= m0, σ Średnia X ma rozkład N(m0, ). n Sprawdzianem hipotezy H0 jest statystyka 58 u uobl = X − m0 σ n Statystyka Wydział Zarządzania Politechniki Białostockiej Z tablic rozkładu N(0,1) lub t-Studenta z ∞ liczbą stopni swobody odczytujemy wartość krytyczną uα. Rozkład normalny N(0,1) a) 0.60 H0: m= , H1: m≠ . H1: m≠m0 (α=0.05) 0.45 0.30 α/2 α/2 0.15 0.00 -3.92 -1.96 Przedział krytyczny -u α 0.00 1.96 U uα 3.92 Przedział krytyczny Rozkład normalny N(0,1) 0.60 H1: m<m0 (α=0.05) 0.45 0.30 α 0.15 0.00 -3.290 -1.645 Przedział krytyczny -u 2α 0.000 U 59 1.645 3.290 Statystyka Wydział Zarządzania Politechniki Białostockiej Rozkład normalny N(0,1) 0.60 H1: m>m0 (α=0.05) 0.45 0.30 α 0.15 0.00 -3.290 -1.645 0.000 U 1.645 u 2α 3.290 Przedział krytyczny Gdy uobl znajduje się w przedziale krytycznym, na poziomie istotności α za słuszną przyjmujemy H1. W przeciwnym razie wniosek brzmi: brak podstaw do odrzucenia H0. Model II. Populacja generalna ma rozkład N(m,σ), przy czym σ jest nieznane. Na podstawie próby n-elementowej sprawdzić hipotezę H1: m≠m0. a) H0: m= m0, b) H0: m= m0, H1: m<m0. c) H0: m= m0, H1: m>m0. Sprawdzianem hipotezy H0 jest statystyka tobl, n - 1 = X −m X −m n n −1 = sˆ s 60 Statystyka Wydział Zarządzania Politechniki Białostockiej Z tablic rozkładu t-Studenta z n-1 stopniami swobody odczytujemy wartość krytyczną tα,n−1. Dalej postępujemy analogicznie jak w modelu I. Przykład: Zakłada się, że „długość życia opon samochodowych ma rozkład normalny. Producent twierdzi, że przeciętne „życie” jego opon wynosi 50 tys. km. Na podstawie 100 losowo wybranych opon otrzymano X =45 tys. km i s=8 tys. km. Czy na poziomie istotności α=0.05 można uważać, że producent ma rację? tobl = 45 − 50 X −m 100 = −6.25 n= 8 s Ponieważ |tobl|>t0.05,99=1.98, więc można uznać na poziomie istotności α=0.05, że producent nie ma racji. Przeciętna „długość życia” jego opon jest istotnie krótsza niż 50 tys. km. Model III. Populacja generalna ma dowolny rozkład z nieznanymi parametrami. Na podstawie dużej próby n-elementowej sprawdzić hipotezę a) H0: m= m0, H1: m≠m0. b) H0: m= m0, H1: m<m0. H1: m>m0. c) H0: m= m0, Korzystamy z tego, że średnia arytmetyczna z próby wylosowanej z dowolnej populacji ma asymptotyczny rozkład normalny, a odchylenie standardowe s z próby jest stochastycznie zbieżne do D(X) w populacji. Sprawdzianem hipotezy H0 jest statystyka X −m uobl = n s Z tablic rozkładu N(0,1) lub t-Studenta z ∞ liczbą stopni swobody odczytujemy wartość krytyczną uα. 61 Statystyka Wydział Zarządzania Politechniki Białostockiej Testowanie hipotezy o równości dwóch średnich Model I. Dane są dwie populacje o rozkładach normalnych N(m1,σ1) i N(m2,σ2) ze znanymi σ1 i σ2. W oparciu o dwie losowe próby n1 i n2 elementowe sprawdzić hipotezę H0: m1= m2, H1: m1≠ m2. Sprawdzianem hipotezy H0 jest statystyka uobl = X −X σ +σ n n 1 2 2 2 1 2 1 2 Z tablic rozkładu N(0,1) lub t-Studenta z ∞ liczbą stopni swobody odczytujemy wartość krytyczną uα. Model II. Dane są dwie populacje o rozkładach normalnych N(m1,σ1) i N(m2,σ2) z nieznanymi σ1 i σ2, ale σ1=σ2. W oparciu o dwie małe niezależne próby losowe n1 i n2 elementowe sprawdzić hipotezę H0: m1= m2, H1: m1≠ m2. Sprawdzianem hipotezy H0 jest statystyka t obl = X −X n s + n s 1 n + n − 2 n 1 2 1 2 2 1 1 2 2 2 1 1 + n 2 Z tablic rozkładu t-Studenta z n1+n2-2 liczbą stopni swobody odczytujemy wartość krytyczną tα. 62 Statystyka Wydział Zarządzania Politechniki Białostockiej Jeżeli wnioskowanie odbywa się w oparciu o dwie małe zależne próby losowe n elementowe (n par obserwacji) sprawdzić hipotezę H0: m1- m2=0, H1: m1-m2≠0. Sprawdzianem hipotezy H0 jest statystyka t obl = Z s n −1 Z gdzie Z jest średnią arytmetyczną różnic pomiarów sparowanych a sz jest odchyleniem standardowym tych różnic. Z tablic rozkładu t-Studenta z n-1 stopniami swobody odczytujemy wartość krytyczną tα. Model III. Dane są dwie populacje o rozkładach normalnych N(m1,σ1) i N(m2,σ2) ze nieznanymi σ1 i σ2. W oparciu o dwie duże losowe próby n1 i n2 elementowe sprawdzić hipotezę H0: m1= m2, H1: m1≠ m2. Sprawdzianem hipotezy H0 jest statystyka uobl = X −X s +s n n 1 2 2 2 1 2 1 2 Z tablic rozkładu N(0,1) lub t-Studenta z ∞ liczbą stopni swobody odczytujemy wartość krytyczną uα. 63 Statystyka Wydział Zarządzania Politechniki Białostockiej Test hipotezy o wariancji Populacja generalna ma rozkład N(m,σ) o nieznanych parametrach. Z populacji tej wylosowano niezależnie n-elementową próbę, na podstawie której należy sprawdzić hipotezę 2 2 2 2 2 = > H0: σ σ 0 kontra H1: σ 2 σ 0 , gdzie σ 0 jest hipotetyczną wartością wariancji σ . Sprawdzianem hipotezy H0 jest statystyka χ 2 obl ns = σ 2 2 2 = (n − 1) sˆ σ 0 2 = 0 n 1 σ 2 0 ∑ ( xi − x) 2 i =1 Z tablic rozkładu χ22 z n-1 stopniami swobody odczytujemy wartość krytyczną χ α . Test hipotezy o dwóch wariancjach Badamy dwie populacje generalne o rozkładach N(m1,σ1) i N(m2,σ2) o nieznanych parametrach. Z populacji tej wylosowano niezależnie dwie próby n1 i n2-elementowe próby, na podstawie których należy sprawdzić hipotezę 2 2 2 2 H0: σ 1 = σ 2 kontra H1: σ 1 ≠ σ 2 . Sprawdzianem hipotezy H0 jest statystyka F obl 2 = sˆ sˆ 1 2 , 2 sˆ 1 2 > sˆ2 2 Z tablic rozkładu F-Snedecora z r1=n1-1 i r2=n2-1 stopniami swobody odczytujemy wartość krytyczną Fα. 64 Statystyka Wydział Zarządzania Politechniki Białostockiej Test istotności dla frakcji (wskaźnika struktury) Populacja generalna ma rozkład zero-jedynkowy z parametrem p. Dla takiej populacji w oparciu o n-elementową dużą próbę zweryfikujemy hipotezę, że parametr p ma w populacji pewną wartość p0, czyli: H0: p=p0 wobec alternatywnej hipotezy H1: p≠p0 Sprawdzianem hipotezy H0 jest statystyka u obl m −p 0 n , p (1 − p ) = 0 0 n gdzie m oznacza liczbę elementów wyróżnionych w próbie. Z tablic rozkładu N(0,1) lub t-Studenta z ∞ liczbą stopni swobody odczytujemy wartość krytyczną uα. Test istotności dla różnicy dwóch frakcji Badamy dwie populacje generalne o rozkładach zero-jedynkowych z parametrami p1 i p2. Dla tych populacji w oparciu o n1 i n2-elementowe duże próby zweryfikujemy hipotezę: H0: p1=p2 wobec alternatywnej hipotezy H1: p1≠p2 Sprawdzianem hipotezy H0 jest statystyka m1 m2 u gdzie p = m1+ m n1+ n 2 2 , a n= nn n1+ n 1 . 2 2 − obl = n n , p (1 − p ) n 1 2 Z tablic rozkładu N(0,1) lub t-Studenta z ∞ liczbą stopni swobody odczytujemy wartość krytyczną uα. 65 Statystyka Wydział Zarządzania Politechniki Białostockiej Nieparametryczne testy istotności Testy zgodności Test zgodności χ2 Niech zerową hipotezą będzie przypuszczenie, że populacja generalna ma rozkład określony dystrybuantą F0(x): H0: F(x)=F0(x) (cecha ma rozkład zgodny z wybranym rozkładem teoretycznym), H1: F(x)≠F0(x) (cecha ma rozkład inny niż wybrany rozkład teoretyczny). 2 Test zgodności χ można stosować wtedy, gdy: - dane pochodzą z dużej n-elementowej próby wylosowanej w sposób niezależny, - dane są przedstawione w postaci szeregu rozdzielczego o k przedziałach klasowych o liczebnościach n1, n2, ... nk (ni≥5), - rozkład hipotetyczny sprecyzowany w H0 może być rozkładem typu ciągłego jak i skokowego. Sprawdzianem hipotezy H0 jest statystyka χ 2 obl . = (n i − n p i) ∑ np 2 k i =1 i pi – prawdopodobieństwo, że cecha X przyjmuje wartość należącą do i-tego przedziału klasowego, npi – liczba jednostek, które powinny znaleźć się w i-tym przedziale przy założeniu, że cecha ma rozkład zgodny z rozkładem teoretycznym określonym w H0. Z tablic rozkładu χ2 2z k-s-1 stopniami swobody odczytujemy wartość krytyczną χ α (s – liczba parametrów, które szacujemy z próby). 66 Statystyka Wydział Zarządzania Politechniki Białostockiej Przykład: Producent proszku do prania uważa, że rozkład wagi pudełka proszku jest N(m,σ). Na podstawie 150 wylosowanych niezależnie pudełek otrzymano: Waga pudełka (w gramach) Liczba pudełek 575-585 16 585-595 34 595-605 50 605-615 38 615-625 12 Na poziomie istotności α=0.05 zweryfikować hipotezę, że rozkład wagi pudełek proszku (X) jest normalny. H0: X ma rozkład N(m,σ), H1: X ma inny rozkład. Parametry m i σ są nieznane, więc szacujemy je z próby: 2 =599.7; =122.59; s=11.07. s x Oznaczmy: i – nr klasy, xi1 – górna granica i-tego przedziału, t i1 = x i1 −x s . (ni−npi) np 0.548 0.504 0.077 0.422 0.000 1.551 2 i xi1 ui1 F(ui1) pi npi ni i 1 2 3 4 5 Razem 585 595 605 615 ∞ -1.33 -0.42 0.48 1.38 2.28 0.0885 0.3446 0.6915 0.9192 1,0000 0.0885 0.2561 0.3469 0.2277 0.0808 1.0000 13.3 16 38.4 34 52.0 50 34.2 38 12.1 12 150.0 150 Stopni swobody=5-2-1=2, χobl. =1.551< χ 0.05 = 5.991 . Brak podstaw, by odrzucić hipotezę, że cecha ma rozkład normalny. 2 2 67 Statystyka Wydział Zarządzania Politechniki Białostockiej Test zgodności λ-Kołmogorowa Niech zerową hipotezą będzie przypuszczenie, że populacja generalna ma rozkład typu ciągłego określony dystrybuantą F0(x): H0: F(x)=F0(x) (cecha ma rozkład zgodny z wybranym rozkładem teoretycznym), H1: F(x)≠F0(x) (cecha ma rozkład inny niż wybrany rozkład teoretyczny). Sprawdzianem hipotezy H0 jest statystyka gdzie λ = n Dn D= n sup | F(x) − F *(x) | −∞<x<∞ 68 Statystyka Wydział Zarządzania Politechniki Białostockiej Przy czym F(x) oznacza dystrybuantę teoretyczną, a F*(x) dystrybuantę empiryczną. Jeżeli ni sk jest liczebnością skumulowaną odpowiadającą wartościom cechy nie większym od x, to F * ( x) = n n i sk Statystyka λ przy założeniu prawdziwości H0 ma asymptotyczny rozkład λ-Kołmogorowa. Z tablic dystrybuant tego rozkładu odczytujemy wartość krytyczną λα (P(λ≥λα)=α). Przykład: Inny sposób testowania hipotez H0: waga pudełka proszku ma rozkład N(m,σ), H1: ma inny rozkład z poprzedniego przykładu (α=0.05). Wartości dystrybuanty F(ti1) wzięto z tabelki z poprzedniego przykładu, pozostałe obliczenia pomocnicze zawiera poniższa tabela: i xi1 ni ni sk F*(ti1) F(ti1) |F(ti1)-F*(ti1)| 1 2 3 4 5 585 595 605 615 ∞ 16 34 50 38 12 16 50 100 138 150 0.11 0.33 0.67 0.92 1.00 0.0885 0.3446 0.6915 0.9192 1,0000 0.0215 0.0146 0.0215 0.0008 0.0000 λ = Dn=0.0215, obl . 150 ⋅0.0215=0.263. Ponieważ λobl=0.263 < λ0.05=1.36, nie ma podstaw do odrzucenia H0, że rozkład wagi pudełka proszku jest N(m,σ). 69 Statystyka Wydział Zarządzania Politechniki Białostockiej Nieparametryczne (niezależne od rozkładu) testy istotności dla dwóch prób Testy te są nieparametryczną alternatywą dla testów do porównania średnich arytmetycznych wymagających spełnienia podstawowego założenia, że cecha ma rozkład normalny. Test Kołmogorowa-Smirnowa Test służy do weryfikacji hipotezy, że dwie populacje mają jednakowy rozkład (inaczej, że dwie próby pochodzą z tej samej populacji). W obu populacjach cecha jest ciągła o rozkładach opisanych dystrybuantami F1(x) i F2(x). Testowane hipotezy mają postać: H0: F1(x)=F2(x), H1: F1(x)≠F2(x). Sprawdzianem hipotezy H0 jest statystyka ⋅n n , n= λ= nD n n n +n Dn n = sup | Fn (x) − Fn (x) | 1 gdzie , 2 * 1 , 2 2 1 2 * 1 x 1 2 * * n1, n2 – liczebności dużych prób z obu populacji, Fn1(x), Fn2(x) są dystrybuantami empirycznymi w próbach. Statystyka λ przy założeniu prawdziwości H0 ma asymptotyczny rozkład λ-Kołmogorowa. Z tablic dystrybuant tego rozkładu odczytujemy wartość krytyczną λα (P(λ≥λα)=α). 70 Statystyka Wydział Zarządzania Politechniki Białostockiej Przykład: Mając dane zawarte w poniższej tabeli zweryfikować hipotezę, że rozkład wieku lekarzy na wsi i w mieście jest taki sam (α=0.05). Wiek 25-30 30-35 35-40 40-45 45-50 50-55 55-60 * Liczba lekarzy Fn (x) 1 wiejskich miejskich 30 20 30 40 70 80 100 90 60 110 40 40 10 30 0.086 0.200 0.400 0.686 0.857 0.971 1.000 * Fn2(x) |Fn1(x)− Fn* 2(x)| 0.050 0.125 0.325 0.550 0.825 0.925 1.000 * 0.036 0.075 0.075 0.136 0.032 0.046 0.000 H0: F1(x)=F2(x), H1: F1(x)≠F2(x). λ obl. = 186.7⋅0.136=1.86>λ0.05=1.36, więc odrzucamy hipote- zę H0 (struktury wieku lekarzy na wsi i w mieście są różne. Test serii Walda-Wolfowitza Hipoteza zerowa H0 stwierdza, że dwie porównywane próby niezależne pochodzą z tej samej populacji, czyli mają taki sam rozkład (normalny lub jakikolwiek inny). H1 stwierdza, że próby pochodzą z populacji o różnych rozkładach (jakiekolwiek różnice). Zasada: wszystkie pomiary z dwóch prób rangujemy łącznie i określamy stopień przemieszania prób poprzez ustalenie liczby serii w szeregu rangowym: określamy stopień przemieszania prób poprzez ustalenie liczby serii w szeregu rangowym: ABBBABAAAABAABAAAABBBBBBAA Niech r oznacza liczbę serii, n1 i n2 – liczebności prób. 71 Statystyka Wydział Zarządzania Politechniki Białostockiej Jeżeli liczebności prób są mniejsze lub równe 20, musimy skorzystać ze specjalnych tabel lub pakietów statystycznych. Jeżeli n1 i n2 są większe niż 20, to rozkład liczby serii można przybliżyć rozkładem normalnym: 2n 1n 2 2n 1n 2(2n 1n 2−n 1−n 2) N(1+ , ) 2 n 1+n 2 (n 1+n 2) (n 1+n 2−1) &#%# $ &####%####$ mr σr Sprawdzianem hipotezy H0 jest statystyka u = obl r − mr σ r gdzie r oznacza liczbę serii. Z tablic rozkładu N(0,1) lub t-Studenta z ∞ liczbą stopni swobody odczytujemy wartość krytyczną uα. Przykład: W celu porównania wyników studiów studentów dwóch wydziałów pewnej uczelni, wylosowano dwie próby reprezentujące studentów obu wydziałów. Dla wydziału A otrzymano następujące średnie oceny z sesji egzaminacyjnej: 3.64, 4.20, 3.25, 4.50, 4.63, 4.88, 2.65, 4.00, 3.24, 4.15, 4.73, 5.00, 2.60, 2.94, 3.05, a dla wydziału B oceny: 4.30, 4.05, 2.80, 3.00, 3.75, 3.00, 4.35, 3.45, 3.66, 2.50, 3.75, 3.50, 4.48, 4.07, 3.90. Na poziomie istotności α=0.05 zweryfikować hipotezę, że studenci obu wydziałów uzyskali takie same wyniki w sesji egzaminacyjnej. 72 Statystyka Wydział Zarządzania Politechniki Białostockiej Porządkujemy łącznie obie serie ocen zaznaczając, z którego wydziału pochodzą. 2.5 b 3.45 b 2.6 a 3.5 b 2.65 a 3.64 a 2.8 b 3.66 b 2.94 a 3.75 b 3 b 3.75 b 3 b 3.9 b 3.05 a 4 a 3.24 a 4.05 b 3.25 a 4.07 b Liczymy serie (r=14) oraz mr=16 i σr=2.69. Następnie obliczamy wartość sprawdzianu: u = obl 4.15 4.2 4.28 4.3 4.35 4.5 4.63 4.73 4.88 5 a a b b b a a a a a 14 − 16 = -0.74349 2.69 Ponieważ |uobl|=0.74349<u0.05=1.96, więc brak podstaw do odrzucenia hipotezy H0, że studenci obu wydziałów uzyskali jednakowe wyniki w sesji. Testy U Manna-Whitneya (Wilcoxona) dla prób niezależnych oraz test Wilcoxona rang dla par Wszystkie założenia i hipotezy są identyczne jak w teście omówionym wyżej. Inna jest zasada. Test U Manna-Whitneya jest alternatywą testu serii Walda-Wolfowitza o wyższej mocy opartą o sumy rang. Dostępne w pakietach statystycznych. Trzy ostatnie testy stanowią alternatywę dla testów porównujących średnie w próbach niezależnych (niepowiązanych, niesparowanych) – testy Walda-Wolfowitza i U Manna-Whitneya, oraz w próbach zależnych (powiązanych, sparowanych) 73 Statystyka Wydział Zarządzania Politechniki Białostockiej – test Wilcoxona dla par w sytuacji, gdy badane cechy statystyczne nie mają rozkładu normalnego. Pakiet STATISTICA – test t-Studenta dla dwóch średnich Pakiet STATISTICA – test t-Studenta dla par 74 Statystyka Wydział Zarządzania Politechniki Białostockiej STATISTICA – testy nieparametryczne 75 Statystyka Wydział Zarządzania Politechniki Białostockiej CECHY STATYSTYCZNE WIELOWYMIAROWE Każda jednostka badanej zbiorowości jest opisywana przez wiele cech statystycznych jednocześnie. Zbiór tych cech nazywamy cechą statystyczną wielowymiarową. Ważna jest odpowiedź na pytanie, czy między obserwowanymi właściwościami istnieje związek, czyli czy wystąpienie pewnych cech warunkuje wystąpienie innych, ściśle określonych, czy też takich powiązań nie ma? Pytanie to dotyczy związku przyczynowo-skutkowego między cechami (np. cena wyrobu –> wielkość sprzedaży). Jeżeli cechy statystyczne są mierzalne, to ich współwystępowanie można opisać za pomocą związku funkcyjnego. Rozkład zmiennej losowej dwuwymiarowej Rozkładem łącznym prawdopodobieństw dwuwymiarowej zmiennej losowej skokowej (dyskretnej) (X,Y) nazywa się k l zbiór prawdopodobieństw: p =1 ∑∑ P(X=xi,Y=yj)=pij i =1 j =1 dla i=1,2,...,k, ij j=1,2,...,l, Dystrybuanta dwuwymiarowej zmiennej skokowej: F ( x, y ) = 76 ∑ ∑ p xi < x yj < y ij Statystyka Wydział Zarządzania Politechniki Białostockiej Rozkład dwuwymiarowej zmiennej losowej dyskretnej w postaci tabeli korelacyjnej: Y X y1, ..., yl x1 p11, ..., p1l p1. x2 p21, ..., p2l p2. . . . . . . . . . xk pk1, ..., pkl pk. p.1, ..., p.l 1 Funkcją gęstości dwuwymiarowej zmiennej losowej ciągłej (X,Y) jest dowolna funkcja f(x,y) spełniająca warunki: f(x,y)≥0 oraz ∞ ∞ ∫ ∫ f ( x, y )dxdy = 1 −∞ −∞ Dystrybuantą dwuwymiarowej zmiennej losowej ciągłej (X,Y) x y jest funkcja: F ( x, y ) = ∫ ∫ f ( x, y )dxdy − ∞ −∞ Rozkłady brzegowe: a) zmienna losowa skokowa - zmiennej X l P( X = xi ) = ∑ pij = pi . , dla i = 1,2,..., k j =1 77 Statystyka Wydział Zarządzania Politechniki Białostockiej k - zmiennej Y P(Y = yj ) = ∑ pij = p. j , dla j = 1,2,..., l i =1 b) zmienna losowa ciągła - zmiennej X f 1( x ) = ∞ ∫ f ( x, y )dy −∞ f 2( y ) = - zmiennej Y ∞ ∫ f ( x, y )dx −∞ Zmienne losowe X i Y są niezależne, gdy dla każdej pary wartości (xi,yj) spełniony jest warunek: pij =P(X=xi,Y=yj)= P(X=xi)⋅P(Y=yj)= pi. p.j Jeśli zmienne losowe skokowe X i Y są niezależne, to P ( X = xi, Y = yj ) P( X = xi ) P(Y = yj ) = = P (Y = yj ) P(Y = yj ) = P( X = xi ) = pi., dla i = 1,2,..., k P ( X = xi / Y = yj ) = oraz P( X = xi, Y = yj ) P( X = xi ) P(Y = yj ) = = P( X = xi ) P( X = xi ) = P(Y = yj ) = p. j , dla j = 1,2,..., l P (Y = yj / X = xi ) = 78 Statystyka Wydział Zarządzania Politechniki Białostockiej Warunkiem niezależności w przypadku zmiennych losowych ciągłych X i Y jest: f(x,y)=f1(x)⋅f2(y) dla każdej pary (x,y). Dla niezależnych zmiennych losowych ciągłych X i Y mamy f ( x / y) = f ( x, y ) f 1( x) f 2( y ) = = f 1( x) f 2( y ) f 2( y ) f ( y / x) = f ( x, y ) f 1( x) f 2( y ) = = f 2( y ) f 1( x) f 1( x) Jeśli cechy X i Y są niezależne, to wszystkie rozkłady warunkowe (P(X=xi/Y=yj), f(x/y)) są identyczne z rozkładami brzegowymi. Kowariancja zmiennych losowych (X,Y): C(X,Y)=E(XY)-E(X)⋅E(Y) Współczynnik korelacji między zmiennymi losowymi X i Y: ρ ( X ,Y ) = C( X ,Y ) , D ( X ) ⋅ D(Y ) −1 ≤ ρ ( X ,Y ) ≤ 1 gdzie D(X) i D(Y) to odchylenia standardowe cech X i Y. Mierzy on siłę zależności liniowej między zmiennymi X i Y. Warunkowa wartość oczekiwana zmiennej X: k k i =1 i =1 E ( X / Y = yj ) = ∑ xiP( X = xi / Y = yj ) = ∑ xi pij = m1( yj ) p⋅ j Równanie regresji pierwszego rodzaju zmiennej X względem zmiennej Y: E ( X / Y = yj ) = m1( yj ) , analogicznie, równanie regresji pierwszego rodzaju zmiennej Y względem zmiennej X: E (Y / X = xi ) = m2( xi ) . 79 Statystyka Wydział Zarządzania Politechniki Białostockiej Jeśli zmienne losowe X i Y są niezależne, to E(X/Y=yj)=E(X) oraz E(Y/X=xi)=E(Y). Warunkowe wariancje zmiennych losowych X i Y: D2(X/Y)=E[X/Y-E(X/Y)]2 D2(Y/X)=E[Y/X-E(Y/X)]2 Zbiór punktów płaszczyzny (aj,bj) o współrzędnych: (aj=E(X/Y=yj)=m1(y), bj=yj), i=1,2,...,l nazywa się regresją pierwszego rodzaju zmiennej X względem Y. Zbiór punktów płaszczyzny (cj,dj) o współrzędnych: (cj=xi, di=E(Y/X=xi)=m2(x)), i=1,2,...,k nazywa się regresją pierwszego rodzaju zmiennej Y względem X. Funkcje regresji II rodzaju Weźmy funkcję liniową h(x) postaci: h(X)=αyX+βy Jeśli parametry funkcji h(X) wyznaczymy tak, by spełniony był warunek: E[Y-E(αyX+βy)]2=min wówczas otrzymamy liniową funkcję regresji II rodzaju zmiennej Y względem X. Oznaczamy ją Y=αyX+βy. Parametry y i y określone są wzorami: C( X ,Y ) αy = 2 βy = E (Y ) − αyE ( X ). , D (X ) 80 Statystyka Wydział Zarządzania Politechniki Białostockiej Analogicznie funkcję liniową regresji II rodzaju X względem Y oznaczamy: X=αxY+βx, a parametry αx i βx określone są wzorami: C( X ,Y ) αx = 2 βx = E ( X ) − αxE (Y ). , D (Y ) Obie funkcje regresji przechodzą przez punkt o współrzędnych (E(X),E(Y)). Przykład: Wydajność pracy (X) w tys. sztuk wyrobu oraz czas dojazdu w kwadransach do pracy (Y) przedstawia tabela korelacyjna: Czas dojazdu (Y) Wydajność (X) 1 2 3 5 0 0.1 0.3 6 0 0.2 0.1 7 0.1 0.1 0.1 Rozkłady brzegowe: X: P(X=5)=0.4, P(X=6)=0.3, P(X=7)=0.2 Y: P(Y=1)=0.1, P(Y=2)=0.4, P(Y=3)=0.5 Zmienne X i Y są zależne, gdyż są pij≠pi.p.j. Np. P(X=5,Y=1)=0 ≠ P(X=5)⋅P(Y=1)=0.4⋅0.1=0.04 E(X)=5⋅0.4+6⋅0.3+7⋅0.3=5.9 E(Y)=1⋅0.1+2⋅0.4+3⋅0.5=2.4D2(X) =(5-5.9)2⋅0.4+(6-5.9)2⋅0.3+(7-5.9)2⋅0.3=0.690 81 Statystyka Wydział Zarządzania Politechniki Białostockiej D(X)=0.83 D2(Y)=(1-2.4)2⋅0.1+(2-2.4)2⋅0.4+(3-2.4)2⋅0.5=0.520 D(Y)=0.72 Policzymy kowariancję: C(X,Y)=(5⋅1⋅0+6⋅1⋅0+7⋅1⋅0.1+5⋅2⋅0.1+6⋅2⋅0.2+7⋅2⋅0.1+ +5⋅3⋅0.3+6⋅3⋅0.1+7⋅3⋅0.1)-(5.9⋅2.9)=13.9-14.1=-0.26 Między zmiennymi X i Y istnieje korelacja ujemna. Aby znaleźć siłę korelacji policzmy współczynnik korelacji: ρ ( X ,Y ) = C( X ,Y ) − 0.26 = = −0.43 D( X ) ⋅ D(Y ) 0.83 ⋅ 0.72 Funkcje regresji I rodzaju: P(Y=1/X=5)=0/0.4=0.00 P(Y=1/X=6)=0/0.3=0.00 P(Y=2/X=5)=0.3/0.4=0.25 P(Y=2/X=6)=0.2/0.3=0.67 P(Y=3/X=5)=0.3/0.4=0.75 P(Y=3/X=6)=0.1/0.3=0.33 P(Y=1/X=7)=0.1/0.3=0.33 P(Y=2/X=7)=0.1/0.3=0.33 P(Y=3/X=7)=0.1/0.3=0.33 Warunkowe wartości oczekiwane zmiennej Y pod warunkiem, że zmienna X przyjmuje wartości 5, 6, 7: m1(5)=E(Y/X=5)=1⋅0+2⋅1/4+3⋅3/4=2.75, m1(6)=E(Y/X=6)=1⋅0+2⋅2/3+3⋅1/3=2.33, 82 Statystyka Wydział Zarządzania Politechniki Białostockiej m1(7)=E(Y/X=7)=1⋅1/3+2⋅1/3+3⋅1/3=2.00. Linię regresji I rodzaju Y względem X wyznaczają punkty o współrzędnych: (x=5, m1(5)=2.75), (x=6, m1(6)=2.33), (x=7, m1(7)=2.00). Analogicznie wyliczając możemy sprawdzić, że linię regresji I rodzaju X względem Y wyznaczają punkty o współrzędnych: (m2(1)=7, y=1), (m2(2)=6, y=2), (m2(3)=5.6, y=3). Obliczymy parametry αy i βy liniowej funkcji regresji II rodzaju zmiennej Y względem zmiennej X: αy=-0.26/0.69=-0.38, βy=2.4+0.26⋅5.9=3.93. Funkcja regresji zmiennej Y względem zmiennej X ma postać: Y=-0.38 X+3.93 Obliczymy parametry αx i βx liniowej funkcji regresji II rodzaju zmiennej X względem zmiennej Y: αx=-0.26/0.52=-0.5, βx=5.9+0.5⋅2.4=7.1. Funkcja regresji zmiennej X względem zmiennej Y ma postać: X=-0.5 Y+7.1. Parametry αy i αx nazywamy współczynnikami regresji. Dalej zajmiemy się ważnym problemem statystyki jakim jest analiza współzależności cech statystycznych jakościowych (niemierzalnych i mierzalnych) na podstawie obserwacji z próby. 83 Statystyka Wydział Zarządzania Politechniki Białostockiej Testowanie niezależności między cechami jakościowymi testem niezależności χ2 Test przeznaczony jest do oceny współzależności między: – dwiema cechami jakościowymi (niemierzalnymi), – cechami jakościową i ilościową, – dwiema cechami ilościowymi skategoryzowanymi. Weryfikuje on nieparametryczne hipotezy: H0: dwie cechy opisujące zbiorowość statystyczną są niezależne (pij=pi.p.j dla wszystkich par wskaźników i, j – oznaczenia jak niżej), H1: dwie cechy są współzależne (pij≠pi.p.j dla niektórych par wskaźników i, j – oznaczenia jak niżej). Dla zweryfikowania tych hipotez należy dysponować odpowiednio dużą próbą (nij≥5 dla każdej pary wskaźników i, j). Wyniki obserwacji przedstawiamy w postaci tzw. tablicy dwudzielnej o k wierszach i l kolumnach. Cecha X Cecha Y ni. y1, ..., yl x1 n11, ..., n1l n1. x2 n21, ..., n2l n2. xk nk1, ..., nkl nk. n.j n.1, ..., n.l n 84 Statystyka Wydział Zarządzania Politechniki Białostockiej Oszacowania brzegowych rozkładów cechy X i cechy Y uzyskujemy w sposób następujący: ni⋅ n⋅ j P(Y=yj)=p.j≈ P(X=xi)=pi. ≈ n n Zakładając prawdziwość H0 liczebności teoretyczne obliczamy następująco: nn . npij=npi.p.j= n i⋅ ⋅j Sprawdzianem H0 jest statystyka (nij − n pij ) χ = ∑∑ np k 2 obl . 2 l i =1 j =1 ij Wartość krytyczną χ2 dla zadanego poziomu istotności α odczytujemy z tablic wartości krytycznych rozkładu χ2 z (k-1)(l-1) 2 2 stopniami swobody. Jeżeli χ obl . > χ α ,( k −1)( l −1) odrzucamy H0, czyli cechy X i Y są zależne. Ocena siły współzależności cech jakościowych: a) współczynnik ϕ–Yule’a: 2 χ obl . ϕ= n gdy k=2, l – dowolne – to 0≤ ϕ ≤1, gdy k>2, l – dowolne – to ϕ może być większe od 1. b) współczynnik zbieżności T–Czuprowa: T= χ 2 obl . n (k − 1)(l − 1) gdy k=l – to 0≤ Τ ≤1, gdy k≠l – to T może być znacznie mniejsze od 1. c) współczynnik V–Cramera: V= χ 2 obl . n min(k − 1, l − 1) 85 Statystyka Wydział Zarządzania Politechniki Białostockiej gdy k=l – to 0≤ V ≤1, (V=T), gdy k≠l – to 0≤ V ≤1, (V>T), Gdy obliczony współczynnik jest „w pobliżu” zera – cechy X i Y są stochastycznie niezależne, im jest bliższy jedności – tym silniejsza zależność. Gdy k=l=2, to ϕ=V=T. Przykład: W celu oceny skuteczności specjalnej diety odchudzającej wśród członków klubu „fitness” przeprowadzono ankietę dotyczącą jej stosowania. Wyniki zawiera tabela: Stosowanie diety Nie stosuje Stosuje 80 20 100 100 180 120 Utrata wagi Bez utraty Utrata Ogółem Ogółem 100 200 300 Przyjmując α=0.05 zweryfikować hipotezę, że utrata wagi zależy od stosowania diety. H0: utrata wagi nie zależy od stosowania diety, H1: utrata wagi zależy od stosowania diety. Stosowanie diety 2. Stosuje 1. Nie stosuje npi2 npi1 np11=60 np12=40 np21=120 np22=80 n.1=180 n.2=120 Utrata wagi 1. Bez utraty 2. Utrata Ogółem n.j Ogółem ni. n1.=100 n2.=200 n=300 (80−60) (20− 40) (100−120) (100−80) + + + = 25 χ = 60 40 120 80 2 2 2 2 2 obl . Ponieważ χ obl . > χ 0.05 ,( 2−1)( 2−1) = χ 0.05 ,1 = 3.841, odrzucamy H0, czyli utrata wagi w istotny sposób zależy od stosowania diety. 2 2 2 86 Statystyka Wydział Zarządzania Politechniki Białostockiej Analiza zależności korelacyjnej między cechami mierzalnymi Istotą zależności korelacyjnej jest to, że określonym wartościom jednej cechy przyporządkowane są ściśle określone średnie drugiej cechy. Zależność jest tym silniejsza, im mocniej różne wartości przyjmowane przez cechę niezależną różnicują średni poziom wartości cechy zależnej. y y Korelacja dodatnia Korelacja ujemna rxy>0 rxy<0 x y x y Brak korelacji rxy≈0 rxy≈0 Zależność krzywoliniowa x x Miarą siły związku liniowego między dwiema cechami jest współczynnik korelacji liniowej Pearsona obliczany wg wzoru: n r xy = COV ( X , Y ) ss x y = ∑ ( x − x)( y − y ) i =1 n i i 2 n ∑ ( x i − x) ∑ ( y i − y ) i =1 87 i =1 2 Statystyka Wydział Zarządzania Politechniki Białostockiej gdy wyniki obserwacji dane są w postaci szeregów szczegółowych lub wg wzoru poniżej gdy wyniki dane są w postaci tablicy korelacyjnej. k l r = xy COV ( X , Y ) ss x = y ∑ ∑ ( xˆ − x)( yˆ − y ) n i =1 j =1 k i j l ij ∑ ( xˆ i − x) n ∑ ( yˆ j − y) n 2 i. i =1 j =1 2 .j r ∈ − 1; 1 , korelacja jest tym silniejsza, im współczynnik co xy do wartości bezwzględnej jest bliższy jedności: - gdy |r|<0.2, najczęściej brak związku między cechami, - gdy 0.2≤|r|<0.4, zależność liniowa słaba, - gdy 0.4≤|r|<0.7, zależność liniowa umiarkowana, - gdy 0.7≤|r|<0.9, zależność liniowa znacząca, - gdy |r|≥0.9, zależność liniowa bardzo silna. Do weryfikacji hipotez: H0: r=0, H1: r≠0 można zastosować test t-Studenta dla współczynnika korelacji. Sprawdzianem hipotezy H0 jest statystyka r t = obl 1− r 2 n−2 Z tablic rozkładu t-Studenta z n-2 stopniami swobody odczytujemy wartość krytyczną tα. Do opisu siły korelacji dwóch cech w przypadku - gdy cechy nie są „dobrze” mierzalne, ale istnieje możliwość ich uporządkowania, - gdy cechy są mierzalne ale ich rozkłady są mocno niesymetryczne stosowany jest współczynnik korelacji rang Spearmana: n 6∑ d i2 r = 1 − n( − 1) , n s i =1 2 88 r ∈ − 1; 1 s Statystyka Wydział Zarządzania Politechniki Białostockiej gdzie di oznaczają różnice między rangami odpowiadających sobie wartości cech xi i yi (i=1,2,...,n). Siłę korelacji ocenia się analogicznie jak przy współczynniku korelacji liniowej. Do weryfikacji hipotez: H0: r=0, H1: r≠0 można także zastosować test t-Studenta dla współczynnika korelacji opisany wyżej. Przykład: W tabeli zestawiono liczbę ludności i powierzchnię 10-ciu województw. Za pomocą współczynnika korelacji rang ocenić, czy istnieje współzależność między liczbą ludności a powierzchnią województw. Województwo Katowickie Warszawskie Gdańskie Poznańskie Krakowskie Kieleckie Wrocławskie Łódzkie Bydgoskie Opolskie Średnia Powierzchnia Ludność Rangi Rangi di di2 ranga X Y X Y 6655 3788 7394 8151 3254 9211 6287 1523 10349 8535 rs = 1 − 3953.0 2409.1 1437.7 1341.4 1232.4 1135.6 1131.6 1130.7 1123.0 1026.0 6 8 5 4 9 2 7 10 1 3 1 2 3 4 5 6 7 8 9 10 -5 -6 -2 0 -4 4 0 -2 8 7 25 36 4 0 16 16 0 4 64 49 3.5 5 4 4 7 4 7 9 5 6.5 6 ⋅ 214 = -0.297 10(100 − 1) Między badanymi cechami zachodzi niewielka korelacja ujemna. Województwa o dużej liczbie ludności mają relatywnie mniejszą powierzchnię (wyższa gęstość zaludnienia). Średnie rangi można wykorzystać do porządkowania obiektów ze względu na dwie lub więcej cech. 89 Statystyka Wydział Zarządzania Politechniki Białostockiej Liniowa funkcja regresji Jeżeli stwierdzona zostanie istotna korelacja między cechami X i Y można wyznaczyć liniową funkcję regresji yˆ = a y x + b y lub xˆ = a x y + bx . Np. Parametry ay i by można wyznaczyć metodą najmniejszych kwadratów z warunku: n n ∑ ( y i − yˆ i) = ∑ ( y i − (a y x + b y )) ⇒ min . 2 i =1 2 i =1 Wyprowadzając z powyższego warunku wzory na obliczanie ay i by otrzymujemy: n a = y COV ( X , Y ) s 2 x = ∑ ( x − x)( y − y ) i i =1 i n ∑ ( x i − x) 2 = r xy s , s y x i =1 b = y − a x. y y ay – współczynnik regresji określa, o ile jednostek zmieni się wartość zmiennej objaśnianej (zależnej) przy zmianie zmiennej objaśniającej (niezależnej) o jednostkę. Do oceny dopasowania prostej regresji do punktów empirycznych wykorzystuje się reszty ei, które stanowią różnicę między wartościami empirycznymi a oczekiwanymi (wyliczonymi z równania regresji) – ei = yi − ŷi dla i=1, 2,..., n. Odchylenie standardowe reszt ei, nazywane jest średnim błędem szacunku, określa się wzorem: n se = ∑ ( y i − yˆ i) 2 i =1 n−2 . W analizie regresji do oceny dopasowania funkcji regresji najczęściej stosuje się współczynnik zbieżności 90 Statystyka Wydział Zarządzania Politechniki Białostockiej ϕ = 2 yx ∑ ( y i − yˆ i) n 2 i =1 n ∑ ( y i − y i) 2 , i =1 który przyjmuje wartości z przedziału [0; 1] – im wartość bliższa 0, tym lepsze dopasowanie. Współczynnikiem determinacji R2 nazywa się wyrażenie R2=1-ϕ2. W przypadku zależności liniowej zachodzi równość: R2=ryx2=1-ϕ2. Testowanie hipotez dotyczących współczynników linii regresji Odchylenia standardowe współczynników ay i by wyrażają się wzorami: n ∑ ( y i − yˆ i) 2 2 sa = y s . = ( n − 2)∑ ( xi − x i) ∑ ( xi − xi ) i =1 e n n 2 i =1 i =1 y n s ∑x 2 sb = e n 2 i =1 n i n∑ ( xi − xi) 2 2 n ∑ ( y i − yˆ i) ∑ x 2 = i =1 i =1 n 2 i ( n − 2) n ∑ ( x i − x i ) i =1 2 . i =1 By zweryfikować hipotezy dotyczące ay H0: ay=a0 i H1: ay≠a0 stosujemy sprawdzian a y − a0 , a0 – pewna stała, np. 0. tobl = sa y Z tablic rozkładu t-Studenta z n-2 stopniami swobody odczytujemy wartość krytyczną tα. By zweryfikować hipotezy dotyczące by H0: by=b0 i H1: by≠b0 stosujemy sprawdzian b y −b0 , a0 – pewna stała, np. 0. tobl = sb y Z tablic rozkładu t-Studenta z n-2 stopniami swobody odczytujemy wartość krytyczną tα. 91 Statystyka Wydział Zarządzania Politechniki Białostockiej 92 Statystyka Wydział Zarządzania Politechniki Białostockiej Analiza dynamiki zjawisk Szeregiem czasowym nazywamy ciąg wyników obserwacji uporządkowanych w czasie {t, yt}, gdzie t oznacza numery kolejnych jednostek czasu, a yt – wielkość badanej cechy w momencie t. Celem analizy szeregów czasowych jest odpowiedź na pytania: – jaka jest dynamika badanego zjawiska? – co wywołuje zmienność badanego zjawiska? – jakie są prognozy na przyszłe okresy? Metody służące odpowiedzi na te pytania można podzielić na: – analizę szeregów czasowych, – metody indeksowe, umożliwiające liczbowe określenie tempa i intensywności zmian zjawiska w czasie. Analiza szeregów czasowych Wykresy przedstawiają przykładowe szeregi czasowe: Energia Produkcja energii elektrycznej w Polsce w latach 1991-94 (mld kWh) 15 15 14 14 13 13 12 12 11 11 10 10 9 8 9 0 5 10 15 20 25 Numery obs. 93 30 35 40 45 8 50 Statystyka Wydział Zarządzania Politechniki Białostockiej a) Przykład ze str. 452 - Jóźwiak, Podgórski Miesiące Lata 1991 1992 1993 1994 I II 14,0 13,4 13,4 12,9 12,9 12,2 12,2 12,3 III IV 12,8 12,5 12,8 12,7 11,3 11,0 10,7 10,9 V VI VII VIII IX 10,6 9,6 9,3 9,9 9,2 9,0 8,9 9,4 9,0 9,0 8,7 9,3 Dane do obliczeń brane są z tabeli: 1 2 3 4 5 ... t Yt 14,0 12,9 12,8 11,3 10,6 9,0 9,0 9,1 9,5 9,3 9,7 9,8 9,8 X 11,2 12,0 11,5 12,3 XI XII 12,1 12,3 13,0 12,3 13,3 13,2 13,5 13,6 45 46 47 48 9,8 12,3 12,3 13,6 Wykr. zmiennej: SZEREG_G Miesięczna liczba pasażerów (w tysiącach) 700 SZEREG_G 600 700 Liczba pasa¿erów linii lotniczej w ci¹gu miesi¹ca w latach 1949-1960 600 500 500 400 400 300 300 200 200 Wahania okresowe proporcjonalne do poziomu zjawiska – model multyplikatywny 100 0 -10 0 10 20 30 40 50 60 70 80 100 0 90 100 110 120 130 140 150 Numery obs. Składniki szeregu czasowego: – trend – wyraża ogólną tendencję rozwojową zjawiska. Wydzielenie składnika charakteryzującego trend poprzez eliminację z szeregu wahań okresowych i przypadkowych nazywa się wygładzaniem (wyrównywaniem); – wahania okresowe (krótkookresowe, długookresowe) – zmiany powtarzające się co pewien okres. Odstęp czasu, w którym występują wszystkie fazy wahań nazywa się cyklem. Wyróżniamy model addytywny (wahania nieza94 Statystyka Wydział Zarządzania Politechniki Białostockiej leżne od poziomu zjawiska) i multyplikatywny (wahania proporcjonalne do poziomu zjawiska); – wahania przypadkowe (losowe) – występują z różną siłą i w różnych kierunkach; – wahania koniunkturalne – wahania rozwoju gospodarki obserwowane w dłuższych okresach czasu. Metody wyrównywania szeregów czasowych: – obliczanie średnich ruchomych, – dopasowanie odpowiedniej funkcji do danych szeregu czasowego. Obliczanie średnich ruchomych Jeżeli oznaczmy kolejne wartości szeregu czasowego jako y1, y2, y3, ..., yn-2, yn-1, yn, to średnie ruchome z nieparzystej liczby okresów, np. z 3 okresów (k=3), wyznaczane są ze wzorów: y2 = y+y +y 1 2 3 ; y3 = y +y +y 2 3 4 ; ! y n −1 = y +y +y n−2 n −1 n 3 3 3 z parzystej zaś liczby okresów (średnie scentrowane), np. z 4 okresów (k=4), wyznaczane są ze wzorów: 1 1 1 1 y1 + y2 + y3 + y4 + y5 y2 + y3 + y4 + y5 + y6 2 ; =2 2 ; y3 = 2 y4 4 4 1 1 + + + + y y y yn−4 n−3 n−2 n−1 yn 2 2 ! yn−2 = 4 Efekt wyrównywania (dla przykładu a)): 95 Statystyka Wydział energii Zarządzania Politechniki Produkcja elektrycznej w PolsceBiałostockiej w latach 1991-94 15 15 14 14 yˆ = at + b 13 13 energia t 12 12 11 11 10 10 9 8 9 0 dane źródłowe 3 okresy (k=3) 6 okresów 5 10(k=6) 15 10 okresów (k=10) 20 25 30 35 40 45 8 50 Numery obs. Wygładzanie analityczne zilustrujemy na przykładzie trendu liniowego. Dla szeregu czasowego należy wyznaczyć parametry liniowej funkcji trendu postaci: Parametry a i b możemy wyliczyć za pomocą wzorów: a – oznacza okresowe tempo wzrostu (a>0) lub ubytku (a<0) n a = ∑ (t − t ) ⋅ y t =1 n ∑ (t − t ) 2 t , b = y − at, t =1 1 n n +1 gdzie t = ∑ t = ; 1 t = 2 n 1 n y = ∑ tt n t =1 wielkości badanego zjawiska b – oznacza stan zjawiska w okresie wyjściowym (t=0). Przykład obliczeń: Mając dane o miesięcznej wielkości produkcji wyrobu A w ciągu roku wyznaczyć średnie ruchome (k=3) oraz oszacujemy parametry trendu liniowego produkcji. 96 Statystyka Wydział Zarządzania Politechniki Białostockiej t yt 1 2 3 4 5 6 7 8 9 10 11 12 78 90 85 110 125 120 150 140 160 200 190 220 210 1800 Średnia ruchoma k=3 t −t -5,5 -4,5 -3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5 4,5 5,5 × 95 106,7 118,3 131,7 136,7 150,0 166,7 183,3 203,3 206,7 × Stąd (t − t ) yt (t − t )2 -495 -382,5 -385 -312,5 -180 -75 70 240 500 665 990 1155 1790 30,25 20,25 12,25 6,25 2,25 0,25 0,25 2,25 6,25 12,25 20,25 30,25 143,00 yˆ ( y t − yˆ t ) ( yt − y) 2 2 t 81,15 93,67 106,19 118,71 131,22 143,74 156,26 168,78 181,29 193,81 206,33 218,85 1800,00 78,25 3600 75,19 4225 14,53 1600 39,61 625 125,97 900 39,17 0 264,35 100 77,02 100 349,93 2500 14,53 1600 186,91 4900 78,25 3600 1343,71 23750 Wynik wygładzania średnimi ruchomymi (k=3) i wyznaczenia trendu liniowego 240 220 Wielkość produkcji (yt) 240 s 11,59 = = 0 , 077 yt=12,52t+68,64V = 150 y 200 220 200 180 180 160 160 140 140 120 120 100 100 80 80 60 0 1 2 3 4 5 6 7 8 9 10 11 12 60 13 Miesiąc (t) . a= 1790/143=12,52 ton/mies. b=150-12,52⋅6,5=68,64 ton. Współczynnik zmienności resztowej równa się 97 Statystyka Wydział Zarządzania Politechniki Białostockiej i oznacza, że odchylenia przypadkowe równania trendu stanowią średnio 7,7% przeciętnego poziomu zaobserwowanej zmienności produkcji. Do oceny jakości dopasowania linii trendu do danych empirycznych wykorzystamy średni błąd resztowy i współczynnik n s = 2 ∑ ( y t − yˆ t ) t =0 2 = n−k n ϕ 2 = ∑ ( y t − yˆ t ) t =1 n ∑ ( yt − y) 1343 ,7 = 134 ,37 10 2 2 = 1343 , 7 = 0 ,057 23750 t =1 zbieżności. Niski współczynnik zbieżności ϕ=0,057 i małe odchylenie standardowe składnika resztowego s=11,6 wskazują, że funkcja trendu dobrze opisuje produkcję w badanym okresie. Znajomość równania trendu daje możliwość prognozowania. Najprostszą metodą prognozowania jest ekstrapolacja. Analiza wahań okresowych Najprostszą metodą pomiaru wahań okresowych jest wykorzystanie wskaźników wahań okresowych (wskaźników sezonowości). Sposób konstrukcji wskaźników jest uzależniony od tego, czy w badanym szeregu czasowym występuje silny trend, czy też jest umiarkowany lub nie występuje wcale oraz czy wahania nakładają się na trend w sposób addytywny czy multyplikatywny. Załóżmy, że szereg czasowy wykazuje wahania okresowe i że w każdym cyklu jest k faz wahań. Konstrukcja wskaźnika wahań okresowych przy tych założeniach polega na: 98 Statystyka Wydział Zarządzania Politechniki Białostockiej a) wygładzeniu szeregu czasowego metodą mechaniczną (średnich ruchomych z k okresów) lub analityczną; b) uwolnieniu szeregu czasowego od trendu – uzyskujemy to stosując przekształcenie: w= t y ; t = 1, 2, ..., n yˆ t t (wartości wt zawierają wahania okresowe i przypadkowe). c) eliminacji wahań przypadkowych z wielkości wt – dla jednoimiennych okresów, tj. pochodzących z tej samej fazy wahań, obliczamy średnie arytmetyczne z wyrazów wt; otrzymane w ten sposób wartości nazywamy surowymi wskaźnikami wahań okresowych: s c= ∑w i + j ⋅k ; i = 1, 2, ..., k s s oznacza liczbę jednoimiennych okresów, k – liczbę wahań w cyklu; surowe wskaźniki wahań informują, o ile procent poziom zjawiska w danej fazie cyklu jest wyższy lub niższy od poziomu, jaki byłby osiągnięty, gdyby nie było wahań, a rozwój postępował zgodnie z trendem; d) obliczeniu czystych wskaźników wahań okresowych ct – wskaźniki surowe dzieli się przez średnią arytmetyczną wskaźników surowych (suma równa się liczbie faz wahań). ' j =0 i Przykład: Produkcja piwa w jednym z browarów kształtuje się następująco: Lata 1993 1994 1995 Kwartał I 3 4 5 II 4 6 8 99 III 8 10 12 IV 5 6 7 Statystyka Wydział Zarządzania Politechniki Białostockiej Trend produkcji piwa jest rosnący i wykazuje kwartalne wahania sezonowe (cztery fazy wahań w cyklu rocznym). Wielkośc produkcji (tys. hl) Produkcja piwa w latach 1993-95 14 14 12 12 10 10 8 8 6 6 4 4 2 0 1 2 3 4 5 6 7 8 9 10 11 12 2 13 Numery obs. Wyznaczmy kwartalne wskaźniki sezonowości. a) wygładzamy szereg empiryczny – wyznaczymy równanie trendu liniowego 63 = 0,441; b = 6,5 − 0,441 ⋅ 6,5 = 3,636 143 Równanie trendu ma postać a= yˆ = 0,441t + 3,636 t 100 Statystyka Wydział Zarządzania Politechniki Białostockiej t 1 2 3 4 5 6 7 8 9 10 11 12 - 2 Kwartał (t − t ) y (t − t ) t 3 I -16,5 30,25 4 II -18 20,25 8 III -28 12,25 5 IV -12,5 6,25 4 I -6 2,25 6 II -3 0,25 10 III 5 0,25 6 IV 9 2,25 5 I 12,5 6,25 8 II 28 12,25 12 III 54 20,25 7 IV 38,5 30,25 78 63 143,00 × yt yˆ t 4,08 4,52 4,96 5,40 5,84 6,28 6,72 7,16 7,60 8,04 8,48 8,92 w t = y t : yˆ t 0,736 0,885 1,614 0,926 0,685 0,955 1,488 0,838 0,658 0,995 1,415 0,784 y t w t = y t: y t 5,13 5,50 6,00 6,38 6,63 7,00 7,50 7,88 1,56 0,91 0,67 0,94 1,51 0,86 0,67 1,02 b) Uwalniamy wyrazy szeregu od trendu (kolumny 7 i 9) c) Obliczamy surowe wskaźniki sezonowości c . W celu wyeliminowania wahań przypadkowych obliczamy średnie arytmetyczne wartości wt dla tej samej fazy wahań (średnie dla czterech kwartałów). ' t Metoda analityczna Lata 1993 1994 1995 Sumy kwartalne Surowe wskaźniki c ' t II 0,885 0,955 0,955 2,836 0,945 III 1,614 1,488 1,415 4,516 1,505 IV 0,926 0,838 0,784 2,549 0,850 III 1,56 1,51 IV 0,91 0,86 3,07 1,535 1,77 0,883 Metoda mechaniczna Lata 1993 1994 1995 Sumy kwartalne Surowe wskaźniki c I 0,736 0,685 0,658 2,079 0,693 ' t I II 0,67 0,67 1,34 0,667 0,94 1,02 1,96 0,979 101 Statystyka Wydział Zarządzania Politechniki Białostockiej d) Czyste wskaźniki sezonowości (ich suma ma się równać 4, gdyż jest tyle faz wahań). Korekta wskaźników surowych polega na podzieleniu ich przez ich średnią arytmetyczną, czyli 0 , 693 + 0 , 945 + 1, 505 + 0 ,850 = 0 , 9983 4 Metoda Analityczna Mechaniczna Razem 4 4 Czyste wskaźniki wahań ci I 0,694 0,656 II 0,947 0,963 III 1,508 1,511 IV 0,851 0,869 Interpretacja: w I kwartale każdego roku na skutek działania składnika okresowego produkcja piwa jest niższa od przeciętnej kwartalnej o 30,6%, w II kwartale niższa o 5,3%, w III wyższa o 50,8%, w czwartym niższa o 14,9%. e) prognoza na 1996 rok Do prognozowania wykorzystujemy równanie trendu: yˆ = 0,441t + 3,636 t Dla kolejnych kwartałów 1996 roku, a więc dla t=13, 14, 15, 16, prognozy punktowe są następujące: I kw. 1996: 0,441×13+3,636=9,369; II kw. 1996: 0,441×14+3,636=9,81; III kw. 1996: 0,441×15+3,636=10,251; IV kw. 1996: 0,441×16+3,636=10,692; By trafnie prognozować produkcję w poszczególnych kwartałach przy założeniu, że wahania sezonowe będą wpływać podobnie jak w latach poprzednich, należy prognozy te pomnożyć przez odpowiednie wskaźniki sezonowości. Skorygowany poziom produkcji wynosi odpowiednio: I – 6,502; II – 9,29; III – 15,48; IV – 9,099 102 Statystyka Wydział Zarządzania Politechniki Białostockiej Organizacja badań statystycznych Etapy badania statystycznego 1. Projektowanie 2. Gromadzenie materiału (pomiar, obserwacja statystyczna) 3. Porządkowanie, opracowanie w postaci tablic, wykresów 4. Analiza wyników, wnioskowanie, podejmowanie decyzji Ad. 1. Projektowanie badania a) sprecyzować cel i rodzaj badania, ustalić ograniczenia środków, zespół badawczy, limit czasu - cele badań statystycznych: - poznanie rozkładu zbiorowości pod względem wybranych cech, wyznaczenie wartości wybranych parametrów zbiorowości statystycznej, - ustalenie związków między cechami, - porównanie i porządkowanie obiektów wielocechowych, - porównanie dynamiki zjawisk w zbiorowości. - rodzaj badania statystycznego - pełne (całkowite, wyczerpujące) - umożliwia dokładne określenie wybranych parametrów populacji. Przykłady: - spis statystyczny, - rejestracja statystyczna (urodzeń, zgonów, nowotworów, przedsiębiorstw [REGON], kierowców), - sprawozdawczość statystyczna, Badania pełne mogą być: - ciągłe (sprawozdawczość i rejestracja ciągła) - okresowe (spisy) 103 Statystyka Wydział Zarządzania Politechniki Białostockiej - doraźne (badania ankietowe, referenda, sondaże, badanie kondycji spółek notowanych na giełdzie papierów wartościowych w Warszawie) - częściowe (np. badanie jakości produktów) – podstawowym problemem jest dobór próby - reprezentacyjne (odpowiednio liczna próbka dobrana losowo) - monograficzne (opis jednostki lub niewielkiej ich liczby szczegółowy. Często wybiera się jednostki przodujące lub odstające. Poznawanie i rozpowszechnianie wzorców) - ankietowe (ustalanie faktów i opinii o nich na ogół z zachowaniem anonimowości) b) zdefiniować zbiorowość statystyczną (populację – ściśle określić kogo, gdzie, w jakim czasie badamy) i jednostkę statystyczną (jednostkę badania – podmiot badania) c) dokonać wyboru cech statystycznych (zakres badania) d) określić metodę badania e) ustalić źródła pozyskiwania informacji (źródła pierwotne, wtórne [sprawozdawczość, publikacje statystyczne]) f) opracować formularze i makiety tablic wynikowych g) zapewnić odpowiednią kontrolę materiału statystycznego h) ewentualne badanie pilotażowe Metody losowania - losowanie indywidualne - zespołowe Operat losowania – lista wszystkich jednostek losowania. - losowanie nieograniczone - losowanie ograniczone (pewne jednostki nie mogą się znaleźć w próbie jednocześnie) 104 Statystyka Wydział Zarządzania Politechniki Białostockiej - losowanie zależne - losowanie niezależne - losowanie proste (niezależne - ze zwracaniem) indywidualne, nieograniczone, zależne losowanie warstwowe - proporcjonalne losowanie systematyczne losowanie za pomocą liczb losowych - losowanie wielostopniowe 105