Statystyka matematyczna - Wyższa Szkoła Handlowa
Transkrypt
Statystyka matematyczna - Wyższa Szkoła Handlowa
Statystyka matematyczna dla kierunku Zarządzanie na studiach drugiego stopnia Wojciech Kordecki Wyższa Szkoła Handlowa we Wrocławiu Wrocław 2013 Recenzenci: prof. dr hab. Tadeusz Galanc dr hab. Jerzy Wawrzynek Materiał wyłącznie do użytku edukacyjnego. Reprodukcja do użytku komercyjnego jest zabroniona. Skład komputerowy w systemie LATEX wykonał autor c ⃝Wyższa Szkoła Handlowa we Wrocławiu, 2013 ISBN: 978–83–92382–6–2 Wydanie I Wyższa Szkoła Handlowa we Wrocławiu ul. Ostrowskiego 22 53-238 Wrocław Spis treści Wstęp 4 1. Podstawy rachunku prawdopodobieństwa 1.1. Zdarzenia i prawdopodobieństwo . . . . 1.2. Zmienne losowe . . . . . . . . . . . . . . 1.3. Parametry zmiennych losowych . . . . 1.4. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 8 11 14 2. Rozkłady zmiennych losowych 2.1. Rozkłady dyskretne . . . . . . 2.2. Rozkłady typu ciągłego . . . . 2.3. Populacja, próba i statystyki . 2.4. Twierdzenia graniczne . . . . 2.5. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 17 18 20 22 23 3. Estymacja 3.1. Zasady estymacji parametrów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Szczególne przypadki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 25 26 30 4. Testowanie hipotez 4.1. Zasady testowanie hipotez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Szczególne przypadki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 32 33 37 A. Elementy statystyki opisowej A.1. Opracowanie materiału statystycznego . . . . . . . . . . . . . . . . . . . . . . . . . . . A.2. Parametry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 38 41 Odpowiedzi Odpowiedzi Odpowiedzi Odpowiedzi Odpowiedzi 46 46 49 52 54 do do do do wykładu wykładu wykładu wykładu 1 2 3 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tablice statystyczne 57 Literatura 60 Skorowidz 61 3 Wstęp Przedmiot Statystyka matematyczna jest wykładany w Wyższej Szkole Handlowej we Wrocławiu na studiach drugiego stopnia na kierunku Zarządzanie. Przedstawiony materiał podzielony jest na cztery wykłady. Taki bowiem układ – cztery trzygodzinne wykłady, przewidziany jest w programie studiów niestacjonarnych w Wyższej Szkole Handlowej we Wrocławiu. Niemniej, zakres materiału jest nieco szerszy od programu obowiązującego na tych studiach, może być więc wykorzystany również na studiach stacjonarnych drugiego stopnia na kierunku Zarządzanie lub na innych kierunkach mających podobne programy ze statystyki. Materiały do tego wykładu mają charakter pomocniczy i ich celem jest ułatwienie słuchaczom samodzielnego studiowania literatury. Podstawowym źródłem na którym te materiały są oparte, są podręczniki S. Ostasiewicz, Z. Rusnak i U. Siedleckiej [8] oraz J. Wawrzynka [10]. Przeznaczone dla studentów kierunków technicznych skrypty H. Jasiulewicz i W. Kordeckiego [3, 6] mogą być uzupełniającym źródłem wiadomości. Chętnym do znacznego poszerzenia wiedzy polecam książki J. Jakubowskiego i R. Sztencla [2] oraz S. M. Kota, J. Jakubowskiego i A. Sokołowskiego [7]. Obszerna monografia A. D. Aczela [1] poświęcona jest zastosowaniu statystyki w zarządzaniu. Podręcznikiem do przedmiotu Statystyka opisowa wykładanego na studiach pierwszego stopnia jest skrypt [9] pod red. M. Rymarczyka. Najważniejsze wiadomości są skrótowo przedstawione w dodatku A. Nie mogą one jednak zastąpić podręcznika. Brakujące wiadomości z matematyki można uzupełnić korzystając na przykład ze skryptu [5] lub standardowych podręczników z matematyki dla szkół wyższych. 4 Wykład 1 Podstawy rachunku prawdopodobieństwa 1.1. Zdarzenia i prawdopodobieństwo Niech ω będzie wynikiem doświadczenia, którego nie jesteśmy w stanie przewidzieć (na przykład liczbą oczek przy rzucie kostką). Zbiór wszystkich możliwych wyników doświadczeń nazywamy przestrzenią zdarzeń elementarnych Ω, a poszczególne wyniki ω ∈ Ω nazywamy zdarzeniami elementarnymi. Przykład 1.1.1. Rzut monetą: przestrzenią zdarzeń elementarnych jest Ω = {O, R} gdzie O – zdarzenie polegające na wyrzuceniu orła, a R – zdarzenie polegające na wyrzuceniu reszki. Podzbiory przestrzeni zdarzeń elementarnych1 nazywamy zdarzeniami losowymi . Zwyczajowo oznacza się je dużymi literami z początku alfabetu: A, B, C, · · · ⊆ Ω. Działania na zdarzeniach: • A ∪ B – suma zdarzeń (zajdzie zdarzenie A lub zdarzenie B), • A ∩ B – iloczyn zdarzeń (zajdzie zdarzenie A i zdarzenie B), • A \ B – różnica zdarzeń (zajdzie zdarzenie A, ale nie zajdzie zdarzenie B), • A = Ω \ A – zdarzenie przeciwne do A, (nie zajdzie zdarzenie A). Zdarzenie A = Ω nazywa się zdarzeniem pewnym, a zdarzenie A = ∅ – zdarzeniem niemożliwym. Jeżeli A ∩ B = ∅, to zdarzenia A i B są rozłączne, czyli wykluczające się. Zdarzenia losowe {A1 , A2 , . . . } są parami rozłączne, gdy dla każdej pary i ̸= j zachodzi Ai ∩ Aj = ∅. Przykład 1.1.2. Rzut kostką do gry: Ω = {ω1 , . . . , ω6 }, gdzie ωi jest zdarzeniem elementarnym polegającym na wyrzuceniu i oczek. Przykładem zdarzenia losowego jest zbiór A zdarzeń elementarnych odpowiadających wyrzuceniu parzystej liczby oczek: A = {ω2 , ω4 , ω6 }, zbiór B zdarzeń elementarnych odpowiadających wyrzuceniu nieparzystej liczby oczek: B = {ω1 , ω3 , ω5 } oraz zbiór C odpowiadający wyrzuceniu mniej niż czterech oczek: C = {ω1 , ω2 , ω3 }. Wtedy • A ∪ B = Ω, • A ∩ B = ∅, 1 Nie wszystkie podzbiory, ale ścisła definicja wykracza poza zakres tego skryptu. 5 6 WYKŁAD 1. PODSTAWY RACHUNKU PRAWDOPODOBIEŃSTWA • A ∪ C = {ω1 , ω2 , ω3 , ω4 , ω6 }, • A ∩ C = {ω2 }, • A \ C = {ω4 , ω6 }, • A = B, • C = {ω4 , ω5 , ω6 }. Zauważmy, że {ω5 } = A ∪ B. Na zbiorze zdarzeń losowych określa się funkcję P o własnościach: (a) dla każdego zdarzenia A jest 0 ≤ P(A) ≤ 1, (b) P(Ω) = 1, P(∅) = 0, (c) P(A1 ∪ A2 ∪ . . . ) = P(A1 ) + P(A2 ) + . . . dla zdarzeń parami rozłącznych. Taka funkcja nazywa się prawdopodobieństwem. Z własności (a) – (c) można wyprowadzić dalsze pożyteczne własności: (d) P(A) = 1 − P(A), (e) jeśli B ⊆ A to P(A \ B) = P(A) − P(B), (f) dla dowolnych (niekoniecznie wykluczających) się zdarzeń A i B: P(A ∪ B) = P(A) + P(B) − P(A ∩ B). Niech A1 , A2 , . . . , An będą zdarzeniami parami rozłącznymi i równoprawdopodobnymi, takimi że A1 ∪ A2 ∪ · · · ∪ An = Ω. Przykładem takich zdarzeń mogą być zdarzenia losowe jednoelementowe A1 = {ω1 }, . . . , An = {ωn }, gdy Ω = {ω1 , ω2 , . . . , ωn }. Wtedy P(Ai ) = 1/n, a każde inne zdarzenie A, które jest sumą k takich rozłącznych zdarzeń, ma prawdopodobieństwo P(A) = k . n (1.1.1) Zdarzenia Ai wchodzące do zdarzenia A, tzn. takie, że Ai ⊆ A nazywamy zdarzeniami sprzyjającymi zdarzeniu A. Wzór (1.1.1) mówi wtedy, że prawdopodobieństwo zdarzenia A jest stosunkiem liczby zdarzeń sprzyjających zdarzeniu A do liczby wszystkich zdarzeń Ai . Wzór (1.1.1) nazywa się często klasyczną definicją prawdopodobieństwa. Należy jednak pamiętać, że wzór (1.1.1) jest prawdziwy tylko dla zdarzeń Ai równoprawdopodobnych! Przykład 1.1.3. Obliczyć prawdopodobieństwo wygrania „czwórki” w totolotka. Losowanych jest 6 numerów spośród 49 numerów. Jest ( ) 49 n= = 13983816 6 takich możliwości. Niech A4 oznacza zdarzenie polegające na wylosowaniu „czwórki”. Jest ( )( ) 6 43 k= = 15 · 903 = 13545 4 2 takich zdarzeń. Stąd k 645 P (A4 ) = = = n 665896 (6)(43) 4 (49)2 6 = 0.0009686 < 0.001. 1.1. ZDARZENIA I PRAWDOPODOBIEŃSTWO 7 Oznaczając przez A5 i A6 wylosowanie „piątki ” i „szóstki”, otrzymujemy w ten sam sposób (6)(43) P (A5 ) = 5 (49)1 = 1.845 · 10−5 < 0.0001, 6 (6)(43) P (A6 ) = 6 (49)0 = 7.151 · 10−8 < 0.0000001. 6 Ponieważ zdarzenia A4 , A5 i A6 są parami rozłączne, to prawdopodobieństwo wylosowania co najmniej „czwórki” wynosi P (A4 ) + P (A5 ) + P (A6 ) i jest mniejsze od 0.001. Prawdopodobieństwo warunkowe zdarzenia A, jeśli wiadomo, że zaszło zdarzenie B (pod warunkiem zdarzenia B), oznaczamy symbolem P(A|B) i obliczamy następująco: P(A|B) = P(A ∩ B) , P(B) (1.1.2) o ile P(B) > 0. Zwróćmy uwagę, że prawdopodobieństwa: bezwarunkowe P (A) i warunkowe P (A|B) są prawdopodobieństwami tego samego zdarzenia A. Prawdopodobieństwa te mogą być różne, gdyż fakt zajścia zdarzenia B może być dodatkową informacją o zdarzeniu A i jego znajomość może zmienić prawdopodobieństwo tego zdarzenia. Z tego powodu zdarzenie B nazywane jest często przyczyną, a zdarzenie A – skutkiem. Ze wzoru (1.1.2) wynika często używany wzór P (A ∩ B) = P (A|B) P (B) = P (B|A) P (A) . Jest on pożyteczny w sytuacji gdy znamy prawdopodobieństwo przyczyny, tzn. znamy P (B) i znamy prawdopodobieństwo z jakim przyczyna B wywołuje skutek A, tzn. znamy P (A|B). Zdarzenia A i B określamy jako niezależne, gdy P (A ∩ B) = P (A) P (B) . (1.1.3) Porównując wzory (1.1.2) i (1.1.3), otrzymujemy wniosek, że jeśli zdarzenia A i B są niezależne, to P (A|B) = P (A) i P (B|A) = P (B), czyli jeśli A i B są niezależne, to prawdopodobieństwo warunkowe jest równe prawdopodobieństwu bezwarunkowemu. Załóżmy, że zdarzenie A może zajść, jeśli zajdzie jedno z wykluczających się zdarzeń B1 , B2 , . . . , Bn , tzn. gdy dla dowolnej pary i ̸= j jest Bi ∩ Bj = ∅ oraz załóżmy, że B1 ∪ B2 ∪ · · · ∪ Bn = Ω. Wtedy prawdziwe są dwa wzory: P (A) = P (A|B1 ) P (B1 ) + P (A|B2 ) P (B2 ) + · · · + P (A|Bn ) P (Bn ) , (1.1.4) P (A|Bi ) P (Bi ) , (1.1.5) P (A) gdzie P(A) we wzorze (1.1.5) można obliczyć ze wzoru (1.1.4). Wzór (1.1.4) nosi nazwę wzoru na prawdopodobieństwo całkowite, a wzór (1.1.5) – wzoru Bayesa. P (Bi |A) = Przykład 1.1.4. Dla zdarzeń określonych w przykładzie 1.1.2 mamy P (A) = Ponieważ P (A ∩ B) = to P (A|B) = 1 , 6 3 1 = . 6 2 P (B) = 3 1 = , 6 2 P (A ∩ B) 1 1 = < P (A) = . P (B) 3 2 8 WYKŁAD 1. PODSTAWY RACHUNKU PRAWDOPODOBIEŃSTWA 1.2. Zmienne losowe Zmienną losową X jest funkcja2 określona na przestrzeni zdarzeń elementarnych Ω o wartościach w zbiorze liczb rzeczywistych R, tzn. X : Ω → R. Zwyczajowo zmienne losowe oznacza się dużymi literami z końca alfabetu: X, Y , . . . , a ich wartości małymi x, y, . . . , tzn. piszemy x = X (ω), y = Y (ω) itd. Wartość x zmiennej losowej X (ω) nazywamy realizacją zmiennej losowej. Przykład 1.2.1. Przy rzucie monetą (przykład 1.1.1) można określić zmienne losowe X i Y w następujący sposób: X(O) = −1, X(R) = 1 oraz Y (R) = −1, Y (O) = 1. Taka para zmiennych losowych jest modelem matematycznym dwuosobowej gry o następujących regułach: • gracz A rzuca monetą, • gdy wypadnie orzełek, gracz A płaci graczowi B złotówkę, • gdy wypadnie reszka, gracz B płaci graczowi A złotówkę. Zmienna losowa X jest więc zyskiem lub stratą gracza A, a zmienna losowa Y jest więc zyskiem lub stratą gracza B. Między tymi zmiennymi zachodzi czysto deterministyczny związek X = −Y . Przykład 1.2.2. Zmienną losową może być liczba oczek przy rzucie jedną kostką do gry (przykład 1.1.2): X (ωi ) = i. Zmienna losowa może też wskazywać, czy wyrzucono np. „szóstkę”, czy też inną liczbę oczek: Y (ω6 ) = 1 oraz Y (ωi ) = 0 dla i = 1, . . . , 5. Zmienne losowe wyznaczają zdarzenia, np. {ω : X(ω) < x} oznacza „zbiór tych zdarzeń elementarnych, dla których wartość zmiennej losowej X jest mniejsza od liczby x”. Zwykle zamiast kompletnego wzoru {ω : X(ω) < x} stosuje się skrócony zapis {X < x}. Dystrybuantą zmiennej losowej X nazywamy funkcję o argumentach i wartościach rzeczywistych określoną wzorem F (x) = P({ω : X (ω) < x}) = P (X < x) (1.2.1) dla każdego x. Oznacza to również, że P (a ≤ X < b) = F (b) − F (a) . (1.2.2) Z definicji (1.2.1) wynika, że a) 0 ≤ F (x) ≤ 1, b) F (−∞) = lim F (x) = 0, F (∞) = lim F (x) = 1, x→−∞ x→∞ c) F (x) jest funkcją niemalejącą. Mówimy, że znamy rozkład zmiennej losowej, jeżeli znamy jej dystrybuantę lub inne równoważne (dalej omówione) charakterystyki. Wśród zmiennych losowych wyróżnia się zmienne losowe skokowe (dyskretne) i zmienne losowe typu ciągłego. Zmienne losowe skokowe przybierają tylko skończoną liczbę wartości albo ich wartości dają się ustawić w ciąg. Dystrybuanta zmiennej losowej skokowej jest przedziałami stała, a na granicach przedziałów ma skoki. Dla zmiennych losowych skokowych zamiast dystrybuanty wystarczy tylko znać prawdopodobieństwa P(X = xi ) = pi , gdzie xi są (ustawionymi w ciąg) wartościami, które zmienna losowa X przyjmuje, a pi są wartościami skoków dystrybuanty w punktach xi . Prawdopodobieństwa pk mają następujące własności: 2 Nie każda funkcja, ale ścisła definicja wykracza poza zakres tego skryptu. 1.2. ZMIENNE LOSOWE 9 a) pk > 0 dla każdego k, ∑ b) p1 + p2 + · · · = pk = 1 k Zmienna losowa typu ciągłego ma ciągłą dystrybuantę, którą ponadto można przedstawić w postaci ∫x F (x) = f (t) dt . (1.2.3) −∞ Funkcję f(x) ze wzoru (1.2.3) nazywa się gęstością. W tych punktach, w których dystrybuanta ma pochodną, gęstość wyraża się wzorem f(x) = F ′ (x) = dF(x) . dx (1.2.4) Z definicji gęstości wynika, że ma ona własności: a) f (x) ≥ 0, ∫∞ b) f (x) dx = 1. −∞ Własność b) geometrycznie oznacza, że pole pod wykresem gęstości jest równe jeden. Za pomocą gęstości zmiennej losowej typu ciągłego obliczamy P (a < X < b): ∫b P (a < X < b) = F (b) − F (a) = f (x) dx. a Dla zmiennej losowej X typu ciągłego, P (X = x0 ) = 0 dla dowolnej ustalonej liczby x0 . Wtedy też P (X < x) = P (X ≤ x). Przykład 1.2.3. Określmy gęstość wzorem { 2 (1 − x) dla 0 < x < 1, f (x) = 0 dla pozostałych x. Wykres gęstości jest przedstawiony na rys. 1.1. Oczywiście f (x) ≥ 0. Jak widać na wykresie, spełniony jest również warunek b), gdyż obszar pod wykresem tworzy trójkąt o polu równym 1. Dystrybuanta dla 0 < x < 1 jest określona wzorem x ∫x ( ) 2 F (x) = P (X < x) = 2 (1 − t) dt = − (1 − t) = − (1 − x)2 − 1 = x (2 − x) . 0 0 F (x) = 0 dla x < 0 oraz F (x) = 1 dla x > 1. Wykres F (x) jest przedstawiony na rys. 1.1. Para zmiennych losowych X i Y ma rozkład dwuwymiarowy. Dystrybuanta tej pary nazywa się dystrybuantą łączną i wyraża się wzorem F (x, y) = P (X < x, Y < y) . Dystrybuanty zmiennych losowych X i Y FX (x) = P (X < x) , FY (y) = P (Y < y) (1.2.5) 10 WYKŁAD 1. PODSTAWY RACHUNKU PRAWDOPODOBIEŃSTWA 2 6f (x) 6F (x) 1 1 0 -x 1 0 1 -x Rysunek 1.1: Gęstość i dystrybuanta zmiennej losowej z przykładu 1.2.3 noszą nazwę dystrybuant brzegowych. Zmienne losowe X i Y są niezależne, gdy P ({ω : X < x} ∩ {ω : Y < y}) = P ({ω : X < x}) P ({ω : Y < y}) , czyli gdy dystrybuanta łączna jest iloczynem dystrybuant brzegowych: F (x, y) = FX (x) FY (y) . (1.2.6) Rozkład dwuwymiarowy jest dyskretny, gdy obie zmienne losowe X i Y są dyskretne. Przyjmiemy oznaczenia ) ( pij = P X = xi , Y = yj , pi· = P (X = xi ) , ) ( p·j = P Y = yj . Prawdopodobieństwa pi· i p·j obliczamy ze wzorów: ∑ pi· = P (X = xi ) = pij , (1.2.7) j ( ) ∑ p·j = P Y = yj = pij . (1.2.8) i Przykład 1.2.4. Rzucamy dwiema kostkami do gry. Niech X będzie liczbą oczek na pierwszej kostce, Z na drugiej, a Y większym z tych wyników, czyli Y = max{X, Z}. Rozkład dwuwymiarowy zmiennej (X, Y ), czyli prawdopodobieństwa pij , można przedstawić w postaci macierzy 1 2 3 4 5 6 1 2 3 4 5 6 1/36 0 0 0 0 0 1/36 2/36 0 0 0 0 1/36 1/36 3/36 0 0 0 1/36 1/36 1/36 4/36 0 0 1/36 1/36 1/36 1/36 5/36 0 1/36 1/36 1/36 1/36 1/36 6/36 . Sposób otrzymania tej macierzy objaśnimy na przykładzie. Wynik (2, 4) otrzymamy wtedy, gdy na pierwszej kostce wypadną dwa oczka, a na drugiej cztery. Prawdopodobieństwo tego wynosi (drugi wiersz, czwarta 1.3. PARAMETRY ZMIENNYCH LOSOWYCH 11 kolumna) (1/6)(1/6) = 1/36. Wynik (4, 2) jest niemożliwy, a wynik (2, 2) otrzymamy wtedy, gdy na pierwszej kostce będą dwa oczka, a na drugiej jedno lub dwa oczka. Prawdopodobieństwo tego wynosi (drugi wiersz, druga kolumna) (1/6)(2/6) = 2/36. Korzystając ze wzoru (1.2.7), otrzymujemy pi· = 1/6, (co jest oczywiste, bo X jest liczbą oczek na pierwszej kostce), a ze wzoru (1.2.8) otrzymujemy p·j = (2j − 1)/36. Widać, że relacja (1.2.6) nie jest spełniona, więc zmienne losowe X i Y nie są niezależne. Rozkład dwuwymiarowy typu ciągłego posiada gęstość łączną (analogicznie do wzoru (1.2.4)): f (x, y) = ∂2 F (x, y) . ∂x∂y (1.2.9) Gęstości fX (x) i fY (y) zmiennych losowych są gęstościami brzegowymi. Zmienne losowe typu ciągłego są niezależne, gdy f (x, y) = fX (x) fY (y) . (1.2.10) 1.3. Parametry zmiennych losowych Kwantylem rzędu p, p ∈ (0, 1), rozkładu zmiennej losowej X nazywamy liczbę ξp spełniającą nierówności P(X ≤ ξp ) ≥ p , (1.3.1) P(X ≥ ξp ) ≥ 1 − p . Nierówności (1.3.1) nie wyznaczają kwantyli jednoznacznie. Gdy dystrybuanta F (x) jest ciągła, to kwantyl ξp jest rozwiązaniem równania F(x) = p. Rozwiązanie to też nie musi być jednoznaczne. Mediana oznaczana symbolem Me jest kwantylem rzędu p = 1/2, czyli Me = ξ1/2 . Kwantyle rzędów p = 1/4 i p = 3/4 nazywa się kwartylami rzędu 1 i 3 i oznacza się je symbolami Q1 i Q3 , czyli Q1 = ξ1/4 i Q3 = ξ3/4 . Mediana jest kwartylem rzędu 2: Q2 = ξ2/4 = Me. Do wskaźników rozrzutu zmiennej losowej zalicza się odchylenie ćwiartkowe Q = (ξ3/4 − ξ1/4 ) /2 = (Q3 − Q1 ) /2. Wartość oczekiwana EX zmiennej losowej X (zwana również średnią teoretyczną) jest określona osobno dla zmiennych skokowych, a osobno dla zmiennych typu ciągłego. Dla zmiennych skokowych jest to liczba określona wzorem3 ∑ EX = x1 p1 + x2 p2 + · · · = xk pk , (1.3.2) k a dla zmiennych losowych typu ciągłego – wzorem4 ∫∞ xf(x) dx . EX = (1.3.3) −∞ Gdy chcemy obliczyć wartości oczekiwane potęg zmiennych losowych, to wzory (1.3.2) i (1.3.3) przybierają postać odpowiednio ∑ EX n = x1n p1 + x2n p2 + · · · = xkn pk (1.3.4) k 3 4 Dla istnienia wartości oczekiwanej trzeba założyć bezwzględną zbieżność szeregu (1.3.2). Dla istnienia wartości oczekiwanej trzeba założyć bezwzględną zbieżność całki (1.3.3). 12 WYKŁAD 1. PODSTAWY RACHUNKU PRAWDOPODOBIEŃSTWA oraz ∫∞ n x n f(x) dx . EX = (1.3.5) −∞ Ważnym parametrem zmiennej losowej X jest wariancja teoretyczna D2 X określona wzorem D2 X = E(X − EX)2 = EX 2 − (EX)2 (1.3.6) oraz odchylenie standardowe σ określone wzorem √ σ = D2 X. Odchylenie standardowe nazywane jest również dyspersją. Uwaga. Wariancja D2 X jest również często oznaczana przez V(X) lub Var(X). Przykład 1.3.1. Niech zmienne losowe X i Y będą takie, jak w przykładzie 1.2.1. Ponieważ P (X = −1) = P (Y = −1) = 1/2 oraz P (X = 1) = P (Y = 1) = 1/2, zmienne X i Y mają ten sam rozkład, mimo że są różne: X = −Y . Wobec tego mają te same parametry, wartość oczekiwaną określoną wzorem (1.3.2) i wariancję określoną wzorem (1.3.6), gdzie EX 2 obliczamy ze wzoru (1.3.4). EX = EY = 0, D2 X = D2 Y = 1. Medianą Me = ξ1/2 jest dowolna liczba −1 ≤ ξ1/2 ≤ 1. Można więc przyjąć ξ1/2 = 0, ale można też przyjąć ξ1/2 = −1 lub ξ1/2 = 1. Widać, że w tym przypadku mediana nie jest pożytecznym parametrem. Przykład 1.3.2. Niech zmienna losowa X będzie taka jak w przykładzie 1.2.2. Ponieważ P (X = i) = 1/6 dla i = 1, 2, . . . , 6, to korzystając z tych samych wzorów co w przykładzie 1.3.1 i w ten sam sposób, otrzymujemy 1 21 7 = = 3.5, (1 + 2 + · · · + 6) = 6 6 2 ( ) 1 91 EX 2 = 12 + 22 + · · · + 62 = , 6 6 ( )2 91 7 35 D2 X = EX 2 − (EX)2 = − = ≈ 2.92, 6 2 12 √ √ 35 ≈ 1.71. σ = D2 X = 12 EX = Medianą może być dowolna liczba 3 ≤ ξ1/2 ≤ 4, a więc w szczególności można przyjąć ξ1/2 = EX = 3.5. Pozostałe kwartyle odchylenie i ćwiartkowe są wyznaczone jednoznacznie ze wzoru (1.3.1) dla p = 1/4 i p = 3/4. Q1 = 2, bo P (X ≤ 2) = 1/3 ≥ 1/4, P (X ≥ 2) = 5/6 ≥ 3/4, Q3 = 5, bo P (X ≤ 5) = 5/6 ≥ 3/4, P (X ≥ 5) = 1/3 ≥ 1/4, Q = (Q3 − Q1 ) /2 = 1.5 < σ. Wartość oczekiwana i wariancja mają następujące własności: E(aX) = aEX, (1.3.7) E(X + Y ) = EX + EY , (1.3.8) 2 2 2 D (aX) = a D X, (1.3.9) (1.3.10) 1.3. PARAMETRY ZMIENNYCH LOSOWYCH 13 Dla niezależnych X, Y : D2 (X + Y ) = D2 X + D2 Y . (1.3.11) Jeśli zmienne losowe X i Y nie są niezależne, to równość (1.3.11) może nie zachodzić. Kowariancja jest określona wzorem C (X, Y ) = E ((X − EX) (Y − EY )) = E (XY ) − (EX) (EY ) . (1.3.12) Jeśli zmienne losowe X i Y są niezależne, to C (X, Y ) = 0. Nie zachodzi wynikanie w drugą stronę: jeśli C (X, Y ) = 0, to X i Y nie muszą być niezależne. Wariancję sumy zmiennych losowych X i Y , które nie muszą być niezależne oblicza się ze wzoru: D2 (X + Y ) = D2 X + D2 Y + 2C (X, Y ) . (1.3.13) Przykład 1.3.3. Rozważmy zmienne losowe X i Y z przykładu 1.2.4. Oczywiście EX = 3.5 i D2 X ≈ 2.92 tak, jak w przykładzie 1.3.2. Obliczamy tylko parametry zmiennej losowej Y . Ponieważ kolejne prawdopodobieństwa P (Y = i) są następujące: 1/36, 3/36, 5/36, 7/36, 9/36, 11/36, to Me = 5, gdyż 25 1 1+3+5+7+9 = > , 36 36 2 9 + 11 20 1 = > 36 36 2 i żadna inna liczba nie spełnia warunków (1.3.1) dla p = 1/2. Obliczamy wartość oczekiwaną: EY = 1 161 ≈ 4.47. (1 · 1 + 2 · 3 + 3 · 5 + 4 · 7 + 5 · 9 + 6 · 11) = 36 36 Następnie obliczymy EY 2 = ) 791 1 ( 1 · 1 + 22 · 3 + 32 · 5 + 42 · 7 + 52 · 9 + 62 · 11 = , 36 36 skąd otrzymujemy wariancję i odchylenie standardowe: 791 D Y = EY − (EY ) = − 36 √ σ = D2 Y ≈ 1.40. 2 2 ( 2 161 36 )2 = 2555 ≈ 1.97, 1296 Widać, że EY > EX, co jest oczywiste, gdyż zawsze Y ≥ X. Wartości Y są też bardziej skupione wokół swojej wartości oczekiwanej, więc D2 Y < D2 X. Łatwo otrzymujemy E (X + Y ) = EX + EY = 287 7 161 + = ≈ 7.97. 2 36 36 Ponieważ X i Y nie są niezależne, to nie można skorzystać ze wzoru (1.3.11). Współczynnik korelacji jest określony wzorem ρ = ρ(X, Y ) = √ C(X, Y ) √ . D2 X D2 Y (1.3.14) Współczynnik korelacji ma kilka charakterystycznych, sformułowanych poniżej własności. a) |ρ| ≤ 1, b) jeżeli X i Y są niezależne, to ρ(X, Y ) = 0, c) |ρ| = 1 wtedy i tylko wtedy, gdy istnieją stałe a ̸= 0 i b takie, że P(Y = aX + b) = 1 . (1.3.15) 14 WYKŁAD 1. PODSTAWY RACHUNKU PRAWDOPODOBIEŃSTWA Jeżeli współczynnik korelacji zmiennych losowych X i Y jest równy zeru, to mówimy, że są one nieskorelowane. Jeżeli zmienne losowe są niezależne, to są nieskorelowane, ale nie na odwrót. ( ) 2 Wyrażenie E (Y − (αX + β)) osiąga najmniejszą wartość, gdy współczynniki α i β są określone wzorami σ2 σ2 α = ρ , β = m01 − ρ m10 , σ1 σ1 gdzie σ12 = D2 X, σ22 = D2 Y , m10 = EX oraz m01 = EY . Prostą o równaniu σ2 (x − m10 ) σ1 nazywa się prostą regresji, a współczynniki α i β nazywają się współczynnikami regresji. y − m01 = ρ Przykład 1.3.4. Obliczmy kowariancję i współczynnik korelacji dla zmiennych losowych X i Y z przykładu 1.2.4. W przykładzie 1.3.3 obliczano wartości oczekiwane i wariancje zmiennych losowych X i Y . Pozostaje do obliczenia jeszcze E (XY ). Zauważmy, że 1/36 dla i < j, pij = i/36 dla i = j, 0 dla i > j. Stąd 6 ∑ E (XY ) = i=1 ( i2 ∑ 1 i + ij 36 36 j<i ) = 1 + 2 + 33 + 43 + 53 + 63 /36 + 1 · (2 + 3 + 4 + 5 + 6) /36 3 3 + 2 · (3 + 4 + 5 + 6) /36 + 3 · (4 + 5 + 6) /36 + 4 · (5 + 6) /36 + 5 · 6/36 154 = . 9 Stąd i ze wzoru (1.3.12) otrzymujemy C (XY ) = 154 7 161 35 − = ≈ 1.46. 9 2 36 24 Współczynnik korelacji otrzymujemy podstawiając obliczone parametry do wzoru (1.3.14): √ 35/24 27 √ ≈ 0.6082. ρ= √ = 73 35/12 2555/1296 1.4. Zadania 1. Rzucamy trzema monetami. Jakie jest prawdopodobieństwo, że wyrzucimy co najmniej dwie reszki? 2. Jest n + m losów, spośród których n wygrywa. Kupiono k losów. Obliczyć prawdopodobieństwo, że wśród nich jest s (s ≤ n) losów wygrywających. 1.4. ZADANIA 15 3. Na kartce egzaminacyjnej jest pięć pytań i trzy możliwe odpowiedzi na każde z nich, z których dokładnie jedna jest poprawna. Należy wybrać poprawną odpowiedź na każde pytanie. Ile wynosi prawdopodobieństwo otrzymania czterech poprawnych odpowiedzi, jeżeli egzaminowany zgaduje odpowiedzi? 4. Wytwórca czekoladek zaplanował ich promocję za pomocą małych bombonierek nazwanych Premium, w których znajdowało się pięć nieróżniących się wyglądem czekoladek. Trzy z nich miały smak wiśniowy, a dwie – nijaki. Wobec powodzenia akcji, wytwórca wprowadził do obrotu bombonierki Super Premium, nieróżniące się wyglądem od bombonierek Premium, ale mające jedną czekoladkę o smaku wiśniowych i cztery o smaku nijakim. Obecnie w handlu znajduje się 20% bombonierek Premium i 80% bombonierek Super Premium. Jakie jest prawdopodobieństwo, że poczęstowana przez nas koleżanka wyjmie z promocyjnej bombonierki czekoladkę o smaku wiśniowym? 5. Czekoladka z promocyjnej bombonierki z zadania 4 okazała się czekoladką o smaku wiśniowym. Jakie jest prawdopodobieństwo, że znajdowała się w bombonierce Super Premium? 6. Wiemy, że 95% produkcji jest dobrej jakości, a pozostałe 5% jest złej jakości. Kontrola przepuszcza przedmioty dobrej jakości z prawdopodobieństwem 0.98, a przedmioty złej jakości z prawdopodobieństwem 0.05. Obliczyć prawdopodobieństwo tego, że przedmiot przepuszczony przez kontrolę będzie dobrej jakości. 7. 70% klientów drogerii wybiera tani proszek do prania XYZ, a pozostali klienci wybierają droższy proszek do prania innej wiodącej marki. Wiadomo, że proszek XYZ usuwa plamy w 20% przypadków, a proszek innej wiodącej marki – w 95%. Jakie jest prawdopodobieństwo, że proszek kupiony przez losowo wybranego klienta usunie plamę? 8. W urnie są dwie białe i trzy czerwone litery X oraz trzy białe i dwie czerwone litery Y. Określamy zdarzenia: A – wylosowano literę czerwoną, B – wylosowano literę Y . Czy zdarzenia A i B są niezależne? 9. Zmienna losowa X przyjmuje cztery wartości z prawdopodobieństwami określonymi w tabeli: Wartość Prawdopodobieństwo 1.0 0.4 1.5 0.3 2.0 0.2 2.5 0.1 Wyznaczyć medianę. Obliczyć wartość oczekiwaną i wariancję. 10. Zmienna losowa X przyjmuje pięć wartości z prawdopodobieństwami określonymi w tabeli: Wartość Prawdopodobieństwo 1.0 0.2 1.5 0.2 2.0 p 2.5 q 3.0 0.1 Wyznaczyć wartości p i q tak, aby Me = 2.5, a następnie tak, aby Me = 2.0. W obu przypadkach obliczyć wartość oczekiwaną i wariancję. 11. Sprzedawca tanich, niemarkowych t-shirtów ma pięciu dostawców. Kupując produkt od i-tego dostawcy, ponosi w porównaniu z kupnem produktu markowego zysk (lub stratę, czyli zysk ujemny) si . Procentowy udział dostawców i zyski podane są w tabeli. Dostawca Udział procentowy Zysk A 40% −0.1 B 15% 2.3 C 20% 3.1 D 5% −1.1 E 20% 3.8 16 WYKŁAD 1. PODSTAWY RACHUNKU PRAWDOPODOBIEŃSTWA Wszystkie t-shirty są wymieszane i mają taką samą cenę. Obliczyć średni zysk ze sprzedaży 100 t-shirtów i określić jego średnie odchylenie. 12. Zmienne X i Y są niezależne oraz EX = 1.2, EY = 2.5, D2 X = D2 Y = 0.5. Określamy zmienną losową Z wzorem Z = 0.5 X + 0.3 Y . Korzystając z własności wartości oczekiwanej i wariancji sumy niezależnych zmiennych losowych, obliczyć EZ oraz D2 Z. 13. Prawdopodobieństwo wylosowania głównej nagrody wartości 1000 zł w promocji pewnego towaru wynosi 0.0001, prawdopodobieństwo wygrania nagrody pocieszenia wartości 3 zł wynosi 0.2. Warunkiem wzięcia udziału w jednokrotnym losowaniu nagrody jest zakup jednej sztuki towaru za cenę 25 zł o rzeczywistej wartości 22 zł. Niech X będzie zyskiem lub stratą powstałą w wyniku zakupu 5 sztuk tego towaru, wliczając w to ewentualny zysk z losowania nagrody. Obliczyć EX i zakładając, że zakupy są niezależne, obliczyć D2 X oraz odchylenie standardowe. 14. Prawdopodobieństwo wygrania w jednej grze w automacie do gry wynosi 0.15. Ile trzeba wykupić gier aby prawdopodobieństwo wygrania choć raz w serii wykupionych gier, przekroczyło poziom 0.3? 15. Rzucamy trzema monetami. Niech Zi = 1 gdy wyrzucimy reszkę na i-tej monecie oraz Zi = 0 w przeciwnym przypadku, i = 1, 2, 3. Określamy X = Z1 + Z2 (suma reszek na dwóch pierwszych monetach) i Y = Z2 + Z3 (suma reszek na monecie drugiej i trzeciej). Znaleźć prawdopodobieństwa pij = P (X = m, Y = n), P (X = m), P (Y = n), EX, EY , D2 X, D2 Y , C (X, Y ) i ρ (X, Y ). Wykład 2 Rozkłady zmiennych losowych 2.1. Rozkłady dyskretne Rozkład dwupunktowy Zmienna losowa X ma rozkład dwupunktowy, gdy z prawdopodobieństwem 1 przyjmuje tylko dwie wartości, tzn. jeśli P(X = x1 ) = p i P(X = x2 ) = q, to p + q = 1. Łatwo policzyć, że EX = x1 p + x2 q, co w przypadku p = q = 1/2 daje m = (x1 + x2 )/2, czyli średnią arytmetyczną, natomiast wariancja D2 X = (x2 − x1 )2 pq. Szczególnym przypadkiem rozkładu dwupunktowego jest rozkład zero–jedynkowy, gdy x1 = 0 i x2 = 1. Wtedy EX = p oraz D2 X = pq. Rozkład dwumianowy Dokonujemy n niezależnych doświadczeń, a w każdym z nich możemy otrzymać tylko dwa wyniki – sukces lub porażkę. Prawdopodobieństwo sukcesu w każdym doświadczeniu jest takie samo i jest równe p, więc prawdopodobieństwo porażki jest równe q = 1 − p. Prawdopodobieństwo, że odniesiemy sukces w ustalonych k doświadczeniach spośród wszystkich n wykonanych, jest równe pk . Prawdopodobieństwo, że w pozostałych n − k doświadczeniach odnien−k siemy ( ) porażkę, jest równe (1 − p) . W n doświadczeniach można k miejsc na sukces wybrać na n sposobów. Stąd oznaczając przez X liczbę sukcesów w n doświadczeniach, otrzymujemy k ( ) n k P(X = k) = pk = p (1 − p)n−k , k gdzie k = 0, 1, . . . , n. Jest to rozkład dwumianowy. Łatwo policzyć, że gdy q = 1 − p, to n ( ) ∑ n k=0 k pk q n−k = (p + q)n = 1n = 1 oraz wszystkie pk > 0, (k = 0, 1, . . . , n). 17 18 WYKŁAD 2. ROZKŁADY ZMIENNYCH LOSOWYCH Jeżeli Xi , i = 1, 2, . . . , n są niezależnymi zmiennymi losowymi o takich samych rozkładach zerojedynkowych, to zmienna losowa X = X1 +X2 +· · ·+X2 ma rozkład dwumianowy. Ponieważ EXi = p i D2 X = pq, to rozkład dwumianowy ma wartość oczekiwaną EX = np i wariancję D2 X = npq. Rozkład Poissona Zmienna losowa X ma rozkład Poissona, gdy pk = P (X = k) = e−λ λk , k! gdzie k = 0, 1, . . . , natomiast λ > 0. Parametry: EX = λ, D2 X = λ. Rozkład Poissona ma ścisły związek z rozkładem dwumianowym. Związek ten pokażemy w paragrafie 2.4 na str. 23. 2.2. Rozkłady typu ciągłego Rozkład jednostajny Niech zmienna losowa X ma gęstość { f (x) = 1 b−a 0 dla x ∈ [a, b], dla x ∈/ [a, b]. Jest to rozkład jednostajny na odcinku [a, b]. Parametry: EX = (a + b) /2, D2 X = (b − a)2 /12. Rozkład wykładniczy Niech zmienna losowa X ma gęstość { λe−λx f (x) = 0 dla λ > 0. Wtedy { 1 − e−λx F (x) = 0 dla x ≥ 0, dla x < 0, dla x ≥ 0, dla x < 0. Jest to rozkład wykładniczy. Parametry: EX = 1/λ, D2 X = 1/λ 2 Rozkład normalny Wśród rozkładów typu ciągłego jednym z najważniejszych jest rozkład normalny o parametrach m i σ. Fakt, że zmienna losowa X ma taki właśnie rozkład oznacza się przez X ∼ N(m, σ), gdzie EX = m, D2 X = σ 2 . Ma to miejsce wtedy, gdy zmienna losowa Y= X−m σ (2.2.1) 2.2. ROZKŁADY TYPU CIĄGŁEGO 19 ma rozkład N (0, 1), czyli ma gęstość wyrażającą się wzorem 2 1 f (x) = √ e−x /2 . 2π (2.2.2) Zmienna losowa X ∼ N (m, σ) ma gęstość 2 1 − (x−m) f (x) = √ e 2σ 2 . σ 2π (2.2.3) f (x) 6 −3 −2 −1 0 1 2 3 -x Rysunek 2.1: Gęstość rozkładu normalnego N (0, 1). Gęstość rozkładu normalnego N(0, 1) przedstawiona jest na rys. 2.1. Dystrybuanta zmiennej losowej X o rozkładzie normalnym N (0, 1) jest oznaczana przez Φ (x) = P (X < x), a jej wartości są podane w tablicach rozkładu normalnego. Do korzystania z nich przydatna jest znajomość następujących zależności: a) P (X > x) = 1 − Φ (x), b) Φ (x) = 1 − Φ (−x), c) P (|X| > x) = 2 (1 − Φ (x)). Aby zaś obliczyć P(X < x), gdy X ∼ N(m, σ), należy skorzystać z zależności ( ) (x − m) X−m x−m P(X < x) = P < =Φ . σ σ σ Spotykane często tablice rozkładu normalnego podają zamiast wartości dystrybuanty Φ(x) (takie tablice są na str. 57), wartości funkcji Φ(x) − 0.5, czyli wartości P (0 < X < x) (takie tablice są w [8, 9, 10]). Rozkład normalny dwuwymiarowy (X, Y ) ma gęstość postaci ( f(x, y) = 2πσ1 σ2 1 √ 1 − ρ2 exp 1 − 2(1 − ρ2 ) ( (x − m1 )2 σ12 (x − m1 )(y − m2 )2 (y − m2 )2 −2ρ + σ1 σ2 σ22 )) . (2.2.4) Parametr ρ występujący we wzorze (2.2.4) jest współczynnikiem korelacji zmiennych losowych X i Y , natomiast parametry m1 , m2 , σ1 i σ są odpowiednio wartościami oczekiwanymi i odchyleniami 20 WYKŁAD 2. ROZKŁADY ZMIENNYCH LOSOWYCH standardowymi zmiennych losowych X i Y . Z porównania wzorów (2.2.4) i (2.2.3) widać, że gęstość dwuwymiarowego rozkładu normalnego jest iloczynem gęstości normalnych jednowymiarowych wtedy i tylko wtedy, gdy ρ = 0. Wynika stąd, że jeśli zmienne losowe X i Y mają dwuwymiarowy rozkład normalny, to są niezależne wtedy i tylko wtedy, gdy są nieskorelowane. Jest to szczególna cecha rozkładu normalnego (por. uwagę na str. 14). 2.3. Populacja, próba i statystyki Cecha ilościowa w populacji generalnej jest zmienną losową – oznaczmy ją symbolem X. Wybieramy (losujemy) n-elementową część populacji generalnej, której elementy mają cechy X1 , X2 , . . . , Xn . Tak otrzymany ciąg zmiennych losowych nazywamy próbą losową lub próbą statystyczną. Zakładać będziemy dalej zawsze, że zmienne losowe Xi są niezależne o takiej samej dystrybuancie (o takim samym rozkładzie), co cecha X. Próbę taką będziemy nazywać próbą prostą. Statystyka Tn = Tn (X1 , X2 , . . . , Xn ) jest funkcją zmiennych losowych (X1 , X2 , . . . , Xn ). Poniżej podanych jest kilka najważniejszych statystyk. 1. Średnia empiryczna: n 1∑ X= Xi . n (2.3.1) i=1 2. Wariancja empiryczna: n S2 = n )2 1 ∑( 1∑ 2 2 Xi − X = Xi − X , n n i=1 (2.3.2) i=1 czyli wariancja empiryczna, to średnia z kwadratów minus kwadrat średniej. 3. Odchylenie standardowe empiryczne: √ S= S2. (2.3.3) Zauważmy, że powyżej podane statystyki są zmiennymi losowymi (oznaczamy je dużymi literami), natomiast ich zaobserwowane wartości oznaczamy małymi literami. Zaobserwowana wartość średniej empirycznej wyraża się wzorem x= x1 + · · · + xn , n (2.3.4) lub dla danych pogrupowanych wzorem przybliżonym ◦ x= ◦ n1 x 1 + · · · + nk x k . n (2.3.5) Zaobserwowana wartość wariancji empirycznej n s2 = 1∑ (xi − x)2 n i=1 (2.3.6) 2.3. POPULACJA, PRÓBA I STATYSTYKI 21 lub dla danych pogrupowanych wzorem przybliżonym )2 1 ∑ (◦ s = x i − x ni . n k 2 (2.3.7) i=1 ◦ Występująca we wzorach (2.3.5) i (2.3.7) liczba x i jest środkiem, a liczba ni jest liczebnością i-tego przedziału klasowego. Zaobserwowaną wartością statystyki (2.3.1) jest więc liczba określona wzorem (2.3.4), a wartością (2.3.2) jest liczba określona wzorem (2.3.6). Wartość oczekiwana EX określona wzorem (1.3.2) lub (1.3.3) jest teoretycznym odpowiednikiem średniej empirycznej x określonej wzorem (2.3.4), natomiast wariancja D2 X określona wzorem (1.3.6) jest teoretycznym odpowiednikiem wariancji empirycznej s2 określonej wzorem (2.3.6). Wariancję empiryczną określa się też nieco innym wzorem (S 2 „z daszkiem”): n n i=1 i=1 )2 1 ∑( 1 ∑ 2 n 2 Ŝ = Xi − X = Xi − X . n−1 n−1 n−1 2 (2.3.8) n jest bliskie jedynki, a więc s2 i ŝ2 różnią się nieznacznie. n−1 Ważne są następujące własności: Jeśli n jest duże, to EX = EX, EŜ 2 = D2 X. Oznacza to, że przeciętna wartość średniej empirycznej z próby jest równa średniej teoretycznej (patrz str. 11) cechy w populacji generalnej, a przeciętna wartość wariancji empirycznej „z daszkiem” z próby jest równa wariancji teoretycznej cechy w populacji generalnej. Wynika stąd, że statystyki określone wzorami (2.3.1) – (2.3.8) mogą służyć do oszacowania odpowiednich parametrów teoretycznych. Ogólnie: statystyki służące do szacowania nieznanych parametrów rozkładu cechy w populacji generalnej na podstawie próby, nazywa się estymatorami. O estymatorach będzie mowa w wykładzie 3. Dla porównania tych estymatorów z prawdziwymi wartościami parametrów służą statystyki: X − EX √ n, σ X − EX √ t= n − 1, S nS 2 χ2 = 2 . σ U= (2.3.9) (2.3.10) (2.3.11) Wzoru (2.3.9) używamy, gdy znane jest σ, a wzoru (2.3.10), gdy σ jest nieznane. Dalej potrzebne będzie jeszcze pojęcie rozkładu chi-kwadrat Pearsona. Zmienna losowa o tym rozkładzie tradycyjnie oznaczana jest symbolem χ 2 . Zmienna losowa χ 2 ma rozkład chi-kwadrat o n stopniach swobody, gdy jest sumą kwadratów niezależnych zmiennych losowych o rozkładzie normalnym N(0, 1), tzn. χ 2 = X12 + X22 + · · · + Xn2 , gdzie Xi są niezależne i mają rozkłady normalne N(0, 1). Wtedy Eχ 2 = n oraz D2 χ 2 = 2n. Tablice rozkładu chi-kwadrat ułożone są tak, że dla danych n i α, 0 < α < 1 podawane są wartości liczb χα2 takie, że ( ) P χ 2 > χα2 = α. 22 WYKŁAD 2. ROZKŁADY ZMIENNYCH LOSOWYCH Wartości te są podawane(dla n ≤ )30 (str. 59). Dla większych n rozkład chi-kwadrat jest zbliżony do √ rozkładu normalnego N n, 2n . Przy pomocy rozkładu chi-kwadrat i rozkładu normalnego N(0, 1) definiuje się rozkład t-Studenta. Zmienna losowa o tym rozkładzie tradycyjnie oznaczana jest symbolem t lub T. Zmienna losowa t ma rozkład Studenta o n stopniach swobody, gdy wyraża się wzorem t=√ X χ 2 /n , gdzie X ma rozkład N(0, 1), a χ 2 ma rozkład chi-kwadrat o n stopniach swobody oraz X i χ 2 są niezależne. Tablice rozkładu Studenta ułożone są tak, że dla danych n i α, 0 < α < 1 podawane są wartości liczb tα takie, że P (|t| > tα ) = α. Wartości te są podawane dla n ≤ 30 (str. 58). Dla większych n rozkład Studenta jest zbliżony do rozkładu normalnego N (0, 1). Założymy teraz, że cecha w populacji generalnej ma rozkład normalny N(m, σ). W tym przypadku rozkłady statystyk określonych wzorami (2.3.1) i (2.3.9) – (2.3.11) są następujące. √ a) Statystyka X ma rozkład normalny N(m, σ/ n). b) Statystyka U określona wzorem (2.3.9) ma rozkład normalny N(0, 1). c) Statystyka t określona wzorem (2.3.10) ma rozkład Studenta o n − 1 stopniach swobody. d) Statystyka χ 2 określona wzorem (2.3.11) ma rozkład chi-kwadrat o n − 1 stopniach swobody. Statystyką związaną z rozkładem dwuwymiarowym jest empiryczny współczynnik korelacji R określony wzorem n ∑ (Xi − X)(Yi − Y ) i=1 R= √ . (2.3.12) n n ∑ ∑ (Xi − X)2 (Yi − Y )2 i=1 i=1 2.4. Twierdzenia graniczne Dla dużych i bardzo dużych prób, wyznaczenie dokładnych rozkładów statystyk może być trudne. Można wtedy skorzystać z twierdzeń granicznych. Podamy tutaj trzy ważne twierdzenia. Prawo wielkich liczb Jeżeli X1 , X2 , . . . , Xn są niezależnymi zmiennymi losowymi o tym samym rozkładzie, EXi = m, D2 Xi = σ 2 , to ( ) P lim X = m = 1. n→∞ Oznacza to, że dla dużych prób średnia empiryczna (2.3.4) jest z dobrą dokładnością równa w przybliżeniu średniej teoretycznej EX określonej wzorami (1.3.2) lub (1.3.3). Przykład 2.4.1. Rzucając bardzo wiele razy monetą, stosunek liczby wyrzuconych reszek do liczby wszystkich rzutów, będzie w przybliżeniu równy 1/2. 2.5. ZADANIA 23 Centralne Twierdzenie Graniczne Jeżeli X1 , X2 , . . . , Xn są niezależnymi zmiennymi losowymi o tym samym rozkładzie, EXi = m, D2 Xi = σ 2 , to ( ) X1 + X2 + · · · + Xn − nm √ lim P < x = Φ(x), n→∞ σ n gdzie Φ(x) jest dystrybuantą rozkładu normalnego N(0, 1). Konsekwencją centralnego twierdzenia granicznego jest to, że dla dużych prób rozkłady statystyk (2.3.9) i (2.3.10) mają rozkład w przybliżeniu normalny N(0, 1) nawet wtedy, gdy rozkład cechy X nie jest normalny. Wystarczy tylko, by istniała skończona wariancja, tzn. D2 X < ∞. Również własność, że zmienne losowe o rozkładzie chi-kwadrat i rozkładzie t-Studenta mają dla n > 30 rozkład zbliżony do normalnego jest konsekwencją Centralnego Twierdzenia Granicznego. Twierdzenie Poissona Prostym, ale użytecznym twierdzeniem granicznym jest twierdzenie Poissona. Załóżmy w nim, że zmienne losowe Xn o rozkładzie dwumianowym mają prawdopodobieństwo p malejące wraz z n → ∞ w taki sposób, że λ = pn jest stałe. Wtedy P (Xn = k) → e−λ λk . k! Oznacza to, że rozkład dwumianowy dla dostatecznie dużych n i małych p można przybliżyć rozkładem Poissona. W praktyce przyjmuje się, że n powinno być równe około 100 lub większe, natomiast p takie, że 0.1 < λ < 10. Przykład 2.4.2. Załóżmy, że prawdopodobieństwo sukcesu w jednym doświadczeniu wynosi p. Niech X będzie liczbą sukcesów w n niezależnych doświadczeniach. a) Jeśli n = 10 i p = 0.2, to ( ) 10 P (X = 2) = 0.22 0.88 ≈ 45 · 0.04 · 0.1677 ≈ 0.3020. 2 b) Jeśli n = 100 i p = 0.02, to λ = 2 (wartość oczekiwana EX = 2 jest taka sama jak w poprzednim przypadku). Korzystamy z tw. Poissona i otrzymujemy P (X = 2) = e−2 22 ≈ 0.2707. 2! √ √ c) Jeśli n = 100 i p = 0.2, m = p = 0.2 (teraz EX = 20), σ = pq = 0.16 = 0.4. Korzystamy z Centralnego Twierdzenia Granicznego i otrzymujemy ) ( X − 20 < 0.5 ≈ Φ (0.5) = 0.6915. P (X < 22) = P 4 2.5. Zadania 1. Liczba samochodów przejeżdżających w nocy przez punkt pomiarowy na drodze w ciągu jednej minuty, ma rozkład Poissona z parametrem λ = 1.2. Obliczyć prawdopodobieństwo, że liczba samochodów przejeżdżających przez ten punkt w ciągu minuty, będzie większa niż trzy. 2. Zmienna losowa X ma rozkład normalny N (0, 1). Korzystając z tablic, wyznaczyć P (X < 1.3), P (X > 2.1), P (X < −0.9), P (|X| ≤ 1.34). 24 WYKŁAD 2. ROZKŁADY ZMIENNYCH LOSOWYCH 3. Zmienna losowa X ma rozkład normalny N (0.3, 0.12). Korzystając z tablic, wyznaczyć P (X > 0.13), P (X < 1.34), P (X ≥ 0.1), P (|X| > 1.51). 4. Uzasadnić korzystając z tablic, że jeśli zmienna losowa X ma rozkład normalny N (m, σ), to P (|X − m| > 3σ) < 0.01. 5. Zmienna losowa X ma rozkład wykładniczy ze średnią EX = 2.41. Wyznaczyć medianę, kwartyle i odchylenie ćwiartkowe. 6. Zmienna losowa X ma rozkład wykładniczy ze średnią EX = 1.5. Niech Y = 1.4 X + 0.45. Wyznaczyć P (Y > 0.05) oraz P (Y < 0.59). 7. Wiadomo, że cecha X ma rozkład jednostajny na przedziale [1, 3]. Dokonano n = 10 niezależnych obserwacji. Obliczyć dla takiej próby statystycznej EX, EŜ 2 oraz ES 2 . 8. Autobus z Wyższej Szkoły Handlowej na ul. Ostrowskiego do naszego domu jeździ co 30 minut, ale rozkładu jazdy nie znamy. Czekamy na autobus w padającym deszczu przez czas T. Nasze straty S z tego powodu rosną z kwadratem czasu czekania wg wzoru S = αT 2 , gdzie α jest pewną stałą. Obliczyć średnią stratę, odchylenie standardowe, medianę, kwartyle i odchylenie ćwiartkowe. Porównać średnią z medianą oraz odchylenie standardowe z odchyleniem ćwiartkowym. 9. Zmienna losowa t ma rozkład t-Studenta o k stopniach swobody. Korzystając z tablic, wyznaczyć wartość tα dla danego α, gdy a) P (|t| > tα ) = α, b) P (t > tα ) = α, c) P (t < tα ) = α, dla k = 5, k = 11, oraz α = 0.1, α = 0.05. 10. Zmienna losowa χ 2 ma rozkład chi-kwadrat o k stopniach swobody. Korzystając z tablic, wyznaczyć wartość χα2 dla danego α, gdy ( ) a) P χ 2 > χα2 = α, ( ) b) P χ 2 < χα2 = α, dla k = 5, k = 11, oraz α = 0.1, α = 0.05. Powtórzyć obliczenia dla k = 41, k = 50 11. Prawdopodobieństwo wyprodukowania jednej sztuki wyrobu drugiego gatunku wynosi 0.3. Jakie jest prawdopodobieństwo, że w partii 100 sztuk wyrobów znajdzie się mniej niż 30 sztuk drugiego gatunku? Jakie jest prawdopodobieństwo, że liczba wyrobów drugiego gatunku będzie większa od 10? Jakie jest prawdopodobieństwo, że liczba wyrobów drugiego gatunku jest zawarta pomiędzy 10 a 30? 12. Tygodniowe wypłaty z pewnego funduszu są niezależnymi zmiennymi losowymi o rozkładzie 1 wykładniczym z tym samym parametrem λ = 1000 zł . Obliczyć prawdopodobieństwo, że łączna wypłata z tego funduszu w okresie roku, tzn. 52 tygodni, przekroczy 70 000 zł. 13. Rzucamy 100 razy parą kostek do gry. Niech X oznacza liczbę rzutów, w których szóstka wypadnie na obu kostkach. Obliczyć EX, D2 X oraz P (X ≤ k) dla k = 0, 1, 2. Wykład 3 Estymacja 3.1. Zasady estymacji parametrów Szacowanie nieznanego parametru na podstawie próby statystycznej1 za pomocą jednej liczby nazywamy estymacją punktową. Zmienna losowa Tn będąca funkcją próby (X1 , X2 , . . . , Xn ) Tn = Tn (X1 , X2 , . . . , Xn ) szacująca nieznany parametr θ nazywa się estymatorem parametru θ. Znane ze statystyki opisowej parametry empiryczne – mediana i kwartyle empiryczne, średnia empiryczna i wariancja empiryczna, są estymatorami punktowymi odpowiednich parametrów teoretycznych, omówionych w wykładzie 1. Estymator Tn pewnego parametru θ jest a) nieobciążony, gdy ETn = θ, b) asymptotycznie nieobciążony, gdy lim ETn = θ, n→∞ c) zgodny, gdy lim P (Tn = θ) = 1. n→∞ Statystyki X i są estymatorami nieobciążonymi i zgodnymi parametrów EX i D2 X, natomiast S 2 jest estymatorem asymptotycznie nieobciążonym i zgodnym parametru D2 X. Ŝ 2 Idea estymacji przedziałowej polega na tym, aby zamiast szacowania nieznanego parametru θ za pomocą jednej liczby, znaleźć przedział zwany przedziałem ufności, w którym nieznany parametr znajdzie się z zadowalającym nas prawdopodobieństwem, bliskim 1. Bliskość jedynki określa się liczbą 1 − α i nazywa poziomem ufności. Inaczej mówiąc, wyznaczamy takie dwa estymatory Tn′ i Tn′′ , aby ( ) P Tn′ < θ < Tn′′ = 1 − α, (3.1.1) czyli wyznaczamy przedział o losowych końcach, w którym nieznana nam wartość parametru θ znajdzie się z prawdopodobieństwem 1 − α. Dla danej realizacji przedział ufności ma więc postać ( ′ ) ( ) Tn (x1 , x2 , . . . , xn ) , Tn′′ (x1 , x2 , . . . , xn ) = θ ′ , θ ′′ . (3.1.2) Sens wyznaczenia przedziału (θ ′ , θ ′′ ) określonego wzorem (3.1.2) jest następujący: po podstawieniu zaobserwowanego ciągu danych (x1 , x2 , . . . , xn ) do wzorów określających θ ′ = Tn′ (x1 , x2 , . . . , xn ) oraz θ ′′ = Tn′′ (x1 , x2 , . . . , xn ), prawdziwa wartość parametru θ powinna się znaleźć w tym przedziale średnio w (1 − α) 100% przeprowadzonych obserwacji (doświadczeń). Średnio tylko w α100% obserwacji nasze oszacowanie nie będzie prawdziwe. 1 Zawsze zakładamy, że to próba prosta (patrz str. 20). 25 26 WYKŁAD 3. ESTYMACJA Łatwo jest zauważyć, że im mniejsze α, tym dłuższy jest przedział ufności. Zazwyczaj α przybiera jedną z wartości 0.1, 0.05, 0.01, przy czym wartość α = 0.05 jest najczęściej używana – mówimy wtedy o 95 procentowym przedziale ufności. W następnych punktach omówimy szerzej trzy typowe przypadki: przedziały ufności dla parametrów √ 2 m = EX i σ = D X, wskaźnika struktury p, a także współczynnika korelacji ρ. 3.2. Szczególne przypadki Przedziały ufności dla średniej Rozpatrywane są trzy przypadki, przy czym dla każdego z nich przedział ufności jest symetryczny względem średniej empirycznej X określonej wzorem (2.3.1). Przypadek I. Populacja generalna ma rozkład N(m, σ), odchylenie standardowe jest znane. Nieznany jest parametr m, dla którego szukamy przedziału ufności. Dla próby o liczebności n przedział ufności wygląda następująco: ( ) σ σ P X − uα √ < m < X + uα √ = 1−α, (3.2.1) n n gdzie uα jest takie, że P(|U| > uα ) = α oraz U ∼ N(0, 1). Wtedy dla otrzymanych już danych, czyli dla ustalonej realizacji, przedział ufności ma postać ) ( ( ′ ′′ ) σ σ √ √ , x + uα , (3.2.2) m , m = x − uα n n Przykład 3.2.1. Cecha X ma rozkład normalny o nieznanej wartości oczekiwanej i znanym odchyleniu standardowym σ = 0.1. Oszacować m na poziomie ufności 1 − α = 0.95 na podstawie pięcioelementowej próby prostej: 1.2, 1.3, 1.1, 1.1, 1.3. Najpierw średnia: 1.2 + 1.3 + 1.1 + 1.1 + 1.2 6 = = 1.2. 5 5 Ponieważ P (|U| > uα ) = 2 (1 − Φ (uα )) = α, więc Φ (uα ) = 1 − α/2 = 0.975. Stąd odczytujemy z tablicy rozkładu normalnego uα = 1.96. Podstawiamy obliczone wielkości do wzoru (3.2.2) i otrzymujemy przedział ufności (po zaokrągleniu) (1.11, 1.29). Analogiczne obliczenia dają dla poziomu ufności 1 − α = 0.9 węższy przedział (1.13, 1.27), gdyż wtedy uα = 1.64. Przyjęcie z kolei poziomu ufności 1 − α = 0.99 daje szerszy przedział (1.09, 1.31), gdyż wtedy uα = 2.57. x= Przypadek II. Populacja generalna ma rozkład N (m, σ), odchylenie standardowe jest nieznane. Nieznany jest też parametr m, dla którego szukamy przedziału ufności. Dla próby o liczebności n, przedział ufności wygląda następująco: ( ) S S P X − tα √ < m < X + tα √ = 1 − α, (3.2.3) n−1 n−1 gdzie tα jest takie, √ że P (|t| > tα ) = α oraz t ma rozkład t-Studenta o n − 1 stopniach swobody. Statystyka S = S 2 określona jest wzorem (2.3.3). Wtedy ) ( ( ′ ′′ ) s s , x + tα √ , (3.2.4) m , m = x − tα √ n−1 n−1 3.2. SZCZEGÓLNE PRZYPADKI 27 √ lub równoważnie przy pomocy statystyki Ŝ = Ŝ 2 ( ) Ŝ Ŝ P X − tα √ < m < X + tα √ = 1−α. n n Wtedy ( ′ m ,m ′′ ) ( = ŝ ŝ x − tα √ , x + tα √ n n (3.2.5) ) . (3.2.6) Tablice rozkładu t-Studenta podają wartości tylko dla liczby stopni swobody do trzydziestu. Dla większej liczby stopni swobody statystyka (2.3.10) ma rozkład w przybliżeniu normalny (patrz str. 22). Takie też tablice należy stosować lub od razu przejść do przypadku III. Ponieważ we wzorach (3.2.1), (3.2.3) i (3.2.5) znamy dokładne rozkłady statystyk, to można je stosować nawet przy małych próbach. Przykład 3.2.2. Dane, cel i poziom ufności jak w przykładzie 3.2.1, ale teraz przypuśćmy, że nie znamy odchylenia standardowego, jednak wiemy, że X ∼ N (m, σ). Ze wzoru (2.3.6) obliczamy s2 = 1.22 + 1.32 + 1.12 + 1.12 + 1.22 − 1.22 = 0.008, 5 skąd s = 0.089. Z tablic rozkładu t-Studenta odczytujemy dla α = 0.05 i czterech stopni swobody, tα = 2.7764. Po podstawieniu do wzoru (3.2.4) otrzymujemy przedział ufności (po zaokrągleniu) (1.08, 1.32). Zwróćmy uwagę, że otrzymany w tym przykładzie przedział ufności jest szerszy, czyli oszacowanie jest mniej dokładne niż oszacowanie otrzymane w przykładzie 3.2.1. Jest to zrozumiałe, gdyż teraz mamy mniej informacji – nie jest znane σ. Przypadek III. Rozkład dowolny, ale n musi być duże (co najmniej kilkadziesiąt) oraz istnieje wariancja σ 2 = D2 X < ∞, która może być nieznana. Wtedy przedziały ufności wyznaczane są ze wzoru (3.2.1), przy czym zamiast σ można podstawić S lub Ŝ (dla dużego n różnica między S i Ŝ jest nieznaczna), gdy σ nie jest znane. Przedziały ufności dla wariancji Przedział ufności dla wariancji nie zależy od wartości oczekiwanej m = EX. Stąd tylko dwa rozważane przypadki. Przypadek I. Populacja generalna ma rozkład normalny. Nieznany jest parametr σ, dla którego szukamy przedziału ufności. Próba jest mała (n < 30). Dla próby o liczebności n, przedział ufności wygląda następująco: ( 2 ) nS nS 2 2 P <σ < = 1 − α, (3.2.7) c2 c1 gdzie c1 < c2 spełniają równania ( ) ( ) P χ 2 < c1 = P χ 2 > c2 = α/2 dla zmiennej losowej χ 2 o rozkładzie chi-kwadrat o n − 1 stopniach swobody. Wtedy ( ) ( ns2 ns2 ) ′2 ′′2 σ ,σ = , . c2 c1 (3.2.8) (3.2.9) 28 WYKŁAD 3. ESTYMACJA Równoważnie przedział ufności można określić wzorem ( ) 2 − 1) Ŝ (n − 1) Ŝ 2 (n < σ2 < P = 1−α. c2 c1 Wtedy ( ( ) σ ′2 , σ ′′2 = (n − 1) Ŝ 2 (n − 1) Ŝ 2 < σ2 < c2 c1 (3.2.10) ) , (3.2.11) gdzie c1 i c2 są takie same jak poprzednio. Zwróćmy uwagę, że przedział ufności otrzymany ze wzorów (3.2.9) lub (3.2.11) nie jest symetryczny względem s2 . Założenie, że próba jest mała ma charakter czysto rachunkowy – dla n > 30 rozkład chi-kwadrat jest na tyle zbliżony do normalnego, że tablice zawierają na ogół wartości tylko do n = 30. Przykład 3.2.3. Oszacujmy σ 2 na poziomie ufności 0.9 dla danych jak w przykładzie 3.2.1. Wartość statystyki s2 została obliczona w przykładzie 3.2.2: s2 = 0.008. Z tablicy rozkładu chi-kwadrat odczytujemy bezpośrednio ( ) (patrz (wzór (3.2.8)) parametr c2 (= 9.4877) dla α/2 = 0.05. Parametr c1 odczytujemy z zależności P χ 2 < c1 = ) 1 − P χ 2 > c1 = 0.05, czyli P χ 2 > c1 = 0.95, więc c1 = 0.7107. Przedział ufności (0.0042, 0.0536). Przypadek II. Populacja generalna ma rozkład normalny lub zbliżony do normalnego i próba jest duża, n ≥ 30. Przedział ufności dla odchylenia standardowego wyraża się wzorem P S S uα < σ < uα ≈ 1 − α , 1+ √ 1− √ 2n 2n gdzie uα jest takie, że P (|U| > uα ) = α oraz U ∼ N (0, 1). Wtedy ( ′ ′′ ) s s σ ,σ = uα , uα 1+ √ 1− √ 2n 2n (3.2.12) (3.2.13) Przedziały ufności dla wskaźnika struktury Załóżmy, że w populacji znajdują się elementy dwóch rodzajów, oznaczone jako 0 i 1, przy czym elementy oznaczone jako 1 stanowią p · 100% populacji. Parametr p jest wskaźnikiem struktury (procentu). Z populacji pobieramy próbę n elementową, w której M oznacza liczbę elementów oznaczonych jako 1. M jest oczywiście zmienną losową. Przedział ufności dla p jest postaci √ ( √ ( ) ) M m M M 1 − 1 − M M n n P − uα n <p< + uα n ≈ 1 − α, (3.2.14) n n n n gdzie uα jest takie, że P(|U| > uα ) = α oraz U ∼ N(0, 1). Próba musi mieć dostatecznie dużą liczbę elementów – co najmniej 100. Dla pobranej próby, więc dla ustalonego już m, mamy √ ( √ ( ) ) m m m m ( ′ ′′ ) 1− n m 1− n m . p , p = − uα n , + uα n (3.2.15) n n n n 3.2. SZCZEGÓLNE PRZYPADKI 29 Przykład 3.2.4. Spośród 100 wylosowanych elementów, 80 było klasy I, a 20 klasy II. Na poziomie ufności 1 − α = 0.95 oszacować procent elementów klasy I w całej populacji. Podstawiamy we wzorze (3.2.15), n = 100 i m = 80 obliczamy: √ ( ) √ m m 0.8 · 0.2 n 1− n = = 0.04. n 100 Ponieważ (patrz przykład 3.2.1) uα = 1.96, to podstawiając otrzymane wartości do wzoru (3.2.15), otrzymujemy przedział ufności dla procentu (w zaokrągleniu do całych procentów) elementów klasy I: (80% − 1.96 · 4%, 80% + 1.96 · 4%) = (72%, 88%) . Przedział ufności dla współczynnika korelacji Przedział ufności dla współczynnika korelacji podamy tylko przy szczególnych założeniach, a mianowicie, że rozkład łączny wektora X i Y jest normalny lub zbliżony do normalnego oraz próba jest duża (n – kilkaset). Przedział ufności dany jest tu wzorem ) ( 1 − R2 1 − R2 < ρ < R + uα √ = 1−α, (3.2.16) P R − uα √ n n gdzie P (|U| < uα ) = 1−α dla U ∼ N (0, 1). Statystyka R wyraża się wzorem (2.3.12). Wtedy przedział ufności dla współczynnika korelacji ρ jest postaci: ( ) ( ′ ′′ ) 1 − r2 1 − r2 √ √ ρ , ρ = r − uα < ρ < +uα , (3.2.17) n n gdzie (por. str. 43) n ∑ r=√ (xi − x)(yi − y) i=1 n ∑ 2 (xi − x) i=1 n ∑ . (3.2.18) 2 (yi − y) i=1 Jeśli próba jest liczna i dane są podzielone na klasy w tablicę wielodzielczą, to wtedy k ∑ l ∑ r=√ ◦ ◦ ◦ nij (x i − x)(y j − y) i=1 j=1 , k ∑ l ∑ ◦ ni· (x i − x)2 n·j (y j − y)2 i=1 j=1 (3.2.19) ◦ ◦ gdzie x i , y j są środkami odpowiednich klas, nij jest liczbą danych, które ze względu na cechę X są w klasie o numerze i, a ze względu na cechę Y , są w klasie o numerze j. ni· jest liczbą wszystkich danych, które ze względu na cechę X są w klasie o numerze i, a n·j jest liczbą wszystkich danych, które ze względu na cechę Y są w klasie o numerze j. Przykład 3.2.5. Przypuśćmy, że empiryczny współczynnik korelacji między dwiema cechami, obliczony z próby 100 elementowej, wynosi r = 0.3. Interpretację, czy zależność między tymi cechami można uznać za dużą czy też małą przeprowadzimy korzystając z tabeli A.2 na str. 44. Wartość r = 0.3 według tej tabeli oznacza zależność niską. Przedział ufności dla współczynnika korelacji na poziomie ufności 1 − α = 0.95 (jak poprzednio uα = 1.96) jest zgodnie ze wzorem (3.2.17) postaci: ) ( 1 − 0.09 1 − 0.09 , 0.3 + 1.96 ≈ (0.12, 0.48) . 0.3 − 1.96 10 10 30 WYKŁAD 3. ESTYMACJA Jest to przedział szerszy niż przedział podany w tabeli A.2 dla zależności niskiej. Oznacza to, że prawdziwy współczynnik korelacji może mieć wartość oznaczającą zarówno zależność umiarkowaną, jak i brak zależności. Jeśli jednak ta sama wartość r = 0.3 była otrzymana z próby 400 elementowej, to analogicznie obliczony przedział ufności będzie miał postać (0.21, 0.39). Oznacza to w tym przypadku, że z prawdopodobieństwem nie mniejszym od 0.95, zależność można zinterpretować jako niską – zależność jest, ale mniejsza niż umiarkowana. 3.3. Zadania 1. Niech cecha X ma rozkład normalny z parametrami m = 3.2, σ = 0.3 oraz U, t, χ 2 wyrażają się wzorami (2.3.9)–(2.3.11) dla próby 22 elementowej. Wyznaczyć dla tych statystyk liczby x takie, że P (U < x) =( 0.1, P (U ) > x) = (0.8, P (|U| ) > x) = 0.01, P (t < x) = 0.05, P (U > x) = 0.9, P (|U| > x) = 0.02, P χ 2 < x = 0.1, P χ 2 > x = 0.8. 2. Dla danych −0.01, 0.19, 0.09, −0.18, 0.40, oszacować na poziomie ufności 0.9 wartość oczekiwaną. Wiadomo, że rozkład cechy w populacji jest normalny. Wariancja jest znana, σ 2 = 0.04. 3. Z próby 5-elementowej w populacji o rozkładzie normalnym obliczono s2 = 0.04. Wyznaczyć przedział ufności dla σ na poziomie ufności 0.9. 4. Załóżmy, że zużycie paliwa w samochodzie (w litrach na 100 km) ma rozkład normalny. Zbadano zużycie paliwa w 8 wylosowanych samochodach tej samej marki i tego samego typu, otrzymując następujące wyniki: Nr Zużycie 1 5.2 2 5.1 3 5.3 4 5.4 5 5.0 6 4.9 7 5.1 8 5.0 Znaleźć przedział ufności na poziomie 1 − α = 0.95, a następnie 1 − α = 0.99 i 1 − α = 0.9 dla średniego zużycia paliwa i dla wariancji. 5. W wyniku 50 obserwacji automatu dozującego płyn do jednolitrowych butelek otrzymano następujące wyniki (w mililitrach): 996, 1000, 1020, 1005, 993, 985, 1008, 993, 1010, 991, 989, 982, 1017, 1009, 1011, 1002, 1010, 1006, 996, 1001, 1020, 994, 1020, 983, 992, 998, 1020, 983, 996, 1002, 998, 998, 990, 1011, 990, 982, 1008, 1000, 986, 1011, 997, 987, 1001, 1019, 1002, 980, 1009, 998, 1010, 1007. Znaleźć przedział ufności na poziomie 0.95 dla średniego napełnienia butelek i dla wariancji. 6. Oceny z kolokwium ukształtowały się następująco: 2.0, 2.0, 5.0, 4.5, 3.0, 5.0, 4.5, 2.0, 3.5, 2.0, 3.5, 4.5, 3.5, 2.0, 4.5, 2.0, 4.0, 4.0, 3.0, 4.5, 3.5, 2.0, 3.5, 5.0, 4.0, 4.0, 4.0, 2.0, 4.0, 2.0. Wyznaczyć przedział ufności dla średniej ocen w grupie. Przyjąć poziom ufności 0.99. 7. Trwałość wyrobu wg zapewnień producenta powinna wynosić co najmniej 50 godzin pracy. Zbadano 200 sztuk wyrobu i w 10 przypadkach zanotowano czas pracy krótszy niż deklarowany. 3.3. ZADANIA 31 Oszacować na poziomie ufności 0.9 przedział dla wskaźnika struktury wyrobów nie spełniających deklarowanego parametru trwałości. 8. W celu zbadania zależności między stażem pracownika a procentem braków w wykonywanych przez niego elementów, zbadano 100 pracowników pewnej dużej firmy. Oznaczono przez X staż pracy liczony w latach od 1 do 4 i procent braków, w czterech przedziałach co 2%. Otrzymano wyniki nij podane w tabeli, gdzie nij oznacza liczbę pracowników, którzy wytwarzają procent braków w i-tym przedziale (wiersze) i mających staż pracy j lat (kolumny). 0 2 4 6 – – – – 2 4 6 8 1 0 0 4 20 2 0 3 8 15 3 16 6 4 0 4 20 4 0 0 Oszacować na poziomie ufności 0.9 współczynnik korelacji między stażem pracy a procentem braków. Wykład 4 Testowanie hipotez 4.1. Zasady testowanie hipotez Test statystyczny ma za zadanie weryfikację pewnej hipotezy, na podstawie danych statystycznych. Testy parametryczne służą do weryfikacji hipotez o wartościach parametrów w rozkładach badanych cech. Testy nieparametryczne będą sprawdzać prawdziwość hipotez, w których nie są, bądź nie muszą być, sprecyzowane wartości parametrów rozkładów populacji, np. hipotez o normalnym rozkładzie populacji lub że dwie cechy w populacji są niezależne. Testowanie hipotez statystycznych ma (w każdym razie w zakresie tego wykładu) charakterystyczną postać – hipoteza ma postać równości θ = θ0 , gdzie θ jest prawdziwą, a nam nieznaną wartością parametru rozkładu, natomiast θ0 jest hipotetyczną wartością tego parametru. Oznacza to, że taka równość jest sprawdzaną (weryfikowaną) hipotezą, którą należy odrzucić i w zamian przyjąć inną (np. θ ̸= θ0 ) albo postanowić, że nie ma podstaw do jej odrzucenia. To postanowienie nie oznacza przyjęcia hipotezy, może jednak oznaczać konieczność przeprowadzenia dalszych badań. Kiedy jesteśmy skłonni hipotezę odrzucić? Intuicyjnie zrobimy to wtedy, gdyby jej przyjęcie oznaczałoby, że zaszło zdarzenie bardzo mało prawdopodobne, na przykład zdarzenie, którego prawdopodobieństwo byłoby mniejsze od α = 0.05, czyli takie, które zdarzałoby się średnio rzadziej niż 5 razy na 100. Rozumowanie to sprecyzujemy następująco. Niech θ będzie parametrem w pewnym rozkładzie o dystrybuancie Fθ (x). Niech H0 : θ = θ0 przeciw H1 : θ ̸= θ0 oznacza, że stawiamy hipotezę H0 : θ = θ0 zwaną hipotezą zerową, którą możemy odrzucić na korzyść hipotezy H1 : θ ̸= θ0 zwanej hipotezą alternatywną. Innymi możliwościami są: H0 : θ = θ0 przeciw H1 : θ < θ0 , H0 : θ = θ0 przeciw H1 : θ > θ0 . Z rozkładem Fθ (x) i parametrem θ wiążemy statystykę Z = Z (X1 , X2 , . . . , Xn ) , której rozkład dokładny lub przybliżony jest znany przy założeniu prawdziwości hipotezy H0 . Następnie wyznaczamy obszar Q ⊂ (−∞, ∞) służący do weryfikacji hipotezy H0 w ten sposób, aby przy założeniu prawdziwości H0 była spełniona równość P(Z ∈ Q) = α . 32 (4.1.1) 4.2. SZCZEGÓLNE PRZYPADKI 33 Wtedy odrzucamy H0 i przyjmujemy H1 , o ile istotnie zdarzy się, że z = Z (ω) = z (x1 , x2 , . . . , xn ) ∈ Q, czyli, gdy zajdzie zdarzenie mało prawdopodobne. W praktyce statystycznej przyjmuje się zwykle, że α = 0.05, czasem α = 0.01 lub ewentualnie α = 0.1. Obszar Q nazywa się obszarem krytycznym, a liczbę α nazywa się poziomem istotności. Hipotezę zerową odrzucamy na korzyść alternatywnej, gdy wartość z statystyki Z znajdzie się w obszarze krytycznym. Może się oczywiście zdarzyć, że z ∈ Q, mimo że hipoteza H0 jest prawdziwa. Zdarzy się to jednak z małym prawdopodobieństwem α. Popełniamy wtedy błąd polegający na odrzuceniu hipotezy prawdziwej, zwany błędem pierwszego rodzaju. Przyjęcie fałszywej hipotezy H0 stanowi błąd drugiego rodzaju. W przyjętej tutaj procedurze nie ma jednak przyjmowania H0 , co najwyżej postanawia się, że nie ma podstaw do jej przyjęcia. Taką procedurę postępowania przyjęto, gdyż nie precyzuje się tu prawdopodobieństwa popełnienia błędu drugiego rodzaju. W następnych trzech punktach omówimy przykłady testów statystycznych, gdzie nieznanymi parametrami będą wartość oczekiwana, wariancja, wskaźnik struktury i współczynnik korelacji. 4.2. Szczególne przypadki Testy dla średnich Podobnie jak dla przedziałów ufności, rozpatrujemy trzy przypadki: rozkład normalny ze znaną wariancją, rozkład normalny z nieznaną wariancją, rozkład dowolny ze skończoną wariancją i duża próba. We wszystkich przypadkach n oznacza liczebność próby. Przypadek I. Populacja generalna ma rozkład N(m, σ), odchylenie standardowe jest znane. Nieznany jest parametr m, dla którego stawiamy hipotezę H0 : m = m0 , przeciwko jednej z hipotez: H1 : m ̸= m0 , H1 : m > m0 , H1 : m < m0 . Statystyka służąca do weryfikacji hipotezy H0 dana jest wzorem U= X − m0 √ n, σ (4.2.1) która przy założeniu prawdziwości hipotezy H0 ma rozkład N(0, 1). W przypadku hipotezy alternatywnej H1 : m ̸= m0 , obszar krytyczny dla poziomu istotności α ma postać Q = (−∞, −uα ) ∪ (uα , ∞), gdzie uα wyznaczone jest z zależności P (|U| > uα ) = α. Dla hipotezy alternatywnej H1 : m < m0 obszar krytyczny jest lewostronny i ma postać Q = (−∞, −uα ), gdzie uα wyznaczone jest z zależności P (U > uα ) = α, a dla H1 : m > m0 obszar krytyczny jest prawostronny i ma postać Q = (uα , ∞), gdzie uα znów wyznaczone jest z zależności P (U > uα ) = α. Przykład 4.2.1. Weźmy dane z przykładu 3.2.1. Przyjmijmy też, że σ = 0.1. Postawmy hipotezę H0 : m = 1.12 najpierw przeciw hipotezie H1 : m > 1.12, a potem przeciw hipotezie H1 : m ̸= 1.12, na poziomie istotności α = 0.05. Dla hipotezy H1 : m > 1.12, parametr uα wyznaczamy z równania Φ (uα ) = 0.95, więc uα = 1.64. Ze wzoru (4.2.1) otrzymujemy u= x − m0 √ 1.2 − 1.12 √ n= 5 ≈ 1.79 > uα = 1.64, σ 0.1 34 WYKŁAD 4. TESTOWANIE HIPOTEZ więc odrzucamy hipotezę H0 na korzyść H1 , czyli m jest istotnie większe od 1.12 – wartość statystyki u znalazła się w obszarze krytycznym (uα , ∞). Spytajmy teraz, czy m jest istotnie różne od 1.12. Parametr uα wyznaczamy z równania Φ (uα ) = 0.975, więc uα = 1.96 i tym razem |u| ≈ 1.79 < uα = 1.96, czyli m nie jest istotnie różne od 1.12 – wartość statystyki u nie znalazła się w obszarze krytycznym (−∞, uα ) ∪ (uα , ∞). Przypadek II. Populacja generalna ma rozkład N(m, σ), odchylenie standardowe jest nieznane. Hipoteza zerowa i hipotezy alternatywne są takie same, jak w poprzednim przypadku. Ponieważ σ nie jest znane, więc statystyka służąca do weryfikacji hipotezy dana jest wzorem t= X − m0 √ X − m0 √ n−1= n, S Ŝ (4.2.2) która przy założeniu prawdziwości hipotezy H0 ma rozkład t-Studenta o n − 1 stopniach swobody. W przypadku hipotezy alternatywnej H1 : m ̸= m0 , obszar krytyczny dla poziomu istotności α ma postać Q = (−∞, −tα ) ∪ (tα , ∞), gdzie tα wyznaczone jest z zależności P(|t| > tα ) = α. Dla hipotezy alternatywnej H1 : m < m0 , obszar krytyczny jest lewostronny i ma postać Q = (−∞, −tα ), gdzie tα wyznaczone jest z zależności P(t > tα ) = α, a dla H1 : m > m0 , obszar krytyczny jest prawostronny i ma postać Q = (tα , ∞), gdzie tα , gdzie znów uα wyznaczone jest z zależności P(U > uα ) = α. Jeżeli dostępne tablice statystyczne podają tylko wartość tα dla dwustronnego obszaru krytycznego dla danych α i n (tak jest w tablicy na str. 58), to przy jednostronnych (lewo lub prawostronnych) obszarach krytycznych trzeba skorzystać z zależności 2 P(t > tα ) = 2 P (t < −tα ) = P(|t| > tα ), (4.2.3) tzn. odczytać tα dla podwojonej wartości α. Tablice rozkładu t-Studenta podają wartości tylko dla liczby stopni swobody do trzydziestu. Dla większej liczby stopni swobody statystyka (4.2.2) ma rozkład w przybliżeniu normalny (patrz str. 22). Ponieważ zmienna losowa t jest oznaczana, zgodnie z tradycją małą literą, to dla odróżnienia zmiennej losowej t od jej wartości t (ω) będziemy wartość statystyki t (ω) oznaczać przez tobs (jako wartość obserwowaną). Przykład 4.2.2. Dane, cel i poziom istotności jak w przykładzie 4.2.1, ale teraz przypuśćmy, że nie znamy odchylenia standardowego, jednak wiemy, że X ∼ N (m, σ). Z przykładu 3.2.2 wiemy, że s = 0.089. Obliczamy tobs = x − m0 √ 1.2 − 1.12 √ n−1= 5 − 1 ≈ 1.8. s 0.089 Dla hipotezy alternatywnej H1 : m > 1.12 odczytujemy tα = 2.1318 z tablic dla czterech stopni swobody, korzystając ze wzoru (4.2.3) dla α = 0.05, a więc tobs < tα i nie ma podstaw do odrzucenia hipotezy o równości m = 1.12. Nie ma więc podstaw do przyjęcia, że m > 1.12. Dla hipotezy alternatywnej H1 : m ̸= 1.12 jest tα = 2.7764, więc tym bardziej nie ma podstaw do odrzucenia hipotezy o równości m = 1.12 i przyjęcia, że m ̸= 1.12. Zwróćmy uwagę, że znając σ, odrzuciliśmy w przykładzie 4.2.1 hipotezę o równości m = 1.12 na korzyść hipotezy m > 1.12. Nie znając σ, a jedynie obliczając oszacowanie s, nie można było z powodu gorszej informacji o populacji (nieznane σ) hipotezy o równości odrzucić. Przypadek III. Populacja generalna ma rozkład dowolny o skończonej wariancji, parametr σ może, ale nie musi być znany, natomiast próba jest duża (n co najmniej kilkadziesiąt). Wzory takie same jak w przypadku I lub II, przy czym σ jest zastąpione przez s lub ŝ. W praktyce (przynajmniej ekonomicznej) założenie, że wariancja jest skończona, jest zawsze spełnione. 4.2. SZCZEGÓLNE PRZYPADKI 35 Testy dla wariancji Przy testowaniu hipotezy dla wariancji H0 : σ 2 = σ02 będziemy brać pod uwagę tylko jedną hipotezę alternatywną H1 : σ 2 > σ02 . Do testowania takiej hipotezy używana jest statystyka χ2 = nS 2 (n − 1)Ŝ 2 = . σ02 σ02 (4.2.4) Jeśli cecha w populacji generalnej ma rozkład normalny, to statystyka (4.2.4), obliczona z próby n-elementowej, ma rozkład chi-kwadrat o n − 1 stopniach swobody. Z tablic odczytujemy wartość χα2 taką, że P(χ 2 > χα2 ) = α. Ponieważ zmienna losowa χ 2 jest oznaczana, zgodnie z tradycją, grecką literą chi, to wartość sta2 2 . Jeżeli χobs > χα2 , to odrzucamy hipotezę, że σ 2 = σ02 i tystyki χ 2 (ω) będziemy oznaczać przez χobs 2 2 przyjmujemy hipotezę alternatywną σ > σ0 . Tablice rozkładu chi-kwadrat podają wartości tylko dla liczby stopni swobody do trzydziestu. ( √ Dla ) większej liczby stopni swobody statystyka (4.2.2) ma rozkład w przybliżeniu normalny N n, 2n ( ) √ (patrz strona 22), czyli χ 2 − n / 2n ma rozkład N (0, 1). Przykład 4.2.3. Powróćmy do danych z przykładu 4.2.1, w którym przyjęliśmy σ = 0.1. Z przykładu 3.2.2 mamy s = 0.089. Postawmy zatem na poziomie istotności α = 0.05 hipotezę H0 : σ = 0.08 przeciw hipotezie alternatywnej H1 : σ > 0.08. Ze wzoru (4.2.4) obliczamy 2 χobs = ns2 5 · 0.008 = = 6.25. 2 0.082 σ0 Z tablic rozkładu chi-kwadrat dla czterech stopni swobody i α = 0.05 odczytujemy χα2 = 9.4877, więc nie ma podstaw do odrzucenia hipotezy, że σ = 0.08. W świetle tych rozważań przyjęcie σ = 0.1 wydaje się wątpliwe, ale trzeba podkreślić, że jedynym uprawnionym wnioskiem jest, że nie ma podstaw do odrzucenia hipotezy σ = 0.08, ale nie znaczy to, że σ = 0.08. Z przykładu 3.2.3 znamy przedział ufności dla σ 2 równy (0.0034, 0.0450), więc wartość σ 2 = 0.01 nie jest nieprawdopodobna. Testy dla wskaźnika struktury W sytuacji opisanej na str. 28 chcemy zweryfikować hipotezę zerową H0 : p = p0 . Hipoteza alternatywna może przyjmować jedną z następujących postaci: H1 : p ̸= p0 , H1 : p < p 0 , H1 : p > p0 . Statystyka służąca do weryfikacji hipotezy H0 dana jest wzorem U= m − p0 n √ p0 q0 n , q 0 = 1 − p0 , (4.2.5) która przy prawdziwości H0 ma w przybliżeniu rozkład normalny N (0, 1). W przypadku hipotezy alternatywnej H1 : p ̸= m0 obszar krytyczny dla poziomu istotności α ma postać Q = (−∞, −uα ) ∪ (uα , ∞), gdzie uα wyznaczone jest z zależności P(|U| > uα ) = α. Dla hipotezy alternatywnej H1 : p < p0 obszar krytyczny jest lewostronny i ma postać Q = (−∞, −uα ), a dla H1 : p > p0 obszar krytyczny jest prawostronny i ma postać Q = (uα , ∞), gdzie uα wyznaczone jest z zależności P(U > uα ) = α. 36 WYKŁAD 4. TESTOWANIE HIPOTEZ Przykład 4.2.4. Czy należy przyjąć, że z danych z przykładu 3.2.4 wynika, że na poziomie istotności α = 0.05, procent elementów klasy II jest większy niż 15%? Hipotezy są przy tak postawionym pytaniu, następujące: H0 : p = 0.15, H1 : p > 0.15. Obliczamy wartość statystyki (4.2.5) 0.2 − 0.15 u= √ ≈ 1.4. 0.15·0.85 100 Ponieważ uα = 1.64, to u < uα i nie ma podstaw do odrzucenia hipotezy, że jest 15% elementów klasy II. Nie można więc twierdzić (na poziomie istotności α = 0.05), że elementów klasy II jest więcej niż 15%. Spytajmy teraz, czy na tym samym poziomie istotności procent elementów klasy II jest większy niż 10%? Obliczamy ponownie 0.2 − 0.1 u= √ ≈ 3.33, 0.1·0.9 100 więc elementów klasy II jest istotnie więcej niż 10%. Testy dla współczynnika korelacji Testy dla współczynnika korelacji podamy dla dwóch przypadków. W obu przypadkach zakłada się, że dwuwymiarowy rozkład cech (X, Y ) jest normalny o gęstości (2.2.4), natomiast próba nie musi być duża. W tych przypadkach estymator R określony wzorem (2.3.12) występujący w statystykach służących do testowania hipotez oblicza się ze wzoru (3.2.18) lub (3.2.19). W pierwszym przypadku będziemy testować hipotezę H0 : ρ = 0, która dla rozkładu normalnego jest równoważna hipotezie, że zmienne X i Y są niezależne. Hipotezą alternatywną jest H1 : ρ ̸= 0. Statystyka służąca do tego celu jest następująca: t=√ r 1 − r2 √ n − 2. (4.2.6) Statystyka ta ma, przy założeniu prawdziwości hipotezy H0 , rozkład t-Studenta o n − 2 stopniach swobody. Obszar krytyczny jest dwustronny przy tak przyjętej hipotezie alternatywnej. Jeżeli przyjmiemy hipotezę alternatywną H1 : ρ > 0 lub H1 : ρ < 0, to obszar krytyczny będzie odpowiednio prawostronny lub lewostronny. W drugim teście hipotezą zerową jest H0 : ρ = ρ0 przeciwko jednej z hipotez alternatywnych H1 : ρ ̸= ρ0 , H1 : ρ > ρ0 lub H1 : ρ < ρ0 . Zgodnie z przyjętą postacią hipotezy alternatywnej określamy obszar krytyczny, natomiast odpowiednia do tego statystyka jest określona następująco: ( ( ) ) √ 1+R 1 + ρ0 ρ0 U = 1.1513 log − log − n − 3, (4.2.7) 1−R 1 − ρ0 2(n − 1) gdzie log x jest logarytmem dziesiętnym z liczby x. Przy założeniu prawdziwości hipotezy zerowej statystyka (4.2.7) ma rozkład asymptotycznie normalny N(0, 1), przy n → ∞. Przykład 4.2.5. Empiryczny współczynnik korelacji otrzymany z próby 100 elementowej o rozkładzie normalnym (patrz przykład 3.2.5) wynosi r = 0.3. Czy na poziomie istotności α = 0.05 należy odrzucić hipotezę, że ρ = 0? Hipotezami są tu: H0 : ρ = 0 przeciw hipotezie alternatywnej H1 : ρ ̸= 0. Obliczamy ze wzoru (4.2.6) 0.3 √ 98 ≈ 3.11. 1 − 0.32 Ponieważ dla 98 stopni swobody można przyjąć zamiast rozkładu t-Studenta rozkład normalny, to uα = 1.96 (bo obszar krytyczny jest dwustronny), więc hipotezę o braku korelacji należy odrzucić. t= 4.3. ZADANIA 37 Czy należy też odrzucić hipotezę, że nie ma zależności w tym sensie, że (patrz tabela A.2 na str. 44) 0 ≤ |r| < 0.2? Stawiamy hipotezę H0 : ρ = 0.2 przeciw hipotezie H1 : ρ ≥ 0.2. W tym celu obliczamy wartość statystyki U ze wzoru (4.2.7): ) ) ( ( √ 1 + 0.3 1 + 0.2 0.2 u = 1.1513 log − log − 100 − 3 ≈ 1.04. 1 − 0.3 1 − 0.2 2 (100 − 1) Ponieważ teraz uα = 1.64 (bo obszar krytyczny jest jednostronny), więc nie ma podstaw do odrzucenia hipotezy H0 , czyli nie ma podstaw do przyjęcia, że zależność, nawet niska (w sensie tabeli A.2), jednak istnieje. 4.3. Zadania 1. Z populacji o rozkładzie normalnym N(m, 0.2) pobrano próbę 4-elementową: 1.14, 1.06, 1.13, 1.17. Na poziomie istotności α = 0.05 zweryfikować hipotezę, że m = 1.05. Sformułować odpowiednie hipotezy alternatywne. 2. Z populacji o rozkładzie normalnym N(m, σ) pobrano próbę 3-elementową: 13, 11, 12. Na poziomie istotności 0.01 zweryfikować hipotezę, że m = 13. Sformułować odpowiednie hipotezy alternatywne. 3. Z próby 5-elementowej w populacji o rozkładzie normalnym obliczono s2 = 0.04. Czy na poziomie istotności α = 0.01 można twierdzić, że σ 2 = 0.03? 4. Dla danych z zadania 4 na str. 30 zweryfikować hipotezę, że podawane w katalogu średnie zużycie paliwa 5 litrów na 100 km, w rzeczywistości jest wyższe. Przyjąć poziom istotności 0.05. Założyć, że rozkład zużycia paliwa jest normalny. 5. Czy dla danych z zadania 5 na str. 30 można uznać, że firma nalewająca płyn nie oszukuje klientów? Postawić i zweryfikować odpowiednią hipotezę. 6. Czy dla danych z zadania 6 na str. 30 można twierdzić, że taka grupa jest kiepska, tzn., że jej średni poziom wiedzy wykazany na kolokwium jest mniejszy niż 3.5? Sformułować odpowiednią hipotezę. Przyjąć poziom istotności α = 0.05. 7. Dla danych z zadania 7 na str. 30 zweryfikować na poziomie istotności α = 0.05 deklarację producenta, że procent wyrobów nie spełniających wymagań trwałości jest mniejszy od 3. 8. W wybranych sześciu miesiącach wydatki na reklamę i zysk (wszystko w tysiącach złotych) przedstawiony jest w tabeli. Zakładamy, że rozkład łączny obu cech jest normalny. Wydatki Zysk 1 40 3 20 4 80 8 90 6 60 9 70 Czy można twierdzić, że poziom wydatków na reklamę nie ma wpływu na zysk? Przyjąć poziomy istotności 0.1 i 0.05. 9. Empiryczny współczynnik korelacji r między cechami X i Y otrzymany z próby 120 elementowej jest równy 0.58. Czy należy twierdzić, współczynnik korelacji między X i Y jest większy od 0.5? Dodatek A Elementy statystyki opisowej A.1. Opracowanie materiału statystycznego Zbiorowość statystyczna (populacja generalna) jest zbiorem wszystkich elementów, których cechy badamy. Niech cechą tą będzie X. Próba statystyczna jest zbiorem cech elementów wybranych z populacji generalnej, które mogły być poddane bezpośredniej obserwacji. Cechy statystyczne można podzielić na: • ilościowe (mierzalne), które z kolei dzielą się na: – skokowe – ciągłe • jakościowe (niemierzalne). Mając daną próbę, trzeba ją przedstawić w postaci dogodnej do dalszego opracowywania. Jeżeli cecha jest ilościowa, to pierwszym etapem jest utworzenie szeregu statystycznego z zaobserwowanych wartości cechy X. • Szereg szczegółowy. Dane są uporządkowane rosnąco: x1 ≤ x2 ≤ · · · ≤ xn lub malejąco x1 ≥ x2 ≥ · · · ≥ xn , gdzie n jest liczebnością próby. • Szereg rozdzielczy. Zbiór możliwych wartości obserwacji dzielimy na rozłączne przedziały klasowe, (klasy): A1 = [a0 , a1 ), A2 = [a1 , a2 ), . . . , Ak = [ak−1 , ak ), gdzie k jest liczbą klas. Przedziały klasowe mogą być różnej długości. Przez ni będziemy oznaczać liczbę danych należących do i-tej klasy. Wskaźnik struktury określa się wzorem ni ωi = . n Oczywiście k ∑ ω1 + ω2 + · · · + ωk = ωi = 1. i=1 38 A.1. OPRACOWANIE MATERIAŁU STATYSTYCZNEGO 39 • Szereg rozdzielczy skumulowany. (sk) ni i ∑ = n1 + n2 + · · · + ni = nj . j=1 Skumulowany wskaźnik struktury: (sk) (sk) ωi n = i . n Liczba klas k jest albo dana z góry, albo należy ją ustalić w zależności od liczebności próby n. Liczbę tę można wyznaczyć na różne sposoby. Dwa z nich to wzory: √ k ≈ n, k ≈ 1 + 3.322 log n, gdzie log n jest logarytmem dziesiętnym z n. Inny sposób określania liczby klas podaje tabela A.1. Tabela A.1: Liczba klas w zależności od liczebności próby Liczebność próby n 40 – 60 60 – 100 100 – 200 200 – 500 Liczba klas k 6–8 7 – 10 9 – 12 11 – 17 Rozpiętość przedziałów klasowych hi = ai − ai−1 nie musi być taka sama. Określamy (n) fi (ω) fi ni – gęstość liczebności, hi ωi = – gęstość częstości, hi = gdzie i = 1, 2, . . . , k. Dla klas równej długości h≈ xmax − xmin R = , k k gdzie R – rozstęp, zaś h przyjmujemy z nadmiarem, tzn. tak, aby kh ≥ R. (ω) Histogram (por. rys. A.1)– rysujemy słupki (prostokąty) o podstawie hi = ai − ai−1 , wysokości fi , (ω) a zatem o polu Pi = hi fi . Łatwo obliczyć (proszę sprawdzić), że P1 + P2 + · · · + Pk = 1. Podobnie rysuje się histogram skumulowany, ale z tą różnicą, że słupki mają wysokości kolejno (ω) (ω) (sk) (ω) (sk) F1 = ω1 , F2 = ω1 + ω2 = ω2 , . . . , Fk = ω1 + · · · + ωk = ωk = 1. Histogram skumulowany nosi też nazwę (częściej używaną) dystrybuanty empirycznej. Histogram skumulowany odpowiadający histogramowi z rysunku A.1 przedstawiono na rysunku A.2. 40 DODATEK A. ELEMENTY STATYSTYKI OPISOWEJ 6 (ω) f2 (ω) f3 P2 (ω) f4 P3 (ω) f1 P4 P1 a0 | {z h1 - a1 }| {z h2 a2 }| {z h3 a3 }| {z h4 a4 } Rysunek A.1: Przykład histogramu, k = 4 6 1 (ω) F3 (ω) F2 (ω) F1 - a0 | {z h1 a1 }| {z h2 a2 }| {z h3 a3 }| {z h4 a4 } Rysunek A.2: Przykład histogramu skumulowanego, k = 4 Zauważmy, że ◦ xi = ai + ai−1 2 (◦ ) (ω) jest środkiem przedziału (ai−1 , ai ). Łącząc ze sobą punkty o współrzędnych x i , fi , otrzymujemy (◦ ) (ω) diagram częstości (rys. A.3), a łącząc ze sobą punkty o współrzędnych x i , Fi , otrzymujemy diagram częstości skumulowanej (rys. A.4). Diagramy częstości i częstości skumulowanej są wygładzoną postacią histogramu i histogramu skumulowanego. Diagram częstości jest empirycznym odpowiednikiem gęstości (por. str. 9, wzór (1.2.3)), a diagram częstości skumulowanej jest empirycznym odpowiednikiem dystrybuanty (por. str. 8, wzór (1.2.1)). A.2. PARAMETRY 41 6 (ω) f2 (ω) f3 P2 (ω) f4 P3 (ω) f1 P4 P1 a0 | {z h1 - a1 }| a2 }| {z h2 {z h3 a3 }| {z h4 a4 } Rysunek A.3: Przykład diagramu częstości, k = 4 6 1 (ω) F3 (ω) F2 (ω) F1 - a0 | {z h1 a1 }| a2 }| {z h2 {z h3 a3 }| {z h4 a4 } Rysunek A.4: Przykład diagramu częstości skumulowanej, k = 4 A.2. Parametry Miary położenia dzielimy na klasyczne i pozycyjne. Przykładem klasycznej miary położenia jest średnia empiryczna, przykładami pozycyjnych miar położenia są dalej zdefiniowane wartość modalna i kwartyle. Średnia empiryczna jest średnią arytmetyczną i jest określona wzorem x1 + · · · + xn x= . (A.2.1) n Gdy dane są pogrupowane, czyli gdy znany jest tylko szereg rozdzielczy, to średnia arytmetyczna wyraża się wzorem przybliżonym ◦ ◦ ni x 1 + · · · + nk x k ◦ ◦ = x 1 ω1 + · · · + x k ωk . (A.2.2) n Należy zwrócić uwagę, że w mianowniku wzoru (A.2.2) znajduje się liczba danych n, a nie liczba przedziałów k. Ze względu na to, że dane są pogrupowane, wzór (A.2.2) jest tylko przybliżeniem wzoru (A.2.1). x= 42 DODATEK A. ELEMENTY STATYSTYKI OPISOWEJ Wartość modalna Mo jest określona jako wartość cechy pojawiającej się najczęściej. W praktyce jest ona najbardziej użyteczna, gdy dane są pogrupowane. Jej wartość leży w pobliżu maksimum diagramu częstości, gdy ma on tylko jedno maksimum. Dla każdego zbioru danych można zawsze znaleźć taki punkt, że co najmniej połowa danych jest od niego niewiększa, a co najmniej połowa jest niemniejsza. Punkt taki nazywa się medianą i oznacza się symbolem Me. Podobnie można znaleźć punkt taki, że co najmniej jedna czwarta danych jest od niego niewiększa, a co najmniej trzy czwarte jest niemniejszych. Punkt taki nazywa się kwartylem Q1 . Kwartylem Q2 jest mediana, a kwartyl Q3 określa się tak jak Q1 , zamieniając ze sobą słowa „niewiększy” i „niemniejszy”. Dla szeregu szczegółowego medianę określa się wzorem x(n+1)/2 gdy n jest nieparzyste, Me = xn/2 + xn/2+1 (A.2.3) gdy n jest parzyste. 2 Dla szeregów rozdzielczych podaje się albo tylko przedział, w którym leży mediana, albo dodatkowo przybliża się jej wartość wzorem n 2 Me = x0m + − m−1 ∑ ni i=1 nm hm , gdzie m jest numerem przedziału, w którym leży mediana, x0m jest dolną granicą tego przedziału, a hm – jego rozpiętością. Podobnie określa się kwartyle. Miary zmienności można podzielić tak samo jak miary położenia, na klasyczne i pozycyjne. Miarą klasyczną jest wariancja empiryczna określona wzorem n 1∑ s = (xi − x)2 n 2 (A.2.4) i=1 lub dla danych pogrupowanych wzorem )2 1 ∑ (◦ x i − x ni . s = n k 2 (A.2.5) i=1 Inne (równoważne, ale wygodniejsze) wzory: n s2 = 1∑ 2 xi − x 2 n i=1 lub dla danych pogrupowanych k s2 = 1 ∑ ◦2 x i ni − x 2 . n i=1 Odchylenie standardowe empiryczne jest pierwiastkiem z wariancji: √ s = s2 . Podobną, ale rzadziej stosowaną miarą zmienności jest odchylenie przeciętne określone wzorami n d= 1∑ |xi − x| , n i=1 A.2. PARAMETRY 43 lub dla danych pogrupowanych k d= 1∑ ◦ |x i − x|ni . n i=1 Miarą pozycyjną jest odchylenie ćwiartkowe, określone wzorem Q= Q3 − Q1 . 2 W zależności od przyjętej miary zmienności cechy typowy obszar zmienności xtyp określa się jednym ze wzorów: x − s <xtyp < x + s , x − d <xtyp < x + d , Me − Q <xtyp < Me + Q . Z miarami zmienności związane są współczynniki zmienności d s , Vd = , x x Q Q3 − Q1 VQ = , VQ1 ,Q3 = . Me Q3 + Q1 Vs = Miarami asymetrii są: wskaźnik skośności x − Mo oraz współczynniki skośności x − Mo , s x − Mo Ad = , d Q3 + Q1 − 2Me . AQ = 2Q As = Miary zależności liniowej Mamy zebrane pary danych (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) niepogrupowane lub pogrupowane w tablice. Jeżeli wartości cechy X są podzielone na s przedziałów, a wartości cechy Y na r przedziałów, to nij jest liczbą danych, których wartość cechy X wpada do przedziału o numerze i-tym, a wartość cechy Y wpada do przedziału o numerze j-tym. Tablice, których elementami są liczby nij noszą nazwę tablic wielodzielczych. Kowariancja empiryczna między cechami X i Y jest określona wzorem n cxy = 1∑ (xi − x)(yi − y), n (A.2.6) i=1 gdy obserwacje są niepogrupowane oraz wzorem r cxy = s 1 ∑∑ ◦ ◦ (x i − x)(y i − y)nij , n i=1 j=1 (A.2.7) 44 DODATEK A. ELEMENTY STATYSTYKI OPISOWEJ gdy obserwacje są pogrupowane. Empiryczny współczynnik korelacji jest określony wzorem rxy = cxy , sx sy (A.2.8) √ √ gdzie sx = sx2 i sy = sy2 są odchyleniami standardowymi (patrz wzory (A.2.4) i (A.2.5)). Wiadomo, że zawsze −1 ≤ rxy ≤ 1, a ponadto gdy rxy = 1 lub rxy = −1, to istnieje deterministyczna zależność liniowa między cechami. Gdy rxy = 0, to brak jest jakiejkolwiek zależności liniowej między cechami, choć może być zależność nieliniowa. Wartość bezwzględna współczynnika korelacji charakteryzuje stopień zależności liniowej między cechami. Można przyjąć następującą klasyfikację stopnia zależności: Tabela |rxy | < 0.2 0.2 − 0.4 0.4 − 0.7 0.7 − 0.9 > 0.9 A.2: Stopnie zależności Zależność liniowa brak zależności zależność niska zależność umiarkowana zależność znacząca zależność bardzo silna ◦ ◦ Wstępną metodą oceny stopnia zależności jest narysowanie punktów (xi , yi ) (lub (x i , y i ) dla danych pogrupowanych) w układzie współrzędnych, a następnie dokonanie subiektywnej oceny, czy punkty układają się wzdłuż pewnej prostej. Proste regresji dają najlepsze liniowe przybliżenie jednej cechy przez drugą. Jeśli tymi cechami są X i Y , to równanie ŷ = ay x + by (A.2.9) przybliża wartości y wartościami ŷ. Oznacza to, że jeśli mamy pary danych (xi , yi ), to równanie (A.2.9) daje nam przybliżoną wartość cechy Y , gdy znamy tylko wartości cechy X, a więc daje nam pary (xi , ŷi ) dla wszystkich wartości xi . Analogiczna sytuacja ma miejsce, gdy znamy wartości cechy Y , a nie znamy wartości cechy Z. x̂ = ax y + bx . (A.2.10) Proste regresji mają własność taką, że wartości n ∑ (yi − ŷi )2 = i=1 n ∑ i=1 (xi − x̂i )2 = n ∑ (yi − ay xi − by )2 i=1 n ∑ (xi − ax yi − bx )2 i=1 są najmniejsze. Dzieje się tak wtedy, gdy parametry ay , by , ax oraz bx wyznaczone są ze wzorów ay = cxy , sx2 b y = y − ay x dla prostej regresji określonej równaniem (A.2.9) oraz ax = cxy , sy2 A.2. PARAMETRY 45 b x = x − ax y dla prostej regresji określonej równaniem (A.2.10). Parametry ay i ax nazywają się empirycznymi współczynnikami regresji. Uwaga. Dla tego samego zbioru danych, proste regresji (A.2.9) i (A.2.10) zwykle się różnią, choć najczęściej nieznacznie. Odpowiedzi Odpowiedzi do wykładu 1 1. Prawdopodobieństwo ( )2 ( )3 ( )3 1 1 1 1 1 3 =4 = . + 2 2 2 2 2 (n+m) 2. Oczywiście s ≤ k. k losów można wybrać spośród wszystkich n + m losów na sposobów. k (n ) Spośród n losów wygrywających,(s losów można wybrać na sposobów, a pozostałe k −s kupione s ) m losy można wybrać z m losów na k−s sposobów. Prawdopodobieństwo, że wśród kupionych k losów jest dokładnie s wygrywających, jest więc równe ( )( ) n m s k−s ( ) . n+m k 3. Prawdopodobieństwo wybrania poprawnej odpowiedzi wynosi 1/3. Egzaminowany zgaduje odpowiedzi, czyli (to zakładamy) odpowiedzi są losowane niezależnie. Wobec tego, prawdopodobieństwo zgadnięcia dokładnie czterech odpowiedzi wynosi ( ) ( )4 5 1 2 . 3 3 4 4. Oznaczmy zdarzenia: A – kupiono bombonierkę Premium, B – kupiono bombonierkę Super Premium, W – wybrano czekoladkę o smaku wiśniowym. Ze wzoru na prawdopodobieństwo całkowite: P (W ) = P (W |A) P (A) + P (W |B) P (B) = 3 1 0.2 + 0.8 = 0.28. 5 5 5. Przy oznaczeniach z zad. 4, ze wzoru Bayesa: P (B) = 0.8 P (B ∩ W ) P (W |B) P (B) = = 5 ≈ 0.57. P (W ) P (W ) 0.28 6. Oznaczmy zdarzenia: A – zdarzenie polegające na tym, że przedmiot jest dobrej jakości, B – przedmiot oceniono jako dobrej jakości. Szukamy P (A|B). 46 ODPOWIEDZI DO WYKŁADU 1 47 Dane: ( ) P (A) = 0.95, stąd P A = 0.05, P (B|A) = 0.98, ( ) P B|A = 0.05. Ze wzoru na prawdopodobieństwo całkowite (1.1.4) otrzymujemy ( ) ( ) P (B) = P (B|A) P (A) + P B|A P A = 0.98 · 0.95 + 0.05 · 0.05 = 0.9335. Ze wzoru Bayesa (1.1.5) otrzymujemy P (A|B) = P (B|A) P (A) 0.98 · 0.95 = = 0.9973. P (B) 0.9335 7. Oznaczmy zdarzenia: A – zdarzenie polegające na tym, że kupiono proszek XYZ, B – proszek usunął plamę. Szukamy P (B). Dane: ( ) P (A) = 0.7, stąd P A = 0.3, P (B|A) = 0.2, ( ) P B|A = 0.95. Ze wzoru na prawdopodobieństwo całkowite (1.1.4) otrzymujemy ( ) ( ) P (B) = P (B|A) P (A) + P B|A P A = 0.2 · 0.7 + 0.95 · 0.3 = 0.425. 8. W urnie jest po pięć liter czerwonych i białych oraz po pięć liter X i Y. Stąd P (A) = P (B) = 1/2. Zdarzenie A ∩ B jest wybraniem czerwonej litery Y, więc P (A ∩ B) = 1/5. Ponieważ P (A) P (B) = 1 1 ̸= P (A ∩ B) = , 4 5 to (patrz definicja (1.1.3) na str. 7) zdarzenia A i B nie są niezależne. 9. Mediana Me jest kwantylem rzędu p = 0.5, więc ze wzoru (1.3.1) otrzymujemy Me = 1.5, gdyż 0.4 + 0.3 ≥ 0.5, 0.3 + 0.2 + 0.1 ≥ 0.5. Wartość oczekiwaną wyznaczamy ze wzoru (1.3.2): EX = 1.0 · 0.4 + 1.5 · 0.3 + 2.0 · 0.2 + 2.5 · 0.1 = 1.5.. Wariancję obliczamy ze wzoru (1.3.6): D2 X = (1.0 − 1.5)2 · 0.4 + (1.5 − 1.5)2 · 0.3 + (2.0 − 1.5)2 · 0.2 + (2.5 − 1.5)2 · 0.1 = 0.25. 10. Z własności prawdopodobieństw pk dla zmiennej losowej skokowej (str. 8, pkt. b) wynika, że p + q = 0.5. Jeśli Me = 2.0, to 0.1 ≤ p ≤ 0.5. Jeśli zaś Me = 2.5, to 0.4 ≤ q ≤ 0.5. EX = 0.8 + 2p + 2.5q, EX 2 = 1.55 + 4p + 6.25q. Stąd D2 X = 1.55 + 4p + 6.25q − (0.8 + 2p + 2.5q)2 . 11. Oznaczmy zysk przez Z. EZ = 0.4 · (−0.1) + 0.15 · 2.3 + 0.2 · 3.1 + 0.05 · (−1.1) + 0.2 · 3.8 = 1.63, 48 ODPOWIEDZI D2 Z = 0.4 · (−0.1)2 + 0.15 · 2.32 + 0.2 · 3.12 + 0.05 · (−1.1)2 + 0.2 · 3.82 − 1.632 = 3.0111, √ skąd σ = D2 Z ≈ 1.74. 12. EZ = 0.5 EX + 0.3 EY = 0.5 · 1.2 + 0.3 · 2.5 = 0.5 · 1.2 + 0.3 · 2.5 = 1.35, Ponieważ X i Y są niezależne, to D2 Z = 0.52 D2 X + 0.32 D2 Y = 0.52 · 0.5 + 0.32 · 0.5 = 0.17. 13. Jeśli Yi jest zyskiem powstałym z wylosowania nagrody w wyniku zakupu jednej sztuki towaru, x jest wartością nagrody, to rozkład zmiennej losowej Yi jest podany w tabeli x P (Yi = x) 1000 0.0001 3 0.2 0 0.7999 Wtedy EYi = 0.0001 · 1000 + 0.2 · 3 = 0.1 + 0.6 = 0.7, D2 Yi = 0.0001 · 10002 + 0.2 · 32 = 180. Na każdej sztuce kupionego towaru ponosimy zawsze stratę 22 − 25 = 3 i możemy mieć zysk z wylosowanej nagrody. Stąd EX = 5 (0.7 √ − 3) = −11.5. Ponieważ wariancja stałej jest zawsze równa zeru, to D2 X = 5 · 180 = 900, czyli σ = 900 = 30. 14. Niech A oznacza zdarzenie takie, że nie wygramy ani razu, więc A oznacza zdarzenie takie, że wygramy choć raz. Ponieważ prawdopodobieństwo wygrania w jednej grze wynosi p = 0.15, to prawdopodobieństwo przegrania w jednej grze wynosi q =( 1−p ) = 0.85. Ponieważ gry są niezależne, co musimy założyć przy nieoszukującym automacie, to P A = q n = 0.85n . Liczba gier n musi być taka, że P (A) ≥ 0.3, więc rozwiązujemy nierówność 0.85n ≥ 0.3, czyli kolejno n ln 0.85 ≥ ln 0.3, ln 0.3 ≈ 7.4. n≥ ln 0.85 Stąd n ≥ 8. 15. Zmienne losowe X i Y przyjmują wartości m, n = 0, 1, 2. Zauważmy, że nie mogą równocześnie zajść zdarzenia {X = 2, Y = 0} oraz {X = 0, Y = 2}, natomiast wszystkie pozostałe układy są możliwe, przy czym zdarzenie {X = 1, Y = 1} zajdzie, gdy albo Z1 = 1, Z2 = 0, Z3 = 1, albo Z1 = 0, Z2 = 1, Z3 = 0. Stąd macierz prawdopodobieństw pmn jest następująca. 1/8 1/8 0 1/8 1/4 1/8 0 1/8 1/8 Postępując tak jak w przykładzie 1.2.4, otrzymujemy prawdopodobieństwa P (X = 0) = P (X = 2) = P (Y = 0) = P (Y = 2) = 1/4 oraz P (X = 1) = P (y = 1) = 1/2. Stąd EX = EY = 1 oraz D2 X = D2 Y = 1/2. ODPOWIEDZI DO WYKŁADU 2 49 Najpierw musimy obliczyć EXY = 1 · 2 +2· 8 ( 1 1 + 8 8 ) +4· 1 10 = . 8 8 Podstawiając obliczone wartości do wzoru (1.3.12), otrzymujemy 1 C (X, Y ) = E (XY ) − (EX) (EY ) = . 4 Współczynnik korelacji otrzymujemy ze wzoru (1.3.14) C(X, Y ) √ ρ=√ = 1/2. D2 X D2 Y Odpowiedzi do wykładu 2 1. Niech X oznacza liczbę samochodów. Wtedy P (X > 3) = 1 − e −1.2 3 ∑ 1.2k k=0 k! ( =1−e −1.2 1.22 1.23 1 + 1.2 + + 2 6 ) = 0.0338. 2. Bezpośrednio z tablic otrzymujemy P (X < 1.3) = Φ (1.3) = 0.9032. Z zależności na str. 19 i z tablic otrzymujemy: P (X > 2.1) = 1 − Φ (2.1) = 0.0179, P (X < −0.9) = Φ (−0.9) = 1 − Φ (0.9) = 0.1841, P (|X| ≤ 1.34) = P (−1.34 ≤ X ≤ 1.34) = Φ (1.34) − (1 − Φ (1.34)) = 2Φ (1.34) − 1 = 0.8198. X − 0.3 ∼ N (0, 1). Dlatego postępując tak jak w zad. 2, otrzymujemy: 0.12 ( ) X − 0.3 0.13 − 0.3 > ≈ Φ (−1.42) 1 − Φ (1.42) = 0.0778, P 0.12 0.12 ( ) X − 0.3 1.34 − 0.3 P < ≈ Φ (8.67) ≈ 1, 0.12 0.12 ( ) X − 0.3 0.1 − 0.3 P ≥ = Φ (−1.67) = 1 − Φ (1.67) = 0.0475, 0.12 0.12 P (|X| > 1.51) = P (X > 1.51) + P (X < −1.51) ) ( ) ( 1.51 − 0.3 X − 0.3 −1.51 − 0.3 X − 0.3 > +P < =P 0.12 0.12 0.12 0.12 ≈ 1 − Φ (10) + Φ (−15) ≈ 1 − 1 + 0 = 0. 3. Ponieważ X ∼ N (0.3, 0.12) to 4. Jeśli X ma rozkład normalny N (m, σ), to zmienna losowa Y = (X − m) /σ ma rozkład normalny N (0, 1). Obliczamy ( ) |X − m| P (|X − m| > 3σ) = P > 3 = P (|Y | > 3) = 2 (1 − Φ (3)) = 2 · 0.0013 = 0.0026 < 0.01. σ 50 ODPOWIEDZI 5. Dystrybuanta F (x) zmiennej losowej o rozkładzie wykładniczym o średniej 1/λ = 2.41: F (x) = 1 − ex/2.41 Kwantyle ξp rzędu p są więc rozwiązaniami równania F (x) = 1 − e−x/2.41 = p, czyli x = −2.41 ln (1 − p) . Stąd mediana i kwartyle: Me = −2.41 ln 0.5 = 1.67, Q1 = −2.41 ln 0.75 = 0.69, Q3 = −2.41 ln 0.25 = 3.34. Odchylenie ćwiartkowe Q = Q3 − Q1 = 2.65. 6. Ponieważ dla zmiennej losowej X o rozkładzie wykładniczym zawsze jest P (X ≥ 0) = 1, to P (Y ≥ 0.45) = 1, a więc również P (Y ≥ 0.05) = 1. Obliczamy dalej ( ) 0.59 − 0.45 P (Y < 0.59) = P (1.4X + 0.45 < 0.59) = P X < ≈ 0.095. 1.4 7. Ponieważ (patrz str. 21) EX = EX oraz EŜ 2 = D2 X, to dla rozkładu jednostajnego na odcinku [1, 3] mamy (patrz str. 18) EX = 2 oraz EŜ 2 = 1/3. Stąd i z porównania wzorów (2.3.2) i (2.3.8) otrzymujemy też ES 2 = 0.3. 8. Zmienna losowa T ma rozkład jednostajny na odcinku [0, 30] i gęstość { 1 dla x ∈ [0, 30], f (x) = 30 0 dla x ∈/ [0, 30]. Wartość oczekiwana ze wzoru (1.3.4): ∫30 αx 2 ES = α x 3 30 1 dx = = 300α. 30 30 3 0 0 Ponieważ z tego samego wzoru ∫30 2 αx 4 ES = α x 5 30 1 dx = = 162000α, 30 30 5 0 0 to D2 S = ES 2 − (ES)2 = 72000. Stąd σ ≈ 268. Wyznaczamy parametry pozycyjne. Najpierw obliczymy dystrybuantę F (x) zmiennej losowej T: ∫x F (x) = 0 x 1 dx = . 30 30 ODPOWIEDZI DO WYKŁADU 2 51 Teraz obliczymy dystrybuantę G (x) zmiennej losowej S: √ ) √ ( ( ) x 1 x 2 G (x) = P (S < x) = P αT < x = P T < = α 30 α dla 0 ≤ x ≤ α900. Medianę wyznaczamy z równania G (x) = 0.5, skąd Me = 225α. Kwartyle Q1 i Q3 wyznaczamy odpowiednio z równań G (x) = 0.25 i G (x) = 0.75, skąd Q1 = 56.25α, Q3 = 506.25α i odchylenie ćwiartkowe Q = 450α. Porównujemy parametry: EX < Me, σ < Q. 9. Wartości tα : a) α k 5 11 0.1 2.0150 1.7959 0.05 2.5706 2.2010 0.1 1.1459 1.3634 0.05 2.0150 1.7959 0.1 -1.1459 -1.3634 0.05 -2.0150 -1.7959 b) α k 5 11 c) α k 5 11 10. Wartości χα2 : a) α k 5 11 0.1 9.2364 17.2750 0.05 11.0705 19.6751 b) α k 5 11 0.1 1.6103 5.5778 0.05 1.1455 4.5748 Dla k > 30 korzystamy z Centralnego Twierdzenia ( √ ) Granicznego. Wtedy dla dużych k zmienna 2 losowa χα ma w przybliżeniu rozkład N k, 2k . W tym przypadku ma w przybliżeniu rozkład N (41, 9.06) i N (50, 10). Z tablic rozkładu normalnego otrzymujemy wartości χα2 : a) α k 41 50 0.1 48.39 58.16 0.05 55.85 66.4 0.1 29.41 37.2 0.05 26.15 33.6 b) α k 41 50 11. Korzystamy z Centralnego Twierdzenia Granicznego (str. 23). Oznaczmy { 1, gdy i-ta sztuka jest drugiego gatunku, Xi = 0, gdy i-ta sztuka jest innego (np. pierwszego) gatunku. 52 ODPOWIEDZI Wtedy P (Xi = 1) = p = 0.3, m = EXi = p = 0.3, D2 X = p (1 − p) = 0.21, σ ≈ 0.46, n = 100 oraz X = X1 + · · · + X100 jest liczbą sztuk drugiego gatunku. ( ) X − 30 30 − 30 P (X < 30) = P < ≈ Φ (0) = 0.5. 10σ 10σ ( ) ( ) X − 30 X − 30 10 − 30 −20 P (X > 10) = P ≈P ≈ Φ (−4.36) ≈ 0. < < 10σ 10σ 10σ 10 · 0.46 Stąd też P (10 < X < 30) ≈ Φ (0) − Φ (−4.36) ≈ 0.5. 12. Oznaczmy przez Wi tygodniową wypłatę z funduszu. Dla rozkładu wykładniczego m = EWi = √ σ = D2 Wi = 1/λ = 1000. Niech W = W1 + · · · + W52 . Z Centralnego Twierdzenia Granicznego otrzymujemy ( ) W − 52 · 1000 70 000 − 52 · 1000 P (W > 70 000) = P > 52 · 1000 52 · 1000 ( ) 70 000 − 52 · 1000 ≈Φ ≈ Φ (0.35) ≈ 0.6368. 52 · 1000 13. Prawdopodobieństwo wyrzucenia dwóch szóstek wynosi p = 1/36. Stąd EX = 100/36 ≈ 2.7778 oraz D2 x = 100 (1 − 1/36) /36 ≈ 2.7006. Ponieważ n = 100 jest liczbą dużą, p jest małe, a λ = pn ≈ 2.7778 jest wielkością umiarkowaną, to stosujemy twierdzenie Poissona, skąd P (X = k) = e−2.7778 2.7778k . k! Podstawiając k = 0, 1, 2 otrzymujemy 2.77780 ≈ 0.0622, 0! ( ) 2.77780 2.77781 P (X ≤ 1) = e−2.7778 + ≈ 0.2349, 0! 1! ( ) k 2.77781 2.77782 −2.7778 2.7778 P (X ≤ 2) = e + ++ ≈ 0.4748. k! 1! 2! P (X ≤ 0) = e−2.7778 Odpowiedzi do wykładu 3 1. P (U < x) = 0.1 P (U > x) = 0.8 P (|U| > x) = 0.01 P (t < x) = 0.05 P (U > x) = 0.9 P (|U| ( 2 > x)) = 0.02 P (χ < x ) = 0.1 P χ 2 > x = 0.8 x x x x x x x x = −1.28 = −0.84 = 2.57 = −1.7207 = −1.28 = 2.33 = 13.2396 = 15.4446 ODPOWIEDZI DO WYKŁADU 3 53 2. Obliczamy x = −0.01+0.19+0.09−0.18+0.40 = 0.098. Stąd przedział ufności dla EX jest postaci 5 ( ) ( ) σ σ 0.2 0.2 x − uα √ , x + uα √ = 0.098 − 1.64 √ , 0.098 + 1.64 √ ≈ (0.008557, 0.1874) , n n 5 5 gdzie Φ (uα ) = 0.95, więc z tablic rozkładu normalnego uα ≈ 1.64. 3. Przedział ufności dla σ 2 = D2 X jest postaci ( 2 ) ( ) ns ns 2 0.2 0.2 , = , ≈ (0.0211, 0.2814) , c2 c1 9.4877 0.7107 więc przedział ufności dla σ jest postaci (√ ) √ 0.2 0.2 , ≈ (0.1452, 0.5305) . 9.4877 0.7107 Liczby c1 i c2( odczytujemy z tablic( rozkładu ) ) chi-kwadrat dla czterech stopni swobody, korzystając ze wzorów P χ 2 > c1 = 0.95 i P χ 2 > c2 = 0.05. 4. Obliczamy ∑8 x= oraz i=1 xi 8 = 41 = 5.125 8 ∑8 2 2 i=1 xi − x 2 ≈ 0.0244, 8 skąd s ≈ 0.1561. Dla 1 − α = 0.95, czyli α = 0.05, wyznaczamy tα z tablic rozkładu t-Studenta dla siedmiu stopni swobody: tα = 2.3646. Przedział ufności jest postaci ( ) ( ) s s 0.1561 0.1561 x − tα √ , x + tα √ = 5.125 − 2.3646 √ , 5.125 + 2.3646 √ , n−1 n−1 7 7 s = czyli po obliczeniach przedział ufności jest w przybliżeniu następujący: (4.98, 5.26). Dla 1 − α = 0.99 mamy tα = 3.4995. Przedział ufności jest wtedy następujący: (4.92, 5.33), czyli jest większy (oszacowanie mniej dokładne), ale mamy większą pewność, że jest prawdziwe. Dla 1 − α = 0.9 mamy tα = 1.8946. Przedział ufności jest wtedy następujący: (5.02, 5.24), czyli jest mniejszy, (oszacowanie bardziej dokładne), ale mamy mniejszą pewność, że jest prawdziwe. 5. Ponieważ próba jest duża: n = 50, to zamiast σ używamy s i korzystamy z modelu III dla wartości oczekiwanej i modelu II dla wariancji. Obliczamy x = 1000.32 i s2 = 124.2176, Φ (uα ) = 0.975, uα = 1.96. Przedział ufności dla wartości oczekiwanej ( ) 124.2176 124.2176 1000.32 − 1.96 √ , 1000.32 + 1.96 √ ≈ (966, 1035) , 50 50 dla odchylenia standardowego ( dla wariancji (( 124.2176 124.2176 , 1, 196 0.804 124.2176 1, 196 ) ≈ (104, 154) . )2 ( )) 124.2176 2 , ≈ (10787, 23870) . 0.804 54 ODPOWIEDZI 6. Przyjmiemy, że próba jest duża i skorzystamy z modelu III dla wartości oczekiwanej. Obliczamy ocenę średnią x = 3.433 i empiryczne odchylenie standardowe s = 1.1288. Odczytujemy dla α = 0.99 z tablic rozkładu normalnego wartość uα = 2.58. Stąd przedział ufności jest postaci ( ) √ √ 1.1288 1.1288 3.433 − 2.58 √ , 3.433 + 2.58 √ ≈ (2.93, 3.93) . 30 30 7. Podstawiając do wzoru (3.2.15) n = 200, m = 10, uα = 1.64 otrzymujemy przedział ufności (0.0247, 0.0753). 8. Sumując liczby pracowników w kolumnach, otrzymujemy tabelę: Staż pracy Liczba pracowników 1 24 2 26 3 27 4 24 Sumując liczby pracowników w wierszach, otrzymujemy tabelę: Procent braków Liczba pracowników 0–2 36 2–4 13 4–6 16 6–8 35 Z tych tabel obliczamy ze wzoru (2.3.7): x = 4 i y = 2.5. Do celów obliczeniowych, zamiast wzoru (3.2.19) wygodniej jest użyć wzorów (A.2.7) i (A.2.8). Wyznaczamy więc sx2 = 6.68 i sy = 6.25. Ze wzoru (A.2.7) wyznaczamy cxy = −2.42, skąd ze wzoru (A.2.8) otrzymujemy r = 0.851. Dla α = 0.1 mamy uα = 1.64, więc zgodnie ze wzorem (3.2.17) otrzymujemy ) ( 1 − 0.8512 1 − 0.8512 , 0.851 + 1.64 √ = (0.823, 0.879) 0.851 − 1.64 √ 100 100 Według tabeli A.2 na str. 44 oznacza to zależność znaczącą – im dłuższy staż pracy, tym procent braków znacząco mniejszy. Odpowiedzi do wykładu 4 1. Ponieważ rozkład jest normalny i znane jest σ, to stosujemy model I. Stawiamy hipotezę H0 : m = 1.05 przeciw hipotezie H1 : m ̸= 1.125. Obliczamy x = (1.14 + 1.06 + 1.13 + 1.17) /4 = 1.125. Następnie obliczamy wartość statystyki testowej, która ma rozkład normalny N (0, 1). x − m0 √ x − 1.125 √ u= n= 4 = 0.75. s 0.2 Obszar krytyczny: Q = (−∞, −uα ) ∪ (uα , ∞). Wartość uα dla takiego obszaru krytycznego wyznaczamy z zależności Φ (uα ) = 1 − α/2 otrzymujemy uα = 1.96, więc |u| < uα i nie ma podstaw do odrzucenia H0 . Ponieważ x > m0 , to można też postawić hipotezę alternatywną H : m > 1.05. W tym przypadku obszar krytyczny jest postaci (uα , ∞), gdzie uα dla takiego obszaru krytycznego wyznaczamy z zależności Φ (uα ) = 1 − α i otrzymujemy uα = 1.64, więc również u < uα i nie ma podstaw do odrzucenia H0 . 2. Ponieważ rozkład jest normalny i nieznane jest σ, to stosujemy model II. Stawiamy hipotezę √ H0 : m = 13 przeciw hipotezie H1 : m ̸= 13 Obliczamy kolejno x = 12, s2 = 2/3 i s = 2/3. Statystyka testowa ma rozkład t-Studenta o n − 1 = 2 stopniach swobody, a jej wartość wynosi √ x − m0 √ t= n − 1 = − 3. s ODPOWIEDZI DO WYKŁADU 4 55 Z tablic wartości krytycznych rozkładu t-Studenta odczytujemy dla α = 0.01 i dwóch stopni swobody √ wartość tα = 9.9248. Oczywiście |t| = 3 > tα , więc nie ma podstaw do odrzucenia hipotezy o równości. Gdyby sformułować hipotezę alternatywną H1 < 13, to również hipotezy o równości nie odrzucimy, bo w tym przypadku tα = 6.9646 i dalej mamy |t| < tα . Powodem jest bardzo mała, zaledwie trzyelementowa próba. 3. Ponieważ rozkład jest normalny i mała próba, to stosujemy model I. Stawiamy hipotezę H0 : σ 2 = 0.03 przeciw hipotezie H1 : σ 2 > 0.03. Statystyka testowa ma rozkład chi-kwadrat o n − 1 = 4 stopniach swobody, a jej wartość wynosi χ2 = 20 ns2 = . σ0 3 Z tablic rozkładu chi-kwadrat dla α = 0.05 i czterech stopni swobody odczytujemy χα2 = 9.4877 Oczywiście χ 2 < χα2 , więc nie ma podstaw do odrzucenia hipotezy o równości. 4. Formułujemy hipotezy: H0 : m = m0 , H1 : m > m0 , gdzie m0 = 5 jest hipotetycznym średnim zużyciem paliwa. Obliczamy x = 5.125 i s ≈ 0.1561. Wartość statystyki testowej t= x − m0 √ 1.125 − 5 √ n−1= 7 = 2.12. s 0.1561 Z tablic rozkładu t-Studenta z zależności P (|t| > tα ) = 2α odczytujemy tα = 1.8946, więc t > tα . Oznacza to, że średnie zużycie paliwa jest istotnie większe od podawanej średniej. 6. Formułujemy hipotezy: H0 : m = m0 , H1 : m < m0 , gdzie m0 = 3.5 jest hipotetyczną średnią oceną. Oznaczmy przez xi ocenę o numerze i. Obliczamy 30 ∑ xi = x1 + x2 + · · · + x30 = 103. i=1 Stąd ∑30 x= i=1 xi 30 = 103 = 3.43. 30 Następnie obliczamy 30 ∑ 2 xi2 = x1 + x22 + · · · + x30 =. i=1 Stąd ∑30 2 2 i=1 xi − x 2 ≈ 1.1288. 30 Wyznaczamy uα ze wzoru Φ (uα ) = 1 − α. Dla α = 0.05 jest to uα = 1.64 s = 56 ODPOWIEDZI Obliczamy wartość statystyki u= x − m0 √ 3.43 − 3.5 √ n= √ 30 ≈ −0.36. s 1.1288 Ponieważ u < −uα , czyli otrzymana średnia x jest istotnie mniejsza od m0 = 3.5, to odrzucamy hipotezę o równości i przyjmujemy hipotezę, że średnia grupy jest niższa od 3.5. 5. Formułujemy hipotezy: H0 : m = m0 , H1 : m < m0 , gdzie m = 1000 jest hipotetycznym średnim napełnieniem. Przyjmiemy też poziom istotności α = 0.05. Ponieważ po zaokrągleniu x = 1000.32 i s = 11.15, to obliczając wartość statystyki u= x − m0 √ n = 0.5 > 0 s i wartość uα = −1.64 < 0, otrzymujemy, że u > uα , czyli nie odrzucamy hipotezy H0 , czyli nie odrzucamy hipotezy, że firma nie oszukuje klientów. Po takim wyniku można sformułować pytanie, czy firma nie ponosi strat, bo automat nalewa istotnie więcej niż powinien? W tym celu formułujemy hipotezy: H0 : m = m0 , H1 : m > m0 , Postępując jak poprzednio, otrzymujemy uα = 1.64 oraz u < uα , czyli nie odrzucamy hipotezy, że automat nie powoduje strat firmy. 7. Stawiamy hipotezę H0 , że p = p0 = 0.03, przeciw hipotezie H1 , że p > p0 . Ze wzoru (4.2.5) wyznaczamy u = 1.6580. Ponieważ uα = 1.64, to u > uα , więc należy odrzucić hipotezę H0 , czyli przyjąć, że deklaracja producenta jest fałszywa. 8. Niech xi będzie wydatkiem na reklamę, a yi – zyskiem w i-tym miesiącu. Podstawiając te dane do wzoru (3.2.18) otrzymujemy, że r = 0.6766. Stąd podstawiając r i n = 6 do wzoru (4.2.6) obliczamy t = 1.8378. Ponieważ dla n − 2 = 4 stopni swobody i poziomu istotności α = 0.1 jest tα = 2.1318, to t < tα , więc nie ma podstaw do odrzucenia hipotezy, że ρ = 0. Nie odrzucamy więc hipotezy o braku związku między zyskiem a wydatkami na reklamę. Dla poziomu istotności α = 0.05 jest tα = 2.7764, więc tym bardziej hipotezy nie odrzucamy. 9. Aby zweryfikować hipotezę, że ρ > 0.5, obliczamy wartość statystyki ze wzoru (4.2.7), otrzymując u = 1.2013. Ponieważ uα = 1.28 dla α = 0.1, to nie ma podstaw do odrzucenia hipotezy, że ρ = 0.5 i przyjęcia ρ > 0. Tym bardziej nie ma takich podstaw przy α = 0.05. Tablice statystyczne 1. Wartości dystrybuanty rozkładu normalnego x 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 0 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987 0.9990 0.9993 0.9995 0.9997 0.9998 0.9998 1 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987 0.9991 0.9993 0.9995 0.9997 0.9998 0.9998 2 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987 0.9991 0.9994 0.9995 0.9997 0.9998 0.9999 3 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.9991 0.9994 0.9996 0.9997 0.9998 0.9999 4 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7703 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 57 5 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 6 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 7 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989 0.9992 0.9995 0.9996 0.9997 0.9998 0.9999 8 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990 0.9993 0.9995 0.9996 0.9997 0.9998 0.9999 9 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 α 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 n 0.90 0.1584 0.1421 0.1366 0.1338 0.1322 0.1311 0.1303 0.1297 0.1293 0.1289 0.1286 0.1283 0.1281 0.1280 0.1278 0.1277 0.1276 0.1274 0.1274 0.1273 0.1272 0.1271 0.1271 0.1270 0.1269 0.1269 0.1268 0.1268 0.1268 0.1267 0.80 0.3249 0.2887 0.2767 0.2707 0.2672 0.2648 0.2632 0.2619 0.2610 0.2602 0.2596 0.2590 0.2586 0.2582 0.2579 0.2576 0.2573 0.2571 0.2569 0.2567 0.2566 0.2564 0.2563 0.2562 0.2561 0.2560 0.2559 0.2558 0.2557 0.2556 0.70 0.5095 0.4447 0.4242 0.4142 0.4082 0.4043 0.4015 0.3995 0.3979 0.3966 0.3956 0.3947 0.3940 0.3933 0.3928 0.3923 0.3919 0.3915 0.3912 0.3909 0.3906 0.3904 0.3902 0.3900 0.3898 0.3896 0.3894 0.3893 0.3892 0.3890 0.60 0.7265 0.6172 0.5844 0.5686 0.5594 0.5534 0.5491 0.5459 0.5435 0.5415 0.5399 0.5386 0.5375 0.5366 0.5357 0.5350 0.5344 0.5338 0.5333 0.5329 0.5325 0.5321 0.5317 0.5314 0.5312 0.5309 0.5306 0.5304 0.5302 0.5300 0.50 1.0000 0.8165 0.7649 0.7407 0.7267 0.7176 0.7111 0.7064 0.7027 0.6998 0.6974 0.6955 0.6938 0.6924 0.6912 0.6901 0.6892 0.6884 0.6876 0.6870 0.6864 0.6858 0.6853 0.6848 0.6844 0.6840 0.6837 0.6834 0.6830 0.6828 0.40 1.3764 1.0607 0.9785 0.9410 0.9195 0.9057 0.8960 0.8889 0.8834 0.8791 0.8755 0.8726 0.8702 0.8681 0.8662 0.8647 0.8633 0.8620 0.8610 0.8600 0.8591 0.8583 0.8575 0.8569 0.8562 0.8557 0.8551 0.8546 0.8542 0.8538 0.30 1.9626 1.3862 1.2498 1.1896 1.1558 1.1342 1.1192 1.1081 1.0997 1.0931 1.0877 1.0832 1.0795 1.0763 1.0735 1.0711 1.0690 1.0672 1.0655 1.0640 1.0627 1.0614 1.0603 1.0593 1.0584 1.0575 1.0567 1.0560 1.0553 1.0547 0.20 3.0777 1.8856 1.6377 1.5332 1.4759 1.4398 1.4149 1.3968 1.3830 1.3722 1.3634 1.3562 1.3502 1.3450 1.3406 1.3368 1.3334 1.3304 1.3277 1.3253 1.3232 1.3212 1.3195 1.3178 1.3163 1.3150 1.3137 1.3125 1.3114 1.3104 0.10 0.05 0.02 0.01 0.001 6.3138 12.7062 31.8205 63.6567 636.6192 2.9200 4.3027 6.9646 9.9248 31.5991 2.3534 3.1824 4.5407 5.8409 12.9240 2.1318 2.7764 3.7469 4.6041 8.6103 2.0150 2.5706 3.3649 4.0321 6.8688 1.9432 2.4469 3.1427 3.7074 5.9588 1.8946 2.3646 2.9980 3.4995 5.4079 1.8595 2.3060 2.8965 3.3554 5.0413 1.8331 2.2622 2.8214 3.2498 4.7809 1.8125 2.2281 2.7638 3.1693 4.5869 1.7959 2.2010 2.7181 3.1058 4.4370 1.7823 2.1788 2.6810 3.0545 4.3178 1.7709 2.1604 2.6503 3.0123 4.2208 1.7613 2.1448 2.6245 2.9768 4.1405 1.7531 2.1314 2.6025 2.9467 4.0728 1.7459 2.1199 2.5835 2.9208 4.0150 1.7396 2.1098 2.5669 2.8982 3.9651 1.7341 2.1009 2.5524 2.8784 3.9216 1.7291 2.0930 2.5395 2.8609 3.8834 1.7247 2.0860 2.5280 2.8453 3.8495 1.7207 2.0796 2.5176 2.8314 3.8193 1.7171 2.0739 2.5083 2.8188 3.7921 1.7139 2.0687 2.4999 2.8073 3.7676 1.7109 2.0639 2.4922 2.7969 3.7454 1.7081 2.0595 2.4851 2.7874 3.7251 1.7056 2.0555 2.4786 2.7787 3.7066 1.7033 2.0518 2.4727 2.7707 3.6896 1.7011 2.0484 2.4671 2.7633 3.6739 1.6991 2.0452 2.4620 2.7564 3.6594 1.6973 2.0423 2.4573 2.7500 3.6460 58 TABLICE STATYSTYCZNE 2. Wartości krytyczne rozkładu t–Studenta α 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 n 0.99 0.0002 0.0201 0.1148 0.2971 0.5543 0.8721 1.2390 1.6465 2.0879 2.5582 3.0535 3.5706 4.1069 4.6604 5.2293 5.8122 6.4078 7.0149 7.6327 8.2604 8.8972 9.5425 10.1957 10.8564 11.5240 12.1981 12.8785 13.5647 14.2565 14.9535 0.98 0.0006 0.0404 0.1848 0.4294 0.7519 1.1344 1.5643 2.0325 2.5324 3.0591 3.6087 4.1783 4.7654 5.3682 5.9849 6.6142 7.2550 7.9062 8.5670 9.2367 9.9146 10.6000 11.2926 11.9918 12.6973 13.4086 14.1254 14.8475 15.5745 16.3062 0.95 0.0039 0.1026 0.3518 0.7107 1.1455 1.6354 2.1673 2.7326 3.3251 3.9403 4.5748 5.2260 5.8919 6.5706 7.2609 7.9616 8.6718 9.3905 10.1170 10.8508 11.5913 12.3380 13.0905 13.8484 14.6114 15.3792 16.1514 16.9279 17.7084 18.4927 0.90 0.0158 0.2107 0.5844 1.0636 1.6103 2.2041 2.8331 3.4895 4.1682 4.8652 5.5778 6.3038 7.0415 7.7895 8.5468 9.3122 10.0852 10.8649 11.6509 12.4426 13.2396 14.0415 14.8480 15.6587 16.4734 17.2919 18.1139 18.9392 19.7677 20.5992 0.80 0.0642 0.4463 1.0052 1.6488 2.3425 3.0701 3.8223 4.5936 5.3801 6.1791 6.9887 7.8073 8.6339 9.4673 10.3070 11.1521 12.0023 12.8570 13.7158 14.5784 15.4446 16.3140 17.1865 18.0618 18.9398 19.8202 20.7030 21.5880 22.4751 23.3641 0.70 0.1485 0.7133 1.4237 2.1947 2.9999 3.8276 4.6713 5.5274 6.3933 7.2672 8.1479 9.0343 9.9257 10.8215 11.7212 12.6243 13.5307 14.4399 15.3517 16.2659 17.1823 18.1007 19.0211 19.9432 20.8670 21.7924 22.7192 23.6475 24.5770 25.5078 0.60 0.2750 1.0217 1.8692 2.7528 3.6555 4.5702 5.4932 6.4226 7.3570 8.2955 9.2373 10.1820 11.1291 12.0785 13.0297 13.9827 14.9373 15.8932 16.8504 17.8088 18.7683 19.7288 20.6902 21.6525 22.6156 23.5794 24.5440 25.5093 26.4751 27.4416 0.50 0.4549 1.3863 2.3660 3.3567 4.3515 5.3481 6.3458 7.3441 8.3428 9.3418 10.3410 11.3403 12.3398 13.3393 14.3389 15.3385 16.3382 17.3379 18.3377 19.3374 20.3372 21.3370 22.3369 23.3367 24.3366 25.3365 26.3363 27.3362 28.3361 29.3360 0.40 0.7083 1.8326 2.9462 4.0446 5.1319 6.2108 7.2832 8.3505 9.4136 10.4732 11.5298 12.5838 13.6356 14.6853 15.7332 16.7795 17.8244 18.8679 19.9102 20.9514 21.9915 23.0307 24.0689 25.1063 26.1430 27.1789 28.2141 29.2486 30.2825 31.3159 0.30 1.0742 2.4079 3.6649 4.8784 6.0644 7.2311 8.3834 9.5245 10.6564 11.7807 12.8987 14.0111 15.1187 16.2221 17.3217 18.4179 19.5110 20.6014 21.6891 22.7745 23.8578 24.9390 26.0184 27.0960 28.1719 29.2463 30.3193 31.3909 32.4612 33.5302 0.20 1.6424 3.2189 4.6416 5.9886 7.2893 8.5581 9.8032 11.0301 12.2421 13.4420 14.6314 15.8120 16.9848 18.1508 19.3107 20.4651 21.6146 22.7595 23.9004 25.0375 26.1711 27.3015 28.4288 29.5533 30.6752 31.7946 32.9117 34.0266 35.1394 36.2502 0.10 2.7055 4.6052 6.2514 7.7794 9.2364 10.6446 12.0170 13.3616 14.6837 15.9872 17.2750 18.5493 19.8119 21.0641 22.3071 23.5418 24.7690 25.9894 27.2036 28.4120 29.6151 30.8133 32.0069 33.1962 34.3816 35.5632 36.7412 37.9159 39.0875 40.2560 0.05 3.8415 5.9915 7.8147 9.4877 11.0705 12.5916 14.0671 15.5073 16.9190 18.3070 19.6751 21.0261 22.3620 23.6848 24.9958 26.2962 27.5871 28.8693 30.1435 31.4104 32.6706 33.9244 35.1725 36.4150 37.6525 38.8851 40.1133 41.3371 42.5570 43.7730 0.02 5.4119 7.8240 9.8374 11.6678 13.3882 15.0332 16.6224 18.1682 19.6790 21.1608 22.6179 24.0540 25.4715 26.8728 28.2595 29.6332 30.9950 32.3462 33.6874 35.0196 36.3434 37.6595 38.9683 40.2704 41.5661 42.8558 44.1400 45.4188 46.6927 47.9618 0.01 6.6349 9.2103 11.3449 13.2767 15.0863 16.8119 18.4753 20.0902 21.6660 23.2093 24.7250 26.2170 27.6883 29.1412 30.5779 31.9999 33.4087 34.8053 36.1909 37.5662 38.9322 40.2894 41.6384 42.9798 44.3141 45.6417 46.9629 48.2782 49.5879 50.8922 0.001 10.8276 13.8155 16.2662 18.4668 20.5150 22.4577 24.3219 26.1245 27.8772 29.5883 31.2641 32.9095 34.5282 36.1233 37.6973 39.2524 40.7902 42.3124 43.8202 45.3147 46.7970 48.2679 49.7282 51.1786 52.6197 54.0520 55.4760 56.8923 58.3012 59.7031 TABLICE STATYSTYCZNE 3. Wartości krytyczne rozkładu chi–kwadrat 59 Literatura [1] A. D. Aczel, Statystyka w zarządzaniu. PWN, Warszawa 2000. [2] J. Jakubowski, R. Sztencel. Rachunek prawdopodobieństwa dla (prawie) każdego. Script, Warszawa 2006. [3] H. Jasiulewicz, W. Kordecki. Rachunek prawdopodobieństwa i statystyka matematyczna. Przykłady i zadania. GiS, Wrocław 2010. [4] J. Jóźwiak, J. Podgórski. Statystyka od podstaw. PWE, Warszawa 2000. [5] W. Kordecki. Matematyka dla studentów kierunku Zarządzanie. GiS, Wrocław 2009. [6] W. Kordecki. Rachunek prawdopodobieństwa i statystyka matematyczna. Definicje, twierdzenia wzory. GiS, Wrocław 2010. [7] S. M. Kot, J. Jakubowski, A. Sokołowski, Statystyka. Difin, Warszawa 2007. [8] S. Ostasiewicz, Z. Rusnak, U. Siedlecka. Statystyka: elementy teorii i zadania. Wydaw. AE, Wrocław 2001. [9] M. E. Rymarczyk, (red.). Elementy statystyki. I-BiS, Wrocław 2006. [10] J. Wawrzynek. Metody opisu i wnioskowania statystycznego. Wydaw. AE, Wrocław 2007. 60 Skorowidz cecha statystyczna, 38 centralne twierdzenie graniczne, 23 diagram częstości, 40 dystrybuanta, 8 brzegowa, 10 empiryczna, 39 łączna, 9 rozkładu normalnego, 19 estymacja, 25 estymator, 21, 25 gęstość, 9 brzegowa, 11 łączna, 11 rozkładu normalnego, 19 hipoteza, 32 histogram, 39 iloczyn zdarzeń, 5 kowariancja, 13 empiryczna, 43 kwantyl, 11 kwartyl, 11, 42 liczba klas, 39 mediana, 11, 42 miara asymetrii, 43 położenia, 41 zależności liniowej, 43 zmienności, 42 obszar krytyczny, 33 odchylenie ćwiartkowe, 11, 43 przeciętne, 42 odchylenie standardowe empiryczne, 20, 42 teoretyczne, 12 populacja generalna, 38 poziom ufności, 25 prawdopodobieństwo, 6 klasyczna definicja, 6 warunkowe, 7 prawo wielkich liczb, 22 prosta regresji, 14, 44 próba statystyczna, 20, 38 prosta, 20 przedział klasowy, 21, 38 ufności, 25 dla średniej, 26 dla wariancji, 27 dla wskaźnika struktury, 28 dla współczynnika korelacji, 29 przyczyna, 7 realizacja zmiennej losowej, 8 rozkład t-Studenta, 22 chi-kwadrat Pearsona, 21 dwumianowy, 17 dwupunktowy, 17 dwuwymiarowy, 9 jednostajny, 18 normalny, 18, 19 dwuwymiarowy, 19 Poissona, 18 wykładniczy, 18 zero–jedynkowy, 17 rozkłady statystyk, 22 różnica zdarzeń, 5 skutek, 7 statystyka, 20 suma zdarzeń, 5 szereg rozdzielczy, 38 skumulowany, 39 szczegółowy, 38 średnia arytmetyczna, 41 empiryczna, 20, 41 teoretyczna, 11 tablice rozkładu 61 62 t-Studenta, 22, 58 chi-kwadrat, 21, 59 normalnego, 19, 57 wielodzielcze, 43 test, 32 dla średnich, 33 dla wariancji, 35 dla wskaźnika struktury, 35 dla współczynnika korelacji, 36 twierdzenie Poissona, 23 typowy obszar zmienności, 43 wariancja empiryczna, 20, 42 teoretyczna, 12 wartość modalna, 42 oczekiwana, 11 wskaźnik skośności, 43 struktury, 28, 38 skumulowany, 39 współczynnik korelacji, 13, 44 empiryczny, 22 SKOROWIDZ skośności, 43 zmienności, 43 współczynniki regresji, 14 empiryczny, 45 wzór Bayesa, 7 na prawdopodobieństwo całkowite, 7 zbiorowość statystyczna, 38 zdarzenia elementarne, 5 losowe, 5 niemożliwe, 5 niezależne, 7 pewne, 5 przeciwne, 5 sprzyjające, 6 wykluczające się, 5 zmienna losowa, 8 skokowa, 8 typu ciągłego, 9 zmienne losowe nieskorelowane, 14 niezależne, 10