Symulacja zdarzeń losowych
Transkrypt
Symulacja zdarzeń losowych
ĆWICZENIE 1 Symulacja doświadczeń losowych Statystyka opisowa Estymacja parametryczna i nieparametryczna TEORIA Opracowała: Katarzyna Stąpor Opis programu MS EXCEL 1. Informacje ogólne Program Microsoft Excel oferuje po uruchomieniu możliwość pracy z wykorzystaniem tzw. zeszytu, który jest standardowym dokumentem (typem pliku z rozszerzeniem .xls)i składa się z arkuszy. Nazwa arkusza znajduje się w lewym dolnym rogu, jeden z Arkuszy jest tzw. arkuszem aktywnym i jego nazwa wyróżniona jest białym tłem. Pasek menu Paski narzędzi Pasek formuł y Adres aktywnej komórki Nazwa arkusz a Rys.1. Arkusz kalkulacyjny EXCEL bezpośrednio po uruchomieniu Arkusz ma strukturę tablicy, składa się z komórek widocznych jako białe prostokąty, umiejscowione na przecięciu kolumn i wierszy oznaczonych odpowiednio literami ( od A do IV, 256 kolumn) oraz liczbami (1 – 65536). Oznaczenie kolumn i wierszy pozwala na zlokalizowanie komórki za pomocą tzw. adresu, np. komórka N23 (na przecięciu kolumny N i wiersza 23). W górnej części okna, powyżej arkusza widoczne są (Rys.1.): pasek menu (wraz z dostępnymi opcjami), paski narzędzi (zawierające tzw. przyciski, które uaktywniane za pomocą myszy pozwalają na przyspieszone użycie dostępnych tą drogą poleceń) oraz pasek formuły, który jest ściśle powiązany z komórką aktywną (wyróżniona za pomocą pogrubionej ramki), bowiem zawiera on zawsze zapis znajdujący się w komórce. –2– Rys.2. Pasek formuły z zapisem danych w komórce A1 i widoczna zawartość tej komórki Poruszanie się po arkuszu (zmiana aktywnej komórki) może odbywać na różne sposoby. Najbardziej naturalnym jest użycie „strzałek” (klawiszy oznaczonych strzałkami), jednak powoduje to tylko ruch o jedną komórkę w pionie lub poziomie, o ile taki ruch jest możliwy. W przypadku potrzeby wykonania skoku do pewnej dalszej, ale konkretnej komórki, np. AB46 należy jej adres wpisać w okienku w lewym górnym rogu (obok paska formuły) i oczywiście zatwierdzić klawiszem [ENTER]. Prócz tego możliwe jest również użycie klawiszy [HOME] (skok do początku wiersza), [END] +[->] (skok do końca wiersza, można użyć kombinacji z inną strzałką w celu przemieszczenia się do końcowych komórek pionie lub poziomie), a także [Page Up], [Page Down] samodzielnie lub jako kombinacje z [Alt] lub [Ctrl]. 2. Wprowadzanie danych Do komórek arkusza można wprowadzać dane w postaci liczb, tekstów i formuł obliczeniowych. Wprowadzane dane widoczne są zarówno w komórce aktywnej, jak i na pasku formuły. Zatwierdzenie danych następuje poprzez naciśnięcie [Enter] lub dowolnej strzałki. Przez formułę obliczeniową należy rozumieć zapis, który przy spełnieniu pewnych wymogów formalnych pozwala otrzymać w wybranej komórce wynik obliczeń zrealizowanych zgodnie z procedurą rachunkową wprowadzona przez użytkownika. Procedura działa wykorzystując wartości liczbowe, które mogą być podane w sposób jawny (jako stałe) lub występować jako adresy komórek, w których zostały umieszczone wartości liczbowe. Zapis formuły w arkuszu rozpoczyna się znakiem równości „=”, natomiast dalszy zapis powinien uwzględniać poprawność matematyczną wzoru, a także zgodność ze składnią rozumianą przez program. –3– Na rysunku Rys.2 można zauważyć przykład prostej formuły (=2+5+7). Zastosowano tam operator dodawania (+). Możliwe jest również użycie operatorów odejmowania (−), mnożenia (*), dzielenia (/) oraz potęgowania (^). Warto przy tym podkreślić fakt, że dla poprawnej interpretacji wyrażenia na ogół potrzebne jest stosowania nawiasów, np.: 3 2 formuła „=5+2*3/5*7−10^2” jest równoważna zapisowi: „ 5 + 2 ⋅ ⋅ 7 − 10 ”, 5 3 − 10 2 ”. natomiast „=(5+2)*3/(5*7)−10^2” jest równoważna „ (5 + 2) ⋅ 5⋅ 7 Na poniższym rysunku znajduje się przykład formuły wykorzystującej zawartości komórek, których adresy występują w formule: Rys.3. Pasek formuły z zapisem danych w komórce B4 i widoczna zawartość tej komórki Przy okazji należy zwrócić uwagę, że w przypadku dowolnej zatwierdzonej zmiany w wartościach komórek B1, B2 lub B3 dokonywana jest automatycznie aktualizacja danych w pozostałych komórkach arkusza związanych ze zmienianymi, co w powyższym przykładzie byłoby widoczne jako zmiana wartości wyświetlanej w komórce B4. 3. Adresacja komórek i procedura przeciągania Rozważmy następujący przykład: obliczyć wartości zmiennej zależnej y wykorzystując funkcję liniową y = a x+b. Obliczenia przeprowadzić dla x z zakresu liczb naturalnych od 1 do 5, dla a=3 i b=7. Na kolejnych rysunkach przedstawiono kolejne etapy rozwiązania tego zadania: –4– Rys.4.a Rys.4.b Na rysunku Rys.4.a. widoczny jest zaznaczony obszar D2:D3, aby uzyskać efekt przeciągania widoczny na Rys.4.b po zaznaczeniu obszaru D2:D3 należy ustawić kursor myszy w prawym dolnym rogu obszaru wyróżnionym na rysunku Rys.4.a i naciskając lewy przycisk myszy przeciągnąć w dół (podczas przeciągania będą pojawiały się kolejne wartości obok zaznaczonych komórek jak na Rys.4.b. Po zwolnieniu przycisku myszy w komórkach D2:D6 pojawią się kolejne wartości od 1 do 5, gdyż podczas przeciągania wyliczane są kolejne wartości ciągu arytmetycznego o dwóch pierwszych wyrazach takich jak zaznaczony obszar. W przypadku gdy wartości w zaznaczonym obszarze nie mogą utworzyć ciągu arytmetycznego, podczas opisanej powyżej procedury przeciągania wartości zaznaczonego obszaru będą powielane. Rys.4.c Rys.4.d Rysunek Rys.4.c pokazuje dalszy tok postępowania polegający na poprawnym wpisaniu do komórki E2 formuły obliczeniowej. W zapisie formuły można zauważyć użycie znaków „$” przy adresach komórek, do których odnoszą się odwołania. Zastosowano tu bowiem tzw. adresację bezwzględną, konieczną przy korzystaniu z narzędzia przeciągania w przypadku formuł. Znak „$” umieszczony bezpośrednio przed nazwą kolumny lub wiersza niejako „zamraża” tę nazwę podczas przeciągania, gdy dokonuje się automatyczna zmiana adresów komórek występujących w formule. Można zauważyć, że adresy komórki B1 i B2 zostały wykorzystane w postaci $B$1 oraz $B$2, gdyż ważne jest aby adresy tych komórek –5– nie zmieniły się podczas przeciągania (utrwalona została zarówno nazwa wiersza jak i kolumny). Natomiast w adresie komórki D2 zastosowano jedynie „zamrożenie” nazwy kolumny w postaci $D2, aby podczas przeciągania mogły zmieniać się nazwy wierszy występujących w formule . Należy jednak zauważyć, że podczas przeciągania „w dół” zmieniają się tylko nazwy wierszy, więc gdyby nie został użyty znak „$” przed nazwą kolumny adresu komórki D2, wynik formuły po przeciągnięciu nadal byłby poprawny (byłby on niezbędny jedynie w przypadku przeciągania „w prawo”). Na rysunku Rys.4.d widoczne jest rozwiązanie zadania, tzn. wyświetlone są wartości zmiennej y w zależności od wartości zmiennej x. Gdyby spojrzeć na formułę zawartą w komórce, np. E6 wyglądałaby ona następująco: „=$B$1*$D6+$B$2”. –6– Podstawy języka Visual Basic dla Aplikacji (VBA) W programie MS Ecel, oprócz szeregu wbudowanych funkcji, w arkuszu można stosować funkcje i procedury zdefiniowane przez użytkownika. Aby pisać własne funkcje trzeba znać podstawy języka VBA, ponieważ to w tym języku piszemy funkcje i procedury w Excelu. 1. Zmienne, typy W Visual Basicu nie ma obowiązku deklarowania zmiennych prostych, jednakże jest to zalecane. Standardowym typem danych jest typ wariantowy (Variant). W celu określenia specyficznego typu zmiennej należy użyć instrukcji Dim, deklaracja zmiennej ma postać: Dim nazwa_zmiennej As typ_danych Gdzie proste typy danych to a) Integer 2- bajtowa liczba całkowita, a) Long 4- bajtowa liczba całkowita, b) Single 4- bajtowa liczba zmiennoprzecinkowa, c) Double 8- bajtowa liczba zmiennoprzecinkowa, d) Currency 8- bajtowa liczba stałoprzecinkowa, e) String łańcuch znaków (do 64kB). Jeżeli chce się przechowywać wartości z poprzednich wywołań procedury, zamiast słowa Dim należy użyć Static. 2. Podstawowe instrukcje • Instrukcja podstawienia, która zmiennej Zmienna przypisuje wartość wyrażenie ma postać: Zmienna = wyrażenie • Instrukcja warunkowa: jeżeli wyrażenie jest prawdą wykonywana jest instrukcja przyjmuje w języku VBA postać: If wyrażenie Then instrukcja lub jeżeli prawdziwe jest wyrażenie wykonywane są Instrukcje1, w przeciwnym wypadku wykonywane są Instrukcje2. If wyrażenie Then Instrukcje1 Else Instrukcje2 End If • Pętla For, instrukcje wykonywane są do momentu, gdy zmienna osiągnie wartość końcową. For zmienna = wartośćPoczątkowa To wartośćKońcowa instrukcje Next zmienna lub For zmienna = wartośćP To wartośćK Step krok instrukcje Next zmienna w powyższym przypadku Step oznacza o ile ma się zmieniać wartość zmiennej między kolejnymi iteracjami. • Pętla Do … Loop występuje w dwóch postaciach, w których: –7– a) instrukcje wykonywane są do momentu, w którym warunek stanie się prawdziwy jest postaci: Do While warunek instrukcje Loop b) instrukcje wykonywane są do momentu, w którym warunek stanie się prawdziwy. Do instrukcje Loop Until warunek 3. Uwagi • Koniunkcję dwóch warunków realizuje słowo And a alternatywę Or. • Język VBA w odróżnieniu np. do C++ nie rozróżnia wielkości liter. • Komentarze piszemy po znaku apostrofa. Własne funkcje w Excelu Aby pisać własne funkcje i procedury należy w Excelu z menu Narzędzia wybrać opcję Makra i dalej Edytor Visual Basic. otworzymy w ten sposób następujące okno: w którym po wybraniu opcji Module z menu Insert zobaczymy okno umożliwiające wpisanie kodu funkcji. Deklaracja funkcji odbywa się poprzez słowo kluczowe Function a procedury Sub. Pełna postać deklaracji funkcji jest postaci: –8– Function nazwa_funkcji(parametry) As typ_zwracanej_wartości Dla przykładu wpiszmy kod funkcji, która może być użyta do symulacji rzutów monetą, zwróconą przez nią wartość 0 możemy interpretować jako „orła”, a wartość 1 jako „reszkę”. Funkcja nie ma na wejściu żadnych argumentów a na wyjściu liczbę całkowitą (0 lub 1). Function rzut() As Integer Dim l As Double 'deklaracja zmiennej l = Rnd() 'za l podstawiamy wylosowaną liczbę If l <= 0.5 Then rzut = 0 Else rzut = 1 End If End Function Funkcja może korzystać z wywołań innych napisanych wcześniej funkcji, czy z wywołań samej siebie (rekurencja). Poniższy przykład ilustruje kod funkcji zwracającej ilość orłów w n (argument wejściowy funkcji) rzutach monetą. Function Ile_orlow(n As Long) As Long Dim i, ile As Long ile = 0 For i = 1 To n If rzut() = 0 Then ile = ile + 1 Next i Ile_orlow = ile End Function Napisaliśmy dwie funkcje ale jak z nich skorzystać? Po wpisaniu ich kodu wracamy do okna Excela, wpisanej funkcji możemy użyć klikając w ikonę Wklej funkcję standardowego paska narzędzi. Otworzymy okno: W kategorii funkcji Użytkownika wybierzmy zdefiniowaną nazwę funkcji ile_orlow i naciśnijmy OK. Zaznaczmy komórkę zawierającą ocenę (lub wpiszmy odpowiedni adres komórki) i naciśnijmy Enter. Kopiując formułę do odpowiedniego zakresu otrzymamy uzyskaną liczbę orłów dla wpisanych wartości n. Uwaga. Sposób przekazywania argumentów określony jest w deklaracji funkcji. Argumenty mogą być przekazywane poprzez referencję (domyślnie, jak na przykład n w naszej funkcji –9– ile_orlow), lub poprzez wartość (nazwę argumentu w deklaracji funkcji należy poprzedzić słowem ByVal). Jeśli argumenty przekazywane są poprzez wartość, to pobierana jest kopia danych przekazywanych jako argumenty wejściowe. Podstawowe definicje i schematy rachunku prawdopodobieństwa Kombinatoryka • • • • Niech Z będzie zbiorem skończonym, |Z|=n. Permutacją zbioru Z nazywamy każdy ciąg n elementowy utworzony z elementów zbioru Z. Permutacji zbioru n-elementowego jest n!. Kombinacją k elementową zbioru n elementowego nazywamy każdy k elementowy n n! podzbiór zbioru Z. Jest ich = . k k!( n − k )! k elementową wariacją bez powtórzeń nazywamy każdy k wyrazowy ciąg utworzony n! k z elementów zbioru Z, którego elementy są różne. Jest ich Vn = ( n − k )! . k elementową wariacją z powtórzeniami nazywamy każdy k wyrazowy ciąg utwok k rzony z elementów zbioru Z. Jest ich Wn = n . Prawdopodobieństwo warunkowe, niezależność zdarzeń • • Prawdopodobieństwem zdarzenia A pod warunkiem zajścia zdarzenia B nazywamy P( A ∩ B ) liczbę P( A | B ) = , o ile P( B ) > 0 . P( B ) Zdarzenia A, B tej samej przestrzeni probabilistycznej nazywamy niezależnymi gdy P ( A ∩ B ) = P ( A) ⋅ P ( B ) . Prawdopodobieństwo całkowite. • Niech A, B1 ,..., Bn ⊂ Ω , P( Bi ) > 0 i = 1,..., n , B1 ∪ ... ∪ Bn = Ω , Bi ∩ B j = φ . Wtedy P( A) = P ( A | B1 ) P( B1 ) + ... + P ( A | Bn ) P( Bn ) . Schemat Bernoulliego • • • Próbą Bernoulliego nazywamy doświadczenie kończące się jednym z dwóch wyników „sukces” – z prawdopodobieństwem p, „porażka” – z prawdopodobieństwem 1−p. Schematem n prób Bernoulliego nazywamy ciąg niezależnych powtórzeń próby Bernoulliego. Prawdopodobieństwo, że w n próbach Bernoulliego uzyskamy k sukcesów wynosi: ć n n− k P ( S n = k ) = p k ( 1 p ) − čk ř – 10 – Zagadnienie Bayesa • Niech dane będą zdarzenia A, B1 ,..., Bn tej samej przestrzeni probabilistycznej Ω , takie, że P( Bi ) > 0 i = 1,..., n , B1 ∪ ... ∪ Bn = Ω , Bi ∩ B j = φ . Wiadomo że zdarzenie A zaszło. W zagadnieniu Bayesa interesuje nas prawdopodobieństwo warunkowe zajścia zdarzenia Bi pod warunkiem zajścia zdarzenia A, tzn. prawdopodobieństwo P ( Bi | A ) , i = 1,..., n . Prawdopodobieństwo to wynosi: P( Bk | A) = P ( A | Bk ) P( Bk ) . P( A | B1 ) P( B1 ) + ... + P( A | Bn ) P( Bn ) Symulacja doświadczeń losowych • Symulacja rzutów monetą Do symulacji rzutów monetą wykorzystać możemy generator liczb losowych z rozkładu jednostajnego U ( 0,1) . Generator ten działa w taki sposób, że wylosowanie każdej liczby z przedziału ( 0,1) jest jednakowo prawdopodobne, a kolejne losowania są niezależne. Wylosowanie zatem liczby większej od 0,5 jest jednakowo prawdopodobne co wylosowanie liczby mniejszej od 0,5. Przyjmując zatem na przykład że wylosowanie liczby mniejszej od 0,5 odpowiada wyrzuceniu reszki a większej od 0,5 wyrzuceniu orła otrzymujemy sposób na symulację rzutów monetą. • Symulacja rzutów kostką Aby symulować rzuty symetryczną kostką do gry wystarczy proste uogólnienie faktu opisanego przy okazji „rzucania monetą”. Przedział ( 0,1) dzielimy na sześć równych części i każdej z nich przypisujemy jeden z możliwych wyników: na przykład od 0 do 1/6 –jedno oczko, od 1/6-2/6 -2 oczka itd. Statystyka opisowa 1. Miary położenia Średnia arytmetyczna Średnia arytmetyczna nieważona to suma wartości cechy wszystkich jednostek badanej zbiorowości podzielona przez liczbę tych jednostek: 1 n x = ∑ xi n i= 1 xi – warianty cechy mierzalnej, n – liczebność zbiorowości. Jeżeli warianty cechy występują z różną częstotliwością to oblicza się średnią arytmetyczną ważoną. Wagami są liczebności odpowiadające poszczególnym wariantom. Dla szeregów rozdzielczych punktowych: 1 k x = ∑ xi ni n i= 1 ni dla i=1, ..., k – liczebności odpowiadające poszczególnym wariantom cechy, – 11 – Dla szeregu rozdzielczego przedziałowego: x≈ xio 1 k o ∑ xi ni n i= 1 środki przedziałów Dominanta Taka wartość cechy, która w danym rozkładzie empirycznym występuje najczęściej, tzn. odpowiada jej największa liczebność. W szeregach przedziałowych można określić tylko przedział, w którym znajduje się dominanta – jest to przedział o największej liczebności. Dla przybliżonego wyznaczenia dominanty stosuje się wzór interpolacyjny: nD − nD − 1 D = xD + hD (n D − nD − 1 ) + (n D − n D+ 1 ) xD dolna granica klasy w której znajduje się dominanta nD, nD−1, nD+1 liczebności przedziału dominanty, poprzedzającego i następującego hD rozpiętość przedziału dominanty Kwantyle Kwartyl pierwszy Q1 dzieli zbiorowość uporządkowaną na dwie części w ten sposób, że 25% jednostek ma wartości cechy niższe, a 75% wyższe od kwartyla pierwszego. Kwartyl drugi (mediana) Q2 (Me) dzieli zbiorowość uporządkowaną na dwie części w ten sposób, że 50% jednostek ma wartości cechy niższe, a 50% wyższe od mediany. Kwartyl trzeci Q3 dzieli zbiorowość uporządkowaną na dwie części w ten sposób, że 75% jednostek ma wartości cechy niższe, a 25% wyższe od kwartyla trzeciego. W szeregach szczegółowych (i rozdzielczych punktowych) medianę oblicza się ze wzoru: n nieparzyste x( n+ 1) 2 Me = 1 n parzyste ( x n / 2 + x n / 2+ 1 ) 2 Kwartyl pierwszy i trzeci to warianty cechy odpowiadające jednostkom (n+1)/4 (zaokrąglamy w górę) oraz 3(n+1)/4 (zaokrąglamy w dół). W przypadku szeregów rozdzielczych przedziałowych kwartyle wyznaczamy stosując wzór interpolacyjny: h K p = x0 p + p − Fn ( x0 p ) p wp p – rząd kwantyla, x0p – dolna granica przedziału, w którym znajduje się wartość kwantyla rzędu p, Fn(x0p) – skumulowana częstość względna dla dolnej granicy przedziału kwantyla rzędu p, hp, wp – rozpiętość i częstość przedziału kwantyla rzędu p [ ] Obliczeń dokonuje się na szeregu skumulowanych częstości (dystrybuanty empirycznej). Należy najpierw wyznaczyć pozycję kwantyla w szeregu: jest to ten przedział, w którym po raz pierwszy zostaje przekroczona wartość 0.25, 0,50 lub 0,75, odpowiednio dla kwantyla rzędu ¼, ½, ¾.. 2. Miary rozproszenia (Zakres) Rozstęp Jest różnicą między największą i najmniejszą wartością cechy w badanej zbiorowości: R= xmax − xmin – 12 – Rozstęp międzykwartylowy Jest różnicą wartości kwartyla trzeciego i pierwszego: Rm = Q3 – Q1 Odchylenie przeciętne Określa o ile wszystkie jednostki danej zbiorowości różnią się średnio ze względu na wartość cechy od średniej arytmetycznej tej cechy. Dla szeregu szczegółowego (danych indywidualnych): 1 n d = ∑ | xi − x | n i= 1 Dla szeregu rozdzielczego punktowego: 1 k d = ∑ | xi − x | ⋅ni n i= 1 Dla szeregu rozdzielczego przedziałowego: 1 k d = ∑ | xio − x | ⋅ni n i= 1 Odchylenie ćwiartkowe Q − Q1 Q= 3 2 Mierzy poziom zróżnicowania części jednostek badanej zbiorowości, pozostałej po odrzuceniu 25% jednostek o wartościach najniższych oraz 25% jednostek o wartościach najwyższych. Wariancja1 Dla danych indywidualnych: 1 n s 2 = ∑ ( xi − x ) 2 n i= 1 Dla szeregu rozdzielczego punktowego: 1 k s 2 = ∑ ( xi − x ) 2 ⋅ ni n i= 1 Dla szeregu rozdzielczego przedziałowego: 1 k s 2 ≈ ∑ ( xio − x ) 2 ⋅ ni n i= 1 Odchylenie standardowe Określa o ile wszystkie jednostki danej zbiorowości różnią się średnio od średniej arytmetycznej badanej cechy: s = s2 Standaryzacja cechy Cechy mogą być przekształcone z użyciem średniej arytmetycznej i odchylenia standardowego do postaci standaryzowanej: x− x u= s Wielkość standaryzowana u danej wielkości x wskazuje o ile odchyleń standardowych s różni się wartość cechy od średniej arytmetycznej tej cechy. 1 Patrz punkt estymacja parametryczna – 13 – Współczynnik zmienności Pozwala na porównywanie zmienności cechy w kilku zbiorowościach będących na różnym poziomie, określonym np. średnią arytmetyczną lub medianą. Jest to iloraz bezwzględnej miary dyspersji i odpowiednich wartości średnich i wyrażony jest w procentach. s d Vs = 100 Vd = 100 klasyczne współczynniki zmienności x x Q − Q1 Q VQ1Q 3 = 3 100 pozycyjne współczynniki zmienności VQ = 100 Q3 + Q1 Me 3. Miary asymetrii Współczynnik asymetrii (skośność) m As = 33 s m3 – moment centralny 3-go rzędu Dla szeregu rozdzielczego punktowego: 1 k m3 = ∑ ( xi − x )3ni n i= 1 Dla szeregu rozdzielczego przedziałowego: 1 k m3 ≈ ∑ ( xio − x )3ni n i= 1 Równy 0 dla rozkładu symetrycznego, dodatni dla symetrii prawostronnej, ujemny dla lewostronnej. Przybiera wartości zawarte w przedziale 〈−1, 1〉. Pozycyjny współczynnik asymetrii As = 4. Q3 + Q1 − 2 Me 2Q Miary koncentracji Kurtoza m a4 = 44 s m4 – moment centralny 4-go rzędu. Dla szeregu rozdzielczego punktowego: 1 k ( xi − x ) 4 ni ∑ n i= 1 Dla szeregu rozdzielczego przedziałowego: 1 k m4 ≈ ∑ ( xio − x ) 4 ni n i= 1 Dla rozkładu normalnego a4 = 3, zaś dla bardziej spłaszczonego a4 < 3, dla bardziej wysmukłego – a4 >3. Przy porównywaniu zbiorowości jednomodalnych stosuje się również miarę ekscesem: e = a4 − 3 Eksces informuje więc o tym, czy koncentracja wartości zmiennej wokół średniej jest mniejsza, większa niż w zbiorowości o rozkładzie normalnym. m4 = – 14 – 1. 1.1 Estymacja Estymacja parametryczna Estymacja punktowa Nieobciążonym i zgodnym estymatorem wartości oczekiwanej jest średnia wartość próby. X = 1 n ∑ Xi n i= 1 Gdy wartość oczekiwana rozkładu nie jest znana nieobciążonym i zgodnym estymatorem wariancji jest statystyka opisana wzorem: 1 n Sˆ 2 = ( X i − X )2 ∑ n − 1 i= 1 Jako estymator odchylenia standardowego przyjmuje się pierwiastek z wartości estymatora wariancji. 1.2 Estymacja przedziałowa Przedziałem ufności dla parametru θ na poziomie ufności 1 − α ( 0 < α < 1 ) nazywa się przedział (θ 1 ,θ 2 ) , którego końce są funkcjami próby losowej i nie zależą od szacowanego parametru, natomiast prawdopodobieństwo pokrycia przez ten przedział nieznanego parametru θ wynosi 1 − α . Liczbę 1 − α nazywa się współczynnikiem ufności. Przedział ufności dla wartości oczekiwanej w przypadku rozkładu normalnego o nieznanej wariancji można zapisać wzorem: S S , X + t (1− α ,n− 1) X − t (1− α ,n− 1) , 2 2 n n gdzie S oznacza nieobciążony estymator odchylenia standardowego, zaś t (1− α ,n− 1) kwantyl 2 rozkładu studenta. Przedział ufności dla wartości oczekiwanej w przypadku dowolnego rozkładu o nieznanej, ale skończonej wariancji dla próby o dużej liczności (n > 120) można zapisać wzorem: S S , X + u1− α X − u1− α , 2 2 n n gdzie uα jest kwantylem rzędu α zmiennej losowej o rozkładzie N(0,1). Przedział ufności dla wariancji w przypadku rozkładu normalnego o nieznanej wartości oczekiwanej można zapisać wzorem: ( n − 1) S 2 (n − 1) S 2 , , 2 χ2 α χ ( α2 ,n − 1) (1− 2 ,n− 1) 2 gdzie S oznacza nieobciążony estymator odchylenia standardowego, zaś χ (1− α ,n− 1) kwantyl 2 rozkładu chi kwadrat. – 15 – Przedział ufności dla odchylenia standardowego w przypadku dowolnego rozkładu o nieznanej wartości oczekiwanej dla próby o dużej liczności (n > 120) można zapisać wzorem: S S , , u1− α u1− α 2 2 1+ 1− 2 n 2 n α u gdzie α jest kwantylem rzędu zmiennej losowej o rozkładzie N(0,1). 2. Estymacja nieparametryczna Estymatorem jądrowym funkcji gęstości f (x) nazywamy funkcję postaci: a n f n ( x; an ) = n ∑ K ( an ( x − X i ) ) , n i= 1 gdzie: n jest rozmiarem próbki, Xi oznacza kolejne wartości próbki, (an ) n∈ N jest ciągiem a dodatnich liczb rozbieżnym do nieskończoności takim, że an = o(n) , tzn. lim n = 0 oraz n→ ∞ n K (x) jest funkcją spełniającą warunek: + ∞ ∫ K ( x)dx = 1 −∞ Dowodzi się, że błąd średniokwadratowy +∞ 2 E ∫ ( f n ( x; an ) − f ( x) ) dx −∞ jest zbieżny do zera przy n → ∞ , co uzasadnia przyjęcie funkcji f n ( x; an ) za estymator gęstości f (x ) . Z przedstawionej definicji estymatora jądrowego gęstości wynika, że zależy on od wyboru postaci funkcji jądra K (x ) i wyboru ciągu (an ) n∈ N . W przypadku, gdy szeregu rozdzielczego punktowego estymator jądrowy może być określony zależnością a k f n ( x; a n ) = n ∑ ni K ( a n ( x − X i ) ) , n i= 1 gdzie ni oznacza liczebności pomiarów o wartości Xi, a k liczbę różnych wartości. Przykładowe pytania sprawdzające przygotowanie do zajęć 1. Podaj definicję dystrybuanty. 2. Podaj definicję funkcji gęstości prawdopodobieństwa. 3. Wyjaśnij pojęcia: permutacja, kombinacja oraz wariacja. Podaj wzór na liczbę k elementowych kombinacji zbioru n elementowego. 4. Podaj wzór na prawdopodobieństwo całkowite i wyjaśnij znaczenie symboli. 5. Co to jest próba i schemat Bernoulliego? Podaj wzór na prawdopodobieństwo, że w n próbach Bernoulliego uzyska się k sukcesów. 6. Wyjaśnij co to jest zagadnienie Bayesa. Jaki stąd wynika wzór na prawdopodobieństwo? – 16 – 7. Podaj wzory na wyznaczanie średniej arytmetycznej. 8. Co to jest dominanta? Podaj wzór na wyznaczanie przybliżonej wartości dominanty, gdy dysponujemy szeregiem rozdzielczym przedziałowym. 9. Wyjaśnij pojęcia: kwantyl, percentyl i kawrtyle. 10. Podaj wzór na wyznaczanie kwantyla rzędu p, gdy dysponujemy szeregiem rozdzielczym przedziałowym. 11. Podaj przykłady miar rozproszenia. 12. Podaj przykłady miar asymetrii. 13. Podaj przykłady miar koncentracji. 14. Wyjaśnij pojęcia: estymator zgodny, estymator nieobciążony, estymator asymptotycznie nieobciążony, estymator najefektywniejszy. 15. Podaj wzór na nieobciążony estymator wariancji. 16. Podaj wzory na granice przedziału ufności dla wartości oczekiwanej w przypadku rozkładu normalnego o nieznanej wariancji. 17. Podaj wzory na granice przedziału ufności dla wartości oczekiwanej w przypadku dowolnego rozkładu o nieznanej, ale skończonej wariancji dla próby o dużej liczności. 18. Podaj wzory na granice przedziału ufności dla wariancji w przypadku rozkładu normalnego o nieznanej wartości przeciętnej. 19. Podaj wzór na przedział ufności dla odchylenia standardowego w przypadku dowolnego rozkładu o nieznanej wartości oczekiwanej dla próby o dużej liczności. 20. Wyjaśnij pojęcie i podaj wzór na estymator jądrowym funkcji gęstości f(x). – 17 –