Symulacja zdarzeń losowych

Transkrypt

Symulacja zdarzeń losowych
ĆWICZENIE 1
Symulacja doświadczeń losowych
Statystyka opisowa
Estymacja parametryczna i nieparametryczna
TEORIA
Opracowała:
Katarzyna Stąpor
Opis programu MS EXCEL
1.
Informacje ogólne
Program Microsoft Excel oferuje po uruchomieniu możliwość pracy z wykorzystaniem tzw. zeszytu, który jest standardowym dokumentem (typem pliku z rozszerzeniem
.xls)i składa się z arkuszy. Nazwa arkusza znajduje się w lewym dolnym rogu, jeden z Arkuszy jest tzw. arkuszem aktywnym i jego nazwa wyróżniona jest białym tłem.
Pasek
menu
Paski
narzędzi
Pasek
formuł
y
Adres
aktywnej
komórki
Nazwa
arkusz
a
Rys.1. Arkusz kalkulacyjny EXCEL bezpośrednio po uruchomieniu
Arkusz ma strukturę tablicy, składa się z komórek widocznych jako białe prostokąty,
umiejscowione na przecięciu kolumn i wierszy oznaczonych odpowiednio literami ( od A do
IV, 256 kolumn) oraz liczbami (1 – 65536). Oznaczenie kolumn i wierszy pozwala na
zlokalizowanie komórki za pomocą tzw. adresu, np. komórka N23 (na przecięciu kolumny N
i wiersza 23).
W górnej części okna, powyżej arkusza widoczne są (Rys.1.): pasek menu (wraz z dostępnymi opcjami), paski narzędzi (zawierające tzw. przyciski, które uaktywniane za pomocą
myszy pozwalają na przyspieszone użycie dostępnych tą drogą poleceń) oraz pasek formuły,
który jest ściśle powiązany z komórką aktywną (wyróżniona za pomocą pogrubionej ramki),
bowiem zawiera on zawsze zapis znajdujący się w komórce.
–2–
Rys.2. Pasek formuły z zapisem danych w komórce A1 i widoczna zawartość tej komórki
Poruszanie się po arkuszu (zmiana aktywnej komórki) może odbywać na różne
sposoby. Najbardziej naturalnym jest użycie „strzałek” (klawiszy oznaczonych strzałkami),
jednak powoduje to tylko ruch o jedną komórkę w pionie lub poziomie, o ile taki ruch jest
możliwy. W przypadku potrzeby wykonania skoku do pewnej dalszej, ale konkretnej komórki, np. AB46 należy jej adres wpisać w okienku w lewym górnym rogu (obok paska formuły)
i oczywiście zatwierdzić klawiszem [ENTER]. Prócz tego możliwe jest również użycie
klawiszy [HOME] (skok do początku wiersza), [END] +[->] (skok do końca wiersza, można
użyć kombinacji z inną strzałką w celu przemieszczenia się do końcowych komórek pionie
lub poziomie), a także [Page Up], [Page Down] samodzielnie lub jako kombinacje z [Alt] lub
[Ctrl].
2.
Wprowadzanie danych
Do komórek arkusza można wprowadzać dane w postaci liczb, tekstów i formuł
obliczeniowych. Wprowadzane dane widoczne są zarówno w komórce aktywnej, jak i na
pasku formuły. Zatwierdzenie danych następuje poprzez naciśnięcie [Enter] lub dowolnej
strzałki.
Przez formułę obliczeniową należy rozumieć zapis, który przy spełnieniu pewnych
wymogów formalnych pozwala otrzymać w wybranej komórce wynik obliczeń zrealizowanych zgodnie z procedurą rachunkową wprowadzona przez użytkownika. Procedura działa
wykorzystując wartości liczbowe, które mogą być podane w sposób jawny (jako stałe) lub
występować jako adresy komórek, w których zostały umieszczone wartości liczbowe. Zapis
formuły w arkuszu rozpoczyna się znakiem równości „=”, natomiast dalszy zapis powinien
uwzględniać poprawność matematyczną wzoru, a także zgodność ze składnią rozumianą
przez program.
–3–
Na rysunku Rys.2 można zauważyć przykład prostej formuły (=2+5+7). Zastosowano
tam operator dodawania (+). Możliwe jest również użycie operatorów odejmowania (−),
mnożenia (*), dzielenia (/) oraz potęgowania (^). Warto przy tym podkreślić fakt, że dla
poprawnej interpretacji wyrażenia na ogół potrzebne jest stosowania nawiasów, np.:
3
2
formuła „=5+2*3/5*7−10^2” jest równoważna zapisowi: „ 5 + 2 ⋅ ⋅ 7 − 10 ”,
5
3
− 10 2 ”.
natomiast „=(5+2)*3/(5*7)−10^2” jest równoważna „ (5 + 2) ⋅
5⋅ 7
Na poniższym rysunku znajduje się przykład formuły wykorzystującej zawartości
komórek, których adresy występują w formule:
Rys.3. Pasek formuły z zapisem danych w komórce B4 i widoczna zawartość tej komórki
Przy okazji należy zwrócić uwagę, że w przypadku dowolnej zatwierdzonej zmiany
w wartościach komórek B1, B2 lub B3 dokonywana jest automatycznie aktualizacja danych
w pozostałych komórkach arkusza związanych ze zmienianymi, co w powyższym przykładzie
byłoby widoczne jako zmiana wartości wyświetlanej w komórce B4.
3.
Adresacja komórek i procedura przeciągania
Rozważmy następujący przykład: obliczyć wartości zmiennej zależnej y wykorzystując funkcję liniową y = a x+b. Obliczenia przeprowadzić dla x z zakresu liczb naturalnych od
1 do 5, dla a=3 i b=7. Na kolejnych rysunkach przedstawiono kolejne etapy rozwiązania tego
zadania:
–4–
Rys.4.a
Rys.4.b
Na rysunku Rys.4.a. widoczny jest zaznaczony obszar D2:D3, aby uzyskać efekt
przeciągania widoczny na Rys.4.b po zaznaczeniu obszaru D2:D3 należy ustawić kursor
myszy w prawym dolnym rogu obszaru wyróżnionym na rysunku Rys.4.a i naciskając lewy
przycisk myszy przeciągnąć w dół (podczas przeciągania będą pojawiały się kolejne wartości
obok zaznaczonych komórek jak na Rys.4.b. Po zwolnieniu przycisku myszy w komórkach
D2:D6 pojawią się kolejne wartości od 1 do 5, gdyż podczas przeciągania wyliczane są
kolejne wartości ciągu arytmetycznego o dwóch pierwszych wyrazach takich jak zaznaczony
obszar. W przypadku gdy wartości w zaznaczonym obszarze nie mogą utworzyć ciągu
arytmetycznego, podczas opisanej powyżej procedury przeciągania wartości zaznaczonego
obszaru będą powielane.
Rys.4.c
Rys.4.d
Rysunek Rys.4.c pokazuje dalszy tok postępowania polegający na poprawnym
wpisaniu do komórki E2 formuły obliczeniowej. W zapisie formuły można zauważyć użycie
znaków „$” przy adresach komórek, do których odnoszą się odwołania. Zastosowano tu
bowiem tzw. adresację bezwzględną, konieczną przy korzystaniu z narzędzia przeciągania w
przypadku formuł. Znak „$” umieszczony bezpośrednio przed nazwą kolumny lub wiersza
niejako „zamraża” tę nazwę podczas przeciągania, gdy dokonuje się automatyczna zmiana
adresów komórek występujących w formule. Można zauważyć, że adresy komórki B1 i B2
zostały wykorzystane w postaci $B$1 oraz $B$2, gdyż ważne jest aby adresy tych komórek
–5–
nie zmieniły się podczas przeciągania (utrwalona została zarówno nazwa wiersza jak i kolumny). Natomiast w adresie komórki D2 zastosowano jedynie „zamrożenie” nazwy kolumny
w postaci $D2, aby podczas przeciągania mogły zmieniać się nazwy wierszy występujących
w formule . Należy jednak zauważyć, że podczas przeciągania „w dół” zmieniają się tylko
nazwy wierszy, więc gdyby nie został użyty znak „$” przed nazwą kolumny adresu komórki
D2, wynik formuły po przeciągnięciu nadal byłby poprawny (byłby on niezbędny jedynie
w przypadku przeciągania „w prawo”).
Na rysunku Rys.4.d widoczne jest rozwiązanie zadania, tzn. wyświetlone są wartości
zmiennej y w zależności od wartości zmiennej x. Gdyby spojrzeć na formułę zawartą w komórce, np. E6 wyglądałaby ona następująco: „=$B$1*$D6+$B$2”.
–6–
Podstawy języka Visual Basic dla Aplikacji (VBA)
W programie MS Ecel, oprócz szeregu wbudowanych funkcji, w arkuszu można stosować
funkcje i procedury zdefiniowane przez użytkownika. Aby pisać własne funkcje trzeba znać
podstawy języka VBA, ponieważ to w tym języku piszemy funkcje i procedury w Excelu.
1. Zmienne, typy
W Visual Basicu nie ma obowiązku deklarowania zmiennych prostych, jednakże jest to
zalecane. Standardowym typem danych jest typ wariantowy (Variant). W celu określenia
specyficznego typu zmiennej należy użyć instrukcji Dim, deklaracja zmiennej ma postać:
Dim nazwa_zmiennej As typ_danych
Gdzie proste typy danych to
a) Integer
2- bajtowa liczba całkowita,
a) Long
4- bajtowa liczba całkowita,
b) Single
4- bajtowa liczba zmiennoprzecinkowa,
c) Double 8- bajtowa liczba zmiennoprzecinkowa,
d) Currency 8- bajtowa liczba stałoprzecinkowa,
e) String
łańcuch znaków (do 64kB).
Jeżeli chce się przechowywać wartości z poprzednich wywołań procedury, zamiast słowa
Dim należy użyć Static.
2. Podstawowe instrukcje
•
Instrukcja podstawienia, która zmiennej Zmienna przypisuje wartość
wyrażenie ma postać:
Zmienna = wyrażenie
• Instrukcja warunkowa: jeżeli wyrażenie jest prawdą wykonywana jest instrukcja
przyjmuje w języku VBA postać:
If wyrażenie Then instrukcja
lub jeżeli prawdziwe jest wyrażenie wykonywane są Instrukcje1, w przeciwnym
wypadku wykonywane są Instrukcje2.
If wyrażenie Then
Instrukcje1
Else
Instrukcje2
End If
• Pętla For, instrukcje wykonywane są do momentu, gdy zmienna osiągnie wartość
końcową.
For zmienna = wartośćPoczątkowa To wartośćKońcowa
instrukcje
Next zmienna
lub
For zmienna = wartośćP To wartośćK Step krok
instrukcje
Next zmienna
w powyższym przypadku Step oznacza o ile ma się zmieniać wartość zmiennej między
kolejnymi iteracjami.
• Pętla Do … Loop występuje w dwóch postaciach, w których:
–7–
a) instrukcje wykonywane są do momentu, w którym warunek stanie się prawdziwy jest postaci:
Do While warunek
instrukcje
Loop
b) instrukcje wykonywane są do momentu, w którym warunek stanie się prawdziwy.
Do
instrukcje
Loop Until warunek
3. Uwagi
• Koniunkcję dwóch warunków realizuje słowo And a alternatywę Or.
• Język VBA w odróżnieniu np. do C++ nie rozróżnia wielkości liter.
• Komentarze piszemy po znaku apostrofa.
Własne funkcje w Excelu
Aby pisać własne funkcje i procedury należy w Excelu z menu Narzędzia wybrać
opcję Makra i dalej Edytor Visual Basic.
otworzymy w ten sposób następujące okno:
w którym po wybraniu opcji Module z menu Insert zobaczymy okno umożliwiające wpisanie
kodu funkcji.
Deklaracja funkcji odbywa się poprzez słowo kluczowe Function a procedury Sub. Pełna
postać deklaracji funkcji jest postaci:
–8–
Function nazwa_funkcji(parametry) As typ_zwracanej_wartości
Dla przykładu wpiszmy kod funkcji, która może być użyta do symulacji rzutów monetą,
zwróconą przez nią wartość 0 możemy interpretować jako „orła”, a wartość 1 jako „reszkę”.
Funkcja nie ma na wejściu żadnych argumentów a na wyjściu liczbę całkowitą (0 lub 1).
Function rzut() As Integer
Dim l As Double 'deklaracja zmiennej
l = Rnd() 'za l podstawiamy wylosowaną liczbę
If l <= 0.5 Then
rzut = 0
Else
rzut = 1
End If
End Function
Funkcja może korzystać z wywołań innych napisanych wcześniej funkcji, czy z wywołań
samej siebie (rekurencja). Poniższy przykład ilustruje kod funkcji zwracającej ilość orłów w n
(argument wejściowy funkcji) rzutach monetą.
Function Ile_orlow(n As Long) As Long
Dim i, ile As Long
ile = 0
For i = 1 To n
If rzut() = 0 Then ile = ile + 1
Next i
Ile_orlow = ile
End Function
Napisaliśmy dwie funkcje ale jak z nich skorzystać? Po wpisaniu ich kodu wracamy do okna
Excela, wpisanej funkcji możemy użyć klikając w ikonę Wklej funkcję standardowego paska
narzędzi. Otworzymy okno:
W kategorii funkcji Użytkownika wybierzmy zdefiniowaną nazwę funkcji ile_orlow i naciśnijmy OK. Zaznaczmy
komórkę zawierającą ocenę (lub wpiszmy odpowiedni
adres komórki) i naciśnijmy Enter. Kopiując formułę do
odpowiedniego zakresu otrzymamy uzyskaną liczbę orłów dla wpisanych wartości n.
Uwaga.
Sposób przekazywania argumentów określony jest w deklaracji funkcji. Argumenty
mogą być przekazywane poprzez referencję (domyślnie, jak na przykład n w naszej funkcji
–9–
ile_orlow), lub poprzez wartość (nazwę argumentu w deklaracji funkcji należy poprzedzić
słowem ByVal). Jeśli argumenty przekazywane są poprzez wartość, to pobierana jest kopia
danych przekazywanych jako argumenty wejściowe.
Podstawowe definicje i schematy rachunku prawdopodobieństwa
Kombinatoryka
•
•
•
•
Niech Z będzie zbiorem skończonym, |Z|=n.
Permutacją zbioru Z nazywamy każdy ciąg n elementowy utworzony z elementów
zbioru Z. Permutacji zbioru n-elementowego jest n!.
Kombinacją k elementową zbioru n elementowego nazywamy każdy k elementowy
 n
n!
podzbiór zbioru Z. Jest ich   =
.
 k  k!( n − k )!
k elementową wariacją bez powtórzeń nazywamy każdy k wyrazowy ciąg utworzony
n!
k
z elementów zbioru Z, którego elementy są różne. Jest ich Vn =
( n − k )! .
k elementową wariacją z powtórzeniami nazywamy każdy k wyrazowy ciąg utwok
k
rzony z elementów zbioru Z. Jest ich Wn = n .
Prawdopodobieństwo warunkowe, niezależność zdarzeń
•
•
Prawdopodobieństwem zdarzenia A pod warunkiem zajścia zdarzenia B nazywamy
P( A ∩ B )
liczbę P( A | B ) =
, o ile P( B ) > 0 .
P( B )
Zdarzenia A, B tej samej przestrzeni probabilistycznej nazywamy niezależnymi gdy
P ( A ∩ B ) = P ( A) ⋅ P ( B ) .
Prawdopodobieństwo całkowite.
•
Niech A, B1 ,..., Bn ⊂ Ω , P( Bi ) > 0 i = 1,..., n , B1 ∪ ... ∪ Bn = Ω , Bi ∩ B j = φ . Wtedy
P( A) = P ( A | B1 ) P( B1 ) + ... + P ( A | Bn ) P( Bn ) .
Schemat Bernoulliego
•
•
•
Próbą Bernoulliego nazywamy doświadczenie kończące się jednym z dwóch wyników
„sukces” – z prawdopodobieństwem p, „porażka” – z prawdopodobieństwem 1−p.
Schematem n prób Bernoulliego nazywamy ciąg niezależnych powtórzeń próby
Bernoulliego.
Prawdopodobieństwo, że w n próbach Bernoulliego uzyskamy k sukcesów wynosi:
ć n
n− k
P ( S n = k )  = p k ( 1 p )
−
čk ř
– 10 –
Zagadnienie Bayesa
•
Niech dane będą zdarzenia A, B1 ,..., Bn tej samej przestrzeni probabilistycznej Ω ,
takie, że P( Bi ) > 0 i = 1,..., n , B1 ∪ ... ∪ Bn = Ω , Bi ∩ B j = φ . Wiadomo że zdarzenie
A zaszło. W zagadnieniu Bayesa interesuje nas prawdopodobieństwo warunkowe
zajścia zdarzenia Bi pod warunkiem zajścia zdarzenia A, tzn. prawdopodobieństwo
P ( Bi | A ) , i = 1,..., n . Prawdopodobieństwo to wynosi:
P( Bk | A) =
P ( A | Bk ) P( Bk )
.
P( A | B1 ) P( B1 ) + ... + P( A | Bn ) P( Bn )
Symulacja doświadczeń losowych
• Symulacja rzutów monetą
Do symulacji rzutów monetą wykorzystać możemy generator liczb losowych z rozkładu
jednostajnego U ( 0,1) . Generator ten działa w taki sposób, że wylosowanie każdej liczby
z przedziału ( 0,1) jest jednakowo prawdopodobne, a kolejne losowania są niezależne. Wylosowanie zatem liczby większej od 0,5 jest jednakowo prawdopodobne co wylosowanie liczby
mniejszej od 0,5. Przyjmując zatem na przykład że wylosowanie liczby mniejszej od 0,5
odpowiada wyrzuceniu reszki a większej od 0,5 wyrzuceniu orła otrzymujemy sposób na
symulację rzutów monetą.
• Symulacja rzutów kostką
Aby symulować rzuty symetryczną kostką do gry wystarczy proste uogólnienie faktu
opisanego przy okazji „rzucania monetą”. Przedział ( 0,1) dzielimy na sześć równych części
i każdej z nich przypisujemy jeden z możliwych wyników: na przykład od 0 do 1/6 –jedno
oczko, od 1/6-2/6 -2 oczka itd.
Statystyka opisowa
1.
Miary położenia
Średnia arytmetyczna
Średnia arytmetyczna nieważona to suma wartości cechy wszystkich jednostek badanej
zbiorowości podzielona przez liczbę tych jednostek:
1 n
x = ∑ xi
n i= 1
xi
– warianty cechy mierzalnej,
n
– liczebność zbiorowości.
Jeżeli warianty cechy występują z różną częstotliwością to oblicza się średnią arytmetyczną
ważoną. Wagami są liczebności odpowiadające poszczególnym wariantom.
Dla szeregów rozdzielczych punktowych:
1 k
x = ∑ xi ni
n i= 1
ni dla i=1, ..., k – liczebności odpowiadające poszczególnym wariantom cechy,
– 11 –
Dla szeregu rozdzielczego przedziałowego:
x≈
xio
1 k o
∑ xi ni
n i= 1
środki przedziałów
Dominanta
Taka wartość cechy, która w danym rozkładzie empirycznym występuje najczęściej, tzn.
odpowiada jej największa liczebność.
W szeregach przedziałowych można określić tylko przedział, w którym znajduje się
dominanta – jest to przedział o największej liczebności. Dla przybliżonego wyznaczenia
dominanty stosuje się wzór interpolacyjny:
nD − nD − 1
D = xD +
hD
(n D − nD − 1 ) + (n D − n D+ 1 )
xD
dolna granica klasy w której znajduje się dominanta
nD, nD−1, nD+1
liczebności przedziału dominanty, poprzedzającego i następującego
hD
rozpiętość przedziału dominanty
Kwantyle
Kwartyl pierwszy Q1 dzieli zbiorowość uporządkowaną na dwie części w ten sposób, że 25%
jednostek ma wartości cechy niższe, a 75% wyższe od kwartyla pierwszego.
Kwartyl drugi (mediana) Q2 (Me) dzieli zbiorowość uporządkowaną na dwie części w ten
sposób, że 50% jednostek ma wartości cechy niższe, a 50% wyższe od mediany.
Kwartyl trzeci Q3 dzieli zbiorowość uporządkowaną na dwie części w ten sposób, że 75%
jednostek ma wartości cechy niższe, a 25% wyższe od kwartyla trzeciego.
W szeregach szczegółowych (i rozdzielczych punktowych) medianę oblicza się ze wzoru:
n nieparzyste
 x( n+ 1) 2

Me =  1
n parzyste
 ( x n / 2 + x n / 2+ 1 )
2
Kwartyl pierwszy i trzeci to warianty cechy odpowiadające jednostkom (n+1)/4 (zaokrąglamy
w górę) oraz 3(n+1)/4 (zaokrąglamy w dół).
W przypadku szeregów rozdzielczych przedziałowych kwartyle wyznaczamy stosując wzór
interpolacyjny:
h
K p = x0 p + p − Fn ( x0 p ) p
wp
p
– rząd kwantyla,
x0p
– dolna granica przedziału, w którym znajduje się wartość kwantyla rzędu p,
Fn(x0p) – skumulowana częstość względna dla dolnej granicy przedziału kwantyla rzędu p,
hp, wp
– rozpiętość i częstość przedziału kwantyla rzędu p
[
]
Obliczeń dokonuje się na szeregu skumulowanych częstości (dystrybuanty empirycznej).
Należy najpierw wyznaczyć pozycję kwantyla w szeregu: jest to ten przedział, w którym po
raz pierwszy zostaje przekroczona wartość 0.25, 0,50 lub 0,75, odpowiednio dla kwantyla
rzędu ¼, ½, ¾..
2.
Miary rozproszenia
(Zakres) Rozstęp
Jest różnicą między największą i najmniejszą wartością cechy w badanej zbiorowości:
R= xmax − xmin
– 12 –
Rozstęp międzykwartylowy
Jest różnicą wartości kwartyla trzeciego i pierwszego:
Rm = Q3 – Q1
Odchylenie przeciętne
Określa o ile wszystkie jednostki danej zbiorowości różnią się średnio ze względu na wartość
cechy od średniej arytmetycznej tej cechy.
Dla szeregu szczegółowego (danych indywidualnych):
1 n
d = ∑ | xi − x |
n i= 1
Dla szeregu rozdzielczego punktowego:
1 k
d = ∑ | xi − x | ⋅ni
n i= 1
Dla szeregu rozdzielczego przedziałowego:
1 k
d = ∑ | xio − x | ⋅ni
n i= 1
Odchylenie ćwiartkowe
Q − Q1
Q= 3
2
Mierzy poziom zróżnicowania części jednostek badanej zbiorowości, pozostałej po
odrzuceniu 25% jednostek o wartościach najniższych oraz 25% jednostek o wartościach
najwyższych.
Wariancja1
Dla danych indywidualnych:
1 n
s 2 = ∑ ( xi − x ) 2
n i= 1
Dla szeregu rozdzielczego punktowego:
1 k
s 2 = ∑ ( xi − x ) 2 ⋅ ni
n i= 1
Dla szeregu rozdzielczego przedziałowego:
1 k
s 2 ≈ ∑ ( xio − x ) 2 ⋅ ni
n i= 1
Odchylenie standardowe
Określa o ile wszystkie jednostki danej zbiorowości różnią się średnio od średniej
arytmetycznej badanej cechy:
s = s2
Standaryzacja cechy
Cechy mogą być przekształcone z użyciem średniej arytmetycznej i odchylenia
standardowego do postaci standaryzowanej:
x− x
u=
s
Wielkość standaryzowana u danej wielkości x wskazuje o ile odchyleń standardowych s różni
się wartość cechy od średniej arytmetycznej tej cechy.
1
Patrz punkt estymacja parametryczna
– 13 –
Współczynnik zmienności
Pozwala na porównywanie zmienności cechy w kilku zbiorowościach będących na różnym
poziomie, określonym np. średnią arytmetyczną lub medianą. Jest to iloraz bezwzględnej
miary dyspersji i odpowiednich wartości średnich i wyrażony jest w procentach.
s
d
Vs = 100
Vd = 100
klasyczne współczynniki zmienności
x
x
Q − Q1
Q
VQ1Q 3 = 3
100 pozycyjne współczynniki zmienności
VQ =
100
Q3 + Q1
Me
3.
Miary asymetrii
Współczynnik asymetrii (skośność)
m
As = 33
s
m3
– moment centralny 3-go rzędu
Dla szeregu rozdzielczego punktowego:
1 k
m3 = ∑ ( xi − x )3ni
n i= 1
Dla szeregu rozdzielczego przedziałowego:
1 k
m3 ≈ ∑ ( xio − x )3ni
n i= 1
Równy 0 dla rozkładu symetrycznego, dodatni dla symetrii prawostronnej, ujemny dla
lewostronnej. Przybiera wartości zawarte w przedziale 〈−1, 1〉.
Pozycyjny współczynnik asymetrii
As =
4.
Q3 + Q1 − 2 Me
2Q
Miary koncentracji
Kurtoza
m
a4 = 44
s
m4
– moment centralny 4-go rzędu.
Dla szeregu rozdzielczego punktowego:
1 k
( xi − x ) 4 ni
∑
n i= 1
Dla szeregu rozdzielczego przedziałowego:
1 k
m4 ≈ ∑ ( xio − x ) 4 ni
n i= 1
Dla rozkładu normalnego a4 = 3, zaś dla bardziej spłaszczonego a4 < 3, dla bardziej
wysmukłego – a4 >3.
Przy porównywaniu zbiorowości jednomodalnych stosuje się również miarę ekscesem:
e = a4 − 3
Eksces informuje więc o tym, czy koncentracja wartości zmiennej wokół średniej jest
mniejsza, większa niż w zbiorowości o rozkładzie normalnym.
m4 =
– 14 –
1.
1.1
Estymacja
Estymacja parametryczna
Estymacja punktowa
Nieobciążonym i zgodnym estymatorem wartości oczekiwanej jest średnia wartość
próby.
X =
1 n
∑ Xi
n i= 1
Gdy wartość oczekiwana rozkładu nie jest znana nieobciążonym i zgodnym estymatorem wariancji jest statystyka opisana wzorem:
1 n
Sˆ 2 =
( X i − X )2
∑
n − 1 i= 1
Jako estymator odchylenia standardowego przyjmuje się pierwiastek z wartości estymatora
wariancji.
1.2
Estymacja przedziałowa
Przedziałem ufności dla parametru θ na poziomie ufności 1 − α ( 0 < α < 1 ) nazywa
się przedział (θ 1 ,θ 2 ) , którego końce są funkcjami próby losowej i nie zależą od szacowanego
parametru, natomiast prawdopodobieństwo pokrycia przez ten przedział nieznanego parametru θ wynosi 1 − α . Liczbę 1 − α nazywa się współczynnikiem ufności.
Przedział ufności dla wartości oczekiwanej w przypadku rozkładu normalnego o nieznanej wariancji można zapisać wzorem:
S
S 

, X + t (1− α ,n− 1)
 X − t (1− α ,n− 1)
,
2
2
n
n

gdzie S oznacza nieobciążony estymator odchylenia standardowego, zaś t (1− α ,n− 1) kwantyl
2
rozkładu studenta.
Przedział ufności dla wartości oczekiwanej w przypadku dowolnego rozkładu o nieznanej, ale skończonej wariancji dla próby o dużej liczności (n > 120) można zapisać wzorem:
S
S 

, X + u1− α
 X − u1− α
,
2
2
n
n

gdzie uα jest kwantylem rzędu α zmiennej losowej o rozkładzie N(0,1).
Przedział ufności dla wariancji w przypadku rozkładu normalnego o nieznanej
wartości oczekiwanej można zapisać wzorem:
 ( n − 1) S 2 (n − 1) S 2 

,
, 2
 χ2 α

χ
( α2 ,n − 1) 
 (1− 2 ,n− 1)
2
gdzie S oznacza nieobciążony estymator odchylenia standardowego, zaś χ (1− α ,n− 1) kwantyl
2
rozkładu chi kwadrat.
– 15 –
Przedział ufności dla odchylenia standardowego w przypadku dowolnego rozkładu
o nieznanej wartości oczekiwanej dla próby o dużej liczności (n > 120) można zapisać wzorem:




S
S


,
,

u1− α
u1− α 
2
2 
 1+
1−


2
n
2
n


α
u
gdzie α jest kwantylem rzędu
zmiennej losowej o rozkładzie N(0,1).
2.
Estymacja nieparametryczna
Estymatorem jądrowym funkcji gęstości f (x) nazywamy funkcję postaci:
a n
f n ( x; an ) = n ∑ K ( an ( x − X i ) ) ,
n i= 1
gdzie: n jest rozmiarem próbki, Xi oznacza kolejne wartości próbki, (an ) n∈ N jest ciągiem
a
dodatnich liczb rozbieżnym do nieskończoności takim, że an = o(n) , tzn. lim n = 0 oraz
n→ ∞ n
K (x) jest funkcją spełniającą warunek:
+ ∞
∫ K ( x)dx = 1
−∞
Dowodzi się, że błąd średniokwadratowy
+∞

2
E  ∫ ( f n ( x; an ) − f ( x) ) dx 
 −∞

jest zbieżny do zera przy n → ∞ , co uzasadnia przyjęcie funkcji f n ( x; an ) za estymator
gęstości f (x ) . Z przedstawionej definicji estymatora jądrowego gęstości wynika, że zależy
on od wyboru postaci funkcji jądra K (x ) i wyboru ciągu (an ) n∈ N .
W przypadku, gdy szeregu rozdzielczego punktowego estymator jądrowy może być określony
zależnością
a k
f n ( x; a n ) = n ∑ ni K ( a n ( x − X i ) ) ,
n i= 1
gdzie ni oznacza liczebności pomiarów o wartości Xi, a k liczbę różnych wartości.
Przykładowe pytania sprawdzające przygotowanie do zajęć
1. Podaj definicję dystrybuanty.
2. Podaj definicję funkcji gęstości prawdopodobieństwa.
3. Wyjaśnij pojęcia: permutacja, kombinacja oraz wariacja. Podaj wzór na liczbę k
elementowych kombinacji zbioru n elementowego.
4. Podaj wzór na prawdopodobieństwo całkowite i wyjaśnij znaczenie symboli.
5. Co to jest próba i schemat Bernoulliego? Podaj wzór na prawdopodobieństwo, że w n
próbach Bernoulliego uzyska się k sukcesów.
6. Wyjaśnij co to jest zagadnienie Bayesa. Jaki stąd wynika wzór na prawdopodobieństwo?
– 16 –
7. Podaj wzory na wyznaczanie średniej arytmetycznej.
8. Co to jest dominanta? Podaj wzór na wyznaczanie przybliżonej wartości dominanty, gdy
dysponujemy szeregiem rozdzielczym przedziałowym.
9. Wyjaśnij pojęcia: kwantyl, percentyl i kawrtyle.
10. Podaj wzór na wyznaczanie kwantyla rzędu p, gdy dysponujemy szeregiem rozdzielczym
przedziałowym.
11. Podaj przykłady miar rozproszenia.
12. Podaj przykłady miar asymetrii.
13. Podaj przykłady miar koncentracji.
14. Wyjaśnij pojęcia: estymator zgodny, estymator nieobciążony, estymator asymptotycznie
nieobciążony, estymator najefektywniejszy.
15. Podaj wzór na nieobciążony estymator wariancji.
16. Podaj wzory na granice przedziału ufności dla wartości oczekiwanej w przypadku
rozkładu normalnego o nieznanej wariancji.
17. Podaj wzory na granice przedziału ufności dla wartości oczekiwanej w przypadku
dowolnego rozkładu o nieznanej, ale skończonej wariancji dla próby o dużej liczności.
18. Podaj wzory na granice przedziału ufności dla wariancji w przypadku rozkładu
normalnego o nieznanej wartości przeciętnej.
19. Podaj wzór na przedział ufności dla odchylenia standardowego w przypadku dowolnego
rozkładu o nieznanej wartości oczekiwanej dla próby o dużej liczności.
20. Wyjaśnij pojęcie i podaj wzór na estymator jądrowym funkcji gęstości f(x).
– 17 –