Rachunek prawdopodobieństwa

Transkrypt

Rachunek prawdopodobieństwa
Rachunek prawdopodobieństwa
Ćwiczenia 11
Definicja 1. Prostą próbą losową (lub krócej próbą losową) o liczności n nazywamy ciąg niezależnych
zmiennych losowych X1 , X2 , . . . , Xn określonych na przestrzeni zdarzeń elementarnych Ω i takich, że
każda ze zmiennych ma taki sam rozkład.
Uwaga 1. Konkretny ciąg wartości x1 , x2 , ..., xn (prostej) próby losowej X1 , X2 , . . . , Xn nazywamy
realizacją (prostej) próby losowej lub próbką.
Definicja 2. Statystyką nazywamy każdą zmienną losową będącą ustaloną funkcją próby losowej
X1 , X2 , . . . , Xn .
Uwaga 2. Statystyką jest więc, na przykład, najmniejsza, największa wartość w próbie, iloczyn lub
suma kwadratów wszystkich wartości. Oczywiście, wybór konkretnej statystyki związany jest z nieznaną wielkością (parametrem) charakteryzującą populację, którą chcemy szacować.
Statystykę
n
X1 + X2 + . . . + Xn
1X
X̄ =
Xi
=
n
n i=1
nazywamy średnią z próby losowej X1 , X2 , . . . , Xn .
Twierdzenie 1 (prawo wielkich liczb). Niech X1 , X2 , . . . , Xn będzie prostą próbą losową z rozkładu
zmiennej losowej X o wartości średniej m i skończonej wariancji σ 2 . Wówczas dla dowolnie małej
liczby ε > 0
P (X̄ ∈ [m − ε, m + ε]) → 1 przy n → ∞
Z prawa wielkich liczb wynika, że średnia z prostej próby losowej jest dobrym oszacowaniem
średniej teoretycznej (średniej rozkładu cechy populacji) w tym sensie, że dla dużych n rzadko mylimy
się o więcej niż o ε przy ocenianiu m przy pomocy X̄, gdzie ε jest ustaloną z góry, ale dowolną liczbą
dodatnią. Tak więc jeśli chcemy szacować średnią m, sensownym postępowaniem wydaje się wybór
dużej próby i obliczenie na jej podstawie średniej próbkowej. Poniższe stwierdzenie pozwala ocenić
dokładność tego oszacowania w sytuacji, gdy badana cecha ma rozkład normalny.
Twierdzenie 2. Niech X1 , X2 , . . . , Xn będzie prostą próbą losową z rozkładu zmiennej losowej X o
średniej m i wariancji σ 2 . Wówczas
a) E(X̄) = m, Var(X̄) =
σ2
n
b) Jeżeli X ma rozkład N (m, σ) to
σ
X̄ ∼ N (m, √ )
n
Zadanie 1. Załóżmy, że waga (w kg) losowo wybranego noworodka jest cechą o rozkładzie normalnym o nieznanej wartości średniej m (kg) i odchyleniu standardowym σ = 0, 5 (kg). Obliczymy
prawdopodobieństwo, że średnia waga obliczona z prostej próby losowej o liczności 100 (średnia waga 100 losowo wybranych noworodków) różni się od prawdziwej wartości m o więcej niż 0, 1 (kg).
Podpowiedź. X̄ ∼ N (m, √0.5
) = N (m, 0.05)
100
P (|X̄ − m| > 0.1) =?
1
2
Oznaczenie 1. Dystrybuantę rozkładu normalnego N (0, 1) będziemy oznaczać przez Φ(·).
Teraz omówimy twierdzenie Graniczne, które mówi, że nawet jeśli rozpatrywany rozkład nie jest
normalny, to rozkład średniej na podstawie prostej próby losowej z tego rozkładu będzie coraz bardziej
przypominał rozkład normalny.
Twierdzenie 3 (Centralne Twierdzenie Graniczne (Lindeberga–Lévy’ego)). Niech X1 , X2 , . . . , Xn
będą niezależnymi zmiennymi losowymi o tym samym rozkładzie (prosta próba losowa), wartości
średniej m = EX i wariancji 0 < σ 2 = D2 X < ∞. Wtedy
X1 + X2 + . . . + Xn − nm
√
lim P
< x = Φ(x)
n→∞
σ n
Definicja 3 (Przypomnienie). Zmienna losowa o rozkładzie dwumianowym (binomialnym,
Bernoulliego) opisuje liczbę k sukcesów w ciągu n niezależnych prób, z których każda ma stałe
prawdopodobieństwo sukcesu równe p. Pojedynczy eksperyment nosi nazwę próby Bernoulliego. Rozkład prawdopodobieństwa zmiennej losowej X o rozkładzie Bernoulliego wyraża się wzorem:
!
P (X = k) =
n k
p (1 − p)n−k .
k
Twierdzenie 4 (Centralne Twierdzenie Graniczne (Moivre’a–Laplace’a)). Niech X1 , X2 , . . . , Xn będą niezależnymi zmiennymi losowymi o tym samym rozkładzie (prosta próba losowa) takimi że
Sn = X1 + X2 + . . . + Xn ∼ Bin(n, p)
czyli rozkład dwumianowy z parametrami n, p, 1 − p. Wtedy
!
lim P
n→∞
X1 + X2 + . . . + Xn − np
p
<x
np(1 − p)
= Φ(x)
Zadanie 2. Prawdopodobieństwo urodzenia chłopca wynosi 0.517. Jakie jest prawdopodobieństwo,
że wśród n = 10000 noworodków, liczba chłopców nie przekroczy liczby dziewczynek?
Podpowiedź. P (
10000
P
i=1
Xi ¬
10000
2 )
=?, (Moivre’a–Laplace’a)
Zadanie 3. Przy opracowywaniu danych statystycznych trzeba było do siebie dodać 10000 liczb
z których każda była dana z dokładnością 10−m . Zakładamy, że błędy zaokrągleń są wzajemnie
niezależne i mają rozkład jednostajny na przedziale (−0.5 · 10−m , 0.5 · 10−m ). Znaleźć przedział
(−a, a), w którym z prawdopodobieństwem większym od 0.98 zawierać się będzie sumaryczny błąd.
Podpowiedź. Wyznaczyć a takie, że P (−a ¬
10000
P
Xi ¬ a) ­ 0.98, (Lindeberga–Lévy’ego)
i=1
Zadanie 4. Prawdopodobieństwo uzyskania wygranej w pewnej grze losowej wynosi 0.1. Obliczyć
prawdopodobieństwo, że spośród 500 grających osób wygra więcej, niż 60 osób.
Zadanie 5. Zmienne losowe X1 , X2 , . . . X100 są niezależne o jednakowym rozkładzie wykładniczym
z parametrem λ = 4. Dla
X=
100
X
Xk
k=1
obliczyć przybliżoną wartość wyrażenia P (X > 30).
Zadanie 6. Zmienne losowe X1 , X2 , . . . X60 są niezależne o rozkładzie na odcinku [1, 3]. Nich
X=
60
X
Xk .
k=1
Obliczyć przybliżoną wartość wyrażenia P (118 < X < 123).
Zadanie 7. Wydział informatyki pragnąłby przyjąć nie więcej niż 130 kandydatów. Zdających jest
400, a szansa zaliczenia testu wynosi 0.3. jakie jest prawdopodobieństwo, że Wydział będzie miał
kłopoty z nadmiarem kandydatów.