2. Zmienna losowa,rozkłady

Transkrypt

2. Zmienna losowa,rozkłady
WIELKA SGH-OWA POWTÓRKA ZE
STATYSTYKI
Zmienna losowa i jej rozkład
ZMIENNA LOSOWA
Funkcja X przyporządkowująca każdemu zdarzeniu elementarnemu
jedną i tylko jedną liczbę x.
zmienna losowa
skokowa
skończona lub
nieskończona, ale
przeliczalna liczba wartości
np. liczba studentów na wykładzie
ciągła
wartości należą do przedziału ze zbioru
liczb rzeczywistych
np. zużycie paliwa w samochodzie
Rozkład (prawdopodobieństwa) zmiennej losowej skokowej
Jest to sposób rozdysponowania całej “masy” prawdopodobieństwa pomiędzy
wartości, jakie przyjmuje dana zmienna losowa.
np. Mamy zmienną losową przyjmującą wartości 0, 1, 2, 3 z odpowiednim
prawdopodobieństwem.
Xi
0
1
2
3
pi
0,42
0,4
0,15
0,03
Rozkład zmiennej losowej skokowej
Funkcja prawdopodobieństwa:
P (X= xi) = pi
Funkcją prawdopodobieństwa są tutaj punkty!
Rozkład zmiennej losowej ciągłej
funkcja f(x) określona na zbiorze liczb rzeczywistych o
następujących własnościach:
f(x) ≥ 0
dla dowolnych a< b
Czyli jest to nic innego, jak
obliczanie pola 
Obliczając, otrzymujemy
prawdopodobieństwo, z
jakim możliwe jest
uzyskanie wyniku z
przedziału od a do b.
P(a<X≤b) = P(X<b) – P(X≤a) = F(b) – F(a)
Całe pole (zakreskowany obszar) pod funkcją gęstości
wynosi zawsze 1.
Prawdopodobieństwo nie może przecież
być większe od 1!
A co w przypadku kiedy mamy policzyć P(x=a)?
P(X=a) = P(a<X≤a) =
𝑎
𝑓
𝑎
𝑥 𝑑𝑥 = 0
Policzenie „pola punktu”
nie jest możliwe!
Parametry rozkładu jednej zmiennej losowej
• wartość oczekiwana zmiennej losowej
• wariancja zmiennej losowej
Wartość oczekiwana zmiennej losowej X
pi funkcja prawdopodobieństwa
f(x) - funkcja gęstości
● wartość przeciętna, średnia - oznacza
przeciętną wartość przyjmowaną przez zmienną
losową
Własności wartości oczekiwanej:
1. E(b)= b
2. E(X)= E[(aX)k] = ak E(Xk)
3. E(aX) = aE(X)
4. E(aX +b) = aE(X) + b
Wariancja zmiennej losowej X
dla zmiennej
losowej skokowej
2
dla zmiennej
losowej ciągłej
określa stopień rozrzutu - (zróżnicowania )2 wartości zmiennej losowej wokół
wartości oczekiwanej
odchylenie standardowe - pierwiastek z wariancji
D(X) = 𝑫𝟐 (𝑿)
Własności wariancji:
1. D2(b) = 0
2. D2(X+b)= D2(X)
3. D2(aX) = a2D2(X)
Wybrane typy rozkładów
Rozkład zero-jedynkowy
podstawą do określenia rozkładu zero-jedynkowego jest
doświadczenie, którego rezultatem mogą być dwa
wzajemnie wykluczające się zdarzenia losowe:
A i zdarzenie przeciwne do A
zmienna przyjmuje wartość 1 z prawdopodobieństwem:
0<p<1 oraz wartość 0 z prawdopodobieństwem q= 1-p
np. Rzut monetą – wypadnie orzeł lub reszka.
Dystrybuanta, wartość oczekiwana, wariancja
E (X) = 0 (1-p) + 1p=p
D2(X) = (0- p)2(1-p) + (1-p)2 p = p(1-p)
Rozkład dwumianowy
n-krotne powtarzanie niezależnych doświadczeń
(rezultatem pojedynczego doświadczenia może być
zdarzenie A z prawdopodobieństwem p lub zdarzenie
przeciwne z prawdopodobieństwem q=1-p)
k - liczba sukcesów, jaką zaobserwujemy w wyniku nkrotnego powtórzenia doświadczenia, k=0,1,2,...,n
Zmienna losowa ma rozkład dwumianowy, jeżeli przyjmuje
wartości k=0,1,2,...,n z prawdopodobieństwami określonymi
wzorem:
dla k= 0,1,2,...,n
Liczbę doświadczeń n oraz prawdopodobieństwo
sukcesu p nazywamy parametrami tego rozkładu
Parametry w rozkładzie dwumianowym
Rozkład prawdopodobieństwa częstości względnej
pojawiania się sukcesu
Wartość oczekiwana i wariancja częstości względnej
Przykład 1.
Na egzaminie z Podstaw Prawa student otrzymuje 10 pytań z 3
odpowiedziami a, b, c. Tylko jedna odpowiedź jest poprawna. Do
zdania egzaminu wystarczy 6 poprawnych odpowiedzi.
a) Oblicz prawdopodobieństwo zdania egzaminu przy założeniu, że
student wszędzie będzie strzelał.
Czyli musimy zaznaczyć przynajmniej 6 poprawnych odpowiedzi w
10 zadaniach przy prawdopodobieństwie „trafienia” dobrej = 1/3.
k=6
n = 10
p = 1/3
Przykład 1.
a) Korzystamy ze schematu Bernoulliego.
P(X≥ 6) = ? – Czyli musimy obliczyć prawdopodobieństwa
uzyskania 6, 7, 8 ,9 lub 10 poprawnych odpowiedzi.
_
1
1
10!
1
2
10
P(6) =( ) x ( )6 x (1 - )10 6 =
× ( )6 x ( )4 = 0,0569
3
3
6!× 10 −6 !
3
3
6
P(7) = 0,01626
P(8) = 0,003
P(9) = 0,000339
P(10) = 0,0000169
Przykład 1.
a) Teraz musimy zsumować prawdopodobieństwa uzyskania 6, 7,
8, 9 i 10 poprawnych odpowiedzi.
P(X≥ 6) = 0,0569 + 0,01626 + 0,003 + 0,000339 + 0,0000169 ≈
0,0765
Odp: Prawdopodobieństwo zdania egzaminu z Podstaw Prawa przy
strzelaniu wynosi 7,65%.
Przykład 1.
b) Jaka jest oczekiwana liczba dobrych odpowiedzi?
E(X) =
𝑥𝑖 × 𝑝𝑖 = np = 10 x
1
3
=3
𝟏
𝟑
Odp. Wartość oczekiwana dobrych odpowiedzi wynosi
1
3
3
c) Wyznacz i zinterpretuj odchylenie standardowe
D2(X) = np(1-p) = 10 ×
D(X) =
20
9
1
3
1
3
× (1 − ) =
20
9
≈ 1,49
Int. Liczba dobrych odpowiedzi różniła się od wartości oczekiwanej przeciętnie o 1,49.
Rozkład normalny - rozkład Gaussa
Zmienna losowa X ma rozkład normalny o parametrach m i σ
- w skrócie X: N(m; σ), jeśli jej funkcja gęstości ma
następującą postać:
funkcja gęstości rozkładu normalnego
Własności krzywej gęstości rozkładu normalnego
1. Symetryczna względem prostej x=m
2. Osiąga maksimum =
3. 𝑚 = 𝑑𝑜 = 𝑚𝑒
Od wartości parametru σ zależy “smukłość” krzywej
Im wyższe σ tym bardziej płaska krzywa.
Przykład 2.
Tygodniowe obroty (w tys. zł) pewnego sklepu mają rozkład
N(150;10).
a) Ile wynosi prawdopodobieństwo, że w losowo wybranym tygodniu
obroty osiągną wartość dokładnie 150 tys. zł?
P(X=150) = 0
b) Ile wynosi prawdopodobieństwo tego, że w losowo wybranym
tygodniu obroty wyniosą mniej, niż wynosi wartość dominująca w
tym rozkładzie.
P(X≤ 150) =
𝟏
𝟐
E(X) = m
D2(X) = σ2
m- średnia zmiennej losowej X w rozkładzie normalnym
σ - odchylenie standardowe
Standardowy rozkład normalny
Rozkład normalny ze średnią m=0 oraz odchyleniem
standardowym σ=1 nazywamy standardowym rozkładem
normalnym i oznaczamy N(0,1)
funkcja gęstości rozkładu N(0,1)
Standaryzacja( normowanie) zmiennej losowej X
Przy obliczaniu prawdopodobieństw: P(a< X ≤ b) dla
zmiennej losowej X o rozkładzie z parametrami m i σ
Przydatne właściwości przy standaryzacji:
1. P(U ≤ a) = Փ(a)
2. P(U ≥ a) = 1 – P(U ≤ a) = 1 - Փ(a)
3. P(a < U < b) = Փ(b) - Փ(a)
Przydatne właściwości przy dystrybuancie:
1. Փ(-a) = 1 – Փ(a)
Reguła trzech sigm (tylko rozkład normalny)
około 68,3% obserwacji mieści się w granicach jednego odchylenia
standardowego
około 95,5% obserwacji mieści się w granicach dwóch odchyleń standardowych
około 99,7% obserwacji mieści się w granicach trzech odchyleń standardowych
Niemal wszystkie obserwacje
dokonywane na zmiennej losowej o
rozkładzie normalnym mieszczą się
w przedziale [m-3σ; m+3σ]
Reguła trzech sigm – dowód
P(𝑚 - 𝜎 < X < 𝑚 + σ) =P(
P
−𝜎
(
𝜎
<U<
𝜎
)
𝜎
𝑚−𝜎−𝑚
𝑚+𝜎−𝑚
<U<
)
𝜎
𝜎
=
= P(-1 < U < 1) = Փ(1) – Փ(-1) =
= Փ(1) – (1 – Փ(1))= 2 x Փ(1) – 1 =
= 2 x (0,8413) – 1 = 0,6826
Int. Oznacza to, że około 68,3% obserwacji
znajduje się w granicach jednego odchylenia
standardowego.
Analogicznie przeprowadzamy dowód dla dwóch
i trzech sigm.
PRZYKŁADOWE ZADANIA
Zadanie 1.
Zmienna losowa X przyjmuje wartości: 10, 20, 30, 40
odpowiednio z prawdopodobieństwem: 0,1; 0,2; 0,2; 0,5.
a) Obliczyć wartość oczekiwaną i wariancję zmiennej
c) Ile wynosi dominanta w tym rozkładzie?
Zadanie 1 ppkt. a)
• Wartość oczekiwana E(X) = ?
E(X) = 𝑥𝑖 × 𝑝𝑖 = 10 x 0,1 + 20 x 0,2 + 30 x 0,2 + 40 x 0,5 = 31
• Wariancja D2(X) = ?
D2(X) =Σ (𝑥𝑖 − 𝐸 𝑋 )2 × 𝑝𝑖 = E(X2) – (E(X))2
Zadanie 1. ppkt. a)
• Wariancja D2(X) = ?
D2(X) =Σ (𝑥𝑖 − 𝐸 𝑋 )2 × 𝑝𝑖 = E(X2) – (E(X))2
D2(X) = (10 – 31)2 x 0,1 + (20 – 31)2 x 0,2 + (30 – 31)2 x 0,2 +
(40 – 31)2 x 0,5 = 44,1 + 24,2 + 0,2 + 40,5 = 109
D2(X) = E(X2) – (E(X))2 = …
E(X2) =
𝑥𝑖2 × 𝑝𝑖
Zadanie 1. ppkt. a) i c)
Xi
10
20
30
40
pi
0,1
0,2
0,2
0,5
D2(X) = E(X2) – (E(X))2 = …
E(X2) =
𝑥𝑖2 × 𝑝𝑖
E(X2) = 102 × 0,1 + 202 × 0,2 + 302 × 0,2 + 402 × 0,5 = 1070
D2(X) = E(X2) – (E(X))2 = 1070 – 312 = 1070 – 961 = 109
Zadanie 1. ppkt. a) i c)
Odpowiedź do ppkt. a)
Wartość oczekiwana E(X) wynosi 31, natomiast wariancja
D2(X) wynosi 109.
c) Ile wynosi dominanta?
Dominanta, czyli najczęściej występująca wartość wynosi 40,
ponieważ prawdopodobieństwo uzyskania zmiennej losowej
X4 wynosi 0,5 i jest najwyższe ze wszystkich możliwych.
Zadanie 2.
Trener piłkarzy szacuje, że w przypadku wykonywania rzutu
karnego przez jego podopiecznych prawdopodobieństwo strzelenia
gola przez każdego z nich wynosi 0,8, obronienia strzału przez
bramkarza – 0,1, natomiast nietrafienia przez strzelającego w
światło bramki – także 0,1.
Piłkarz dostaje 10 PLN za strzelonego gola z karnego, ale płaci karę
8 PLN, jeżeli bramkarz obroni, a także płaci 30 PLN, jeżeli nie trafi
w bramkę. Bramkarz natomiast dostaje 50 PLN za obroniony strzał
lub płaci 1 PLN za gola.
Strzał poza bramkę nie przynosi ani nagrody,
ani straty dla bramkarza.
Zadanie 2.
a) Podać dwie funkcje prawdopodobieństwa uzyskanych premii
(nagród i kar) na konkursie: dla zawodnika strzelającego (X) i dla
bramkarza (Y)
• Piłkarz (X)
Xi
10
-8
- 30
Pi
0,8
0,1
0,1
• Bramkarz (Y)
Yi
-1
50
0
Pi
0,8
0,1
0,1
Zadanie 2.
b) Wiedząc, że te grę finansują rodzice młodych piłkarzy,
odpowiedzieć, czy na dłuższą metę jest ona bardziej „kosztowna”
dla rodziców dzieci grających w polu czy dla rodziców bramkarzy.
• Piłkarz (X)
E(X) = 𝑥𝑖 × 𝑝𝑖 = 10 x 0,8 + (-8) x 0,1 + (-30) x 0,1 = 4,2
• Bramkarz (Y)
E(Y) = 𝑦𝑖 × 𝑝𝑖 = (-1) x 0,8 + 50 x 0,1 + 0 x 0,1 = 4,2
Odp: Gra jest równie kosztowna dla rodziców
piłkarzy z pola i bramkarzy.
Zadanie 2.
c) Czy zróżnicowanie rozkładu premii finansowej zawodników grających w
polu i na bramce jest identyczne?
• Piłkarz (X)
D2(X) = Σ (𝑥𝑖 − 𝐸 𝑋 )2 × 𝑝𝑖 = (10 – 4,2)2 x 0,8 + ((-8) – 4,2)2 x 0,1 +
((-30) – 4,2)2 x 0,1 = 158,76
ALE! Musimy obliczyć odchylenie standardowe! D(X) = 𝟏𝟓𝟖, 𝟕𝟔 = 𝟏𝟐, 𝟔
• Bramkarz (Y)
D2(Y) = Σ (𝑦𝑖 − 𝐸 𝑌 )2 × 𝑝𝑖 = (50 – 4,2)2 x 0,1 + (-1 – 4,2)2 x 0,8
+ (0 – 4,2)2 x 0,1 = 233,16
D(Y) = 233,16 = 𝟏𝟓, 𝟐𝟕
Odp.: Zróżnicowanie rozkładu premii finansowej nie jest identyczne.
Zadanie 3.
Poziom cholesterolu we krwi dorosłej osoby jest zmienną losową o
rozkładzie N(200,30).
a) Jaki odsetek ludzi ma poziom cholesterolu nieprzekraczający
185?
P(X ≤ 185) = P ( U ≤
1
2
𝑥 −𝑚
)
𝜎
= P(U≤
185−200
)
30
= 1 - Փ( ) = 1 – 0,6915 = 0,3085 = 30,85%.
Odp: 30,85% ludzi ma poziom cholesterolu
nieprzekraczający 185.
1
2
1
2
= P(U≤ - ) = Փ(- )
Zadanie 3.
b) Jaka jest granica poziomu cholesterolu, powyżej którego znajduje
się 15% osób o najwyższym jego poziomie? Jak w statystyce
nazywa się ta miara?
m=200
𝜎 = 30
a – poziom cholesterolu
P(X≥a) = 0,15
P(X≤a) = 1 - 0,15 = 0,85
𝑎−𝑚
P(U≤ 𝜎 ) = 0,85
𝑎−𝑚
𝜎
= 1,04
a = 1,04 x 𝜎 + m a = 231,2
Odp.: 15% osób ma poziom cholesterolu
powyżej 231,2.
W statystyce ta miara nazywa
się kwantylem rzędu 85.
Zadanie 4.
Średnice zwierciadeł w teleskopach produkowanych przez firmę
Skywatcher są zmiennymi losowymi o rozkładzie N(15cm; 0,05cm).
a) Jaki procent zwierciadeł ma średnicę większą niż 14,9cm?
P(X>14,9) = P(U >
𝑥−𝑚
)
𝜎
= P(U >
14,9−15
)
0,05
= P(U >
−0,1
)
0,05
= P(U> -2) =
= 1 – P (U≤ −2) = 1 − Փ(-2) = 1 – (1 – Փ(2)) = Փ(2) = 0,97725.
Odp.: 97,72% zwierciadeł ma
średnicę większą niż 14,9 cm.
Zadanie 4.
b) Jakie jest prawdopodobieństwo kupienia teleskopu ze
zwierciadłem o średnicy równej 15cm z dokładnością do 0,001 cm?
P(15-0,001 < X < 15+0,001) = P(14,999<X<15,001) =
14,999 −15
15,001 −15
−0,001
0,001
= P(
<U<
) = P(
<U<
) = P(-0,02<U<0,02) =
0,05
0,05
0,05
0,05
= Փ(0,02) - Փ (-0,02) = Փ(0,02) – (1 – Փ(0,02)) = 2 x Փ(0,02) – 1 = 2 x
0,5080 – 1 = 1,016 – 1 = 0,016.
Odp.: Prawdopodobieństwo kupienia teleskopu
ze zwierciadłem o średnicy 15cm
z dokładnością do 0,001cm wynosi 1,6%.
Zadanie 5*.
Maszyna produkuje tulejki, których długość (w mm) ma rozkład
N(25,1).
a) Jaką wartość osiąga funkcja gęstości prawdopodobieństwa tej
zmiennej losowej dla x=25?
f(x) =
1
1× 2𝜋
× 𝑒−
25−25
2∗1
2
=
1
2𝜋
x e0 = 0,3989
Odp. Funkcja gęstości prawdopodobieństwa tej
zmiennej losowej dla x=25 wynosi 0,3989.
Pytania egzaminacyjne - zmienna losowa
1. Jeżeli zmienna X ma rozkład normalny, to:
a) wszystkie jej wartości znajdują się w przedziale
[m-3σ; m+3σ]
b) mediana zmiennej jest równa jej wartości oczekiwanej
c) wartość oczekiwana zmiennej wynosi 0
Pytania egzaminacyjne - zmienna losowa
1. Jeżeli zmienna X ma rozkład normalny, to:
a) wszystkie jej wartości znajdują się w przedziale
[m-3σ; m+3σ] - NIE
b) mediana zmiennej jest równa jej wartości oczekiwanej –TAK
c) wartość oczekiwana zmiennej wynosi 0 - NIE
Pytania egzaminacyjne - zmienna losowa
2. Wykresy zmiennych losowych X: N(0;1) i Y: N(0;0,5):
a) Różnią się położeniem na osi odciętych
b) Mają wspólną oś symetrii
c) Różnią się kształtem (spłaszczeniem)
Pytania egzaminacyjne - zmienna losowa
2. Wykresy zmiennych losowych
X: N(0;1) i Y: N(0;0,5):
a) Różnią się położeniem na osi odciętych - NIE
b) Mają wspólną oś symetrii - TAK
c) Różnią się kształtem (spłaszczeniem) - TAK
Zadania otwarte zostały zaczerpnięte ze zbioru
„Statystyka. Lubię to!” dr Marii Wieczorek.
2.2; 2.4; 2.17; 2.19.
Pytania zamknięte zostały zaczerpnięte z książeczki
dr Marii Wieczorek, które przygotowują studentów
do egzaminu ze statystyki.
W niektórych zadaniach zostały zmienione dane oraz niektóre zadania zostały wymyślone przez członków SKN Statystyki
.
PYTANIA?
Dziękujemy za uwagę! 
Katarzyna Kajta
Marcin Sapko