Wykład 7 Rozkłady wielowymiarowe c.d. Wstęp do statystyki Wektor

Transkrypt

Wykład 7 Rozkłady wielowymiarowe c.d. Wstęp do statystyki Wektor
Wykład 7
Rozkłady wielowymiarowe c.d.
Wstęp do statystyki
Wektor losowy
Załóżmy, że dany jest wektor (X, Y ) i jego rozkład
Y \X 0
1
2
−1
0, 2 0, 1 0, 1
1
0, 1 0, 3 0, 2
Kowariancja
Miarą zależności zmiennych jest ich kowariancja
cov(X, Y ) = E(XY ) − E(X)E(Y ).
• Wiemy już, jak obliczyć E(X) i E(Y ).
• Znając rozkład wektora (X, Y ) (czyli wartości w tabelce), możemy obliczyć E(XY ):
•
E(XY ) =
X
xi yj pij .
i,j
• W naszym zadaniu E(XY ) =
= 0 + 1 · (−1) · 0, 1 + 2 · (−1) · 0, 1 + 0 + 1 · 1 · 0, 3 + 1 · 2 · 0, 2 = 0, 4,
skąd cov(X, Y ) = 0, 4 − 1 · 0, 2 = 0, 2.
Kowariancja zmiennych niezależnych
(X,Y )
(X)
(Y )
Gdy X i Y są niezależne, to pij
= pi · pj i wtedy
E(XY ) =
X
(X,Y )
xi yj pij
=
X
i,j
=
X
(X)
xi yj pi
(Y )
· pj
=
i,j
(X)
xi pi
·
i
X
(Y )
y j pj
= E(X)E(Y ).
j
Kowariancja zmiennych niezależnych
(X,Y )
(X)
(Y )
Gdy X i Y są niezależne, to pij
= pi · pj i wtedy
E(XY ) =
X
(X,Y )
xi yj pij
=
X
i,j
=
X
i
(X)
xi yj pi
(Y )
· pj
i,j
(X)
xi pi
·
X
(Y )
y j pj
= E(X)E(Y ).
j
Wniosek: Gdy X i Y są niezależne, to
cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0.
1
=
Współczynnik korelacji
Ponieważ kowariancja może być bardzo duża, więc normuje się ją, dzieląc przez pierwiastek z iloczynu
wariancji:
ρXY = p
E(XY ) − E(X)E(Y )
cov(X, Y )
= p
.
V ar(X)V ar(Y )
V ar(X)V ar(Y )
W naszym zadaniu
ρXY = ...
• Współczynnik korelacji jest zawarty pomiędzy −1 i 1: |ρxy | ¬ 1.
• Gdy ρXY = ±1, to zmienne są bardzo silnie zależne:
• albo Y = aX + b albo X = AY + B.
• Gdy zmienne X i Y są niezależne, to cov(X, Y ) = 0,
• ale nie na odwrót!
Rozkłady warunkowe
Gdy rozkład wektora (X, Y ) zadany jest za pomocą tabelki, to łatwo możemy obliczyć rozkłady warunkowe. Na przykład, rozkład warunkowy zmiennej X pod warunkiem Y = 1:
•
P (X = 0 | Y = 1) =
0, 1
1
P (X = 0, Y = 1)
=
= ,
P (Y = 1)
0, 6
6
P (X = 1 | Y = 1) =
0, 3
3
P (X = 1, Y = 1)
=
= ,
P (Y = 1)
0, 6
6
P (X = 2 | Y = 1) =
0, 2
2
P (X = 2, Y = 1)
=
= .
P (Y = 1)
0, 6
6
•
•
Warunkowa wartość oczekiwana
Wartość oczekiwana rozkładu warunkowego nazywa się warunkową wartością oczekiwaną.
• W naszym zadaniu
•
E(X | Y = 1) = 0 · P (X = 0 | Y = 1)+
+1 · P (X = 1 | Y = 1) + 2 · P (X = 2 | Y = 1) =
2 4
+ = 1.
6 6
=
Gdy rozkład (X, Y ) jest ciągły
Określimy teraz wszystkie wprowadzone pojęcia w przypadku, gdy rozkład wektora (X, Y ) ma gęstość, to
znaczy, gdy istnieje taka funkcja dwóch zmiennych f (x, y), dla której
• f (x, y) ­ 0
•
Z
Z
f (x, y) dx dy = 1.
R2
• Wtedy
P ((X, Y ) ∈ A) =
Z Z
f (x, y) dx dy.
A
2
Rozkłady brzegowe
Aby obliczyć rozkład zmiennej X w przypadku, gdy (X, Y ) zadany był tabelką, należało posumować kolumny. Gdy rozkład wektora (X, Y ) zadany jest funkcją f (x, y), to zamiast dodawania stosujemy całkowanie:
• zmienna losowa X ma rozkład o gęstości
•
Z ∞
fX (x) =
f (x, y) dy,
−∞
• a zmienna losowa Y ma rozkład o gęstości
•
Z ∞
fY (y) =
f (x, y) dx.
−∞
Konkretny przykład
Niech wektor (X, Y ) ma rozkład jednostajny na kółku {(x, y) : x2 +y 2 < 1}, to znaczy ma rozkład o gęstości
(
f (x, y) =
1
π,
gdy x2 + y 2 < 1
gdy x2 + y 2 ­ 1
0,
Wtedy
•
Z ∞
fX (x) =
f (x, y) dy = ...
−∞
• Dla |x| ­ 1 mamy f (x, y) = 0, więc fX (x) = 0.
• Dla |x| < 1 ta całka mierzy długość odcinka wyciętego z prostej {(x, y) : x ustalone} przez koło, skąd
fX (x) =
2p
1 − x2 .
π
Rozkład brzegowy zmiennej Y
Zauważmy, że nie musimy liczyć oddzielnie rozkładu zmiennej Y , bo f (x, y) jest funkcją symetryczną, to
znaczy po zamianie ról x i y ta funkcja się nie zmienia. Zatem w funkcji fX (x) trzeba tylko zmienić X na
Y oraz x na y:
(
fY (y) =
0,p
2
π
1−
y2,
gdy |y| ­ 1,
gdy |y| < 1,
E(X) i V ar(X)
Mając funkcję fX (x), gęstość rozkładu zmiennej X, możemy obliczyć wartość oczekiwaną i wariancję:
•
Z 1
E(X) =
x·
−1
•
Z 1
V ar(X) =
2p
1 − x2 dx = 0
π
x2 ·
−1
2p
1 − x2 dx = ...
π
• Dla zmiennej Y oba wyniki są oczywiście takie same, jak dla X.
3
Niezależność
Zmienne X i Y są niezależne wtedy i tylko wtedy, gdy gęstość rozkładu łącznego jest iloczynem
gęstości brzegowych, tzn. dla wszystkich x, y ∈ R zachodzi równość
f (x, y) = fX (x) · fY (y).
• A jak jest w rozważanym przypadku?
• Weźmy taki punkt (x, y) aby x2 + y 2 < 1. Wtedy |x| < 1 oraz |y| < 1 i
q
1
4p
6= 2 1 − x2 1 − y 2
π
π
• Te zmienne są zależne.
• A jaka jest ich kowariancja?
Kowariancja dla rozkładu z gęstością
Wzór definiujący jest oczywiście taki, jak w przypadku rozkładów zadanych tabelką, tzn.
cov(X, Y ) = E(XY ) − E(X)E(Y ).
•
Z
Z
E(XY ) =
x y f (x, y) dx dy.
R2
• W naszym zadaniu
•
Z
Z
E(XY ) =
{x2 +y 2 <1}
xy
dx dy = 0,
π
• zatem cov(X, Y ) = 0 − 0 · 0 = 0.
• Mamy tu przykład zmiennych zależnych o kowariancji zero.
Rozkłady warunkowe
Podobnie jak w przypadku rozkładów zadanych tabelką możemy obliczać rozkłady warunkowe:
•
f (x | Y = y) =
f (x, y)
,
fY (y)
f (y | X = x) =
f (x, y)
,
fX (x)
•
• gdy mianownik jest różny od zera.
• Gdy mianownik jest równy zero, to kładziemy f (x | Y = y) = 0.
Zadanie
Niech wektor losowy (X, Y ) ma rozkład o gęstości
(
f (x, y) =
36xye−(x
0,
2 +y 2 )
,
Obliczyć:
4
gdy x > 0, y > 0,
gdy x ¬ 0 lub y ¬ 0.
• P (0 < X < 2, 1 < Y < 4),
• E(X), E(Y ),
• V ar(X), V ar(Y ).
• Czy X i Y są niezależne?
Czym jest statystyka?
• Nauka rozumienia danych i podejmowania decyzji w obliczu losowości.
• Zbiór metod do planowania eksperymentu i analizy danych tak, aby uzyskać maksimum informacji i
ilościową ocenę ich wiarygodności.
Przykład
Pewne badania dotyczą wpływu aktywności fizycznej na poziom cholesterolu. Jedna grupa ćwiczy, druga
nie. Pytanie: Czy poziom cholesterolu jest niższy u osób, które ćwiczą ?
Czynniki mogące wpłynąć na wynik eksperymentu:
• Ludzie mają naturalnie różne poziomy cholesterolu.
• Reagują różnie na ten sam reżim ćwiczeń.
• Różny stopień zaangażowania w realizację ćwiczeń.
• Wpływ diety.
• Ćwiczenia mogą wpływać na inne czynniki, np. apetyt.
Jak interpretować dane?
Większość wypadków samochodowych zdarza się, gdy samochód porusza się z prędkością pomiędzy 50 km/h
a 100 km/h.
• Czy w takim razie bezpieczniej jest jeździć
• z prędkością powyżej 100 km/h?
• A może powyżej 300 km/h?
Wyciągnij wniosek!
Przed II wojną światową gruźlica procentowo najwięcej zgonów powodowała w Zakopanem.
• Czy zatem było tam najbardziej niezdrowe powietrze?
• Wprost przeciwnie: było najlepsze do leczenia tej choroby!
• Wybór Roosevelta na prezydenta USA.
• „How to lie with statistics”
• A może warto nauczyć się logicznego wyciągania wniosków?
5
Dlaczego uczą się dobrze?
Przepowadzono ankietę wśród studentów II roku pewnego wydziału i okazało się, że szczególnie dobre
wyniki w nauce na I roku osiągnęły osoby, które dojeżdżały daleko do szkoły średniej (ponad godzinę w
jedną stronę).
Wniosek: ???
Wino a choroby serca
Oto roczne spożycie wina (w litrach czystego alkoholu pochodzącego z wina na osobę) oraz liczba zgonów
w ciagu roku spowodowanych atakiem serca (na 100 000 osób) w kilku wybranych krajach:
• Australia
2,5
211
• Austra
3,9
167
• Finlandia
0,9
297
• Francja
9,1
71
• Hiszpania
6,5
86
• Niemcy
2,7
172
• USA
1,2
199
• Czy picie wina wpływa na zmniejszenie ryzyka ataku serca?
Reakcja owiec na bakterie wąglika
Reakcja
Śmierć
Przeżycie
Procent
Zaszczepione
0
24
100%
Nie zaszczepione
24
0
0%
Przykład
• W artykule prasowym czytamy, że 80% pieszych będących ofiarami nocnych wypadków samochodowych nosiło ciemne ubrania, a 20% jasne ubrania. Wyciągnięto wniosek, że w nocy bezpiecznie jest
nosić jasne ubrania.
• Czy przeprowadzone badania upoważniają do takiej konkluzji?
• 80% wobec 20% — czy taka różnica jest znacząca?
• Jakie byłyby wyniki, gdyby wszyscy nosili ciemne ubrania?
• Przy jakiej różnicy można wyciągać prawidłowe wnioski?
• Jak duża musi być próba, abyśmy w oparciu o nią mogli dowieść wpływu czynnika na wynik eksperymentu?
Rodzaje danych
• Jakościowe: Porządkowe
Nie porządkowe
6
• Ilościowe: Ciągłe
Dyskretne
Zmienne jakościowe (kategoryczne)
Jakościowe – kwalifikujące do kategorii
• Porządkowe, np. wybory w ankiecie: nigdy, rzadko, czasami, często, zawsze.
• Nie porządkowe, np. kolory (przy badaniu dziedziczenia koloru oczu).
Zmienne ilościowe (liczbowe)
Ilościowe – wynik jest liczbą.
• Ciągłe, np. wzrost, waga, stężenie.
• Dyskretne, np. liczba wadliwych elementów, liczba wypadków.
Oznaczenia
• Zmienne: X, Y, Z ; np. Y =wzrost (pojęcie)
• Obserwacje: x, y, z; np. y=182cm (wynik)
• Próba: y1 , y2 , ..., yn (wielokrotne obserwacje)
• Rozmiar próby: n, czasem n1 , n2 , itp.
Próba a próbka
Biolog mierzy poziom glukozy we krwi 20 ludzi.
• „20 próbek krwi” (biolog)
• „Jedna próba 20 pomiarów glukozy” (statystyk)
• Będziemy używali terminu „pomiar” tam, gdzie biolog użyłby słowa „próba”.
Histogram liczebności
Przypuśćmy, że zbadano dochód roczny wylosowanych 20 gospodarstw domowych i uzyskano następujące
dane (zarobki brutto w tysiacach zł):
35,5; 58,3; 127,2; 84,3; 46,8; 29,9; 41,7; 83,1; 38,2; 91,3;
44,8; 62,1; 25,0; 34,8; 19,5; 29,8; 73,2; 36,6; 41,1; 27,3;
• Narysować histogram.
• Jakie są max i min?
• Jaki jest rozstęp?
• Jakie dobrać przedziały i ile ich wziąć?
Histogram liczebności
• Grupowanie podobnych obserwacji zwykle jest pomocne.
• Prawie zawsze postępujemy tak z danymi ciągłymi.
7
• Definiujemy „klasy” (przedziały) obserwacji i zliczamy liczbę obserwacji wpadających do każdej klasy.
Jak wybierać klasy?
• Każda obserwacja musi wpadać do dokładnie jednej klasy (klasy rozłączne, pokrywają wszystkie możliwe wyniki).
• Rozmiar (szerokość) klas (przedziałów) jest zwykle taki sam.
• Używamy wygodnych granic przedziałów, np. 20-29, a nie 19,82 – 29,26.
• Używamy od 5 do 15 klas dla umiarkowanych zbiorów danych (n < 50); więcej, gdy próba jest duża.
Opis histogramu
• Symetryczny / asymetryczny.
• W kształcie dzwonu (normalny) / ciężkie ogony (spłaszczony).
• Skośny na prawo lub lewo.
• Jednomodalny (jeden główny wierzchołek).
• Dwumodalny (dwa główne wierzchołki).
• Wykładniczy (malejący)
• Rozrzut (duży lub mały)
Statystyka
Statystyka to liczbowa charakterystyka danych.
Na przykład z próby y1 = 24, y2 = 35, y3 = 26, y4 = 36 można obliczyć wartości statystyk:
• min=24, max=36,
• rozstęp= 36 − 24 = 12,
121
1
= 30, 25.
• y = (24 + 35 + 26 + 36) =
4
4
Średnia z próby
• Symbol y oznacza liczbę — arytmetyczną średnią z obserwacji.
• Symbol Y oznacza pojęcie średniej z próby.
• Średnia jest „środkiem ciężkości” zbioru danych.
Średnia a mediana
• Mediana dzieli powierzchnię histogramu na połowy.
• Jest odporna – nie mają na nią wpływu obserwacje „odstające”.
• Obserwacje odstające mają duży wpływ na średnią – średnia nie jest odporna.
• Jeżeli histogram jest w przybliżeniu symetryczny, to średnia i mediana są zbliżone.
• Jeżeli histogram jest skośny na prawo, to średnia jest zwykle większa niż mediana.
• Obie te miary położenia są jednakowo ważne.
• Średnia jest częściej wykorzystywana do testowania i estymacji (o czym później).
8