Wykład 7 Rozkłady wielowymiarowe c.d. Wstęp do statystyki Wektor
Transkrypt
Wykład 7 Rozkłady wielowymiarowe c.d. Wstęp do statystyki Wektor
Wykład 7 Rozkłady wielowymiarowe c.d. Wstęp do statystyki Wektor losowy Załóżmy, że dany jest wektor (X, Y ) i jego rozkład Y \X 0 1 2 −1 0, 2 0, 1 0, 1 1 0, 1 0, 3 0, 2 Kowariancja Miarą zależności zmiennych jest ich kowariancja cov(X, Y ) = E(XY ) − E(X)E(Y ). • Wiemy już, jak obliczyć E(X) i E(Y ). • Znając rozkład wektora (X, Y ) (czyli wartości w tabelce), możemy obliczyć E(XY ): • E(XY ) = X xi yj pij . i,j • W naszym zadaniu E(XY ) = = 0 + 1 · (−1) · 0, 1 + 2 · (−1) · 0, 1 + 0 + 1 · 1 · 0, 3 + 1 · 2 · 0, 2 = 0, 4, skąd cov(X, Y ) = 0, 4 − 1 · 0, 2 = 0, 2. Kowariancja zmiennych niezależnych (X,Y ) (X) (Y ) Gdy X i Y są niezależne, to pij = pi · pj i wtedy E(XY ) = X (X,Y ) xi yj pij = X i,j = X (X) xi yj pi (Y ) · pj = i,j (X) xi pi · i X (Y ) y j pj = E(X)E(Y ). j Kowariancja zmiennych niezależnych (X,Y ) (X) (Y ) Gdy X i Y są niezależne, to pij = pi · pj i wtedy E(XY ) = X (X,Y ) xi yj pij = X i,j = X i (X) xi yj pi (Y ) · pj i,j (X) xi pi · X (Y ) y j pj = E(X)E(Y ). j Wniosek: Gdy X i Y są niezależne, to cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0. 1 = Współczynnik korelacji Ponieważ kowariancja może być bardzo duża, więc normuje się ją, dzieląc przez pierwiastek z iloczynu wariancji: ρXY = p E(XY ) − E(X)E(Y ) cov(X, Y ) = p . V ar(X)V ar(Y ) V ar(X)V ar(Y ) W naszym zadaniu ρXY = ... • Współczynnik korelacji jest zawarty pomiędzy −1 i 1: |ρxy | ¬ 1. • Gdy ρXY = ±1, to zmienne są bardzo silnie zależne: • albo Y = aX + b albo X = AY + B. • Gdy zmienne X i Y są niezależne, to cov(X, Y ) = 0, • ale nie na odwrót! Rozkłady warunkowe Gdy rozkład wektora (X, Y ) zadany jest za pomocą tabelki, to łatwo możemy obliczyć rozkłady warunkowe. Na przykład, rozkład warunkowy zmiennej X pod warunkiem Y = 1: • P (X = 0 | Y = 1) = 0, 1 1 P (X = 0, Y = 1) = = , P (Y = 1) 0, 6 6 P (X = 1 | Y = 1) = 0, 3 3 P (X = 1, Y = 1) = = , P (Y = 1) 0, 6 6 P (X = 2 | Y = 1) = 0, 2 2 P (X = 2, Y = 1) = = . P (Y = 1) 0, 6 6 • • Warunkowa wartość oczekiwana Wartość oczekiwana rozkładu warunkowego nazywa się warunkową wartością oczekiwaną. • W naszym zadaniu • E(X | Y = 1) = 0 · P (X = 0 | Y = 1)+ +1 · P (X = 1 | Y = 1) + 2 · P (X = 2 | Y = 1) = 2 4 + = 1. 6 6 = Gdy rozkład (X, Y ) jest ciągły Określimy teraz wszystkie wprowadzone pojęcia w przypadku, gdy rozkład wektora (X, Y ) ma gęstość, to znaczy, gdy istnieje taka funkcja dwóch zmiennych f (x, y), dla której • f (x, y) 0 • Z Z f (x, y) dx dy = 1. R2 • Wtedy P ((X, Y ) ∈ A) = Z Z f (x, y) dx dy. A 2 Rozkłady brzegowe Aby obliczyć rozkład zmiennej X w przypadku, gdy (X, Y ) zadany był tabelką, należało posumować kolumny. Gdy rozkład wektora (X, Y ) zadany jest funkcją f (x, y), to zamiast dodawania stosujemy całkowanie: • zmienna losowa X ma rozkład o gęstości • Z ∞ fX (x) = f (x, y) dy, −∞ • a zmienna losowa Y ma rozkład o gęstości • Z ∞ fY (y) = f (x, y) dx. −∞ Konkretny przykład Niech wektor (X, Y ) ma rozkład jednostajny na kółku {(x, y) : x2 +y 2 < 1}, to znaczy ma rozkład o gęstości ( f (x, y) = 1 π, gdy x2 + y 2 < 1 gdy x2 + y 2 1 0, Wtedy • Z ∞ fX (x) = f (x, y) dy = ... −∞ • Dla |x| 1 mamy f (x, y) = 0, więc fX (x) = 0. • Dla |x| < 1 ta całka mierzy długość odcinka wyciętego z prostej {(x, y) : x ustalone} przez koło, skąd fX (x) = 2p 1 − x2 . π Rozkład brzegowy zmiennej Y Zauważmy, że nie musimy liczyć oddzielnie rozkładu zmiennej Y , bo f (x, y) jest funkcją symetryczną, to znaczy po zamianie ról x i y ta funkcja się nie zmienia. Zatem w funkcji fX (x) trzeba tylko zmienić X na Y oraz x na y: ( fY (y) = 0,p 2 π 1− y2, gdy |y| 1, gdy |y| < 1, E(X) i V ar(X) Mając funkcję fX (x), gęstość rozkładu zmiennej X, możemy obliczyć wartość oczekiwaną i wariancję: • Z 1 E(X) = x· −1 • Z 1 V ar(X) = 2p 1 − x2 dx = 0 π x2 · −1 2p 1 − x2 dx = ... π • Dla zmiennej Y oba wyniki są oczywiście takie same, jak dla X. 3 Niezależność Zmienne X i Y są niezależne wtedy i tylko wtedy, gdy gęstość rozkładu łącznego jest iloczynem gęstości brzegowych, tzn. dla wszystkich x, y ∈ R zachodzi równość f (x, y) = fX (x) · fY (y). • A jak jest w rozważanym przypadku? • Weźmy taki punkt (x, y) aby x2 + y 2 < 1. Wtedy |x| < 1 oraz |y| < 1 i q 1 4p 6= 2 1 − x2 1 − y 2 π π • Te zmienne są zależne. • A jaka jest ich kowariancja? Kowariancja dla rozkładu z gęstością Wzór definiujący jest oczywiście taki, jak w przypadku rozkładów zadanych tabelką, tzn. cov(X, Y ) = E(XY ) − E(X)E(Y ). • Z Z E(XY ) = x y f (x, y) dx dy. R2 • W naszym zadaniu • Z Z E(XY ) = {x2 +y 2 <1} xy dx dy = 0, π • zatem cov(X, Y ) = 0 − 0 · 0 = 0. • Mamy tu przykład zmiennych zależnych o kowariancji zero. Rozkłady warunkowe Podobnie jak w przypadku rozkładów zadanych tabelką możemy obliczać rozkłady warunkowe: • f (x | Y = y) = f (x, y) , fY (y) f (y | X = x) = f (x, y) , fX (x) • • gdy mianownik jest różny od zera. • Gdy mianownik jest równy zero, to kładziemy f (x | Y = y) = 0. Zadanie Niech wektor losowy (X, Y ) ma rozkład o gęstości ( f (x, y) = 36xye−(x 0, 2 +y 2 ) , Obliczyć: 4 gdy x > 0, y > 0, gdy x ¬ 0 lub y ¬ 0. • P (0 < X < 2, 1 < Y < 4), • E(X), E(Y ), • V ar(X), V ar(Y ). • Czy X i Y są niezależne? Czym jest statystyka? • Nauka rozumienia danych i podejmowania decyzji w obliczu losowości. • Zbiór metod do planowania eksperymentu i analizy danych tak, aby uzyskać maksimum informacji i ilościową ocenę ich wiarygodności. Przykład Pewne badania dotyczą wpływu aktywności fizycznej na poziom cholesterolu. Jedna grupa ćwiczy, druga nie. Pytanie: Czy poziom cholesterolu jest niższy u osób, które ćwiczą ? Czynniki mogące wpłynąć na wynik eksperymentu: • Ludzie mają naturalnie różne poziomy cholesterolu. • Reagują różnie na ten sam reżim ćwiczeń. • Różny stopień zaangażowania w realizację ćwiczeń. • Wpływ diety. • Ćwiczenia mogą wpływać na inne czynniki, np. apetyt. Jak interpretować dane? Większość wypadków samochodowych zdarza się, gdy samochód porusza się z prędkością pomiędzy 50 km/h a 100 km/h. • Czy w takim razie bezpieczniej jest jeździć • z prędkością powyżej 100 km/h? • A może powyżej 300 km/h? Wyciągnij wniosek! Przed II wojną światową gruźlica procentowo najwięcej zgonów powodowała w Zakopanem. • Czy zatem było tam najbardziej niezdrowe powietrze? • Wprost przeciwnie: było najlepsze do leczenia tej choroby! • Wybór Roosevelta na prezydenta USA. • „How to lie with statistics” • A może warto nauczyć się logicznego wyciągania wniosków? 5 Dlaczego uczą się dobrze? Przepowadzono ankietę wśród studentów II roku pewnego wydziału i okazało się, że szczególnie dobre wyniki w nauce na I roku osiągnęły osoby, które dojeżdżały daleko do szkoły średniej (ponad godzinę w jedną stronę). Wniosek: ??? Wino a choroby serca Oto roczne spożycie wina (w litrach czystego alkoholu pochodzącego z wina na osobę) oraz liczba zgonów w ciagu roku spowodowanych atakiem serca (na 100 000 osób) w kilku wybranych krajach: • Australia 2,5 211 • Austra 3,9 167 • Finlandia 0,9 297 • Francja 9,1 71 • Hiszpania 6,5 86 • Niemcy 2,7 172 • USA 1,2 199 • Czy picie wina wpływa na zmniejszenie ryzyka ataku serca? Reakcja owiec na bakterie wąglika Reakcja Śmierć Przeżycie Procent Zaszczepione 0 24 100% Nie zaszczepione 24 0 0% Przykład • W artykule prasowym czytamy, że 80% pieszych będących ofiarami nocnych wypadków samochodowych nosiło ciemne ubrania, a 20% jasne ubrania. Wyciągnięto wniosek, że w nocy bezpiecznie jest nosić jasne ubrania. • Czy przeprowadzone badania upoważniają do takiej konkluzji? • 80% wobec 20% — czy taka różnica jest znacząca? • Jakie byłyby wyniki, gdyby wszyscy nosili ciemne ubrania? • Przy jakiej różnicy można wyciągać prawidłowe wnioski? • Jak duża musi być próba, abyśmy w oparciu o nią mogli dowieść wpływu czynnika na wynik eksperymentu? Rodzaje danych • Jakościowe: Porządkowe Nie porządkowe 6 • Ilościowe: Ciągłe Dyskretne Zmienne jakościowe (kategoryczne) Jakościowe – kwalifikujące do kategorii • Porządkowe, np. wybory w ankiecie: nigdy, rzadko, czasami, często, zawsze. • Nie porządkowe, np. kolory (przy badaniu dziedziczenia koloru oczu). Zmienne ilościowe (liczbowe) Ilościowe – wynik jest liczbą. • Ciągłe, np. wzrost, waga, stężenie. • Dyskretne, np. liczba wadliwych elementów, liczba wypadków. Oznaczenia • Zmienne: X, Y, Z ; np. Y =wzrost (pojęcie) • Obserwacje: x, y, z; np. y=182cm (wynik) • Próba: y1 , y2 , ..., yn (wielokrotne obserwacje) • Rozmiar próby: n, czasem n1 , n2 , itp. Próba a próbka Biolog mierzy poziom glukozy we krwi 20 ludzi. • „20 próbek krwi” (biolog) • „Jedna próba 20 pomiarów glukozy” (statystyk) • Będziemy używali terminu „pomiar” tam, gdzie biolog użyłby słowa „próba”. Histogram liczebności Przypuśćmy, że zbadano dochód roczny wylosowanych 20 gospodarstw domowych i uzyskano następujące dane (zarobki brutto w tysiacach zł): 35,5; 58,3; 127,2; 84,3; 46,8; 29,9; 41,7; 83,1; 38,2; 91,3; 44,8; 62,1; 25,0; 34,8; 19,5; 29,8; 73,2; 36,6; 41,1; 27,3; • Narysować histogram. • Jakie są max i min? • Jaki jest rozstęp? • Jakie dobrać przedziały i ile ich wziąć? Histogram liczebności • Grupowanie podobnych obserwacji zwykle jest pomocne. • Prawie zawsze postępujemy tak z danymi ciągłymi. 7 • Definiujemy „klasy” (przedziały) obserwacji i zliczamy liczbę obserwacji wpadających do każdej klasy. Jak wybierać klasy? • Każda obserwacja musi wpadać do dokładnie jednej klasy (klasy rozłączne, pokrywają wszystkie możliwe wyniki). • Rozmiar (szerokość) klas (przedziałów) jest zwykle taki sam. • Używamy wygodnych granic przedziałów, np. 20-29, a nie 19,82 – 29,26. • Używamy od 5 do 15 klas dla umiarkowanych zbiorów danych (n < 50); więcej, gdy próba jest duża. Opis histogramu • Symetryczny / asymetryczny. • W kształcie dzwonu (normalny) / ciężkie ogony (spłaszczony). • Skośny na prawo lub lewo. • Jednomodalny (jeden główny wierzchołek). • Dwumodalny (dwa główne wierzchołki). • Wykładniczy (malejący) • Rozrzut (duży lub mały) Statystyka Statystyka to liczbowa charakterystyka danych. Na przykład z próby y1 = 24, y2 = 35, y3 = 26, y4 = 36 można obliczyć wartości statystyk: • min=24, max=36, • rozstęp= 36 − 24 = 12, 121 1 = 30, 25. • y = (24 + 35 + 26 + 36) = 4 4 Średnia z próby • Symbol y oznacza liczbę — arytmetyczną średnią z obserwacji. • Symbol Y oznacza pojęcie średniej z próby. • Średnia jest „środkiem ciężkości” zbioru danych. Średnia a mediana • Mediana dzieli powierzchnię histogramu na połowy. • Jest odporna – nie mają na nią wpływu obserwacje „odstające”. • Obserwacje odstające mają duży wpływ na średnią – średnia nie jest odporna. • Jeżeli histogram jest w przybliżeniu symetryczny, to średnia i mediana są zbliżone. • Jeżeli histogram jest skośny na prawo, to średnia jest zwykle większa niż mediana. • Obie te miary położenia są jednakowo ważne. • Średnia jest częściej wykorzystywana do testowania i estymacji (o czym później). 8