Wykład 10
Transkrypt
Wykład 10
Wykład 10 Wpływ przekształceń Co się stanie ze średnią i odchyleniem standardowym gdy zmienimy jednostki ? • stopnie Celsiusza stopnie Fahrenheita • dolary 1,000 dolarów • wartość faktyczna odległość od minimum • cm : mm, in, nm, m, ft; dolary : euro Liniowa transformacja zmiennych, cd. • • • • Uwagi: a-współczynnik kierunkowy c-stała czasami a = 1 lub c = 0 Funkcja liniowa nie zmienia w zasadniczy sposób kształtu histogramu. Może go rozszerzyć (|a| >1), ścieśnić (|a|<1), przesunąć (c<>0) i obrócić (a<0). Liniowa transformacja zmiennych, cd. • Średnia y zmienia się tak jak y. Mamy: y’ = a y + c • Odchylenie standardowe s zmienia się tylko w zależności od współczynnika a. Stała c nie ma wpływu na odchylenie standardowe, ponieważ zależy ono jedynie od odchyleń od średniej. Mamy: s’ = |a| s Zmiana wartości wynikająca ze zmiany jednostek zadana jest zwykle funkcją liniową: y’ = ay + c Przykłady: • y’ = 1.8 y + 32 • y’ = 1/1000 y ( + 0) • y’ = (1)y - ymin Wpływ stałej (odejmujemy 20) Średnia y Dev. y’ Dev 25 -1 5 -1 26 0 6 0 28 2 8 2 25 -1 5 -1 26 6 Liniowa transformacja zmiennych, cd. • Wariancja Wariancja jest kwadratem SD. Mamy: s2’ = a2s2 • Przykład: Y- temperatura w °F: y = 98.6, s = 0.9, s2 = 0.81 Pytanie 1: Oblicz średnią, odchylenie standardowe i wariancję dla tych samych danych wyrażonych w stopniach Celsjusza. 1 Odpowiedź Standardyzacja • Pytanie 2: Jakich wyników należy oczekiwać, gdy dane przekształcimy w następujący sposób Y' = (Y- y)/s =(Y-98.6)/0.9 ? • Jest to transformacja liniowa: Y' = 1/s Y - y/s. • Odpowiedź: Liniowa transformacja zmiennych: inne statystyki • Funkcja liniowa zmienia: medianę i kwartyle tak jak średnią, rozstęp i IQR tak jak odchylenie standardowe. Transformacje nieliniowe • Funkcje nieliniowe (np. logarytm) zmieniają kształt histogramu i na ogół nie ma dla nich prostych formuł umożliwiających obliczenie nowej średniej i nowego odchylenia standardowego. • Parametry te liczymy z definicji korzystając z „nowego’’ zbioru danych. • Przykład : dla Y’=log(Y) na ogół y’ ≠ log y • Z medianą i kwartylami jest lepiej... • Czasami używamy funkcji nieliniowych, aby przekształcić skośne dane w bardziej symetryczne. 2 Wnioskowanie statystyczne Próba a populacja • Populacja: – Zbiór, z którego losujemy próbę i który chcemy opisać. – Czasami rzeczywista, czasami abstrakcyjna (np. „nieskończenie duża próba”) . • Próba: – Podzbiór populacji. – Próba powinna być reprezentatywna dla populacji. • Wnioskowanie statystyczne: – Wnioskowanie o populacji w oparciu o próbę. Populacja Próba Grupa wykładowa 10 losowo wybranych studentów Wszyscy pacjenci biorący Prozac 30 pacjentów biorących Prozac ``wszystkie’’ rzuty kostkami 25 rzutów kostką Wszystkie owocówki ze śmietnika, albo Wszystkie owocówki w okolicy Owocówki złapane na śmietniku Próbkowanie Parametry : µ, σ Statystyki Populacja µ σ Próba y s y, s Wnioskowanie Przykład • Grupy krwi u 3696 osób żyjących w Anglii. Grupa krwi Liczność A 1,634 B 327 AB 119 O 1616 suma 3696 • Około 44% ludzi w próbie ma grupę krwi A. • A w Anglii?? – Czy nie było systematycznego błędu przy próbkowaniu? – Czy rozmiar próby był dość duży? Parametry populacji • µ = średnia w populacji, µ=EY, wartość oczekiwana zmiennej Y • Var Y=średnia z (Y-µ)2=E(Y-µ)2 • σ = odchylenie standardowe w populacji, σ =(Var Y)1/2 • ...i inne. • Statystyki z próby są estymatorami, służą do oceny parametrów całej populacji. Możliwe błędy przy próbkowaniu: • Próba złożona z przyjaciół i pracowników może nie być reprezentatywna. Mimo tego... • Grupy krwi mogą być reprezentatywne. Ale już... • Pomiary ciśnienia nie byłyby reprezentatywne (ciśnienie na ogół wzrasta z wiekiem). 3 Przykład Populacja a próba • Średnia z próbyy na ogół różni się od wartości oczekiwanej µ=EY (średniej w populacji), ale w miarę wzrostu rozmiaru próby różnica między tymi wielkościami zwykle dąży do zera. • Średnia z próby jest estymatorem wartości oczekiwanej. • Podobnie próbkowe odchylenie standardowe s i wariancja próbkowa s2 są estymatorami odpowiednich parametrów w populacji: σ i σ2=Var Y. • Rozmiar populacji=50, średnia w populacji =26.48 • Populacja: 25.5 17.8 36.7 29.8 40.7 26.0 7.7 27.7 10.3 22.3 45.4 43.4 20.2 42.2 44.5 1.6 5.7 48.6 23.9 27.2 17.0 19.5 47.7 3.9 39.3 9.2 30.7 18.9 25.7 32.8 16.8 11.7 13.9 4.9 49.4 30.5 20.7 38.1 25.6 40.7 45.0 30.8 11.3 34.0 49.7 21.3 3.5 28.7 19.7 35.6 • stopniowo powiększamy próbę losową do rozmiarów n=10, 20, 30, 40 • otrzymana średnia z próby: 23.5 (dla n=10), 27.3 (n=20), 26.7 (n=30), 26.4 (n=40) Przykład Histogram z populacji a histogram próbkowy • Dane dyskretne (klasy) Oznaczamy: pi=frakcja osobników w i-tej kategorii. pi można ustalić w oparciu o histogram skonstruowany dla całej populacji. Oznaczamy: p̂i= estymator obliczony w oparciu o histogram z próby (zaobserwowana częstość w danej kategorii). Rozmiar populacji =10000. 5 klas o tej samej częstości pi= (?). W tabeli tylko kategorie 1. i 5. n p̂1 p̂5 10 0.1 0.3 20 0.1 0.35 40 0.2 0.25 80 0.15 0.225 160 0.1625 0.1875 320 0.1781 0.1938 n=10 4 Histogram a gęstość rozkładu prawdopodobieństwa • Liczbowe dane ciągłe • więcej klas + jeszcze więcej danych= bardziej regularny histogram Gęstość rozkładu prawdopodobieństwa • Gdy rozmiar próby dąży do nieskończoności i szerokość klas dąży do zera histogram zbiega do wykresu gęstości rozkładu badanej zmiennej w populacji. Próbkowanie, cd. • Prosta próba losowa: Każdy osobnik z populacji może być wybrany z tym samym prawdopodobieństwem. Wybory poszczególnych osobników są od siebie niezależne. 5 Jak wybrać prostą próbę losową: • Mechanizm losujący, np.: – Przyznajemy numer każdemu osobnikowi – Zapisujemy numery na kulach – Mieszamy kule w urnie – Losujemy kule=numery=osobników, tyle razy, ile wynosi rozmiar próby • Do losowania możemy również użyć komputera lub gotowej tablicy liczb (numerów) losowych (zob. dalej). • Gdy rozmiar populacji nie jest ustalony lub nie mamy dostępu do wszystkich osobników, zadanie jest dużo trudniejsze. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy) Przykład 1 (Ochotnicy) cd. • Dziennikarka Ann Landers spytała swoich czytelników „Gdybyście mogli zacząć jeszcze raz: czy mielibyście znowu dzieci?” • Odpisało prawie 10,000 czytelników i 70% powiedziało: Nie! • Populacja: wszyscy rodzice w USA • Próba: pewna część populacji, która zdecydowała się odpisać, n=10,000. • Czasopismo Newsday przeprowadziło „statystycznie zaplanowaną” ankietę, w której 91% z 1,373 przepytanych rodziców odpowiedziało: Tak! • Ochotnicy: bardzo zła reprezentatywność (badanie bezwartościowe). Przykład 2 Przyczyny błędu Literary Digest: Przewidywanie wyników wyborów prezydenckich w USA, 1936: • Literary Digest wysłało kwestionariusze do 10 milionów ludzi (25% głosujących) • Odpowiedziało 2.4 miliona: – Przewidywanie: Landon 57%, Roosevelt 43% – Wynik wyborów: Roosevelt 62%, Landon 38% • Uwagi: F.D. Roosevelt, Partia Demokratyczna, prezydent w latach 1933-1945; Wielki Kryzys: 1929-1933 • Złe (dyskryminujące) próbkowanie – Użyto książek telefonicznych, list członkowskich klubów, listy zamówień pocztowych, listy właścicieli pojazdów • Brak odpowiedzi – Tylko 24% odpowiedziało (niemal wyłącznie Republikanie) Uwaga: George Gallup przewidział poprawnie na podstawie reprezentatywnej próbki 50 000 osób. 6 Obciążenie w próbkowaniu • Obciążenie w próbkowaniu występuje, gdy mamy do czynienia z systematycznym błędem faworyzującym pewną część populacji. W przypadku takiego obciążenia nie pomoże nawet duży rozmiar próby. • Losowy wybór elementów do próby zwykle eliminuje takie obciążenie. Warianty losowego wyboru: Stratyfikacja • Dzielimy populację na pod-populacje podobnych jednostek (warstwy) i oddzielnie próbkujemy w każdej warstwie. • Przykłady warstw: – studenci & studentki – grupy zawodowe – regiony geograficzne Warianty losowego wyboru cd.: Próbkowanie wielostopniowe • Przykład: Badanie w USA dotyczące struktury zatrudnienia. Ankietuje się około 60.000 gospodarstw domowych co miesiąc. • Poziom 1: losowa próba z 3,000 counties • Poziom 2: losowa próba reprezentująca powiaty w każdym wybranym county • Poziom 3: losowa próba reprezentująca gminy w każdym wybranym powiecie • Poziom 4: losowa próba gospodarstw domowych w każdej wybranej gminie 7