Wykład 2
Transkrypt
Wykład 2
Wykład 2 Transformacje (przekształcenia) danych Problem: Co się stanie ze średnią i odchyleniem standardowym, gdy zmienimy jednostki? Przykłady: • stopnie Celsiusza stopnie Fahrenheita • dolary 1,000 dolarów • wartość faktyczna odległość od minimum • cm mm, in, nm, m, ft; dolary euro Liniowa transformacja zmiennych Transformacja wynikająca ze zmiany jednostek jest funkcją liniową: y’ = ay + c • a-współczynnik (multiplikatywny/kierunkowy) • c-stała (addytywna) • niekiedy a = 1 lub c = 0 Przykłady: • y’ = 1.8 y + 32 • y’ = 1/1000 y ( + 0) • y’ = (1)y - ymin 1 Przykład: wpływ stałej addytywnej: odejmujemy 20 Średnia y Dev. y’ Dev 25 -1 5 -1 26 0 6 0 28 2 8 2 25 -1 5 -1 26 6 Liniowa transformacja zmiennych, cd. • Średnia y zmienia się tak jak y: y’ = ay + c • Wariancja zmienia się następująco: s’2 = a2s2 • Odchylenie standardowe: s’ = |a| s 2 • Przykład: Y- temperatura w F: y = 98.6, s = 0.9, s2 = 0.81 Oblicz średnią, odchylenie standardowe i wariancję dla tych samych danych wyrażonych w stopniach Celsjusza. Standaryzacja: • Jakich wyników należy oczekiwać, gdy dane przekształcimy w następujący sposób y' = (y- y )/s =(y-98.6)/0.9 ? • Jest to transformacja liniowa: y' = 1/s y -y/s. y’= s’= 3 Liniowa transformacja zmiennych: wpływ na inne statystyki i rozkład Funkcja liniowa zmienia: medianę i kwartyle tak jak średnią, rozstęp i IQR tak jak odchylenie standardowe. Funkcja liniowa nie zmienia w zasadniczy sposób kształtu histogramu. Może go rozszerzyć (|a| >1), ścieśnić (|a|<1), przesunąć (c<>0) i obrócić (a<0). Transformacje nieliniowe • Funkcji nieliniowych (np. logarytmu) używany niekiedy po to, aby przekształcić dane skośne w dane bardziej symetryczne. • Funkcje nieliniowe zmieniają kształt histogramu i na ogół nie ma prostych formuł dla nowej średniej i nowego odchylenia standardowego. Przykład: dla z=log(y) mamy na ogółz ≠ logy. • Nową średnią i SD liczymy korzystając z nowego zbioru danych. • Z medianą i kwartylami jest lepiej... 4 5 Wnioskowanie statystyczne Próba a populacja • Populacja: – Zbiór, z którego losujemy próbę i który chcemy opisać. – Populacja jest czasem rzeczywista, czasem abstrakcyjna (np. „wszystkie” muszki owocówki) . • Próba: – Podzbiór populacji. – Próba powinna być reprezentatywna dla populacji. • Wnioskowanie statystyczne: – Wnioskowanie o populacji w oparciu o próbę. 6 Populacja Próba Grupa wykładowa 10 losowo wybranych studentów Wszyscy pacjenci biorący Prozac 30 pacjentów biorących Prozac ``wszystkie’’ rzuty kostkami 25 rzutów kostką Wszystkie owocówki, albo Wszystkie owocówki o danym genomie Owocówki wyhodowane w laboratorium przez pana Jurka Próbkowanie Parametry : , Statystyki Populacja Próba y s y, s Wnioskowanie Parametry populacji • μ = średnia w populacji = wartość oczekiwana zmiennej Y (piszemy μ=EY), • wariancja zmiennej Y (piszemy Var Y=E(Y-μ)2) • σ = odchylenie standardowe zmiennej Y w populacji, σ =(Var Y)1/2 i inne. • Statystyki z próby są estymatorami, służą do oceny parametrów populacji. • Parametry i estymatory odróżniamy w notacji. 7 Przykład: • Grupy krwi u 3696 osób żyjących w Anglii. Grupa krwi Liczność A 1,634 B 327 AB 119 O 1616 suma 3696 • Około 44% ludzi w próbie ma grupę krwi A. • A w Anglii?? • Czy nie było systematycznego błędu przy próbkowaniu? Czy rozmiar próby był dość duży? Możliwe błędy przy takim próbkowaniu: • Próba złożona z przyjaciół i współpracowników może nie być reprezentatywna …pomimo tego... • Grupy krwi mogą być reprezentatywne. …ale już... • Pomiary ciśnienia nie byłyby reprezentatywne. 8 Populacja a próba • Średnia z próbyy na ogół różni się od wartości oczekiwanej μ=EY (średniej w populacji), ale w miarę wzrostu rozmiaru próby różnica między tymi wielkościami zwykle dąży do zera. • Średnia z próby jest estymatorem wartości oczekiwanej (w populacji). • Podobnie próbkowe odchylenie standardowe s i wariancja próbkowa s2 są estymatorami odpowiednich parametrów w populacji: σ i σ2=Var Y. Przykład (nieco sztuczny) • Rozmiar populacji=50, średnia w populacji =26.48 • Populacja: 25.5, 17.8, 36.7, 29.8, 40.7, 26.0, 7.7, 27.7, 10.3, 22.3, 45.4, 43.4, 20.2, 42.2, 44.5, 1.6, 5.7, 48.6, 23.9, 27.2, 17.0, 19.5, 47.7, 3.9, 39.3, 9.2, 30.7, 18.9, 25.7, 32.8, 16.8, 11.7, 13.9, 4.9, 49.4, 30.5, 20.7, 38.1, 25.6, 40.7, 45.0, 30.8, 11.3, 34.0, 49.7, 21.3, 3.5, 28.7, 19.7, 35.6. • Stopniowo powiększamy próbę losową do rozmiarów n=10, 20, 30, 40 • Otrzymana średnia z próby: 23.5 (dla pierwszych n=10 liczb), 27.3 (n=20), 26.7 (n=30), 26.4 (n=40) • Przykład naturalny: rzut monetą… 9 Histogram z populacji a histogram próbkowy Oznaczmy: pi= (parametr) frakcja populacji w i-tej klasie. pi można ustalić w oparciu o histogram skonstruowany dla całej populacji. Oznaczmy: p̂i = (estymator) zaobserwowana częstość w i-tej klasie (obliczona np. w oparciu o histogram dla próby) Przykład: Rozmiar populacji =10000. 5 klas o tej samej częstości=……. (w tabeli tylko kategorie 1 i 5) n p̂1 p̂5 10 0.1 0.3 20 0.1 0.35 40 0.2 0.25 80 0.15 0.225 160 0.1625 0.1875 320 0.1781 0.1938 10 n=10 11 Próbkowanie (cd.) • Prosta próba losowa: Każdy osobnik z populacji może być wybrany z tym samym prawdopodobieństwem. Wybory poszczególnych osobników są od siebie niezależne. 12 Jak wybrać próbę prostą: • Podstawowy mechanizm losujący: – Przyznajemy numer każdemu osobnikowi – Losujemy numery = osobników, tyle razy, ile wynosi rozmiar próby • Do losowania możemy użyć urn, komputera lub gotowej tablicy liczb (cyfr) losowych (zob. dalej). • Gdy rozmiar populacji nie jest ustalony lub nie mamy dostępu do wszystkich osobników, zadanie jest dużo trudniejsze. 13 Ćwiczenie: Wybór delegatów z sali… Błędy w póbkowaniu cd. Przykład 1 (Ochotnicy) • Dziennikarka Ann Landers spytała swoich czytelników „Gdybyście mogli zacząć jeszcze raz: czy mielibyście znowu dzieci?” • Odpisało prawie 10,000 czytelników i 70% powiedziało: Nie! • Próba: część populacji, która zdecydowała się odpisać, n=10,000. • Populacja: wszyscy rodzice w USA?? 14 Przykład 1 (Ochotnicy) cd. • Czasopismo Newsday przeprowadziło statystycznie zaplanowaną ankietę, w której 91% z 1,373 przepytanych rodziców odpowiedziało: Tak! • Wniosek: ochotnicy = bardzo zła reprezentatywność (badanie bezwartościowe). Przykład 2 Przewidywanie wyników wyborów prezydenckich w USA, 1936: • Literary Digest wysłało kwestionariusze do 10 milionów ludzi (25% głosujących) • Odpowiedziało 2.4 miliona: – Przewidywanie: Landon 57%, Roosevelt 43% – Wynik wyborów: Roosevelt 62%, Landon 38% • Uwagi: • F.D. Roosevelt, Partia Demokratyczna, prezydent w latach 1933-1945; Wielki Kryzys: 1929-1933 15 Przyczyny błędu Literary Digest: • Złe (dyskryminujące) próbkowanie: – Użyto książek telefonicznych, list członkowskich klubów, listy zamówień pocztowych, listy właścicieli pojazdów • Brak odpowiedzi: – Tylko 24% odpowiedziało (niemal wyłącznie Republikanie) Uwaga: George Gallup przewidział poprawnie na podstawie reprezentatywnej próbki 50 000 osób. Obciążenie w próbkowaniu • Obciążenie (tj. systematyczny błąd) w próbkowaniu występuje, gdy mamy do czynienia z systematycznym błędem faworyzującym pewną część populacji. W przypadku takiego obciążenia nie pomoże nawet duży rozmiar próby. • Losowy wybór elementów do próby (taki jak w naszym ćwiczeniu-wyborze delegatów z sali) zwykle eliminuje takie obciążenie. 16 Warianty losowego wyboru: Stratyfikacja • Dzielimy populację na pod-populacje złożone z podobnych jednostek (to są tzw. warstwy) i oddzielnie próbkujemy w każdej warstwie. • Przykłady warstw: – studenci – studentki – grupy zawodowe – regiony geograficzne Warianty losowego wyboru cd.: Próbkowanie wielostopniowe • Przykład: Badanie w USA dotyczące struktury zatrudnienia. Ankietuje się około 60.000 gospodarstw domowych co miesiąc. • Poziom 1: losowa próba z 3,000 counties • Poziom 2: losowa próba reprezentująca powiaty w każdym wybranym county • Poziom 3: losowa próba reprezentująca gminy w każdym wybranym powiecie • Poziom 4: losowa próba gospodarstw domowych w każdej wybranej gminie 17