Wykład 2

Transkrypt

Wykład 2
Wykład 2
Transformacje (przekształcenia) danych
Problem: Co się stanie ze średnią i odchyleniem
standardowym, gdy zmienimy jednostki?
Przykłady:
• stopnie Celsiusza  stopnie Fahrenheita
• dolary  1,000 dolarów
• wartość faktyczna  odległość od minimum
• cm  mm, in, nm, m, ft; dolary  euro
Liniowa transformacja zmiennych
Transformacja wynikająca ze zmiany jednostek
jest funkcją liniową: y’ = ay + c
• a-współczynnik (multiplikatywny/kierunkowy)
• c-stała (addytywna)
• niekiedy a = 1 lub c = 0
Przykłady:
• y’ = 1.8 y + 32
• y’ = 1/1000 y ( + 0)
• y’ = (1)y - ymin
1
Przykład: wpływ stałej addytywnej:
odejmujemy 20
Średnia
y
Dev.
y’
Dev
25
-1
5
-1
26
0
6
0
28
2
8
2
25
-1
5
-1
26
6
Liniowa transformacja zmiennych, cd.
• Średnia
y
zmienia się tak jak y:
y’ = ay + c
• Wariancja zmienia się następująco:
s’2 = a2s2
• Odchylenie standardowe:
s’ = |a| s
2
• Przykład:
 Y- temperatura w F: y = 98.6, s = 0.9, s2 = 0.81
 Oblicz średnią, odchylenie standardowe i wariancję dla tych
samych danych wyrażonych w stopniach Celsjusza.
Standaryzacja:
• Jakich wyników należy oczekiwać, gdy dane
przekształcimy w następujący sposób
y' = (y- y )/s =(y-98.6)/0.9 ?
• Jest to transformacja liniowa: y' = 1/s y -y/s.
y’=
s’=
3
Liniowa transformacja zmiennych: wpływ na
inne statystyki i rozkład
Funkcja liniowa zmienia:
medianę i kwartyle tak jak średnią,
rozstęp i IQR tak jak odchylenie
standardowe.
Funkcja liniowa nie zmienia w zasadniczy sposób
kształtu histogramu. Może go rozszerzyć (|a| >1),
ścieśnić (|a|<1), przesunąć (c<>0) i obrócić (a<0).
Transformacje nieliniowe
• Funkcji nieliniowych (np. logarytmu) używany niekiedy
po to, aby przekształcić dane skośne w dane bardziej
symetryczne.
• Funkcje nieliniowe zmieniają kształt histogramu i na
ogół nie ma prostych formuł dla nowej średniej i
nowego odchylenia standardowego. Przykład: dla
z=log(y) mamy na ogółz ≠ logy.
• Nową średnią i SD liczymy korzystając z nowego
zbioru danych.
• Z medianą i kwartylami jest lepiej...
4
5
Wnioskowanie statystyczne
Próba a populacja
• Populacja:
– Zbiór, z którego losujemy próbę i który chcemy
opisać.
– Populacja jest czasem rzeczywista, czasem
abstrakcyjna (np. „wszystkie” muszki owocówki) .
• Próba:
– Podzbiór populacji.
– Próba powinna być reprezentatywna dla populacji.
• Wnioskowanie statystyczne:
– Wnioskowanie o populacji w oparciu o próbę.
6
Populacja
Próba
Grupa wykładowa
10 losowo wybranych studentów
Wszyscy pacjenci biorący Prozac
30 pacjentów biorących Prozac
``wszystkie’’ rzuty kostkami
25 rzutów kostką
Wszystkie owocówki,
albo
Wszystkie owocówki o danym genomie
Owocówki wyhodowane w laboratorium
przez pana Jurka
Próbkowanie
Parametry :
, 
Statystyki
Populacja


Próba
y
s
y, s
Wnioskowanie
Parametry populacji
• μ = średnia w populacji = wartość oczekiwana
zmiennej Y (piszemy μ=EY),
• wariancja zmiennej Y (piszemy Var Y=E(Y-μ)2)
• σ = odchylenie standardowe zmiennej Y w
populacji, σ =(Var Y)1/2 i inne.
• Statystyki z próby są estymatorami, służą do
oceny parametrów populacji.
• Parametry i estymatory odróżniamy w notacji.
7
Przykład:
• Grupy krwi u 3696 osób żyjących w Anglii.
Grupa krwi
Liczność
A
1,634
B
327
AB
119
O
1616
suma
3696
• Około 44% ludzi w próbie ma grupę krwi A.
• A w Anglii??
• Czy nie było systematycznego błędu przy
próbkowaniu? Czy rozmiar próby był dość duży?
Możliwe błędy przy takim próbkowaniu:
• Próba złożona z przyjaciół i współpracowników
może nie być reprezentatywna
…pomimo tego...
• Grupy krwi mogą być reprezentatywne.
…ale już...
• Pomiary ciśnienia nie byłyby reprezentatywne.
8
Populacja a próba
• Średnia z próbyy na ogół różni się od wartości
oczekiwanej μ=EY (średniej w populacji), ale w miarę
wzrostu rozmiaru próby różnica między tymi
wielkościami zwykle dąży do zera.
• Średnia z próby jest estymatorem wartości
oczekiwanej (w populacji).
• Podobnie próbkowe odchylenie standardowe s i
wariancja próbkowa s2 są estymatorami odpowiednich
parametrów w populacji: σ i σ2=Var Y.
Przykład (nieco sztuczny)
• Rozmiar populacji=50, średnia w populacji =26.48
• Populacja: 25.5, 17.8, 36.7, 29.8, 40.7, 26.0, 7.7, 27.7,
10.3, 22.3, 45.4, 43.4, 20.2, 42.2, 44.5, 1.6, 5.7, 48.6,
23.9, 27.2, 17.0, 19.5, 47.7, 3.9, 39.3, 9.2, 30.7, 18.9,
25.7, 32.8, 16.8, 11.7, 13.9, 4.9, 49.4, 30.5, 20.7, 38.1,
25.6, 40.7, 45.0, 30.8, 11.3, 34.0, 49.7, 21.3, 3.5,
28.7, 19.7, 35.6.
• Stopniowo powiększamy próbę losową do rozmiarów
n=10, 20, 30, 40
• Otrzymana średnia z próby: 23.5 (dla pierwszych
n=10 liczb), 27.3 (n=20), 26.7 (n=30), 26.4 (n=40)
• Przykład naturalny: rzut monetą…
9
Histogram z populacji a histogram próbkowy
 Oznaczmy: pi= (parametr) frakcja populacji w i-tej
klasie.
 pi można ustalić w oparciu o histogram skonstruowany
dla całej populacji.
 Oznaczmy: p̂i = (estymator) zaobserwowana częstość
w i-tej klasie (obliczona np. w oparciu o histogram dla
próby)
Przykład: Rozmiar populacji =10000.
5 klas o tej samej częstości=…….
(w tabeli tylko kategorie 1 i 5)
n
p̂1
p̂5
10
0.1
0.3
20
0.1
0.35
40
0.2
0.25
80
0.15
0.225
160
0.1625
0.1875
320
0.1781
0.1938
10
n=10
11
Próbkowanie (cd.)
• Prosta próba losowa:
Każdy osobnik z populacji może być wybrany z tym
samym prawdopodobieństwem.
Wybory poszczególnych osobników są od siebie
niezależne.
12
Jak wybrać próbę prostą:
• Podstawowy mechanizm losujący:
– Przyznajemy numer każdemu osobnikowi
– Losujemy numery = osobników, tyle razy, ile wynosi
rozmiar próby
• Do losowania możemy użyć urn, komputera lub
gotowej tablicy liczb (cyfr) losowych (zob. dalej).
• Gdy rozmiar populacji nie jest ustalony lub nie mamy
dostępu do wszystkich osobników, zadanie jest dużo
trudniejsze.
13
Ćwiczenie: Wybór delegatów z sali…
Błędy w póbkowaniu cd.
Przykład 1 (Ochotnicy)
• Dziennikarka Ann Landers spytała swoich
czytelników „Gdybyście mogli zacząć jeszcze
raz: czy mielibyście znowu dzieci?”
• Odpisało prawie 10,000 czytelników i 70%
powiedziało: Nie!
• Próba: część populacji, która zdecydowała się
odpisać, n=10,000.
• Populacja: wszyscy rodzice w USA??
14
Przykład 1 (Ochotnicy) cd.
• Czasopismo Newsday przeprowadziło
statystycznie zaplanowaną ankietę, w której
91% z 1,373 przepytanych rodziców
odpowiedziało: Tak!
• Wniosek: ochotnicy = bardzo zła
reprezentatywność (badanie bezwartościowe).
Przykład 2
Przewidywanie wyników wyborów prezydenckich w
USA, 1936:
• Literary Digest wysłało kwestionariusze do 10
milionów ludzi (25% głosujących)
• Odpowiedziało 2.4 miliona:
– Przewidywanie: Landon 57%, Roosevelt 43%
– Wynik wyborów: Roosevelt 62%, Landon 38%
• Uwagi:
• F.D. Roosevelt, Partia Demokratyczna, prezydent w
latach 1933-1945; Wielki Kryzys: 1929-1933
15
Przyczyny błędu Literary Digest:
• Złe (dyskryminujące) próbkowanie:
– Użyto książek telefonicznych, list członkowskich
klubów, listy zamówień pocztowych, listy właścicieli
pojazdów
• Brak odpowiedzi:
– Tylko 24% odpowiedziało (niemal wyłącznie
Republikanie)
Uwaga: George Gallup przewidział poprawnie na
podstawie reprezentatywnej próbki 50 000 osób.
Obciążenie w próbkowaniu
• Obciążenie (tj. systematyczny błąd) w próbkowaniu
występuje, gdy mamy do czynienia z systematycznym
błędem faworyzującym pewną część populacji. W
przypadku takiego obciążenia nie pomoże nawet duży
rozmiar próby.
• Losowy wybór elementów do próby (taki jak w naszym
ćwiczeniu-wyborze delegatów z sali) zwykle eliminuje
takie obciążenie.
16
Warianty losowego wyboru:
Stratyfikacja
• Dzielimy populację na pod-populacje złożone z
podobnych jednostek (to są tzw. warstwy) i
oddzielnie próbkujemy w każdej warstwie.
• Przykłady warstw:
– studenci
– studentki
– grupy zawodowe
– regiony geograficzne
Warianty losowego wyboru cd.:
Próbkowanie wielostopniowe
• Przykład: Badanie w USA dotyczące struktury zatrudnienia.
Ankietuje się około 60.000 gospodarstw domowych co miesiąc.
• Poziom 1: losowa próba z 3,000 counties
• Poziom 2: losowa próba reprezentująca powiaty w każdym
wybranym county
• Poziom 3: losowa próba reprezentująca gminy w każdym
wybranym powiecie
• Poziom 4: losowa próba gospodarstw domowych w każdej
wybranej gminie
17