Wykład 10

Transkrypt

Wykład 10

Wykład 10
Wpływ przekształceń
Co się stanie ze średnią i odchyleniem
standardowym gdy zmienimy jednostki ?
• stopnie Celsiusza stopnie
Fahrenheita
• dolary 1,000 dolarów
• wartość faktyczna odległość od
minimum
• cm : mm, in, nm, m, ft; dolary : euro
Liniowa transformacja zmiennych, cd.
•
•
•
•
Uwagi:
a-współczynnik kierunkowy
c-stała
czasami a = 1 lub c = 0
Funkcja liniowa nie zmienia w zasadniczy
sposób kształtu histogramu. Może go
rozszerzyć (|a| >1), ścieśnić (|a|<1),
przesunąć (c<>0) i obrócić (a<0).
• Średnia
y zmienia się tak jak y. Mamy:
y’ = a
y + c
• Odchylenie standardowe
s zmienia się tylko w zależności od współczynnika
a. Stała c nie ma wpływu na odchylenie
standardowe, ponieważ zależy ono jedynie od
odchyleń od średniej. Mamy:
s’ = |a| s
Zmiana wartości wynikająca ze zmiany
jednostek zadana jest zwykle funkcją
liniową: y’ = ay + c
Przykłady:
• y’ = 1.8 y + 32
• y’ = 1/1000 y ( + 0)
• y’ = (1)y - ymin
Wpływ stałej (odejmujemy 20)
Średnia
y
Dev.
y’
Dev
25
-1
5
-1
26
0
6
0
28
2
8
2
25
-1
5
-1
26
6
• Wariancja
Wariancja jest kwadratem SD. Mamy:
s2’ = a2s2
• Przykład:
Y- temperatura w °F: y = 98.6, s = 0.9, s2 = 0.81
Pytanie 1: Oblicz średnią, odchylenie standardowe i
wariancję dla tych samych danych wyrażonych w
stopniach Celsjusza.
1
Odpowiedź
Standardyzacja
• Pytanie 2: Jakich wyników należy oczekiwać,
gdy dane przekształcimy w następujący sposób
Y' = (Y- y)/s =(Y-98.6)/0.9 ?
• Jest to transformacja liniowa: Y' = 1/s Y - y/s.
• Odpowiedź:
Liniowa transformacja zmiennych:
inne statystyki
• Funkcja liniowa zmienia:
medianę i kwartyle tak jak średnią,
rozstęp i IQR tak jak odchylenie
standardowe.
Transformacje nieliniowe
• Funkcje nieliniowe (np. logarytm) zmieniają
kształt histogramu i na ogół nie ma dla nich
prostych formuł umożliwiających obliczenie
nowej średniej i nowego odchylenia
standardowego.
• Parametry te liczymy z definicji korzystając z
„nowego’’ zbioru danych.
• Przykład : dla Y’=log(Y) na ogół
y’ ≠ log
y
• Z medianą i kwartylami jest lepiej...
• Czasami używamy funkcji nieliniowych, aby
przekształcić skośne dane w bardziej
symetryczne.
2
Wnioskowanie statystyczne
Próba a populacja
• Populacja:
– Zbiór, z którego losujemy próbę i który chcemy
opisać.
– Czasami rzeczywista, czasami abstrakcyjna (np.
„nieskończenie duża próba”) .
• Próba:
– Podzbiór populacji.
– Próba powinna być reprezentatywna dla populacji.
• Wnioskowanie statystyczne:
– Wnioskowanie o populacji w oparciu o próbę.
Populacja
Próba
Grupa wykładowa
10 losowo wybranych studentów
Wszyscy pacjenci biorący Prozac
30 pacjentów biorących Prozac
``wszystkie’’ rzuty kostkami
25 rzutów kostką
Wszystkie owocówki ze śmietnika,
albo
Wszystkie owocówki w okolicy
Owocówki złapane na śmietniku
Próbkowanie
Parametry :
µ, σ
Statystyki
Populacja
µ
σ
Próba
y
s
y, s
Wnioskowanie
Przykład
• Grupy krwi u 3696 osób żyjących w Anglii.
Grupa krwi
Liczność
A
1,634
B
327
AB
119
O
1616
suma
3696
• Około 44% ludzi w próbie ma grupę krwi A.
• A w Anglii??
– Czy nie było systematycznego błędu przy
próbkowaniu?
– Czy rozmiar próby był dość duży?
Parametry populacji
• µ = średnia w populacji, µ=EY, wartość
oczekiwana zmiennej Y
• Var Y=średnia z (Y-µ)2=E(Y-µ)2
• σ = odchylenie standardowe w populacji,
σ =(Var Y)1/2
• ...i inne.
• Statystyki z próby są estymatorami, służą
do oceny parametrów całej populacji.
Możliwe błędy przy próbkowaniu:
• Próba złożona z przyjaciół i pracowników
może nie być reprezentatywna.
Mimo tego...
• Grupy krwi mogą być reprezentatywne.
Ale już...
• Pomiary ciśnienia nie byłyby
reprezentatywne (ciśnienie na ogół
wzrasta z wiekiem).
3
Przykład
Populacja a próba
• Średnia z próbyy na ogół różni się od wartości
oczekiwanej µ=EY (średniej w populacji), ale w miarę
wzrostu rozmiaru próby różnica między tymi
wielkościami zwykle dąży do zera.
• Średnia z próby jest estymatorem wartości oczekiwanej.
• Podobnie próbkowe odchylenie standardowe s i
wariancja próbkowa s2 są estymatorami odpowiednich
parametrów w populacji: σ i σ2=Var Y.
• Rozmiar populacji=50, średnia w populacji =26.48
• Populacja: 25.5 17.8 36.7 29.8 40.7 26.0 7.7 27.7
10.3 22.3 45.4 43.4 20.2 42.2 44.5 1.6 5.7 48.6 23.9
27.2 17.0 19.5 47.7 3.9 39.3 9.2 30.7 18.9 25.7 32.8
16.8 11.7 13.9 4.9 49.4 30.5 20.7 38.1 25.6 40.7 45.0
30.8 11.3 34.0 49.7 21.3 3.5 28.7 19.7 35.6
• stopniowo powiększamy próbę losową do rozmiarów
n=10, 20, 30, 40
• otrzymana średnia z próby: 23.5 (dla n=10), 27.3
(n=20), 26.7 (n=30), 26.4 (n=40)
Przykład
Histogram z populacji a histogram próbkowy
• Dane dyskretne (klasy)
Oznaczamy: pi=frakcja osobników w i-tej
kategorii.
pi można ustalić w oparciu o histogram
skonstruowany dla całej populacji.
Oznaczamy: p̂i= estymator obliczony w oparciu o
histogram z próby (zaobserwowana częstość w
danej kategorii).
Rozmiar populacji =10000. 5 klas o tej samej
częstości pi= (?). W tabeli tylko kategorie 1. i 5.
n
p̂1
p̂5
10
0.1
0.3
20
0.1
0.35
40
0.2
0.25
80
0.15
0.225
160
0.1625
0.1875
320
0.1781
0.1938
n=10
4
Histogram a gęstość rozkładu
prawdopodobieństwa
• Liczbowe dane ciągłe
• więcej klas + jeszcze więcej danych=
bardziej regularny histogram
Gęstość rozkładu prawdopodobieństwa
• Gdy rozmiar próby dąży do
nieskończoności i szerokość klas dąży do
zera histogram zbiega do wykresu
gęstości rozkładu badanej zmiennej w
populacji.
Próbkowanie, cd.
• Prosta próba losowa:
Każdy osobnik z populacji może być wybrany
z tym samym prawdopodobieństwem.
Wybory poszczególnych osobników są od
siebie niezależne.
5
Jak wybrać prostą próbę losową:
• Mechanizm losujący, np.:
– Przyznajemy numer każdemu osobnikowi
– Zapisujemy numery na kulach
– Mieszamy kule w urnie
– Losujemy kule=numery=osobników, tyle razy, ile
wynosi rozmiar próby
• Do losowania możemy również użyć komputera lub
gotowej tablicy liczb (numerów) losowych (zob. dalej).
• Gdy rozmiar populacji nie jest ustalony lub nie mamy
dostępu do wszystkich osobników, zadanie jest dużo
trudniejsze.
Błędy w póbkowaniu, cd,
Przykład 1 (Ochotnicy)
Przykład 1 (Ochotnicy) cd.
• Dziennikarka Ann Landers spytała swoich
czytelników „Gdybyście mogli zacząć jeszcze raz: czy mielibyście znowu dzieci?”
• Odpisało prawie 10,000 czytelników i 70%
powiedziało: Nie!
• Populacja: wszyscy rodzice w USA
• Próba: pewna część populacji, która
zdecydowała się odpisać, n=10,000.
• Czasopismo Newsday przeprowadziło
„statystycznie zaplanowaną” ankietę, w
której 91% z 1,373 przepytanych rodziców
odpowiedziało: Tak!
• Ochotnicy: bardzo zła reprezentatywność
(badanie bezwartościowe).
Przykład 2
Przyczyny błędu Literary Digest:
Przewidywanie wyników wyborów prezydenckich
w USA, 1936:
• Literary Digest wysłało kwestionariusze do 10
milionów ludzi (25% głosujących)
• Odpowiedziało 2.4 miliona:
– Przewidywanie: Landon 57%, Roosevelt 43%
– Wynik wyborów: Roosevelt 62%, Landon 38%
• Uwagi: F.D. Roosevelt, Partia Demokratyczna,
prezydent w latach 1933-1945; Wielki Kryzys:
1929-1933
• Złe (dyskryminujące) próbkowanie
– Użyto książek telefonicznych, list
członkowskich klubów, listy zamówień
pocztowych, listy właścicieli pojazdów
• Brak odpowiedzi
– Tylko 24% odpowiedziało (niemal wyłącznie
Republikanie)
Uwaga: George Gallup przewidział poprawnie na
podstawie reprezentatywnej próbki 50 000 osób.
6
Obciążenie w próbkowaniu
• Obciążenie w próbkowaniu występuje, gdy
mamy do czynienia z systematycznym błędem
faworyzującym pewną część populacji. W
przypadku takiego obciążenia nie pomoże nawet
duży rozmiar próby.
• Losowy wybór elementów do próby zwykle
eliminuje takie obciążenie.
Warianty losowego wyboru:
Stratyfikacja
• Dzielimy populację na pod-populacje
podobnych jednostek (warstwy) i
oddzielnie próbkujemy w każdej warstwie.
• Przykłady warstw:
– studenci & studentki
– grupy zawodowe
– regiony geograficzne
Warianty losowego wyboru cd.:
Próbkowanie wielostopniowe
• Przykład: Badanie w USA dotyczące struktury
zatrudnienia. Ankietuje się około 60.000 gospodarstw
domowych co miesiąc.
• Poziom 1: losowa próba z 3,000 counties
• Poziom 2: losowa próba reprezentująca powiaty w
każdym wybranym county
• Poziom 3: losowa próba reprezentująca gminy w
każdym wybranym powiecie
• Poziom 4: losowa próba gospodarstw domowych w
każdej wybranej gminie
7

Wykład 10

Transkrypt

Podobne dokumenty

Wykład 2

Wykład 2

Zagadnienia: • Definicje podstawowych pojęć: średnia arytmetyczna

Regresja liniowa – klasyczna (metoda najmniejszych kwadratów)

Strona zewnętrzna

Zadanie. Troje przyjaciół ma wzrost równy odpowiednio

vívoactive®HR Przewodnik po rozmiarach