LEKCJA 3 – ostatnia lekcja statystyki :)

Transkrypt

LEKCJA 3 – ostatnia lekcja statystyki :)
(część 3/3 – ostatnia :) )
Szybkimi krokami zbliżamy się do końca nauki statystyki :) . W międzyczasie kilka osób poruszyło
ciekawe wątki i przypomniało mi się jeszcze kilka rzeczy, o które możecie być zapytani na
egzaminie.
Na początek mała powtórka :)
ZMIENNE ZALEŻNE/NIEZALEŻNE
W statystyce występują dwa rodzaje zmiennych – zależne i niezależne. Fachową definicją zmiennej
zależnej jest:
Zmienna, którą badacz chce wyjaśnić, nazywamy zmienną zależną. Jest nią bezpośredni lub
pośredni skutek oddziaływania zmiennych niezależnych. Jest to zjawisko, które badacz wyjaśnia,
lub którego poszukuje.
Natomiast zmienna niezależna to:
Zmienna, za pomocą której badacz chce wyjaśnić zmiany w wartościach zmiennej zależnej
nazywany zmienną niezależną. Zmienną niezależną jest ta, która wyjaśnia badane zjawisko i która
powoduje zmiany w wartościach zmiennych zależnych. Jest zakładaną przyczyną zmian wartości
zmiennej zależnej. Uchodzi za przyczynę zmiennej zależnej, która jest jej skutkiem.
Trudno to wyjaśnić definicyjnie, łatwo zrozumieć w praktyce :)
Krótko mówiąc:
Jeśli badamy „czy poczucie szczęścia zależy od ilości posiadanych pieniędzy”, to:
- „poczucie szczęścia” to zmienna zależna
- a „ilość posiadanych pieniędzy” to zmienna niezależna :)
Tak to najłatwiej zrozumieć. Jeśli będziecie o to zapytani, odpowiadajcie własnymi słowami – tak,
jak rozumiecie.
EFEKT GŁÓWNY
Czasem pada pytanie o to, czym jest efekt główny. Definicja poniżej:
w schemacie badawczym 2x2 wpływ, jaki jedna zmienna niezależna ma na zmienną zależną, bez
względu na drugą zmienną niezależną lub interakcję obu zmiennych
czyli gdybyśmy badali „poczucie szczęścia i empatyczność w zależności od ilości pieniędzy i płci”, to
efekt główny to np. to jak ilość posiadanych pieniędzy wpływa na empatyczność osoby (bez
względu na to, jak wpływa na to płeć) :)
PRZEDZIAŁ UFNOŚCI
Przedział ufności to coś zupełnie innego niż poziom istotności. Te dwa pojęcia najczęściej się ze
sobą mylą. Poziom istotności wytłumaczony został w lekcji 3 (część 1, strona 2). Przedział ufności
jest natomiast pojęciem związanym z estymacją przedziałową. Krótkie powtórzenie:
Jeśli mamy jakąś próbę (np. 100 osób), każdej z tych osób zrobimy np. test na IQ i wyciągniemy
średnią ze wszystkich 100 wyników, to otrzymamy średnią całej naszej próby. Ale co z tego? ;)
Nadal nie będziemy wiedzieli w jaki sposób nasza próba ma się do populacji (czyli średniego IQ
całej planety). I właśnie po to wymyślono przedziały ufności. Dzięki nim można określić, że np.
1/6
„z 95% dokładnością, średnia populacji znajduje się pomiędzy IQ=98,34 a IQ=101,66”. Oczywiście
możemy zakładać różne przedziały, pojawia się jednak wówczas zjawisko, które warto zapamiętać:
- im przedział ma większą dokładność (im bliżej 100%), tym będzie szerszy
Jest to logiczne, bo jeśli chcemy znać średnią z dokładnością 99,99% to będziemy mieli szerszą
„ramkę” w której ta średnia może być (np. gdzieś pomiędzy 85 a 115). Przy założeniu tak
wyśrubowanej dokładności mamy 0,01% szansy na to, że średniej tam jednak nie będzie. Gdy
zakładamy dokładność równą 90%, to przedział może być węższy np. <98; 102> ale za to już jest
10% szansy na to, że średnia jednak umknie poza przedział ;)
I to tak z grubsza tyle :)
Przedziały ufności wyznaczamy wzorem:
μ ∈ < X – z * Sx ; X + z * Sx >
lub:
X – z * Sx ≤ μ ≤ X + z * Sx
Ten wzór oznacza to samo, tylko jest inaczej zapisany. Można z niego wywnioskować to, że
przedział ufności jest symetrycznie ułożony po obu stronach średniej :)
z, którego używamy w tym wzorze odpowiada za dokładność, którą chcemy uzyskać:
z=
1
1,44
1,64
1,96
2,58
→
→
→
→
→
dokładność 68%
dokładność 85%
dokładność 90%
dokładność 95%
dokładność 99%
(dobrze jest się tego nauczyć na pamięć – procenty biorą się z odchyleń standardowych od
średniej – uproszczony wykres tego był w lekcji 1 na stronie 7).
Sx to błąd standardowy (wzór jest w lekcji 2 na stronie 10)
X to średnia z naszej próby
STANDARYZACJA
Na wszelki wypadek dobrze jest wiedzieć, czym jest standaryzacja :) .
Aby to zrozumieć wyobraźmy sobie taką historyjkę:
Jesteśmy znanymi naukowcami i bierzemy udział w międzygalaktycznej konferencji dla
psychologów. Właśnie występuje znany prelegent i opowiada historię swojego niezwykłego
pacjenta (możesz wymyślić ją jak chcesz ;) ). Na zakończenie mówi o wyniku testu IQ, który
osiągnął tenże pacjent – 140. Wszyscy biją brawo. Każdy wie, gdzie w populacji go to plasuje.
Teraz nadchodzi nasza kolej – po super atrakcyjnym zaprezentowaniu historii przypadku przed
międzygalaktycznym audytorium, nadchodzi czas na podsumowanie. I mówimy wszystkim, że w
naszym własnym teście empatyczności EA-x1 pacjent otrzymał wynik 67,84. Nikt nie wie co to
oznacza, ani czy to dobrze, czy źle ;) . Mówimy dalej – w tym teście średnia wynosi 58,16 a
odchylenie standardowe 6,79. Nadal nikt nie wie o co chodzi. Zanim ktoś policzy ile odchyleń
standardowych od średniej jest nasz pacjent, miną wieki.
Tutaj z ratunkiem przychodzi standaryzacja. Standaryzacja to metoda polegająca na zamianie
surowych wyników (IQ= 115, EA-x1=71,74 itp.) na ilość odchyleń standardowych od średniej
(z=1, z=2...). Dzięki temu, po przeliczeniu nasz zagmatwany wynik będzie zrozumiały dla każdego
2/6
(„pacjent ma empatyczność w trzecim odchyleniu standardowym”).
Wzór na standaryzację – lekcja 2, strona 10 :) . Znajdź go i przepisz poniżej:
z=
Jeśli padnie polecenie narysowania rozkładu normalnego wystandaryzowanego, to po prostu
rysujemy rozkład normalny:
Zero na środku oznacza, że na środku wypada średnia (brak odchyleń standardowych).
Gdyby rozkład miał być niewystandaryzowany, wtedy zamiast zera byłby średni wynik surowy (np.
IQ=100).
OBSZAR KRYTYCZNY
Otwórz notatki na lekcji 3 (część 1, dół pierwszej strony) i przypomnij sobie co to jest wartość
krytyczna.
Obszar krytyczny to po prostu obszar w którym musi znaleźć się wynik naszego testu, aby móc
odrzucić hipotezę zerową. Przykładowo – jeśli nasze t jest większe od t krytycznego (odczytanego
z tablic), to znaczy, że nasze t znalazło się w obszarze krytycznym. Graficznie ilustruje się to tak:
← a tutaj X do
zamknięcia okienka ;)
3/6
KORELACJA (Test r-Pearsona)
To mój ulubiony temat :D . Wierzę, że Ty też go polubisz :)
Korelacja to dość użyteczna metoda służąca do sprawdzenia, czy dwie zmienne mają ze sobą jakiś
związek. Możemy sprawdzać dzięki niej wszystko, co nam przyjdzie do głowy, jeśli zmienna jest
mierzalna (czyli znajduje się w skali przedziałowej lub stosunkowej, czyli jest ciągłymi cyframi) –
np. sprawdzamy czy jest wpływ między wzrostem, a ilością godzin spędzonych przed TV, albo
między rozmiarem buta, a długością.. nogi. I tak dalej ;) . Możesz badać, co tylko chcesz i co Cię
interesuje :)
Aby to zbadać musimy oczywiście mieć odpowiednio liczną (reprezentatywną) próbę, którą
zbadamy :) . W naszym przykładzie będziemy badać, czy jest korelacja między ilością zjedzonych
batoników i wagą oraz ilością zjedzonych batoników i stanem portfela.
Wyobraźmy sobie, że zrobiliśmy badania i nałożyliśmy je na wykres. W idealnej formie powinien
nam wyjść nam któryś z takich przypadków:
Na osi X (poziomej) piszemy jedną badaną rzecz (np. ilość jedzonych batoników dziennie), na osi Y
(pionowej) zapisujemy drugą badaną rzecz – np. wagę osoby, lub stan jej portfela.
W rzeczywistości wykresy nie są tak czytelne i wyglądają mniej więcej tak:
Teraz, mając zbadane osoby wszystkie dane podstawilibyśmy do wzoru na r-Pearsona (inaczej
mówiąc „ro” Pearsona). Wzór ten jest podany w lekcji 2 na stronie 2.
4/6
Wynik, który uzyskamy może mieć wartości tylko z przedziału <-1; 1> . Czyli może mieć i -1, i 0, i
0,2, i 0,4532. Pamiętaj, że nie może być ani mniejszy, ani większy od wartości granicznych <-1;1>.
R mówi nam o trzech bardzo istotnych rzeczach – o tym, czy jest jakiś związek między oboma
badanymi cechami, o tym czy związek jest dodatni, czy ujemny (o tym za chwilę) i mówi nam też o
sile związku.
Jeśli r=0 wtedy korelacja nie występuje. Oznaczałoby to, że wykres wyglądałby tak:
Czyli wszystkie wartości byłyby rozproszone równomiernie, nie da się przeciągnąć nigdzie prostej
korelacji (prostej, która obrazowałaby jakoś tę zależność) nie byłoby między nimi związku. W
przypadku batoników oznaczałoby to, że ilość zjadanych codziennie batoników nie ma wpływu na
wagę człowieka :)
Jeśli r>0 wtedy mówimy o korelacji dodatniej. Oznacza to, że jest zależność między oboma
wartościami. Wykres wyglądałby wtedy tak:
Waga osoby
Ilość zjedzonych batoników
Możemy z niego odczytać, że im więcej ktoś je batoników w ciągu dnia, tym więcej waży.
Jeśli r<0, wtedy mamy do czynienia z korelacją ujemną. Wykres:
Ilość $
Ilość kupowanych batoników
Mówi nam to o tym, że im więcej kupujesz batoników, tym mniej masz pieniędzy.
5/6
Podchwytliwym pytaniem na egzaminie (które u mnie w grupie się pojawiło), jest pytanie, jaka
korelacja wystąpi, jeśli punkty ułożą się tak:
Ponieważ z założenia korelacja jest liniowa (czyli kropki mają być zbliżone do jakiejś prostej, aby
mogła zaistnieć), w tej sytuacji mówimy śmiało – nie występuje korelacja liniowa.
(W ramach ciekawostki – p.Aranowska nazywa tak wyglądający wykres „tropangą” - to taki
„robal” ;) )
• Siła związku
Im nasze r jest bliżej 1, tym związek między zmiennymi jest silniejszy, im bliższa zero, tym bardziej
go nie ma.
Jeśli nasze r równa się 1 oznaczałoby to, że zawsze, w każdej sytuacji, ktoś kto je X batoników
dziennie musi ważyć wagę Y (niezależnie od płci, wieku, wzrostu itd.). Gdyby r=0 oznaczałoby to,
że u każdego jest inaczej. I analogicznie poniżej zera – jeśli r=-1 oznacza to, że zawsze, gdy
wartość zakupionych batoników rośnie, ilość pieniędzy w portfelu spada i nie ma innej opcji. Gdyby
r było równe -0,5 oznaczałoby to, że czasem jest tak, a czasem nie.
Powstała tabelka z miarą sił związku, jest dość prosta, polecam :)
r:
siła związku:
0 – 0,2
0,2 – 0,4
0,4 – 0,7
0,7 – 0,9
0,9 – 01
bardzo słaby
słaby
przeciętny
silny
bardzo silny
Warto przy tym pamiętać, że to umowne założenia – w psychologii wartość korelacji w badaniach
wychodzi na poziomie 0,2-0,3, jeśli wyjdzie na poziomie 0,6 to wszyscy się cieszą, a 0,8 uważają
za sfałszowane ;) . W fizyce wartość r jest bardzo duża (0,9 – 1), a aby coś było prawem
fizycznym r musi być równie 1. Po pytaniu o siłę związku możesz powiedzieć tą ciekawostkę, ale
jeśli nie czujesz się pewnie, lepiej trzymaj się tabelki :)
Pamiętaj o rozkładzie r-Pearsona (lekcja 1, strona 7). Zapamiętaj też koniecznie założenia (lekcja
3, część 2, strona 5), wyraz „homoscedastyczność” i pamiętaj, że w wypadku korelacji, dla
każdego X, Y ma rozkład normalny i dla każdego Y, X ma rozkład normalny. To trzeba po prostu
zapamiętać :)
Powodzenia :) . Pamiętaj, aby na egzaminie zrobić dobry nastrój – uśmiechaj się, nie daj po sobie
poznać, że nie umiesz, jeśli nie umiesz (nie mów „yyy... jak to było?”, mów „ojej, jeszcze rano to
powtarzałem” ;) albo „o, to dobre pytanie...”). Masz prawo się zastanawiać, nie masz prawa się
poddać :)
Pamiętaj aby nie palić tuż przed egzaminem (p.Aranowska jest bardzo czuła na tym punkcie, więc nie
tylko sobie uprzykrzysz życie, ale i innym ;) ). Pamiętaj też, że są osoby, które nie odpowiedziały na
żadne pytanie i zaliczyły. Trzymam za Ciebie kciuki i wierzę, że zdasz :) . Wszystkiego dobrego!
6/6

LEKCJA 3 – ostatnia lekcja statystyki :)

Transkrypt

Podobne dokumenty

Specjalista IT/Programista AS 400 nr ref. AS400/20101109

Rachunek prawdopodobieństwa i statystyka matematyczna 16

Dokładność pomiaru oscyloskopu

Dla następnej generacji w analizie składu ciała wybierz

powiedzmy