STATYSTYKA OPISOWA

Transkrypt

STATYSTYKA OPISOWA

SUM - WLK ‘2011
WYKŁAD CZWARTY:
BIOSTATYSTYKA
Prof. dr hab. med. Jan E. Zejda
! UWAGA !
SLAJDY WYBRANE I ZMODYFIKOWANE
POD KĄTEM PREZENTACJI W INTERNECIE
TREŚĆ WYKŁADU
• Podstawowe zadania statystyki
• Specyfika biostatystyki
- zarys koncepcji sygnału i szumu
- zmienne i ich rodzaje
• Statystyka opisowa
- prezentacja zmiennych ilościowych
- prezentacja zmiennych jakościowych
• Statystyka analityczna
- znaczenie pytania badawczego
- hipotezy i ich weryfikacja
- koncepcja statystycznej znamienności
- proste testy statystycznej znamienności różnic
- proste tety statystycznej znamienności zależności
• Memento
epi demos logos
PODSTAWOWE ZADANIA STATYSTYKI
Gromadzenie danych
Klasyfikacja danych
Prezentacja danych
Analiza danych
Intepretacja wyników analizy danych
STATYSTYKA
Dyscyplina nauki zajmująca się formułowaniem metod liczbowego
przetwarzania indywidualnych informacji statystycznych w celu
opisu i wnioskowania statystycznego
Nowa Encyklopedia Powszechna PWN, 1997
informacje o zjawiskach biologicznych
BIOSTATYSTYKA
Biostatystyka jest to gałąź statystyki uwzględniająca specyfikę
zjawisk biologicznych, a w szczególności skutki zmienności
biologicznej stanowiącej przejaw zróżnicowania procesów
fizjologicznych i patologicznych, charakteryzujących stan zdrowia
i choroby.
SPECYFIKA BIOSTATYSTYKI
Zmienność biologiczna w zakresie:
• narażenia;
• podatności;
• odpowiedzi biologicznej;
• wywiadu chorobowego;
• etc.
zidentyfikować i kontrolować źródła zmienności
PRZYKŁADY ZMIENNOŚCI
Wzrost i masa ciała
Palenie tytoniu a rak płuc
Nefropatia jako powikłanie cukrzycy
Skuteczność leku hipotensyjnego
Tętno
Stężenie hormonów sterydowych
„Stan zdrowia”
KLASYFIKACJA ZMIENNOŚCI
BIOLOGICZNEJ
• Zmienność międzyosobnicza: np. skurczowe
ciśnienie tętnicze krwi u 10 zdrowych
studentów w wieku 24-25 lat
• Zmienność wewnątrzosobnicza: np.
skurczowe ciśnienie tętnicze krwi u 1
zdrowego studenta, zmierzone codziennie o
godzinie 8:00 przez 7 dni
SYGNAŁ vs SZUM
Gdy istnieje duży sygnał jest on widoczny (ergo: wykrywalny)
nawet w obecności dużego szumu
Niewielki sygnał „tonie” w szumie
Co jest sygnałem, co jest szumem ?
Identyfikacja i pomiar sygnału wymaga wiedzy
na temat potencjalnych źródeł szumu,
umiejętności wykazania jego obecności,
kontroli jego maskującego wpływu
Biostatystyka raz jeszcze
ale
Biostatystyka to nie panaceum – to tylko
narzędzie
Przede wszystkim METODOLOGIA !!
ZMIENNE
RODZAJE ZMIENNYCH
(FORMAT I FUNKCJA)
TERMINOLOGIA STOSOWANA
W OPISIE BAZY DANYCH
Obserwacje (1 pacjent=1 obserwacja)
Zmienne
Nr
PLEC
WZROST
KSD
FVC
FEV1
1
1
178
2
3200
1800
2
1
169
1
3600
2500
3
2
168
5
3450
2040
4
1
175
3
3750
1750
5
2
163
4
3900
1900
Nazwa Zmiennej
Wartość Zmiennej
zmienna, albowiem naturalna zmienność wartości
RODZAJE ZMIENNYCH
PROSTY PODZIAŁ UWGLĘDNIAJĄCY FORMAT
Zmienne ilościowe (wzrost, FVC, FEV1)
Zmienne jakościowe (płeć, KSD)
RODZAJE ZMIENNYCH
PRAKTYCZNY PODZIAŁ UWGLĘDNIAJĄCY FORMAT
ZMIENNE
ILOŚCIOWE
JAKOŚCIOWE
transformacja
RODZAJE ZMIENNYCH
PRAKTYCZNY PODZIAŁ UWGLĘDNIAJĄCY FUNKCJĘ
Zmienna zależna
(w danej analizie: jedna zmienna)
Zmienne niezależne
(w danej analizie jedna lub więcej zmiennych)
Funkcja zmiennej zależy od celu: np. czy KSD zależy od FEV1?
KSD ~ FEV1
zmienna zależna
zmienna niezależna
DWA OBSZARY STATYSTYKI
-1Statystyka Opisowa
(ile ?, jak często ?)
(„charakterystyka”)
-2Statystyka Analityczna
↓
Szacowanie
↓
Testowanie Hipotez
wzrost
bilirubinemia
dochód
masa ciała
opór dróg oddechowych
glikemia
STATYSTYKA OPISOWA
CELE
czas karmienia piersią
stężenie ołowiu w krwi
czas hospitalizacji
obwód talii
ciśnienie tętnicze krwi
STATYSTYKA OPISOWA - CEL
Prezentacja danych w postaci tabelarycznej i graficznej
(histogramy, wykresy liniowe, itd.) oraz za pomocą
zintegrowanej formy matematycznej – liczby
(przy pomocy tzw. statystyk – wartość średnia, częstość, itd.)
…………………………………………………………………………….
Częstość (%) poszczególnych klas cholesterolemii w grupie mężczyzn
40
(%)
30
20
10
0
175
205
235
265
295
325
355
Cholesterolemia (mg/dl)
Średnie stężenie cholesterolu w badanej grupie mężczyzn 215 mg/dl
wzrost
bilirubinemia
dochód
masa ciała
opór dróg oddechowych
glikemia
STATYSTYKA OPISOWA
PREZENTACJA ZMIENNYCH
czas karmienia piersią ILOŚCIOWYCH
stężenie ołowiu w krwi
czas hospitalizacji
obwód talii
ciśnienie tętnicze krwi
WARTOŚĆ ŚREDNIA
I ODCHYLENIE STANDARDOWE
Wartość średnia i odchylenie standardowe opisują rozkład wartości zmiennej ilościowej
35
30
25
20
%
15
10
m
a
x
x
+
2
S
X
x
-2
S
0
m
in
5
Rozkład normalny:
95% wszystkich wartości mieści się w przedziale x-2 os … x+2 os
precyzyjnie mówiąc: 1,96
DOMINUJĄCE ZNACZENIE ROZKŁADU
NORMALNEGO W ANALIZIE DANYCH
-1WIĘKSZOŚĆ PROCEDUR SZACOWANIA I TESTOWANIA HIPOTEZ
(ODNOŚNIE ZALEŻNOŚCI I RÓŻNIC) WYKORZYSTUJE METODY STATYSTYCZNE,
KTÓRE ZOSTAŁY WYPRACOWANE W OPARCIU O KONCEPCJĘ ROZKŁADU NORMALNEGO
-2ZJAWISKA BIOLOGICZNE SĄ ŁATWIEJ POSTRZEGANE PRZY ODWOŁANIU SIĘ
DO ROZKŁADU NORMALNEGO („WARTOŚĆ PRZECIĘTNA” I „WARTOŚCI EKSTREMALNE”)
OPIS ZMIENNEJ ILOŚCIOWEJ
MIARY POŁOŻENIA (MIARY TENDECJI CENTRALNEJ)
Średnia arytmetyczna, mediana, modalna
MIARY ROZPROSZENIA
Zakres, zmienność, odchylenie standardowe
X ± SD
(„tablica rejestracyjna zmiennej ilościowej”)
X ± SD
Współczynnik Zmienności
„im mniejsza wartość ‘SD’ tym mniejsza zmienność”
generalnie TAK, ale rola ‘X’, dlatego:
Współczynnik Zmienności (WZ) = (s / x) * 100%
PRAKTYCZNE ZASTOSOWANIE WSPÓŁCZYNNIKA ZMIENNOŚCI
porównanie rozkładu jednej zmiennej w dwóch różnych grupach
porównanie rozkładu kilku zmiennych w jednej grupie
odchylenie standardowe ≠ błąd standardowy
hiperglikemia
płeć
nadwaga
obturacja
jakość życia
kliniczny stopień duszności
zawód
STATYSTYKA OPISOWA
PREZENTACJA ZMIENNYCH
JAKOŚCIOWYCH
wykształcenie
cień okrągły w płucach
krwotok
rodzaj porodu
hipercholesterolemia
mutacja
ROZKŁAD ZMIENNEJ JAKOŚCIOWEJ
matematyczna i graficzna prezentacja częstości
poszczególnych wartości zmiennej jakościowej
(zasada wzajemnie wykluczających się wartości)
Rozkład zmiennej „nastrój” u 50 badanych:
- 35 optymistów
- 15 pesymistów
zmienna „nastrój” ma dwie wartości:
„optymista” i „pesymista”
ROZKŁAD ZMIENNEJ JAKOŚCIOWEJ
(sposób prezentacji tabelarycznej)
WYNIKI TERAPII „X” W GRUPIE 75 CHORYCH
Zmienna
Objawy
uboczne
Wartość
zmiennej
Częstość
bezwzględna
(n)
Częstość
względna (%)
Częstość
skumulowana
(%)
Brak
10
13,3
13,3
Słabe
25
33,3
46,6
Średnie
20
26,6
73,2
Duże
12
16,4
89,4
8
10,6
100,0
75
100,0
B. duże
Razem
-1Statystyka Opisowa
-2Statystyka Analityczna
↓
Testowanie Hipotez
Modelowanie Związków Przyczynowo-Skutkowych
Ocena Wiarygodności Pomiaru
itp.
-1-
-2-
Statystyka Opisowa
Statystyka Analityczna
↓
Testowanie Hipotez
Modelowanie Związków Przyczynowo-Skutkowych
Ocena Wiarygodności Pomiaru
itp.
ilościowe ← zmienne → jakościowe
proste ← metody → złożone
ZNACZENIE PYTANIA
BADAWCZEGO
PROCES POZNANIA NAUKOWEGO
W PRAKTYCE
Gruntowna wiedza
Dobry warsztat („dobra praktyka epidemiologiczna”)
Twórcze wykorzystanie informacji (interpretacja)
Inwencja, iluminacja, przypadek
Umiejętne komunikowanie wyników
TREŚĆ PYTANIA BADAWCZEGO
INICJUJE I WARUNKUJE SPOSÓB
WNIOSKOWANIA STATYSTYCZNEGO
-1STATYSTYKA
OPISOWA
-2STATYSTYKA
ANALITYCZNA
WNIOSKOWANIE
STATYSTYCZNE
Wnioskowanie Statystyczne
=
Wnioskowanie dotyczące natury zjawiska w populacji na podstawie
obserwacji obejmującej próbę reprezentującą populację
DGN populacyjna formułowana na podstawie DGN w próbie zawiera
niepewność, co jest domeną teorii prawdopodobieństwa,
a zatem wymaga opracowań statystycznych
HIPOTEZY
HIPOTEZA
(sąd, testowalne stwierdzenie)
Hipoteza: Częstość występowania otyłości zależy od tradycji żywieniowych
Hipoteza musi podlega weryfikacji – albo się ostanie jako prawdziwa, albo
zostanie uznana za fałszywą: jak weryfikować zależność od tradycji ?
↓
Hipoteza: Częstość występowania otyłości jest większa wśród osób
preferujących tradycyjny styl żywienia
Skąd pewność, że częstość jest większa a nie mniejsza ?
↓
Hipoteza: Częstość występowania otyłości różni się pomiędzy grupami
o różnym stylu żywienia
√ Problem: na gruncie metodologii badań naukowych nie jest możliwe
weryfikowanie hipotezy zakładającej różnicę
(dowód słuszności tego stwierdzenia wykracza poza program kursu)
SOLUTIO - I
weryfikacja hipotezy zakładającej brak różnicy
Częstość występowania otyłości nie różni się
pomiędzy grupami o różnym stylu żywienia
WYNIK WERYFIKACJI (TESTOWANIA)
albo odrzucenie hipotezy
albo brak podstaw do odrzucenia hipotezy
Tak, to prawda (w świetle moich danych)
tu interpretacja jest prosta
SOLUTIO - I
weryfikacja hipotezy zakładającej brak różnicy
Częstość występowania otyłości nie różni się
pomiędzy grupami o różnym stylu żywienia
WYNIK WERYFIKACJI (TESTOWANIA)
albo odrzucenie
albo brak podstaw do odrzucenia
Co w sytuacji odrzucenia hipotezy ?
SOLUTIO - II
Układ 2 hipotez H0 (hipoteza zerowa) i HA (hipoteza alternatywna)
H0 – brak różnicy, brak zależności, brak efektu
HA – obecna różnica, obecna zależność, obecny efekt
STRATEGIA „ALBO-ALBO”
odrzucenie H0 powoduje aktualność HA
nieodrzucenie H0 powoduje nieaktualność HA
TERTIUM NON DATUR
SFORMUŁOWANIE
WERYFIKOWALNEJ HIPOTEZY
H0
Wartośċ średnia A
Częstośċ A
Czas przeżycia A
Siła zależności A
=
=
=
=
itd.
Wartośċ średnia B
Częstośċ B
Czas przeżycia B
Siła zależności B
SFORMUŁOWANIE
WERYFIKOWALNEJ HIPOTEZY
HA
Wartośċ średnia A ≠ Wartośċ średnia B
Częstośċ A ≠ Częstośċ B
Czas przeżycia A ≠ Czas przeżycia B
Siła zależności A ≠ Siła zależności B
itd.
SPECYFICZNE BŁĘDY TOWARZYSZĄCE
TESTOWANIU HIPOTEZ
Źle się dzieje, gdy prawdziwa H0 jest odrzucona
↓
Błąd Typu I (błąd α)
Prawdopodobieństwo błędu I istnieje zawsze – na jakie się godzimy ?
JEST TO STATYSTYCZNA ZNAMIENNOŚĆ BADANIA
Źle się dzieje, gdy fałszywa H0 nie jest odrzucona
↓
Błąd Typu II (błąd β)
Założenie to wyznacza obszar braku błędu równy (1- β )
JEST TO MOC BADANIA (1-ß)
DECYZJA W SPRAWIE POZIOMU
STATYSTYCZNEJ ZNAMIENNOŚCI
I MOCY TESTU
W wyniku testu
dochodzi do:
H0 może być albo-albo:
Prawdziwa
Fałszywa
Nieodrzucenia H0
OK
Błąd typu II
Odrzucenia H0
Błąd typu I
OK
KONWENCJA
BŁĄD TYPU I = α = 0,05
BŁĄD TYPU II = β = 0,20
Akceptujemy przypadkowość,
ale niech będzie ona rzadkim
zjawiskiem!
STATYSTYCZNA ZNAMIENNOŚĆ
Zmniejszenie RR u chorych stosujących lek A może wystąpić całkiem
przypadkowo, nawet gdy lek nie jest aktywny farmakologicznie.
Nie zdarza się to często.
Jaka częstość może być uznana za rzadkie zdarzenie
?
CZĘSTA INTERPRETACJA RZADKICH ZDARZEŃ
Specyfika rozkładu normalnego danej zmiennej wynika z faktu, że pod krzywą
znajduje się 100% możliwych wartości zmiennej, ale ich gęstość nie jest
jednorodna (wartości: częste, mniej częste, jeszcze mniej częste, rzadkie)
40
30
% 20
10
0
A
2.5%
0,025
X
95%
0,95
„rzadkie wartości”
B
2.5%
0,025
„rzadkie wartości”
CZĘSTOŚĆ RZADKICH WARTOŚCI = 2,5% + 2,5% = 5%
CZĘSTOŚĆ RZADKICH WARTOŚCI = 0,025 + 0,025 = 0,05
X ± 1.96 SD definiuje obszar obejmujący 95% możliwych wartości,
To co pozostaje to 5% obszar rzadkich wartości (0,05)
STATYSTYCZNA ZNAMIENNOŚĆ
≠
KLINICZNA ZNAMIENNOŚĆ
Przy dużych grupach nawet trywialna różnica
może być statystycznie znamienna
(konsekwencja wzoru matematycznego)
TESTOWANIE HIPOTEZ
DWA TYPY HIPOTEZ – DWA TYPY TESTÓW
Hipotezy odnośnie różnicy
Hipotezy odnośnie zależności
Weryfikacja hipotez polega na analizie danych i poddaniu ich ocenie przy
użyciu testów statystycznej znamienności różnic lub zależności
Testy statystycznej znamienności różnic
Testy statystycznej znamienności zależności
TESTY STATYSTYCZNEJ ZNAMIENNOSCI
A RODZAJ ZMIENNYCH
TESTY DLA ZMIENNYCH ILOŚCIOWYCH
TESTY DLA ZMIENNYCH JAKOŚCIOWYCH
TESTY STATYSTYCZNEJ ZNAMIENNOSCI
A CHARAKTER ROZKŁADU ZMIENNYCH
TESTY PARAMETRYCZNE
TESTY NIEPARAMETRYCZNE
TESTY STATYSTYCZNEJ ZNAMIENNOŚCI
RÓŻNICE
ZALEŻNOŚCI
ZMIENNE
ZMIENNE
ZMIENNE
ZMIENNE
ILOŚCIOWE
JAKOŚCIOWE
ILOŚCIOWE
JAKOŚCIOWE
TESTY STATYSTYCZNEJ
ZNAMIENNOŚCI RÓŻNIC
< GENERALIA >
KONCEPCJA SYGNAŁU I SZUMU
25
Sygnał
20
15
10
Szum
5
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
EFEKT = SYGNAŁ/SZUM
Im większy ‘sygnał’ tym większy efekt
Im mniejszy ‘szum’ tym większy efekt
↓
Im większa różnica tym większy efekt
Im mniejsze rozproszenie tym większy efekt
EFEKT = SYGNAŁ/SZUM
Im większy ‘sygnał’ tym większy efekt
Im mniejszy ‘szum’ tym większy efekt
↓
Im większa różnica tym większy efekt
Im mniejsze rozproszenie tym większy efekt
WYNIK TESTU
STATYSTYCZNEJ ZNAMIENNOŚCI
Wynikiem testu jest statystyka (konkretna liczba)
Np. wynikiem testu t-Studenta jest statystyka ‘t’
t = 2,04
t = ( X1 – X2 ) / (SDx1-x2 / √ n )
duży sygnał – duże ‘t’
mały szum – duże ‘t’
INTERPRETACJA WYNIKU TESTU
‘t’ = 2,04 ale czy jest to wartość statystycznie znamienna ?
3
5
3
0
2
5
2
0
1
5
1
0
duże ‘t’ (-)
małe ‘t’ (-)
0
małe ‘t’ (+)
duże ‘t’ (+)
2SE
X
0
2SE
5
Gdy wartość ‘t’ lokuje się na końcu rozkładu („wpada w strefę rzadkich
zdarzeń”) wówczas można przyjąć, że uzyskany wynik jest na tyle rzadki, iż nie
może być dziełem przypadku. Jest to zatem wynik statystycznie znamienny.
Kryterium Statystycznej Znamienności – ‘p’ (zwyczajowo <5% = <0,05)
WYNIK TESTU STATYSTYCZNEJ ZNAMIENNOŚCI:
STATYSTYKA I JEJ PRAWDOPODOBIEŃSTWO (np. t=2,04, p=0,04)
TESTY STATYSTYCZNEJ
(ROZKŁADÓW)
< ZMIENNE ILOŚCIOWE >
OCENA
STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNIC
! KLUCZOWE PYTANIA !
Liczba porównywanych grup ?
Dwie grupy
lub
Więcej niż dwie grupy
Rozkład zmiennych ?
Rozkład normalny
lub
Rozkład odbiegający od normalnego
wg: Pereira-Maxwell F.: A-Z of Medical Statistics. A companion for critical appraisal. Arnold, London 1998
DANE NIESPAROWANE I DANE SPAROWANE
(LICZBA LCD4 W GRUPACH NNO+ I NNO-)
Grupa NNO+
„Dzisiaj”
Porównanie
LCD4
↔
Grupa NNO-
↕ Porównanie ↕
LCD4
„Jutro”
(np. po terapii
sterydami)
Grupa NNO+
POZIOMO:
TEST DLA DWÓCH ŚREDNICH, REPREZENTUJĄCYCH DWIE
PORÓWNYWANE, RÓŻNE GRUPY
PIONOWO:
TEST DLA DWÓCH ŚREDNICH, REPREZENTUJĄCYCH JEDNĄ
GRUPĘ (DWA POMIARY W ODSTĘPIE CZASOWYM)
OCENA
ZMIENNE ILOŚCIOWE
Dane pochodzące z niezależnych pomiarów (dane niesparowane)
Scenariusz: masa ciała chłopców (grupa A) i dziewcząt (grupa B)
-Liczba grup 2:
test t-Studenta, gdy rozkład normalny
test Mann-Whitney, gdy rozkład nie-normalny
-Liczba grup 3 lub więcej:
analiza wariancji (‘anova’), gdy rozkład normalny
test Kruskall-Wallis’a, gdy rozkład nie-normalny
Dane pochodzące z zależnych pomiarów (dane sparowane)
Scenariusz: masa ciała dziewcząt przed (grupa A1) i po kuracji (grupa A2) odchudzającej
-Liczba grup (punktów pomiaru) 2:
test t-Studenta dla par, gdy rozkład normalny
test Wilcoxon’a dla par, gdy rozkład nie-normalny
- Liczba grup 3 lub więcej:
brak standardowych metod
TEST T STUDENTA I ANOVA TO TESTY
PARAMETRYCZNE, OPRACOWANE DLA ANALIZ
ZMIENNYCH O ROZKŁADZIE NORMALNYM
gdy rozkład analizowanej zmiennej nie spełnia kryterium rozkładu normalnego
(weryfikacja np. testem Shapiro-Wilk’a);
gdy mała (n<30) liczba obserwacji w próbie;
gdy pomiary zmiennej odznaczają się ograniczoną dokładnością (mała precyzja
narzędzia pomiarowego)
gdy pomiary mają charakter półilościowy (np. skala Apgar) lub ograniczoną
dokładność
TESTY NIEPARAMETRYCZNE
PODSTAWOWE TESTY NIEPARAMETRYCZNE
DLA OCENY RÓŻNIC
Test znaków (sign test) odwołuje się do wartości mediany i liczby wartości
powyżej (+) i poniżej (-) mediany (test dla prób niezależnych lub sparowanych)
– małe zastosowanie
…………………………………………………………………………………………………
2 grupy, niesparowany: Test mediany i jego modyfikacja – test Mann-Whitney;
test Wilcozon’a dla dwóch grup
(alternatywa dla testu t-Studenta)
3 lub więcej grup, niesparowany: Test Kruskal-Wallis
(alternatywa dla ANOVY)
2 grupy, sparowany: Test znaków Wilcoxon’a dla danych sparowanych
(ponadto stosowany tam, gdzie pomiar reprezentuje wartość
uzyskaną jako wskaźnik, współczynnik, itp.)
TESTY STATYSTYCZNEJ
(ROZKŁADÓW)
< ZMIENNE JAKOŚCIOWE >
OCENA
! KLUCZOWE PYTANIA !
Oczekiwana częstość wartości zmiennej jakościowej ?
<5
lub
5+
Liczba porównywanych grup ?
Dwie grupy
lub
Więcej niż dwie grupy
Zależność obserwacji ?
Dane sparowane
lub
Dane niesparowane
wg: Pereira-Maxwell F.: A-Z of Medical Statistics. A companion for critical appraisal. Arnold, London 1998
OCENA
ZMIENNE JAKOŚCIOWE
Dane pochodzące z niezależnych pomiarów (dane niesparowane)
Scenariusz: otyłość (%) wśród chłopców (grupa A) i dziewcząt (grupa B)
-Liczba grup 2:
test chi2, test Fisher’a (dla małej częstości)
-Liczba grup 3 lub więcej:
test chi2
Dane pochodzące z zależnych pomiarów (dane sparowane)
Scenariusz: otyłość (%) wśród dziewcząt przed (grupa A1) i po kuracji (grupa A2)
odchudzającej
-Liczba grup (punktów pomiaru) 2:
test McNemar’a
- Liczba grup 3 lub więcej:
test Stuart-Maxwell’a
TESTY STATYSTYCZNEJ ZNAMIENNOŚCI
RÓŻNICE
ZALEŻNOŚCI
ZMIENNE
ZMIENNE
ZMIENNE
ZMIENNE
ILOŚCIOWE
JAKOŚCIOWE
ILOŚCIOWE
JAKOŚCIOWE
TESTY STATYSTYCZNEJ
ZNAMIENNOŚCI ZALEŻNOŚCI
< GENERALIA >
H0: brak zależności
(PROSTE) TESTY
STATYSTYCZNEJ ZNAMIENNOŚCI ZALEŻNOŚCI
ZMIENNA ZALEŻNA
← ZMIENNA NIEZALEŻNA
…………………………………………………………………………………………………………………………………………………………………………………………
..
…………………………………………………………………………………………………………………………………………………………………………………………..
Dwie Zmienne Ilościowe
Masa (kg)
Wzrost (cm)
…………………………………………………………………………………………………………………………………………………………………………………………
..
…………………………………………………………………………………………………………………………………………………………………………………………..
Dwie Zmienne Jakościowe
Mutacja (tak/nie)
Narażenie na WWA (tak/nie)
…………………………………………………………………………………………………………………………………………………………………………………………
..
…………………………………………………………………………………………………………………………………………………………………………………………..
(PROSTE) TESTY
ZMIENNA ZALEŻNA
…………………………………………………………………………………………………………………………………………………………………………………………
..
…………………………………………………………………………………………………………………………………………………………………………………………..
Masa (kg)
Wzrost (cm)
…………………………………………………………………………………………………………………………………………………………………………………………
..
…………………………………………………………………………………………………………………………………………………………………………………………..
Mutacja (tak/nie)
rozkład
normalny
Narażenie
na WWA
(tak/nie)
…………………………………………………………………………………………………………………………………………………………………………………………
..
…………………………………………………………………………………………………………………………………………………………………………………………..
ANALIZA KORELACJI LINIOWEJ
Zmienna Ilościowa i Jakośrozkład
ciowa nie-normalny
FEV1 (%w.n.)
Zmiany rtg w płucach (tak/nie)
…………………………………………………………………………………………………………………………………………………………………………………………
..
…………………………………………………………………………………………………………………………………………………………………………………………..
ANALIZA REGRESJI LINIOWEJ
Zmienna Jakościowa i Ilościowa
Hiperglikemia (tak/nie)
Podaż kalorii na dobę (kcal)
ANALIZA
KORELACJI LINIOWEJ
KORELACJA IQ ~ Pb-B
100
IQ [j]
80
60
40
20
0
0
2
4
6
Pb-B [ug/dl]
8
10
12
KORELACJA (WZAJEMNA RELACJA)
Współczynnik Korelacji r zawiera się w przedziale od –1 do +1
r = [NΣxy – (Σx)( Σy)] / √[NΣx2 – (Σx)2][NΣy2 – (Σy)2]
r(IQ-PbB) = - 0,3
WSPÓŁCZYNNIK KORELACJI LINIOWEJ
‘r’ [-1, +1]
Praktyczna interpretacja wartości liczbowej
0,0 < |r| < 0,3
0,3 < |r| < 0,7
0,7 < |r|
„słaba korelacja”
„średnia korelacja
„silna korelacja”
ale czy znamienna statystycznie ?
ANALIZA KORELACJI LINIOWEJ
JEST TESTOWANIEM HIPOTEZY
H0: r = 0
(HA: r ≠ 0)
ergo
poza obliczeniem ‘r’ konieczne jest podanie wartości ‘p’
(można także obliczyć 95% PU – gdy nie zawiera ‘0’ wówczas r ≠ 0)
ALTERNATYWA NIEPARAMETRYCZNA (r)
Nazwa ‘współczynnik korelacji liniowej” mnemotechnicznie przywołuje wymóg
analizy wartości zmiennych mierzonych według skali liniowej. Gdy pomiary
pochodzą z innych skal (np. stopień duszności, poziom samopoczucia, średnica
bąbla itp.) wówczas zasadne metody odwołujące się do rankingu wyników:
ANALIZA KORELACJI METODĄ SPEARMANA
(dla zmiennych o normalnym rozkładzie metoda Pearson’a)
NIEPOROZUMIENIA INTERPRETACYJNE „r”
Interpretacja ‘r’ jako miernika siły zależności pomiędzy „przyczyną” i „skutkiem”
Wykorzystanie analizy korelacji do porównania wartości dwóch metod
Przewidywanie wartości Y na podstawie wartości X
Obecność korelacji liniowej nie jest automatycznym dowodem na obecność zależności biologicznej
ANALIZA
REGRESJI LINIOWEJ
ANALIZA REGRESJI LINIOWEJ
y=a+bx
gdzie: a – punkt odcięcia; b – kąt nachylenia prostej (zmiana wartości ‘y’ w
odpowiedzi na jednostkową zmianę wartości ‘x’)
DEFINICJA ZMIENNEJ ZALEŻNEJ !
Y jest funkcją X, Y zależy od X
gdy ‘b’ = 0 (w rozumieniu statystycznym, t.j. „nie różni się w sposób
statystycznie znamienny od ‘0’), wówczas nie ma dowodu, że Y zależy od X:
H0: b = 0
HA: b ≠ 0
PRAKTYCZNE ZNACZENIE
ANALIZY REGRESJI LINIOWEJ
DOKUMENTOWANIE (ILOŚCIOWE) ZALEŻNOŚCI POMIĘDZY ‘Y’ I ‘X’
PRZEWIDYWANIE WARTOŚCI ‘Y’ DLA DANEJ WARTOŚCI ‘X’
(PROSTE) TESTY
ZMIENNA ZALEŻNA
…………………………………………………………………………………………………………………………………………………………………………………………
..
…………………………………………………………………………………………………………………………………………………………………………………………..
Masa (kg)
Wzrost (cm)
…………………………………………………………………………………………………………………………………………………………………………………………
..
…………………………………………………………………………………………………………………………………………………………………………………………..
Mutacja (tak/nie)
Narażenie na WWA (tak/nie)
…………………………………………………………………………………………………………………………………………………………………………………………
..
…………………………………………………………………………………………………………………………………………………………………………………………..
Zmienna Ilościowa i Jakościowa
TEST CHI-KWADRAT
FEV1 (%w.n.)
Zmiany rtg w płucach (tak/nie)
ANALIZA REGRESJI
LOGISTYCZNEJ
Zmienna
Jakościowa i Ilościowa
Hiperglikemia (tak/nie)
Podaż kalorii na dobę (kcal)
TEST CHI-KWADRAT
ZALEŻNOŚĆ 2 ZMIENNYCH JAKOŚCIOWYCH
%Kaszlących
CZY CZĘSTOŚĆ PRZEWLEKŁEGO KASZLU
ZALEŻY OD WIELKOŚCI NARAŻENIA „BPT”
7
6
5
4
3
2
1
0
Małe Narażenie
Duże Narażenie
Bierne Palenie Tytoniu ("BPT")
Klasyczna Tabela Czteropolowa
„BPT” - Duże
„BPT” – Małe
Kaszel Tak
6
4
Kaszel Nie
94
96
Test chi-kwadrat („2” lub „chi2”) i jego modyfikacje
ZALEŻNOŚĆ 2 ZMIENNYCH JAKOŚCIOWYCH
Metodą analizy jest test chi2,
a interpretacja siły zależności wynika z obliczenia
1) ryzyka względnego
(H0: RW = 1)
2) ilorazu szans
(H0: IS = 1)
Wybór (1) lub (2) zależy od protokołu badawczego
ANALIZA REGRESJI
LOGISTYCZNEJ
MODEL REGRESJI
Z JAKOŚCIOWĄ ZMIENNĄ ZALEŻNĄ
Hipertrójgicerydemia (tak/nie) ~ dobowa podaż tłuszczu (g)
SOLUTIO
FUNKCJA ŁĄCZĄCA (FŁ)
Hipertrójgicerydemia [FŁ] = dobowa podaż tłuszczu
TUTAJ TZW. LOGIT
ANALIZA REGRESJI LOGISTYCZNEJ
y=a+bx
(logit ukryty w procedurze)
Analiza regresji logistycznej testuje konwencjonalny układ hipotez:
H0: b = 0
HA: b ≠ 0
Gdy ‘p’ dla ‘b’ >0,05 wówczas
„y nie zależy od x w sposób statystycznie znamienny”
***
Analiza regresji logistycznej nie tylko informuje o obecności i sile
związku, ale także umożliwia przewidywanie wartości zmiennej
zależnej na podstawie wartości zmiennej niezależnej

STATYSTYKA OPISOWA

Transkrypt

Podobne dokumenty

STATYSTYKA ćw 7

Model statystyczny Format danych Przedziały ufności i testy

t - GRAPE

PRAKTYCZNE METODY STATYSTYCZNE W BADANIACH

Opis konfiguracji ustawień sieci i przeglądarki dla potrzeb

testy alergiczne