STATYSTYKA OPISOWA
Transkrypt
STATYSTYKA OPISOWA
SUM - WLK ‘2011 WYKŁAD CZWARTY: BIOSTATYSTYKA Prof. dr hab. med. Jan E. Zejda ! UWAGA ! SLAJDY WYBRANE I ZMODYFIKOWANE POD KĄTEM PREZENTACJI W INTERNECIE TREŚĆ WYKŁADU • Podstawowe zadania statystyki • Specyfika biostatystyki - zarys koncepcji sygnału i szumu - zmienne i ich rodzaje • Statystyka opisowa - prezentacja zmiennych ilościowych - prezentacja zmiennych jakościowych • Statystyka analityczna - znaczenie pytania badawczego - hipotezy i ich weryfikacja - koncepcja statystycznej znamienności - proste testy statystycznej znamienności różnic - proste tety statystycznej znamienności zależności • Memento epi demos logos PODSTAWOWE ZADANIA STATYSTYKI Gromadzenie danych Klasyfikacja danych Prezentacja danych Analiza danych Intepretacja wyników analizy danych STATYSTYKA Dyscyplina nauki zajmująca się formułowaniem metod liczbowego przetwarzania indywidualnych informacji statystycznych w celu opisu i wnioskowania statystycznego Nowa Encyklopedia Powszechna PWN, 1997 informacje o zjawiskach biologicznych BIOSTATYSTYKA Biostatystyka jest to gałąź statystyki uwzględniająca specyfikę zjawisk biologicznych, a w szczególności skutki zmienności biologicznej stanowiącej przejaw zróżnicowania procesów fizjologicznych i patologicznych, charakteryzujących stan zdrowia i choroby. SPECYFIKA BIOSTATYSTYKI Zmienność biologiczna w zakresie: • narażenia; • podatności; • odpowiedzi biologicznej; • wywiadu chorobowego; • etc. zidentyfikować i kontrolować źródła zmienności PRZYKŁADY ZMIENNOŚCI Wzrost i masa ciała Palenie tytoniu a rak płuc Nefropatia jako powikłanie cukrzycy Skuteczność leku hipotensyjnego Tętno Stężenie hormonów sterydowych „Stan zdrowia” KLASYFIKACJA ZMIENNOŚCI BIOLOGICZNEJ • Zmienność międzyosobnicza: np. skurczowe ciśnienie tętnicze krwi u 10 zdrowych studentów w wieku 24-25 lat • Zmienność wewnątrzosobnicza: np. skurczowe ciśnienie tętnicze krwi u 1 zdrowego studenta, zmierzone codziennie o godzinie 8:00 przez 7 dni SYGNAŁ vs SZUM Gdy istnieje duży sygnał jest on widoczny (ergo: wykrywalny) nawet w obecności dużego szumu Niewielki sygnał „tonie” w szumie Co jest sygnałem, co jest szumem ? Identyfikacja i pomiar sygnału wymaga wiedzy na temat potencjalnych źródeł szumu, umiejętności wykazania jego obecności, kontroli jego maskującego wpływu Biostatystyka raz jeszcze ale Biostatystyka to nie panaceum – to tylko narzędzie Przede wszystkim METODOLOGIA !! ZMIENNE RODZAJE ZMIENNYCH (FORMAT I FUNKCJA) TERMINOLOGIA STOSOWANA W OPISIE BAZY DANYCH Obserwacje (1 pacjent=1 obserwacja) Zmienne Nr PLEC WZROST KSD FVC FEV1 1 1 178 2 3200 1800 2 1 169 1 3600 2500 3 2 168 5 3450 2040 4 1 175 3 3750 1750 5 2 163 4 3900 1900 Nazwa Zmiennej Wartość Zmiennej zmienna, albowiem naturalna zmienność wartości RODZAJE ZMIENNYCH PROSTY PODZIAŁ UWGLĘDNIAJĄCY FORMAT Zmienne ilościowe (wzrost, FVC, FEV1) Zmienne jakościowe (płeć, KSD) RODZAJE ZMIENNYCH PRAKTYCZNY PODZIAŁ UWGLĘDNIAJĄCY FORMAT ZMIENNE ILOŚCIOWE JAKOŚCIOWE transformacja RODZAJE ZMIENNYCH PRAKTYCZNY PODZIAŁ UWGLĘDNIAJĄCY FUNKCJĘ Zmienna zależna (w danej analizie: jedna zmienna) Zmienne niezależne (w danej analizie jedna lub więcej zmiennych) Funkcja zmiennej zależy od celu: np. czy KSD zależy od FEV1? KSD ~ FEV1 zmienna zależna zmienna niezależna DWA OBSZARY STATYSTYKI -1Statystyka Opisowa (ile ?, jak często ?) („charakterystyka”) -2Statystyka Analityczna ↓ Szacowanie ↓ Testowanie Hipotez wzrost bilirubinemia dochód masa ciała opór dróg oddechowych glikemia STATYSTYKA OPISOWA CELE czas karmienia piersią stężenie ołowiu w krwi czas hospitalizacji obwód talii ciśnienie tętnicze krwi STATYSTYKA OPISOWA - CEL Prezentacja danych w postaci tabelarycznej i graficznej (histogramy, wykresy liniowe, itd.) oraz za pomocą zintegrowanej formy matematycznej – liczby (przy pomocy tzw. statystyk – wartość średnia, częstość, itd.) ……………………………………………………………………………. Częstość (%) poszczególnych klas cholesterolemii w grupie mężczyzn 40 (%) 30 20 10 0 175 205 235 265 295 325 355 Cholesterolemia (mg/dl) Średnie stężenie cholesterolu w badanej grupie mężczyzn 215 mg/dl wzrost bilirubinemia dochód masa ciała opór dróg oddechowych glikemia STATYSTYKA OPISOWA PREZENTACJA ZMIENNYCH czas karmienia piersią ILOŚCIOWYCH stężenie ołowiu w krwi czas hospitalizacji obwód talii ciśnienie tętnicze krwi WARTOŚĆ ŚREDNIA I ODCHYLENIE STANDARDOWE Wartość średnia i odchylenie standardowe opisują rozkład wartości zmiennej ilościowej 35 30 25 20 % 15 10 m a x x + 2 S X x -2 S 0 m in 5 Rozkład normalny: 95% wszystkich wartości mieści się w przedziale x-2 os … x+2 os precyzyjnie mówiąc: 1,96 DOMINUJĄCE ZNACZENIE ROZKŁADU NORMALNEGO W ANALIZIE DANYCH -1WIĘKSZOŚĆ PROCEDUR SZACOWANIA I TESTOWANIA HIPOTEZ (ODNOŚNIE ZALEŻNOŚCI I RÓŻNIC) WYKORZYSTUJE METODY STATYSTYCZNE, KTÓRE ZOSTAŁY WYPRACOWANE W OPARCIU O KONCEPCJĘ ROZKŁADU NORMALNEGO -2ZJAWISKA BIOLOGICZNE SĄ ŁATWIEJ POSTRZEGANE PRZY ODWOŁANIU SIĘ DO ROZKŁADU NORMALNEGO („WARTOŚĆ PRZECIĘTNA” I „WARTOŚCI EKSTREMALNE”) OPIS ZMIENNEJ ILOŚCIOWEJ MIARY POŁOŻENIA (MIARY TENDECJI CENTRALNEJ) Średnia arytmetyczna, mediana, modalna MIARY ROZPROSZENIA Zakres, zmienność, odchylenie standardowe X ± SD („tablica rejestracyjna zmiennej ilościowej”) X ± SD Współczynnik Zmienności „im mniejsza wartość ‘SD’ tym mniejsza zmienność” generalnie TAK, ale rola ‘X’, dlatego: Współczynnik Zmienności (WZ) = (s / x) * 100% PRAKTYCZNE ZASTOSOWANIE WSPÓŁCZYNNIKA ZMIENNOŚCI porównanie rozkładu jednej zmiennej w dwóch różnych grupach porównanie rozkładu kilku zmiennych w jednej grupie odchylenie standardowe ≠ błąd standardowy hiperglikemia płeć nadwaga obturacja jakość życia kliniczny stopień duszności zawód STATYSTYKA OPISOWA PREZENTACJA ZMIENNYCH JAKOŚCIOWYCH wykształcenie cień okrągły w płucach krwotok rodzaj porodu hipercholesterolemia mutacja ROZKŁAD ZMIENNEJ JAKOŚCIOWEJ matematyczna i graficzna prezentacja częstości poszczególnych wartości zmiennej jakościowej (zasada wzajemnie wykluczających się wartości) Rozkład zmiennej „nastrój” u 50 badanych: - 35 optymistów - 15 pesymistów zmienna „nastrój” ma dwie wartości: „optymista” i „pesymista” ROZKŁAD ZMIENNEJ JAKOŚCIOWEJ (sposób prezentacji tabelarycznej) WYNIKI TERAPII „X” W GRUPIE 75 CHORYCH Zmienna Objawy uboczne Wartość zmiennej Częstość bezwzględna (n) Częstość względna (%) Częstość skumulowana (%) Brak 10 13,3 13,3 Słabe 25 33,3 46,6 Średnie 20 26,6 73,2 Duże 12 16,4 89,4 8 10,6 100,0 75 100,0 B. duże Razem DWA OBSZARY STATYSTYKI -1Statystyka Opisowa -2Statystyka Analityczna (ile ?, jak często ?) ↓ („charakterystyka”) Testowanie Hipotez Modelowanie Związków Przyczynowo-Skutkowych Ocena Wiarygodności Pomiaru itp. DWA OBSZARY STATYSTYKI -1- -2- Statystyka Opisowa Statystyka Analityczna (ile ?, jak często ?) ↓ („charakterystyka”) Testowanie Hipotez Modelowanie Związków Przyczynowo-Skutkowych Ocena Wiarygodności Pomiaru itp. ilościowe ← zmienne → jakościowe proste ← metody → złożone ZNACZENIE PYTANIA BADAWCZEGO PROCES POZNANIA NAUKOWEGO W PRAKTYCE Gruntowna wiedza Dobry warsztat („dobra praktyka epidemiologiczna”) Twórcze wykorzystanie informacji (interpretacja) Inwencja, iluminacja, przypadek Umiejętne komunikowanie wyników TREŚĆ PYTANIA BADAWCZEGO INICJUJE I WARUNKUJE SPOSÓB WNIOSKOWANIA STATYSTYCZNEGO -1STATYSTYKA OPISOWA -2STATYSTYKA ANALITYCZNA WNIOSKOWANIE STATYSTYCZNE Wnioskowanie Statystyczne = Wnioskowanie dotyczące natury zjawiska w populacji na podstawie obserwacji obejmującej próbę reprezentującą populację DGN populacyjna formułowana na podstawie DGN w próbie zawiera niepewność, co jest domeną teorii prawdopodobieństwa, a zatem wymaga opracowań statystycznych HIPOTEZY HIPOTEZA (sąd, testowalne stwierdzenie) Hipoteza: Częstość występowania otyłości zależy od tradycji żywieniowych Hipoteza musi podlega weryfikacji – albo się ostanie jako prawdziwa, albo zostanie uznana za fałszywą: jak weryfikować zależność od tradycji ? ↓ Hipoteza: Częstość występowania otyłości jest większa wśród osób preferujących tradycyjny styl żywienia Skąd pewność, że częstość jest większa a nie mniejsza ? ↓ Hipoteza: Częstość występowania otyłości różni się pomiędzy grupami o różnym stylu żywienia √ Problem: na gruncie metodologii badań naukowych nie jest możliwe weryfikowanie hipotezy zakładającej różnicę (dowód słuszności tego stwierdzenia wykracza poza program kursu) SOLUTIO - I weryfikacja hipotezy zakładającej brak różnicy Częstość występowania otyłości nie różni się pomiędzy grupami o różnym stylu żywienia WYNIK WERYFIKACJI (TESTOWANIA) albo odrzucenie hipotezy albo brak podstaw do odrzucenia hipotezy Tak, to prawda (w świetle moich danych) tu interpretacja jest prosta SOLUTIO - I weryfikacja hipotezy zakładającej brak różnicy Częstość występowania otyłości nie różni się pomiędzy grupami o różnym stylu żywienia WYNIK WERYFIKACJI (TESTOWANIA) albo odrzucenie albo brak podstaw do odrzucenia Co w sytuacji odrzucenia hipotezy ? SOLUTIO - II Układ 2 hipotez H0 (hipoteza zerowa) i HA (hipoteza alternatywna) H0 – brak różnicy, brak zależności, brak efektu HA – obecna różnica, obecna zależność, obecny efekt STRATEGIA „ALBO-ALBO” odrzucenie H0 powoduje aktualność HA nieodrzucenie H0 powoduje nieaktualność HA TERTIUM NON DATUR SFORMUŁOWANIE WERYFIKOWALNEJ HIPOTEZY H0 Wartośċ średnia A Częstośċ A Czas przeżycia A Siła zależności A = = = = itd. Wartośċ średnia B Częstośċ B Czas przeżycia B Siła zależności B SFORMUŁOWANIE WERYFIKOWALNEJ HIPOTEZY HA Wartośċ średnia A ≠ Wartośċ średnia B Częstośċ A ≠ Częstośċ B Czas przeżycia A ≠ Czas przeżycia B Siła zależności A ≠ Siła zależności B itd. SPECYFICZNE BŁĘDY TOWARZYSZĄCE TESTOWANIU HIPOTEZ Źle się dzieje, gdy prawdziwa H0 jest odrzucona ↓ Błąd Typu I (błąd α) Prawdopodobieństwo błędu I istnieje zawsze – na jakie się godzimy ? JEST TO STATYSTYCZNA ZNAMIENNOŚĆ BADANIA Źle się dzieje, gdy fałszywa H0 nie jest odrzucona ↓ Błąd Typu II (błąd β) Założenie to wyznacza obszar braku błędu równy (1- β ) JEST TO MOC BADANIA (1-ß) DECYZJA W SPRAWIE POZIOMU STATYSTYCZNEJ ZNAMIENNOŚCI I MOCY TESTU W wyniku testu dochodzi do: H0 może być albo-albo: Prawdziwa Fałszywa Nieodrzucenia H0 OK Błąd typu II Odrzucenia H0 Błąd typu I OK KONWENCJA BŁĄD TYPU I = α = 0,05 BŁĄD TYPU II = β = 0,20 Akceptujemy przypadkowość, ale niech będzie ona rzadkim zjawiskiem! STATYSTYCZNA ZNAMIENNOŚĆ Zmniejszenie RR u chorych stosujących lek A może wystąpić całkiem przypadkowo, nawet gdy lek nie jest aktywny farmakologicznie. Nie zdarza się to często. Jaka częstość może być uznana za rzadkie zdarzenie ? CZĘSTA INTERPRETACJA RZADKICH ZDARZEŃ Specyfika rozkładu normalnego danej zmiennej wynika z faktu, że pod krzywą znajduje się 100% możliwych wartości zmiennej, ale ich gęstość nie jest jednorodna (wartości: częste, mniej częste, jeszcze mniej częste, rzadkie) 40 30 % 20 10 0 A 2.5% 0,025 X 95% 0,95 „rzadkie wartości” B 2.5% 0,025 „rzadkie wartości” CZĘSTOŚĆ RZADKICH WARTOŚCI = 2,5% + 2,5% = 5% CZĘSTOŚĆ RZADKICH WARTOŚCI = 0,025 + 0,025 = 0,05 X ± 1.96 SD definiuje obszar obejmujący 95% możliwych wartości, To co pozostaje to 5% obszar rzadkich wartości (0,05) STATYSTYCZNA ZNAMIENNOŚĆ ≠ KLINICZNA ZNAMIENNOŚĆ Przy dużych grupach nawet trywialna różnica może być statystycznie znamienna (konsekwencja wzoru matematycznego) TESTOWANIE HIPOTEZ DWA TYPY HIPOTEZ – DWA TYPY TESTÓW Hipotezy odnośnie różnicy Hipotezy odnośnie zależności Weryfikacja hipotez polega na analizie danych i poddaniu ich ocenie przy użyciu testów statystycznej znamienności różnic lub zależności Testy statystycznej znamienności różnic Testy statystycznej znamienności zależności TESTY STATYSTYCZNEJ ZNAMIENNOSCI A RODZAJ ZMIENNYCH TESTY DLA ZMIENNYCH ILOŚCIOWYCH TESTY DLA ZMIENNYCH JAKOŚCIOWYCH TESTY STATYSTYCZNEJ ZNAMIENNOSCI A CHARAKTER ROZKŁADU ZMIENNYCH TESTY PARAMETRYCZNE TESTY NIEPARAMETRYCZNE TESTY STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNICE ZALEŻNOŚCI ZMIENNE ZMIENNE ZMIENNE ZMIENNE ILOŚCIOWE JAKOŚCIOWE ILOŚCIOWE JAKOŚCIOWE TESTY STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNIC < GENERALIA > KONCEPCJA SYGNAŁU I SZUMU 25 Sygnał 20 15 10 Szum 5 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 EFEKT = SYGNAŁ/SZUM Im większy ‘sygnał’ tym większy efekt Im mniejszy ‘szum’ tym większy efekt ↓ Im większa różnica tym większy efekt Im mniejsze rozproszenie tym większy efekt EFEKT = SYGNAŁ/SZUM Im większy ‘sygnał’ tym większy efekt Im mniejszy ‘szum’ tym większy efekt ↓ Im większa różnica tym większy efekt Im mniejsze rozproszenie tym większy efekt WYNIK TESTU STATYSTYCZNEJ ZNAMIENNOŚCI Wynikiem testu jest statystyka (konkretna liczba) Np. wynikiem testu t-Studenta jest statystyka ‘t’ t = 2,04 t = ( X1 – X2 ) / (SDx1-x2 / √ n ) duży sygnał – duże ‘t’ mały szum – duże ‘t’ INTERPRETACJA WYNIKU TESTU ‘t’ = 2,04 ale czy jest to wartość statystycznie znamienna ? 3 5 3 0 2 5 2 0 1 5 1 0 duże ‘t’ (-) małe ‘t’ (-) 0 małe ‘t’ (+) duże ‘t’ (+) 2SE X 0 2SE 5 Gdy wartość ‘t’ lokuje się na końcu rozkładu („wpada w strefę rzadkich zdarzeń”) wówczas można przyjąć, że uzyskany wynik jest na tyle rzadki, iż nie może być dziełem przypadku. Jest to zatem wynik statystycznie znamienny. Kryterium Statystycznej Znamienności – ‘p’ (zwyczajowo <5% = <0,05) WYNIK TESTU STATYSTYCZNEJ ZNAMIENNOŚCI: STATYSTYKA I JEJ PRAWDOPODOBIEŃSTWO (np. t=2,04, p=0,04) TESTY STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNIC (ROZKŁADÓW) < ZMIENNE ILOŚCIOWE > OCENA STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNIC ! KLUCZOWE PYTANIA ! Liczba porównywanych grup ? Dwie grupy lub Więcej niż dwie grupy Rozkład zmiennych ? Rozkład normalny lub Rozkład odbiegający od normalnego wg: Pereira-Maxwell F.: A-Z of Medical Statistics. A companion for critical appraisal. Arnold, London 1998 DANE NIESPAROWANE I DANE SPAROWANE (LICZBA LCD4 W GRUPACH NNO+ I NNO-) Grupa NNO+ „Dzisiaj” Porównanie LCD4 ↔ Grupa NNO- ↕ Porównanie ↕ LCD4 „Jutro” (np. po terapii sterydami) Grupa NNO+ POZIOMO: TEST DLA DWÓCH ŚREDNICH, REPREZENTUJĄCYCH DWIE PORÓWNYWANE, RÓŻNE GRUPY PIONOWO: TEST DLA DWÓCH ŚREDNICH, REPREZENTUJĄCYCH JEDNĄ GRUPĘ (DWA POMIARY W ODSTĘPIE CZASOWYM) OCENA STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNIC ZMIENNE ILOŚCIOWE Dane pochodzące z niezależnych pomiarów (dane niesparowane) Scenariusz: masa ciała chłopców (grupa A) i dziewcząt (grupa B) -Liczba grup 2: test t-Studenta, gdy rozkład normalny test Mann-Whitney, gdy rozkład nie-normalny -Liczba grup 3 lub więcej: analiza wariancji (‘anova’), gdy rozkład normalny test Kruskall-Wallis’a, gdy rozkład nie-normalny Dane pochodzące z zależnych pomiarów (dane sparowane) Scenariusz: masa ciała dziewcząt przed (grupa A1) i po kuracji (grupa A2) odchudzającej -Liczba grup (punktów pomiaru) 2: test t-Studenta dla par, gdy rozkład normalny test Wilcoxon’a dla par, gdy rozkład nie-normalny - Liczba grup 3 lub więcej: brak standardowych metod TEST T STUDENTA I ANOVA TO TESTY PARAMETRYCZNE, OPRACOWANE DLA ANALIZ ZMIENNYCH O ROZKŁADZIE NORMALNYM gdy rozkład analizowanej zmiennej nie spełnia kryterium rozkładu normalnego (weryfikacja np. testem Shapiro-Wilk’a); gdy mała (n<30) liczba obserwacji w próbie; gdy pomiary zmiennej odznaczają się ograniczoną dokładnością (mała precyzja narzędzia pomiarowego) gdy pomiary mają charakter półilościowy (np. skala Apgar) lub ograniczoną dokładność TESTY NIEPARAMETRYCZNE PODSTAWOWE TESTY NIEPARAMETRYCZNE DLA OCENY RÓŻNIC Test znaków (sign test) odwołuje się do wartości mediany i liczby wartości powyżej (+) i poniżej (-) mediany (test dla prób niezależnych lub sparowanych) – małe zastosowanie ………………………………………………………………………………………………… 2 grupy, niesparowany: Test mediany i jego modyfikacja – test Mann-Whitney; test Wilcozon’a dla dwóch grup (alternatywa dla testu t-Studenta) 3 lub więcej grup, niesparowany: Test Kruskal-Wallis (alternatywa dla ANOVY) 2 grupy, sparowany: Test znaków Wilcoxon’a dla danych sparowanych (ponadto stosowany tam, gdzie pomiar reprezentuje wartość uzyskaną jako wskaźnik, współczynnik, itp.) TESTY STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNIC (ROZKŁADÓW) < ZMIENNE JAKOŚCIOWE > OCENA STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNIC ! KLUCZOWE PYTANIA ! Oczekiwana częstość wartości zmiennej jakościowej ? <5 lub 5+ Liczba porównywanych grup ? Dwie grupy lub Więcej niż dwie grupy Zależność obserwacji ? Dane sparowane lub Dane niesparowane wg: Pereira-Maxwell F.: A-Z of Medical Statistics. A companion for critical appraisal. Arnold, London 1998 OCENA STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNIC ZMIENNE JAKOŚCIOWE Dane pochodzące z niezależnych pomiarów (dane niesparowane) Scenariusz: otyłość (%) wśród chłopców (grupa A) i dziewcząt (grupa B) -Liczba grup 2: test chi2, test Fisher’a (dla małej częstości) -Liczba grup 3 lub więcej: test chi2 Dane pochodzące z zależnych pomiarów (dane sparowane) Scenariusz: otyłość (%) wśród dziewcząt przed (grupa A1) i po kuracji (grupa A2) odchudzającej -Liczba grup (punktów pomiaru) 2: test McNemar’a - Liczba grup 3 lub więcej: test Stuart-Maxwell’a TESTY STATYSTYCZNEJ ZNAMIENNOŚCI RÓŻNICE ZALEŻNOŚCI ZMIENNE ZMIENNE ZMIENNE ZMIENNE ILOŚCIOWE JAKOŚCIOWE ILOŚCIOWE JAKOŚCIOWE TESTY STATYSTYCZNEJ ZNAMIENNOŚCI ZALEŻNOŚCI < GENERALIA > H0: brak zależności (PROSTE) TESTY STATYSTYCZNEJ ZNAMIENNOŚCI ZALEŻNOŚCI ZMIENNA ZALEŻNA ← ZMIENNA NIEZALEŻNA ………………………………………………………………………………………………………………………………………………………………………………………… .. ………………………………………………………………………………………………………………………………………………………………………………………….. Dwie Zmienne Ilościowe Masa (kg) Wzrost (cm) ………………………………………………………………………………………………………………………………………………………………………………………… .. ………………………………………………………………………………………………………………………………………………………………………………………….. Dwie Zmienne Jakościowe Mutacja (tak/nie) Narażenie na WWA (tak/nie) ………………………………………………………………………………………………………………………………………………………………………………………… .. ………………………………………………………………………………………………………………………………………………………………………………………….. (PROSTE) TESTY STATYSTYCZNEJ ZNAMIENNOŚCI ZALEŻNOŚCI ZMIENNA ZALEŻNA ← ZMIENNA NIEZALEŻNA ………………………………………………………………………………………………………………………………………………………………………………………… .. ………………………………………………………………………………………………………………………………………………………………………………………….. Dwie Zmienne Ilościowe Masa (kg) Wzrost (cm) ………………………………………………………………………………………………………………………………………………………………………………………… .. ………………………………………………………………………………………………………………………………………………………………………………………….. Dwie Zmienne Jakościowe Mutacja (tak/nie) rozkład normalny Narażenie na WWA (tak/nie) ………………………………………………………………………………………………………………………………………………………………………………………… .. ………………………………………………………………………………………………………………………………………………………………………………………….. ANALIZA KORELACJI LINIOWEJ Zmienna Ilościowa i Jakośrozkład ciowa nie-normalny FEV1 (%w.n.) Zmiany rtg w płucach (tak/nie) ………………………………………………………………………………………………………………………………………………………………………………………… .. ………………………………………………………………………………………………………………………………………………………………………………………….. ANALIZA REGRESJI LINIOWEJ Zmienna Jakościowa i Ilościowa Hiperglikemia (tak/nie) Podaż kalorii na dobę (kcal) ANALIZA KORELACJI LINIOWEJ KORELACJA IQ ~ Pb-B 100 IQ [j] 80 60 40 20 0 0 2 4 6 Pb-B [ug/dl] 8 10 12 KORELACJA (WZAJEMNA RELACJA) Współczynnik Korelacji r zawiera się w przedziale od –1 do +1 r = [NΣxy – (Σx)( Σy)] / √[NΣx2 – (Σx)2][NΣy2 – (Σy)2] r(IQ-PbB) = - 0,3 WSPÓŁCZYNNIK KORELACJI LINIOWEJ ‘r’ [-1, +1] Praktyczna interpretacja wartości liczbowej 0,0 < |r| < 0,3 0,3 < |r| < 0,7 0,7 < |r| „słaba korelacja” „średnia korelacja „silna korelacja” ale czy znamienna statystycznie ? ANALIZA KORELACJI LINIOWEJ JEST TESTOWANIEM HIPOTEZY H0: r = 0 (HA: r ≠ 0) ergo poza obliczeniem ‘r’ konieczne jest podanie wartości ‘p’ (można także obliczyć 95% PU – gdy nie zawiera ‘0’ wówczas r ≠ 0) ALTERNATYWA NIEPARAMETRYCZNA (r) Nazwa ‘współczynnik korelacji liniowej” mnemotechnicznie przywołuje wymóg analizy wartości zmiennych mierzonych według skali liniowej. Gdy pomiary pochodzą z innych skal (np. stopień duszności, poziom samopoczucia, średnica bąbla itp.) wówczas zasadne metody odwołujące się do rankingu wyników: ANALIZA KORELACJI METODĄ SPEARMANA (dla zmiennych o normalnym rozkładzie metoda Pearson’a) NIEPOROZUMIENIA INTERPRETACYJNE „r” Interpretacja ‘r’ jako miernika siły zależności pomiędzy „przyczyną” i „skutkiem” Wykorzystanie analizy korelacji do porównania wartości dwóch metod Przewidywanie wartości Y na podstawie wartości X Obecność korelacji liniowej nie jest automatycznym dowodem na obecność zależności biologicznej ANALIZA REGRESJI LINIOWEJ ANALIZA REGRESJI LINIOWEJ y=a+bx gdzie: a – punkt odcięcia; b – kąt nachylenia prostej (zmiana wartości ‘y’ w odpowiedzi na jednostkową zmianę wartości ‘x’) DEFINICJA ZMIENNEJ ZALEŻNEJ ! Y jest funkcją X, Y zależy od X gdy ‘b’ = 0 (w rozumieniu statystycznym, t.j. „nie różni się w sposób statystycznie znamienny od ‘0’), wówczas nie ma dowodu, że Y zależy od X: H0: b = 0 HA: b ≠ 0 PRAKTYCZNE ZNACZENIE ANALIZY REGRESJI LINIOWEJ DOKUMENTOWANIE (ILOŚCIOWE) ZALEŻNOŚCI POMIĘDZY ‘Y’ I ‘X’ PRZEWIDYWANIE WARTOŚCI ‘Y’ DLA DANEJ WARTOŚCI ‘X’ (PROSTE) TESTY STATYSTYCZNEJ ZNAMIENNOŚCI ZALEŻNOŚCI ZMIENNA ZALEŻNA ← ZMIENNA NIEZALEŻNA ………………………………………………………………………………………………………………………………………………………………………………………… .. ………………………………………………………………………………………………………………………………………………………………………………………….. Dwie Zmienne Ilościowe Masa (kg) Wzrost (cm) ………………………………………………………………………………………………………………………………………………………………………………………… .. ………………………………………………………………………………………………………………………………………………………………………………………….. Dwie Zmienne Jakościowe Mutacja (tak/nie) Narażenie na WWA (tak/nie) ………………………………………………………………………………………………………………………………………………………………………………………… .. ………………………………………………………………………………………………………………………………………………………………………………………….. Zmienna Ilościowa i Jakościowa TEST CHI-KWADRAT FEV1 (%w.n.) Zmiany rtg w płucach (tak/nie) ANALIZA REGRESJI LOGISTYCZNEJ Zmienna Jakościowa i Ilościowa Hiperglikemia (tak/nie) Podaż kalorii na dobę (kcal) TEST CHI-KWADRAT ZALEŻNOŚĆ 2 ZMIENNYCH JAKOŚCIOWYCH %Kaszlących CZY CZĘSTOŚĆ PRZEWLEKŁEGO KASZLU ZALEŻY OD WIELKOŚCI NARAŻENIA „BPT” 7 6 5 4 3 2 1 0 Małe Narażenie Duże Narażenie Bierne Palenie Tytoniu ("BPT") Klasyczna Tabela Czteropolowa „BPT” - Duże „BPT” – Małe Kaszel Tak 6 4 Kaszel Nie 94 96 Test chi-kwadrat („2” lub „chi2”) i jego modyfikacje ZALEŻNOŚĆ 2 ZMIENNYCH JAKOŚCIOWYCH Metodą analizy jest test chi2, a interpretacja siły zależności wynika z obliczenia 1) ryzyka względnego (H0: RW = 1) 2) ilorazu szans (H0: IS = 1) Wybór (1) lub (2) zależy od protokołu badawczego ANALIZA REGRESJI LOGISTYCZNEJ MODEL REGRESJI Z JAKOŚCIOWĄ ZMIENNĄ ZALEŻNĄ Hipertrójgicerydemia (tak/nie) ~ dobowa podaż tłuszczu (g) SOLUTIO FUNKCJA ŁĄCZĄCA (FŁ) Hipertrójgicerydemia [FŁ] = dobowa podaż tłuszczu TUTAJ TZW. LOGIT ANALIZA REGRESJI LOGISTYCZNEJ y=a+bx (logit ukryty w procedurze) Analiza regresji logistycznej testuje konwencjonalny układ hipotez: H0: b = 0 HA: b ≠ 0 Gdy ‘p’ dla ‘b’ >0,05 wówczas „y nie zależy od x w sposób statystycznie znamienny” *** Analiza regresji logistycznej nie tylko informuje o obecności i sile związku, ale także umożliwia przewidywanie wartości zmiennej zależnej na podstawie wartości zmiennej niezależnej