Analiza wariancji
Transkrypt
Analiza wariancji
ANALIZA WARIANCJI PRZYPOMNIENIE Dr Wioleta Drobik ANALIZA WARIACJI Podział zaobserwowanej zmienności (wariancji) na zmienność między grupami i w obrębie grup Pozwala na ocenę istotności różnic wielu średnich, hipoteza zerowa: H0 : µ1 = µ2 = ... = µt Założenia: Zmienne objaśniające są niezależne Cecha ma rozkład normalny dopuszczalne są niewielkie odstępstwa często badane są wyłącznie reszty (czynnik losowy) Wariancje są jednorodne (homogeniczność wariancji) ANALIZA WARIACJI Rodzaje analizy wariancji: ANOVA - jednowymiarowa analiza wariancji : Jednoczynnikowa – wpływ jednego czynnika na jedną zmienną zależną Wieloczynnikowa - wpływ kilku czynników na jedną zmienną zależną MANOVA - wielowymiarowa analiza wariancji wpływ kilku czynników na kilka zmiennych zależnych Model Znaczenie Y~X Jednoczynnikowa analiza wariancji Y ~ X1 + X2 Dwuczynnikowa analiza wariancji Y ~ X1 * X2 Dwuczynnikowa analiza wariancji z interakcją Y ~ X1 + X2 + X1 : X2 Dwuczynnikowa analiza wariancji z interakcją (inny zapis) ANALIZA WARIACJI Model liniowy analizy wariancji: Gdzie: yij − j-ta obserwacja z i-tej grupy µ − średnia wartość cechy w populacji i − efekt i-tej grupy eij − błąd czyli efekt związany ze zmiennością osobniczą, przypadkową, niewyjaśnioną modelem, może być również błędem pomiaru ANALIZA WARIACJI Tabela wariancji Źródło zmienności Lss SKO ŚKO = SKO/Lss Statystyka F Ogólna N-1 SKO - - Między grupami k-1 SKOMG = ŚKOMG F=ŚKOMG/ŚKOWG Wewnątrz grup N-k SKOWG = ŚKOWG - Gdzie: N – liczba wszystkich obserwacji k – liczba grup SKO – suma kwadratów odchyleń ŚKO – średni kwadrat odchyleń ANALIZA WARIACJI Czy metoda wyznaczania struktury drugorzędowej białka ma wpływ na dokładność? Białko Ubikwityna Ubikwityna Ubikwityna DeoxyHb DeoxyHb DeoxyHb Rab5c Rab5c Rab5c Prealbumina Prealbumina Prealbumina Metoda Dokładność CF AVG 0.467 GOR 0.645 PHD 0.868 CF AVG 0.472 GOR 0.844 PHD 0.879 CF AVG 0.405 GOR 0.604 PHD 0.787 CF AVG 0.449 GOR 0.772 PHD 0.780 Przykład opisany szczegółowo w książce: Seefeld K.,Linder E. 2007. Statistics Using R with Biological Examples ANOVA W R ANALIZA WARIANCJI - ZAŁOŻENIA Testowanie jednorodności wariancji Test F – test F-Snedecora dla dwóch prób Test Barletta – dla wielu prób Test Leven’a – dla wielu prób Test Barletta ma wyższa moc niż test Leven’a, jednak nie może być stosowany przy odstępstwach od normalności rozkładu Przy braku pewności co do normalności rozkładu wyniki testu Leven’a będą bardziej wiarygodne, niż testu Barletta ANALIZA WARIANCJI – ROZKŁAD ZMIENNEJ ZALEŻNEJ ANALIZA WARIANCJI – ROZKŁAD RESZT ANALIZA WARIANCJI - ZAŁOŻENIA Czy wariancje w grupach są jednorodne? Prawdopodobieństwo testowe jest wyższe niż 0,05 brak podstaw do odrzucenia hipotezy zerowej wariancje w grupach nie różnią się istotnie Przeciwny wynik ANALIZA WARIANCJI Wyniki analizy Prawdopodobieństwo testowe jest mniejsze od 0,01, w związku z czym odrzucamy hipotezę zerową wysoko istotnie Dokładność oceny struktury drugorzędowej zależy od stosowanej metody Które metody różnią się dokładnością? TEST POST - HOC Testy post-hoc wykonujemy, jeżeli różnice pomiędzy grupami są istotne. Najczęściej stosowane testy: Test Tukeya (inaczej UIR - test uczciwie istotnych różnic) Powinien być stosowany jedynie dla zrównoważonego układu doświadczenia – podobna liczba obserwacji we wszystkich grupach LSD Fishera (inaczej NIR - najmniejsza istotna różnica) nie zakłada się równoliczności grup Polega na wykonaniu k(k-1)/2 testów t-studenta i zastosowaniu korekty na liczbę przeprowadzonych testów np. Holm, Bonferroni, fdr ANALIZA WARIANCJI Które metody różnią się dokładnością? Test post-hoc Tukeya: Zestawienie grup Różnica 95% przedział ufności Prawdopodobieństwo testowe dla każdego zestawienia ANOVA DWUCZYNNIKOWA Model: Gdzie: yijk − k-ta obserwacja z i-tej i j-tej grupy µ − średnia wartość cechy w populacji i − efekt i-tej grupy i − efekt j-tej grupy eijk − błąd czyli efekt związany ze zmiennością osobniczą, jak i błąd pomiaru (αβ)ij – efekt interakcji pomiędzy czynnikami ANOVA DWUCZYNNIKOWA Interakcje Interakcją nazwiemy niejednakową reakcję jednego czynnika na zmianę poziomu drugiego czynnika Nieaddytywne działanie jednego czynnika z drugim W modelu zachowujemy jedynie istotne statystycznie interakcje, co zwiększa siłę działania czynników głównych Jeśli interakcja jest istotna nie ma możliwości porównywania średnich dla czynników głównych konieczne jest indywidualne porównanie poszczególnych podgrup ANOVA DWUCZYNNIKOWA Różnice pomiędzy metodami są istotne, ale pomiędzy białkami już nie ANOVA DWUCZYNNIKOWA Czu pomiędzy badanym białkiem a metodą zachodzi interakcja? Interakcja występuje, jeżeli linie będą się przecinać ANOVA DWUCZYNNIKOWA Brak statystyki F i prawdopodobieństwa testowego wynika z braku podstaw do testowania istotności przy zbyt małej próbie Zbyt mało danych aby oszacować efekt interakcji ANOVA DWUCZYNNIKOWA Czy istnieje zależność między statusem oraz płcią a grubością guza? Czy pomiędzy zmiennymi płeć i status istnieje interakcja? Czy powinna być uwzględniona w modelu? JEDNOCZYNNIKOWA VS WIELOCZYNNIKOWA ANOVA Istnieje możliwość przeprowadzenia jednoczynnikowej analizy wariancji oddzielnie dla wszystkich zmiennych objaśniających Wady takiego postępowania: Utrata informacji o zależnościach między zmiennymi objaśniającymi Większa wariancja – trudniej stwierdzić istotność niektórych zmiennych Zmiennych objaśniających nie powinno być zbyt dużo: Wraz ze wzrostem liczby zmiennych maleje dokładność oceny efektów modelu Idealna sytuacja: min 30 obserwacji na każdą kombinację czynników ANALIZA REGRESJI WIELOKROTNEJ REGRESJA WIELOKROTNA Wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y) Najczęściej stosowanym modelem jest regresja wielokrotna liniowa Model: Gdzie p jest liczbą zmiennych Xi – zbiór kolumn opisujących zmienną i i – wektor współczynników odpowiadających zmiennej i REGRESJA WIELOKROTNA REGRESJA WIELOKROTNA Interpretacja współczynników jest jak w przypadku regresji prostej: Stała regresji jest to szacowana średnia wartość zmiennej objaśniającej Y, gdy wszystkie zmienne niezależne (Xi) są równe 0 Cząstkowe współczynniki regresji - szacowana średnia zmiana wartości zmiennej objaśniającej Y, gdy wartość zmiennej niezależnej (Xi) zwiększy się o jednostkę REGRESJA WIELOKROTNA Problemy: Jak dobrać zmienne? Jak zinterpretować współczynniki regresji? Jak poradzić sobie z ewentualną współliniowością zmiennych objaśniających? Czy zmienne objaśniające są niezależne? Zbyt mała liczba obserwacji w stosunku do liczby zmiennych objaśniających WSPÓŁLINIOWOŚĆ ZMIENNYCH VIF (ang. variance inflation factor) o ile wariancje współczynników są zawyżone z powodu zależności liniowych w badanym modelu regresji Funkcja vif(model) w R wyświetla wektor wartości współczynnika VIF dla każdej zmiennej objaśniającej Zmienne objaśniające są współliniowe, gdy są mocno skorelowane ze sobą Może to skutkować zawyżonym oszacowaniem współczynników i dużymi wartościami błędów standardowych ZALEŻNOŚCI POMIĘDZY ZMIENNYMI KRYTERIA OCENY MODELU GIC (ang. Generalized Information Criterion) – oparte na funkcji wiarygodności i karze za liczbę elementów w modelu h – pewien współczynnik, k - liczba parametrów w modelu M, logL(M|y,X) – funkcja wiarygodności dla modelu Specjalne przypadki: AIC (h=2), BIC (h=log(n)) Idealny model w jak najlepszy sposób wyjaśnia zmienność zbioru danych wykorzystując przy tym jak najmniej parametrów (k) KRYTERIA OCENY MODELU R2 – współczynnik determinacji (omówiony na wykładzie o regresji liniowej) można stosować do porównywania modeli tylko wtedy, gdy nie różnią się one liczbą zmiennych objaśniających Poprawiony R2 uwzględnia dodatkowo liczbę zmiennych w modelu im wyższa wartość tym lepszy model KRYTERIA OCENY MODELU Kryterium Akaike (AIC – ang. Akaike information criterion) Interpretacja: Im mniejsza wartość tym lepiej Nie unormowany – tylko do porównań między modelami Wzór: Gdzie: k – liczba parametrów modelu (złożoność modelu) L – maksimum funkcji największej wiarygodności (precyzja modelu) KRYTERIA OCENY MODELU Kryterium Schwartza (ang. BIC – Bayesian information criterion) Interpretacja jak w przypadku AIC – im mniejsza wartość tym lepiej Większa kara za złożoność modelu niż AIC Gdzie: k – liczba parametrów modelu L – maksimum funkcji największej wiarygodności n – liczba obserwacji MODEL Z KILKOMA ZMIENNYMI OBJAŚNIAJĄCYMI Doboru odpowiednich zmiennych możemy dokonać wykorzystując funkcję step step(nazwa_modelu, direction = c("both", "backward", "forward"), steps = 1000) Funkcja ta znajduje najlepiej dopasowany model do naszych danych metodą krokową Domyślnie kryterium wyboru jest AIC wybierając k=log(n) zmieniamy kryterium na kryterium Schwartza (BIC) WYBÓR ZMIENNYCH OBJAŚNIAJĄCYCH Metoda budowy modelu jest określona w zależności od wyboru parametru „direction”: Backward (wtecz) - z modelu zawierającego wszystkie zmienne objaśniające usuwane są najmniej istotne zmienne, dopóki wszystkie zmienne w modelu będą istotne Forward (wprzód) - określa metodę dodawania najbardziej istotnych zmiennych do modelu zawierającego tylko wyraz wolny Both - oznacza metodę, którą do modelu dodajemy zmienną istotną posiadającą najmniejszą p-value, a następnie usuwamy zmienną nieistotną z największą p-value. Kroki te są powtarzane aż model przestaje ulegać zmianie REGRESJA WIELOKROTNA – PRZYKŁAD W R Baza alkohol: cirrhosis – marskość wątroby oop – ludność zamieszkująca w miastach liquor – Spożycie wysokoprocentowego alkoholu na mieszkańca wine – spożycie wina na mieszkańca lb – liczba urodzeń przez kobiety w wieku 45-49 Źródło danych i tutorial: http://scg.sdsu.edu/mlr-r/ KORELACJE MODEL REGRESJA KROKOWA Metoda: wstecz – z modelu zawierającego wszystkie zmienne usuwamy po jednej sprawdzamy wartość AIC MODEL Model po usunięciu zmiennej liquor ŹRÓDŁA Biecek P. 2013. Analiza danych z programem R. Wydawnictwo naukowe PWN. Warszawa Olech W., Wieczorek M. 2010. Zastosowanie metod statystyki w doświadczalnictwie zootechnicznym. Wydawnictwo SGGW.