Analiza danych za pomocą pakietu SAS Wyklad 1 Obiekty i zmienne
Transkrypt
Analiza danych za pomocą pakietu SAS Wyklad 1 Obiekty i zmienne
„Bioinformatyka - rozwój oferty edukacyjnej Uniwersytetu Przyrodniczego we Wrocławiu” projekt realizowany w ramach Programu Operacyjnego Kapitał Ludzki współfinansowanego ze środków Europejskiego Funduszu Społecznego Wyklad 1 Analiza danych za pomocą pakietu SAS • Graficzna reprezentacja danych • Statystyki opisowe • Podstawy testowania Małgorzata Bogdan Politechnika Wrocławska Obiekty i zmienne Rodzaje zmiennych • Obiekty – np. ludzie, zwierzęta, przedmioty • Zmienna – charakterystyka obiektu Zmienne Jakościowe Ilościowe Porządkowe Nie porządkowe Ciągłe Dyskretne Rodzaje zmiennych • Jakościowe – Porządkowe: np. wybory w ankiecie ; nigdy, rzadko, czasami, często, zawsze – Nie porządkowe: Kształt, kolor, rasa itp Informacje o pracownikach CyberStat • Ilościowe – Ciągłe : wzrost, waga, stężenie – Dyskretne : liczba kwiatów itp. Graficzna reprezentacja danych • Zmienne jakościowe Wykres słupkowy Wykres kołowy Zmienne ilościowe - Histogram Statystyki opisowe • • • • • Średnia Mediana Kwartyle Wykresy pudełkowe Standardowe odchylenie • • • • • • • • • • • • data deaths; input cause $ numdeath; cards; accident 13602 homicide 4989 suicide 3885 cancer 1724 heartdis 1048 congenit 430 respirat 208 AIDS 197; run; Program 3 • • • • • • proc gchart data=deaths; vbar cause / freq=numdeath; run; proc gchart data=deaths; pie cause / freq=numdeath; run; Program 4 • • • • • • • data reading; infile ' c:\mbogdan\ECMI\data\ex01_026.txt'; input drp; run; proc univariate data=reading plot; var drp; run; Testy istotności • • • • • • proc gchart data=reading; vbar drp/type=pct midpoints=14 to 54 by 4; run; proc univariate data=reading; histogram drp/ midpoints=14 to 54 by 4; run; Postawienie hipotezy • Hipoteza to stwierdzenie dotyczące parameterów opisujących populację lub model (a nie dane). • Stawiamy dwie hipotezy: – Hipotezę zerową H0 – Hipotezę alternatywną Ha • Podstawy testowania • Hipoteza zerowa i alternatywna • P-wartość i poziom istotności. Hipoteza zerowa: • Hipoteza zerowa to stwierdzenie, które na wstępie jest ``faworyzowane’’. Zazwyczaj opisuje mało interesującą sytuację ``braku wpływu’’ lub ``braku zależności’’. • Ustalamy czy dane dostarczają wystarczających przesłanek aby odrzucić hipotezę zerową. • Test istotności określa w jakim stopniu dane przemawiają przeciwko hipotezie zerowej. Hipoteza alternatywna: Przykład 1 ctnd. • Hipoteza alternatywna opisuje sytuację, która może mieć miejsce zamiast H0. • Często ustalamy najpierw Ha - np. określamy spodziewany efekt zmiennej objaśniającej. Następnie określamy H0 jako brak tego efektu. H0: µ = 200 Średnia (w populacji) waga pastylki wynosi 200mg. Ha: µ ≠ 200 Średnia waga pastylki różni się od 200mg. Jest to alternatywa dwu-stronna. (Szukamy odchylenia w obu kierunkach.) Przykład 1: Inne możliwe sytuacje H0: µ = 200 vs. Ha: µ <200 Spodziewamy się mniejszej wagi. Alternatywa jedno-stronna. H0: µ = 200 vs. Ha: µ >200 Spodziewamy się większej wagi. Alternatywa jedno-stronna. H0: µ ≤ 200 vs. Ha: µ >200 Zasadniczo nie różni się od poprzedniej. P-wartość… P-stwo, że przy prawdziwości H0 statystyka testowa przyjmie co najmniej tak ekstremalną wartość jak zaobserwowana w naszej próbie. Mała p-wartość świadczy przeciwko H0. Żeby wyznaczyć p-wartość należy znać rozkład statystyki testowej przy H0 . Uwaga: O postaci alternatywy należy zdecydować przed analizą danych, w oparciu o ogólną wiedzę lub wcześniejsze eksperymenty. Poziom istotności: • P-stwo błędu pierwszego rodzaju. Wartość z którą porównujemy p-wartości. • Zwykle oznaczany przez α. • Typowe wartości α: 0.05, 0.01. Poziom istotności • Jeżeli P-wartość ≤α to mówimy, że dane są statystycznie istotne na poziomie istotności α tzn. mamy istotne przesłanki aby odrzucić hipotezę zerową. Uwaga: • Dane o P-wartości 0.02 są statystycznie istotne na poziomie istotności 0.05, ale nie na poziomie istotności 0.01. Wniosek/decyzja: • Jeżeli P-wartość jest mniejsza od ustalonego poziomu istotności to odrzucamy hipotezę zerową (na korzyść alternatywy). • W innym przypadku nie mamy wystarczających przesłanek aby hipotezę zerową odrzucić. • Uwaga: Razem z konkluzją należy podać pwartość.