Analiza danych za pomocą pakietu SAS Wyklad 1 Obiekty i zmienne

Transkrypt

Analiza danych za pomocą pakietu SAS Wyklad 1 Obiekty i zmienne
„Bioinformatyka - rozwój oferty edukacyjnej Uniwersytetu Przyrodniczego we Wrocławiu”
projekt realizowany w ramach Programu Operacyjnego Kapitał Ludzki
współfinansowanego ze środków Europejskiego Funduszu Społecznego
Wyklad 1
Analiza danych za pomocą
pakietu SAS
• Graficzna reprezentacja danych
• Statystyki opisowe
• Podstawy testowania
Małgorzata Bogdan
Politechnika Wrocławska
Obiekty i zmienne
Rodzaje zmiennych
• Obiekty – np. ludzie, zwierzęta, przedmioty
• Zmienna – charakterystyka obiektu
Zmienne
Jakościowe
Ilościowe
Porządkowe Nie porządkowe Ciągłe
Dyskretne
Rodzaje zmiennych
• Jakościowe
– Porządkowe: np. wybory w ankiecie ; nigdy,
rzadko, czasami, często, zawsze
– Nie porządkowe:
Kształt, kolor, rasa itp
Informacje o pracownikach CyberStat
• Ilościowe
– Ciągłe : wzrost, waga, stężenie
– Dyskretne : liczba kwiatów itp.
Graficzna reprezentacja danych
• Zmienne jakościowe
Wykres słupkowy
Wykres kołowy
Zmienne ilościowe - Histogram
Statystyki opisowe
•
•
•
•
•
Średnia
Mediana
Kwartyle
Wykresy pudełkowe
Standardowe odchylenie
•
•
•
•
•
•
•
•
•
•
•
•
data deaths;
input cause $ numdeath;
cards;
accident 13602
homicide 4989
suicide 3885
cancer 1724
heartdis 1048
congenit 430
respirat 208
AIDS 197;
run;
Program 3
•
•
•
•
•
•
proc gchart data=deaths;
vbar cause / freq=numdeath;
run;
proc gchart data=deaths;
pie cause / freq=numdeath;
run;
Program 4
•
•
•
•
•
•
•
data reading;
infile ' c:\mbogdan\ECMI\data\ex01_026.txt';
input drp;
run;
proc univariate data=reading plot;
var drp;
run;
Testy istotności
•
•
•
•
•
•
proc gchart data=reading;
vbar drp/type=pct midpoints=14 to 54 by 4;
run;
proc univariate data=reading;
histogram drp/ midpoints=14 to 54 by 4;
run;
Postawienie hipotezy
• Hipoteza to stwierdzenie dotyczące
parameterów opisujących populację lub
model (a nie dane).
• Stawiamy dwie hipotezy:
– Hipotezę zerową H0
– Hipotezę alternatywną Ha
• Podstawy testowania
• Hipoteza zerowa i alternatywna
• P-wartość i poziom istotności.
Hipoteza zerowa:
• Hipoteza zerowa to stwierdzenie, które na wstępie
jest ``faworyzowane’’. Zazwyczaj opisuje mało
interesującą sytuację ``braku wpływu’’ lub ``braku
zależności’’.
• Ustalamy czy dane dostarczają wystarczających
przesłanek aby odrzucić hipotezę zerową.
• Test istotności określa w jakim stopniu dane
przemawiają przeciwko hipotezie zerowej.
Hipoteza alternatywna:
Przykład 1 ctnd.
• Hipoteza alternatywna opisuje sytuację, która
może mieć miejsce zamiast H0.
• Często ustalamy najpierw Ha - np. określamy
spodziewany efekt zmiennej objaśniającej.
Następnie określamy H0 jako brak tego
efektu.
H0: µ = 200
Średnia (w populacji) waga pastylki wynosi
200mg.
Ha: µ ≠ 200
Średnia waga pastylki różni się od 200mg.
Jest to alternatywa dwu-stronna.
(Szukamy odchylenia w obu kierunkach.)
Przykład 1: Inne możliwe sytuacje
H0: µ = 200 vs. Ha: µ <200
Spodziewamy się mniejszej wagi. Alternatywa jedno-stronna.
H0: µ = 200 vs. Ha: µ >200
Spodziewamy się większej wagi. Alternatywa jedno-stronna.
H0: µ ≤ 200 vs. Ha: µ >200
Zasadniczo nie różni się od poprzedniej.
P-wartość…
P-stwo, że przy prawdziwości H0 statystyka testowa
przyjmie co najmniej tak ekstremalną wartość jak
zaobserwowana w naszej próbie.
Mała p-wartość świadczy przeciwko H0.
Żeby wyznaczyć p-wartość należy znać rozkład
statystyki testowej przy H0 .
Uwaga: O postaci alternatywy należy zdecydować przed
analizą danych, w oparciu o ogólną wiedzę lub wcześniejsze
eksperymenty.
Poziom istotności:
• P-stwo błędu pierwszego rodzaju. Wartość z
którą porównujemy p-wartości.
• Zwykle oznaczany przez α.
• Typowe wartości α: 0.05, 0.01.
Poziom istotności
• Jeżeli P-wartość ≤α to mówimy, że dane są
statystycznie istotne na poziomie istotności α
tzn. mamy istotne przesłanki aby odrzucić
hipotezę zerową.
Uwaga:
• Dane o P-wartości 0.02 są statystycznie istotne
na poziomie istotności 0.05, ale nie na poziomie
istotności 0.01.
Wniosek/decyzja:
• Jeżeli P-wartość jest mniejsza od ustalonego
poziomu istotności to odrzucamy hipotezę
zerową (na korzyść alternatywy).
• W innym przypadku nie mamy
wystarczających przesłanek aby hipotezę
zerową odrzucić.
• Uwaga: Razem z konkluzją należy podać pwartość.