Słowniczek pojęć statystycznych

Transkrypt

Słowniczek pojęć statystycznych
Słownik podstawowych pojęć statystycznych
Uwaga! Słownik ma tylko wspomagać uczenie się, a nie być celem
uczenia się (nie należy uczyć się na pamięć poniższych definicji).
Trzeba je rozumieć!!!
Błąd I rodzaju (prawdopodobieństwo błędu) – Popełniany, gdy odrzucamy hipotezę
zerową. Jest to ryzyko odrzucenia prawdziwej hipotezy zerowej. Np. p=0,05 oznacza, że
gdybyśmy nieskończenie wiele razy pobierali próby tej samej wielkości z populacji
generalnej o tej samej średniej, to średnio 5 razy na 100 przeprowadzonych testów
odrzucilibyśmy hipotezę zerową. Obserwowane różnice między próbami mogą być dziełem
przypadku.
Błąd II rodzaju – Popełniamy, gdy przyjmujemy hipotezę zerową. Jest to ryzyko
przyjęcia fałszywej hipotezy zerowej.
Błąd standardowy – Odchylenie standardowe średnich z prób (gdybyśmy wiele razy
pobierali próby tej samej wielkości z tej samej populacji generalnej, liczyli z nich średnie, a
potem odchylenie standardowe tych średnich). Błąd standardowy zwykle nie da się wyliczyć
bezpośrednio – szacuje się go na podstawie odchylenia standardowego obliczonego z
pojedynczej próby, dzieląc to odchylenie przez pierwiastek z wielkości tej próby (odchylenie
standardowe średnich jest o pierwiastek z N mniejsze niż odchylenie standardowe pomiarów)
Hipoteza alternatywna - hipoteza przeciwna do hipotezy zerowej, którą przyjmujemy
odrzucając hipotezę zerową.
Hipoteza zerowa – hipoteza statystyczna, skonstruowana tak by dało się ją obalić.
Zwykle stwierdzenie przeciwne do tego co chcemy udowodnić w wyniku testowania hipotez
(o braku różnic/zależności). Np. jeżeli chcemy zbadać różnice w masie ciała między płciami,
H0 zakłada brak różnic. Jeżeli w toku analiz H0 zostanie odrzucona, będziemy mogli przyjąć
iż płcie różnią się masą.
Istotność statystyczna – różnice/zależności, które w wyniku testowania hipotez
uważamy, że są cechą populacji generalnej (p równe lub mniejsze niż założony poziom
istotności).
Kodowanie – zmiana położenia średniej, poprzez operacje typu dodawanie,
odejmowanie, dzielenie i mnożenie. Kodowanie nie zmienia kształtu rozkładu
Korelacja – metoda służąca do badania siły zależności między dwiema zmiennymi
wyrażonymi w skali interwałowej (ciągłymi). Przyjmuje wartości między -1 a 1, przy czym
r=0 to brak związku, a wartości 1 i -1 oznaczają, że jedna zmienna wyjaśnia całkowicie
zmienność obserwowaną w drugiej zmiennej.
Liczba stopni swobody – jak dużo niezależnych obserwacji składających się na próbę
możemy użyć do oszacowania danego parametru statystycznego. Ile pomiarów w próbie
może przyjmować dowolne wartości (nie są zdeterminowane przez oszacowane parametry).
Odchylenie standardowe - miara rozproszenia pomiarów wokół średniej. Determinuje
kształt rozkładu normalnego (jest parametrem tego rozkładu). Zwykle nie jest znane dla
populacji generalnej, obliczane na podstawie próby staje się oszacowaniem dla populacji.
Parametr – np. średnia czy odchylenie standardowe w populacji generalnej. Zwykle
nieznane dla populacji i szacowane (estymowane) na podstawie próby. Decyduje o wyglądzie
rozkładu statystycznego.
Poziom istotności – maksymalna dopuszczalna wartość prawdopodobieństwa, że w
procedurze testowania hipotez odrzucimy prawdziwą H0 (maksymalna wartość błędu
pierwszego rodzaju jaki dopuszczamy). Nie odrzucimy H0 jeśli wartość błędu I rodzaju
miałaby być większa.
Próba – losowo wybrane elementy populacji generalnej. Próba reprezentatywna – to taka
w której każdy element populacji ma taką samą szansę pojawienia się w próbie (że każda
wartość ma szansę pojawienia się w próbie z prawdopodobieństwem odpowiadającym
częstości występowania w populacji takiej wartości). Próbę pobieramy po to wnioskować o
całej populacji, gdy cechy tej populacji nie są możliwe do bezpośredniego oszacowania.
Przedział ufności – przedział wartości, w którym z określonym prawdopodobieństwem
oczekujemy średnia z populacji generalnej. Wyznaczany na podstawie średniej i odchylenia
standardowego w próbie pozwala wnioskować o populacji generalnej (o średniej z tej
populacji). Np. stwierdzenie iż 95% przedział ufności dla średniej masy ciała nornic to 2535g, oznacza że z 95% ufnością oczekujemy, że średnia masa ciała nornic mieści się w
granicach 25g do 35g. Przedział jest tym węższy (z większą dokładnością szacuje położenie
średniej z populacji) im próba jest większa i im mniejszą ufność przykładamy do oszacowania
tego przedziału
Regresja – metoda statystyczna służąca do opisania charakteru zależności między
dwiema zmiennymi wyrażonymi w skali interwałowej. Zwykle polega na opisaniu związku
między zmiennymi w postaci równania liniowego Y=aX+b, które wyznacza się metodą
najmniejszych kwadratów. W przypadku związków przyczynowo-skutkowych regresja
pozwala przewidywać wartości zmiennej zależnej na podstawie wartości zmiennej
niezależnej.
Rozkład – częstość występowania poszczególnych wartości w populacji. Rozkład
normalny: rozkład pomiarów wokół średniej w populacji (średnie i odchylenie standardowe są
parametrami tego rozkładu). Rozkład t-Studenta: rozkład średnich z prób N-elementowych od
średniej ze średnich z prób (średniej z populacji generalnej; parametrem jest liczna stopni
swobody). Rozkład dwumianowy: rozkład częstości sukcesów w próbie N-elementowej
(operuje na skali nominalnej dychotomicznej, parametry: wielkość próby, liczba sukcesów,
częstość danej kategorii w populacji generalnej).
Standaryzacja danych – operacja mająca na celu taką obróbkę danych, żeby dane
pochodzące z różnych prób/populacji były ze sobą porównywalnej. Zwykle polega na
obliczeniu różnicy między wartością pomiaru a średnią z próby i podzielenie jej przez
odchylenie standardowe z tej próby. Dla danych standaryzowanych średnia wynosi zero
natomiast odchylenie standardowe równa się jeden.
Statystyka – wartość obliczona na podstawie próby, np. średnia, odchylenie
standardowe, obliczona w procesie testowania hipotez wartość t, r itp. Statystykę można
traktować pod pewnymi warunkami jako oszacowanie parametru (estymator).
Skala pomiarowa – skala interwałowa: pomiary wynikające z mierzenia, ważenia,
zwykle wyrażone w liczbach rzeczywistych. Skala porządkowa: kolejność, rangi, zwykle
wyrażone w liczbach całkowitych. Skala nominalna: dane w postaci liczebności w jasno
zdefiniowanych kategoriach (np. płeć).
Test dwustronny – nie można z góry przewidzieć kierunku testowanych
różnic/zależności. Korzysta z dwóch stron rozkładu (wartości krytyczne znajdują się po obu
stronach rozkładu). Taki test jest testem słabszym niż test jednostronny.
Test jednostronny – z góry można przewidzieć kierunek różnic/zależności (o ile w
ogóle istnieją). Stosowany zwykle w badaniach jakości – czy spełnione są standardy/normy
(np. jakość żywności, wody, produktów). Korzysta z jednej określonej strony rozkładu
(wartości krytyczne znajdują się tylko po jednej stronie rozkładu). Test mocniejszy.
Test statystyczny – metoda służąca określeniu, czy założona hipoteza zerowa jest
prawdziwa czy fałszywa. W wyniku testowania hipotezy staramy się ją odrzucić na podstawie
porównania statystyki testu (wynikającej z obliczeń) z wartością krytyczną.
Test parametryczny – oparty na parametrach rozkładu normalnego (liczymy w nim
średnią i odchylenie standardowe) w odróżnieniu od testu nieparametrycznego, który nie musi
spełniać założenia normalności rozkładu w populacji generalnej.
Transformacja - Zmiana wartości zmiennej poprzez zastosowanie operacji
matematycznej w postaci funkcji matematycznych. Np. potęgowanie, pierwiastkowanie,
logarytmowanie itp. Transformacja zmienia kształt rozkładu (wartość zmienia się
nieproporcjonalnie).
Wariancja – miara rozproszenia danych wokół średniej. Inaczej średnie odchylenie
kwadratów od średniej (suma podniesionych do kwadratu różnic między wartością każdego
pomiaru w próbie a średnią, podzielona przez wielkość próby - 1)
Wartość krytyczna- wartość z rozkładu teoretycznego, która dla założonego poziomu
istotności stanowi wartość graniczną, przy której będziemy odrzucać hipotezę zerową.
Zmienna niezależna – zmienna która wpływa na inną zmienna (kształtuje zmienność
zmiennej zależnej). Np. w równaniu Y=aX+b, X jest zmienną niezależną.
Zmienna zależna – jej zmienność chcemy wyjaśnić wpływem innej zmiennej (zmiennej
niezależnej). Np. w równaniu Y=aX+b, Y jest zmienną zależną.