partia polityczna zamierza sprawdzić, czy przekroczy

Transkrypt

partia polityczna zamierza sprawdzić, czy przekroczy
WSTĘP DO STATYSTYKI
Przykłady problemów:
- partia polityczna zamierza sprawdzić, czy przekroczy
pięcioprocentowy próg wyborczy w zbliżających się wyborach;
- biolog chciałby wiedzieć, jaka jest najniższa temperatura, przy której jest w stanie przetrwać dany gatunek roślin;
- firma farmaceutyczna potrzebuje badań skuteczności
nowego leku;
- lekarz chce wiedzieć, czy otyłość wpływa na zachorowalność na pewną chorobę;
- socjolog chcę sprawdzić, czy rzeczywiście polacy coraz
częściej spędzają czas przed telewizorem.
Działamy poprzez przeprowadzenie doświadczeń. Wyniki tych doświadczeń mają charakter losowy, ponieważ
nie da się ich przewidzieć wcześniej. Zakładamy, że jesteśmy w stanie powtórzyć pewną liczbę razy (a lepiej
– dowolną liczbę razy) te doświadczenia w tych samych
warunkach.
Podstawowe cechy badań.
1. Mamy do czynienia ze zbiorem (populacja generalna)
pojedyńczych nosników informacji (jednostka statysty1
czna). Populacje mogą być skończone i nieskończone.
2. Jednostki statystyczne są charakteryzowane przez
pewne cechy. Interesujące nas cechy jednostek, które
nie są takie same, nazywamy zmiennymi.
3. Badanie może być pełne i częściowe. W przypadku
drugim, badając tylko małą część populacji (próbka losowa) chcemy sądzić o całej populacji. Próbka musi
być reprezentatywna.
Statystyka matematyczna zawiera modele i metody,
które pozwalają sądzić o całości poprzez badanie tylko
niewielkiej części.
Wnioskowanie statystyczne może być błędne.
Etapy badania statystycznego:
- przygotowanie badania;
- gromadzenie danych i ich opracowanie;
- wnioskowanie statystyczne;
- prezentacja wyników.
Wstępna obróbka danych. Zanim zaczniemy pracować z danymi, należy ich dokładnie przejrzeć. Dane
mogą zawierać
- wartości, które są błędne;
2
- obserwacje z brakującymi wartościami;
- punkty oddalone (odstające).
Wstępna obróbka danych polega na czyszczeniu danych
i ich ewentualnemu przekształcaniu.
Czyszczenie danych polega przede wszystkim na usunięciu błędów, a także na obsłudze danych brakujących. Istnieje kilka metod pracy z danymi brakującymi:
- zastąpienie wartości brakujących pewną stałą;
- zastąpienie wartości brakujących wartością średnią
(dla zmiennych ilościowych) lub wartością modalną (dla
zmiennych jakościowych);
- zastąpienie wartości brakujących wartością wygenerowaną losowo z obserwowanego rozkładu zmiennej.
Każda z metod ma swoje wady i zalety.
Zmienne na ogół mają różne zakresy zmienności. Przy
niektórych procedurach statystycznych takie różnice będą powodować, że zmienne z większym zakresem będą
miały nadmierny wpływ na wyniki.
Dlatego na początku pracy w celu wyrównywania tych
różnic, warto zastanowić się nad przekształceniem liniowym danych typu normalizacji lub standaryzacji.
3
Normalizacja. Wartości {x1, . . . , xn} zmiennej przekształcamy na {y1, . . . , yn} następująco:
xi − min xj
yi =
1≤j≤n
max xj − min xj
1≤j≤n
∈ [0, 1],
i = 1, . . . , n.
1≤j≤n
Standaryzacja. Wartości {x1, . . . , xn} zmiennej przekształcamy na {z1, . . . , zn} następująco:
xi − x̄
zi =
, i = 1, . . . , n,
σx
√ ∑
∑
n
n
1
2 . Dla
gdzie x̄ = n1 j=1 xj , σx =
(x
−
x̄)
j
j=1
n
wartości przekształconych: z̄ = 0, σz = 1.
Punkty odstające najczęściej identyfikujemy za pomocą
wykresu ramka z wąsami (wykres ramkowy) lub wykresu rozrzutu.
4