partia polityczna zamierza sprawdzić, czy przekroczy
Transkrypt
partia polityczna zamierza sprawdzić, czy przekroczy
WSTĘP DO STATYSTYKI Przykłady problemów: - partia polityczna zamierza sprawdzić, czy przekroczy pięcioprocentowy próg wyborczy w zbliżających się wyborach; - biolog chciałby wiedzieć, jaka jest najniższa temperatura, przy której jest w stanie przetrwać dany gatunek roślin; - firma farmaceutyczna potrzebuje badań skuteczności nowego leku; - lekarz chce wiedzieć, czy otyłość wpływa na zachorowalność na pewną chorobę; - socjolog chcę sprawdzić, czy rzeczywiście polacy coraz częściej spędzają czas przed telewizorem. Działamy poprzez przeprowadzenie doświadczeń. Wyniki tych doświadczeń mają charakter losowy, ponieważ nie da się ich przewidzieć wcześniej. Zakładamy, że jesteśmy w stanie powtórzyć pewną liczbę razy (a lepiej – dowolną liczbę razy) te doświadczenia w tych samych warunkach. Podstawowe cechy badań. 1. Mamy do czynienia ze zbiorem (populacja generalna) pojedyńczych nosników informacji (jednostka statysty1 czna). Populacje mogą być skończone i nieskończone. 2. Jednostki statystyczne są charakteryzowane przez pewne cechy. Interesujące nas cechy jednostek, które nie są takie same, nazywamy zmiennymi. 3. Badanie może być pełne i częściowe. W przypadku drugim, badając tylko małą część populacji (próbka losowa) chcemy sądzić o całej populacji. Próbka musi być reprezentatywna. Statystyka matematyczna zawiera modele i metody, które pozwalają sądzić o całości poprzez badanie tylko niewielkiej części. Wnioskowanie statystyczne może być błędne. Etapy badania statystycznego: - przygotowanie badania; - gromadzenie danych i ich opracowanie; - wnioskowanie statystyczne; - prezentacja wyników. Wstępna obróbka danych. Zanim zaczniemy pracować z danymi, należy ich dokładnie przejrzeć. Dane mogą zawierać - wartości, które są błędne; 2 - obserwacje z brakującymi wartościami; - punkty oddalone (odstające). Wstępna obróbka danych polega na czyszczeniu danych i ich ewentualnemu przekształcaniu. Czyszczenie danych polega przede wszystkim na usunięciu błędów, a także na obsłudze danych brakujących. Istnieje kilka metod pracy z danymi brakującymi: - zastąpienie wartości brakujących pewną stałą; - zastąpienie wartości brakujących wartością średnią (dla zmiennych ilościowych) lub wartością modalną (dla zmiennych jakościowych); - zastąpienie wartości brakujących wartością wygenerowaną losowo z obserwowanego rozkładu zmiennej. Każda z metod ma swoje wady i zalety. Zmienne na ogół mają różne zakresy zmienności. Przy niektórych procedurach statystycznych takie różnice będą powodować, że zmienne z większym zakresem będą miały nadmierny wpływ na wyniki. Dlatego na początku pracy w celu wyrównywania tych różnic, warto zastanowić się nad przekształceniem liniowym danych typu normalizacji lub standaryzacji. 3 Normalizacja. Wartości {x1, . . . , xn} zmiennej przekształcamy na {y1, . . . , yn} następująco: xi − min xj yi = 1≤j≤n max xj − min xj 1≤j≤n ∈ [0, 1], i = 1, . . . , n. 1≤j≤n Standaryzacja. Wartości {x1, . . . , xn} zmiennej przekształcamy na {z1, . . . , zn} następująco: xi − x̄ zi = , i = 1, . . . , n, σx √ ∑ ∑ n n 1 2 . Dla gdzie x̄ = n1 j=1 xj , σx = (x − x̄) j j=1 n wartości przekształconych: z̄ = 0, σz = 1. Punkty odstające najczęściej identyfikujemy za pomocą wykresu ramka z wąsami (wykres ramkowy) lub wykresu rozrzutu. 4