STATYSTYKA – wykłady

Transkrypt

STATYSTYKA – wykłady
STATYSTYKA – wykłady
L.Gruszczyński „Elementy statystyki dla socjologów”
Dr. Pactwa – pon. i wtorek 09:30 – 11:00 (pok. 217)
I.
(08.X)
1. Statystyka – jest to nauka zajmująca się metodami ilościowymi badania
prawidłowości zjawisk masowych
2. Badanie statystyczne – ogół prac mających na celu poznanie struktury badanej
zbiorowości statystyczne.
3. Zbiorowość statystyczna – zbiór dowolnych elementów, osób, przedmiotów
lub faktów, podobnych pod względem określonych cech, ale nie identycznych
i poddanych badaniu statystycznemu
a) zbiorowość generalna (populacja) – wszystkie elementy, będące
przedmiotem badania, co do których chcemy formułować wnioski
b) zbiorowość próbna (próba) – podzbiór populacji generalnej
obejmujący część jej elementów wybranych w określony sposób.
(wybór celowy i kwotowy lub losowo)
4. Rodzaje badania statystycznego:
a) całkowite (wyczerpujące) – gdy obserwacji poddane są wszystkie
jednostki populacji generalnej (np. powszechny spis ludności)
b) częściowe (próba)
5. Rodzaje cech statystycznych – właściwości jednostek statystycznych:
a) mierzalne – (ilościowe, kwantyfikowalne) można je wyrazić przy
pomocy odpowiednich jednostek fizycznych(cm, kg itp.)
• cechy quasi-ilościowe, wyrażające natężenie cechy
b) niemierzalne – (jakościowe) są zwykle określanie słownie(płeć,
wykształcenie, wiek)
c) skokowe – (dyskretne) przyjmują skończony lub przeliczany zbiór
wartości na danej skali liczbowej (ilość dzieci)
d) ciągłe – przyjmują każdą wartość z określonego przedziału
liczbowego (waga)
6. Cele badania statystycznego –
• poznanie rozkładu zbiorowości pod względem
wybranych cech
• ustalenie jakiego rodzaju związki występują między
cechami (współzależność cech)
• porównywanie i porządkowanie obiektów wielorodnych
• poznanie dynamiki zbiorowości
7. Etapy badania statystycznego:
a) przygotowanie badań
• sformułowanie celu badawczego (postawienie pytań i
hipotez)
•
b)
c)
d)
e)
II.
określenie rzeczowego, przestrzennego i czasowego
zasięgu badań
• rodzaje wykorzystywanego materiału badawczego i
metod jego gromadzenia
• określenie sposobu opracowania i prezentacji zebranego
materiału
• określenie metod analizy tego materiału
• określenie reguł wnioskowania
gromadzenie materiału badawczego – materiał pierwotny (pozyskany
przez nas) lub wtórny (już istniejący)
opracowanie i prezentacja zebranego materiału
• podział uporządkowanego materiału według kryteriów
na podstawie interesujących nas cech
• zliczenie pogrupowanych danych
• interpretacja zebranego materiału i pogrupowanie
wartości (tabele lub wykresy)
opis statystyczny (analiza badanej zbiorowości) – oblicznie miar czyli
charakterystyk opisowych badanej zbiorowości (statystyka opisowa)
wnioskowanie statystyczne – zastosowanie testów na podstawie
których dokonuje się uogólnień do całe zbiorowości
15.X
1. Grupowanie statystyczne:
a) grupowanie typologiczne – ma na celu wyróżnienie jednorodnych
grup jakościowych
b) grupowanie wariancyjne – ma na celu uporządkowanie badanej
zbiorowości i poznanie jej struktury. Polega na łączeniu w klasy
jednostek statystycznych o odpowiednich wartościach cech
statystycznych
2. Szeregi statystyczne – występują przy użyciu grupowania wariancyjnego. Jest
to ciąg wielkości statystycznych uporządkowanych według określonego
kryterium. Rodzaje szeregów statystycznych:
a) szereg szczegółowy – uporządkowanych ciąg wartości badanej cechy
statystycznej, w wypadku małej ilości danych. Można go
uporządkować malejąco lub rosnąco.
b) szereg rozdzielczy – zbiorowość statystyczne podzielona na części
(klasy) według określonej cechy mierzalnej jakościowej lub
ilościowej, z podaniem liczebności dla każdej z wyodrębnionych klas
(rozkład empiryczny)
• szereg rozdzielczy I typu – każdy wariant cechy stanowi
osobną klasę
• szereg rozdzielczy II typu – występują przedziały
„od/do”, które zawsze mają dolną granicę (xd) i górną.
Różnica między dolną a górną granicą to rozpiętość
przedziału (l).
3. Przedstawienie graficzne wyników
a) histogram (wykres słupkowy)– zbiór prostokątów, których podstawy
są wyznaczone na osi odciętych, stanowiąc rozpiętości
poszczególnych przedziałów klasowych. Natomiast wysokości są
określone na osi rzędnych, przez liczebności odpowiadające
poszczególnym przedziałom klasowym
b) wielobok liczebności – linia łamana powstała z połączenia punktów,
których współrzędnymi są środki przedziałów klasowych (xi`), czyli
średnia arytmetyczna (dolna granica +górna granica / 2)
c) szereg skumulowany – szereg powstały z szeregu rozdzielczego przez
kolejne dodawanie (kumulowanie) przedziałów klasowych oraz
odpowiadających im wartości (ncum)
4. Opis struktury badanej grupy – opisujemy przy pomocy parametrów. Jednym z
nich są miary tendencji centralnej:
a) średnie klasyczne:
• średnia arytmetyczne
xi'
xA = ∑
N
• średnia harmoniczna
• średnia geometryczna
b) średnie pozycyjne (zajmują w szeregu szczególną pozycję)
• dominanta – wartość tej zmiennej, która w szeregu
statystycznym występuje najczęściej
D=
xd + l
n 0 − nn − 1
( n0 − nn − 1) + ( n0 − nn + 1)
xd = dolna granica przedziału najliczniejszego
l = rozpiętość przedziału najliczniejszego
n0 = liczebność najliczniejszego przedziału
nn-1 = liczebność przedziału poprzedzającego najliczniejszy
nn+1 = liczebność przedziału po najliczniejszym
•
kwartyle
Q1 – wartość szeregu dzieląca zbiorowość na dwie części
tak, że 1\4 ≤ Q1 ≥ 3\4
N
− ncum − 1
Q1 = xd + l 4
NQ 1
Q3 - wartość szeregu dzieląca zbiorowość na dwie części
tak, że 3\4 ≤ Q1 ≥ 1\4
3N
− ncum − 1
Q 3 = xd + l 4
NQ 3
•
mediana – wartość środkowa, która dzieli szereg na
dwie równe liczebnie części – część wartości równych i
mniejszych niż mediana i część wartości równych i
większych niż mediana
M
N
− ncum − 1
= xd + l 2
NM
xd = dolna granica przedziału mediany
n
\2 = wyraz środkowy
ncum-1 = liczebność skumulowana w przedziale
poprzedzającym przedział mediany
nM = liczebność zwykła przedziału mediany
III.
22.X
1. Miary rozproszenia (zróżnicowania): Pozwalają na uogólnienie różnic w
wartościach cechy, zaobserwowanych u jednostek w badanej zbiorowości.
Klasyczne (odchylenie klasyczne, wariancja, odchylenie standardowe,
współczynnik zmienności) i pozycyjne (rozstęp, odchylenie ćwiartkowe,
współczynnik zmienności dla miar pozycyjnych)
a) klasyczne:
•
odchylenie przeciętne (odchylenie średnie) – średnia
arytmetyczna bezwzględnych wartości odchyleń
wartości cechy od średniej arytmetycznej szeregu.
Kolejność postępowania:
- wyliczamy średnią arytmetyczną szeregu
- od poszczególnych wartości zmiennej
odejmujemy obliczoną średnią
- obliczone odchylenia sumujemy ignorując
znaki
- dzielimy przez liczebność szeregu
d= ∑
•
n i ( x i ' − xA )
N
wariancja – średnia arytmetyczna kwadratów odchyleń
poszczególnych wartości zmiennej od ich średniej
arytmetycznej
∑ n ( x '− x )
S2=
2
i
i
A
N
•
odchylenie standardowe – pierwiastek kwadratowy
wariancji, zmodyfikowany o poprawkę Sheparda, czyli
o ile różnią się przeciętnie wartości cech od średniej
arytmetycznej
2
S= S − l
12
2
l = rozpiętość przedziału klasowego
•
współczynnik zmienności – wyraża się go w %, im
więcej procent tym większe jest zróżnicowanie
V
=
d
100%
xA
V
=
S
100%
xA
b) pozycyjne:
•
rozstęp:
R=
•
odchylenie ćwiartkowe – tu badamy tylko połowę ilości
przypadków, ale dobre, gdy przedziały są niedomknięte
Q=
•
x max − x min
Q 3 − Q1
2
współczynnik zmienności dla miar pozycyjnych – czyli
stosunkowe odchylenie ćwiartkowe
V
Q
=
Q
M
M = mediana
Q = odchylenie ćwiartkowe
IV.
29.X
1. Miary asymetrii
a) asymetria rozkładu- określana przez porównywanie xA, m i D:
• jeżeli xA=M=D – szereg symetryczny.
• jeżeli xA>M>D – rozkład o asymetrii prawostronnej
• jeżeli xA<M<D – rozkład o asymetrii lewostronnej
b) rozkłady symetryczne – to takie, w których obserwacje rozłożone są
równomiernie po obu stronach osi symetrii.
c) rozkłady asymetryczne –
• I – większość obserwacji znajduje się w przedziałach
położonych bliżej początku szeregu, większość cech ma
wartości i niskich nominałach.
• II – przedział klasowy zawierający największą liczbę
obserwacji przesunięty jest w prawo – w ostatnich
przedziałach
• Rozkłady bimodalne – dwa wyraźne punkty skupienia
•
rozkłady siodłowe – posiada dwa punkty skupienia
obserwacji znajdujące się w krańcowych przedziałach
(pierwszym i ostatnim)
•
rozkład równomiarowy – we wszystkich przedziałach
występuje ta sama liczba obserwacji.
•
asymetria dodatnia – punkt skupienia znajduje się prze
niskich wartościach cechy
asymetria ujemna – punkt skupienia znajduje się przy
wyższych wartościach cechy.
•
d) miernik skośności – jest podstawowym miernikiem asymetrii
rozkładu
Ms =
•
•
•
xA − D
Ms = 0 – symetria
Ms >0 – asymetria prawostronna
Ms <0 – asymetria lewostronna
e) współczynnik skośności – siła i kierunek skośności
xA − D
S
Ws =
Ws∈ (-1, 1)
S = odchylenie standardowe
Ws = 0 – symetria
f) pozycyjna miara asymetrii
(Q 3 − M ) − ( M − Q1)
(Q 3 − M ) + ( M − Q1) _
As =
As∈ (-1,1)
As∈ (-1,0> - asymetria lewostronna
As∈ <0,1) – asymetria prawostronna
g) moment centralny trzeci w jednostkach standardowych –
najdokładniejsza miara, bo uwzględnia wszystkie wartości
α
µ
3
=
µ
3
S
3
∑ ni ( x '− x )
3
3
=
i
A
N
α3∈ (-2,2) – im bliższy 0 tym asymetria jest słabsza
2. Miary koncentracji – jak bardzo poszczególne obserwacje skupiają się wokół
średniej arytmetycznej:
a) kurtoza
K=
µ
S
4
4
µ
∑ ni ( x '− x )
4
3
=
i
A
N
K∈(-3,3) – jeżeli K= 3 rozkład normalny
V.
5.XI.
1. Rozkład normalny
a) pole powierzchni pod krzywą wynosi 1, takie też jest
prawdopodobieństwo, że zmienna znajdzie się w przedziale
zawierającym się pod krzywą, czyli (-∞,+∞). Sigma (δ) to odchylenie
standardowe w rozkładzie normalnym i od (-δ,+δ) znajduje się
68,26% przypadków (po 34,13% po każdej stronie osi symetrii)
b) Oś symetrii rozkładu normalnego to średnia arytmetyczna (= mediana
= dominanta). Dany jest rozkład normalny X: N(xA, δ)
z=
VI.
X − xA
δ
21.XI.
1. Estymacja parametrów – rodzaj wnioskowania polegający na szacowaniu
parametrów populacji generalnej na podstawie statystyk z próby.
a) estymacja punktowa – znalezienie konkretnej liczby dla każdego
szacowanego parametru.
Q = t ± D(Tn)
D(Tn) - błąd standardowy szacunku
T – konkretna wartość statystyki tego parametru w próbie
b) estymacja przedziałowa – wyznaczenie przedziału, w którym z
pewnym prawdopodobieństwem znajduje się parametr estymowany.
Występuje tu przedział ufności i współczynnik ufności, a długość
przedziału ufności wynosi:
P[t − zαD (Tn ) < Q < t + zαD (Tn )] = 1 −α
Q – szacowany parametr
P = 1-α - współczynnik ufności
t +/-zαD(Tn) – granice przedziału ufności
zα - zmienna standaryzowana (wartość krytyczna)
XA = xA + D (Tn )
D(Tn ) =
VII.
δ
n
Testy ℵ2
a) dla tabeli, dane ilościowe i jakościowe
1.
2.
ℵ
2
=
∑
( ne − nt )2
nt
ℵ
2
=
∑
ne
− N
nt
2
ne – liczebności empiryczne, rzeczywiście zaobserwowane w pomiarach
nt – liczebności teoretyczne, oczekiwane w poszczególnych komórkach
ss = ( k − 1)( w − 1)
k – kolumny
w – wiersze
ℵ2obl > ℵ2α - nie ma przesłanek do przyjęcia H0, przyjmujemy H1
b) dla szeregu, dane ilościowe (rozkład normalny)
(n − np )
2
ℵ
2
=
∑
i
i
npi
ss = k – r – 1; gdzie r to liczba parametrów, a k to liczba kolumn
-
Dla ostatniego wiersza nie obliczamy z;
z=
xi − xA
δ
-
Dystrybuanta f(zi) (z tablic) odejmowanie lub dodawania do z (w zależności od
znaku)
-
Pi w pierwszym wierszu = D (dystrybuanta)
VIII.
kolejne wiersze = Dn – Dn-1
ostatni wiersz = 1- Dpoprzedniego
suma prawdopodobieństw musi być równa 0
Siła korelacji
1. Współczynnik korelacji c Pearsona. <-1;1> , siła związku:
c=
ℵ
ℵ
2
2
+ N
2. Współczynnik korelacji r:
ℵ
r=
2
N ( k − 1)
mniejsza z różnic (k – 1) lub (w – 1)
3. Współczynnik korelacji V2
V
2
=
ℵ
2
N ( k − 1) \ ( w − 1)
mniejsza z różnic (k – 1) lub (w – 1)
4. Związek między cechami ilościowymi – współczynnik korelacji r Pearsona
r=
N ∑ niuivi − ( ∑ niui )( ∑ nivi )
[N ∑
nu
i
2
i
− (∑
n u ) ][ N ∑ n v
2
i
i
i
2
i
− (∑
2
nv )
i
i
r = 0 – nie ma związku
r = 1 – związek całkowity dodatni (jak jeden w rośnie to drugi też)
r = -1 – związek całkowity ujemny
0< r >1 – korelacja dodatnia niedoskonała
-1< r >0 – korelacja ujemna niedoskonała
0< r >0,2 – bardzo słaba
0,2< r >0,3 – słaba
0,3< r >0,5 – średnia
0,5< r >0,7 – silna
0,7< r >1 – bardzo silna
IX.
LICZENIE ZADANIA Z DANYMI ILOŚCIOWYMI W TABLICY KORElACJI
1. Wyznaczamy środki przedziałów klasowych xi i yi.
2. Wyznaczamy punkty wyjściowe (arbitralne) x0 i y0, czyli środki przedziałów
przedziału środkowego (w przypadku liczby parzystej np.4 wziąć drugi lub
czwarty).
3. Obliczamy wartości odchyleń ui i vi, poszczególnych środków przedziałów
klasowych od ich punktów arbitralnych wg:
ui =
xi ' − xo
l
vi =
yi '− yo
l
4. Obliczamy iloczyny odchyleń i właściwych im liczebności w przedziałach (niui
i nivi)
5. Obliczamy iloczyny kwadratów odchyleń i liczebności w przedziałach
6. Obliczamy iloczyny odchyleń cechy x i cechy y: uivi (dla każdej komórki) a
liczebności te zapisujemy w lewych górnych rogach komórki tablicy
7. Wpisany w lewym górnym roku iloczyn (uivi) mnożymy przez liczebność a
wynik mnożenia wpisujemy w prawym dolnym rogu komórki
8. Wpisany w prawych dolnych rogach komórek iloczyny - niuivi – sumujemy w
poziomie i pionie a wyniki sumowań zapisujemy w ostatnim wierszu i
ostatniej kolumnie i to też sumujemy
9. Sprawdzamy poprawność obliczeń poprzez porównanie sumy w ostatnim
wierszu i ostatniej kolumnie. Powinny się równać.