Wykład 2.

Transkrypt

Wykład 2.
Podstawy statystyki
i obsługa SPSSa
na przykładach z ekonomii
Kurs letni dla studentów studiów zamawianych
na kierunku „Matematyka w ekonomii i finansach” — wykład 2.
dr Joanna Karłowska-Pik
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 1/64
Tablice rozkładu czesto
˛
ści
Przykład 1. Dane dotyczace
˛ liczby sztuk sprzedanego
towaru objetego
˛
właśnie promocja:
˛
9 7 5 3 7 8 7 8 6 6
3 5 7 5 8 6 5 6 5 9
3 4 1 6 5 2 3 4 7 8
4 2 7 7 4 6 6 4 9 7
6 5 6 4 5 4 4 5 7 6
W tabeli podajemy wartości danych, zliczamy dane
(stawiajac
˛ kreski — ang. tally chart), cz˛estości,
cz˛estości wzgledne
˛
i cz˛estości wzgledne
˛
skumulowane.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 2/64
Tabele czesto
˛
ści c.d.
Zliczanie
ni
ni /N
Skumulowane
1
|
1
1/50
1/50
2
||
2
2/50
3/50
3
||||
4
4/50
7/50
4
||||| |||
8
8/50
15/50
5
||||| ||||
9
9/50
24/50
6
||||| |||||
10
10/50
34/50
7
||||| ||||
9
9/50
43/50
8
||||
4
4/50
47/50
9
|||
3
3/50
50/50=1
Wartości
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 3/64
Histogramy dla danych
niezgrupowanych
Ang. histogram. Termin wprowadzony przez Karla
Pearsona w 1895 roku.
Szczególna kategoria wykresów słupkowych. Słupki
rysujemy nad wartościami zmiennej. Wysokość
słupka odpowiada liczbie obserwacji, dla których
zmienna przyjmuje żadan
˛
a˛ wartość.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 4/64
Histogram dla danych
z przykładu
10
9
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 5/64
Wielokaty
˛ czesto
˛
ści
Ang. frequency polygon. Powstaja˛ przez połaczenie
˛
środków górnych krawedzi
˛
słupków histogramu. Środki
górnych krawedzi
˛
słupków skrajnych należy połaczyć
˛
z osia˛ OX. Pole powierzchni wielokata
˛ powinno być
równe sumie pól słupków histogramu. Wielokat
˛
cz˛estości przybliża nam kształt gestości
˛
rozkładu
(pojecie
˛
teorii prawdopodobieństwa).
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 6/64
Wielokat
˛ czesto
˛
ści dla danych
z przykładu
10
9
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 7/64
Wielokat
˛ czesto
˛
ści dla danych
z przykładu
10
9
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 8/64
Krzywe czesto
˛
ści
skumulowanych
Nad wartościami zmiennych zaznaczamy cz˛estości
wzgledne
˛
skumulowane. Otrzymane punkty łaczymy
˛
krzywa˛ (w sposób „gładki”). Krzywa cz˛estości
wzglednych
˛
przybliża wykres funkcji znanej w teorii
prawdopodobieństwa jako dystrybuanta.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 9/64
Krzywa czesto
˛
ści dla danych
z przykładu
1
0
0
1
2
3
4
5
6
7
8
9
10
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 10/64
Tabele i histogramy
w programie
A NALIZA -> O PIS STATYSTYCZNY -> C Z ESTO
˛
ŚCI ...
Przerzucamy do okna Zmienne zmienne, których tabele
i histogramy chcemy utworzyć. Zaznaczamy P OKA Ż
TABELE CZ ESTO
˛
ŚCI. Klikamy W YKRESY... i zaznaczamy
H ISTOGRAMY. Klikamy DALEJ i OK.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 11/64
Diagram „łodyga i liście”
Ang. steam and leaf diagram.
Przykład 2. 12, 36, 18, 25, 24, 11, 39, 11, 29, 35.
1 2 8 1 1
2 5 4 9
3 6 9 5
—>
1 1 1 2 8
2 4 5 9
3 5 6 9
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 12/64
Diagram „łodyga i liście”
w programie
A NALIZA -> O PIS STATYSTYCZNY -> E KSPLORACJA ...
Przerzucamy zmienna˛ do okienka Zmienne zależne.
Zaznaczamy P OKA Ż W YKRESY i klikamy W YKRESY...
Przy wykresach skrzynkowych zaznaczamy B RAK, przy
opisie Ł ODYGA - I - LI ŚCIE. Klikamy DALEJ i OK.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 13/64
Grupowanie danych
Stosuje sie˛ głównie w przypadku dużej liczby
danych przyjmujacych
˛
wiele różnych wartości.
Kiedyś ułatwiało to obliczanie statystyk. Obecnie,
gdy istnieje możliwość używania pakietów
statystycznych, stosuje sie˛ tylko w celu prezentacji
graficznej, m.in. rysowania histogramów.
Zbyt duża liczba przedziałów może powodować, że
liczebności klas bed
˛ a˛ małe i nie bedzie
˛
widać
charakteru rozkładu. Zbyt mała może spowodować,
że sasiaduj
˛
ace
˛ ze soba˛ przedziały o małej i dużej
liczebności zostana˛ połaczone
˛
w jeden.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 14/64
Grupowanie danych c.d.
Gdy przedziały maja˛ być równej szerokości, to ich
liczbe˛ można wyliczyć ze wzorów:
k ¬ 5 ln N ,
k = 1 + 3, 322 ln N ,
√
k = N,
Sturgesa: k = [log2 N + 1],
Scotta: k =
3,5ŝ
√
,
3
N
gdzie N to liczebność danych, a ŝ odchylenie
standardowe.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 15/64
Grupowanie danych c.d.
min
Długość klasy b ≈ xmax −x
, przy czym stosujemy
k
zawsze przybliżenie z nadmiarem.
Punkty stanowiace
˛ granice klas ustala sie˛
z dokładnościa˛ do α/2, gdzie α to dokładność z jaka˛
podane sa˛ dane.
W. Krysicki, J. Bartos, W. Dyczka, K. Królikowska, M. Wasilewski: Rachunek
prawdopodobieństwa i statystyka matematyczna w zadaniach, cz˛eść II, PWN, Warszawa
(1995).
A. Łomnicki: Wprowadzenie do statystyki dla przyrodników, PWN, Warszawa (2003).
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 16/64
Szereg rozdzielczy
Definicja: Dla danych pogrupowanych w klasy przez
szereg rozdzielczy rozumiemy ciag
˛ par (x̃i , ni ), gdzie x̃i
jest środkiem i-tej klasy, a ni jej liczebnościa.
˛
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 17/64
Przykład grupowania
Przykład 3.
68 74 67 46 64 65
61 53 69 54 44 37
55 57 59 47 51 21
73 62 47 64 50 43
32 70 40 65 32 49
58 46 62 73
N =√
34. Liczbe˛ klas wyznaczamy np. ze wzoru
k ≈ N ≈ 6. Długość klasy: b ≈ 74−21
= 53/6 ≈ 9.
6
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 18/64
Tabela dla danych z przykładu
Przedział
Zliczanie
środek x̃i
ni
ni /N
Skumulowane
[20, 5; 29, 5)
|
25
1
1/34
1/34
[29, 5; 38, 5)
|||
34
3
3/34
4/34
[38, 5; 47, 5)
||||
43
7
7/34
11/34
[47, 5; 56, 5)
||||| ||||
52
6
6/34
17/34
[56, 5; 65, 5)
||||| |||||
61
10 10/34
27/34
[65, 5; 74, 5)
||||| ||
70
7
7/34
34/34=1
Szereg rozdzielczy — 3. i 4. kolumna tabeli.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 19/64
Wykresy dla danych
zgrupowanych
Zasady tworzenia dla danych zgrupowanych
analogiczne jak dla niezgrupowanych. Słupki
histogramu rysujemy nad wyznaczonymi
przedziałami.
Pola słupków histogramu odpowiadaja˛ wartościom
liczbowym, słupki nie musza˛ być równej szerokości.
Wyglad
˛ histogramu zależny od obranej szerokości
przedziałów oraz długości jednostek na osi
pionowej.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 20/64
Wykresy dla danych
zgrupowanych c.d.
Punkty dla krzywej cz˛estości skumulowanych
zaznaczamy nad prawymi brzegami klas.
Jeżeli przy rysowaniu histogramu zamiast cz˛estości
zaznaczymy cz˛estości wzgledne,
˛
to pole histogramu
i pole wielokata
˛ cz˛estości bed
˛ a˛ równe 1.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 21/64
Wielokat
˛ czesto
˛
ści i histogram
10
5
25
34
43
52
61
70
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 22/64
Krzywa czesto
˛
ści wzglednych
˛
1
29.5
38.5
47.5
56.5
65.5
74.5
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 23/64
Grupowanie danych w SPSSie
Rekodujemy zmienne przyporzadkowuj
˛
ac
˛ danym
z każdej klasy środek tej klasy. P RZEKSZTAŁCENIA
-> R EKODUJ NA INNE ZMIENNE ... Przenosimy
zmienna˛ z oryginalnymi wartościami do okna
z prawej strony. W polach z prawej strony wpisujemy
nazwe˛ i etykiete˛ zmiennej grupujacej
˛ i klikamy
Z MIE Ń. Nastepnie
˛
klikamy na WARTO ŚCI ŹRÓDŁOWE
I WYNIKOWE ... Dla każdej klasy w ramce WARTO Ś Ć
ŹRÓDŁOWA wybieramy Z AKRES i podajemy granice
klasy. W ramce WARTO Ś Ć WYNIKOWA wybieramy
WARTO Ś Ć i podajemy środek klasy. Klikamy D ODAJ.
Po wprowadzeniu wszystkich klas klikamy DALEJ
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 24/64
Grupowanie danych w SPSSie
c.d.
Agregujemy zmienna˛ zawierajac
˛ a˛ środki klas,
zliczajac
˛ wystapienia.
˛
DANE -> AGREGUJ...
Przenosimy zmienna˛ ze środkami klas do pola
Z MIENNE GRUPUJ ACE
˛ . Zaznaczamy L ICZBA
OBSERWACJI i wpisujemy nazwe
˛ zmiennej bed
˛ acej
˛
liczba˛ obserwacji w grupie np. n_i. W ramce Z APISZ
wybieramy U TWÓRZ NOWY ZBIÓR DANYCH
ZAWIERAJ ACY
˛
TYLKO ZAGREGOWANE ZMIENNE.
Podajemy nazwe˛ nowego pliku. Klikamy OK.
Otwieramy plik zawierajacy
˛ zagregowana˛ zmienna˛
— mamy szereg rozdzielczy.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 25/64
Grupowanie danych w SPSSie
c.d.
Ważymy obserwacje: DANE -> WA ŻENIE
OBSERWACJI .... W ramce wybieramy Z WA Ż
OBSERWACJE i podajemy, że zmienna˛ ważac
˛ a˛ jest
n_i.
Wykonujemy tabele˛ cz˛estości i histogram zmiennej
zawierajacej
˛ środki klas tak jak wcześniej.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 26/64
Miary tendencji centralnej
Oznaczenia:
N — liczebność próbki,
x1 , x2 , . . . , xN — obserwacje,
x(1) , x(2) , . . . , x(N ) — obserwacje ustawione rosnaco.
˛
Miary tendencji centralnej:
średnia (ang. mean),
mediana (ang. median),
moda, inaczej dominanta (ang. mode).
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 27/64
Średnia
x̄ =
PN
i=1 xi
N
.
Średnia˛ podajemy z dokładnościa˛ o 1 wieksz
˛
a˛ niż dane.
Suma odchyleń wszystkich wartości zmiennej od
średniej jest równa 0.
Suma kwadratów odchyleń wartości zmiennej od
pewnej liczby a jest najmniejsza dla a bed
˛ acego
˛
średnia.
˛
G. A. Ferguson, Y. Takane: Analiza statystyczna w psychologii i pedagogice, PWN, Warszawa
(1997).
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 28/64
Zalety i wady średniej
Zalety:
Może być wykorzystywana w dalszych
obliczeniach statystycznych.
Jest najmniej podatna na bład
˛ jako przybliżenie
średniej dla całej populacji.
Wady:
Wrażliwa na nienormalnie duże lub nienormalnie
małe wartości skrajne.
W przypadku rozkładów dwu- i wielomodalnych
bywa mylaca.
˛
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 29/64
Przykłady
Dla danych z przykładu 2. średnia to 24, 0.
W dowcipie rysunkowym robotnik mówi do
dziennikarki: Średnio rocznie w naszej firmie zarabia
sie˛ 100 000 zł. Prezes zarabia milion, a nasza
dziesiatka
˛
po 10 000.
1 000 000 + 10 · 10 000 1 100 000
=
= 100 000.
11
11
Przykład 4. Dane z pliku Przykład 4. — dla
zmiennych płaca i premia średnia wynosi 700$. Jest
to dobra miara tendencji centralnej dla płacy, ale nie
dla premii, bo ta ma rozkład dwumodalny.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 30/64
Mediana
Wartość środkowa. Jeśli N jest nieparzyste, to
mediana˛ jest x((N +1)/2) , a jeśli parzyste, to
x(N/2) +x((N/2)+1)
.
2
Suma odchyleń bezwzglednych
˛
od mediany jest
mniejsza niż suma takich odchyleń od jakiejkolwiek
innej liczby.
Dla danych z przykładu 2. mediana to
24+25
2
= 24, 5.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 31/64
Zalety i wady mediany
Zalety:
Łatwa do zrozumienia.
Nie ulega deformacji ze wzgledu
˛
na nienormalnie
duże lub nienormalnie małe wartości skrajne.
Wady:
Nie może być wykorzystywana w dalszych
obliczeniach statystycznych.
Dla małych zbiorów danych, o pewnej szczególnej
postaci, nie jest dobra˛ charakterystyka˛ tendencji
centralnej (np. mediana˛ dla 5, 5, 5, 9, 10 jest 5).
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 32/64
Moda
Słowo „moda” wymyślił Karl Pearson w 1895 roku.
Dwa podejścia:
wartość najcz˛estsza,
wartość, która nie jest mniej cz˛esta niż wartości
sasiednie.
˛
Czasem przyjmuje sie˛ zastrzeżenie, że moda nie
może być wartościa˛ skrajna.
˛
Jeśli moda jest jedna, rozkład nazywamy jednomodalnym (ang. unimodal), jeśli dwie — dwumodalnym
(ang. bimodal), a jeśli wiele — multimodalnym (ang.
multimodal).
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 33/64
Zalety i wady mody
Zalety:
Łatwa do zrozumienia.
Cz˛esto wykorzystywana przez np. producentów.
Jedyna miara tendencji centralnej dla danych
nominalnych.
Wady:
Nie może być wykorzystywana w dalszych
obliczeniach statystycznych.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 34/64
Miary rozproszenia
Rozstep
˛ (ang. range) R = xmax − xmin .
Kwantyle(ang. quantiles):
kwartyle (ang. quartiles),
decyle (ang. deciles) — Sir Francis Galton (1882),
percentyle (ang. percentiles) — Sir Francis
Galton (1885).
Odchylenie standardowe (ang. standard deviation)
— Karl Pearson (1893).
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 35/64
Kwartyle
Kwartyl dolny Q1 — mediana grupy danych „na lewo
od mediany”,
Kwartyl środkowy Q2 to mediana.
Kwartyl górny Q3 — mediana grupy danych „na
prawo od mediany”.
Dla danych z przykładu 2. mamy:
Q1 = 12,
Q2 = 24, 5,
Q3 = 35.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 36/64
Kwantyle
Kwantyle rz˛edu m to punkty podziału próbki na m
„równych” cz˛eści. Kwantyli rz˛edu m jest m − 1.
Kwantyle rz˛edu 4 to kwartyle. Kwantyle rz˛edu 10 to
decyle, a rz˛edu 100 to percentyle.
W SPSSie l-ty kwartyl rz˛edu m (dla l = 1, 2, . . . m − 1)
jest liczony według wzoru
l
l
Q l = k + 1 − (N + 1)
x(k) + (N + 1) − k x(k+1) ,
m
m
m
!
!
gdzie k = (N + 1) ml . Dla kwantyli może to dać
troche˛ inny wynik niż przy poprzedniej definicji!
h
i
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 37/64
Kwartyle dla przykładu 2.
Liczac
˛ wzorem na kwantyle otrzymamy, że
k = [11/4] = 2,
1
3
3
Q1 = Q 14 = x(2) + x(3) = 11 ,
4
4
4
3
1
1
Q3 = Q 14 = x(8) + x(9) = 35 .
4
4
4
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 38/64
Wykresy skrzynkowe
Wykres skrzynkowy, inaczej skrzynka z wasami
˛
(ang.
boxplot lub box-and-whisker diagram) został
wprowadzony przez Tukeya. Rysujemy go wzdłuż jednej
osi ze skala.
˛ Składa sie˛ on z pudełka rozciagaj
˛ acego
˛
sie˛ od 1. do 3. kwartyla, z przedziałka˛ na wysokości
mediany. Do pudełka doczepione sa˛ wasy
˛ siegaj
˛ ace
˛ z
jednej strony do najmniejszej wartości zmiennej, a z
drugiej do najwiekszej
˛
wartości zmiennej.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 39/64
Wykres skrzynkowy dla
przykładu 2.
10
15
20
25
30
35
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 40/64
40
Udoskonalone wykresy
skrzynkowe
Dla udoskonalonych wykresów skrzynkowych (ang.
refined boxplots) wasy
˛ maja˛ długość nieprzekraczajac
˛ a˛
1, 5×rozstep
˛ miedzykwartylowy
˛
(tzn. różnica Q3 − Q1 ).
Każda wartość, która znajduje sie˛ poza wasami
˛
jest
oznaczana kółeczkiem lub gwiazdka˛ i nazywa sie˛
wartościa˛ odstajac
˛ a˛ lub outsiderem
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 41/64
Odchylenie standardowe
ŝ =
v
u PN
u
t i=1 (xi
− x̄)2
=
v
u PN
2
u
x
t i=1 i
− x̄2 .
N
N
W przypadku, gdy zgromadzone dane traktujemy jako
dane całej populacji, odchylenie standardowe
obliczamy, dzielac
˛ powyższe sumy przez N . Jeśli
natomiast analizujemy próbk˛e i otrzymane odchylenie
standardowe ma być przybliżeniem odchylenia
standardowego w całej populacji, należy dzielić przez
N − 1 (tak liczy PASW Statistics). Zapobiega to
obciażeniu
˛
tego przybliżenia (estymatora).
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 42/64
Własności odchylenia
standardowego
Jeżeli do wszystkich wartości zmiennej dodamy
pewna˛ wartość stała,
˛ to odchylenie standardowe nie
zmienia sie.
˛
Jeżeli wszystkie wartości zmiennej pomnożymy
przez pewna˛ liczbe,
˛ to odchylenie standardowe
również zostanie pomnożone przez ta˛ liczbe.
˛
Odchylenie standardowe może nie być dobra˛ miara˛
rozproszenia, gdy zmienna przyjmuje kilka wartości
bardzo oddalonych od reszty lub, gdy rozkład jest
mocno skośny.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 43/64
Odchylenie standardowe dla
przykładu 2.
xi
xi − x̄
(xi − x̄)2
xi
xi − x̄
(xi − x̄)2
11
−13
169
25
1
1
11
−13
169
29
5
25
12
−12
144
35
11
121
18
−6
36
36
12
144
24
0
0
39
15
225
Sumujemy liczby z 3. i 6. kolumny, otrzymujac
˛ 1034.
Stad
˛
ŝ =
v
u
u 1034
t
10
≈ 10, 17,
s=
v
u
u 1034
t
9
≈ 10, 79.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 44/64
Skośność
g=
1 PN
i=1 (xi
N
ŝ3
− x̄)3
.
Ang. skewness.
Rozkład nazywamy prawoskośnym, gdy g > 0,
a lewoskośnym, gdy g < 0.
Przy rozkładzie prawoskośnym histogram ma
dłuższy prawy ogon, a przy lewoskośnym lewy.
Dla rozkładów prawoskośnych mediana jest
mniejsza od średniej, dla lewoskośnych — na
odwrót.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 45/64
Skośność c.d.
George A. Ferguson, Yoshio Takane: Analiza statystyczna w psychologii i pedagogice (1997).
Rys. A: dodatnia, Rys. B: rozkład symetryczny, Rys. C: ujemna.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 46/64
Wzór na skośność w PASW
Statistics
PN
i=1 (xi
N
− x̄)3
g=
.
3
(N − 1)(N − 2)s
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 47/64
Krzywa rozkładu normalnego
Krzywa rozkładu normalnego (ang. normal (Gaussian)
distribution curve) dana jest wzorem
2
1
(x
−
a)
,
f (x) = √
exp −
2σ 2
2πσ


gdzie a to punkt, w którym funkcja osiaga
˛ maksimum,
a σ to parametr odpowiadajacy
˛ za kształt.
Wzór podał prawdopodobnie de Moivre w 1733 roku,
określenie „normalny” — Galton w 1889,
a „gaussowski” — K. Pearson w 1905.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 48/64
Krzywa rozkładu normalnego
c.d.
George A. Ferguson, Yoshio Takane: Analiza statystyczna w psychologii i pedagogice, PWN,
Warszawa (1997).
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 49/64
Rozkład normalny — zmiana
parametru σ
George A. Ferguson, Yoshio Takane: Analiza statystyczna w psychologii i pedagogice (1997).
Rys. A: σ < 1, Rys. B: σ = 1, Rys. C: σ > 1.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 50/64
Kurtoza
Ang. kurtosis — Karl Pearson (przed 1905).
K=
1 PN
i=1 (xi
N
ŝ4
− x̄)4
.
Dla rozkładu normalnego K = 3.
K < 3 — rozkład platykurtyczny (ang. platykurtic),
bardziej płaski niż normalny,
K > 3 — rozkład leptokurtyczny (ang. leptokurtic),
bardziej spiczasty niż normalny,
K = 3 — rozkład mezokurtyczny (ang. mesokurtic).
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 51/64
Kurtoza c.d.
D. L. Harnett, A. K. Soni: Statistical Methods for Business and Economics (1991). U góry
rozkład platykurtyczny, u dołu — leptokurtyczny.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 52/64
Kurtoza c.d.
George A. Ferguson, Yoshio Takane: Analiza statystyczna w psychologii i pedagogice (1997).
Rys. A: normalny, Rys. B: platykurtyczny, Rys. C: leptokurtyczny.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 53/64
Kurtoza w PASW Statistics
K=
N (N +
2
2
− x̄)4 − 3(N − 1) N
(x
−
x̄)
i=1 i
.
4
(N − 1)(N − 2)(N − 3)s
PN
1) i=1 (xi
P
K < 0 — rozkład platykurtyczny,
K > 0 — rozkład leptokurtyczny,
K = 0 — rozkład mezokurtyczny.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 54/64
Statystyki w PASW Statistics
Najwiekszy
˛
wybór: A NALIZA -> O PIS STATYSTYCZNY
-> C Z ESTO
˛
ŚCI ... Należy kliknać
˛ S TATYSTYKI
i wybrać te, które nas interesuja.
˛
A NALIZA -> O PIS STATYSTYCZNY -> S TATYSTYKI
OPISOWE ... Należy kliknać
˛ O PCJE i wybrać te
statystyki, które nas interesuja.
˛ Nie ma kwantyli.
A NALIZA -> O PIS STATYSTYCZNY ->
E KSPLORACJA ... Nie ma wyboru. Wyliczaja˛ sie:
˛
średnia, mediana, odchylenie standardowe,
minimum, maksimum, rozstep,
˛ skośność i kurtoza.
Wykonuje sie˛ wykres skrzynkowy!
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 55/64
Średnia dla danych
zgrupowanych
W przypadku danych zgrupowanych zamiast
konkretnych wartości danych bierzemy środki klas.
Średnia˛ liczymy zgodnie ze wzorem:
x̄ =
Pk
i=1 ni · x̃i
,
Pk
i=1 ni
k — liczba klas, x̃i — środek i-tej klasy, ni — liczebność
i-tej klasy.
Jest to tzw. średnia ważona. Oczywiście średnia liczona
w ten sposób bedzie
˛
sie˛ różniła od średniej policzonej
z surowych danych.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 56/64
Mediana dla danych
zgrupowanych


X
b  N l−1
me = al +
−
ni  ,
nl 2
i=1
al — lewy koniec klasy zawierajacej
˛ mediane,
˛
l — numer klasy zawierajacej
˛ mediane,
˛
N — liczebność próbki,
ni — liczebność i-tej klasy,
b — długość klasy.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 57/64
Moda dla danych
zgrupowanych
Moda˛ w szeregu rozdzielczym nazywamy środek
najliczniejszej klasy w przypadku, gdy liczebności klas
sasiednich
˛
sa˛ identyczne, albo — w przypadku, gdy
liczebności klas sasiednich
˛
sa˛ różne — liczbe˛
nl − nl−1
m0 = al +
b,
(nl − nl−1 ) + (nl − nl+1 )
˛ mode,
˛
al — lewy koniec klasy zawierajacej
l — numer klasy zawierajacej
˛ mode,
˛
ni — liczebność i-tej klasy,
b — długość klasy.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 58/64
Moda dla danych
zgrupowanych c.d.
10
5
b
25
34
43
52 moda
70
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 59/64
Moda dla danych
zgrupowanych c.d.
Uwaga: Moda zależy od sposobu podziału na klasy!
Dlatego cz˛esto sie˛ jej nie wyznacza, a mówi sie˛ tylko
o przedziale modalnym.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 60/64
Odchylenie standardowe dla
danych zgrupowanych
Dla danych zgrupowanych:
ŝ =
v
u Pk
u
t i=1 ni (x̃i
N
− x̄)2
=
v
u Pk
2
u
n
x̃
t i=1 i i
N
− x̄2 .
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 61/64
Statystyki dla danych
zgrupowanych w SPSSie
Grupujemy dane zgodnie z procedura˛ omówiona˛
wcześniej.
Ważymy obserwacje (też jak wcześniej).
Obliczamy statystyki wybierajac
˛ te same opcje, co
dla danych niezgrupowanych.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 62/64
Literatura
George A. Ferguson, Yoshio Takane: Analiza
statystyczna w psychologii i pedagogice, PWN,
Warszawa (1997).
D. L. Harnett, A. K. Soni: Statistical Methods for
Business and Economics (1991).
W. Krysicki, J. Bartos, W. Dyczka, K. Królikowska,
M. Wasilewski: Rachunek prawdopodobieństwa i
statystyka matematyczna w zadaniach, cz˛eść II,
PWN, Warszawa (1995).
Adam Łomnicki: Wprowadzenie do statystyki dla
przyrodników, PWN, Warszawa (2003).
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 63/64
Literatura
Graham Upton, Ian Cook: A Dictionary of Statistics,
Oxford University Press, New York (2006).
James A. Walker, Margaret M. McLean: Statystyka
dla każdego, WSiP, Warszawa (1994).
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 64/64

Podobne dokumenty