Benjamin Disraeli

Transkrypt

Benjamin Disraeli
Statystyka Opisowa
2014 część 2
Katarzyna Lubnauer
Literatura:
1. „Statystyka w Zarządzaniu” ‚ Admir D. Aczel
2. „Statystyka Opisowa od Podstaw” ‚ Ewa Wasilewska
3. „Statystyka” , Lucjan Kowalski.
4. „Statystyka opisowa”, Mieczysław Sobczyk
Są trzy rodzaje kłamstw: kłamstwa,
przeklęte kłamstwa i statystyki.
Benjamin Disraeli - premier Wielkiej Brytanii (w latach 1868 i 1874-1880)
Katarzyna Lubnauer
2
Badanie zależności między dwiema cechami – analiza
korelacji.
Badając różnego rodzaju zjawiska, np. społeczne, ekonomiczne, psychologiczne,
przyrodnicze itp. stwierdzamy, ze często jedno z nich jest uwarunkowane
działaniem innych zjawisk. Zastanawiamy się nad charakterystyką tej zależności.
Np.
Czy cena lodów ma wpływ na ich sprzedaż?
Czy temperatura powietrza ma wpływ na sprzedaż lodów?
Czy cena samochodów ma wpływ na cenę lodów?
Naszym celem jest odpowiedź na 4 pytania:
• Czy między badanymi cechami występuje współzależność.
• Jaki jest kształt zależności (liniowa, nieliniowa).
• Jaka jest jej siła.
• Jaki jest jej kierunek.
Katarzyna Lubnauer
3
Głupi ludzie, nie zawsze pozorna zależność oznacza przyczynę i skutek.
Katarzyna Lubnauer
4
Katarzyna Lubnauer
5
Szeregi dwucechowe szczegółowe – szereg korelacyjny
Wiek żony X,
xi
Wiek męża Y,
19
19
20
24
21
22
23
23
24
26
27
26
28
30
30
34
33
32
35
37
Katarzyna Lubnauer
yi
Otrzymujemy więc
zbiór par postaci:
( xi , yi )
gdzie:
i  1,..., n
6
Prezentacja graficzna szeregów dwucechowych, diagram korelacyjny:
xi
1
3
3
4
5
6
7
7
8
9
yi
1
26
30
66
124
220
345
350
490
880
1000
900
800
700
600
500
400
300
200
100
0
0
2
Katarzyna Lubnauer
4
6
8
10
7
Prezentacja graficzna szeregów dwucechowych, diagram korelacyjny:
xi
1
3
3
4
5
6
7
7
8
9
yi
880
490
350
345
220
124
66
30
26
1
1000
900
800
700
600
500
400
300
200
100
0
0
2
Katarzyna Lubnauer
4
6
8
10
8
Szeregi dwucechowe rozdzielcze
x1
x2
x3
x4
x5
y3
n23
n23
n33
n43
n53
y2
n12
n22
n32
n42
n52
y1
n11
n21
n31
n41
n51
Gdzie xi warianty cechy X, zaś y j
liczebność pary:
x , y 
i
y4
n14
n24
n34
n44
n54
warianty cechy Y oraz n ij
j
Katarzyna Lubnauer
9
Przykład: Niech X czas nauki studentów do testu ze SO wyrażony w
godzinach, zaś Y ocena z testu. Przyjmujemy, że do testu podeszło 100
studentów
y1  2
y2  3
y3  4
y4  5
x1  3
8
4
3
1
x2  5
7
5
5
3
x3  7
4
6
6
4
x4  9
3
5
8
7
x5  11
1
4
7
9
Katarzyna Lubnauer
10
Do dalszych analiz potrzebne nam będą liczebności brzegowe:
y1
y2
y3
y4
x1
n11
n12
n13
n14
n1
x2
n21
n22
n23
n24
n2
x3
n31
n33
n41
n51
n34
n44
n3
x4
x5
n32
n42
n1
n52
n43
n53
n2
n3
ni   nij ,
n4
n5
n54
n4
n j   nij
j
i
Katarzyna Lubnauer
11
Przykład: Niech X czas nauki studentów do testu ze SO wyrażony w
godzinach, zaś Y ocena z testu. Przyjmujemy, że do testu podeszło 100
studentów, szukamy liczebności brzegowych.
y1  2 y2  3 y3  4 y4  5
ni
x1  3
8
4
3
1
16
x2  5
7
5
5
3
20
x3  7
4
6
6
4
20
x4  9
3
5
8
7
23
x5  11
1
4
7
9
21
n j
23
24
29
24
100
Katarzyna Lubnauer
12
Wyróżniamy dwa rodzaje zależności między cechami są to:
• Zależność funkcyjna – polegająca na tym, że zmiana wartości cechy X powoduje
zmianę wartości cechy Y
Przykład: X podatek, Y cena, można się spodziewać zależności Y = aX+a
• Zależność statystyczna – polegająca na tym, że jednej wartości cechy X przypada
kilka wartości cechy Y
Przykład: X wiek dziecka w miesiącach, Y waga dzieci
Wiek w miesiącach X
Waga w kg Y
1
3,8
7
6
4,8
2
8
5,2
5
4,9
4
5,9
3
6,4
2
3
6,0
1
7,2
0
7,4
0
Katarzyna Lubnauer
1
2
3
4
13
Katarzyna Lubnauer
14
Potrzebujemy miary, która pomogłaby wyrazić siłę zależności w sposób liczbowy.
W celu badania zależności między zmiennymi korzystamy ze współczynnika
korelacji Pearsona zdefiniowany wzorem:
cov  X , Y 
r
s X sY
cov(X,Y) w zależności od postaci w jakiej mamy dane liczy się z różnych wzorów.
Katarzyna Lubnauer
15
Dla szeregu szczegółowego (zależność podejrzewana o charakter funkcyjny) na
policzenie kowariancji i odchylenia stosujemy wzory:
X
Y
1
1
3
26
3
30
4
66
5
124
6
220
7
345
7
350
8
490
9
880
n
cov  X , Y  
  x  x  y
i 1
i
i
 y
n
1 n
2
sX 
 xi  x  ,

n i 1
1 n
2
sY 
y

y
 i 

n i 1
Wg Excela
Katarzyna Lubnauer
16
X
Y
1
1
3
26
3
30
4
66
5
124
6
220
7
345
7
350
8
490
9
880
cov  X , Y 
r

s X sY
 0,8917
Katarzyna Lubnauer
17
X
Y
1
880
3
490
3
350
4
345
5
220
6
124
7
66
7
30
8
26
9
1
cov  X , Y 
r

s X sY
  0,9365
Katarzyna Lubnauer
18
Wiek w miesiącach X
Waga w kg Y
1
3,8
4,8
5,2
2
4,9
5,9
cov  X , Y 
r

s X sY
6,4
3
6,0
7,2
7,4
8
7
 0,8347
6
5
4
3
2
1
0
0
1
2
3
4
Katarzyna Lubnauer
19
Dla szeregu rozdzielczego (zależność podejrzewana o charakter funkcyjny) na
policzenie kowariancji stosujemy wzór:
 n  x  x   y
m
cov  X , Y  
sX 
k
j 1 i 1
ij
i
j
n
y1  2 y2  3 y3  4 y4  5
k
1
2
n
x

x
,



i
i
n i 1
2
1 m
sY 
n j  y j  y 

n i 1
r  0, 4321
 y
ni
x1  3
8
4
3
1
16
x2  5
7
5
5
3
20
x3  7
4
6
6
4
20
x4  9
3
5
8
7
23
x5  11
1
4
7
9
21
n j
23
24
29
24
100
Katarzyna Lubnauer
20
Interpretacja współczynnika korelacji:
r - Współczynnik korelacji Pearsona jest miarą symetryczną. Oznacza to, że jest
taki sam niezależnie, czy badamy zależność X od Y, czy odwrotnie.
1  r  1
Odpowiada na następujące pytania:
• Czy między badanymi cechami występuje współzależność
Jeśli jest bliski, lub równy zero to przyjmuje się, że między zmiennymi nie ma
zależności.
• Jaki jest kształt zależności (liniowa, nieliniowa)
r 1
oznacza zależność liniową
Katarzyna Lubnauer
21
• Jaka jest jej siła
r  0,0.2 bardzo słaby związek
r  0.2,0.4 słaby związek
r  0.4,0.6 umiarkowany związek
r  0.6,0.8 silny związek
r  0.8,1.0 bardzo silny związek
• Jaki jest jej kierunek
r0
korelacja ujemna, wzrost jednej zmiennej powodował spadek drugiej
r0
korelacja dodatnia, wraz ze wzrostem jednej zmiennej wzrasta druga
Katarzyna Lubnauer
22
Przykładowe diagramy z podaną wartością korelacji Pearsona
Katarzyna Lubnauer
23
Współczynnik korelacji rang Spearmana
Współczynnik rang Spearmana jest miarą statystyczną służącą do
badania zależności, korelacji między dwiema cechami populacji, który
stosujemy gdy:
• Mamy do czynienia z sytuacją, gdy jedna z cech jest jakościowa
(niemierzalna), ale dająca się uporządkować (porządkowa), a druga cecha
jest mierzalna.
• Gdy mamy dwie jakościowe (niemierzalne), ale dające się uporządkować
• Gdy mamy dwie cechy mierzalne i niedużą liczebność próby, zaś
współczynnik korelacji Pearsona zakłócają wartości odskakujące
Musimy najpierw zdefiniować pojęcie rangowania – czyli przypisywania
wariantom cechy X, oraz cechy Y rang wynikających z kolejności w
uporządkowanym szeregu szczegółowym.
Katarzyna Lubnauer
24
Rangowanie odbywa się po uporządkowaniu wariantów cechy od najmniejszej do
największej, następnie przypisujemy każdemu wariantowi numer, który zajmuje w
ciągu. Jeśli kilka wariantów jest równe to rangą jest średnią arytmetyczną kolejnych
numerów przypadających na ten wariant.
Przykład:
2,4; 3,5; 3,5; 5; 2,4; 2,4; 3,5; 4; 5; 2,4
Uporządkowane kolejno z
przypisanymi rangami
wyglądają tak, gdzie :
rxi
oznacza rangę wariantu:
xi
X
kolejność Rangi
xi
rxi
2,4
1-4
2,5
2,4
1-4
2,5
2,4
1-4
2,5
2,4
1-4
2,5
3,5
5-7
6
3,5
5-7
6
3,5
5-7
6
4
8
8
5
9-10
9,5
5
9-10
9,5
Katarzyna Lubnauer
25
Jeżeli teraz mamy dwie cechy odpowiednio X i Y mające warianty:
xi , yi
przypisujemy im odpowiednio rangi:
rxi , ryi
To współczynnik rang Spearmana liczymy ze wzoru
n
rs  1 
6 d i2
i 1
2
n( n  1)
gdzie d i  rxi  ryi
Katarzyna Lubnauer
26
Uwaga, dla różnic rang zawsze zachodzi związek:
n
d
i 1
i
0
Ponadto współczynnik
1  rs  1
I co za tym idzie:
rs  1
Katarzyna Lubnauer
27
Przykład
Badamy zależność między wykształceniem, a dniami urlopu w czasie roku:
X
Y
podstawowe
średnie
zasadnicze zawodowe
wyższe magisterskie
wyższe licencjackie
podstawowe
zasadnicze zawodowe
wyższe licencjackie
podstawowe
wyższe magisterskie
24
18
17
10
9
22
15
8
23
7
Katarzyna Lubnauer
28
Najpierw wyznaczymy rangi dla cechy jakościowej, porządkowej jaką jest
wykształcenie.
Musimy teraz przypisać rangi, w
tym celu najpierw porządkujemy
warianty:
Teraz przypisujemy wariantom
rangi, zgodnie ze średnią
arytmetyczną numerów.
Warianty
podstawowe
podstawowe
podstawowe
zasadnicze zawodowe
zasadnicze zawodowe
średnie
wyższe licencjackie
wyższe licencjackie
wyższe magisterskie
wyższe magisterskie
Numery
1-3
1-3
1-3
4-5
4-5
6
7-8
7-8
9-10
9-10
Warianty
podstawowe
średnie
zasadnicze zawodowe
wyższe magisterskie
wyższe licencjackie
podstawowe
zasadnicze zawodowe
wyższe licencjackie
podstawowe
wyższe magisterskie
Rangi
2
6
4,5
9,5
7,5
2
4,5
7,5
2
9,5
Katarzyna Lubnauer
29
Teraz wyznaczymy rangi dla cechy ilościowej, jaką jest liczba dni wolnych.
Musimy teraz przypisać rangi, w
tym celu najpierw porządkujemy
warianty:
Teraz przypisujemy wariantom
rangi, zgodnie ze średnią
arytmetyczną numerów.
Warianty
7
8
9
10
15
17
18
22
23
24
Numery
1
2
3
4
5
6
7
8
9
10
Warianty
24
18
17
10
9
22
15
8
23
7
Rangi
10
7
6
4
3
8
5
2
9
1
Katarzyna Lubnauer
30
Cecha X
Rangi cechy X
Cecha Y
Rangi cechy Y
Różnica rang
Kwadrat różnicy rang
rxi
yi
ryi
di
di 2
podstawowe
2
24
10
-8
64
średnie
6
18
7
-1
1
zasadnicze zawodowe
4,5
17
6
-1,5
2,25
wyższe magisterskie
9,5
10
4
5,5
30,25
wyższe licencjackie
7,5
9
3
4,5
20,25
podstawowe
2
22
8
-6
36
zasadnicze zawodowe
4,5
15
5
-0,5
0,25
wyższe licencjackie
7,5
8
2
5,5
30,25
podstawowe
2
23
9
-7
49
wyższe magisterskie
9,5
7
1
8,5
72,25
0
305,5
xi
suma
n
rs  1 
6 d i2
i 1
2
n( n  1)
  0,85152
Katarzyna Lubnauer
31
Japończycy jedzą bardzo mało tłuszczu i cierpią na mniej ataków
serca niż Brytyjczycy czy Amerykanie.
Z drugiej strony, Francuzi jedzą dużo tłuszczu, a także cierpią na
mniej ataków serca niż Brytyjczycy czy Amerykanie.
Japończycy piją bardzo mało czerwonego wina i cierpią na mniej
ataków serca niż Brytyjczycy czy Amerykanie.
Włosi piją nadmierne ilości czerwonego wina, a także cierpią na
mniej ataków serca niż Brytyjczycy czy Amerykanie.
Wnioski: Jedz i pij co chcesz. To mówienie po angielsku, że cię
zabije.
Katarzyna Lubnauer
32

Podobne dokumenty