Zadanie 1 (Populacja USA)

Transkrypt

Zadanie 1 (Populacja USA)
Jakub Olczyk
Rachunek prawdopodobie«stwa i statystyka semestr letni 2014/2015
Zadanie 1 (
Populacja USA)
a)
Populacja USA 1790−2010
300
●
250
●
●
200
●
●
150
sample
●
●
●
●
100
●
●
●
50
●
●
●
0
●
●
1790
●
●
●
1820
●
●
●
1850
1880
1910
1940
1970
2000
Index
Zdecydowanie wida¢ tutaj tendencj¦ rosn¡c¡, wykres mo»na by przyrówna¢
do jednego z ramion paraboli. Ciekaw¡ rzecz¡ jest okres II Wojny ‘wiatowej,
gdzie wida¢ pewn¡ stagnacj¦ zwi¡zan¡ ze wzrostem populacji.
1
b) c)
30
●
●
25
●
●
●
20
●
●
●
15
increments
●
●
●
●
10
●
●
●
●
5
●
●
●
●
●
●
Index
x = 13.85455
M = 13
s2 = 87.60355
Jak wida¢ z podstawowych parametrów satystycznych - ±redniej, mediany i
wariancji populacja ±rendnio ro±nie o
∼13
milionów ludzi z dekady na dekad¦.
Jednak jest to bardzo ró»ne z dekady na dekad¦ na co wskazuje bardo du»a wariancja, chocia» jest to zjawisko raczej rzadkie, bo mediana jest bardzo zbli»ona
do ±redniej. Co w du»ej mierze te» pokazuje zaª¡czony wykres.
2
0.35
d) e)
●
●
●
●
●
●
0.25
●
●
●
0.20
●
●
●
●
0.15
relative_increments
0.30
●
●
●
●
●
0.10
●
●
●
●
Index
x = 0.2238006
M = 0.2097488
s2 = 0.01025038
Jak wida¢ przy relatywnych przyrostach tendencja jest spadkowa. To znaczy,
»e przyrosty wzgl¦dem wielko±ci populacji zaczynaj¡ by¢ co raz mniej znacz¡ce.
Jest to do±¢ stabilny trend patrza¢ na wariancj¦ i warto±ci ±rednio spadaj¡ o
∼ 0.2
3
f ) g)
●
0.35
●
●
●
●
30
●
●
●
●
25
0.30
●
●
●
●
●
●
●
●
●
0.25
●
●
●
0.20
relative_increments
20
●
15
increments
●
●
●
●
10
0.15
●
●
●
●
●
●
●
●
●
5
0.10
●
●
●
●
●
●
●
●
Index
Wspóªczynnik korelacji
Index
r = −0.0008780827
Jest to wspóªczynnik korelacji Pearsona, zgodnie ze wzorem :
Pn
− x)(yi − y)
pPn
=
2
2
x)
(x
−
i=1 i
i=1 (yi − y)
rxy = pPn
i=1 (xi
Pn
− x)(yi − y)
sx · sy
i=1 (xi
Zgodnie z Wikipedi¡ - im wi¦ksza jego warto±¢ bezwzgl¦dna, tym silniejsza
jest zale»no±¢ liniowa mi¦dzy zmiennymi. Z tego wynika, »e nasz wspóªczynnik
wskazuje na odwrotn¡ zale»no±¢ liniow¡ (bo jest ujemny) oraz zgodnie z tym,
»e jego warto±¢ bezwzgl¦dna jest do±¢ maªa.
Patrz¡c na wykresy mo»na stwierdzi¢, »e w punktach, w których wida¢ zaªamania wyst¦puj¡ one w tych samych miejscach.
Wida¢, »e dla przyrostów
relatywnych do wielko±ci populacji spadki s¡ du»o bardziej widoczne.
4
●
Jakub Olczyk
Rachunek prawdopodobie«stwa i statystyka semestr letni 2014/2015
Zadanie 2 (
Konta w systemie)
Najlepszym sposobem na zobaczenie tego co si¦ dzieje w naszym zbiorze jest zobaczenie wykresu pudeªkowego, poniewa» wskar»e nam od razu wszystkie warto±ci, o które jeste±my pytani w zadaniu. Zgodnie z zasad¡, »e zanim przejdziemy
do liczenia nale»y najpierw obejrze¢ nasze dane w przyst¦pny sposób spójrzmy
wynik funkcji boxplot dla podanych danych.
20
40
60
80
100
●
●
{43, 37, 50, 51, 58, 105, 52, 45, 45, 10}
Pierwsza rzecz, która rzuca si¦ w oczy to to, »e naszymi punktami, które
zdecydowanie odstaj¡ s¡
{10, 105},
ponadto mediana to b¦dzie nieco mniej ni»
50, tak samo od razu wida¢, gdzie b¦d¡ le»e¢ kwartyle oraz jakie rozpi¦to±ci
danych powini±my otrzyma¢ z reguªy 1.5 IQR, teraz mo»emy je policzy¢.
5
a) b)
10
x=
√
s=
v
u
u
2
s =t
1 X
xi = 49.6
10 i=1
n
1 X
2
(xi − x) = 23.4767
n − 1 i=1
Q1 = 43.5
Q2 = M = 47.5
Q3 = 51.75
IQR = Q3 − Q1 = 51.75 − 43.5 = 8.25
Teraz mo»emy policzy¢ w¡sy z naszego wykresu pudeªkowego korzystaj¡c
z reguªy 1.5 IQR:
1.5 · IQR = 12.375
Dolna granica to :
Q1 − 1.5IQR = 43.5 − 12.375 = 31.125
natomiast górn¡ granic¡ b¦dzie:
Q3 + 1.5IQR = 51.75 + 12.375 = 64.125
Jak wida¢ warto±ci odstaj¡ce to 10 i 105.
c)
x = 47.625
M = 47.5
s = 6.457277
Q1 = 44.50
Q3 = 51.25
6
d)
Jak wida¢, po usuni¦ciu zmiennych odstaj¡cych zbiór zacz¡ª si¦ zachowywa¢
du»o bardziej porz¡dnie. Mediana (podobnie inne kwartyle) jest parametrem,
który jest bardzo niewra»liwy na warto±ci odstaj¡ce, wi¦c pozostaªa taka sama,
jednak ±rednia si¦ diametralnie do niej zbli»yªa po usuni¦ciu warto±ci skrajnych
(szczególnie 105), odchylenie standardowe równie» diametralnie si¦ zmniejszyªo.
7
Jakub Olczyk
Rachunek prawdopodobie«stwa i statystyka semestr letni 2014/2015
Listingi skryptów w R
Wykres populacji (zadanie 1)
# author : Jakub Olczyk
# license: GPLv3+
# date : 2015-05-17
sample <- c(3.9, 5.3, 7.2, 9.6, 12.9, 17.1, 23.2, 31.4, 38.6,
50.2, 63.0, 76.2, 92.2, 106.0, 123.2, 132.2, 151.3, 179.3, 203.3,
226.5, 248.7, 281.4, 308.7)
years <- c(1790)
for (i in 1:22){years <- c(years, years[i] + 10)}
plot.default(sample, main="Populacja USA 1790-2010", type="b",
xaxt="n")
axis(1, at=1:23, labels=years)
Wykres przyrostów oraz przyrostów relatywnych (zadanie 1)
# author : Jakub Olczyk
# license : GPLv3+
# date : 2015-05-17
sample <- c(3.9, 5.3, 7.2, 9.6, 12.9, 17.1, 23.2, 31.4, 38.6,
50.2, 63.0, 76.2,
92.2, 106.0, 123.2, 132.2, 151.3, 179.3, 203.3, 226.5, 248.7,
281.4, 308.7)
increments <- c()
for (i in 1:22) {
increments[i] <- sample[i+1] - sample[i]
}
plot.default(increments, type="b", xaxt="n")
mean(increments)
median(increments)
var(increments)
relative_increments <-c()
for (i in 1:22) {
relative_increments[i] <- (sample[i+1] - sample[i])/sample[i]
}
plot.default(relative_increments, type="b", xaxt="n")
mean(relative_increments)
median(relative_increments)
var(relative_increments)
8
Korelacja (zadanie 1)
# author : Jakub Olczyk
# license : GPLv3+
# date : 2015-05-17
# increments
x<-c(1.4, 1.9, 2.4, 3.3, 4.2, 6.1, 8.2, 7.2, 11.6, 12.8, 13.2,
16.0, 13.8, 17.2, 9.0, 19.1, 28.0, 24.0, 23.2, 22.2, 32.7, 27.3)
# relative increments
y<-c(0.35897436, 0.35849057, 0.33333333, 0.34375000, 0.32558140,
0.35672515, 0.35344828, 0.22929936, 0.30051813, 0.25498008,
0.20952381, 0.20997375, 0.14967462, 0.16226415, 0.07305195,
0.14447806, 0.18506279, 0.13385388, 0.11411707, 0.09801325,
0.13148372, 0.09701493)
# corelarion factor
mean_x <- mean(x)
mean_y <- mean(y)
sum <- 0
for (i in 1:22){
sum <- (x[i] - mean_x)*(y[i]-mean_y)/21
}
s_x = sd(x)
s_y = sd(y)
r = sum / s_x * s_y
print(r)
9

Podobne dokumenty