Zadanie 1 (Populacja USA)
Transkrypt
Zadanie 1 (Populacja USA)
Jakub Olczyk Rachunek prawdopodobie«stwa i statystyka semestr letni 2014/2015 Zadanie 1 ( Populacja USA) a) Populacja USA 1790−2010 300 ● 250 ● ● 200 ● ● 150 sample ● ● ● ● 100 ● ● ● 50 ● ● ● 0 ● ● 1790 ● ● ● 1820 ● ● ● 1850 1880 1910 1940 1970 2000 Index Zdecydowanie wida¢ tutaj tendencj¦ rosn¡c¡, wykres mo»na by przyrówna¢ do jednego z ramion paraboli. Ciekaw¡ rzecz¡ jest okres II Wojny wiatowej, gdzie wida¢ pewn¡ stagnacj¦ zwi¡zan¡ ze wzrostem populacji. 1 b) c) 30 ● ● 25 ● ● ● 20 ● ● ● 15 increments ● ● ● ● 10 ● ● ● ● 5 ● ● ● ● ● ● Index x = 13.85455 M = 13 s2 = 87.60355 Jak wida¢ z podstawowych parametrów satystycznych - ±redniej, mediany i wariancji populacja ±rendnio ro±nie o ∼13 milionów ludzi z dekady na dekad¦. Jednak jest to bardzo ró»ne z dekady na dekad¦ na co wskazuje bardo du»a wariancja, chocia» jest to zjawisko raczej rzadkie, bo mediana jest bardzo zbli»ona do ±redniej. Co w du»ej mierze te» pokazuje zaª¡czony wykres. 2 0.35 d) e) ● ● ● ● ● ● 0.25 ● ● ● 0.20 ● ● ● ● 0.15 relative_increments 0.30 ● ● ● ● ● 0.10 ● ● ● ● Index x = 0.2238006 M = 0.2097488 s2 = 0.01025038 Jak wida¢ przy relatywnych przyrostach tendencja jest spadkowa. To znaczy, »e przyrosty wzgl¦dem wielko±ci populacji zaczynaj¡ by¢ co raz mniej znacz¡ce. Jest to do±¢ stabilny trend patrza¢ na wariancj¦ i warto±ci ±rednio spadaj¡ o ∼ 0.2 3 f ) g) ● 0.35 ● ● ● ● 30 ● ● ● ● 25 0.30 ● ● ● ● ● ● ● ● ● 0.25 ● ● ● 0.20 relative_increments 20 ● 15 increments ● ● ● ● 10 0.15 ● ● ● ● ● ● ● ● ● 5 0.10 ● ● ● ● ● ● ● ● Index Wspóªczynnik korelacji Index r = −0.0008780827 Jest to wspóªczynnik korelacji Pearsona, zgodnie ze wzorem : Pn − x)(yi − y) pPn = 2 2 x) (x − i=1 i i=1 (yi − y) rxy = pPn i=1 (xi Pn − x)(yi − y) sx · sy i=1 (xi Zgodnie z Wikipedi¡ - im wi¦ksza jego warto±¢ bezwzgl¦dna, tym silniejsza jest zale»no±¢ liniowa mi¦dzy zmiennymi. Z tego wynika, »e nasz wspóªczynnik wskazuje na odwrotn¡ zale»no±¢ liniow¡ (bo jest ujemny) oraz zgodnie z tym, »e jego warto±¢ bezwzgl¦dna jest do±¢ maªa. Patrz¡c na wykresy mo»na stwierdzi¢, »e w punktach, w których wida¢ zaªamania wyst¦puj¡ one w tych samych miejscach. Wida¢, »e dla przyrostów relatywnych do wielko±ci populacji spadki s¡ du»o bardziej widoczne. 4 ● Jakub Olczyk Rachunek prawdopodobie«stwa i statystyka semestr letni 2014/2015 Zadanie 2 ( Konta w systemie) Najlepszym sposobem na zobaczenie tego co si¦ dzieje w naszym zbiorze jest zobaczenie wykresu pudeªkowego, poniewa» wskar»e nam od razu wszystkie warto±ci, o które jeste±my pytani w zadaniu. Zgodnie z zasad¡, »e zanim przejdziemy do liczenia nale»y najpierw obejrze¢ nasze dane w przyst¦pny sposób spójrzmy wynik funkcji boxplot dla podanych danych. 20 40 60 80 100 ● ● {43, 37, 50, 51, 58, 105, 52, 45, 45, 10} Pierwsza rzecz, która rzuca si¦ w oczy to to, »e naszymi punktami, które zdecydowanie odstaj¡ s¡ {10, 105}, ponadto mediana to b¦dzie nieco mniej ni» 50, tak samo od razu wida¢, gdzie b¦d¡ le»e¢ kwartyle oraz jakie rozpi¦to±ci danych powini±my otrzyma¢ z reguªy 1.5 IQR, teraz mo»emy je policzy¢. 5 a) b) 10 x= √ s= v u u 2 s =t 1 X xi = 49.6 10 i=1 n 1 X 2 (xi − x) = 23.4767 n − 1 i=1 Q1 = 43.5 Q2 = M = 47.5 Q3 = 51.75 IQR = Q3 − Q1 = 51.75 − 43.5 = 8.25 Teraz mo»emy policzy¢ w¡sy z naszego wykresu pudeªkowego korzystaj¡c z reguªy 1.5 IQR: 1.5 · IQR = 12.375 Dolna granica to : Q1 − 1.5IQR = 43.5 − 12.375 = 31.125 natomiast górn¡ granic¡ b¦dzie: Q3 + 1.5IQR = 51.75 + 12.375 = 64.125 Jak wida¢ warto±ci odstaj¡ce to 10 i 105. c) x = 47.625 M = 47.5 s = 6.457277 Q1 = 44.50 Q3 = 51.25 6 d) Jak wida¢, po usuni¦ciu zmiennych odstaj¡cych zbiór zacz¡ª si¦ zachowywa¢ du»o bardziej porz¡dnie. Mediana (podobnie inne kwartyle) jest parametrem, który jest bardzo niewra»liwy na warto±ci odstaj¡ce, wi¦c pozostaªa taka sama, jednak ±rednia si¦ diametralnie do niej zbli»yªa po usuni¦ciu warto±ci skrajnych (szczególnie 105), odchylenie standardowe równie» diametralnie si¦ zmniejszyªo. 7 Jakub Olczyk Rachunek prawdopodobie«stwa i statystyka semestr letni 2014/2015 Listingi skryptów w R Wykres populacji (zadanie 1) # author : Jakub Olczyk # license: GPLv3+ # date : 2015-05-17 sample <- c(3.9, 5.3, 7.2, 9.6, 12.9, 17.1, 23.2, 31.4, 38.6, 50.2, 63.0, 76.2, 92.2, 106.0, 123.2, 132.2, 151.3, 179.3, 203.3, 226.5, 248.7, 281.4, 308.7) years <- c(1790) for (i in 1:22){years <- c(years, years[i] + 10)} plot.default(sample, main="Populacja USA 1790-2010", type="b", xaxt="n") axis(1, at=1:23, labels=years) Wykres przyrostów oraz przyrostów relatywnych (zadanie 1) # author : Jakub Olczyk # license : GPLv3+ # date : 2015-05-17 sample <- c(3.9, 5.3, 7.2, 9.6, 12.9, 17.1, 23.2, 31.4, 38.6, 50.2, 63.0, 76.2, 92.2, 106.0, 123.2, 132.2, 151.3, 179.3, 203.3, 226.5, 248.7, 281.4, 308.7) increments <- c() for (i in 1:22) { increments[i] <- sample[i+1] - sample[i] } plot.default(increments, type="b", xaxt="n") mean(increments) median(increments) var(increments) relative_increments <-c() for (i in 1:22) { relative_increments[i] <- (sample[i+1] - sample[i])/sample[i] } plot.default(relative_increments, type="b", xaxt="n") mean(relative_increments) median(relative_increments) var(relative_increments) 8 Korelacja (zadanie 1) # author : Jakub Olczyk # license : GPLv3+ # date : 2015-05-17 # increments x<-c(1.4, 1.9, 2.4, 3.3, 4.2, 6.1, 8.2, 7.2, 11.6, 12.8, 13.2, 16.0, 13.8, 17.2, 9.0, 19.1, 28.0, 24.0, 23.2, 22.2, 32.7, 27.3) # relative increments y<-c(0.35897436, 0.35849057, 0.33333333, 0.34375000, 0.32558140, 0.35672515, 0.35344828, 0.22929936, 0.30051813, 0.25498008, 0.20952381, 0.20997375, 0.14967462, 0.16226415, 0.07305195, 0.14447806, 0.18506279, 0.13385388, 0.11411707, 0.09801325, 0.13148372, 0.09701493) # corelarion factor mean_x <- mean(x) mean_y <- mean(y) sum <- 0 for (i in 1:22){ sum <- (x[i] - mean_x)*(y[i]-mean_y)/21 } s_x = sd(x) s_y = sd(y) r = sum / s_x * s_y print(r) 9