lab 3 - statystyka opisowa
Transkrypt
lab 3 - statystyka opisowa
Konspekt do zaj¦¢: Statystyczne metody analizy danych Statystyka opisowa oraz graczne metody reprezentacja danych dr Agnieszka Nowak-Brzezi«ska 21 pa¹dziernika 2009 1 Opis zaj¦¢ Celem zaj¦¢ jest wykonanie prostych analiz z u»yciem statystyki opisowej i gracznych metod reprezentacji danych na wykresach. W pierwszej cz¦±ci studenci poznaj¡ podstawy statystyki opisowej oraz typy wykresów, po to by w drugiej cz¦±ci zapozna¢ si¦ z ich implementacj¡ w ±rodowisku R. trzecia cz¦±¢ obejmuje ¢wiczenia do wykonania. By¢ mo»e pomocnym b¦dzie skorzystanie z pomocy: http://www.oginet.pl/ ~rasp/r/index.html Zbiorami do analizy mog¡ by¢ wszelkie zasoby ±rodowiska R, mo»na ich opis znale¹¢ w lokalizacji D:\Program Files (x86)\R/R-2.9.2\library\datasets\chtml o ile R zostaª zainstalowany w na dysku D, za± wªa±ciwe pliki z danymi w lokalizacji D:\Program Files (x86)\R\R-2.9.2\library\datasets\html 2 Cz¦±¢ teoretyczna 2.1 Statystyka opisowa i graczna reprezentacja danych 2.1.1 Statystyka opisowa Statystyka opisowa pozwala ocenia¢ dane na wiele ró»nych sposobów. Wyposa»ona jest zarówno w opisy w postaci parametrów mierz¡cych median¦, wariancj¦, ksztaªt rozkªadu danych jak i graczne techniki prezentacji informacji o badanej grupie danych. 2.2 Tendencja ±rodka - (central tendency) Wyró»niamy tu takie miary jak: 1 • moda - najcz¦±ciej wykorzystywana warto±¢ dla oceny konkretnej zmiennej. Np. dla zmiennej o warto±ciach: 2, 4, 5, 6, 7, 7, 7, 8, 8, 9 mamy mod¦ o warto±ci 7, gdy» cz¦sto±¢ jej wyst¦powania byªa najwi¦ksza. Gdy mamy wi¦cej warto±ci o równej cz¦sto±ci, ka»da z tych warto±ci jest zast¡piona warto±ci¡ u±rednion¡. Np. dla warto±ci podanych ni»ej zarówno warto±¢ 7 jak i 8 wyst¦puj¡ równie cz¦sto: 3 razy. {3, 4, 5, 6, 7, 7, 7, 8, 8, 8, 9} wówczas moda mo»e by¢ ustalona na 7,8 lub po prostu 7.5. • Mediana - jest warto±ci¡ po±redni¡ w zbiorze posortowanych warto±ci od niskich do wysokich. Dla zmiennych o równych warto±ciach najbli»sza ±redniej jest wybrana (suma dwóch warto±ci zostaje podzielona przez 2). Np. dla zbioru warto±ci: 3, 4, 7, 2, 3, 7, 4, 2, 4, 7, 4. Sortowanie warto±ci: 2, 2, 3, 3, 4, 4, 4, 4, 7, 7, 7. Dla takich 11 danych, median¡ b¦dzie warto±¢ szósta (czyli 4). • rednia - okre±lona jako suma wszystkich warto±ci podzielona przez ich liczb¦. Dla przykªadu, w zbiorze warto±ci: 3, 4, 5, 7, 7, 8, 9, 9, 9 ich suma wynosi 3 + 4 + 5 + 7 + 7 + 8 + 9 + 9 + 9 = 61.61/9 = 6.78. Uogólniaj¡c, dla zmiennych reprezentuj¡cych pewn¡ populacj¦ x warto±¢ ±redni¡ mo»na Pn xi zapisa¢ jako x = i=1 n 2.3 Miary zmienno±ci Najcz¦±ciej stosowana jest miara nazwana zakresem (ang. range) b¦d¡ca ró»nic¡ mi¦dzy warto±ciami: maksymaln¡ i minimaln¡ w zbiorze. Do miar zmienno±ci zaliczy¢ mo»na tak»e kwartale (ang. Quartiles), które dziel¡ zmienn¡ na 4 równe przedziaªy opieraj¡c si¦ na liczbie obserwacji. Pierwszy kwartyl (Q1) to przedziaª dla 25%, Q2 dla 50%, Q3 dla 75%. Q2 to wi¦c to samo co mediana. Wariancja (ang. variance) opisuje rozproszenie danych i jest miar¡ odchylenia 2 od P warto±ci ±redniej. Formuªa obliczania wariancji mo»e by¢ nast¦puj¡ca: s = n (xi −(x)2 . n−1 Dla zbioru: 3, 4, 4, 5, 5, 5, 6, 6, 6, 7, 7, 8, 9, warto±¢ ±rednia wynosi Pn (xi −(x)2 3+4+4+5+5+5+6+6+6+7+7+8+9 2 i=1 x = = 5.8 , za± wariancja s = = 13 n−1 176.88 = 14.74 . Odchylenie standardowe (ang. standard deviation) liczy si¦ z 13−1 wzoru: s Pn 2 i=1 (xi − (x) s= , n−1 gdzie s jest odchyleniem standardowym, xi jest warto±ci¡ aktualnej danej, x jest warto±ci¡ ±redni¡, za± n jest liczb¡ obserwacji. Dla obliczonej wariancji, √ przykªadowo 14.74, odchylenie standardowe jest obliczone jako 14.74. i=1 3 Wykresy jako graczna reprezentacja danych Wykresy pozwalaj¡ wizualizowa¢ dane, co znacznie uªatwia analiz¦ du»ych zbiorów danych. W±ród analizowanych mo»liwo±ci b¦d¡: • histogramy i wykresy cz¦sto±ci, • wykresy rozrzutu (ang. scatterplots), • wykresy pudeªkowe (ang. boxplot). 2 Rysunek 1: source:http://pl.wikipedia.org/wiki/ Rysunek 2: ¹ródªo: http://pl.wikipedia.org/wiki/ 3.1 Histogram Histogram to jeden z gracznych sposobów przedstawiania rozkªadu empirycznego cechy. Skªada si¦ z szeregu prostok¡tów umieszczonych na osi wspóªrz¦dnych. Prostok¡ty te s¡ z jednej strony wyznaczone przez przedziaªy klasowe warto±ci cechy, natomiast ich wysoko±¢ jest okre±lona przez liczebno±ci elementów wpadaj¡cych do okre±lonego przedziaªu klasowego. 3.2 Wykresy rozrzutu (scatterplots) Pozwala wykrywa¢ pewne zale»no±ci mi¦dzy warto±ciami ci¡gªymi obserwacji w pewnej mierzonej skali. Dwie zmienne s¡ prezentowane na osiach x i y . Ka»dy punkt wykresu reprezentuje pojedyncz¡ obserwacj¦. Z wykresu mo»emy odczyta¢, czy zale»no±¢ taka jest liniowa. Dzieje si¦ tak wówczas, gdy wzrost warto±ci jednej zmiennej poci¡ga za sob¡ wzrost warto±ci drugiej zmiennej. Zreszt¡ w takim przypadku, dodatkowo okre±limy j¡ jako zale»no±¢ dodatni¡. Ujemna b¦dzie natomiast wówczas, gdy wzrost warto±ci jednej zmiennej powoduje spadek warto±ci drugiej. Z kolei, zale»no±¢ b¦dzie nieliniowa, gdy zmiany warto±ci obu analizowanych zmiennych maj¡ miejsce, ale nie ma w tej zmianie »adnej zale»no±ci. 3.3 Wykres pudeªkowy Wykres pudeªkowy jest jedn¡ z form gracznej prezentacji rozkªadu cechy statystycznej, spotykany najcz¦±ciej w pakietach komputerowych wspomagaj¡cych pro3 Rysunek 3: ¹ródªo: http://pl.wikipedia.org/wiki/ ces analizy i interpretacji danych statystycznych. Wykres pudeªkowy tworzymy odkªadaj¡c na poziomej osi warto±ci niektórych parametrów rozkªadu. Nad osi¡ umieszczony jest prostok¡t (pudeªko), którego lewy bok jest wyznaczony przez pierwszy kwartyl, za± prawy bok przez trzeci kwartyl. Szeroko±¢ pudeªka odpowiada warto±ci rozst¦pu ¢wiartkowego. Wewn¡trz prostok¡ta znajduje si¦ pionowa linia, okre±laj¡ca warto±¢ mediany. Rysunek pudeªka uzupeªniamy po prawej i lewej stronie odcinkami. Lewy koniec lewego odcinka wyznacza najmniejsz¡ warto±¢ w zbiorze, natomiast prawy koniec prawego odcinka to warto±¢ najwi¦ksza. Oczywi±cie: Lower whisker - warto±¢ najmniejsza dla danej zmiennej. Lower quartile - punkt dokªadnie na 25% zbioru obserwacji. Median - punkt rozgraniczaj¡cy dokªadnie 50% obserwacji. Upper quartile - Punkt, przed którym jest 75% obserwacji. Upper whisker - najwy»sza warto±¢ w zbiorze. Mean - warto±¢ ±rednia w zbiorze obserwacji. 4 Cz¦±¢ praktyczna w R 4.1 Wprowadzenie 4.1.1 Dane wej±ciowe: 1. plik tekstowy: zaªo»enia: separatorem jest przecinek, plik musi mie¢ nagªówek z danymi w pierwszym wierszu, musi te» by¢ zmienna id dla nazw wierszy: 4 mydata <- read.table("c:/mydata.csv", header=TRUE, sep=",", row.names="id") 2. arkusz Excel: library(RODBC) channel <- odbcConnectExcel("c:/myexel.xls") mydata <- sqlFetch(channel, "mysheet") odbcClose(channel) 3. odczyt z klawiatury: age <gender weight mydata c(25, 30, 56) <- c("male", "female", "male") <- c(160, 110, 220) <- data.frame(age,gender,weight) 4.1.2 Dane wyj±ciowe 1. do pliku tekstowego: write.table(mydata, "c:/mydata.txt", sep="\t") 2. do arkusza Excel: library(xlsReadWrite) write.xls(mydata, "c:/mydata.xls") 4.1.3 Podgl¡d danych opis funkcji komenda w R zmienne w zbiorze mydata names(mydata) struktura zbioru mydata str(mydata) przedziaªy zmiennej v1 levels(mydata$v1) W zale»no±ci od rodzaju wymiary dim(object) wy±wietlenie zbioru mydata mydata pierwsze 10 wierszy head(mydata, n = 10) ostatnie 5 wierszy tail(mydata, n = 5) danych stosujemy: f actor lub ordered dla zrozumienia warto±ci etykiet danych. Je±li dane s¡ numeryczne to f actor(), je±li jako±ciowe to ordered(). Maj¡ takie same argumenty. zmienna v1 z warto±ciami 1, 2 lub 3 mydata$v1 < −f actor(mydata$v1, Chcemy skojarzy¢ warto±ci z etykietami levels = c(1, 2, 3), 1=red, 2=blue, 3=green labels = c(r̈ed”, ”blue”, ”green”)) zmienna y o warto±ci 1, 3 lub 5 mydata$v1 < −ordered(mydata$y , Chcemy skojarzy¢ warto±ci etykiet levels = c(1, 3, 5), 1=Low, 3=Medium, 5=High labels = c(L̈ow”, ”M edium”, ”High”)) 5 4.1.4 Brakuj¡ce dane W ±rodowisku R dane brakuj¡ce s¡ reprezentowane symbolem N A (ang. not available ). Nale»y rozró»ni¢ dane brakuj¡ce od danych sprzecznych (niemo»liwych do uzyskania) np po dzieleniu jakiej± warto±ci przez 0. Takie sa prezentowane u»ywaj¡c symbolu N aN (ang. not a number ). is.na(x) zwraca TRUE gdy brak jest warto±ci x y < −c(1, 2, 3, N A) is.na(y) zwraca wektor (F F F T) Radzenie sobie z warto±ciami brakuj¡cymi jest przeprowadzone na wiele sposobów w ±rodowisku R: mydata[v1 == 99, ”v1”] < −N A podstawi warto±¢ 99 wsz¦dzie tam gdzie brak jest warto±ci zmiennej v1 Pomijanie danych brakuj¡cych w analizie: x < −c(1, 2, N A, 3) mean(x) zwróci NA mean(x, na.rm = T RU E) zwróci 2 Funkcja complete.cases() zwraca wektor warto±ci logicznych, wskazuj¡cy przypadki danych kompletnych. mydata[!complete.cases(mydata), ] wiersze danych niekompletnych Funkcja na.omit() zwraca tylko dane kompletne (usuwa niekompletne). newdata < −na.omit(mydata) Tworzymy nowy zbiór - kompletny 4.2 Statystyka opisowa w R Jedn¡ z u»ytecznych funkcji jest sapply(): sapply(mydata, mean, na.rm = T RU E) ±rednie dla zmiennych w zbiorze mydata omija warto±ci brakuj¡ce sapply pozwala u»y¢: mean, sd, var, min, max, med, range, i quantile. R dostarcza tak»e wielu innych podstawowych funkcji. Przykªad: summary(mydata) mean,median,25th and 75th quartiles,min,max Statystyki podsumowuj¡ce z grupowaniem describe.by(mydata, group, ...) cor() korelacja cov() kowariancja Format: cor(x, use =, method =) gdzie opcja opis x macierz b¡d¹ ramka danych (dataframe) use okre±la metod¦ traktowania danych brakuj¡cych. Opcje: all.obs zakªada brak danych niekompletnych, complete.obs pomija dane brakuj¡ce, pairwise.complete.obs method okre±la typ korelacji: pearson, spearman lub kendall Przykªad grupowania danych: x.df <- data.frame(group=sample(2,20,replace=TRUE), matrix(rnorm(100),ncol=5)) x <- describe.by(x.df,x.df$group) x #shows all the results x[1] #shows just the first group x <- matrix(sample(4,200,replace=TRUE),ncol=5) 6 y <- describe.by(x,x[,1]) y # #group: 1 # var n mean sd median mad min max range se #group 1 7 1.00 0.00 1.00 0.00 1.00 1.00 0.00 0.00 #X1 2 7 -0.36 1.66 -0.31 2.16 -2.66 1.90 4.55 0.63 #X2 3 7 -0.10 1.04 -0.43 0.95 -1.37 1.44 2.81 0.39 #... #----------------------------------------------------------------------------#group: 2 # var n mean sd median mad min max range se #group 1 13 2.00 0.00 2.00 0.00 2.00 2.00 0.00 0.00 #X1 2 13 -0.07 1.26 -0.26 0.57 -2.44 2.29 4.73 0.35 #... #> x[1] #shows just the first group #$`1` # var n mean sd median mad min max range se #group 1 7 1.00 0.00 1.00 0.00 1.00 1.00 0.00 0.00 #X1 2 7 -0.36 1.66 -0.31 2.16 -2.66 1.90 4.55 0.63 #X2 3 7 -0.10 1.04 -0.43 0.95 -1.37 1.44 2.81 0.39 #X3 4 7 0.56 0.90 0.92 0.97 -0.73 1.58 2.30 0.34 #X4 5 7 0.29 0.88 0.46 0.87 -1.19 1.51 2.71 0.33 #X5 6 7 0.23 1.12 0.19 1.27 -1.46 1.85 3.31 0.42 Przykªad u»ycia korelacji i kowariancji dla danych numerycznych w zbiorze mtcars. Zakªada si¦ usuwanie danych niekompletnych. cor(mtcars, use="complete.obs", method="kendall") cov(mtcars, use="complete.obs") 4.3 Wykresy Ogromn¡ zalet¡ ±rodowiska R jest jego system graczny i mo»liwo±ci ªatwej wizualizacji danych. Wyró»nimy 2 rodzaje funkcji gracznych w R: • wyskopoziomowe funkcje rysuj¡ kompletne wykresy ( i usuwaj¡ce poprzednie), • niskopoziomowe funkcje dodaj¡ce do wykresów nowe elementy typu legenda, punkty, linie, tekst. 4.3.1 Rysowanie ogólne plot() to podstawowa funkcja, która rysuje zestaw dwuwymiarowych punktów o podanych wspóªrz¦dnych. I tak, kod: > n = 10^3 > plot(rnorm(n), rnorm(n), main = "Proba 2D rozkladu normalnego") wygeneruje wykres rozkladu 1000 danych na wykresie 2D. Wyró»nimy nast¦puj¡ce parametry funkcji plot(), które pozwol¡ wzbogaca¢ nasze wykresy, ale trzeba wówczas u»y¢ funkcji par() która pozwala modykowa¢ ustawienia globalne: 7 • bg • cex • col: col.axis, col.lab, col.main, col.sub • family, • fg • lab, • lty - rodzaj linii (0-6) • lwd - grubo±¢ linii • pty - typ pola rysunku • type - typ tworzonego wykresu: (p,b,s,h,n) • xlab, • xlog=TRUE • xlim • pch - symbole na rysunku (domy±lnie pch=1) S¡ one omówione pod adresem [http://www.oginet.pl/~rasp/r/parametry. html > par(pch = 20, col.lab = "darkred", col.axis = "darkred", fg = "blue", + col = "blue", font.main = 3, font.lab = 2) pozwoli na zmiany w wykresie: etykiety i osie b¦d¡ miaªy kolor ciemnoczerwony, kolor wykresu b¦dzie niebieski, punkty b¦d¡ zakolorowanymi kóªkami, zmieniony b¦dzie te» rozmair czcionki: inny dla tytuªu, inny dla etykiet. 1. histograms 2. dot plots 3. bar charts 4. line charts 5. pie charts 6. boxplots 7. scatter plots. Wykresy s¡ omowione pod adresem: http://www.oginet.pl/~rasp/r/wykresy. html. Standardowymi wykresami do reprezentacji proporcji danych kategorycznych s¡ wykresy sªupkowe (barplot) i koªowe (pie). Przyjmuj¡ one jako parametr 8 wektory liczbowe, reprezentuj¡ce ilo±ci elementów w poszczególnych kategoriach. Rozkªad danych numerycznych wspomagaj¡ wykresy dla danych kategorycznych, dzielone wcze±niej na przedziaªy (cut). rodowisko R posiada funkcje uªatwiaj¡ce nam ten proces, które tworz¡ bezpo±rednio wykresy rozkªadu danych (z pomini¦ciem kroku ich r¦cznego dzielenia). Najprostszy, tekstowy wykres to tzw. wykres ªodygowo - li±ciowy (stem). > data(beavers) > x = beaver1$temp Wykres ªodygowo-li±ciowy to wykres tekstowy, tzn. w wyniku jego dzia lania nie powstaje obiekt graczny. Przydaje si¦ do szybkiego ogl¡du niedu»ych zbiorów danych. 4.3.2 Histogramy hist(x) dla wektora x. Opcja f req = F ALSE zamiast cz¦sto±ci wyrysuje g¦sto±ci. Opcja breaks = pozwala ustala¢ liczb¦ sªupków. hist(mtcars$mpg) - Simple Histogram hist(mtcars$mpg, breaks = 12, col = r̈ed”) = czerwony wykres, z 12 sªupkami. x <- mtcars$mpg h<-hist(x, breaks=10, col="red", xlab="Miles Per Gallon", main="Histogram with Normal Curve") 4.3.3 Wykres punktowy dotchart(x, labels =) dla wektora x i etykiet opisanych przez wektor labels. Opcja groups = pozwala okresla¢ kryterium grupowania elementów wektora x, za± opcja gcolor = pozwala wybiera¢ osobne kolory dla tworzonych grup, cex zarz¡dza rozmiarem etykiet. dotchart(mtcars$mpg,labels=row.names(mtcars),cex=.7, main="Gas Milage for Car Models", xlab="Miles Per Gallon") Przykªad wykresu punktowego kolorowego, posortowanego (wg mpg ) i pogrupowanego wg (ang. cylinder ). x <- mtcars[order(mtcars$mpg),] # sort by mpg x$cyl <- factor(x$cyl) # it must be a factor x$color[x$cyl==4] <- "red" x$color[x$cyl==6] <- "blue" x$color[x$cyl==8] <- "darkgreen" dotchart(x$mpg,labels=row.names(x),cex=.7,groups= x$cyl, main="Gas Milage for Car Models\ngrouped by cylinder", xlab="Miles Per Gallon", gcolor="black", color=x$color) 4.3.4 Wykres sªupkowy (ang. Bar Plots ) barplot(height) - gdzie height jest wektorem (wtedy heights jest wysoko±ci¡ sªupka na wykresie) b¡d¹ macierz¡ (wtedy z opcj¡ beside = F ALSE oznacza, »e ka»da kolumna z macierzy ma 1 sªupek, w którym ró»nymi kolorami zostaªy 9 uwzgl¦dnione poszczególne przedziaªy warto±ci). Je±li height jest macierz¡ ale opcja beside ma warto±¢ T RU E oznacza to osobne sªupki dla ka»dej z kolumn macierzy. Opcja names.arg = (charactervector) pozwala opisa¢ sªupki, za± opcja horiz = T RU E zmieni¢ orientacj¦ wykresu na horyzontaln¡. Przykªad prostego wykresu: counts <- table(mtcars$gear) barplot(counts, main="Car Distribution", xlab="Number of Gears") Przykªad wykresu horyzontalnego, z dodatkowymi kolumnami: counts <- table(mtcars$gear) barplot(counts, main="Car Distribution", horiz=TRUE, names.arg=c("3 Gears", "4 Gears", "5 Gears")) Uwaga ! Wykresy sªupkowe nie musz¡ si¦ odnosi¢ tylko do danych policzalnych czy do czesto±ci. Mo»emy u»y¢ ich równie» do reprezentacji ±rednich, mediany, odchylenia standardowego. Trzeba u»y¢ funkcji aggregate() i przenie±¢ wyniki do funkcji barplot().Domyslnie linie dla danych kategorycznych nie s¡ pokazane. Mo»na to wymusi¢ dodaj¡c opcj¦ axis.lty = 1. 4.3.5 Wykresy liniowe (ang. Line Charts ) lines(x, y, type =) gdzie x i y s¡ wektorami numerycznymi punktów (x, y). Parametr type = mo»e przyj¡¢ jedn¡ z warto±ci: p - punkty, l - linie, o - punkty i linie, b, c - dla punktów poª¡czonych liniami (puste dla c), s, S - oznacza wykres schodkowy, h - jak histogram tyle, »e zamiast sªupków mamy linie, n - bez linii i punktów. Funkcja lines() dodaje informacje do wykresu. In the following code each of the type= options is applied to the same dataset. The plot( ) command sets up the graph, but does not plot the points. x <- c(1:5); y <- x # create some data par(pch=22, col="red") # plotting symbol and color par(mfrow=c(2,4)) # all plots on one page opts = c("p","l","o","b","c","s","S","h") for(i in 1:length(opts)){ heading = paste("type=",opts[i]) plot(x, y, type="n", main=heading) lines(x, y, type=opts[i]) } 4.3.6 wykresy koªowe (ang. Pie Charts ) Funkcja pie(x, labels =) pozwala rysowa¢ wykresy koªowe. slices <- c(10, 12,4, 16, 8) lbls <- c("US", "UK", "Australia", "Germany", "France") pie(slices, labels = lbls, main="Pie Chart of Countries") Wykres koªowy z procentami: 10 slices <- c(10, 12, 4, 16, 8) lbls <- c("US", "UK", "Australia", "Germany", "France") pct <- round(slices/sum(slices)*100) lbls <- paste(lbls, pct) # add percents to labels lbls <- paste(lbls,"%",sep="") # ad % to labels pie(slices,labels = lbls, col=rainbow(length(lbls)), main="Pie Chart of Countries") Tworzenie kóª z ramki danych (Dataframe): mytable <- table(iris$Species) lbls <- paste(names(mytable), "\n", mytable, sep="") pie(mytable, labels = lbls, main="Pie Chart of Species\n (with sample sizes)") 4.3.7 Wykresy pudeªkowe (ang. Boxplots ) Funkcja boxplot(x, data =), gdzie x to wektor danych, a data = oznacza ramk¦ danych (dataf rame) dostarcz¡j¡c¡ dane do analizy. Opcja varwidth = T RU E pozwala generowa¢ wykresy o szeroko±ci kwadrata, za± opcja horizontal = T RU E pozwala odwróci¢ orientacj¦ osi. Przykªad: Boxplot of MPG by Car Cylinders boxplot(mpg~cyl,data=mtcars, main="Car Milage Data", xlab="Number of Cylinders", ylab="Miles Per Gallon") Przykªad: Notched Boxplot of Tooth Growth Against 2 Crossed Factors: boxplot(len~supp*dose, data=ToothGrowth, notch=TRUE, col=(c("gold","darkgreen")), main="Tooth Growth", xlab="Suppliment and Dose") Uwaga! s¡ te» tzw. wykresy skrzypcowe za pomoc¡ funkcji violin(). S¡ one kombinacj¡ wykresu pudeªkowego i wykresu g¦sto±ci. Np: library(vioplot) x1 <- mtcars$mpg[mtcars$cyl==4] x2 <- mtcars$mpg[mtcars$cyl==6] x3 <- mtcars$mpg[mtcars$cyl==8] vioplot(x1, x2, x3, names=c("4 cyl", "6 cyl", "8 cyl"), col="gold") title("Violin Plots of Miles Per Gallon") 4.3.8 Wykres rozrzutu (ang. Scatterplot ) Najprostszy sposób to funkcja plot(x, y), dla wektorów x i y , które maj¡ by¢ narysowane. Przykªad: attach(mtcars) plot(wt, mpg, main="Scatterplot Example", xlab="Car Weight ", ylab="Miles Per Gallon ", pch=19) Jest te» funkcja scatterplot() w pakiecie car oferuj¡ca wiele u»ytecznych cech. 11 library(car) scatterplot(mpg ~ wt | cyl, data=mtcars, xlab="Weight of Car", ylab="Miles Per Gallon", main="Enhanced Scatter Plot", labels=row.names(mtcars)) 5 Zadania do wykonania 1. Twoje czasy dojazdu na uczelnie przez ostatnie dwa tygodnie (10 dni; w minutach) to: 17, 16, 20, 24, 22, 15, 21, 15, 17, 22. • Jakie byªy nadjªu»szy, ±redni i minimalny czasy dojazdu? • Jakie byªo odchylenie stanadardowe czasu dojazdu? • Ile razy dojazd zaj¡ª Ci mniej/wi¦cej ni» ±rednia -/+ odchylenie standardowe? • Jakie byªy ±rednie czasy dojazdu dla warto±ci poni»ej/ponad pierwszym/trzecim kwartylem? 2. Wczytaj wbudowany zbiór danych mtcars. Zobacz czego dotyczy i sprawd¹: • Ile wynosi maksymalny przebieg (w milach/galon)? • który samochód go osi¡gn¡ª? • jak wygl¡da pierwsza trójka samochodów o najwi¦kszej liczbie konii mechanicznych? • jakie s¡ ±rednie przyspieszenia i odchylenie standardowe liczby konii dla: wszystkich samochodów, samochodów z/bez automatycznej skrzyni biegów, mercedesów, czoªowych 20% samochodów pod wzgl¦edem liczby konii mechanicznych? 3. Oblicz wspóªczynnik korelacji Pearsona dla zbioru mtcars. 4. T¦tna spoczynkowe lekkoatletów wynosz¡: 44; 34; 33; 34; 35; 33; 31; 41; 30; 31; 31; 32; 34; 45; 37; 35 Wyznacz wykres pudeªkowy. 5. Dla danych z poprzedniego zadania oblicz: mod¦, median¦, ±redni¡, wariancj¦ oraz rozst¦p mi¦dzykwartylowy. 6. Badaniu poddano dªugo±¢ ko«czyny dolnej (xi ) oraz moc (yi ) u siedmiu uczniów IV klasy szkoªy podstawowej. Na podstawie poni»szych danych oszacowa¢ wspóªzale»no±¢ obu analizowanych cech. x = [28, 25, 35, 35, 29, 30, 24], za± y = [71.2, 70.3, 73.4, 63.6, 70.1, 68.3, 66.1] 12