Co jest takiego ciekawego w tych czterech zbiorach? Otóż wszystkie
Transkrypt
Co jest takiego ciekawego w tych czterech zbiorach? Otóż wszystkie
Zajęcia nr 2 Zajęcia mają na celu zbadanie własności pewnego zestawu danych nazywanego Kwartetem Anscombe'a. Jest to zestaw czterech zestawów danych o identycznych cechach statystycznych, takich jak średnia arytmetyczna, wariancja, współczynnik korelacji czy równanie regresji liniowej, jednocześnie wyglądających zgoła różnie przy przedstawieniu graficznym. Układ tych danych został stworzony w 1973 roku przez amerykaoskiego statystyka Francisa Anscombe'a aby ukazad znaczenie graficznej reprezentacji danych przy okazji ich analizy statystycznej. Reprezentacja graficzna: Co jest takiego ciekawego w tych czterech zbiorach? Otóż wszystkie cztery mają dokładnie te same własności statystyczne: średnia wariancja średnia wariancja korelacja regresja liniowa: Ten przykład dobitnie pokazuje, jak istotne jest zapoznanie się i zaprzyjaźnienie z eksplorowanymi danymi. Lokalizacja zbiorów danych: 1. 2. 3. 4. zbiór A: http://zsi.tech.us.edu.pl/~nowak/smad/zbior1a.txt zbiór B: http://zsi.tech.us.edu.pl/~nowak/smad/zbior2a.txt zbiór C: http://zsi.tech.us.edu.pl/~nowak/smad/zbior3a.txt zbiór D: http://zsi.tech.us.edu.pl/~nowak/smad/zbior4a.txt Celem zajęd jest wykonanie niezbędnych analiz wykazujących te własności i wyliczenia w środowisku R. Krok po kroku w R: 1. 2. Wczytanie zbioru nr 1 dane = read.table(file.choose(),sep="\t",header=TRUE) Wyświetlenie danych: print(dane) V1 1 10 8.04 2 8 6.95 3 13 7.58 4 9 8.81 5 11 8.33 6 14 9.96 7 6 7.24 8 4 4.26 9 3. V2 12 10.84 10 7 4.82 11 5 5.68 Podsumowanie danych summary(dane) V1 Min. : 4.0 V2 Min. : 4.260 1st Qu.: 6.5 1st Qu.: 6.315 Median : 9.0 Median : 7.580 Mean Mean : 9.0 : 7.501 4. 3rd Qu.:11.5 3rd Qu.: 8.570 Max. Max. :14.0 :10.840 Korelacja: > cor(dane) V1 V2 V1 1.0000000 0.8164205 V2 0.8164205 1.0000000 5. Odchylenie standardowe dla 1 zmiennej: > sd(dane[1]) 6.. Wariancja dla 1 zmiennej: > var(dane[1]) 7. Regresja liniowa: > lm(dane$V2~dane$V1) Call: lm(formula = dane$V2 ~ dane$V1) Coefficients: (Intercept) 3.0001 dane$V1 0.5001 8. Wykres równania regresji liniowej > abline(lm(dane$V2~dane$V1)) Wyniki obliczeo wraz z wykresami i odpowiednimi wnioskami proszę przesład na adres: [email protected] z tytułem „SMAD- lab2”