Co jest takiego ciekawego w tych czterech zbiorach? Otóż wszystkie

Transkrypt

Co jest takiego ciekawego w tych czterech zbiorach? Otóż wszystkie
Zajęcia nr 2
Zajęcia mają na celu zbadanie własności pewnego zestawu danych nazywanego Kwartetem Anscombe'a.
Jest to zestaw czterech zestawów danych o identycznych cechach statystycznych, takich jak średnia arytmetyczna, wariancja,
współczynnik korelacji czy równanie regresji liniowej, jednocześnie wyglądających zgoła różnie przy przedstawieniu graficznym.
Układ tych danych został stworzony w 1973 roku przez amerykaoskiego statystyka Francisa Anscombe'a aby ukazad znaczenie
graficznej reprezentacji danych przy okazji ich analizy statystycznej.
Reprezentacja graficzna:
Co jest takiego ciekawego w tych czterech zbiorach? Otóż wszystkie cztery mają dokładnie te same własności
statystyczne:






średnia
wariancja
średnia
wariancja
korelacja
regresja liniowa:
Ten przykład dobitnie pokazuje, jak istotne jest zapoznanie się i zaprzyjaźnienie z eksplorowanymi danymi.
Lokalizacja zbiorów danych:
1.
2.
3.
4.
zbiór A: http://zsi.tech.us.edu.pl/~nowak/smad/zbior1a.txt
zbiór B: http://zsi.tech.us.edu.pl/~nowak/smad/zbior2a.txt
zbiór C: http://zsi.tech.us.edu.pl/~nowak/smad/zbior3a.txt
zbiór D: http://zsi.tech.us.edu.pl/~nowak/smad/zbior4a.txt
Celem zajęd jest wykonanie niezbędnych analiz wykazujących te własności i wyliczenia w środowisku R.
Krok po kroku w R:
1.
2.
Wczytanie zbioru nr 1
dane = read.table(file.choose(),sep="\t",header=TRUE)
Wyświetlenie danych:
print(dane)
V1
1
10
8.04
2
8
6.95
3
13
7.58
4
9
8.81
5
11
8.33
6
14
9.96
7
6
7.24
8
4
4.26
9
3.
V2
12 10.84
10
7
4.82
11
5
5.68
Podsumowanie danych
summary(dane)
V1
Min.
: 4.0
V2
Min.
: 4.260
1st Qu.: 6.5
1st Qu.: 6.315
Median : 9.0
Median : 7.580
Mean
Mean
: 9.0
: 7.501
4.
3rd Qu.:11.5
3rd Qu.: 8.570
Max.
Max.
:14.0
:10.840
Korelacja:
> cor(dane)
V1
V2
V1 1.0000000 0.8164205
V2 0.8164205 1.0000000
5.
Odchylenie standardowe dla 1 zmiennej:
> sd(dane[1])
6.. Wariancja dla 1 zmiennej:
> var(dane[1])
7. Regresja liniowa:
> lm(dane$V2~dane$V1)
Call:
lm(formula = dane$V2 ~ dane$V1)
Coefficients:
(Intercept)
3.0001
dane$V1
0.5001
8. Wykres równania regresji liniowej
> abline(lm(dane$V2~dane$V1))
Wyniki obliczeo wraz z wykresami i odpowiednimi wnioskami proszę przesład na adres: [email protected] z tytułem
„SMAD- lab2”