Ćwiczenie 4. Współczynnik korelacji liniowej Pearsona 1. (R

Transkrypt

Ćwiczenie 4. Współczynnik korelacji liniowej Pearsona 1. (R
Ćwiczenie 4.
Współczynnik korelacji liniowej Pearsona
1. (R) Przypuszcza się, że poziom ekspresji genu miRNA156a zależy w pewnej mierze od stadium
rozwojowego rośliny. Pozyskane informacje o ekspresji tego genu i wieku organizmu pochodzą z 7
losowo wybranych roślin.
wiek - xi
poziom ekspresji – yi
1
85
3
105
2
100
3
110
4
125
3
115
5
130
Zbadaj stopień skorelowania poziomu ekspresji genu z wiekiem rośliny poprzez obliczenie
współczynnika korelacji liniowej.
2. (R) W pliku http://www.combio.pl/files/exp.txt znajdują się pomiary ekspresji 10 genów, które
zaangażowane są w pewien proces komórkowy. Wykonaj macierz korelacji i przedstaw wyniki na
wykresie.
Współczynnik korelacji rang Spearmana (rho) i współczynnik Kendalla (τ/tau)
3. (R) Grupę 7 studentów oceniono pod względem zdolności matematycznych i plastycznych. Umiejętności
te oceniono w skali od 1 do 10, uzyskując wyniki.
Matematyka: xi
Plastyka: yi
9
1
4
5
6
9
8
2
7
3
5
4
2
10
Oceń stopień i kierunek zależności tych zmiennych.
4. (R/samodzielnie) Badania sugerują, że „ból” spowodowany społecznym odrzuceniem jest prawdziwym
bólem, w tym sensie, że powoduje aktywność mózgu w takich samych obszarach jak ból fizyczny. W pliku
http://www.combio.pl/files/pain.txt znajdują się wyniki tych badań. Wykonaj wykres rozrzutu dla tych
danych. Czy istnieje silna zależność liniowa (jak silna)? Czy ta zależność jest istotnie większa od 0?
Regresja liniowa
5. (R) W pliku http://www.combio.pl/files/tuberculosis.txt przedstawiono liczbę zachorowań na gruźlicę
układu oddechowego w latach 1995-2002. Liczba zachorowań została podana w przeliczeniu na 100 tys.
ludności. Zakładając liniową zależność między rokiem a liczbą zachorowań, dokonaj wszechstronnej
analizy regresji.
6. (R/samodzielnie) W pliku http://www.combio.pl/files/genomes.txt zebrano dane dotyczące długości
kompletnych genomów proteobakterii i szacunkowej liczby genów w każdym z nich. Dokonaj analizy
regresji liniowej i podaj prognozowaną liczbę genów dla dwóch nowo zsekwencjonowanych genomów
bakteryjnych długości 2867 i 3223 kpz.
7. (R/samodzielnie) W pliku http://www.combio.pl/files/studentdata.txt zawarte są godziny pójścia spać
(ToSleep) oraz godziny wstawania (WakeUp) pewnej grupy studentów (dane są przedstawione w
odniesieniu do północy, zatem np. godzina 23 to -1). Narysuj wykres rozrzutu dla tych danych. Znajdź
oraz narysuj prostą regresji. O której według modelu wstał student, który poszedł spać o północy?
Ciekawostka: kwartet Anscombe’a
8. (R/samodzielnie) W pliku http://www.combio.pl/files/anscombe.txt znajduje się zestaw danych dla
czterech par zmiennych: (x1, y1), (x2, y2), (x3, y3), (x4, y4). Dla każdej zmiennej x i y oblicz średnią
arytmetyczną i odchylenie standardowe. Następnie dla każdej pary zmiennych (x1, y1), (x2, y2), (x3, y3),
(x4, y4) oblicz współczynnik korelacji Pearsona i podaj równanie regresji liniowej. Przedstaw wykresy
rozrzutu wszystkich czterech par zmiennych wraz z wymodelowaną linią regresji.