Bioinformatyka

Transkrypt

Bioinformatyka
Bioinformatyka
Ćwiczenia nr 2 (Pakiet R)
1. Do programu STATISTICA wczytać dane o nazwie „DanePakietyStatystyczne.csv”
umieszczone na stronie http://theta.edu.pl/teaching/pakiety-statustyczne/. Dane
przedstawiają grupę 860 pacjentów, pochodzących z trzech miast w Polsce (Gdańsk,
Warszawa i Wrocław), dla których zostały zmierzone wartości hemoglobiny (g/dL),
witaminy B12 (pg/dL) oraz kreatyniny (mg/dL). Dodatkowo dla każdego pacjenta jest
znana jego płeć, waga, wzrost oraz rok urodzenia. Dokładna struktura kolumn to: rok
urodzenia, wzrost, waga, płeć, hemoglobina, witamina B12, kreatynina oraz miasto
pochodzenia.
2. Jak są oznaczone brakujące obserwacje dla zmiennej miasto pochodzenia? Wartości
brakujących obserwacji zamienić na wartość -9999.
3. Przekodować kolumnę płeć, tak aby mężczyzna był oznaczany jako 1, a kobieta 0.
4. Wyznaczyć wartości statystyk opisowych (średnia, wariancja, odchylenie
standardowe, mediana oraz skośność) dla hemoglobiny, witaminy B12 oraz
kreatyniny.
5. Ile średnio lat w dniu dzisiejszym mieli by pacjenci znajdujący się w analizowanym
zbiorze danych?
6. W którym z miast średnia wartość kreatyniny jest najniższa, a w którym najwyższa?
7. Na podstawie wagi i wzrostu utworzyć nową kolumnę o nazwie BMI (Body Mass
Index).
Porównać wskaźniki BMI pomiędzy kobietami, a mężczyznami. Ile procent mężczyzn
jest otyłych w analizowanym zbiorze danych (otyłość zaczyna się gdy wskaźnik BMI
jest większy od 30)?
8. Zlogarytmować dane o dużej skośności.
9. Porównać dane oryginalne z danymi zlogarytmowanymi przy pomocy wykresu
kwantyl-kwantyl.
10. Wykonać wykres rozrzutu dla zamiennej Hemoglobina. Zaznaczyć pacjentów z
każdego z miast na inny kolor. Dodać do wykresu legendę.

Podobne dokumenty