Bioinformatyka
Transkrypt
Bioinformatyka
Bioinformatyka Ćwiczenia nr 2 (Pakiet R) 1. Do programu STATISTICA wczytać dane o nazwie „DanePakietyStatystyczne.csv” umieszczone na stronie http://theta.edu.pl/teaching/pakiety-statustyczne/. Dane przedstawiają grupę 860 pacjentów, pochodzących z trzech miast w Polsce (Gdańsk, Warszawa i Wrocław), dla których zostały zmierzone wartości hemoglobiny (g/dL), witaminy B12 (pg/dL) oraz kreatyniny (mg/dL). Dodatkowo dla każdego pacjenta jest znana jego płeć, waga, wzrost oraz rok urodzenia. Dokładna struktura kolumn to: rok urodzenia, wzrost, waga, płeć, hemoglobina, witamina B12, kreatynina oraz miasto pochodzenia. 2. Jak są oznaczone brakujące obserwacje dla zmiennej miasto pochodzenia? Wartości brakujących obserwacji zamienić na wartość -9999. 3. Przekodować kolumnę płeć, tak aby mężczyzna był oznaczany jako 1, a kobieta 0. 4. Wyznaczyć wartości statystyk opisowych (średnia, wariancja, odchylenie standardowe, mediana oraz skośność) dla hemoglobiny, witaminy B12 oraz kreatyniny. 5. Ile średnio lat w dniu dzisiejszym mieli by pacjenci znajdujący się w analizowanym zbiorze danych? 6. W którym z miast średnia wartość kreatyniny jest najniższa, a w którym najwyższa? 7. Na podstawie wagi i wzrostu utworzyć nową kolumnę o nazwie BMI (Body Mass Index). Porównać wskaźniki BMI pomiędzy kobietami, a mężczyznami. Ile procent mężczyzn jest otyłych w analizowanym zbiorze danych (otyłość zaczyna się gdy wskaźnik BMI jest większy od 30)? 8. Zlogarytmować dane o dużej skośności. 9. Porównać dane oryginalne z danymi zlogarytmowanymi przy pomocy wykresu kwantyl-kwantyl. 10. Wykonać wykres rozrzutu dla zamiennej Hemoglobina. Zaznaczyć pacjentów z każdego z miast na inny kolor. Dodać do wykresu legendę.