(W JĘZYKU POLSKIM) - wniosek: 292865
Transkrypt
(W JĘZYKU POLSKIM) - wniosek: 292865
Dane wysokiego wymiaru, w których liczba predyktorów (cech, zmiennych) jest dużo większa niż liczba obserwacji są powszechne w różnych dziedzinach nauki. Często celem analizy takich danych jest wybór modelu predykcyjnego, czyli znalezienie prostej i jednocześnie silnej zależności między małą grupą predyktorów, a zmienną zależną. Znaleziony model może być następnie wykorzystany do identyfikacji związku przyczynowo-skutkowego lub użyty do predykcji z danych niskiego wymiaru otrzymanych na podstawie innej, dużo tańszej technologii. W ramach projektu skonstruujemy, przeanalizujemy, udostępnimy oraz zastosujemy w genomice SOSnet -- nową metodę wyboru zmiennych i estymacji parametrów dla głównych klas modeli predykcyjnych. Ponadto wykorzystamy SOSnet do oszczędnej (sparse, parsimonious), to jest opartej na małej liczbie zmiennych, predykcji fenotypu dla danych z sekwencjonowania nowej generacji. Na podstawie wstępnych wyników badań mamy nadzieję, że SOSnet ma szansę stać się popularnym pakietem do selekcji zmiennych w problemach o wysokim wymiarze. Niedawno zespół prof. Płoskiego przygotował dane z metylacji genomu człowieka na podstawie próbek krwi kilkuset pacjentów. W zeszłym roku, za pomocą Lasso -- popularnej metody wyboru modelu, znaleźliśmy dla tych danych nowe markery wieku, czyli miejsca metylacji DNA skorelowane z wiekiem, które mogą mieć znaczenie w kryminologii do predykcji wieku przestępcy. Wyniki predykcji spotkały się z szerokim zainteresowaniem, ale jej dokładność (sd ~ 7 lat) pozostawia wiele do życzenia, dlatego ważnym zadaniem projektu będzie wykorzystanie SOSnetu do poprawy jakości predykcji wieku człowieka na podstawie metylacji DNA. Metodą badawczą w projekcie będą rozumowania matematyczne i symulacje komputerowe, głównie w darmowym środowisku programistycznym R. Będziemy analizować koszt i błąd metody SOSnet. Wszystkie obliczenia wykonamy na komputerach MIMUW.