(W JĘZYKU POLSKIM) - wniosek: 292865

Transkrypt

(W JĘZYKU POLSKIM) - wniosek: 292865
Dane wysokiego wymiaru, w których liczba predyktorów (cech, zmiennych) jest dużo większa niż liczba obserwacji są
powszechne w różnych dziedzinach nauki. Często celem analizy takich danych jest wybór modelu predykcyjnego, czyli
znalezienie prostej i jednocześnie silnej zależności między małą grupą predyktorów, a zmienną zależną. Znaleziony model może
być następnie wykorzystany do identyfikacji związku przyczynowo-skutkowego lub użyty do predykcji z danych niskiego
wymiaru otrzymanych na podstawie innej, dużo tańszej technologii.
W ramach projektu skonstruujemy, przeanalizujemy, udostępnimy oraz zastosujemy w genomice SOSnet -- nową metodę wyboru
zmiennych i estymacji parametrów dla głównych klas modeli predykcyjnych. Ponadto wykorzystamy SOSnet do oszczędnej
(sparse, parsimonious), to jest opartej na małej liczbie zmiennych, predykcji fenotypu dla danych z sekwencjonowania nowej
generacji. Na podstawie wstępnych wyników badań mamy nadzieję, że SOSnet ma szansę stać się popularnym pakietem do
selekcji zmiennych w problemach o wysokim wymiarze.
Niedawno zespół prof. Płoskiego przygotował dane z metylacji genomu człowieka na podstawie próbek krwi kilkuset pacjentów.
W zeszłym roku, za pomocą Lasso -- popularnej metody wyboru modelu, znaleźliśmy dla tych danych nowe markery wieku,
czyli miejsca metylacji DNA skorelowane z wiekiem, które mogą mieć znaczenie w kryminologii do predykcji wieku przestępcy.
Wyniki predykcji spotkały się z szerokim zainteresowaniem, ale jej dokładność (sd ~ 7 lat) pozostawia wiele do życzenia, dlatego
ważnym zadaniem projektu będzie wykorzystanie SOSnetu do poprawy jakości predykcji wieku człowieka na podstawie
metylacji DNA.
Metodą badawczą w projekcie będą rozumowania matematyczne i symulacje komputerowe, głównie w darmowym środowisku
programistycznym R. Będziemy analizować koszt i błąd metody SOSnet. Wszystkie obliczenia wykonamy na komputerach
MIMUW.