Nr wniosku: 146249, nr raportu: 2180. Kierownik (z rap.): dr inż
Transkrypt
Nr wniosku: 146249, nr raportu: 2180. Kierownik (z rap.): dr inż
Nr wniosku: 146249, nr raportu: 2180. Kierownik (z rap.): dr inż. Aleksandra Świercz Projekt badawczy pt. "Wysoko wydajne obliczenia dla sekwencjonowania DNA nowej generacji" związany był z problemem poznawania łańcuchów kwasów nukleinowych DNA oraz RNA. Rozwój nowych technologii umożliwia odczytywanie łańcuchów DNA/RNA w znacznie krótszym czasie niż do tej pory. Dzięki użyciu instrumentów biochemicznych – sekwenatorów – możliwe jest poznanie jednocześnie kilkuset milionów krótkich sekwencji, będących fragmentami badanego genomu. Taka liczba krótkich sekwencji wymaga, celem złożenia w wynikowy genom, bardzo efektywnego przetwarzania, często przy użyciu specjalistycznych komputerów umożliwiających równoległe obliczenia i z dostępem do dużego bloku pamięci RAM (superkomputery). Zadania badawcze w projekcie obejmowały przetestowanie istniejących i opracowanie nowych metod kompresji i transferu danych z sekwencjonowania do serwera archiwizacji, efektywnego wstępnego przetwarzania, które polega na oczyszczeniu zbioru danych z zanieczyszczeń (sekwencji innych organizmów) oraz sekwencji o słabej jakości. Zaproponowano także nowy sposób kodowania krótkich sekwencji, które zredukuje wykorzystywaną w obliczeniach pamięć i może przyspieszyć dalsze etapy analizy. W projekcie rozwiązywano także problem asemblacji, czyli odtwarzania badanej sekwencji poprzez składanie krótkich sekwencji w dłuższą. Asemblację możemy porównać do układania puzzli z małych klocków. Nie jest problemem, gdy układamy obrazek z 20 lub 100 klocków, lecz jeśli tych klocków jest kilkaset milionów, to widzimy wówczas rzeczywistą skalę problemu asemblacji. I tak jak nie jesteśmy w stanie porównać ze sobą wszystkich klocków, czy do siebie pasują, tak też niemożliwe jest porównanie każdej sekwencji z każdą, gdyż możemy nie doczekać się wyników porównania. Dlatego też puzzle przed układaniem możemy grupować sortując je np. wg wzoru, koloru, lub brzegowe klocki i środkowe, a sekwencje będziemy sortować według występowania wspólnych podciągów. Dzięki takiemu grupowaniu łatwiej jest sprawdzić, które sekwencje się na siebie nakładają, a w efekcie łatwiej jest złożyć je w jeden genom. W celu grupowania sekwencji, podzielono je na krótsze fragmenty i badano podobieństwo tych fragmentów. Dla sekwencji podobnych wyznaczono wynik dokładnego porównania. Do obliczeń wykorzystane zostały procesory kart graficznych GPU oraz superkomputery z Poznańskiego Centrum Superkomputerowo-Sieciowego. Karty graficzne, które do niedawna służyły głównie do efektywnych obliczeń grafiki komputerowej, i wykorzystywane były do gier komputerowych oraz wymagających programów graficznych, obecnie coraz częściej używane są do obliczeń naukowych. Dzięki wykorzystaniu GPU oraz dzięki jednoczesnemu przetwarzaniu wielu operacji na kilku wątkach, udało się w znaczny sposób skrócić czas obliczeń przy zachowaniu wysokiej jakości wyników. Wraz z postępem technologicznym instrumenty biochemiczne będą w stanie wyprodukować coraz więcej danych, więc będzie rosło zapotrzebowanie na metody, które działają w krótkim czasie oraz oszczędnie zarządzają potrzebną pamięcią. Dlatego też niezbędna jest współpraca pomiędzy specjalistami różnych dziedzin nauki: biologii, chemii, informatyki i biologii obliczeniowej, którzy wspólnie i na bieżąco będą rozwiązywali problemy związane z przechowywaniem i analizą danych. Wyniki badań zostały opublikowane w wielu czasopismach o zasięgu międzynarodowym. Algorytmy powstałe w wyniku prac w projekcie zostały opublikowane na ogólnodostępnych serwerach www.