Nr wniosku: 146249, nr raportu: 2180. Kierownik (z rap.): dr inż

Transkrypt

Nr wniosku: 146249, nr raportu: 2180. Kierownik (z rap.): dr inż
Nr wniosku: 146249, nr raportu: 2180. Kierownik (z rap.): dr inż. Aleksandra Świercz
Projekt badawczy pt. "Wysoko wydajne obliczenia dla sekwencjonowania DNA nowej generacji" związany był z
problemem poznawania łańcuchów kwasów nukleinowych DNA oraz RNA. Rozwój nowych technologii umożliwia
odczytywanie łańcuchów DNA/RNA w znacznie krótszym czasie niż do tej pory. Dzięki użyciu instrumentów
biochemicznych – sekwenatorów – możliwe jest poznanie jednocześnie kilkuset milionów krótkich sekwencji, będących
fragmentami badanego genomu. Taka liczba krótkich sekwencji wymaga, celem złożenia w wynikowy genom, bardzo
efektywnego przetwarzania, często przy użyciu specjalistycznych komputerów umożliwiających równoległe obliczenia i z
dostępem do dużego bloku pamięci RAM (superkomputery).
Zadania badawcze w projekcie obejmowały przetestowanie istniejących i opracowanie nowych metod kompresji i
transferu danych z sekwencjonowania do serwera archiwizacji, efektywnego wstępnego przetwarzania, które polega na
oczyszczeniu zbioru danych z zanieczyszczeń (sekwencji innych organizmów) oraz sekwencji o słabej jakości.
Zaproponowano także nowy sposób kodowania krótkich sekwencji, które zredukuje wykorzystywaną w obliczeniach
pamięć i może przyspieszyć dalsze etapy analizy. W projekcie rozwiązywano także problem asemblacji, czyli
odtwarzania badanej sekwencji poprzez składanie krótkich sekwencji w dłuższą.
Asemblację możemy porównać do układania puzzli z małych klocków. Nie jest problemem, gdy układamy obrazek z 20
lub 100 klocków, lecz jeśli tych klocków jest kilkaset milionów, to widzimy wówczas rzeczywistą skalę problemu
asemblacji. I tak jak nie jesteśmy w stanie porównać ze sobą wszystkich klocków, czy do siebie pasują, tak też
niemożliwe jest porównanie każdej sekwencji z każdą, gdyż możemy nie doczekać się wyników porównania. Dlatego też
puzzle przed układaniem możemy grupować sortując je np. wg wzoru, koloru, lub brzegowe klocki i środkowe, a
sekwencje będziemy sortować według występowania wspólnych podciągów. Dzięki takiemu grupowaniu łatwiej jest
sprawdzić, które sekwencje się na siebie nakładają, a w efekcie łatwiej jest złożyć je w jeden genom. W celu grupowania
sekwencji, podzielono je na krótsze fragmenty i badano podobieństwo tych fragmentów. Dla sekwencji podobnych
wyznaczono wynik dokładnego porównania. Do obliczeń wykorzystane zostały procesory kart graficznych GPU oraz
superkomputery z Poznańskiego Centrum Superkomputerowo-Sieciowego. Karty graficzne, które do niedawna służyły
głównie do efektywnych obliczeń grafiki komputerowej, i wykorzystywane były do gier komputerowych oraz
wymagających programów graficznych, obecnie coraz częściej używane są do obliczeń naukowych. Dzięki
wykorzystaniu GPU oraz dzięki jednoczesnemu przetwarzaniu wielu operacji na kilku wątkach, udało się w znaczny
sposób skrócić czas obliczeń przy zachowaniu wysokiej jakości wyników.
Wraz z postępem technologicznym instrumenty biochemiczne będą w stanie wyprodukować coraz więcej danych, więc
będzie rosło zapotrzebowanie na metody, które działają w krótkim czasie oraz oszczędnie zarządzają potrzebną pamięcią.
Dlatego też niezbędna jest współpraca pomiędzy specjalistami różnych dziedzin nauki: biologii, chemii, informatyki i
biologii obliczeniowej, którzy wspólnie i na bieżąco będą rozwiązywali problemy związane z przechowywaniem i analizą
danych. Wyniki badań zostały opublikowane w wielu czasopismach o zasięgu międzynarodowym. Algorytmy powstałe w
wyniku prac w projekcie zostały opublikowane na ogólnodostępnych serwerach www.

Podobne dokumenty