Models and algorithms for multi-resolution - ETH E

Transkrypt

Models and algorithms for multi-resolution - ETH E
Diss. ETH No. 21582
Models and algorithms
for multi-resolution simulation
of complex systems
A dissertation submitted to attain the degree of
DOCTOR OF SCIENCES of ETH ZURICH
(Dr. Sc. ETH Zurich)
presented by
OLIWIA MARIA SZKLARCZYK
M. Sc. University of Warsaw, Poland
born on December 1, 1983
citizen of Warsaw – Poland
accepted on the recommendation of
Prof. Dr Wilfred F. van Gunsteren, examiner
Prof. Dr Philippe Henry Hünenberger, co-examiner
Prof. Dr Alexandre M. J. J. Bonvin, co-examiner
2014
Summary
Classical molecular dynamics (MD) simulations are nowadays a widely employed technique
to study properties of small chemical compounds, single bio-molecules, as well as biomolecular complexes. Over half a century of theoretical work and application research
stands behind the available tools and software packages utilising MD techniques. Currently,
much effort is being put into the development of new methods based on MD simulations to
investigate systems and phenomena also on the cellular scale, or small systems on longer
time scales. Since the computational efficiency brought by the development of modern
processors might not be sufficient for the goals of computational research for the nearest
future, it is of crucial importance to develop and improve the efficiency of algorithms and
the accuracy of models used in biophysical simulation.
This dissertation is about possible refinements of existing models, and also explores
approaches to MD simulations on different levels of description of molecular systems,
from including quantum effects such as electronic polarisability of molecules in atomic
or supra-atomic level MD simulation, through combining fine-grained (FG) and coarsegrained (CG) levels of resolution, through correcting simulation artefacts arising from
introducing boundaries in the system, through alternative integration schemes for classical
equations of motion of rigid bodies, to an implementation and application of a model for
MD simulation of systems on a cellular scale.
In Chapter 1 an overview of the basic theory of MD simulations is given. The scope of
biophysical simulation with the equations of motion, interaction potential energy function,
and methods used standardly to perform MD simulations are described briefly. Standard
integration schemes of the classical equations of motion are given. Moreover, different levels
of multi-graining in molecular simulation are discussed together with the advantages and
limitations of such an approach. Full-atom, united-atom, supra-atomic coarse-grained, and
supra-molecular coarse-grained models are discussed, as well as methods to account for
electronic effects, such as electronic polarisability of molecules. Finally, simulation artefacts
due to the use of cut-offs in the calculation of non-bonded interaction are shortly presented.
Starting from a detailed level of description, in Chapter 2 a new force-field parameter set
to simulate hydrocarbons with the aid of classical MD and accounting for the atomic electronic polarisability of compounds is introduced. The Charge-On-Spring (COS) model,
also known as Drude’s oscillator, or shell model is used to represent such systems. Polarisable models for linear alkanes of various lengths until pentadecane, and one for a
cycloalkane, namely cyclohexane, are developed.
Chapter 3 also explains the development of a model for an alkane, cyclohexane, but on
a supra-atomic level of detail. Polarisable COS supra-atomic coarse-grained models are
proposed, with a COS particle attached to every CG bead to represent the electronic polarisability of the molecule. Two different coarse-grained cyclohexane models were studied:
xiii
a 3-bead molecule, i.e. with two CH2 united atom groups per bead, and a 2-bead molecule,
i.e. with three CH2 united atom groups per bead.
In Chapter 4 a technique for multi-grained simulations of bio-molecules in solution based
on a distance-restraining algorithm is proposed. The method allows for combining solvents
at different levels of resolution in order to speed-up MD simulations, at the same time
retaining the correct solute-solvent interactions. Testing of the algorithm is done on a
water box with fine-grained atomic and coarse-grained supra-molecular water particles.
The properties of the method are further studied for a deca-Alanine peptide solvated in a
mixture of these two solvents.
In molecular simulation, many methods for calculating N -body interactions make use
of boundaries between regions of the comupational box, so-called cut-offs, in order to
decrease the computational effort. Such treatment may introduce artefacts due to the
accumulation of numerical errors, which arise from the discontinuities in the forces at the
cut-off distances. The artefacts may lead to erroneous results and conclusions about the
structure and dynamics of the system studied. Chapter 5 tells about a discovery of one of
such artefacts in a simulation of an amyloid crystal. The cause of the artefact is identified
and remedies allowing for its elimination are proposed.
In an era aiming at simulating larger systems and on longer time scales, fast and accurate
methods to perform large-scale simulations are of crucial importance. Systems of sizes on
the level of a living cell, such as viruses, can be treated as having a rigid structure,
but to solve the equations of motion in such cases may pose complications when using
standard molecular dynamics in Cartesian coordinates with constraints. In Chapter 6 an
algorithm for simulating rigid-body motion based on stochastic dynamics equations of
motion is presented. Quaternions of motion are used instead of Euler angles in order to
avoid numerical errors arising from singularities when solving the equations of rotational
motion. A mathematical derivation of the algorithm as well as a step-wise integration
scheme are given.
In Chapter 7, simulations of a large system consisting of a virus particle in a box with a
flat receptor-containing membrane are performed. A model combining diffusive Brownian
dynamics, translational stochastic dynamics, and rotational stochastic dynamics, is introduced. The rotational motion of the virus particle represented as a rigid body is solved
with the aid of a quaternion-based algorithm similar to that of Chapter 6. The model
is calibrated based on experimental data for binding of the Simian Virus 40 to a GM1receptor-containing membrane. Simulations for varying system properties are performed
and the influence of these properties on the binding process is discussed.
Chapter 8 contains propositions of refining or extending each of the projects, or of
employing the methods developed in the previous chapters to perform simulations of other
systems than described in this work.
xiv
Zusammenfassung
Klassische Molekulardynamik (MD) Simulationen sind heutzutage eine weit verbreitete
Methode, um die Eigenschaften sowohl von kleinen chemischen Verbindungen und einzelnen Bio-Molekülen als auch von biomolekularen Komplexen zu untersuchen. Die heute
verfügbaren Instrumente und Programmpakete, welche MD verwenden, sind das Ergebnis
von über einem halben Jahrhundert theoretischer und anwendungsorientierter Forschung.
Gegenwärtig werden mit grossem Aufwand neue, auf MD basierende Methoden entwickelt,
um Systeme und Phänomene auch im zellulären Massstab oder kleine Systeme über längere
Zeiträume untersuchen zu können. Da die Steigerung der Effizienz durch die Entwicklung neuer Prozessoren zur Erfüllung aktueller Forschungsziele in näherer Zukunft kaum
ausreichend sein dürfte, ist die Entwicklung und Verbesserung der in biophysikalischen
Simulationen verwendeten Modelle und Algorithmen eminent wichtig.
Die vorliegende Dissertation behandelt sowohl mögliche Verbesserungen bestehender
Modelle als auch die Erforschung von Ansätzen in MD Simulationen auf verschiedenen
Ebenen der Beschreibung molekularer Systeme, von der Einbeziehung elektronischer Effekte wie der Polarisierbarkeit von Molekülen, über die Kombination von feinkörniger (finegrained, FG) und grobkörniger (coarse-grained, CG) Auflösung, die Korrektur von durch
Verwendung von Grenzflächen entstandener Simulationsartefakten und die Einführung alternativer Methoden zur Integration der klassischen Bewegungsgleichung von Starrkörpern
bis zur Implementierung und Anwendung eines Modells zur MD-Simulation von Systemen
im zellulären Massstab.
In Kapitel 1 wird ein Überblick über die elementare Theorie von MD gegeben. Das
Feld der biophysikalischen Simulationen, welches die Bewegungsgleichungen, die Wechselwirkungspotentialfunktion und die üblicherweise zur Simulation von MD verwendeten
Methoden beinhaltet, wird kurz erklärt. Die üblichen Methoden zur Integration der klassischen Bewegungsgleichungen werden beschrieben. Weiter werden verschiedene Ebenen
von mehrkörniger Auflösung in Molekularsimulationen sowie ihre Vor- und Nachteile besprochen, namentlich die full-atom, united-atom, supra-atomic coarse-grained (supraatomar grobkörnige) und supra-molecular coarse-grained (supramolekular grobkörnige) Modelle, sowie Methoden um Elektroneneffekte wie die elektronische Polarisierbarkeit von
Molekülen zu beschreiben. Schliesslich werden Simulationsartefakte, welche durch die
Einführung von cutoffs, Abschneidungen der nicht gebundenen Wechselwirkung, entstehen, kurz vorgestellt.
Ausgehend von einer hochaufgelösten Beschreibung wird in Kapitel 2 ein Satz von ForceField-Parametern zur MD-Simulation von Kohlenwasserstoffen unter Berücksichtigung der
elektronischen Polarisierbarkeit eingeführt. Um solche Systeme zu beschreiben, wird das
Feder-Ladungs-Modell (Charge-On-Spring, COS), welches auch als Drude-Oszillator (Drude oscillator) oder Schalenmodell (shell model) bekannt ist, verwendet. Es wurden polari-
xvii
sierbare Modelle für lineare Alkane verschiedener Länge bis Pentadekan entwickelt, sowie
eines für Cycloalkane, namentlich Cyclohexan.
Kapitel 3 beschreibt ebenfalls die Entwicklung eines Modells für ein Alkan, genauer
Cyclohexan, allerdings auf einer supra-atomarer Ebene der Auflösung. Polarisierbare supraatomare grobkoernige (supra-atomic coarse-grained) Modelle werden besprochen, wobei beim polarisierbaren COS Modell ein zusätzliches COS-Teilchen an jede grobkörnige
Kugel gebunden wird, um die elektronische Polarisierbarkeit des Moleküls darzustellen. Es
wurden zwei verschiedene grobkörnige Cyclohexan-Modelle untersucht: ein 3-Kugel Molekül, d.h. mit zwei CH2 united-atom-Gruppen pro Kugel, und ein 2-Kugel Molekül, d.h.
mit drei CH2 united-atom-Gruppen pro Kugel.
In Kapitel 4 wird ein Technik zur mehrkörnigen Simulation von Bio-Molekülen in Lösung
vorgeschlagen, welches auf einem distance-restraining Algorithmus basiert. Die Methode ermöglicht es, Lösungsmittel verschiedener Auflösung zu kombinieren, um einerseits
die MD-Simulationen zu beschleunigen, andererseits aber die korrekten Wechselwirkungen zwischen Lösungsmittel und gelöster Substanz beizubehalten. Der Algorithmus wurde an einer Wasserbox, bestehend aus feinkörnigen, atomaren und grobkörnigen, supramolekularen Wasserteilchen, getestet. Die Methode wurde anhand eines in einer Mischung
der obengenannten Lösungsmittel gelösten deca-Alanin-Peptids weiter untersucht.
In molekularen Simulationen verwenden viele Methoden zur Berechnung von N -Körper
Wechselwirkungen Grenzflächen zwischen verschiedenen Regionen des untersuchten Systems, so genannte cut-offs, um den Rechenaufwand zu reduzieren. Durch die Akkumulation von numerischen Fehlern, ausgelöst durch Unstetigkeiten in den Wechselwirkungskräften an den Grenzflächen, können diese Methoden Artefakte hervorrufen. Diese Artefakte können zu fehlerhaften Resultaten und Schlussfolgerungen über die Struktur und
Dynamik der untersuchten Systeme führen. Kapitel 5 behandelt die Entdeckung eines solchen Artefakts in einer Simulation eines Amyloid-Kristalls. Es werden sowohl die Gründe
für die Entstehung erörtert, als auch mögliche Lösungsvorschläge gemacht, um das Auftreten des Artefakts zu verhindern.
In einer Zeit, in welcher grosse Systeme und lange Simulationszeiten gefragt sind, sind
schnelle und exakte Methoden zur Simulation grosser Systemen eminent wichtig. Systeme in der Grössenordnung lebender Zellen, wie zum Beispiel Viren, können als starre
Strukturen angenähert werden, was aber die Lösung der Bewegungsgleichungen mit Hilfe herkömmlicher Molekulardynamik Algorithmen erschweren kann. Kapitel 6 beschreibt
einen Algorithmus zur Simulation von Starrkörperbewegungen basierend auf stochastischen Bewegungsgleichungen. Um numerische Fehler durch Singularitäten zu vermeiden,
wie sie üblicherweise beim Lösen der Rotationsgleichungen von Starrkörpern auftreten,
werden im vorgestellten Integrationsalgorithmus Bewegungsquaternionen anstelle von Eulerschen Winkeln verwendet. Sowohl eine mathematische Herleitung als auch ein diskreter,
schrittweiser Integrationsalgorithmus werden gezeigt.
Im Kapitel 7 wird ein grosses System, bestehend aus einem Virus-Teilchen in einer
Box mit einer flachen, mit Rezeptoren besetzten Membran, simuliert. Es wird ein Modell
xviii
eingeführt, welches diffusive Brown’sche Dynamik und stochastische Translations- und
Rotationsdynamik verbindet. Die Rotationsbewegung des als Starrkörper dargestellten
Virusteilchens, wird mit einem Quaternion-basierten Algorithmus ähnlich zu jenem in Kapitel 7 berechnet. Das Modell wurde basierend auf experimentellen Daten zur Bindung
des Simian Virus 40 an eine mit GM1-Rezeptoren besetzten Membran kalibriert. Simulationen mit unterschiedlichen Systemeigenschaften werden durchgeführt und der Einfluss
dieser Eigenschaften auf den Bindungsvorgang besprochen.
Kapitel 8 beinhaltet Vorschläge zur Verfeinerung oder Weiterführung der einzelnen Projekte, oder zur Anwendung der in den vorangehenden Kapiteln entwickelten Methoden an
anderen, in dieser Dissertation nicht berücksichtigten Systemen.
xix
Podsumowanie
Klasyczna dynamika molekularna (MD) jest obecnie powszechnie stosowaną metodą symulacji struktury i oddziaływań małych cząsteczek chemicznych, biocząsteczek, jak również
kompleksów biomolekularnych. Dostępne obecnie narzędzia i pakiety oprogramowania wykorzystujące techniki MD są rozwijane od ponad pół wieku. Wiele starań jest aktualnie
skierowanych w stronę rozszerzania tych metod, tak aby można było studiować układy
i zjawiska w większej niż dotychczas skali przestrzennej, n.p. w skali komórkowej, bądź
małe układy lecz w dłuższych skalach czasowych. Ze względu na to, że samo techniczne
udoskonalanie nowoczesnych procesorów może być niewystarczające, aby osiągnąć ten cel,
kluczowym jest rozwijanie algorytmów i poprawa ich wydajności oraz ulepszanie modeli
stosowanych w biofizyce komputerowej.
Niniejsza rozprawa doktorska traktuje o sposobach udoskonalania istniejących modeli i
metod, takich jak eliminacja błędów powstałych w wyniku wprowadzania granic między
obszarami badanego układu, oraz alternatywnych metodach całkowania klasycznych równań ruchu dla ciała sztywnego. Ponadto, praca ta zawiera wyniki badania wykorzystania
i łączenia metod symulacji komputerowych na różnych poziomach opisu badanych układów molekularnych, zaczynając od włączania efektów kwantowych, takich jak dipolowa
polaryzowalność elektronowa, do modeli atomistycznych i gruboziarnistych, poprzez łączenie modeli atomistycznych z gruboziarnistymi, do implementacji i zastosowania nowego
modelu w symulacji komputerowej układów w skali komórkowej.
Pierwszy rozdział niniejszej pracy zawiera przegląd podstawowych założeń dynamiki molekularnej w formie zwięzłego opisu stosowanych równań ruchu, opis typowego pola siłowego, oraz standardowych metod stosowanych do przeprowadzania biofizycznych symulacji
komputerowych, takich jak na przykład podstawowe algorytmy do całkowania równań ruchu. Ponadto omówione są zalety i ograniczenia modelowania układów biomolekularnych
na różnych poziomach dokładności, zaczynając od reprezentacji pełno-atomowej, poprzez
reprezentację typu united-atom, oraz gruboziarniste reprezentacje supra-atomowe i supramolekularne. Omówione są również skutki wprowadzania tak zwanych obcięć (cut-offs) w
metodach obliczania oddziaływań niewiążących między cząstkami.
Zaczynając od szczegółowego poziomu opisu układu, w drugim rozdziale tej rozprawy
zaproponowana jest definicja zbioru nowych parametrów dla pola siłowego do symulacji
MD węglowodorów. Efekty kwantowe związane z dipolową polaryzowalnością elektronową
są uwzględnione poprzez tak zwany model Charge-On-Spring (COS), znany też pod nazwą
oscylatora Drude’a bądź modelu powłokowego. Przedstawione są modele polaryzowalne
dla alkanów liniowych o długości łańcucha do pentadekanu oraz dla jednego cykloalkanu
- cykloheksanu.
W rozdziale trzecim przedstawiono opracowanie nowego modelu alkanu, cykloheksanu,
na supra-atomowym poziomie opisu układu. Przedstawione są dwa polaryzowalne grubo-
xxi
ziarniste modele COS cykloheksanu z jedną cząstką COS przyłączoną do każdej cząstki
gruboziarnistej. Pierwszy gruboziarnisty model cząsteczki cykloheksanu składa się z trzech
cząstek, z których każda obrazuje dwie grupy metylenowe, zaś drugi model składa się z
dwóch cząstek, z których każda obrazuje trzy grupy metylenowe.
W rozdziale czwartym przedstawiona jest nowa metoda do symulacji biomolekuł w mieszaninach roztworów reprezentowanych na różnych poziomach szczegółu opisu, która pozwala na znaczne przyspieszenie obliczeń komputerowych dla tego typu układów. Metoda ta jest oparta na wprowadzeniu restrykcji w opisie przestrzennym układu poprzez
zastosowanie dodatkowego członu w funkcji energii potencjalnej opisującej oddziaływanie biomolekuły z rozpuszczalnikiem. Test algorytmu przeprowadzony jest dla symulacji
mieszaniny cząsteczek wody reprezentowanych przez dwa różne modele: pełno-atomowy
oraz gruboziarnisty supra-molekularny. Wydajność tej metody jest dalej przedstawiona na
przykładzie układu obejmującego peptyd deca-alaniny w mieszaninie tych dwóch rodzajów
modeli reprezentujących cząsteczki wody.
W celu zredukowania czasu obliczeń oddziaływań N ciał w symulacjach komputerowych MD często stoduje się obcięcia (cut-offs) funkcji energii potencjalnej. Tego typu
podejście może prowadzić do akumulacji błędów numerycznych. Wynika to z faktu, że
funkcje opisujące energię oraz siłę między cząstkami są nieciągłe w punktach odpowiadających odległościom międzyatomowym równym długości obcięcia. Powstałe artefakty
mogą prowadzić do błędnych wyników i wniosków o własnościach strukturalnych i dynamice badanego układu. W rozdziale piątym przedstawiono identyfikację tego typu błędu
w symulacjach kryształu amyloidowego. Zbadana jest przyczyna artefaktu oraz zaproponowane są metody, dzięki którym można go uniknąć.
Obecnie, kiedy dąży się do obliczeń komputerowych w większych skalach przestrzennych
i czasowych, kluczowe znaczenie ma rozwój metod do wykonywania wydajnych i dokładnych symulacji łączących wiele poziomów szczegółu opisu układu. Biomolekularne układy
wielko-skalowe, takie jak n.p. wirusy, mogą być w przybliżeniu reprezentowane jako ciała
sztywne. Rozwiązywanie równań ruchu ciała sztywnego w kartezjańskim układzie współrzędnych z ograniczeniami nałożonymi na odległości między cząsteczkami może jednak
stwarzać pewne komplikacje. W rozdziale szóstym niniejszej rozprawy doktorskiej przedstawiony jest nowy algorytm przeznaczony do symulacji komputerowych ciał sztywnych z
zastosowaniem stochastycznych równań ruchu. Zamiast metody bezpośredniego całkowania równań ruchu obrotowego sformułowanych z użyciem kątów Eulera, wprowadzone są
kwaterniony ruchu. Przedstawione są matematyczne wyprowadzenie zaproponowanego algorytmu oraz schemat zastosowania tej metody numerycznej w symulacjach MD. Metoda
ta pozwala na uniknięcie osobliwości w równaniach ruchu obrotowego, które są obecne,
gdy używa się kątów Eulera.
Rozdział siódmy zawiera opis symulacji układu składającego się z cząsteczki wirusa i
membrany zawierającej receptory wiążące wirusa. Do przeprowadzenia obliczeń jest zastosowany ulepszony model łączący dynamikę stochastyczną ruchu translacyjnego i obrotowego oraz dynamikę Brownowską. Równania ruchu obrotowego wirusa są całkowane
xxii
przy pomocy algorytmu opartego na kwaternionach analogicznym do algorytmu przedstawionego w rozdziale szóstym. Parametryzację modelu przeprowadzono w oparciu o dane
doświadczalne wiązania małpiego wirusa 40 (SV40) do sztucznej błony komórkowej zawierającej receptory glikolipidowe GM1. Przeprowadzone są symulacje komputerowe procesu
wiązania wirusa do membrany i zanalizowane są właściwości tego procesu w funkcji zmieniających się własności układu.
Ostatnia część tej rozprawy doktorskiej zawiera propozycje dalszego rozszerzenia modeli
i metod wprowadzonych w poprzednich rozdziałach, jak również propozycje ich zastosowania do badania innych układów biomolekularnych niż te opisane w niniejszej pracy.
xxiii