QSAR 3D - Wydział Chemiczny
Transkrypt
QSAR 3D - Wydział Chemiczny
Jan Mazerski QSAR w przestrzeni Katedra Technologii Leków i Biochemii Wydział Chemiczny Projektowanie Nowych Chemoterapeutyków Rozwój metod ustalania struktury 3D dla białek i ich kompleksów. XV. QSAR 3D Modelowanie molekularne pozwala na obliczenie najbardziej prawdopodobnej struktury 3D ligandów. Gdańsk Dopasowanie I Dopasowanie I Warunkiem dużej aktywności jest możliwie ścisłe dopasowanie ligandu do miejsca receptorowego w celu molekularnym Warunkiem dużej aktywności jest możliwie ścisłe dopasowanie ligandu do miejsca receptorowego w celu molekularnym Czy znając strukturę miejsca receptorowego można zaprojektować strukturę wiążącego się w nim ligandu ? ? Dopasowanie II Zgodność oddziaływań Warunkiem dużej aktywności jest możliwie ścisłe dopasowanie ligandu do miejsca receptorowego w celu molekularnym Warunkiem dużej aktywności jest możliwie ścisłe dopasowanie ligandu do miejsca receptorowego w celu molekularnym Dopasowanie dotyczy nie tylko zgodności kształtu (pozytyw - negatyw), ale również zgodności oddziaływań. Czy dysponując serią ligandów o zróżnicowanym powinowactwie można zaprojektować strukturę „lepszego” ligandu ? Każda cząsteczka generuje wokół siebie pole sił danego typu oddziaływań. 1 Dopasowanie polowe Pola wektorowe i skalarne Warunkiem dużej aktywności jest możliwie ścisłe dopasowanie wszystkich oddziaływań polowych ligandu z oddziaływaniami polowymi miejsca receptorowego. Znamy dwa typy pól: ¾ pola wektorowe – w każdym punkcie pola zdefiniowany jest wektor Jak opisać pole oddziaływania ? ¾ pola skalarne – w każdym punkcie pola zdefiniowana jest wielkość skalarna: liczba Jakie typy oddziaływań uwzględnić ? Pola wektorowe wymagają 3 razy więcej danych. Pole oddziaływań Opis pola Trwałość kompleksu ligand-receptor zależy od energii oddziaływań (wielkość skalarna) W technikach QSAR 3D korzysta się z pól energii oddziaływań. Oddziaływań z czym ? Znamy 2 sposoby opisu pól: ¾ opis analityczny – znana postać funkcji opisującej wartość pola w dowolnym punkcie przestrzeni ¾ opis tabelaryczny – znane wartości pola w wybranych punktach przestrzeni, węzłach siatki. Powszechnie stosuje się obiekty próbne, np. dla oddziaływań elektrostatycznych jednostkowy ładunek dodatni. Analityczny opis pola możliwy jest tylko dla prostych, nieskomplikowanych pól. Tabelaryczny opis pola jest możliwy dla pól o dowolnym stopniu komplikacji. Jakość opisu tabelarycznego zależy od gęstości rozmieszczenia węzłów siatki. Opis tabelaryczny Opis tabelaryczny Liczba zmiennych objaśniających (deskryptorów) dziesiątki lub setki razy przewyższa liczbę obiektów (ligandów). Tabelaryczny opis pól generuje ogromne tabele danych: Liczba zmiennych M: M = Nw * Np Nw – liczba węzłów siatki Np – liczba obiektów próbnych (typów oddziaływań) Należy dokonać racjonalnej redukcji wymiarowości zadania – analiza czynników. 14 x 11 x 7 = 1078 węzłów siatki dla każdej cząsteczki 2 Opis pola a aktywność biologiczna Korzyści z modelu zależności Aby powiązać aktywność biologiczną związku z generowanymi przez ten związek polami oddziaływań należy stworzyć wielowymiarowy model zależności. ¾ do przewidywania aktywność nowych związków przed ich zsyntetyzowaniem Wymaga to: ¾ Poprawny model zależności można wykorzystać dwojako: ¾ do uzyskania informacji o przestrzennym rozmieszczeniu korzystnych i niekorzystnych pól oddziaływań zestawu kilkudziesięciu związków o zróżnicowanej aktywności ¾ dla każdego związku wyznaczenia najbardziej prawdopodobnej struktury 3D ¾ ustalenia zasad ustawienia związków względem układu współrzędnych ¾ dla każdego związku wyznaczenia wartości pól oddziaływań we wszystkich węzłach siatki ¾ konstrukcji modelu zależności ¾ oceny zdolności prognostycznych modelu Metoda CoMFA CoMFA - założenia (ang. Conformational Molecular Field Analysis) Cramer i Milne (1979) • porównywanie cząsteczek przez dopasowanie wybranych atomów i generację pól oddziaływań Za właściwości strukturalne odpowiedzialne są oddziaływania fizykochemiczne: Wold (1986) • redukcja wymiarowości zadania w przypadku skorelowanych zmiennych objaśniających – technika PLS Cramer, Patterson i Bunce (1988) • powstanie CoMFA Van der Waalsa ¾ elektrostatyczne ¾ wiązania wodorowe ¾ oddziaływania hydrofobowe Etapy metody CoMFA Metoda CoMFA obejmuje następujące etapy: Zgromadzenie danych – seria związków o zróżnicowanej aktywności Ustalenie struktury 3D Określenie zasad dopasowania związków Wyznaczenie wartości oddziaływań w węzłach siatki Konstrukcja modelu regresyjnego Walidacja modelu Zastosowanie modelu ¾ ¾ ¾ Aktywność biologiczna zależy od właściwości strukturalnych liganda. Dobór serii związków Seria musi obejmować związki oddziałujące z tym samym celem molekularnym. Związki mogą mieć różnorodną budowę chemiczną ! Seria związków powinna zawierać co najmniej kilkadziesiąt związków różniących się aktywnością o 2 ÷ 3 jednostki logarytmiczne Z serii należy wydzielić zbiór uczący i zbiór testowy (walidacyjny) przewidywanie aktywności wymogi przestrzenne dla planowania nowych ligandów 3 Struktura 3D Należy możliwie poprawnie ustalić strukturę 3D każdego ligandu. Metody obliczeniowe: ¾ ¾ Struktura 3D – metody obliczeniowe (I) Mechanika molekularna – poszukiwanie pojedynczej struktury o najniższej energii (najbardziej prawdopodobnej). mechanika molekularna: obliczenia ab initio metody półempiryczne modele empiryczne dynamika molekularna: Metody doświadczalne: ¾ ¾ dyfrakcyjna analiza monokryształu promieniowanie rentgenowskie promieniowanie neutronowe Obliczenia ab initio: ¾ ¾ ¾ „rozdzielczość” do pojedynczego elektronu ¾ niezbędna duża moc obliczeniowa ¾ ograniczenie do kilkuset elektronów Struktura 3D – metody obliczeniowe (II) Struktura 3D – metody obliczeniowe (III) Mechanika molekularna – poszukiwanie pojedynczej struktury o najniższej energii (najbardziej prawdopodobnej). Mechanika molekularna – poszukiwanie pojedynczej struktury o najniższej energii (najbardziej prawdopodobnej). Obliczenia półempiryczne: ¾ ¾ „rozdzielczość” do pojedynczego elektronu poprawnie wyznacza geometrię i rozkład ładunku elektrycznego ¾ mniejsze zapotrzebowanie na moc obliczeniową ¾ parametryzacja dla typowych grup chemicznych ¾ ograniczenie do kilkuset elektronów walencyjnych Model empiryczny: ¾ ¾ „rozdzielczość” do pojedynczego atomu ¾ małe zapotrzebowanie na moc obliczeniową ¾ parametryzacja dla typowych grup chemicznych ¾ potrzebna informacja o ładunkach cząstkowych ¾ ograniczenie do kilkuset atomów (problem minimum globalnego) poprawnie wyznacza geometrię Struktura 3D – metody obliczeniowe (IV) Struktura 3D – metody doświadczalne (I) Dynamika molekularna – generuje zespół geometrii energetycznie dopuszczalnych w danej temperaturze. Model empiryczny: ¾ ¾ „rozdzielczość” do pojedynczego atomu ¾ ¾ poprawnie wyznacza geometrię ¾ parametryzacja dla typowych grup chemicznych ¾ potrzebna informacja o ładunkach cząstkowych możliwość stosowania do układów zawierających nawet kilkadziesiąt tysięcy atomów (obecność rozpuszczalnika, biopolimery) poprawnie wyznacza geometrię i rozkład ładunku elektrycznego spektroskopia NMR dowolna budowa chemiczna Analiza dyfrakcyjna monokryształu . ¾ bezpośrednia informacja o strukturze 3D ¾ bezpośrednia informacja o strukturze 3D ¾ ¾ tylko gdy substancja tworzy kryształy geometria „zamrożona” w sieci krystalicznej małe zapotrzebowanie na moc obliczeniową 4 Struktura 3D – metody doświadczalne (II) Siatka przestrzenna Spektroskopia NMR. ¾ krzywa Carplusa – kąty dwuścienne pomiędzy wodorami wicynalnymi ¾ efekt Overhausera – bliskość przestrzenna dwóch atomów wodoru ¾ modelowanie molekularne – geometria spełniająca powyższe wymogi ¾ uśredniona struktura w roztworze Rozmiar oczek siatki determinuje: ¾ ¾ szczegółowość opisu oddziaływań liczbę zmiennych objaśniających 14 x 11 x 7 = 1078 węzłów siatki dla każdej cząsteczki Niezbędny jest racjonalny kompromis ! Dla małocząsteczkowych ligandów rozmiar oczka zbliżony do długości wiązania. Orientacja ligandów Właściwa orientacja ligandów ma kluczowe znaczenie. Błąd na tym etapie rzutuje na wynik całej analizy. Orientacja ligandów Kierunki wiązań wodorowych: Przy ustalaniu reguł orientacji ważniejsza jest zgodność oddziaływań niż nakładanie się elementów struktury chemicznej. Słaba zgodność ! Etap bardzo subiektywny – wymaga dużej praktyki. Wykonajmy obrót wokół wiązania C-R Orientacja ligandów Oddziaływania polowe W każdym węźle siatki należy teraz wyznaczyć energię oddziaływań z obiektami próbnymi. Kierunki wiązań wodorowych: Duża zgodność ! Do każdego typu oddziaływań zaproponowano odpowiednie obiekty próbne: ¾ oddziaływania elektrostatyczne – H+ ¾ oddziaływania steryczne – CH3 ¾ oddziaływania hydrofobowe – H2O ¾ donorowe wiązania wodorowe – O= ¾ akceptorowe wiązania wodorowe – HO 5 Redukcja liczby zmiennych PCA - przykład Liczba zmiennych objaśniających (deskryptorów) dziesiątki lub setki razy przewyższa liczbę obiektów (ligandów). 30 pochodnych benzamidu oraz naftylamidu nałożonych na siebie: Obszary w ramkach mają duże udziały w kolejnych głównych składowych. Należy dokonać redukcji liczby zmiennych – analiza czynników. ¾ analiza głównych składowych - PCA ¾ cząstkowa metoda najmniejszych kwadratów - PLS Analiza czynników - PCA Analiza czynników - PLS Kolejne główne składowe ekstrahują informację wspólną zawartą w tysiącach zmiennych. Kolejne czynniki PLS ekstrahują informację wspólną najsilniej skorelowaną z aktywnością biologiczną. Do wyekstrahowania większości informacji wspólnej potrzeba zwykle od 10 do 20 głównych składowych. Wystarcza zwykle nie więcej niż 5 czynników dla zbudowania poprawnego modelu regresyjnego. Główne składowe traktowane są jako zmienne objaśniające w modelu regresyjnym - model PCR. Tylko niektóre główne składowe skorelowane są z aktywnością biologiczną – metoda odrzucania. Model regresyjny tworzony jest podczas ekstrakcji informacji. Metoda PLS jest czynnikowym odpowiednikiem metody dołączania. Dobór liczby czynników Walidacja modelu Kluczowe jest poprawne ustalenie liczby czynników (głównych składowych) w modelu regresyjnym. Do klasycznej walidacji modelu regresyjnego potrzebny jest zbiór testowy (walidacyjny). Związki ze zbioru testowego powinny mieć właściwości zbliżone do związków ze zbioru uczącego (interpolacja). Ze wzrostem liczby czynników wzrasta jakość dopasowania modelu, ale czy wzrasta jakość prognozy ? Można dokonać walidacji modelu bez zbioru testowego – technika crossvalidation. ¾ usuwamy tymczasowo ze zbioru uczącego 1 związek ¾ na podstawie pozostałych N-1 związków budujemy model ¾ przewidujemy aktywność usuniętego związku i porównujemy z aktywnością zmierzoną Miernik jakości prognozy – współczynnik walidacji: ⎡ ∑ (y i − ŷ ip )2 ⎤ Q 2 = ⎢1 − ∗ 100% 2 ⎥ ∑ (yi − y ) ⎦⎥ ⎣⎢ Liczba związków w zbiorze testowym nie może być za mała ( >10). Miernik jakości dopasowania – współczynnik determinacji: ⎡ ∑ (y i − ŷ i )2 ⎤ R 2 = ⎢1 − ∗ 100% 2 ⎥ ⎣⎢ ∑ (y i − y ) ⎦⎥ Informacja wspólna nieskorelowana z aktywnością zostaje pominięta. Przywracamy związek do zbioru uczącego i obliczenia powtarzamy po usunięciu innego związku. 6 Walidacja modelu - przykład Walidacja modelu - przykład 30 pochodnych benzamidu oraz naftylamidu tworzy zbiór uczący. 30 pochodnych benzamidu oraz naftylamidu tworzy zbiór uczący. Związki te opisane są przy pomocy 25 110 deskryptorów. Związki te opisane są przy pomocy 25 110 deskryptorów. Zbiór testowy zawiera 21 pochodnych tego samego typu. Zbiór testowy zawiera 21 pochodnych tego samego typu. Do budowy modelu regresyjnego zastosowano metodę PLS. Do budowy modelu regresyjnego zastosowano metodę PLS. n R2(X) R2(y) Q2cv Q2zt n R2(X) R2(y) Q2cv 1 7 48 39 18 1 7 48 39 18 2 12 58 43 19 2 12 58 43 19 Q2zt 3 15 64 45 29 3 15 64 45 29 4 17 73 51 34 4 17 73 51 34 5 18 76 34 31 5 18 76 34 31 Model regresyjny PLS Model adekwatny Przy planowaniu syntezy nowych pochodnych należy korzystać tylko z modeli adekwatnych. Obszary „wrażliwe” na zawadę przestrzenną: Obecność podstawników w obszarach (+) zwiększa aktywność, a w obszarach (-) obniża. 7