QSAR 3D - Wydział Chemiczny

Transkrypt

QSAR 3D - Wydział Chemiczny
Jan Mazerski
QSAR w przestrzeni
Katedra Technologii Leków i Biochemii
Wydział Chemiczny
Projektowanie Nowych Chemoterapeutyków
™
Rozwój metod ustalania struktury
3D dla białek i ich kompleksów.
XV. QSAR 3D
™
Modelowanie molekularne pozwala na
obliczenie najbardziej prawdopodobnej
struktury 3D ligandów.
Gdańsk
Dopasowanie I
Dopasowanie I
™
Warunkiem dużej aktywności jest możliwie ścisłe dopasowanie
ligandu do miejsca receptorowego w celu molekularnym
™ Warunkiem dużej aktywności jest możliwie
ścisłe dopasowanie ligandu do miejsca
receptorowego w celu molekularnym
™ Czy znając strukturę miejsca receptorowego można zaprojektować strukturę
wiążącego się w nim ligandu ?
?
Dopasowanie II
Zgodność oddziaływań
™ Warunkiem dużej aktywności jest możliwie
ścisłe dopasowanie ligandu do miejsca
receptorowego w celu molekularnym
™ Warunkiem dużej aktywności jest możliwie
ścisłe dopasowanie ligandu do miejsca
receptorowego w celu molekularnym
™
™ Dopasowanie dotyczy nie tylko zgodności kształtu (pozytyw - negatyw), ale
również zgodności oddziaływań.
Czy dysponując serią ligandów o zróżnicowanym powinowactwie można
zaprojektować strukturę „lepszego” ligandu ?
™
Każda cząsteczka generuje
wokół siebie pole sił danego
typu oddziaływań.
1
Dopasowanie polowe
Pola wektorowe i skalarne
™ Warunkiem dużej aktywności jest możliwie ścisłe dopasowanie
wszystkich oddziaływań polowych ligandu z oddziaływaniami polowymi
miejsca receptorowego.
™
™
Znamy dwa typy pól:
¾ pola wektorowe – w każdym punkcie pola zdefiniowany jest
wektor
Jak opisać pole oddziaływania ?
¾ pola skalarne – w każdym punkcie pola zdefiniowana jest
wielkość skalarna: liczba
™
Jakie typy oddziaływań uwzględnić ?
™
Pola wektorowe wymagają 3 razy więcej danych.
Pole oddziaływań
Opis pola
™ Trwałość kompleksu ligand-receptor zależy od energii oddziaływań
(wielkość skalarna)
™
W technikach QSAR 3D korzysta się z pól energii oddziaływań.
™
Oddziaływań z czym ?
™
Znamy 2 sposoby opisu pól:
¾
opis analityczny – znana postać funkcji opisującej wartość pola w
dowolnym punkcie przestrzeni
¾
opis tabelaryczny – znane wartości pola w wybranych punktach
przestrzeni, węzłach siatki.
™
Powszechnie stosuje się obiekty próbne, np. dla oddziaływań
elektrostatycznych jednostkowy ładunek dodatni.
™
Analityczny opis pola możliwy jest tylko dla prostych, nieskomplikowanych
pól.
™
Tabelaryczny opis pola jest możliwy dla pól o dowolnym stopniu komplikacji.
™ Jakość opisu tabelarycznego zależy od gęstości rozmieszczenia węzłów
siatki.
Opis tabelaryczny
™
Opis tabelaryczny
™ Liczba zmiennych objaśniających (deskryptorów) dziesiątki lub setki
razy przewyższa liczbę obiektów (ligandów).
Tabelaryczny opis pól generuje ogromne tabele danych:
™
Liczba zmiennych M:
M = Nw * Np
Nw – liczba węzłów siatki
Np – liczba obiektów próbnych (typów oddziaływań)
™
Należy dokonać racjonalnej redukcji wymiarowości zadania – analiza
czynników.
14 x 11 x 7 = 1078 węzłów siatki dla każdej cząsteczki
2
Opis pola a aktywność biologiczna
Korzyści z modelu zależności
™ Aby powiązać aktywność biologiczną związku z generowanymi
przez ten związek polami oddziaływań należy stworzyć wielowymiarowy
model zależności.
™
™
¾ do przewidywania aktywność nowych związków przed ich
zsyntetyzowaniem
Wymaga to:
¾
Poprawny model zależności można wykorzystać dwojako:
¾
do uzyskania informacji o przestrzennym rozmieszczeniu korzystnych i
niekorzystnych pól oddziaływań
zestawu kilkudziesięciu związków o zróżnicowanej aktywności
¾ dla każdego związku wyznaczenia najbardziej prawdopodobnej
struktury 3D
¾
ustalenia zasad ustawienia związków względem układu współrzędnych
¾
dla każdego związku wyznaczenia wartości pól oddziaływań we
wszystkich węzłach siatki
¾ konstrukcji modelu zależności
¾
oceny zdolności prognostycznych modelu
Metoda CoMFA
CoMFA - założenia
(ang. Conformational Molecular Field Analysis)
™
Cramer i Milne (1979)
• porównywanie cząsteczek przez dopasowanie wybranych atomów i
generację pól oddziaływań
™
Za właściwości strukturalne odpowiedzialne są oddziaływania
fizykochemiczne:
Wold (1986)
•
redukcja wymiarowości zadania w przypadku skorelowanych
zmiennych objaśniających – technika PLS
Cramer, Patterson i Bunce (1988)
•
powstanie CoMFA
Van der Waalsa
¾
elektrostatyczne
¾
wiązania wodorowe
¾
oddziaływania hydrofobowe
Etapy metody CoMFA
™
Metoda CoMFA obejmuje następujące etapy:
™
Zgromadzenie danych – seria związków o zróżnicowanej aktywności
™
Ustalenie struktury 3D
™
Określenie zasad dopasowania związków
™
Wyznaczenie wartości oddziaływań w węzłach siatki
™
Konstrukcja modelu regresyjnego
™
Walidacja modelu
™
Zastosowanie modelu
¾
¾
¾
Aktywność biologiczna zależy od właściwości strukturalnych liganda.
Dobór serii związków
™ Seria musi obejmować związki oddziałujące z tym samym celem
molekularnym.
™
Związki mogą mieć różnorodną budowę chemiczną !
™
Seria związków powinna zawierać co najmniej kilkadziesiąt związków
różniących się aktywnością o 2 ÷ 3 jednostki logarytmiczne
™
Z serii należy wydzielić zbiór uczący i zbiór testowy (walidacyjny)
przewidywanie aktywności
wymogi przestrzenne dla planowania nowych ligandów
3
Struktura 3D
™
Należy możliwie poprawnie ustalić strukturę 3D każdego ligandu.
™
Metody obliczeniowe:
¾
¾
™
Struktura 3D – metody obliczeniowe (I)
™
Mechanika molekularna – poszukiwanie pojedynczej struktury o
najniższej energii (najbardziej prawdopodobnej).
mechanika molekularna:
ƒ
ƒ
obliczenia ab initio
metody półempiryczne
ƒ
modele empiryczne
™
dynamika molekularna:
Metody doświadczalne:
¾
¾
dyfrakcyjna analiza monokryształu
ƒ
promieniowanie rentgenowskie
ƒ
promieniowanie neutronowe
Obliczenia ab initio:
¾
¾
¾
„rozdzielczość” do pojedynczego elektronu
¾
niezbędna duża moc obliczeniowa
¾
ograniczenie do kilkuset elektronów
Struktura 3D – metody obliczeniowe (II)
Struktura 3D – metody obliczeniowe (III)
™
Mechanika molekularna – poszukiwanie pojedynczej struktury o
najniższej energii (najbardziej prawdopodobnej).
™
™
™
Mechanika molekularna – poszukiwanie pojedynczej struktury o
najniższej energii (najbardziej prawdopodobnej).
Obliczenia półempiryczne:
¾
¾
„rozdzielczość” do pojedynczego elektronu
poprawnie wyznacza geometrię i rozkład ładunku elektrycznego
¾
mniejsze zapotrzebowanie na moc obliczeniową
¾
parametryzacja dla typowych grup chemicznych
¾
ograniczenie do kilkuset elektronów walencyjnych
Model empiryczny:
¾
¾
„rozdzielczość” do pojedynczego atomu
¾
małe zapotrzebowanie na moc obliczeniową
¾
parametryzacja dla typowych grup chemicznych
¾
potrzebna informacja o ładunkach cząstkowych
¾
ograniczenie do kilkuset atomów (problem minimum globalnego)
poprawnie wyznacza geometrię
Struktura 3D – metody obliczeniowe (IV)
Struktura 3D – metody doświadczalne (I)
™ Dynamika molekularna – generuje zespół geometrii energetycznie
dopuszczalnych w danej temperaturze.
™
™
Model empiryczny:
¾
¾
„rozdzielczość” do pojedynczego atomu
¾
¾
poprawnie wyznacza geometrię
¾
parametryzacja dla typowych grup chemicznych
¾
potrzebna informacja o ładunkach cząstkowych
możliwość stosowania do układów zawierających nawet kilkadziesiąt
tysięcy atomów (obecność rozpuszczalnika, biopolimery)
poprawnie wyznacza geometrię i rozkład ładunku elektrycznego
spektroskopia NMR
dowolna budowa chemiczna
Analiza dyfrakcyjna monokryształu .
¾
bezpośrednia informacja o strukturze 3D
¾
bezpośrednia informacja o strukturze 3D
¾
¾
tylko gdy substancja tworzy kryształy
geometria „zamrożona” w sieci krystalicznej
małe zapotrzebowanie na moc obliczeniową
4
Struktura 3D – metody doświadczalne (II)
™
Siatka przestrzenna
™
Spektroskopia NMR.
¾
krzywa Carplusa – kąty dwuścienne pomiędzy wodorami wicynalnymi
¾
efekt Overhausera – bliskość przestrzenna dwóch atomów wodoru
¾
modelowanie molekularne – geometria spełniająca powyższe wymogi
¾
uśredniona struktura w roztworze
Rozmiar oczek siatki determinuje:
¾
¾
szczegółowość opisu oddziaływań
liczbę zmiennych objaśniających
14 x 11 x 7 = 1078 węzłów
siatki dla każdej cząsteczki
™
Niezbędny jest racjonalny kompromis !
™
Dla małocząsteczkowych ligandów rozmiar oczka zbliżony do długości
wiązania.
Orientacja ligandów
™
Właściwa orientacja ligandów ma kluczowe znaczenie.
™
Błąd na tym etapie rzutuje na wynik całej analizy.
Orientacja ligandów
™
Kierunki wiązań wodorowych:
™
Przy ustalaniu reguł orientacji ważniejsza jest zgodność oddziaływań niż
nakładanie się elementów struktury chemicznej.
™
Słaba zgodność !
Etap bardzo subiektywny – wymaga dużej praktyki.
Wykonajmy obrót wokół
wiązania C-R
Orientacja ligandów
™
Oddziaływania polowe
™ W każdym węźle siatki należy teraz wyznaczyć energię oddziaływań
z obiektami próbnymi.
Kierunki wiązań wodorowych:
™
Duża zgodność !
Do każdego typu oddziaływań zaproponowano odpowiednie obiekty próbne:
¾
oddziaływania elektrostatyczne – H+
¾
oddziaływania steryczne – CH3
¾
oddziaływania hydrofobowe – H2O
¾
donorowe wiązania wodorowe – O=
¾
akceptorowe wiązania wodorowe – HO
5
Redukcja liczby zmiennych
PCA - przykład
™ Liczba zmiennych objaśniających (deskryptorów) dziesiątki lub setki
razy przewyższa liczbę obiektów (ligandów).
™
™
30 pochodnych benzamidu oraz naftylamidu nałożonych na siebie:
™
Obszary w ramkach mają duże udziały w kolejnych głównych składowych.
Należy dokonać redukcji liczby zmiennych – analiza czynników.
¾
analiza głównych składowych - PCA
¾
cząstkowa metoda najmniejszych kwadratów - PLS
Analiza czynników - PCA
Analiza czynników - PLS
™ Kolejne główne składowe ekstrahują informację wspólną zawartą w
tysiącach zmiennych.
™ Kolejne czynniki PLS ekstrahują informację wspólną najsilniej
skorelowaną z aktywnością biologiczną.
™ Do wyekstrahowania większości informacji wspólnej potrzeba zwykle od 10
do 20 głównych składowych.
™
™ Wystarcza zwykle nie więcej niż 5 czynników dla zbudowania poprawnego
modelu regresyjnego.
™
Główne składowe traktowane są jako zmienne objaśniające w modelu
regresyjnym - model PCR.
™
Tylko niektóre główne składowe skorelowane są z aktywnością biologiczną –
metoda odrzucania.
™
Model regresyjny tworzony jest podczas ekstrakcji informacji.
™
Metoda PLS jest czynnikowym odpowiednikiem metody dołączania.
Dobór liczby czynników
Walidacja modelu
™ Kluczowe jest poprawne ustalenie liczby czynników (głównych
składowych) w modelu regresyjnym.
™ Do klasycznej walidacji modelu regresyjnego potrzebny jest zbiór
testowy (walidacyjny).
™ Związki ze zbioru testowego powinny mieć właściwości zbliżone do związków
ze zbioru uczącego (interpolacja).
™ Ze wzrostem liczby czynników wzrasta jakość dopasowania modelu, ale czy
wzrasta jakość prognozy ?
™
™
™
™
Można dokonać walidacji modelu bez zbioru testowego – technika crossvalidation.
¾ usuwamy tymczasowo ze zbioru uczącego 1 związek
¾ na podstawie pozostałych N-1 związków budujemy model
¾ przewidujemy aktywność usuniętego związku i porównujemy z
aktywnością zmierzoną
Miernik jakości prognozy – współczynnik walidacji:
⎡ ∑ (y i − ŷ ip )2 ⎤
Q 2 = ⎢1 −
∗ 100%
2 ⎥
∑ (yi − y ) ⎦⎥
⎣⎢
Liczba związków w zbiorze testowym nie może być za mała ( >10).
Miernik jakości dopasowania – współczynnik determinacji:
⎡ ∑ (y i − ŷ i )2 ⎤
R 2 = ⎢1 −
∗ 100%
2 ⎥
⎣⎢ ∑ (y i − y ) ⎦⎥
Informacja wspólna nieskorelowana z aktywnością zostaje pominięta.
™
Przywracamy związek do zbioru uczącego i obliczenia powtarzamy po
usunięciu innego związku.
6
Walidacja modelu - przykład
Walidacja modelu - przykład
™
30 pochodnych benzamidu oraz naftylamidu tworzy zbiór uczący.
™
30 pochodnych benzamidu oraz naftylamidu tworzy zbiór uczący.
™
Związki te opisane są przy pomocy 25 110 deskryptorów.
™
Związki te opisane są przy pomocy 25 110 deskryptorów.
™
Zbiór testowy zawiera 21 pochodnych tego samego typu.
™
Zbiór testowy zawiera 21 pochodnych tego samego typu.
™
Do budowy modelu regresyjnego zastosowano metodę PLS.
™
Do budowy modelu regresyjnego zastosowano metodę PLS.
n
R2(X)
R2(y)
Q2cv
Q2zt
n
R2(X)
R2(y)
Q2cv
1
7
48
39
18
1
7
48
39
18
2
12
58
43
19
2
12
58
43
19
Q2zt
3
15
64
45
29
3
15
64
45
29
4
17
73
51
34
4
17
73
51
34
5
18
76
34
31
5
18
76
34
31
Model regresyjny PLS
Model adekwatny
™ Przy planowaniu syntezy nowych pochodnych należy korzystać tylko
z modeli adekwatnych.
™
Obszary „wrażliwe” na zawadę przestrzenną:
™ Obecność podstawników w obszarach (+) zwiększa aktywność, a w
obszarach (-) obniża.
7

Podobne dokumenty