QSAR 3D - Wydział Chemiczny

Transkrypt

Jan Mazerski
QSAR w przestrzeni
Katedra Technologii Leków i Biochemii
Wydział Chemiczny
Projektowanie Nowych Chemoterapeutyków

Rozwój metod ustalania struktury
3D dla białek i ich kompleksów.
XV. QSAR 3D

Modelowanie molekularne pozwala na
obliczenie najbardziej prawdopodobnej
struktury 3D ligandów.
Gdańsk
Dopasowanie I
Dopasowanie I

Warunkiem dużej aktywności jest możliwie ścisłe dopasowanie
ligandu do miejsca receptorowego w celu molekularnym
Warunkiem dużej aktywności jest możliwie
ścisłe dopasowanie ligandu do miejsca
receptorowego w celu molekularnym
Czy znając strukturę miejsca receptorowego można zaprojektować strukturę
wiążącego się w nim ligandu ?
?
Dopasowanie II
Zgodność oddziaływań

Dopasowanie dotyczy nie tylko zgodności kształtu (pozytyw - negatyw), ale
również zgodności oddziaływań.
Czy dysponując serią ligandów o zróżnicowanym powinowactwie można
zaprojektować strukturę „lepszego” ligandu ?

Każda cząsteczka generuje
wokół siebie pole sił danego
typu oddziaływań.
1
Dopasowanie polowe
Pola wektorowe i skalarne
Warunkiem dużej aktywności jest możliwie ścisłe dopasowanie
wszystkich oddziaływań polowych ligandu z oddziaływaniami polowymi
miejsca receptorowego.

Znamy dwa typy pól:
¾ pola wektorowe – w każdym punkcie pola zdefiniowany jest
wektor
Jak opisać pole oddziaływania ?
¾ pola skalarne – w każdym punkcie pola zdefiniowana jest
wielkość skalarna: liczba

Jakie typy oddziaływań uwzględnić ?

Pola wektorowe wymagają 3 razy więcej danych.
Pole oddziaływań
Opis pola
Trwałość kompleksu ligand-receptor zależy od energii oddziaływań
(wielkość skalarna)

W technikach QSAR 3D korzysta się z pól energii oddziaływań.

Oddziaływań z czym ?

Znamy 2 sposoby opisu pól:
¾
opis analityczny – znana postać funkcji opisującej wartość pola w
dowolnym punkcie przestrzeni
¾
opis tabelaryczny – znane wartości pola w wybranych punktach
przestrzeni, węzłach siatki.

Powszechnie stosuje się obiekty próbne, np. dla oddziaływań
elektrostatycznych jednostkowy ładunek dodatni.

Analityczny opis pola możliwy jest tylko dla prostych, nieskomplikowanych
pól.

Tabelaryczny opis pola jest możliwy dla pól o dowolnym stopniu komplikacji.
Jakość opisu tabelarycznego zależy od gęstości rozmieszczenia węzłów
siatki.
Opis tabelaryczny

Opis tabelaryczny
Liczba zmiennych objaśniających (deskryptorów) dziesiątki lub setki
razy przewyższa liczbę obiektów (ligandów).
Tabelaryczny opis pól generuje ogromne tabele danych:

Liczba zmiennych M:
M = Nw * Np
Nw – liczba węzłów siatki
Np – liczba obiektów próbnych (typów oddziaływań)

Należy dokonać racjonalnej redukcji wymiarowości zadania – analiza
czynników.
14 x 11 x 7 = 1078 węzłów siatki dla każdej cząsteczki
2
Opis pola a aktywność biologiczna
Korzyści z modelu zależności
Aby powiązać aktywność biologiczną związku z generowanymi
przez ten związek polami oddziaływań należy stworzyć wielowymiarowy
model zależności.

¾ do przewidywania aktywność nowych związków przed ich
zsyntetyzowaniem
Wymaga to:
¾
Poprawny model zależności można wykorzystać dwojako:
¾
do uzyskania informacji o przestrzennym rozmieszczeniu korzystnych i
niekorzystnych pól oddziaływań
zestawu kilkudziesięciu związków o zróżnicowanej aktywności
¾ dla każdego związku wyznaczenia najbardziej prawdopodobnej
struktury 3D
¾
ustalenia zasad ustawienia związków względem układu współrzędnych
¾
dla każdego związku wyznaczenia wartości pól oddziaływań we
wszystkich węzłach siatki
¾ konstrukcji modelu zależności
¾
oceny zdolności prognostycznych modelu
Metoda CoMFA
CoMFA - założenia
(ang. Conformational Molecular Field Analysis)

Cramer i Milne (1979)
• porównywanie cząsteczek przez dopasowanie wybranych atomów i
generację pól oddziaływań

Za właściwości strukturalne odpowiedzialne są oddziaływania
fizykochemiczne:
Wold (1986)
•
redukcja wymiarowości zadania w przypadku skorelowanych
zmiennych objaśniających – technika PLS
Cramer, Patterson i Bunce (1988)
•
powstanie CoMFA
Van der Waalsa
¾
elektrostatyczne
¾
wiązania wodorowe
¾
oddziaływania hydrofobowe
Etapy metody CoMFA

Metoda CoMFA obejmuje następujące etapy:

Zgromadzenie danych – seria związków o zróżnicowanej aktywności

Ustalenie struktury 3D

Określenie zasad dopasowania związków

Wyznaczenie wartości oddziaływań w węzłach siatki

Konstrukcja modelu regresyjnego

Walidacja modelu

Zastosowanie modelu
¾
¾
¾
Aktywność biologiczna zależy od właściwości strukturalnych liganda.
Dobór serii związków
Seria musi obejmować związki oddziałujące z tym samym celem
molekularnym.

Związki mogą mieć różnorodną budowę chemiczną !

Seria związków powinna zawierać co najmniej kilkadziesiąt związków
różniących się aktywnością o 2 ÷ 3 jednostki logarytmiczne

Z serii należy wydzielić zbiór uczący i zbiór testowy (walidacyjny)
przewidywanie aktywności
wymogi przestrzenne dla planowania nowych ligandów
3
Struktura 3D

Należy możliwie poprawnie ustalić strukturę 3D każdego ligandu.

Metody obliczeniowe:
¾
¾

Struktura 3D – metody obliczeniowe (I)

Mechanika molekularna – poszukiwanie pojedynczej struktury o
najniższej energii (najbardziej prawdopodobnej).
mechanika molekularna:

obliczenia ab initio
metody półempiryczne

modele empiryczne

dynamika molekularna:
Metody doświadczalne:
¾
¾
dyfrakcyjna analiza monokryształu

promieniowanie rentgenowskie

promieniowanie neutronowe
Obliczenia ab initio:
¾
¾
¾
„rozdzielczość” do pojedynczego elektronu
¾
niezbędna duża moc obliczeniowa
¾
ograniczenie do kilkuset elektronów
Struktura 3D – metody obliczeniowe (II)
Struktura 3D – metody obliczeniowe (III)

Obliczenia półempiryczne:
¾
¾
„rozdzielczość” do pojedynczego elektronu
poprawnie wyznacza geometrię i rozkład ładunku elektrycznego
¾
mniejsze zapotrzebowanie na moc obliczeniową
¾
parametryzacja dla typowych grup chemicznych
¾
ograniczenie do kilkuset elektronów walencyjnych
Model empiryczny:
¾
¾
„rozdzielczość” do pojedynczego atomu
¾
małe zapotrzebowanie na moc obliczeniową
¾
¾
potrzebna informacja o ładunkach cząstkowych
¾
ograniczenie do kilkuset atomów (problem minimum globalnego)
poprawnie wyznacza geometrię
Struktura 3D – metody obliczeniowe (IV)
Struktura 3D – metody doświadczalne (I)
Dynamika molekularna – generuje zespół geometrii energetycznie
dopuszczalnych w danej temperaturze.

Model empiryczny:
¾
¾
„rozdzielczość” do pojedynczego atomu
¾
¾
poprawnie wyznacza geometrię
¾
¾
potrzebna informacja o ładunkach cząstkowych
możliwość stosowania do układów zawierających nawet kilkadziesiąt
tysięcy atomów (obecność rozpuszczalnika, biopolimery)
poprawnie wyznacza geometrię i rozkład ładunku elektrycznego
spektroskopia NMR
dowolna budowa chemiczna
Analiza dyfrakcyjna monokryształu .
¾
bezpośrednia informacja o strukturze 3D
¾
bezpośrednia informacja o strukturze 3D
¾
¾
tylko gdy substancja tworzy kryształy
geometria „zamrożona” w sieci krystalicznej
małe zapotrzebowanie na moc obliczeniową
4
Struktura 3D – metody doświadczalne (II)

Siatka przestrzenna

Spektroskopia NMR.
¾
krzywa Carplusa – kąty dwuścienne pomiędzy wodorami wicynalnymi
¾
efekt Overhausera – bliskość przestrzenna dwóch atomów wodoru
¾
modelowanie molekularne – geometria spełniająca powyższe wymogi
¾
uśredniona struktura w roztworze
Rozmiar oczek siatki determinuje:
¾
¾
szczegółowość opisu oddziaływań
liczbę zmiennych objaśniających
14 x 11 x 7 = 1078 węzłów
siatki dla każdej cząsteczki

Niezbędny jest racjonalny kompromis !

Dla małocząsteczkowych ligandów rozmiar oczka zbliżony do długości
wiązania.
Orientacja ligandów

Właściwa orientacja ligandów ma kluczowe znaczenie.

Błąd na tym etapie rzutuje na wynik całej analizy.

Kierunki wiązań wodorowych:

Przy ustalaniu reguł orientacji ważniejsza jest zgodność oddziaływań niż
nakładanie się elementów struktury chemicznej.

Słaba zgodność !
Etap bardzo subiektywny – wymaga dużej praktyki.
Wykonajmy obrót wokół
wiązania C-R

Oddziaływania polowe
W każdym węźle siatki należy teraz wyznaczyć energię oddziaływań
z obiektami próbnymi.
Kierunki wiązań wodorowych:

Duża zgodność !
Do każdego typu oddziaływań zaproponowano odpowiednie obiekty próbne:
¾
oddziaływania elektrostatyczne – H+
¾
oddziaływania steryczne – CH3
¾
oddziaływania hydrofobowe – H2O
¾
donorowe wiązania wodorowe – O=
¾
akceptorowe wiązania wodorowe – HO
5
Redukcja liczby zmiennych
PCA - przykład
Liczba zmiennych objaśniających (deskryptorów) dziesiątki lub setki
razy przewyższa liczbę obiektów (ligandów).

30 pochodnych benzamidu oraz naftylamidu nałożonych na siebie:

Obszary w ramkach mają duże udziały w kolejnych głównych składowych.
Należy dokonać redukcji liczby zmiennych – analiza czynników.
¾
analiza głównych składowych - PCA
¾
cząstkowa metoda najmniejszych kwadratów - PLS
Analiza czynników - PCA
Analiza czynników - PLS
Kolejne główne składowe ekstrahują informację wspólną zawartą w
tysiącach zmiennych.
Kolejne czynniki PLS ekstrahują informację wspólną najsilniej
skorelowaną z aktywnością biologiczną.
Do wyekstrahowania większości informacji wspólnej potrzeba zwykle od 10
do 20 głównych składowych.

Wystarcza zwykle nie więcej niż 5 czynników dla zbudowania poprawnego
modelu regresyjnego.

Główne składowe traktowane są jako zmienne objaśniające w modelu
regresyjnym - model PCR.

Tylko niektóre główne składowe skorelowane są z aktywnością biologiczną –
metoda odrzucania.

Model regresyjny tworzony jest podczas ekstrakcji informacji.

Metoda PLS jest czynnikowym odpowiednikiem metody dołączania.
Dobór liczby czynników
Walidacja modelu
Kluczowe jest poprawne ustalenie liczby czynników (głównych
składowych) w modelu regresyjnym.
Do klasycznej walidacji modelu regresyjnego potrzebny jest zbiór
testowy (walidacyjny).
Związki ze zbioru testowego powinny mieć właściwości zbliżone do związków
ze zbioru uczącego (interpolacja).
Ze wzrostem liczby czynników wzrasta jakość dopasowania modelu, ale czy
wzrasta jakość prognozy ?

Można dokonać walidacji modelu bez zbioru testowego – technika crossvalidation.
¾ usuwamy tymczasowo ze zbioru uczącego 1 związek
¾ na podstawie pozostałych N-1 związków budujemy model
¾ przewidujemy aktywność usuniętego związku i porównujemy z
aktywnością zmierzoną
Miernik jakości prognozy – współczynnik walidacji:
⎡ ∑ (y i − ŷ ip )2 ⎤
Q 2 = ⎢1 −
∗ 100%
2 ⎥
∑ (yi − y ) ⎦⎥
⎣⎢
Liczba związków w zbiorze testowym nie może być za mała ( >10).
Miernik jakości dopasowania – współczynnik determinacji:
⎡ ∑ (y i − ŷ i )2 ⎤
R 2 = ⎢1 −
∗ 100%
2 ⎥
⎣⎢ ∑ (y i − y ) ⎦⎥
Informacja wspólna nieskorelowana z aktywnością zostaje pominięta.

Przywracamy związek do zbioru uczącego i obliczenia powtarzamy po
usunięciu innego związku.
6
Walidacja modelu - przykład
Walidacja modelu - przykład

30 pochodnych benzamidu oraz naftylamidu tworzy zbiór uczący.

Związki te opisane są przy pomocy 25 110 deskryptorów.

Zbiór testowy zawiera 21 pochodnych tego samego typu.

Do budowy modelu regresyjnego zastosowano metodę PLS.

Do budowy modelu regresyjnego zastosowano metodę PLS.
n
R2(X)
R2(y)
Q2cv
Q2zt
n
R2(X)
R2(y)
Q2cv
1
7
48
39
18
1
7
48
39
18
2
12
58
43
19
2
12
58
43
19
Q2zt
3
15
64
45
29
3
15
64
45
29
4
17
73
51
34
4
17
73
51
34
5
18
76
34
31
5
18
76
34
31
Model regresyjny PLS
Model adekwatny
Przy planowaniu syntezy nowych pochodnych należy korzystać tylko
z modeli adekwatnych.

Obszary „wrażliwe” na zawadę przestrzenną:
Obecność podstawników w obszarach (+) zwiększa aktywność, a w
obszarach (-) obniża.
7

QSAR 3D - Wydział Chemiczny

Transkrypt

Podobne dokumenty

Tematyka zajęć Klubu

Nr wniosku: 185784, nr raportu: 14149. Kierownik (z rap.): prof. dr

29. Wpływ oddziaływań środowiskach na rozwój dziecka w wieku

Centrum Pomocy Psychologicznej i Psychoterapii w

Drukuj stronę produktu

Prawa zachowania a oddziaływanie pomiędzy kwarkami i leptonami

Maura Malińska Wydział Chemii, Uniwersytet Warszawski