Część IV
Transkrypt
Część IV
Część IV: Klasyczne metody QSAR 7. Ilościowe zależności struktura chemiczna – aktywność biologiczna Rozwój ilościowych metod określania aktywności biologicznej skłonił wielu badaczy do poszukiwania metod ilościowej analizy uzyskanych wyników. Tak powstały w pierwszej połowie XX w.: ∗ farmakometria ∗ farmakokinetyka ∗ farmakodynamika. Jednakże próby ilościowego powiązania budowy chemicznej z aktywnością biologiczną przez szereg dziesięcioleci nie dawały zadawalających wyników. Wydaje się, że główna przeszkoda miała charakter psychologiczny: jak wyrazić ilościowo jakościowe przecież informacje o budowie chemicznej cząsteczki. Pomoc przyszła ze strony teoretycznej chemii organicznej: prace Hammeta i Tafta nad wpływem podstawników na szybkość przebiegu reakcji chemicznych zapoczątkowały nowe spojrzenie na opis budowy chemicznej. W opisie tym struktura chemiczna cząsteczki dzieli się na: ∗ stały w danej serii związków rdzeń ∗ fragmenty zmienne traktowane jako podstawniki rdzenia. Pozwala to na ilościowy opis cząsteczki poprzez podanie wpływu podstawników. Z drugiej strony, nie do przecenienia jest również zachodzący w tym czasie postęp w możliwościach technicznych: rozwój i dostępność komputerów umożliwił wykorzystanie różnorodnych metod numerycznych nie stosowanych wcześniej ze względu na ich pracochłonność. Na początku lat '60 zakiełkowała nowa, multidyscyplinarna gałąź wiedzy: ilościowe zależności pomiędzy strukturą chemiczną i aktywnością biologiczną (QSAR). W ramach QSAR wykorzystywana jest wiedza z wielu tradycyjnych dziedzin nauki: ∗ chemia organiczna ∗ chemia fizyczna ∗ biochemia ∗ farmakologia i farmakometria ∗ statystyka matematyczna ∗ metody numeryczne ∗ techniki komputerowe. Metody QSAR przez ostatnie 30 lat rozgałęziły się, rozrosły, okrzepły i w tej chwili zajmują istotne miejsce w poszukiwaniu i projektowaniu nowych leków, w tym również chemoterapeutyków. Dobitnie świadczy o tym ilość publikacji naukowych z tej dziedziny. W ostatnich latach wiele z nich jest finansowanych przez liczące się ośrodki naukowe lub duże firmy farmaceutyczne. Wynika to z faktu, że metody ilościowego opisu zależności struktura - aktywność posiadają zdolność do dostarczania informacji dwojakiej natury. Z jednej strony uzyskane zależności traktowane być mogą jako modele matematyczne pewnych procesów, którym podlegają związki biologicznie czynne. Stanowią więc wygodną metodę falsyfikacji pewnych teorii czy hipotez. Przyczynia się to do istotnego przyspieszenia poznania wielu bardzo skomplikowanych zjawisk zachodzących w organizmach żywych. Oprócz tej roli poznawczej metody QSAR mają również funkcje prognostyczne: pozwalają oszacować aktywność biologiczną związków na podstawie ich właściwości fizykochemicznych, a czasami tylko na podstawie wzoru chemicznego, nawet bez konieczności ich syntetyzowania. Przyczynia się to do znacznego przyspieszenia i potanienia poszukiwania i projektowania nowych leków. W chwili obecnej metody QSAR przestały już być wyłącznie ciekawostką teoretyczną, a stały się użytecznym narzędziem o szerokich możliwościach. Metody QSAR wykorzystują wiele, czasami dosyć zaawansowanych, metod numerycznych. Celem naszego wykładu jest zapoznanie Państwa z możliwościami wykorzystania tych metod przy projektowaniu nowych chemoterapeutyków, a nie ze stosowanymi metodami numerycznymi. Jednakże nie będzie możliwe całkowite pominięcie problemów numerycznych. Ograniczymy się jednak w takich przypadkach do omówienia założeń niezbędnych dla poprawnego doboru metodyki oraz do poglądowych interpretacji sposobu działania algorytmów. Nacisk położony będzie raczej na możliwe zastosowania poszczególnych technik oraz sposoby prawidłowej interpretacji wyników obliczeń. W metodach QSAR spotkać można trzy podstawowe sposoby opisu aktywności biologicznej: ∗ skala nominalna: w większości przypadków podział badanych związków na dwie klasy, np. związki aktywne i nieaktywne. W bardziej zaawansowanych metodach istnieje możliwość zastosowania większej liczby klas. ∗ pojedynczy, ilościowy test aktywności: zwykle w formie ujemnego logarytmu ze stężenia wywołującego standardową odpowiedź biologiczną. Z wykorzystaniem tego opisu powstały pierwsze metody QSAR. ∗ bateria testów ilościowych: jednoczesne zastosowanie wielu testów pozwala na pełniejszy opis zależności. Stwarza jednak również określone problemy obliczeniowe. Również opis struktury związków dokonany być może na wiele sposobów: ∗ jakościowy opis podstawników ∗ ilościowy opis właściwości fizykochemicznych całego związku. Można tu rozróżnić przypadek ograniczonego zestawu właściwości oraz wersję z baterią właściwości. ∗ ilościowe wielkości uzyskane z metod chemii obliczeniowej, np. rzędy wiązań lub ładunki cząstkowe ∗ jakościowy opis elementów struktury ∗ struktura trójwymiarowa cząsteczki, ewentualnie z opisem rozkładu pola elektrostatycznego generowanego przez cząsteczkę W zależności od sposobu opisu aktywności biologicznej i opisu budowy chemicznej stosowane są odmienne techniki analizy ilościowych zależności struktura - aktywność. Przed przystąpieniem do ich systematycznego omawiania celowe jest jednak zapoznanie się z zakresem ich zastosowań, które ilustruje poniższy schemat (Rys.7.1.). 1 Część IV: Klasyczne metody QSAR Aktywność biologiczna Opis struktury jakościowy podstawnik właściw. fiz.chem. pojedyn cze bateri elementy struktury jakościowa dwuklaso ilościowa wieloklaso SAR Rozpoznawanie obrazów z nauczycielem struktura trójwymiarowa pojedyncze nRMO bateria F-W Metoda głównych m. Hanscha składowych i regresja wielokrotna Rozpoznawanie obrazów bez nauczyciela Rys.7.1: Zakres typowych zastosowań różnych technik opisu zależności struktura - aktywność W przypadku nominalnej skali aktywności biologicznej (klasyfikacja aktywne - nieaktywne) stosuje się zwykle tylko najprostszy sposób opisu budowy chemicznej: jakościowy opis podstawników. W sytuacji takiej zastosowanie ilościowych form opisu wydaje się być dosyć trudne. Powszechnie za to stosuje się opisy jakościowe czyli metodę SAR. Nieregresyjne metody optymalizacji struktury (nRMO) znajdują w zasadzie zastosowanie w przypadku pojedynczych, ilościowych testów aktywności i jakościowym opisie struktury, chociaż niektóre z nich mogą być również zastosowane w przypadku jakościowego, wieloklasowego opisu aktywności biologicznej. W przypadku pojedynczych testów aktywności szerokie zastosowanie znajdują metody regresyjne. Metoda Free-Wilsona (F-W), jedna z dwóch pierwszych technik QSAR, znajduje zastosowanie w przypadku jakościowego opisu struktury chemicznej poprzez informacje o obecności określonych podstawników w określonych miejscach rdzenia cząsteczki. Druga z najdłużej stosowanych metod QSAR, metoda Hanscha, wymaga ilościowego opisu właściwości fizykochemicznych analizowanych związków. Do klasyfikacji i określania podobieństwa badanych związków wykorzystuje się techniki matematyczne zwane "rozpoznawaniem obrazów". W przypadku, gdy podział na klasy znany jest przed wykonaniem obliczeń mamy do czynienia z techniką "z nauczycielem", a zadanie sprowadza się do określenia reguł klasyfikacji. Gdy podział na grupy nie jest narzucony to odpowiednie techniki określane są mianem "bez nauczyciele" i służą do określenia podobieństwa pomiędzy poszczególnymi związkami należącymi do analizowanego zbioru. Celem metod bez nauczyciele jest często wykrycie tendencji pewnych elementów zbioru związków do tworzenia mniej lub bardziej spójnych grup czy klas. W przypadku gdy choć jeden z opisów (aktywności lub struktury) opiera się na bardzo licznym zestawie wielkości (baterii testów) zwykłe metody regresyjne zawodzą. Stosuje się wtedy technikę zwaną analizą głównych składowych dla zredukowania liczby wielkości opisujących. Po takiej redukcji 2 wymiarowości problemu stosuje się typowe metody regresji wielokrotnej. 8. Metody regresyjne. Załóżmy, że zmienna niezależna y (w metodach QSAR jest nią aktywność biologiczna) może być z rozsądnym przybliżeniem wyrażona jako kombinacja liniowa k zmiennych zależnych z: y j ≈ ŷ j = a 0 + a1z1 j + a 2 z 2 j + a 3z 3 j + ... + a k z kj Mamy wtedy do czynienia z najprostszym przypadkiem metody regresyjnej tzw. r e g r e s j ą liniową. Występujące w regresji liniowej współczynniki ai obliczane są z wykorzystaniem zasady m i n i m u m s u m y kwadratów różnic zwanej także metodą najmniejszych kwadratów. Zasada ta daje się wyrazić wzorem: n ( SKR = ∑ ŷ j − y j j=1 ) 2 = min Wartości ai dobierane (obliczane) są tak, aby spełniony był warunek minimum SKR. Jednym z problemów występujących przy analizie regresji jest dobór ilości i rodzaju zmiennych niezależnych z występujących w równaniu regresji. Wymaga się zwykle, aby wszystkie człony równania były statystycznie istotne. Jednym ze sposobów uzyskania równania regresji spełniającego ten wymóg jest zastosowanie tzw. metody o d r z u c a n i a . Obliczenia rozpoczyna się od równania zawierającego wszystkie człony. Po wyznaczeniu współczynników ai określa się ich istotność statystyczną. O ile występują człony nieistotne usuwa się człon najmniej istotny i ponownie wyznacza współczynniki, tym razem już tylko k-1 współczynników. Usuwanie najmniej istotnych członów i obliczanie nowych współczynników powtarza się tak długo, aż wszystkie człony pozostające w równaniu regresji będą statystycznie istotne. Innym wymogiem stawianym prawidłowemu równaniu regresji jest jego istotność jako całości. Najczęściej stosowaną miarą tej istotności jest statystyka F Snedecora. Uzyskanie równania charakteryzującego się wartością F większą od krytycznej wskazuje, że równanie jako całość jest statystycznie wiarygodne i może być użyte do przewidywania wartości zmiennej zależnej (aktywności) na podstawie Część IV: Klasyczne metody QSAR znanych wartości zmiennych niezależnych. Informacje o precyzji obliczania wartości zmiennej zależnej zawarte są w innych wskaźnikach statystycznych obliczanych równolegle z wartościami współczynników. Odchylenie standardowe równania, s, podaje przeciętne odchylenie standardowe prognozowanych wartości zmiennej zależnej. Rzeczywisty błąd prognozowanych wartości zależy nie tylko od jakości równania, ale również od wartości zmiennych niezależnych w prognozowanym punkcie. Jego miarą jest wartość promienia korytarza błędu w danym punkcie. Cenne informacje niesie również współczynnik korelacji równania, r, a szczególnie jego kwadrat zwany współczynnikiem determinacji. Określa on jaki ułamek ogólnej zmienności zmiennej zależnej wyjaśnić można przy pomocy danego równania regresji. Przy pomocy metody najmniejszych kwadratów wyznaczać można nie tylko wartości współczynników w liniowych równaniach regresji, ale również współczynniki w równań regresji krzywoliniowej. Najczęściej spotykanym przykładem takiej regresji jest tzw. regresja wielomianowa. Zmienna zależna opisywana jest w niej równaniem: y j ≈ ŷ j = a 0 + a 1 z j + a 2 z 2j + a 3 z 3j + ... + a k z kj Jeśli w równaniu tym potraktujemy poszczególne potęgi zmiennej z jako zmienne niezależne to otrzymamy typowe równanie regresji liniowej. Tak więc również w przypadku regresji krzywoliniowej zachowują moc omówione powyżej mierniki istotności statystycznej i jakości prognozy. R(t) 600 500 400 300 200 100 0 100 200 300 400 500 600 700 t [C] Rys.8.1: Zależność oporu platyny od temperatury. Zmierzono opór elektryczny cewki platynowej utrzymywanej w stałej temperaturze. Pomiary wykonano w 9 różnych temperaturach w zakresie od -85 do 630°C. Zmierzony opór zmieniał się od ok.100 do ok. 500 mΩ (patrz rysunek obok). Rozkład uzyskanych wyników sugeruje, że zależność może być nieliniowa. Chcąc stworzyć model zależności oporu od temperatury przyjęto model wielomianowy stopnia co najwyżej trzeciego: R (t ) ≈ R̂ (t ) = a 0 + a 1t + a 2 t 2 + a 3 t 3 Nie znamy ani poprawnego stopnia wielomianu, ani wartości współczynników. Spróbujmy zastosować metodę odrzucania (Tab.VIII.1). Tab.VIII.1. Wynik rozwiązania równania trzeciego i współczynnik odchylenie ai standardowe regresji stopnia istotność 0 152,8411 1,04 376,82 1 0,6073 0,014 106,05 2 -0,000063 0,000072 -0,31 3 -0,000000035 0,0000000848 -1,52 s = 0,867 F = 68 612,6 Tab.VIII.2. Wynik rozwiązania równania regresji bez członu sześciennego. i współczynnik odchylenie istotność ai standardowe 0 153,01 0,92 406,35 1 0,6118 0,0087 169,26 2 -0,092 0,016 11,75 s = 0,874 F = 101 243 R = 1,000 Po usunięciu członu sześciennego otrzymujemy równanie o bardzo podobnych charakterystykach statystycznych, z tym, że wszystkie jego człony są statystycznie istotne. ================================================ 8.1. Metoda Free-Wilsona NHR 1 R3 N R2 Rys.8.2: Struktura serii pochodnych akrydyny Przykład 8.1: Zależność regresyjna. -100 Równanie jako całość jest statystycznie bardzo istotne, jednakże człon kwadratowy i sześcienny są nieistotne. Zgodnie z metodą odrzucania usuwamy człon najmniej istotny (w naszym przypadku człon sześcienny) i powtarzamy obliczenia (Tab.VIII.2.). R = 1,000 Rozważmy sytuację, gdy dysponujemy związkiem chemicznym wykazującym interesujący nas rodzaj aktywności biologicznej. Zadanie polega na znalezieniu pochodnej o możliwie wysokiej aktywności. Jeśli z punktu widzenia możliwości syntetycznych istnieje możliwość wprowadzenia różnych podstawników w kilku miejscach cząsteczki, to zastanówmy się ile takich pochodnych może być. Dla przykładu poddajmy analizie serię pochodnych akrydyny przedstawioną na Rys.8.2 przyjmując, że modyfikować możemy: ∗ łańcuch boczny w pozycji 9 (4 różne podstawniki) ∗ lewy pierścień (3 podstawniki w czterech pozycjach 1÷4) ∗ prawy pierścień (3 podstawniki w czterech pozycjach 5÷8). Liczba różnych pochodnych wynosi w tej sytuacji: N = 4 × 34 × 34 = 26 244 Każdy związek należałoby zsyntetyzować i przetestować biologicznie. Jest to ogromna praca wymagająca kolosalnych nakładów. Pojawia się więc pytanie, czy nie dałoby się zmniejszyć liczby związków dzięki zastosowaniu jakichś reguł wyboru. Oczywiście można coś takiego zastosować. Dobór związków opierać się może na szeregu kryteriach: od zupełnej losowości po rozważania oparte na regułach teoretycznej chemii organicznej. Zawsze jednak stracimy część informacji i nie będziemy do końca pewni czy nie pominęliśmy najlepszej pochodnej. Istnieje wszakże pewien sposób pozwalający zminimalizować ryzyko pominięcia najlepszych pochodnych. Można mianowicie zbudować i zweryfikować model zależności aktywności biologicznej od obecności lub braku określonego podstawnika w określonej pozycji w cząsteczce. Przez wiele lat wydawało się jednak, że model taki musi zawierać bardzo skomplikowane i niepoznane dotychczas zależności funkcyjne. Jednakże w roku 1964 ukazała się publikacja Free i Wilsona w której autorzy zaproponowali bardzo prosty model. Przyjęli mianowicie założenie, że dany podstawnik w danym miejscu cząsteczki ma na aktywność biologiczną zawsze taki sam wpływ niezależnie od obecności innych podstawników w innych miejscach. 3 Część IV: Klasyczne metody QSAR W przypadku ogólnym założenie takie nie wytrzymuje próby weryfikacji: znamy wiele przykładów gdy podstawniki wzmacniają lub znoszą swój wpływ w zależności od wzajemnego usytuowania. Widać to szczególnie wyrażnie w przypadku pochodnych związków aromatycznych: dwa, odpowiednio dobrane podstawniki w pozycji orto mogą tworzyć dla siebie wzajemnie zawadę przestrzenną; z koleji podstawniki w pozycji para mogą wywierać na siebie wpływ poprzez efekty indukcyjne i/lub rezonansowe Znane są jednak również bardzo liczne przykłady, gdy efekty podstawników po prostu sumują się. Metoda zaproponowana przez Free i Wilsona nie jest więc podejściem uniwersalnym i wymaga w każdym indywidualnym przypadku potwierdzenia słuszności założenia o a d d y t y w n o ś c i w p ł y w u podstawników. Przyjmując słuszność tego założenia możemy zbudować matematyczny model analizowanej zależności: A i = ∑ a j ⋅ X ij + µ o j gdzie: i - numer związku j - numer podstawnikopozycji Ai - aktywność i-tego związku aj - wkład podstawnikopozycji do aktywności Xij - obecność podstawnikopozycji j w związku i Wyjaśnienia wymaga określenie podstawnikopozycja. Ponieważ ten sam podstawnik umieszczony w różnych pozycjach może wywierać różny wpływ na aktywność, więc należy określić niezależnie wpływ danego podstawnika w każdej z pozycji w której może występować. Takie połączenie podstawnika z pozycją w strukturze bazowej w której występuje nazywamy właśnie podstawnikopozycją. W przypadku analizowanych wcześniej pochodnych akrydyny możemy mieć np. sytuację przedstawioną w Tab.VIII.3 Tab.VIII.3: Przykładowy zestaw podstawników jakie wystąpić mogą w pochodnych akrydyny (Rys.8.3) i odpowiadające im podstawnikopozycje. pozycja podstawnik j pozycja podstawnik j pozycja podstawnik j ł.boczny C2H4NHMe 1 2 NH2 10 5 OH 19 ł.boczny C2H4NMe2 2 3 11 6 Cl 20 ł.boczny C3H6NHMe 3 3 NO2 OMe 12 6 Me 21 ł.boczny C3H6NMe2 4 3 13 6 OH 22 1 5 4 14 7 Cl 23 1 NO2 OMe NH2 NO2 6 4 OMe 15 7 Me 24 1 NH2 7 4 16 7 OH 25 2 NO2 OMe 8 5 NH2 Cl 17 8 Cl 26 9 5 Me 18 8 Me 27 8 OH 28 2 Mamy więc 28 podstawnikopozycji. Rozstrzygnięcia wymaga teraz problem liczby związków jakie należy zsyntetyzować, aby wiarygodnie określić wpływ każdej podstawnikopozycji na aktywność padanych pochodnych. Oddzielnym problemem jest taki dobór syntetyzowanych związków, aby przy danej ich liczbie N otrzymać jak najwięcej, jak najbardziej wiarygodnej informacji o zależnościach struktura - aktywność. Ponieważ model zaproponowany przez Free i Wilsona jest liniowy ze względu na nieznane wartości aj można więc go zidentyfikować (wyznaczyć nieznane wartości parametrów modelu) przy pomocy metody regresyjnej. Bezwzględnie minimalna liczba związków niezbędnych dla jednoznacznego wyznaczenia współczynników modelu wynosi: Nmin = Z + 1 gdzie: Z - liczba podstawnikopozycji. Model izdentyfikowany w oparciu o taki minimalny zestaw związków nie posiada wszakże żadnej zdolności prognostycznej: odtwarza on d o k ł a d n i e (wraz z błędami pomiarowymi) aktywności związków na podstawie których został zidentyfikowany, ale błąd oszacowania aktywności innego związku jest nieokreślony. Dopiero zastosowanie liczby związków większej od Nmin pozwala z jednej strony na wyeliminowanie błędów pomiarowych, a z drugiej na statystyczne oszacowanie przedziału ufności prognozy (korytarza błędu). Ponadto w przypadku n i e z n a c z n y c h odstępstw od wymogu addytywności wpływu podstawników dostatecznie duża liczba związków 4 pozwala na zachowanie rozsądnych zdolności prognostycznych modelu Free-Wilsona. Na podstawie teorii modeli regresyjnych można przyjąć, że dostatecznie dobre modele zależności otrzymuje się w sytuacji gdy Nrzecz jest większe lub równe Nmin + ∆, gdzie wartość ∆ powinna wynosić od 10 do 20. Tak więc w przypadku analizowanych pochodnych akrydyny dla poprawnego zastosowania metody Free-Wilsona należy dysponować serią ok. 50 pochodnych (28 + 1 +20). W pierwszym momencie może się to wydawać dużo, należy jednak pamiętać że budujemy model opisujący aktywność ponad 26 tysięcy związków. Wiedząc już, ile powinna liczyć seria związków niezbędna dla wyznaczenia wpływu podstawnikopozycji należy rozstrzygnąć kwestię które z bardzo licznego zestawu możliwych pochodnych powinny zostać użyte do identyfikacji modelu. Nie ma tu, bo i nie może być, jednoznacznego algorytmu doboru związków. Istnieje za to kilka reguł którym powinien podlegać zbiór pochodnych aby tworzony model miał dobre właściwości prognostyczne. I tak: ∗ każda podstawnikopozycja powinna wystąpić conajmniej w dwóch związkach. Jeszcze korzystniejsze jest gdy występuje w trzech lub czterech związkach. Zaczyna wtedy działać statystyczne uśrednianie przypadkowych błędów wyznaczania aktywności i model nabiera zdolności prognostycznych. ∗ należy unikać związków podstawionych tylko w jednej pozycji. Zbyt duża liczba takich związków utrudnia spełnienie poprzedniej reguły. Jest to wymóg sprzeczny z tendencją obowiązującą w badaniach SAR w których dąży się Część IV: Klasyczne metody QSAR do indywidualnego określenia wpływu każdego elementu struktury. występowania poszczególnych ∗ krotność podstawnikopozycji powinna być podobna. Przedział ufności wpływu podstawnikopozycji zależy m.in. od krotności jej występowania. Duże zróżnicowanie krotności podstawnikopozycji powoduje, że niektóre z wpływów będą wyznaczone z błędem dużo większym niż inne. Ponieważ zwykle z góry nie wiadomo która podstawnikopozycja jest istotna dla aktywności nie zachowanie tej reguły grozi powstaniem sytuacji gdy wpływ ważnej podstawnikopozycji określony zostanie z niedostatecznę precyzją. ∗ należy unikać korelacji podstawnikopozycji, tzn. nadmiernie częstego występowania pewnej kombinacji podstawnikopozycji. Z numerycznego punktu widzenia oznacza to, że kolumny macierzy danych powinny być możliwie ortogonalne (niezależne od siebie). Jeśli to tylko możliwe podstawniki powinny być dobierane losowo. Reguły te odbiegają na tyle istotnie od tradycyjnego zestawu związków projektowanych dla badań SAR, że zwykle dla prawidłowego zastosowania metody Free-Wilsona należy przewidzieć jej zastosowanie już na etapie projektowania serii związków (przed rozpoczęciem syntez). Przykładowy fragment tablicy podstawnikopozycji dla omawianych pochodnych akrydyny przedstawia Tab.VIII.4: Tab.VIII.4: Fragment tablicy podstawnikopozycji dla zestawu pochodnych akrydyny Pozycja Podstaw- Podstaw-nik Z1 Z2 1 1 Z3 Z4 1 1 Z5 Z6 1 1 Z7 Z8 Z9 Z10 nikopoz. łańcuch 2 1 C2H4NHMe C2H4NMe2 boczny 3 C3H6NHMe 4 C3H6NMe2 NO2 OMe 5 1 6 7 2 3 4 5 6 7 8 8 NH2 NO2 9 OMe 10 NH2 11 12 NO2 OMe 13 NH2 14 15 NO2 OMe 16 NH2 17 Cl 18 Me 19 OH 20 Cl 21 Me 22 OH 23 Cl 24 Me 25 OH 26 Cl 27 Me 28 OH 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Należy zwrócić uwagę, że nie może wystąpić sytuacja gdy w jednym związku występuje więcej niż jedna podstawnikopozycja dla tej samej pozycji. Ponadto, w omawianym przykładzie przyjęto założenie, że w każdym z pierścieni (pozycje 1÷4 i 5÷8) może w danym związku wystąpić tylko jeden podstawnik. Uzyskanie statystycznie istotnego rozwiązania równania regresji jest jedynie pierwszym etapem metody Free-Wilsona. Należy teraz sprawdzić, czy w tym konkretnym przykładzie uzyskany model spełnia założenie o addytywności wpływu podstawników. Z punktu widzenia statystyki problem sprowadza się do weryfikacji hipotezy o adekwatności modelu. Jeśli model jest adekwatny to wariancja resztowa modelu nie powinna być większa od wariancji 1 1 1 1 1 1 oznaczeń aktywności. W przypadku nieaddytywnego wpływu podstawników wariancja resztowa modelu zakładającego addytywność będzie istotnie większa niż wariancja oznaczeń. Hipotezę o adekwatności modelu testujemy testem χ2: 2 χ = gdzie: ∑ (y i − ŷ i )2 i σ e2 σ e2 - wariancja oznaczeń aktywności. Sumę kwadratów różnic można wygodnie obliczyć ze wzoru: ∑ y i − ŷ i 2 = s 2 ⋅ (N − Z − 1) ( ) i gdzie: s - odchylenie standardowe równania regresji N - liczba związków 5 Część IV: Klasyczne metody QSAR Z - liczba podstawnikopozycji. Hipotezę o adekwatności modelu, czyli o addytywności wpływu podstawników, odrzucamy jeśli: χ 2 ≥ χ 2α, N − Z −1 obliczona wartość statystyki χ2 nie jest mniejsza od wartości krytycznej znalezionej w tablicach dla poziomu istotności α i N-Z-1 stopni swobody. W przeciwnym przypadku nie ma podstaw do odrzucenia testowanej hipotezy. Jeśli potwierdzone zostanie założenie o addytywności wpływu podstawników, to uzyskany model regresyjny stanowi wiarygodne narzędzie do przewidywania aktywności innych pochodnych. Szybkim sposobem wyszukania pochodnej o przypuszczalnie najwyższej aktywności jest przegłąd wartości wpływów podstawnikopozycji. Należy przy tym pamiętać, że dla każdej pozycji wybieramy podstawnik o największym wpływie. Pozwala to zaproponować syntezę przypuszczalnie bardzo aktywnego związku. Ponadto dla tego związku możemy wyznaczyć na podstawie równania regresji jego przypuszczalną aktywność. Przykład 8.2: Zastosowanie metody Free-Wilsona: dane symulowane, przypadek addytywny. H N O X R5 R2 N Jako pierwszy rozważymy symulowany przykład addytywnego wpływu podstawników w pochodnych kwasu 4-pirydylokarboksylowego (rysunek obok). Modyfikacje chemiczne dotyczą terminalnego podstawnika w łańcuchu amidu (X) oraz w pozycjach 2 (R2) i 5 (R5) pierścienia pirydynowego. Obecna w łańcuchu amidu grupa hydroksylowa może występować w formie wolnej (X = OH), jako eter metylowy (X = OMe) lub ester acetylowy (X = OAc). W pozycji 2 występować może chlor, grupa metylowa, aminowa lub nitrowa, a w pozycji 5 chlor, grupa metylowa, aminowa lub hydroksylowa. Tak więc liczba podstawnikopozycji w analizowanej serii pochodnych wynosi 3 + 4 + 4 = 11. Zsyntetyzowano 25 pochodnych spełniających omówione powyżej reguły. Tab.VIII.5. Tablica podstawnikopozycji i aktywności biologicznej pochodnych kwasu 4-pirydylokarboksylowego (dane symulowane) Nr X OH I II III IV V VI VII VIII IX X XI XII XIII XIV XV XVI XVII XVIII XIX XX XXI XXII XXIII XXIV XXV krotn. 6 OMe R2 OAc Me 1 1 1 1 1 Cl R5 NO2 NH2 Me Cl Akt. OH NH2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 5 6 5 5 1 4 6 5 4 4 4 4 biol. 1,86 1,55 1,00 0,04 0,99 2,07 0,57 0,75 1,28 2,18 2,41 2,36 3,67 1,31 2,18 0,23 0,57 0,30 1,50 2,65 3,56 1,33 2,39 1,02 0,36 Część IV: Klasyczne metody QSAR Po zastosowaniu metody Free-Wilsona powstał układ 25 równań z 12 niewiadomymi (11 współczynników przy podstawnikopozycjach + wyraz wolny). Rozwiązanie tego układu z wykorzystaniem algorytmu odrzucania doprowadziło do modelu zawierającego 11 istotnych parametrów: Tab.VIII.6. Istotne współczynniki modelu Free-Wilsona dla danych symulacyjnych (wersja z addytywnościa wpływu podstawników Poz. Podst. P.p. Wkład do Promień aktywności przedziału ufności X OH 1 0,97 0,12 X OMe 2 0,29 0,12 X OAc 3 -0,51 0,13 R2 R2 Me 4 -0,23 0,13 Cl 5 --- R2 R2 NO2 NH2 6 0,91 7 -0,56 0,12 R5 R5 Me 8 0,98 0,12 Cl 9 1,52 0,13 R5 R5 OH 10 -0,49 0,14 NH2 11 -0,54 0,14 1,077 0,093 µo N = 25 Z = 10 F = 274,1 D = R2 = 0,995 0,13 s = 0,093 F0,05;10;14 = 2,60 R = 0,998 Uzyskane równanie regresji posiada wysoką istotność jako całość (duża wartość testu F, współczynnik determinacji bliski jedności). Dzięki zastosowaniu algorytmu odrzucania z końcowego równaniu usunięty został człon opisujący wkład wnoszony do aktywności przez atom chloru w pozycji R2. Oznacza to, że z prawdopodobieństwem conajmnie 95% jego wkład do aktywności nie jest istotny. Wszystkie pozostałe człony mają istotny udział w aktywności badanej serii związków. Należy teraz określić, czy uzyskany model adekwatnie opisuje zmienność aktywności biologicznej w badanej serii. Potrzebna jest do tego znajomość odchylenia standardowego pomiarów aktywności biologicznej. Informacja taka powinna być dostępna w pracowni wykonującej oznaczenia aktywności. W naszym przykładzie przyjmiemy wartość tego odchylenia jako równą σe = 0,1 j.a. Możemy teraz obliczyć wartość statystyki χ2: χ2 = (N − Z − 1) ⋅ s 2 σ e2 = 14 ⋅ 0,0932 0,12 = 12,11 Krytyczna wartość χ0,05;14 = 23,69. Ponieważ wartość krytyczna jest większa od obliczonej więc nie ma podstaw do odrzucenia hipotezy o adekwatności uzyskanego modelu zależności struktura - aktywność. Oznacza to, że w przypadku badanej serii związków spełnione jest założenie o adekwatności wpływu podstawników. Można więc uznać ten model za posiadający zdolności prognostyczne i podjąć na jego podstawie próbę znalezienia pochodnej o przypuszczalnie najwyższej aktywności. Należy w tym celu spośród podstawnikopozycji dotyczących każdej z pozycji wybrać podstawnik posiadający największy wkład do aktywności. W przypadku analizowanej serii będą to: w łańcuchu bocznym ⇒ OH z wkładem 0,97±0,12 w pozycji 2 ⇒ NO2 z wkładem 0,91±0,13 w pozycji 5 ⇒ Cl z wkładem 1,52±0,13 H N O OH Cl O2N N Tak więc można założyć, że najaktywniejszym związkiem będzie pochodna o budowie przedstawionej obok. Jej aktywność oszacować można na równą: A = 1,077 + 0,97 + 0,91 + 1,52 = 4,47±0,16 Należy pamiętać, że zaproponowana pochodna jest przypuszczalnie najaktywniejsza tylko w obrębie d z i e d z i n y (przedziału ważności) modelu. W przypadku metody Free-Wilsona dziedzinę ogranicza zestaw podstawnikopozycji. Tak więc pochodna o przedstawionej powyżej strukturze jest najaktywniejsza spośród 4×5×5 = 100 możliwych pochodnych zawierających w łańcuchu bocznym i pozycjach 2 i 5 wymienione powyżej podstawniki lub atom wodoru. Wadą metody Free-Wilsona jest niemożliwość przewidzenia aktywności dla innych podstawników niż uwzględnione w analizowanym zestawie. =============================================== Przykład 8.3.: Zastosowanie metody Free-Wilsona: dane symulowane, przypadek braku addytywności Dla zobrazowania sytuacji jaka powstaje, gdy dochodzi do interakcji pomiędzy podstawnikami zmodyfikowano nieznacznie Przykład 7-I. Modyfikacja polegała na tym, że dla związków w których w pozycji 2 występowała grupa nitrowa a w pozycji 5 grupa hydroksylowa lub aminowa (związki III, IX i XII) zwiększono aktywność o 1 jednostkę. Tak przygotowany zestaw poddano analizie regresjii z zastosowaniem algorytmu odrzucania. Otrzymane wyniki przedstawia Tab. VIII.7. Tab.VIII.7. Istotne współczynniki modelu Free-Wilsona dla danych symulacyjnych (wersja bez addytywnego wpływu podstawników) Poz. Podst. P.p. Wkład do Promień aktywności przedziału ufności X OH 1 0,86 0,47 X OMe 2 --- X OAc 3 --- R2 R2 Me 4 --- Cl 5 --- R2 R2 NO2 NH2 6 1,41 7 --- R5 R5 Me 8 1,18 0,52 Cl 9 1,58 0,53 R5 R5 OH 10 --- NH2 11 --- µo N = 25 Z=4 F = 28,72 D = R2 = 0,852 0,65 0,45 0,27 s = 0,44 F0,05;4;20 = 2,87 R = 0,923 Przede wszystkim widać, że w zaistniałej sytuacji wpływ 7 podstawnikopozycji okazał się statystycznie nieistotny. Pozostały jedynie podstawnikopozycje o najsilniejszych wkładach do aktywności. Zmniejszyła się też znacznie jakość dopasowania, choć równanie jako całość pozostaje w dalszym ciągu statystycznie istotne (F > Fkryt). W ślad za spadkiem jakości dopasowania wzrosły też znacznie przedziały ufności parametrów modelu. Sprawą kluczową jest jednak ocena adekwatności modelu. Obliczona wartość testu χ2 wynosi: χ2 = 20 ⋅ 0,437 2 0,12 = 381,94 wobec wartości krytycznej χ 2 = 31,41 . Ponieważ wartość 0,05;20 obliczona jest większa od wartości krytycznej, więc model j e s t n i e a d e k w a t n y . Tym samym wykazano, że istnieje oddziaływanie pomiędzy podstawnikami, a więc ich wpływ nie jest addytywny. Można zauważyć, że pomimo nieadekwatności modelu struktura pochodnej o przypuszczalnie najwyższej 7 Część IV: Klasyczne metody QSAR aktywności przewidziana jest poprawnie: jest to ta sama pochodna co w Przykładzie 8.2. Co więcej przewidywana aktywność tej pochodnej A = 4,5±0,69 jest bardzo bliska poprzedniej prognozie (4,47±0,16). Sytuacja taka występuje wtedy, gdy odstępstwa od addytywności nie dotyczą kombinacji podstawników o najsilniejszym wkładzie do aktywności. ================================================ = Od czasu zaproponowania metody przez Free i Wilsona była ona testowana nie tylko na danych symulacyjnych (jak powyżej), ale również na licznych przykładach rzeczywistych. Jeden z takich przykładów zostanie omówiony poniżej. Przykład 8.4.: Zastosowanie dane rzeczywiste. metody NM e Me 2 R 1O O OH Me Me R 3O Me O Et O O Me O O R4 Me Free-Wilsona: Me Me O Me OR 2 OM e Analizowany przykład ten dotyczy serii pochodnych antybiotyku przeciwbakteryjnego erytromycyny B. Modyfikacje dotyczyły wybiórczego acylowania trzech grup hydroksylowych (R1 i R2 w cukrach i R3 w pierścieniu makrolidowym) oraz obecności lub braku dodatkowej grupy hydroksylowej w pierścieniu makrolidowym (R4). Jako pochodne grup hydroksylowych stosowano: R1 ⇒ formyl (For) lub acetyl (Ac) R2 ⇒ For, Ac lub propionyl (Pro) R3 ⇒ For, Ac lub Pro. W tej sytuacji minimalna liczba pochodnych wynosi: Nmin = 1 +2 + 2×3 + 1 = 10. W rzeczywistych modelach stosowano 28 lub 27 pochodnych. Aktywność wyznaczana była w formie pIC50 na szczepach S.aureus i K.pneumonia z odchyleniem standardowym σe = 0,065. Aktywność w stosunku do S.aureus wyznaczono dla 28 pochodnych. Po zastosowaniu metody Free-Wilsona wraz z algorytmem odrzucania uzyskano wyniki: Poz. Podst. Wkład do aktywności Promień przedziału ufności R1 R1 For --- Ac -0,15 0,06 R2 R2 For -0,28 0,07 Ac -0,65 0,08 R2 R3 Pro -0,74 0,13 For --- R3 R3 Ac -0,56 0,09 Pro -0,67 0,16 R4 OH 0,21 0,07 µo 2,76 0,07 N = 28 F = 172,45 D = R2 = 0,984 Z=7 s = 0,075 F0,05;7;20 = 2,87 R = 0,992 χ20,05;20 = 31,41 χ2 = 26,627 Uzyskane równanie jest statystycznie istotne, wyjaśnia ponad 98% zmienności aktywności i opisuje adekwatny model. Jednakże płynące z niego wnioski nie są zbyt budujące dla autorów omawianej pracy: z modelu wynika bowiem, że praktycznie żadna z badanych pochodnych 8 acylowych nie daje nadziei na uzyskanie pochodnej o wyższej aktywności. Jedyny dodatni wkład do aktywności wnosi obecność dodatkowej grupy hydroksylowej (R4). W przypadku szczepu K. pneumonia stwierdzono podobne zależności struktura - aktywność: Poz. Podst. Wkład do aktywności Promień przedziału ufności R1 R1 For --- Ac -0,10 0,05 R2 R2 For -0,16 0,06 Ac -0,44 0,07 R2 R3 Pro -0,60 0,10 For -0,17 0,09 R3 R3 Ac -0,55 0,07 Pro -0,69 0,13 R4 OH --- µo 2,94 N = 27 F = 153,59 D = R2 = 0,983 χ2 = 16,73 Z=7 0,05 s = 0,061 F0,05;7;19 = 2,87 R = 0,991 χ20,05;19 = 30,14 Podstawowa różnica polega na tym, że wpływ dodatkowej grupy hydroksylowej jest w przypadku K. pneumonia statystycznie nieistotny. Tym samym w przypadku tego drobnoustroju żaden z elementów struktury erytromycyny B analizowanych w omawianej pracy nie wnosi dodatniego wpływu do aktywności. ================================================ 8.2. Metoda Hanscha. Poważnym ograniczeniem metody Free-Wilsona jest fakt, że optymalizacja obejmuje tylko te podstawnikopozycje, które występują w badanych związkach. Innym ograniczeniem jest wymóg jednoczesnych zmian w kilku miejscach struktury bazowej. Wad tych pozbawiona jest inna metoda regresyjna zaproponowana w latach '60 przez Hanscha i Fujitę. Istotą tej metody jest założenie, że o aktywności biologicznej decydują właściwości fizykochemiczne związków. Fakt ten znany był od dziesiątków lat. Istniały jednak dwa podstawowe problemy: i) ile i jakie właściwości wpływają na aktywność biologiczną ii) jak i l o ś c i o w o opisać wpływ tych właściwości. Zasługą Hanscha i Fujity było zaproponowanie logicznego zestawu cech fizykochemicznych oraz wykazanie (prace Hanscha), że cechy te rzeczywiście wpływają na aktywność biologiczną bardzo różnorodnych grup związków. Autorzy zaproponowali i uzasadnili w oparciu o podstawowe prawa biofizyki konieczność zastosowania do opisu zależności struktura - aktywność 3 parametrów fizykochemicznych: ♦ parametru lipofilowego opisującego zdolność związku do przenikania przez błony biologiczne i tym samym charakteryzującego właściwości transportowe i resorpcyjne związku ♦ parametru elektronowego podstawników lub cząsteczki jako całości. Parametr taki opisuje rozkład gęstości elektronowej w cząsteczce, a tym samym reaktywność związku i jego zdolność do elektrostatycznego oddziaływania z celem molekularnym. ♦ parametru sterycznego opisującego geometrię cząsteczki, a w szczególności zawadę przestrzenną w sąsiedztwie miejsc reaktywnych lub ogólną wielkość i kształt cząsteczki. Umożliwia to uwzględnienie dopasowania związku do jego celu komórkowego. Część IV: Klasyczne metody QSAR W pierwszych swoich pracach Hansch zastosował najprostszy z możliwych modeli opisujących zależność aktywności biologicznej od właściwości fizykochemicznych model liniowy: logA = ao + a1L + a2E + a3S gdzie: A - aktywność biologiczna L - parametr lipofilowy E - parametr elektronowy S - parametr steryczny. Wykazano, że model ten, pomimo swego skrajnego prymitywizmu, całkiem dobrze (adekwatnie) opisuje wiele przypadkach obserwowanych zależności struktura - aktywność. Stwierdzono również, że w znacznej liczbie przypadków zależność aktywności biologicznej od lipofilowości nie jest liniowa, lecz charakteryzuje się obecnością wyraźnego maksimum. W tej sytuacji Hansch rozszerzył swój model dodając do niego człon kwadratowy. Powstało w ten sposób tzw. pełne równanie Hanscha o postaci: logA = ao + a1L + a2L2 + a3E + a4S Wartości liczbowe współczynników ai oblicza się metodą regresji wielorakiej (ang. Multiple Regression Analysis MRA). Ponieważ równanie Hanscha ma służyć m.in. do celów prognostycznych (przewidywanie aktywności nowych pochodnych), więc podstawowym wymogiem jest wiarygodność uzyskanych wartości współczynników. Jednym z podstawowych wielkości określających tą wiarygodność jest liczba związków w badanej serii. Z rozważań statystycznych wynika, że powinno ich być conajmniej po 4 ÷ 5 na każdy parametr. W przypadku pełnego równania Hanscha oznacza to potrzebę użycia 5 × 4 = 20 związków. Dla danej serii związków należy przede wszystkim określić czy wszystkie człony równania mają statystycznie istotny wpływ na aktywność. Dokonuje się tego poprzez ocenę istotności wsółczynników równania. Ostateczne równanie powinno być: ∗ istotne jako całość: test F Snedecora ∗ posiadać tylko istotne współczynniki: dla każdego współczynnika test t Studenta ∗ być adekwatne: test χ2. W metodzie Hanscha kluczową rolę odgrywa poprawny dobór właściwości fizykochemicznych korelowanych z aktywnością biologiczną. W klasycznych pracach Hanscha jako parametr lipofilowy wykorzystywany był log(P), czyli współczynnik podziału w układzie n-oktanol : woda. Jako parametr elektronowy podstawników Hansch zastosował stałe Hammetta σ, a jako parametr steryczny podstawników stałe Tafta Es. Inni autorzy wykorzystali inne właściwości fizykochemiczne do wyrażenia trzech podstawowych zdaniem Hanscha parametrów: lipofilowego, elektronowego i sterycznego. Poniżej omówione zostaną właściwości fizykochemiczne najczęściej wykorzystywane do określania w/w parametrów. 8.2.1. Parametry lipofilowe. Jak już wspomniano, pierwszym parametrem opisującym właściwości lipofilowe związków był logarytm współczynnika podziału w układzie n-oktanol : woda (bufor). Parametr ten jest ciągle używany, gdyż uznawany jest za najlepszy, bezpośredni miernik lipofilowości. W zespole Hanscha w trakcie wyznaczania wartości współczynników podziału stwierdzono dla wielu podstawników, że ich wpływ na logP jest stały i niezależny zarówno od struktury bazowej do której ten podstawnik jest przyłączony jak i od obecności innych podstawników. Wyrażając to samo inaczej, obserwacja ta sugerowała, że wpływ podstawników na lipofilowość ma charakter addytywny. Dalsze, szczegółowe prace zespołu Hanscha doprowadziły do potwierdzenia tej hipotezy i zaproponowania nowej stałej charakteryzującej podstawnik: stałej lipofilowości π. Definiowana jest ona dla danego podstawnika X jako: π = logPX - logPH gdzie: PX - współczynnik podziału związku podstawionego PH -współczynnik podziału związku niepodstawionego Wartości stałych lipofilowości dla częściej spotykanych podstawników przedstawia poniższa tabela. Tab.VIII.8. Wartości stałych lipofilowości π dla częściej spotykanych podstawników Podstawnik Br π 0,86 CH3 CH2 CF3 etyl 0.88 1,02 propyl 1,55 i-propyl 1,53 CH2OH CH2NH2 CCH CN Podstawnik CHO π -0,65 0,50 CH=NOH -0,38 0,50 COCH3 CONH2 -0,55 COOCH3 COOCH2CH3 -0,01 CH2COOH CH2CONH2 -0,72 -1,03 -1,04 0,40 -0,57 CH2COOCH3 4-pirydyl fenyl -1,49 0,51 -1,68 -0,69 0,32 1,89 Hansch zaproponował również sposób obliczania logP dla całych związków bazując na danych dla kilkudziesięciu związków bazowych, wartościach π podstawników oraz poprawkach na wiązania wielokrotne i rozgałęzienia. Np. : wiązanie podwójne ∆π = -0,30 wiązanie potrójne ∆π = -0,52 rozgałęzienie ∆π = -0,20 CH2 w pierścieniu π = 0,41 -CH=CH-CH=CH- π = 1,35 System ten posiadał jednak szereg niedogodności. Przede wszystkim dla uwzględnienia wpływu sąsiedztwa podstawników wymagał bardzo rozbudowanego systemu poprawek, co w połączeniu z drugim mankamentem: niejednoznacznością, czyniło go metodą obarczoną dużą dozą subiektywizmu. Dwa poniższe przykłady obrazują zakres niejednoznaczności tego systemu. Dibenzyl: φ-CH2-CH2-φ. Logarytm współczynnika podziału dla dibenzylu obliczyć można z co najmniej trzech schematów: a) 2×logP(φH) + 2×π(CH2) = 2×2,13 + 2×0,5 = 5,26 b) logP(φH) + 2×π(CH2) + π(φ) = 2,13 + 2×0,5 + 1,89 = 5,02 c) 2×π(CH2) + 2×π(φ) = 2×0,5 + 2×1,89 = 4,78 Rzeczywista, zmierzona wartość logP dla dibenzylu wynosi 4,81. Toluen: φ-CH3 Również dla tak prostego związku jak toluen, logP obliczyć można conajmniej 2 sposobami: a) logP(φH) + π(CH3) = 2,31 + 0,5 = 2,81 b) logP(CH4) + π(φ) = 0,9 + 1,89 = 2,79 W tym przypadku z obydwu sposobów otrzymujemy bardzo zbliżone wartości logP. Szczegółowa analiza tego typu niejednoznaczności oraz szczególnie dużych różnic pomiędzy wartościami logP obliczonych w/g różnych sposobów skłoniła Nysa i Rekkera (1973) do zaproponowania innego modelu służącego do oblicznia logP. W modelu tym nie wyróżnia się struktury bazowej i podstawników, lecz całą strukturę traktuje się jako złożoną z fragmentów. Każdy z fragmentów wnosi addytywnie swój wkład do końcowej wartości logP: 9 Część IV: Klasyczne metody QSAR n log P = ∑ a i ⋅ f i i =1 gdzie: fi - stała hydrofobowa fragmentu i ai - liczba określająca ile razy fragment i występuje w cząsteczce n - łączna liczba fragmentów w cząsteczce. Zgodnie z tym modelem logP dibenzylu oblicza się ze wzoru (Tab.VIII.9): logP(φ-CH2-CH2-φ) = 2×f() + 2×f() = 2×1,896 + 2×0,527 = 4,85 Tabela VIII.9. Stałe hydrofobowe wyznaczone przez Nysa i Rekkera dla typowych składników związków organicznych. Fragment falif. faromat. Fragment faromat i fheterocykl C 0,14 0,14 CH 0,236 0,236 CA r . C Ar 0,297 0,158 CH2 CH3 0,527 0,702 0,527 CHAr 0,344 0,702 (N) CH2=CH CH=C 0,93 0,93 (O) -0,98 0,10 0,51 0,51 (S) 0,44 H 0,193 0,193 (NH) -0,60 F -0,51 0,425 pirolil 0,59 Cl 0,06 0,930 furanyl 1,22 Br 0,24 1,169 tienyl 1,62 0,543 J 0,59 1,456 pirydynyl O -1,536 -0,458 chinolinyl 1,85 OH -1,440 -0,374 fenyl (C6H5) 1,896 0CH3 -0,834 0,244 N -2,133 -1,07 NH -1,864 -0,93 NH2 NO2 -1,380 -0,911 -1,06 -0,089 COOH COO -1,003 0,000 -1,281 -0,40 OCH2COOH CONH2 1,21 -0,609 -1,99 -1,26 =C=0 -1,69 -0,99 CN -1,13 -0,20 Nys i Rekker obliczyli wartości stałych hydrofobowych fi stosując metodę regresji krokowej dla zestawu 154 związków o znanych logP. Obliczono zarówno stałe hydrofobowe dla typowych fragmentów kilkuatomowych (grup funkcyjnych, podstawników) jak i dla pojedynczych atomów, w tym różnego typu atomów węgla w pierścieniach aromatycznych i heterocyklicznych. Stwierdzono przy tym, że atomy węgla wspólne dla pierścieni skondensowanych mają wartość fi ok. dwa razy większą niż inne aromatyczne atomy węgla. Autorzy oznaczyli je symbolem C.Ar. Stałe hydrofobowe dla atomów i grup funkcyjnych występujących w typowych związkach organicznych zestawiono w Tab.VIII.9. Poniższe przykłady obrazują sposób obliczania logP przy pomocy stałych hydrofobowych oraz pozwalają porównać uzyskane wartości z danymi doświadczalnymi. n-propylobenzen: φ-CH2-CH2-CH3 logP = f(φ) + 2f(CH2) + f(CH3) = 1,896 +2×0,527 + 0,702 = 3,65 wartość doświadczalna : 3,69 eter fenylowo-allilowy: φ-O-CH2-CH=CH2 logP = f(φ) + f(-O-)arom + f(CH2) + f(CH=CH2) = 1,896 - 0,458 + 0,527 + 0,93 = 2,90 wartość doświadczalna : 2,94 2,4,6-trichlorofenol logP = f(C6H3) - f(H)arom + f(OH)arom + 3×f(Cl)arom = 1,896 - 0,193 - 0,374 + 3×0,93 = 3,70 chloropromazyna 10 (C6H4) (C6H3) 1,732 1,477 naftalenyl 3,17 N N Cl S logP = 7×f(CHAr) + 4×f(C.Ar) + f(CAr) + f(Cl)arom + + f(S)arom + f(NH)het + f(CH2) + 2×f(CH3) + + f(N)alif = 5,38 wartości doświadczalne : 5,16; 5,35 i 5,32 W przypadku związków ulegających dysocjacji w pH fizjologicznym obliczanie logP bardzo się komplikuje. Wartość logP formy zjonizowanej jest dużo mniejsza niż dla formy niezdysocjowanej. Dla związków częściowo zdysocjowanych w danym pH wprowadzono pojęcie współczynnika dystrybucji który zastępuje współczynnik podziału. W przypadku kwasów definiuje się go wzorem: [AH ]L D= [AH ]W + A − gdzie indeks L dotyczy fazy lipidowej, a indeks W fazy wodnej. Ponieważ istnieją trudności techniczne z precyzyjnym pomiarem stężeń obu form kwasu w roztworach wodnych, więc dla celów praktycznych wprowadzono wzory przybliżone: pH − pK a dla kwasu: log D = log P − log 1 + 10 [ ] dla zasady: ( log D = log P − log(1 + 10 pK a − pH ) ) Część IV: Klasyczne metody QSAR Chromatograficzne metody wyznaczania parametrów lipofilowych. Dla niektórych związków bardzo trudno jest wyznaczyć współczynnik podziału. Dotyczy to np. związków nietrwałych, zanieczyszczonych lub tworzących stabilne emulsje. Dla takich przypadków zaproponowano wyznaczać parametr lipofilowy metodami chromatografii cienkowarstwowej jako tzw. wartość Rm. Metoda okazała się tak wygodna, że stosuje się ją również w przypadku związków pozbawionych w/w niedogodności. Zaletami metody chromatograficznej są: i) małe zużycie związku; ii) brak wymogu specjalnej czystości; iii) możliwość jednoczesnego (na jednej płytce) oznaczania kilku lub nawet kilkunastu związków. Stwierdzono, że pomiędzy stałą Rm, a logarytmem współczynnika podziału P istnieje zależność liniowa : Rm = a×logP + b gdzie stałe a i b zależą od warunków chromatografii, np. podłoża i składu fazy ruchomej. Dla wyeliminowania innych niż podział efektów chromatograficznych (głównie sorpcji na żelu) stosuje się neutralne nośniki, takie jak metylocelulozę, lub chromatografię faz odwróconych. Istnieje prosta zależność pomiędzy wielkością Rm a ruchliwością chromatograficzną Rf: 1 R m = log − 1 . R f W przypadku związków ulegających dysocjacji dla zapewnienia stałego pH stosuje się buforowaną fazę ruchomą. Burzliwy rozwój chromatografii HPLC, w tym również na fazach odwróconych, spowodował, że ostatnio głównie ta technika stosowana jest do chromatograficznego wyznaczania parametrów lipofilowych. Okazało się przy tym, że wielkością liniowo zależna od współczynnika podziału jest skorygowany czas retencji, k’. Jest to jednocześnie typowy parametr wyznaczany w technikach HPLC. Inne parametry lipofilowe. Oprócz omówionych powyżej, klasycznych metod wyznaczania właściwości lipofilowych proponowano zastosować szereg innych wielkości. Spośród nich pewne zastosowanie znajdują: ∆Rm dla podstawników - wielkość proporcjonalna do parametru π logS - rozpuszczalność związku w wybranym rozpuszczalniku, np. wodzie lub chloroformie [P] - parachora: wielkość addytywna wiążąca objętość molową cieczy Vc i jej napięcie powierzchniowe σ. Tab.VIII.10. Wartości stałych Hammetta dla typowych podstawników. Podstawnik pozycja Podstawnik para meta -O-1,000 -0,710 Cl -NH2 -CH3 Parametry lipofilowe podzielić można, ze względu na sposób ich wyznaczania na dwie klasy: ∗ parametry doświadczalne dla których wyznaczenia należy posiadać próbkę analizowanego związku i wykonać na niej odpowiednie pomiary ∗ parametry teoretyczne (tablicowe) których wartość można wyznaczyć dysponując jedynie wzorem związku. Parametry doświadczalne, wyznaczane dla konkretnych związków zapewniają bardziej adekwatny opis właściwości związków. Mają więc istotne znaczenie na etapie poszukiwania zależności. Wadą tak uzyskanej zależności jest jednak niemożność projektowania na jej podstawie konkretnych nowych pochodnych. Możliwe jest jedynie wskazanie trendów (kierunków) zmian. Wady tej pozbawione są modele oparte na parametrach obliczanych lub tablicowych. Po uzyskaniu statystycznie istotnej zależności można na jej podstawie oszacować aktywność związku jedynie na podstawie jego wzoru. 8.2.2. Parametry elektronowe. Przypuszczano od dawna, że rozkład ładunku w obrębie cząsteczki ma istotny wpływ na jej reaktywność chemiczną i efekty biologiczne. Brakowało jednak prostego sposobu opisu zależności pomiędzy rozkładem ładunku a właściwościami chemicznymi lub biologicznymi. W roku 1935 Hammett stwierdził, że istnieje liniowa zależność pomiędzy zmianami energii swobodnej wywołanej wprowadzeniem podstawnika w pochodnych kwasu benzoesowego, a ich powinowactwem elektronowym. Zależność tę dla równowag dysocjacji można wyrazić wzorem: log Ks Ko = ρ⋅σ gdzie: Ks - stała dysocjacji podstawionego kwasu benzoesowego Ko - stała dysocjacji kwasu benzoesowego σ - stała charakteryzująca podstawnik (stała Hammetta) ρ - stała zależna od warunków pomiaru Stałe Hammetta stosuje się do układów aromatycznych w których podstawnik jest w pozycji para lub meta do centralnej grupy reagującej. Stałe te opisują w zasadzie wpływ indukcyjny podstawnika. Przykładowe wartości stałych Hammetta dla typowych podstawników przedstawia poniższa tabela. pozycja para meta 0,228 0,372 -0,660 -0,160 -Br 0,232 0,931 -0,170 -0,070 -J 0,276 0,352 -NO2 -CF3 -CN 0,778 0,710 0,551 0,415 0,628 0,678 -OH -0,357 0,000 -OMe -0,268 0,115 0,062 0,337 -F W literaturze od wielu dziesiątków lat istnieją tablice parachor atomowych i parachor wiązań. Zasługą Hanscha i Fujity jest zastosowanie stałych Hammetta jako opisu właściwości elektronowych serii związków. Trzeba było dużej dozy odwagi intelektualnej aby zastosować prosty parametr chemiczny dla opisu wpływu modyfikacji chemicznej na oddziaływanie leku z jego makromolekularnym celem komórkowym. Oprócz stałej Hammetta w metodzie Hanscha stosowane są liczne inne parametry elektronowe. Niektóre z nich są tylko modyfikacjami klasycznej stałej Hammetta. Do takich parametrów należą: σorto - stała Hammetta dla pozycji orto σI - stała indukcyjna (alifatyczna) 11 Część IV: Klasyczne metody QSAR σR - stała rezonansowa (alifatyczna) σ* - stała polarności (alifatyczna) F - aromatyczna stała indukcyjna R - aromatyczna stała rezonansowa Istnieją również stałe elektronowe oparte na odmiennych niż stała Hammetta podstawach fizykochemicznych. Do najczęściej stosowanych w badaniach QSAR należą: pKa lub ∆pKa - stała dysocjacji lub jej zmiana w stosunku do związku odniesienia ε − 1 M - polaryzowalność molowa α= ⋅ ε+2 ρ ε - stała dielektryczna M - masa cząsteczkowa ρ - gęstość µ - moment dipolowy δ - przesunięcie chemiczne w NMR 1/λ - położenie maximum absorpcji w widmach UV/VIS Rozwój metod obliczeniowych chemii kwantowej spowodował, że jako parametry elektronowe w badaniach QSAR zaczęto również stosować wielkości kwantowochemiczne. Do najczęściej używanych parametrów tego typu należą energie tzw. orbitali granicznych: HOMO - energia najwyższego obsadzonego orbitalu (ang. Highest Occupied Molecular Orbital) LUMO - energia najniższego nieobsadzonego orbitalu (ang. Lowest Unoccupied Molecular Orbital) Wartości energii tych orbitali są miarą podatności cząsteczki jako całości do oddawania (HOMO) lub przyjmowania (LUMO) elektronów. Oprócz takich globalnych parametrów elektronowych metody obliczeniowe chemii kwantowej dostarczają również parametrów opisujących bardziej "lokalne" właściwości fragmentów cząsteczki. Parametrami takimi są np. ładunki cząstkowe wybranych atomów lub rzędy określonych wiązań. Obliczenia kwantowo-chemiczne pozwalają również na oszacowanie wartości takich doświadczalnych parametrów elektronowych jak np. moment dipolowy, energia jonizacji lub wartość przesunięcia chemicznego w NMR. Podobnie jak w przypadku parametrów lipofilowych dysponujemy więc również w przypadku parametrów elektronowych dwoma typami parametrów: ∗ parametrami doświadczalnymi dla których wyznaczenia należy posiadać próbkę analizowanego związku i wykonać na niej odpowiednie pomiary ∗ parametrami teoretycznymi (tablicowymi) których wartość można wyznaczyć dysponując jedynie proponowanym wzorem związku. Wielkość ES nazwana została stałą Tafta i jest szeroko stosowana dla opisu zawady przestrzennej podstawników zarówno w badaniu reaktywności chemicznej jak i zależności struktura chemiczna - aktywność biologiczna. Ogólna koncepcja wpływu zawady przestrzennej została szeroko przyjęta i rozbudowana dla innych szczegółowych przypadków. I tak wprowadzono: E o - stałą Tafta dla podstawników w pozycji orto 8.2.3. Parametry steryczne. Bardzo prostym, ale skutecznym opisem kształtu sztywnych cząsteczek są tzw. parametry STERIMOL. Opisują one 5 maksymalnych wymiarów cząsteczki. Przed przystąpieniem do ich wyznaczania należy przyjąć określoną orientację każdej z cząsteczek. Zwykle w tym celu wybiera się jeden z atomów każdej z cząsteczek stanowiących badaną serię jako tzw. atom bazowy i lokuje się go w początku układu współrzędnych. Z kolei definiuje się dwa wiązania w których ten atom uczestniczy i określa się ich orientację w stosunku do układu współrzędnych. Przed opublikowaniem prac Hanscha i Fujity wydawało się, że opis kształtu cząsteczki nastręczać będzie szczególnie wiele problemów przy poszukiwaniu zależności struktura - aktywność. Na szczęście rozwój w latach '50 i na początku '60 tzw. fizycznej chemii organicznej będący wynikiem sukcesu koncepcji wpływu podstawników na właściwości chemiczne całej cząsteczki zapoczątkowany pracami Hammetta i jego szkoły dostarczył niezbędnych narzędzi. Taft badając wpływ podstawników na szybkość hydrolizy estrów alkoholi alifatycznych i aromatycznych kwasów karboksylowych podstawionych w pozycji meta stwierdził, że oprócz stałej Hammetta, czyli wpływów elektronowych, na szybkość hydrolizy wpływa również efekt przestrzenny podstawników i zaproponował zależność: log 12 ks ko = ρ ⋅ σ + ES S E Sm - stałą Tafta dla podstawników w pozycji meta E SC - stałą Hancock'a uwzględniającą hiperkoniugację wodorów α Stała Tafta i jej analogi znajduje zastosowanie jedynie w przypadku serii związków będących prostymi, podstawionymi w tym samym miejscu, pochodnymi tej samej sztywnej struktury bazowej. Nie nadają się zupełnie do opisu bardziej zróżnicowanych serii związków lub pochodnych o pewnej swobodzie konformacyjnej. Dlatego opracowano całą gammę parametrów opisujących wielkość i ogólny kształt cząsteczki: ∗ V - objętość molową ∗ rV - promień Van der Waalsa podstawnika * VV - objętość cząsteczki z uwzględnieniem promieni Van der Waalsa ∗ Dij - odległość pomiędzy wybranymi atomami i i j ∗ parametry STERIMOL - grupa 5 parametrów opisujących kształt cząsteczek. Parametry te nadają się szczególnie dla sztywnych cząsteczek ∗ parametry Kiera: molecular connectivity χ i molekularne indeksy kształtu κ - na bazie grafu reprezentującego pozbawiony atomów wodoru szkielet cząsteczki można otrzymać szereg parametrów opisujących topologię cząsteczki Dla poprawnego wyznaczenia wartości parametrów tego typu, za wyjątkiem parametrów Kiera, potrzebna jest znajomość rzeczywistego kształtu cząsteczek. Bardzo często wykorzystuje się w tym celu metody modelowania molekularnego w tym również półempiryczne metody chemii kwantowej. Innym źródłem informacji o kształcie cząsteczki mogą być struktury otrzymane metodami analizy dyfrakcyjnej monokryształów. Ponieważ kształt cząsteczki ma wiele aspektów i nie wydaje się możliwe pełne jego określenie przy pomocy pojedynczej wielkości liczbowej zaproponowano jego opis przy pomocy rodziny parametrów z których każdy opisuje inny jego aspekt. założeniu to legło u podstaw parametrów typu STERIMOL oraz indeksów Kiera. Parametry STERIMOL. RNH NO 2 C* N Prześledźmy to podejście na przykładzie pochodnych 1-nitro-9-aminoakrydyny. Jako atom bazowy wybierzmy węgiel w pozycji 9 (na rysunku powyżej oznaczony gwiazdką). Przyjmijmy ponadto, że: Część IV: Klasyczne metody QSAR χ (molecular connectivity) oraz zaproponowane przez Kiera molekularne indeksy kształtu κ. Parametry te opisują w - wiązanie C9-N9 pokrywa się z osią Ox - układ pierścieni znajduje się w płaszczyźnie Oxy - pierścień z grupą nitrową leży z zakresie dodatnich współrzędnych y Dla tak zorientowanej cząsteczki określa się teraz 5 charakterystycznych wymiarów: - długość W, czyli maksymalny rozmiar wzdłuż osi Ox - wysokość U, czyli maksymalny wymiar na dodatniej części osi Oy - głębokość D, czyli maksymalny wymiar na ujemnej części osi Oy - szerokość w lewo L, czyli maksymalny wymiar ujemny na osi Oz - szerokość w prawo R, czyli maksymalny wymiar dodatni na osi Oz. Rys.8.3. przedstawia powyższe parametry dla cząsteczki 1-nitro-9-metyloaminoakrydyny. formie rodziny indeksów różne aspekty kształtu podstawnika lub całej cząsteczki bazując na wzorze strukturalnym pozbawionym atomów wodoru. Rodzinę indeksów m χ , gdzie m = 0, 1, 2 i 3, obliczyć można przypisując każdemu węzłowi grafu (atomowi niewodorowemu) wielkość δ określającą liczbę innych i węzłów bezpośrednio z nim związanych. Poszczególne indeksy molecular connectivity obliczamy w/g poniższych wzorów, przy czym: - indeks 0 χ jest sumą udziałów poszczególnych atomów i [7.1.] 0 1 δi χ=∑ i 1 - indeks χ jest sumą udziałów r wiązań [7.2.] 1 U 1 δi ⋅ δ j χ=∑ ( r ) r 2 - indeks χ jest sumą udziałów s trójek atomów [7.3.] 2 χ=∑ ) 3 3 ( s D 1 δi ⋅ δ j ⋅ δ k - istnieją dwa indeksy χ: s χ P dla liniowego 3 ułożenia czwórki atomów i χ dla ułożenia gwiaździstego C [7.4a.] W 3 R L χP = ∑ 1 δi ⋅ δ j ⋅ δ k ⋅ δl ( ) χC = ∑ 1 δi ⋅ δ j ⋅ δk ⋅ δl ) t Rys.8.3: Sposób definiowania parametrów STERIMOL na przykładzie pochodnej 1-nitro-9-metyloaminoakrydyny. Kolorem fioletowym zaznaczono atomy wykorzystywane przy orientacji cząsteczki. [7.4b.] Parametry Kiera. Obliczenia indeksów molecular connectivity dla 5 izomerów heksamu przedstawia poniższy przykład. u Innym bardzo popularnym podejściem do opisu kształtu cząsteczek jest zastosowanie teorii grafów. W odróżnieniu od parametrów STERIMOL nie jest przy tym potrzebna znajomość rzeczywistego, trójwymiarowego kształtu cząsteczki: wystarcza wzór strukturalny. W ujęciu tym wzór cząsteczki traktowany jest jako graf: zespół węzłów połączonych wiązadłami. Do najpopularniejszych parametrów tego typu należą zaproponowane przez Kiera i Halla indeksy 2 1 2 3 1 2 heksan 2 2 2 1 1 2-metylopentan 1 ( u Przykład 8.5. Indeksy molecular connectivity dla izomerów heksanu. Rozpocznijmy od wypisania struktur i wartości δ dla i wszystkich 5 izomerów heksanu: 1 2 1 1 1 3 1 2 3 t 1 1 3-metylopentan 3 3 1 1 2,3-dimetylobutan 2 4 1 1 2,2-dimetylobutan Teraz dla każdego z nich obliczmy indeksy Kiera. 13 Część IV: Klasyczne metody QSAR 2-Metylopentan. Heksan. 1 1 χ = 2⋅ + 4⋅ ≈ 4,828 1 2 1 1 1 χ = 2⋅ + 3⋅ ≈ 2,914 2⋅2 1⋅ 2 0 1 1 + 2⋅ ≈ 1,707 4 8 1 1 3 χP = 2 ⋅ + ≈ 0,957 8 16 2 χ = 2⋅ 3 χC = 0 1 1 1 + 2⋅ + ≈ 4,992 1 2 3 1 1 1 1 1 χ= + 2⋅ + + 1⋅ 2 1⋅ 3 2⋅2 2⋅3 ≈ 2,770 1 1 1 1 2 χ= + + 2⋅ + ≈ 2,183 3 4 6 12 1 3 χP = 3⋅ ≈ 0,866 12 1 3 χC = ≈ 0,408 6 0 χ = 3⋅ 2,3-Dimetylobutan. 3-Metylopentan. 1 1 1 0 χ = 3⋅ + 2⋅ + ≈ 4,992 1 2 3 1 1 1 1 1 χ = 2⋅ + + 2⋅ + 1⋅ 2 1⋅ 3 2⋅2 2⋅3 ≈ 2,808 1 1 2 χ = 4⋅ + ≈ 1,922 6 12 1 1 3 χP = 2 ⋅ + 2⋅ ≈ 1,394 6 12 1 3 χC = ≈ 0,289 12 1 1 + 2⋅ ≈ 5,155 1 3 1 1 1 χ = 4⋅ + 1⋅ 3 3⋅ 3 ≈ 2,643 1 1 2 χ = 2⋅ + 4⋅ ≈ 2,488 3 9 1 1 3 χP = 2 ⋅ + 2⋅ ≈ 1,394 6 12 1 3 χC = ≈ 0,289 12 0 χ = 4⋅ 2,2-Dimetylobutan. 1 1 1 + + ≈ 5,207 1 2 4 1 1 1 1 χ= + 3⋅ + ≈ 2,561 1⋅ 2 1⋅ 4 2⋅4 1 1 2 χ = 3⋅ + 4⋅ ≈ 2,914 4 8 1 1 1 3 3 χP = 3⋅ ≈ 1,061 χC = + 3⋅ ≈ 1,561 8 4 8 0 χ = 4⋅ Dla cząsteczek lub podstawników zawierających atomy inne niż węgiel można zastosować dwa podejścia. Po pierwsze można przyjąć, że ogólny kształt cząsteczki nie zależy w istotny sposób od rodzaju atomów. Przy takim założeniu np. indeksy dla alkoholu t-butylowego są takie same jak dla 2,3-dimetylopropanu. Wykazano, że założenie to można bezpiecznie stosować gdy cząsteczka zawiera oprócz węgla atomy tlenu i azotu. W przypadku gdy w skład cząsteczki wchodzą atomy których wielkość wyraŸnie odbiega od wielkości atomów węgla (fluor, siarka, chlor i.t.p.) poprawniejsze jest drugie podejście. Polega ono na modyfikacji wartości δ dla atomów odpowiednio do ich i wielkości. Molekularne indeksy kształtu m κ bazują na trochę innych podstawach (L.B.KIER, Quat.Struct.-Act.Relat. 4,109- 14 116(1985); L.B.KIER, Quant.Struct.-Act.Relat. 5,1-7(1986); L.B.KIER, Quat.Struct.-Act.Relat. 6,8-12(1987)). W/g Kiera są one miarą informacji niesionej przez fragmenty struktury o długości m atomów. Indeks rzędu 0 dotyczy informacji zawartej w poszczególnych atomach i obliczany jest w/g wzoru: 0 [7.5.] κ = i⋅A gdzie: A - liczba niewodorowych atomów cząsteczki i - zawartość informatyczna obliczana zgodnie z równaniem Shannona jako i = − p log p gdzie ∑ k k ( k) sumowanie biegnie po wszystkich k rodzajach rozróżnialnych atomów, a pk jest prawdopodobieństwem znalezienia atomu danego rodzaju. Indeks rzędu 1 dotyczy wiązań i obliczany jest ze wzoru: Część IV: Klasyczne metody QSAR [7.6.] 1 κ= A(A − 1) (A − 1)(A − 3)2 dla nieparzystego A [7.8.] 3 2 P 3 κ= 2 (A − 3)(A − 2 ) dla parzystego A 2 3 P Poniższy przykład zawiera wyniki obliczeń molekularnych indeksów kształtu dla izomerów heksanu. 2 (1 P) ( ) 2 1 gdzie: P jest liczbą wiązań w cząsteczce pozbawionej atomów wodoru. Indeks rzędu 2 dotyczy trójek bezpośrednio z sobą związanych atomów i obliczany jest ze wzoru: [7.7.] 2 κ= ( ) (A − 1)(A − 2 )2 (2 P)2 Przykład 8.6. Molekularne indeksy kształtu dla izomerów heksanu 2 gdzie: P jest liczbą trójek atomów. Indeks rzędu 3 dotyczy czwórek związanych z sobą atomów i obliczany jest w/g jednego z poniższych wzorów: 2 1 2 2 3 1 2 2 1 2 1 1 1 3 1 2 1 1 3 2 3 4 1 1 1 1 2,2-dimetylobutan heksan 2,3-dimetylobutan Rozpocznijmy od wyznaczenia zawartości informacji i dla wszystkich 5 izomerów heksanu: heksan: i = 2 log 2 + 2 log 2 + 2 log 2 = 3 ⋅ 2 log 2 ≈ 0,4771 2 1 1 2-metylopentan 1 3-metylopentan ( 6) 6 ( 6) 6 ( 6) i = 2 log(2 ) + 4 ⋅ 1 log(1 ) ≈ 0,6778 6 6 6 6 i = 2 ⋅ 2 log(2 ) + 2 ⋅ 1 log(1 ) ≈ 0,5775 6 6 6 6 4 4 2 2 ( ) ( ) = + ≈ i log log 0,2764 6 6 6 6 3 3 1 1 log( ) + 3 ⋅ log( ) ≈ 0,5396 i= 6 6 6 6 6 2-metylopentan: 3-metylopentan; 2,3-dimetylobutan: 2,2-dimetylobutan: 6 ( 6) Należy jeszcze ustalić liczbę par, trójek i czwórek atomów. Jest to bardzo podobne do postępowania omówionego w Przykł.7-V. Możemy teraz obliczyć wartości poszczególnych indeksów: 1 1 1 2 2 1 1 3 2 1 2 2 2 3 1 1 3 3 4 2 2 1 1 1 2 1 1 1 1 1 3-metylopentan 2-metylopentan 2,2-dimetylobutan heksan 2,3-dimetylobutan i = 0,4771 = 0,6778 = 0,5775 = 0,2764 = 0,5396 0 = 4,067 = 3,465 = 1,659 = 3,238 2,863 κ= 1 =5 =5 =5 =5 =6 =6 =6 =6 P =4 κ = 2,813 =5 =5 =6 =7 = 1,800 = 1,800 = 1,250 = 0,918 P =3 3 κ = 5,333 =3 =4 =4 =3 = 5,333 =3 =3 = 5,333 1 2 2 3 P =5 κ= 6 Cechą charakterystyczną molekularnych indeksów kształtu, odróżniającą je korzystnie od indeksów molecular connectivity, jest możliwość przypisania każdemu z nich interpretacji geometrycznej. I tak: 0 κ - wskaźnik symetrii. Jego wartość spada ze wzrostem symetrii cząsteczki. 1 wielkości. Wszystkie niecykliczne κ - wskaźnik cząsteczki o tej samej liczbie atomów niewodorowych mają taką samą wartość 1 κ równą liczbie atomów A. Tym samym jest to miara "wielkości" cząsteczki. Obecność w cząsteczce fragmentów cyklicznych obniża wartość indeksu i to tym bardziej im więcej jest pierścieni. 2 κ wskaźnik linearności. Wartości tego indeksu zależą od stopnia rozgałęzienia cząsteczki i jej sferyczności. Przyjmuje największe wartości dla struktur liniowych, nierozgałęzionych. 3 κ - wskaźnik centralności rozgałęzienia. Wartości tego indeksu kodują obecność i lokalizację rozgałęzienia w strukturze niecyklicznej. 8.2.4. Parametry zero-jedynkowe. Nie wszystkie elementy budowy chemicznej serii związków daje się łatwo ująć w formę parametrów lipofilowych, elektronowych lub sterycznych. Dotyczy to w szczególności sytuacji gdy w obrębie analizowanej serii znajduje się podgrupa związków wyróżniająca się jakimś elementem struktury. Można wtedy wprowadzić dodatkowy parametr przyjmujący wartość 1 gdy element ten jest w strukturze obecny i 0 przy jego braku. Podejście takie jest w istocie połączeniem metody Hanscha z koncepcją Free-Wilsona. Zastosowanie jednego lub więcej parametrów tego typu pozwala zastosować do opisu cząsteczki typowe parametry lipofilowe, elektronowe i steryczne bez konieczności poszukiwania specyficznych parametrów dostarczających adekwatnego opisu różnych podgrup występujących w naszej serii związków. 8.2.5. Interpretacja modelu Hanscha. Uzyskanie adekwatnego opisu zależności struktura - aktywność przy pomocy równania Hanscha niesie 15 Część IV: Klasyczne metody QSAR z sobą dwojakiego rodzaju korzyści: prognostyczne i poznawcze. Po pierwsze umożliwia ono przewidzenie kierunku poszukiwań nowych pochodnych o korzystniejszych właściwościach biologicznych i farmakologicznych. Jest to dotychczas główny cel stosowania tej metody: uzyskanie informacji prognostycznych. Do tej samej grupy informacji należy również uzyskanie podstaw dla przerwania dalszych poszukiwań gdy z analizy równania wynika, że nie ma realnych szans na uzyskanie pochodnych o istotnie lepszych cechach biologicznych. Warto wtedy czasami poszukać podstawników o podobnych właściwościach fizykochemicznych determinujących aktywność, ale jednocześnie zmieniających cechy niekorzystne np. brak rozpuszczalności, nietrwałość chemiczną lub też łatwiejszych w syntezie: tańsze substraty, obejście zastrzeżeń patentowych. Z drugiej strony, ponieważ w równaniu Hanscha występują parametry mające określony sens fizyczny jest możliwe uzyskanie tą drogą pośrednich informacji o mechanizmie działania badanej grupy związków biologicznie Stała Sugestie σm lub σp Istotna rola zmian gęstości elektronowej w pierścieniu aromatycznym. Przypuszczalnie istotną rolę odgrywa zmiana jonizacji cząsteczki i/lub oddziaływania ładunek-ładunek lub ładunek-dipol. Istotna rola oddziaływań z wolnymi parami elektronowymi Istotna rola oddziaływań nukleofilowych Cząsteczka ulega jonizacji (oddaje elektron lub przyjmuje proton) Cząsteczka przyjmuje elektron lub parę elektronów σσ+ HOMO LUMO Obecność w równaniu Hanscha p a r a m e t r u e l e k t r o n o w e g o opisującego rozkład elektronów w cząsteczce wskazuje na znaczenie różnego rodzaju oddziaływań pomiędzy polami elektrycznymi targetu i związku biologicznie czynnego. Występowanie w równaniu refrakcji molowej RM lub polaryzowalności α sugeruje, że pomiędzy lekiem i targetem dochodzi do indukowanych interakcji dipol-dipol. Jeśli istotny dla aktywności biologicznej jest moment dipolowy µ to prawdopodobnie mamy do czynienia z interakcją typu dipol-ładunek, a jeśli kwadrat momentu dipolowego to interakcja typu dipol-dipol indukowany. 8.2.6. Przykłady zastosowań. Poniżej przedstawiono trzy przykłady zastosowania metody Hanscha do poszukiwania zależności struktura - aktywność dla różnych grup związków. Przykład 8.7: Estry i amidy edeiny A (J. Mazerski, B. Woynarowska & E. Borowski, Proceedings of the XVth European Peptide Symposium, Gdańsk 1978, str.373-375) + NH + 3 NH H O O CH 3 H 2 H NH NH NH HO H HO H O CO O NH H + 3 HO NH + Edeina A + NH O NH 2 NH 3 O Edeina A należy do grupy antybiotyków peptydowych produkowanych przez bakterię Bacillus brevis. Antybiotyki tej grupy charakteryzują się szerokim spektrum przeciwbakteryjnym i przeciwgrzybowym. Wykazują również aktywność immunosupresyjną i cytotoksyczną. Niestety charakteryzują się również bardzo wysoką toksycznością w stosunku do organizmów wyższych. Celem omawianych tu 16 czynnych. Występowanie lub brak w uzyskanym modelu określonych członów sugeruje istotność takich a nie innych oddziaływań dla aktywności biologicznej w testowanym układzie. Poniżej zestawiono typową interpretację roli poszczególnych członów i parametrów w równaniu Hanscha. Obecność w równaniu członu opisującego w ł a ś c i w o ś c i l i p o f i l o w e (logP, π lub RM) oznacza, że w układzie istotny jest transport związku lub jego wiązanie z elementami surowicy. Występowanie członu kwadratowego pozwala wyznaczyć optymalne właściwości lipofilowe. Brak tego członu wskazuję, że znajdujemy się z dala od optimum (można się spodziewać poprawy aktywności), a znak współczynnika dostarcza informacji o kierunku zmian. Istotność parametru elektronow e g o typu stałej Hammetta wskazuje na istotność efektów elektronowych. W zależności od tego jaki konkretny rodzaj stałej okaże się istotny mamy podstawy do snucia hipotez o mechanizmie oddziaływania z receptorem: badań było określenie ilościowych zależności pomiędzy właściwościami estrów i amidów edeiny A, a ich aktywnością w stosunku do modelowych komórek pro- i eukariotycznych. Zaplanowano otrzymanie 10 pochodnych tego antybiotyku na grupie karboksylowej (patrz wzór powyżej): - 4 estrów alkilowych: metylowego, etylowego, butylowego i amylowego - 3 amidów alifatycznych: etylowego, butylowego i heksylowego - 3 amidów z dodatkową grupą aminową: 2-N,N-dimetyloaminoetylowego, 4-aminobutylowego i 5-N,N-dime tyloaminoamylowego Łącznie z edeiną oraz produktem wewnątrzcząsteczkowej cyklizacji tworzy to serię 12 związków. Dla całej serii oznaczono aktywność biologiczną w 3 testach mikrobiologicznych: - drożdze S.cerevisiae - bakterie Gram+ B.subtilis - bakterie Gram- E.coli Jako miarę aktywności przyjęto pIC50. Właściwości fizykochemiczne opisano przy pomocy: 2 parametrów lipofilowych * RM w układzie n-butanol/pirydyna/kwas octowy/woda = 6/2/3/5 na celulozie * π z tablic 2 parametrów sterycznych * refrakcja molowa MR * molecular connectivity w/g Kiera ∆χ 5 parametrów binarnych opisujących: * typ pochodnej (ester 1, amid 0) IE * typ pochodnej (ester 0, amid 1) IA * obecność atomy azotu w podstawniku DN * wypadkowy ładunek cząsteczki q * ilość grup aminowych w cząsteczce n Nie użyto parametrów elektronowych, gdyż przy zastosowanych typach pochodnych nie mają one istotnego znaczenia. Ponieważ nie należy używać w jednym równaniu dwóch lub więcej parametrów tego samego typu w pierwszym etapie analizy zastosowano pary równań zawierające RM i refrakcję molową MR lub indeks Kiera. W każdym z równań stosowano wszystkie parametry binarne. Przy ustalaniu równań modelu zastosowano metodę odrzucania uzyskując dla poszczególnych drobnoustrojów następujące pary równań: Część IV: Metody QSAR S.cerevisiae (1) pIC50 = -2,2 RM - 0,038 MR + 0,50q - 2,69 R = 0,913 (2) pIC50 = -1,4 RM - 0,044(∆χ)2 - 0,91 R = 0,848 B.subtilis (3) pIC50 = -1,3 RM - 1,73 R = 0,746 (4) W I etapie analizowano 4 różne równania Hanscha (po jednym dla każdego parametru sterycznego). Ze wszystkich po zastosowaniu metody odrzucania otrzymano ten sam model: R = 0,848 pED50 = -0,074π2 + 2,57 Model ten był adekwatny. Tym samym wykazano, że efekty steryczne wokół terminalnego atomu azotu nie mają istotnego wpływu na aktywność przeciwnowotworową (przynajmniej w tym teście). 4.0 pIC50 = -1,0 RM - 0,17(∆χ)2 + 0,5(∆χ)- 1,85 R = 0,928 E.coli (5) (6) pIC50 = -1,1 RM + 0,20q - 2,52 R = 0,901 pIC50 = -2,8(RM)2-2,6RM - 0,40(∆χ) +1,4DN - 1,61 R = 0,981 Uzyskane zależności wskazują, że we wszystkich testach aktywności istotny jest wpływ właściwości lipofilowych. Jednakże zastosowany parametr empiryczny nie pozwala przewidzieć właściwości związków na etapie ich projektowania. Dlatego też w II etapie zastosowano wyłącznie parametry tablicowe lub obliczane i uzyskano zależności: S.cerevisiae (7) pIC50 = 0,33π - 0,10(∆χ)2 + 0,28q - 1,64 R = 0,903 B.subtilis (8) pIC50 = 0,44π -0,12(∆χ)2 + 0,58n - 3,72 R = 0,948 E.coli (9) pIC50 = 0,50π -0,11(∆χ)2 +0,99DN - 0,79 R = 0,956 Uzyskane równania wskazują, że model zależności powinien zawierać parametr lipofilowy, steryczny oraz wskaźnik stopnia jonizacji cząsteczki (q, n lub DN; poza edeiną i cykloedeiną parametry te są identyczne). Zastanawiające jest podobieństwo uzyskanych równań. Jedynie wpływ stopnia jonizacji jest dla każdego testu istotnie różny. Poszukując pochodnej o najwyższej aktywności widzimy że: i) właściwości lipofilowe: korzystny jest wzrost lipofilowości i to znaczny (brak istotności członu kwadratowego) ii) właściwości steryczne: korzystny możliwie mały podstawnik iii) stopień jonizacji: im większy tym lepiej. Charakterystyczne są sprzeczne przesłanki wynikające z tych postulatów: wzrost lipofilowości i wzrost stopnia jonizacji, wzrost lipofilowości i zmniejszenie podstawnika. W efekcie wydaje się, że te sprzeczne wymagania najlepiej spełniają ester i amid butylowy. ============================================== Przykład 8.8: pochodne Ledakrinu (Zofia Mazerska doktorat). R 1 (C H ) N NO 2 N 23 R 2 2.0 0.0 -5.0 Analizie poddano serię 10 mono- i dialkilo pochodnych 1-nitro-9-aminopropyloaminoakrydyny o właściwościach przeciwnowotworowych. Jako miarę aktywności przeciwnowotworowej przyjęto pED50 - ujemny logarytm z dawki obniżającej o 50% ciężar guza w mysim mięsaku Sa-180. Jako parametry fizykochemiczne przyjęto: * parametr lipofilowy Hanscha π * 4 różne tablicowe parametry steryczne. 5.0 R = 0,834 I to równanie również było adekwatnym modelem zależności. Jakość obu modeli jest praktycznie jednakowa i z punktu widzenia statystyki są one równocenne. Jednakże wnioski z nich płynące są diametralnie odmienne (patrz wykres obok). Model kwadratowy sugeruje, że maksimum aktywności jest już osiągnięte dla π=0 (pEDmax = pED50(0) = 2,57 wobec pED(n-Pro)=2,61, pED(di-Me)=2,53, pED(Et)=2,56). Model liniowy zapowiada wzrost aktywności dla związków o ujemnym π, np. pED(π=-1)=2,97, a pED(π=-2)=3,21. W tej sytuacji rozróżnienie pomiędzy obu modelami było sprawą kluczową dla dalszego poszukiwania nowych związków z tej grupy. Zaprojektowano więc i wykonano syntezę 4 nowych pochodnych: 3 o ujemnym π: -CH2-CH2-OH o π = -0,16 -CH(CH3)(CH2-OH)2 o π = -0,65 -C(CH2-OH)3 o π = -1,81 oraz pochodną n-heksylową o π = 3,0 dla poszerzenia zakresu zmienności. W trakcie badań biologicznych żadna z pochodnych nie była aktywniejsza niż związki wcześniej zsyntetyzowane. Ponownie wyznaczono współczynniki równania Hanscha dla 4 zestawów parametrów i ponownie otrzymano z każdego zestawu takie same równanie: pED50 = -0,90π2 + 0,083π + 2,47 R = 0,887 N H 0.0 Analizując zakres π jaki obejmują badane związki zauważono ważny fakt: wszystkie wartości π były dodatnie i leżały w przedziałe od 0 do 3. W tej sytuacji nie dziwi wysoka korelacja pomiędzy zmiennymi π i π2 (r = 0,979). Nasuwało to wątpliwości co do prawidłowego wyboru przez metodę odrzucania kwadratu parametru lipofilowego, a nie samego parametru, w trakcie usuwania nieistotnych parametrów. Po świadomym usunięciu π2 z danych początkowych uzyskano równanie: pED50 = -0,24π + 2,73 n = 14 s = 0,11 Równanie to opisuje paraboliczną zależność aktywności przeciwnowotworowej od właściwości lipofilowych z maksimum aktywności pEDmax = 2,47 przypadającym dla π~0,5. Tak więc widać teraz, że bliższy prawdy był poprzednio model kwadratowy. Z uzyskanej zależności widać też wyraźnie, że nie należy się w tej grupie pochodnych spodziewać związków o aktywności dużo wyższej niż ok. 2,5, a ewentualne dalsze poszukiwania pochodnych o lepszych właściwościach farmakologicznych( mniejsza toksyczność, lepsza rozpuszczalność w wodzie) dotyczyć powinny związków o π ~ 0,5. 17 Część IV: Metody QSAR ∗ wysoką (jak najmniej ujemną) energią HOMO. Dwa ostatnie wymogi są przeciwstawne, lecz wpływ LUMO jest ok. 4 razy silniejszy i on decyduje. Obliczono wartości energii LUMO i HOMO dla różnych kombinacji grup hydroksylowych w pozycjach od R2 do R5 i okazało się, że najkorzystniejszymi wartościami tych energii charakteryzują się związki zawierające 2 grupy hydroksylowe w pozycjach R3 i R4. Związek o takiej strukturze części aromatycznej i łańcuchu C13 wykazał znaczącą aktywność przeciwnowotworową w dwóch testach na mysich nowotworach przeszczepialnych. ========================================= 4.0 2.0 8.3. Inne metody regresyjne. 0.0 -5.0 0.0 5.0 ============================================== Przykład 8.9: Długołańcuchowe fenole o właściwościach cytotoksycznych (H.Itokawa, N.Totsuka et al., Chem.Pharm.Bull. 37,1619-1621(1989)). (CO O H) OH Duża popularność metody Hanscha (był okres w latach '70, gdy cały QSAR utożsamiano z metodą Hanscha) spowodował dążenie do jej poszerzenia na przypadki, gdy klasyczna metoda zawodziła. Spośród licznych propozycji, trwałe miejsce w QSAR znalazły 2 modyfikacje: ∗ uogólniony model kwadratowy ∗ zależność bilinearna Kubinyiego. Poniżej zostaną one pokrótce omówione. Uogólniony model kwadratowy. W swej pełnej postaci: logA = ao + a11π2 + a22σ2 + a33Es2 +a1π + a2σ + a3Es + a12πσ + a13πEs + a23σEs C H 15 29 (O H) Autorzy badając wyciąg z krzewu jarząbu japońskiego (Ginkgo biloba L.) stwierdzili cytotoksyczność tych wyciągów. Dalsze badania wykazały, że za aktywność biologiczną odpowiedzialne są fenole zawierające 15 węglowy łańcuch alifatyczny (patrz struktura po prawej). R R 2 3 R Model bilinearny Kubinyiego logA R 1 uogólniony model kwadratowy wymaga zidentyfikowania 10 współczynników czyli może być zastosowany tylko w przypadku dużej serii związków (co najmniej 40÷50). Ponadto brak jest jak dotychczas uzasadnienia teoretycznego i interpretacji sensu fizycznego członów opisujących wpływy mieszane (ostatnia linia wzoru). Obydwa te wady powodują, że w praktyce model ten bywa zwykle stosowany w wersji skróconej zawierającej człony liniowe i 2 lub 3 człony kwadratowe. 4 R 5 Chcąc określić rolę poszczególnych elementów struktury zsyntetyzowano 29 związków o wzorze ogólnym zamieszczonym obok (po lewej). W pozycji R1 użyto 5 różnych łańcuchów alifatycznych od C7 do C15, a w pozycjach od R2 do R5 występowały grupy fenolowe lub atomy wodoru. Jako miarę aktywności biologicznej przyjęto pED50 w hodowli komórkowej na linii komórek nowotworowych chomika syryjskiego. Jako parametry fizykochemiczne przyjęto: i) logP w układzie n-oktanol/woda; ii) EHOMO - energię najwyższego obsadzonego orbitalu molekularnego; iii) ELUMO energię najniższego nieobsadzonego orbitalu molekularnego. Energie LUMO i HOMO mają swoje przybliżone interpretacje chemiczne. Energia LUMO opisuje względne właściwości elektronoakceptorowe (podatność na redukcję), a energia HOMO właściwości elektronodonorowe (podatność na utlenianie, łatwość protonowania). Nie stosowano stałych Hammetta, gdyż nie są to parametry addytywne i nie nadają się do stosowania w przypadku pochodnych podstawionych jednocześnie w wielu miejscach. Po zastosowaniu metody Hanscha uzyskano zależność: pED50 = -0,016(logP)2 + 0,28logP - 4,1ELUMO + 1,1EHOMO + 10,58 R = 0,905 n = 29 s = 0,18 Aktywność cytotoksyczna badanych fenoli zależy głównie od lipofilowości (optymalny logP = 8,3) i poziomu energetycznego LUMO. Wpływ energii HOMO jest dużo mniej istotny. Związek o wysokiej aktywności powinien więc charakteryzować się: ∗ logP ~ 8, co odpowiada łańcuchowi C13 ∗ niską (możliwie ujemną) energią LUMO 18 logP W szeregu przypadkach zaobserwowano niesymetryczną zależność aktywności biologicznej od logP lub π. Na lewo od optimum nachylenie jest inne niż na prawo. Dla opisu takich przypadków Kubinyi zaproponował tzw. zależność bilinearną o postaci: logA = a×logP - b×log(β×P + 1) + c Przykład krzywej bilinearnej pokazano na wykresie obok. Dla logP<<logPmax zależność dąży asymptotycznie do prostej o równaniu: logA = a×logP + c a dla logP >> logPmax dąży do prostej o równaniu: logA = (a-b)×logP + c - b×logβ Podstawową niedogodnością modelu bilinearnego jest konieczność nieregresyjnego, iteracyjnego wyznaczania wartości współczynników. Typowe pakiety oprogramowania statystycznego nie pozwalają na pokonanie tego problemu. Dlatego też model bilinearny stosowany bywa jedynie sporadycznie i tylko w przypadku wyraźnej asymetrii Część IV: Metody QSAR zależności aktywności lipofilowych. biologicznej od właściwości 9. Nieregresyjne metody optymalizacji struktury W latach '70, po wykazaniu słuszności założeń metody Hanscha, jedną z przeszkód w jej szerokim stosowaniu okazała się bariera statystyczno-obliczeniowa. Rozwiązanie równania Hanscha wymaga pewnego nakładu pracy obliczeniowej, zwłaszcza gdy należy powtórzyć kilkakrotnie obliczenia dla różnych zestawów parametrów lub gdy odrzucamy człony nieistotne. Wykonanie takich obliczeń ręcznie, nawet z zastosowaniem kalkulatora (a był to na początku lat '70 jeszcze dosyć drogi i rzadki przyrząd), wymaga kilku godzin żmudnych obliczeń. Dostęp do komputerów był wtedy bardzo ograniczony. Ponadto większość chemików, biologów i farmakologów nie posiadało dostatecznej znajomości podstaw statystyki, aby z lawiny równań produkowanych przez komputer wybrać prawidłowo to najlepsze. Poniższy przykład ilustruje ten problem. Przykład 9.1: Liczba uproszczonych równań otrzymywanych z równania Hanscha. Klasyczne, pełne równanie Hanscha: logA = ao + a1π2 + a2π + a3σ + a4Es wartości parametrów wykonujemy "mapę" - planszę metodyw układzie π-σ (dla aromatycznej struktury bazowej) lub π-Es (dla alifatycznej struktury bazowej). Wybieramy teraz trzy pochodne tworzące w pobliżu środka mapy możliwie równoramienny trójkąt. Wybrane związki syntetyzujemy i oznaczamy ich aktywność biologiczną. Rozpoczynamy teraz poszukiwanie maksimum aktywności biologicznej uproszczoną metodą sympleksów (patrz przykład poniżej). Z wierzchołka trójkąta odpowiadającego pochodnej o najniższej aktywności prowadzimy środkową przeciwległego boku i w obszarze mapy przez który przechodzi ta prosta poszukujemy punktu tworzącego nowy, możliwie równoramienny trójkąt. Po wybraniu nowego wierzchołka syntetyzujemy odpowiadający mu związek i oznaczamy jego aktywność biologiczną. Powstał w ten sposób nowy simpleks z którym postępujemy analogicznie jak z simpleksem poprzednim. Postępowanie przerywamy, gdy osiągneliśmy już maksimum aktywności lub wyczerpały się możliwe do otrzymania pochodne w kierunku oczekiwanego maksimum. Przykład 9.2: Metoda Darvasa. Tworzymy mapę przedstawiającą właściwości lipofilowe (π) i elektronowe (σ) wybranych pochodnych aromatycznych podstawionych w pozycjach 3- i 4-pierścienia fenylowego. σ zawiera 4 człony. Przy rozpatrywaniu uproszczonych wersji tego równania mamy: ♦ 4 równania z jedną zmienną ♦ 6 równań z dwiema zmiennymi ♦ 4 równania z trzema zmiennymi ♦ 1 równanie z czterema zmiennymi (pełne) W sumie 15 równań. Dla każdego z tych równań należy obliczyć współczynniki i charakterystyki statystyczne, a następnie dokonać wyboru rónania lub równań najlepszych. ============================================== Pojawiły się więc próby opracowania metod projektowania nowych pochodnych bazujące na wiedzy o wpływie właściwości fizykochemicznych na aktywność biologiczną, ale bez korzystania z równań regresji. Szeroką swego czasu popularność zdobyły dwie z nich: metoda Darvasa schematy operacyjne Toplissa W chwili obecnej, gdy właściwie każdy badacz ma lub może mieć dostęp do komputera osobistego, a rozwój oprogramowania przeznaczonego do opracowywania danych doprowadził do sytuacji gdy wyznaczanie współczynników równań regresji jest sprawą trywialną, metody nieregresyjnej optymalizacji struktury utraciły swoje znaczenie. Pomimo to warto się zapoznać, choćby pobieżnie, z założeniami tych metod. 3NO2;4CF3 3NO2 ;4Cl 4NO2 4CN 3NO 2 4CF3 3Cl 4COMe 3CF3 3Cl;4Cl 4Br 4Cl π H 4NHMe 3Me 4Me 4OMe 4NH2 W pierwszym etapie zaplanowano syntezę trzech związków: - związku niepodstawionego (logA = 0,155) - 4 -COCH3 (logA = 0,462) - 4 -Cl (logA = 0,301). tworzących simpleks początkowy. Związek niepodstawiony tworzy najgorszy wierzchołek i z niego prowadzimy środkową przeciwległego boku. σ 3NO2;4CF3 3NO2 ;4Cl 4NO2 9.1. Metoda Darvasa. Pomysł opiera się na założeniu, że aktywność biologiczna daje się opisać jako ciągła funkcja d w ó c h parametrów fizykochemicznych: ♦ π i σ dla pochodnych aromatycznych ♦ π i Es dla związków alifatycznych. Postać matematyczna tej funkcji nie jest nam znana i nie dążymy do jej poznania. Naszym celem jest znalezienie maksimum tej funkcji (aktywności) dzięki jej "próbkowaniu" poprzez syntezę i oznaczanie aktywności odpowiednio dobranych pochodnych. Z algorytmicznego punktu widzenia metoda Darvasa opiera się na metodzie simpleksów. W pierwszym etapie należy określić zestaw podstawników które można wprowadzić do struktury bazowej bez nadmiernych problemów syntetycznych. Dla tak dobranego zestawu pochodnych, w oparciu o tablicowe 4CN 3NO 2 4CF 3 3Cl 4COMe 4Cl H 4NHMe 3Me 3CF3 3Cl;4Cl 4Br π 4Me 4OMe 4NH2 Jako nowy wierzchołek wybieramy np. pochodną 4 -NO2. Powstaje w ten sposób drugi simpleks: - 4 -Cl (logA = 0,301) - 4 -COCH3 (logA = 0,463) - 4 -NO2 (logA = 0,845) Najgorszym wierzchołkiem jest pochodna 4-chloro i z niej prowadzimy środkową przeciwległego boku. 19 Część IV: Metody QSAR σ σ 3NO2;4CF3 3NO2;4CF3 3NO2 ;4Cl 3NO2 ;4Cl 4NO2 4CN 4NO2 3NO 2 4CN 4CF 3 3Cl 4COMe 4Br 4Cl π H 3Me 4CF 3 3Cl 4COMe 3CF3 4Cl 4NHMe 3NO 2 3Cl;4Cl H 4Me 4NHMe 4OMe 3CF3 3Cl;4Cl 4Br π 4Me 3Me 4OMe 4NH2 4NH2 Jako nowy wierzchołek wybieramy np. 4-cyjano. Powstaje w ten sposób trzeci simpleks: 4-COCH3 (logA = 0,463) 4-NO2 (logA = 0,845) 4-CN (logA = 1,020). Środkowa wyprowadzona z wierzchołka 4-acetylo prowadzi jednak w obszar mapy pozbawiony możliwych do zsyntetyzowania pochodnych. W tej sytuacji jako najaktywniejszy związek uznajemy pochodną 4-cyjano. ============================= 8.2. Schematy operacyjne Toplissa. Założeniem metody jest przyjęcie tezy Hanscha, że aktywność biologiczna zależy od zmian właściwości fizykochemicznych. Topliss opracował odpowiednie schematy dla doboru podstawników w pierścieniu benzenowym oraz dla doboru podstawników w układzie alifatycznym (patrz poniżej). Schemat I: Schemat Toplissa doboru podstawników pierścienia benzenowego. L 3 4 Cl; Cl 3 4 L 4 CH 3 Cl CF 3 ;NO 2 T CF 3 G 4 4 3 4 CF 3 ;Cl 4 C(CH 3 ) 3 2 3 Cl G NO 2 3 5 4 CH 3 ;CH 3 L 3 T 3 T 3 4 4 Cl;Cl CF 3 CH 3 G 3N(CH ) 32 5 3 Cl NO 4 4 COCH 4 SO L N(CH 3 ) 2 T 4 OCH 4 3 4 CN 3 F 4 CONH 3 4 CH3 SO 2 2 NH2 4 CH 3 ;N(CH 3 ) 2 T 4 G NH 2 4 OH 3 4 CH 3 ; OCH 3 3 G Cl Schematy te umożliwiają wybór kierunku syntezy następnych związków w zależności od wyników biologicznych związków poprzednio zsyntetyzowanych. Mogą one być szczególnie pomocne w pracach chemikasyntetyka nie mającego możliwości lub chęci przeprowadzenia obliczeń komputerowych. W przypadku podstawników pierścienia benzenowego startujemy od związku niepodstawionego. Ponieważ w większości przypadków aktywność biologiczna 20 3 2 2 OCH CH 3 2 NO 2 2 2 4 L 3 CF 3 ;CF 3 Cl;Cl zależy od lipofilowości więc jako pierwszą pochodną Topliss zaproponował pochodną 4-chloro (π=0,70; σ=0,23; Es=0,27). Pochodna ta może mieć aktywność lepszą (L), taką samą (T) lub gorszą (G) niż związek niepodstawiony. Wzrost aktywności może wynikać ze wzrostu lipofilowości i/lub efektów elektronowych. Dlatego też w przypadku wzrostu aktywności dla 4-chloropochodnej schemat proponuje "pójść za ciosem" i dalej zwiększać oba efekty: pochodna 3,4dichloro (π=1,25; σ=0,52). Część IV: Metody QSAR -CO-R -NHR -CO-NHR i -NH-CO-R. Schemat opiera się na parametrach π, σ* i Es, z tym że głównie brana jest pod uwagę lipofilowość i zawada przestrzenna. Pochodna 3,4-dichloro może być bardziej aktywna niż 4chloro, mieć taką samą aktywność lub wykazywać spadek aktywności. I tu znowu schemat przewiduje odpowiednie postępowanie. Analogiczne wnioskowanie przeprowadzić można w sytuacji gdy 4-chloropochodna obniża aktywność. Topliss zaproponował również schemat doboru podstawnika R w ugrupowaniach typu: Schemat II: Schemat Toplissa doboru podstawników w układach alifatycznych. L L c-C 5 H9 G L i-C 3 H7 T C 2 H5 c-C 6 H11 CH 2 C6 11 H c-C 4 H7 CH 2 c- 3 C5 T CHCl 2 CF 3 CH 2 SCH3 H H t-C 4 H7 CH 3 G G CH 2 CH2 6C 11H T CH 2 OCH 3 CH 2 CF3 CH 2 C6 5H CH 2 SO2 CH 3 Obydwie przedstawione tu nieregresyjne metody optymalizacji struktury mają pewną istotną niedogodność: są metodami krokowymi. Po syntezie kolejnego związku czekamy (zwykle długo) na zbadanie jego aktywności biologicznej i w oparciu o nią planujemy kolejną syntezę. Prowadzi to do bardzo długiego toku poszukiwania. Jednakże tylko metodą krokową można uzyskać maksymalny efekt przy minimalnej ilości syntez. 21 Część IV: Metody QSAR ZADANIA Zadanie 1: W oparciu o zamieszczoną poniżej tabelę struktur i aktywności przeciwgrzybowych pochodnych etylobenzenu określ wpływ poszczególnych podstawnikopozycji na aktywność biologiczną stosując metodę Free-Wilsona. W tym celu: i) określ jednoznacznie numery i nazwy poszczególnych podstawnikopozycji ii) napisz w postaci jawnej macierz podstawnikopozycji i odpowiadajacy jej wektor aktywności iii) wprowadź powyższe dane do programu REGR, znajdź poprawne równanie regresji i na jego podstawie dokonaj oszacowania aktywności pochodnej o przypuszczalnie najwyższej aktywności. iv) wiedząc że odchylenie standardowe oznaczeń aktywności wynosi 0,4 określ addytywność wpływu podstawników. Puste miejsca w tabeli oznaczają, że w tym miejscu występuje wodór. związek X B1 B2 B3 B4 B5 B6 B7 B8 B9 B10 B11 B12 B13 B14 B15 B16 B17 B18 B19 OH NH2 OH OH NH2 OH OH OH OH OH OH NH2 NH2 NH2 NH2 podstawniki R2 Me Me Me Cl Cl Cl OMe OMe OMe OMe Cl Me Me Cl OMe 22 podst. 4' NH2 OCH3 NO2 H OH Cl NHCOCH3 Br NHCH3 NHC2H5 CH3 N(CH3)2 COOCH3 COOH CONHNH2 NHCH2COOCH3 NHCH2COOH pIC50 M.smeg SM -0.30 -1.18 -1.94 -1.23 -0.30 -1.65 -0.38 -1.68 -0.82 -0.56 -1.21 -0.26 -0.36 -2.06 -0.73 -0.76 -1.69 R6 R2 R4 pMIC R4 R6 Me Me Me Me Me Cl Me Cl OMe 2,54 1,83 3,04 1,93 2,28 0,18 1,27 1,59 1,51 2,50 0,53 0,70 1,49 0,80 1,09 2,05 1,48 0,99 0,57 Cl OMe Cl Me OMe Me Me Cl Cl OMe OMe Cl OMe OMe Zadanie 2: W oparciu o zamieszczone poniżej dane znajdź zależność pomiędzy aktywnością przeciwdrobnoustrojową (pIC50) 17 pochodnych 4-aminodifenylosulfonu podstawionych w pozycji 4', a ich właściwościami fizykochemicznymi. Na podstawie uzyskanej zależności opisz cechy pochodnych o przewidywanej wysokiej aktywności. Symbol CO-1 CO-2 CO-3 CO-4 CO-5 CO-6 CO-7 CO-8 CO-9 CO-10 CO-11 CO-12 CO-13 CO-14 CO-15 CO-16 CO-17 X CH2 CH2 π -1.23 -0.02 -0.28 0.00 -0.67 0.71 -0.97 0.86 -0.47 -0.08 0.56 0.18 -0.01 -4.36 -1.92 -0.95 -3.59 π .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... ppm -0.253 -0.127 0.111 0.000 -0.156 0.004 -0.114 0.000 -0.253 -0.250 -0.091 -0.237 0.005 0.030 -0.003 -0.141 -0.141 O NH2 S O ICOOH 0 0 0 0 0.45 0 0 0 0 0 0 0 0 1 0 0 1 X