rozprawa doktorska - MALDI ToF

Komentarze

Transkrypt

rozprawa doktorska - MALDI ToF
POLITECHNIKA WARSZAWSKA
Wydział Elektroniki i Technik
Informacyjnych
ROZPRAWA DOKTORSKA
mgr inż. Tymon Rubel
Wybrane metody analizy danych w proteomice.
Promotor
prof. nzw. dr hab. inż. Krzysztof Zaremba
Warszawa, 2009
Streszczenie
Spektrometria
mas
jest
obecnie
jedną
z
podstawowych
technik
analitycznych
wykorzystywanych w badaniach dużych zbiorów białek tworzących proteomy organizmów.
W typowych eksperymentach proteomicznych zadaniem układu pomiarowego złożonego ze
spektrometru mas sprzężonego z systemem chromatografii cieczowej (LC-MS) jest
identyfikacja składu białkowego próbek. W ostatnich latach można jednak zaobserwować
wzrastające zainteresowanie wykorzystaniem spektrometrii mas również w badaniach
o charakterze ilościowym.
W rozprawie przedstawiono metodę umożliwiającą przeprowadzenie analizy
ilościowej na podstawie danych dostarczanych przez technikę pomiarową LC-MS bez
konieczności znakowania próbek izotopami stabilnymi. Opracowany został zestaw
algorytmów realizujących wszystkie konieczne do przeprowadzenia tego typu analizy kroki
przetwarzania danych spektrometrycznych, począwszy od gromadzenia wiedzy o składzie
białkowym próbek, przez wykorzystanie jej podczas ekstrakcji cech o charakterze ilościowym
z widm mas, aż do etapu obróbki mającej na celu poprawę jakości danych sprowadzonych do
postaci liczbowej. Prezentowana metoda ma szeroki zakres stosowalności i może być użyta
do oceny względnych zmian ekspresji zarówno peptydów, jak i białek.
Działanie metody i implementującego ją oprogramowania zostało zweryfikowane przy
użyciu zbiorów danych pochodzących z rzeczywistych badań proteomicznych, jak i danych
syntetycznych, przygotowanych na potrzeby niniejszej rozprawy. Wyniki działania
algorytmów realizujących kolejne kroki przetwarzania danych zostały porównane
z rozwiązaniami prezentowanymi w literaturze.
2
Summary
Mass spectrometry has increasingly become the method of choice for large-scale analysis in
the field of proteomics. In typical proteomic experiments liquid chromatography coupled to
tandem mass spectrometry (LC-MS) was mostly used for the identification of proteins in
complex biological samples. Recently, there is an increasing interest in obtaining also protein
abundance measurements directly form mass spectrometry data.
In this thesis a LC-MS-based methodology is presented that allows relative changes in
abundance of peptides and proteins to be determined without the use of stable isotope
labelling. An integrated suite of algorithms was developed for all mass spectrometry data
processing stages needed for quantitative analysis, including: collecting information on the
samples composition, quantitative features extraction from mass spectra and further
processing aimed at enhancing the quality of the data.
The proposed method and software were verified on both real-studies and synthetic
datasets. The results obtained with the developed algorithms for data processing have been
compared to the results of commonly used reference techniques.
3
Podziękowania
Niniejsza rozprawa nie mogłaby powstać bez pomocy szeregu osób, którym w tym miejscu
chciałbym
gorąco
podziękować.
W
pierwszej
kolejności
promotorowi
rozprawy,
Krzysztofowi Zarembie za pomoc merytoryczną podczas przygotowywania rozprawy, ale
również za wręcz nieprzebrane zasoby optymizmu, cierpliwości i dobrej woli. Nie sposób
również nie wspomnieć w tym miejscu prof. Zdzisława Pawłowskiego, człowieka
o imponującej wiedzy i niespotykanej serdeczności, któremu zawdzięczam wejście na drogę
prowadzącą do napisania tej pracy. Trudny do przecenienia wpływ, zarówno na niniejszą
pracę, jak i na całokształt mojej działalności badawczej mieli prof. Jerzy Ostrowski oraz prof.
Michał Dadlez. Dziękuje im za wsparcie, inspirację, motywację i, co być może najważniejsze,
nadanie mojej pracy sensu praktycznego. Osobne podziękowania kieruję do wszystkich osób
z Instytutu Biochemii i Biofizyki PAN i Centrum Onkologii w Warszawie, które przyczyniły
się powstania związanego z niniejszą pracą oprogramowania. W szczególności chciałbym
podziękować Magdzie Bakun, Agacie Malinowskiej, Jarkowi Poznańskiemu, Jackowi Sikorze
i Kubie Karczmarskiemu za pomoc, radę i miło spędzony wspólnie czas.
4
SPIS TREŚCI
1. Wstęp
7
1.1. Motywacja.................................................................................................................................. 7
1.2. Cel i zakres pracy.......................................................................................................................
9
1.3. Układ pracy................................................................................................................................. 10
2. Proteomika
11
2.1. Budowa białek............................................................................................................................ 11
2.2. Związek pomiędzy proteomiką a genomiką i transkryptomiką.................................................. 12
3. Spektrometria mas
14
3.1. Widmo mas................................................................................................................................. 14
3.2. Metody jonizacji używane do badania biomolekuł.................................................................... 17
3.1.1. Jonizacja przez rozpylanie w polu elektrycznym......................................................... 17
3.1.2. Jonizacja przez desorpcję laserową w matrycy............................................................ 18
3.2. Parametry i rodzaje analizatorów............................................................................................... 19
3.2.1. Podstawowe parametry analizatorów........................................................................... 19
3.2.2. Analizatory stosowane w badaniach proteomicznych.................................................. 20
3.3. Tandemowa spektrometria mas (MS/MS).................................................................................. 23
3.4. Wstępne rozdzielanie chromatograficzny składowych próbek.................................................. 24
3.4.1. Zasada rozdziału w HPLC o odwróconej fazie............................................................ 25
3.4.2. Łączenie HPLC ze spektrometrem mas........................................................................ 26
4. Spektrometria mas w badaniach proteomicznych
28
4.1. Identyfikacja białek.................................................................................................................... 29
4.1.1. Zasady fragmentacji peptydów..................................................................................... 31
4.1.2. Algorytmy identyfikacji z użyciem baz danych........................................................... 33
4.1.3. Ograniczenia skuteczności identyfikacji peptydów i białek......................................... 34
4.2. Analiza ilościowa........................................................................................................................ 36
4.2.1. Metody ze znakowaniem izotopowym......................................................................... 37
4.2.2. Metody bez znakowania izotopowego.......................................................................... 38
4.2.3. Ograniczania metod analizy ilościowej bez znakowania izotopowego........................ 44
5. Metoda analizy ilościowej zmian ekspresji białek i peptydów w oparciu o dane z techniki LC-MC 46
5.1. Ogólna charakterystyka proponowanej metody......................................................................... 46
5.2. Gromadzenie wiedzy o składzie próbek..................................................................................... 47
5.2.1. Eliminacja fałszywie pozytywnych identyfikacji......................................................... 48
5.2.2. Wyznaczanie parametrów przeszukiwania bazy danych.............................................. 51
5.2.3. Redukcja redundancji wyników identyfikacji.............................................................. 54
5.3. Model widma mas peptydu......................................................................................................... 55
5.3.1. Położenie widma wzdłuż osi m/z.................................................................................. 55
5
5.3.2. Kształt przekroju widma w kierunku osi m/z................................................................ 56
5.3.3. Położenie widma wzdłuż osi czasu retencji.................................................................. 60
5.3.4. Kształt przekroju widma w kierunku osi czasu retencji............................................... 68
5.4. Przetwarzanie pełnych widm mas próbek.................................................................................. 69
5.4.1. Dwuwymiarowa reprezentacja pełnych widm mas próbek.......................................... 69
5.4.2. Ekstrakcja wartości liczbowych z pełnych widm mas próbek..................................... 71
5.5. Przetwarzanie danych liczbowych.............................................................................................. 74
5.5.1. Transformata logarytmiczna......................................................................................... 75
5.5.2. Imputacja brakujących wartości................................................................................... 75
5.5.3. Normalizacja................................................................................................................. 79
5.5.4. Redukcja szumu............................................................................................................ 82
6. Wyniki
84
6.1. Opis zbiorów danych.................................................................................................................. 84
6.2. Gromadzenie wiedzy o składzie próbek..................................................................................... 87
6.2.1. Eliminacja fałszywie pozytywnych identyfikacji......................................................... 87
6.2.2. Kalibracja widm fragmentacyjnych.............................................................................. 90
6.3. Model widma mas peptydu......................................................................................................... 93
6.3.1. Predykcja czasu retencji................................................................................................ 93
6.3.2. Obwiednia izotopowa i profil elucji............................................................................. 97
6.4. Ekstrakcja wartości liczbowych z pełnych widm mas próbek...................................................101
6.5. Przetwarzanie danych liczbowych..............................................................................................106
6.5.1. Imputacja brakujących wartości...................................................................................106
6.5.2. Normalizacja.................................................................................................................109
7. Zakończenie
114
8. Dodatek
118
8.1. Rozszerzenia modelu widma mas peptydu.................................................................................118
8.1.1. Wyznaczanie pełnego rozkładu izotopowego...............................................................118
8.1.2. Wyznaczanie przybliżonego rozkładu izotopowego bez znajomości sekwencji..........119
8.2. Wybrane metody referencyjne....................................................................................................120
8.2.1. Normalizacja kwantylowa............................................................................................120
8.2.2. Imputacji brakujących przy użyciu rozkładu na wartości szczególne..........................120
8.3. Oprogramowanie........................................................................................................................121
8.3.1. MascotScan – przetwarzanie wyników identyfikacji składu próbek...........................121
8.3.2. MSparky – przetwarzanie pełnych widm mas próbek.................................................122
8.3.3. ShowArray – przetwarzanie danych w postaci liczbowej i analiza statystyczna.........123
9 Spis skrótów i oznaczeń
125
10. Bibliografia
129
6
1. WSTĘP
1.1. Motywacja
Spektrometria mas, technika analityczna umożliwiająca dokładny pomiar mas cząsteczek, jest
obecnie jednym z podstawowych narzędzi proteomiki, dziedziny wiedzy zajmującej się
badaniem zbiorów białek kodowanych przez genomy organizmów [1-4]. Stało się to możliwe
dzięki wprowadzeniu technik łagodnej jonizacji próbek biologicznych, postępowi
technicznemu w zakresie konstrukcji spektrometrów mas o wysokiej rozdzielczości,
doskonaleniu protokołów laboratoryjnych, jak i opracowaniu nowych metod analizy danych
spektrometrycznych. Rozwój tych ostatnich jest niezwykle istotny, zważywszy, że
spektrometr jest przyrządem o bardzo prostej zasadzie pomiarowej, potrafiącym rejestrować
jedynie liczby jonów o różnych wartościach stosunku masy do ładunku. Powoduje to, że
bezpośrednie wyniki pomiaru nie poddają się łatwej interpretacji, a wnioskowanie na ich
podstawie o strukturze złożonych cząstek, takich jak białka, jest możliwe wyłącznie dzięki
stosowaniu odpowiednich algorytmów przetwarzania danych.
W typowych eksperymentach proteomicznych spektrometr mas dostarcza informacji
o składzie białkowym próbek wstępnie rozdzielonych przy użyciu jedno- lub dwukierunkowej
elektroforezy w żelach poliakrylamidowych [5]. Analizie spektrometrycznej poddawane są
pojedyncze białka, po uprzednim podzieleniu ich sekwencji na mniejsze fragmenty (peptydy)
przez specyficznie działający enzym proteolityczny. Ze względu na dużą czasochłonność
i utrudnioną automatyzację opisanego powyżej procesu, coraz większą popularność zdobywa
alternatywne podejście, w którym pomijany jest krok elektroforezy, a do spektrometru
wprowadzane są peptydy pochodzące z wielu białek. Wstępne rozdzielenie powstałych w ten
sposób złożonych mieszanin następuje w sprzężonym ze spektrometrem systemie
wysokosprawnej
chromatografii
cieczowej.
Zastosowanie
techniki
LC-MS
(Liquid
Chromatography – Mass Spectrometry) pozwala w pojedynczym eksperymencie uzyskać
informacje o nawet tysiącach białek znajdujących się w próbkach biologicznych i ułatwia
badanie występujących pomiędzy nimi interakcji. Okupione jest to jednak znacznym
wzrostem złożoności otrzymywanych danych oraz niemożnością wykorzystania analizy
densytometrycznej obrazów żeli w celu przeprowadzenia porównań ilościowych, przez co
konieczne staje się oparcie ich w całości na danych dostarczanych przez spektrometr.
7
Ze względu na fakt, że pierwotnym zastosowaniem spektrometrii mas w badaniach
proteomicznych była analiza jakościowa składu próbek, większość prowadzonych
początkowo prac badawczych skupiała się nad rozwojem metod identyfikacji sekwencji
białek i peptydów. W ich wyniku powstał szereg powszechnie używanych systemów
identyfikacji opartych na wykorzystaniu baz danych sekwencji aminokwasowych [6-18].
Natomiast zagadnienia związane z wykorzystaniem danych z techniki LC-MS w analizie
ilościowej białek wciąż nie doczekały się w pełni satysfakcjonujących rozwiązań, ani
o charakterze komercyjnym, ani wolnodostępnym. Trudnością jest w tym wypadku nie tylko
stopień skomplikowania i dochodzący do wielu gigabajtów rozmiar widm mas próbek.
Poważnym problemem jest również rozdzielenie informacji ilościowych i jakościowych
pomiędzy dwa rodzaje danych pomiarowych, pochodzących z dwóch różnych trybów pracy
spektrometru. Umożliwiające identyfikację białek dane z trybu sekwencjonowania nie niosą
informacji o ich ilości, natomiast dane generowane w trybie zbierania pełnych widm mas
mają charakter czysto ilościowy i nie pozwalają określić sekwencji aminokwasów.
Pomimo wspomnianych przeszkód wiele zespołów prowadzi intensywne prace
badawcze nad metodami analizy ilościowej w oparciu o dane spektrometryczne [19-29]. Duże
zainteresowanie tą problematyką wynika z faktu, że jakkolwiek w części badań
proteomicznych już samo poznanie składu próbek jest w zupełności wystarczające, to jednak
istnieją zastosowania, dla których kluczowe znaczenie ma możliwość oceny zmian ekspresji
białek i peptydów. Szczególnie istotne jest to w przypadku zastosowań związanych
z medycyną, o których myśl towarzyszy proteomice niemalże od samego początku jej
istnienia, co nie może dziwić, zważywszy, że białka pełnią kluczową rolę w bez mała
wszystkich procesach zachodzących w organizmie. Wyniki prowadzonych na świecie prac
pozwalają wierzyć, że możliwość śledzenia jakościowych i ilościowych zmian w składzie
dużych zespołów białek tworzących proteom komórek nie tylko przyczyni się do lepszego
zrozumienia molekularnego podłoża szeregu schorzeń, ale może również dostarczyć
medycynie nowych narzędzi diagnostycznych [30-33]. W tym kontekście duże znaczenie
mają prace nad rozwojem metod nie wymagających stosowania znakowania izotopowego,
które ze względu na relatywnie prosty proces przygotowania próbek, uniwersalność i niskie
koszty wydają być się szczególnie dobrze dostosowane do potrzeb diagnostyki medycznej.
8
1.2. Cel i zakres pracy
Zasadniczym celem pracy było opracowanie metod przetwarzania danych pochodzących
z techniki LC-MS umożliwiających przeprowadzenie ilościowej oceny względnych zmian
ekspresji peptydów i białek bez konieczności stosowania znakowania izotopami stabilnymi.
W pracy przedstawiony zostanie zestaw algorytmów realizujących kolejne kroki
procesu przetwarzania danych LC-MS, w wyniku którego zostają one przekształcone ze swej
pierwotnej postaci widm mas w zbiór jednoznacznie określonych cech (peptydów lub białek)
o wartościach proporcjonalnych do ilości w jakiej odpowiadające im cząstki występują
w poszczególnych próbkach. Ten wieloetapowy proces obejmuje:
●
gromadzenie, weryfikację i porządkowanie wiedzy jakościowej o obecnych
w badanych próbkach peptydach i zidentyfikowanych na ich podstawie białkach;
●
utworzenie dla każdego znanego peptydu teoretycznego modelu opisującego dokładny
kształt widm mas reprezentujących go jonów oraz ich przybliżone położenia
w widmach mas próbek i jednocześnie uwzględniającego charakterystykę używanego
spektrometru;
●
automatyczne wyszukanie widm mas jonów peptydowych jako tych obszarów widm
mas próbek, w których dane eksperymentalne wykazują największe dopasowanie do
wyznaczonych wcześniej teoretycznych modeli;
●
określenie ilości peptydów (a przez to – w pośredni sposób – również białek) na
podstawie parametrów dopasowanych modeli ich jonów;
●
dalsze przetwarzanie danych, sprowadzonych już do postaci liczbowej, mające na celu
eliminację artefaktów w postaci brakujących wartości, minimalizację wpływu źródeł
zmienności o niebiologicznym pochodzeniu oraz redukcję poziomu szumu.
Podstawową cechą proponowanej metody, wyróżniającą ją spośród rozwiązań
prezentowanych w literaturze, jest oparcie analizy ilościowej na szerokim wykorzystaniu
zgromadzonej uprzednio wiedzy o składzie białkowym próbek. W efekcie cały proces
przetwarzania danych ukierunkowany jest na uzyskanie w pełni wartościowej informacji
biologicznej. Jednocześnie, dzięki wykorzystaniu dodatkowych informacji zawartych
w sekwencjach peptydów, możliwe staje się zmniejszenie podatności na błędy etapu
9
ekstrakcji cech ilościowych z pełnych widm mas, co ma kluczowe znaczenie dla jakości
uzyskanych wyników.
Teza rozprawy. Wykorzystanie informacji jakościowych o sekwencjach peptydów we
wszystkich etapach analizy ilościowej zmian ekspresji peptydów i białek na podstawie danych
ze spektrometrii mas sprzężonej z chromatografią cieczową pozwala znacząco poprawić
efektywność tej analizy i wiarygodność jej wyników.
1.3. Układ pracy
Rozdziały 2 i 3 poświęcone są przedstawieniu podstawowych pojęć z zakresu proteomiki,
spektrometrii mas oraz wysokosprawnej chromatografii cieczowej. Rozdział 4 zawiera opis
zastosowań spektrometrii mas w badaniach proteomicznych, ze szczególnym uwzględnieniem
zagadnień związanych z metodami identyfikacji białek i analizy ilościowej ich ekspresji. Ze
względu na szeroki zakres tematyczny, opis części zagadnień szczegółowych przeniesiony
został do rozdziału 5, gdzie są one omawiane w bezpośrednim odniesieniu do
prezentowanych tam rozwiązań będących elementami proponowanej w rozprawie metody
analizy ilościowej. W rozdziale 6 przedstawione zostały wyniki porównań opracowanych
algorytmów z wybranymi metodami referencyjnymi. Rozdział 7 zawiera podsumowanie
przeprowadzonych badań.
10
2. PROTEOMIKA
Proteomika jest dziedziną wiedzy zajmującą się badaniem proteomów [1-5]. Termin proteom
definiowany jest jako ogół kodowanych przez genom organizmu białek wraz z ich możliwymi
modyfikacjami. Często jednak stosowany jest w węższym znaczeniu i rozumiany jako zbiór
białek ulegających ekspresji w danym rodzaju komórek i w danym czasie. Różnica pomiędzy
tymi dwiema definicjami wynika z faktu, że w odróżnieniu od genomu, który jest jednakowy
dla całego organizmu i w przybliżeniu niezmienny w czasie, proteom jest tworem
dynamicznym. Jego chwilowy skład nie tylko różni się pomiędzy komórkami tego samego
organizmu, ale również zmienia się w czasie, w zależności od fazy ich rozwoju, czynników
środowiskowych, a także oddziaływań z innymi komórkami. Niezależnie jednak od sposobu
definiowania samego proteomu, celem proteomiki jest badanie budowy, funkcji i lokalizacji
subkomórkowej białek oraz interakcji między nimi. Dlatego też w tym rozdziale, w skrótowej
formie, przedstawione zostaną podstawowe informacje dotyczące tych cząstek. Pokazany
zostanie również ścisły związek pomiędzy proteomiką a genomiką i transkryptomiką.
2.1. Budowa białek
Peptydy i białka są cząstkami polimerowymi złożonymi z aminokwasów [34, 35].
Aminokwasy to związki chemiczne, w budowie których możemy wyróżnić przynajmniej
dwie grupy funkcyjne: aminową i karboksylową. W skład białek i peptydów organizmów
żywych wchodzi 20 aminokwasów należących do grupy L-α-aminokwasów. W związkach
tych grupy funkcyjne połączone są centralnym atomem węgla C α, do którego dołączone są
również atom wodoru oraz łańcuch boczny o strukturze chemicznej charakterystycznej dla
danego aminokwasu.
Podstawową cechą aminokwasów jest ich zdolność do łączenia się ze sobą za
pośrednictwem wiązania peptydowego pomiędzy grupami aminową i karboksylową. Łańcuch
złożony z co najmniej dwóch połączonych ze sobą aminokwasów określany jest peptydem.
Połączone w łańcuchu aminokwasy nazywane są resztami aminokwasowymi. Reszta
aminokwasowa zawierająca wolną grupę aminową nazywana jest N-końcem peptydu,
podczas gdy reszta z wolną grupą karboksylową jest jego C-końcem. Zgodnie z konwencją,
sekwencje peptydu zapisuje się rozpoczynając od lewej strony N-końcową resztą
11
aminokwasową i kończąc C-końcową. Reszty aminokwasowe oznaczane są w takim zapisie
za pomocą jedno- lub trzyliterowych symboli (tabela 9.1 w Spisie skrótów i oznaczeń).
Peptyd zawierający więcej niż 10 reszt aminokwasowych nazywany jest
polipeptydem. Białko jest polipeptydem o długości łańcucha większej od 30-40 reszt
aminokwasowych, przy czym granica ta nie jest ściśle określona [34-36]. Opis budowy białek
obejmuje cztery stopnie ich struktury. Struktura pierwszorzędowa określa kolejność reszt
aminokwasowych w sekwencji liniowej białka i jest najważniejszą jego właściwością,
w znacznej mierze warunkującą wszystkie pozostałe. Struktura drugorzędowa charakteryzuje
wzajemne przestrzenne ułożenie reszt aminokwasowych sąsiadujących ze sobą w sekwencji.
Przykładami struktur drugorzędowych są α-helisa lub β-kartka. Struktury drugorzędowe
zwykle tworzą większe zespoły, zwane motywami. Trójwymiarowa budowa cząsteczki białka,
czyli wzajemne położenie lokalnych struktur drugorzędowych, opisywana jest przez strukturę
trzeciorzędową. W łańcuchach polipeptydowych wielu białek można wyróżnić domeny, czyli
fragmenty o długości od kilkudziesięciu do kilkuset reszt aminokwasowych, charakteryzujące
się zdolnością do samoistnego zachowania swojej struktury trójwymiarowej. Jeżeli
w budowie cząsteczki białka można wyróżnić dwa lub większą liczbę łańcuchów
polipeptydowych lub zawiera ona elementy niebiałkowe, takie jak np. cukry i lipidy, wówczas
ich konformacja i rodzaj łączących je wiązań nazywane są strukturą czwartorzędową.
2.2. Związek pomiędzy proteomiką a genomiką i transkryptomiką
Proteomika jest ściśle związana z genomiką i tanskryptomiką, dziedzinami biologii
molekularnej zajmującymi się dwoma innymi rodzajami aktywnych cząstek biologicznych:
kwasem dezoksyrybonukleinowym (DNA) i kwasem rybonukleinowy (RNA).
DNA zawiera pełną informację o budowie oraz sposobie funkcjonowania organizmu
i jest chemiczną podstawą dziedziczności. Cząsteczka tego polimeru ma strukturę podwójnej
helisy, złożonej z dwóch pasm stanowiących sekwencje czterech rodzajów nukleotydów:
adeniny, guaniny, cytozyny i tyminy [34, 35]. Zawarta w sekwencji nukleotydów DNA treść
informacyjna rozdzielona jest pomiędzy obydwa pasma. Jedno z nich, zwane pasmem
matrycowym, dostarcza informacji dziedziczonej przez komórki potomne, zaś drugie,
określane jako pasmo kodujące, stanowi źródło informacji niezbędnej do syntezy białek. Ogół
DNA zawartego w komórce nazywany jest genomem.
12
Struktury pierwszorzędowe białek zapisane są w sekwencjach nukleotydów
fragmentów pasma kodującego DNA, zwanych genami. Mechanizmem umożliwiającym
przetłumaczenie składającego się z czterech znaków alfabetu DNA na dwudziestoznakowy
alfabet białek jest kod genetyczny, określający przyporządkowanie trójek nukleotydów
(kodonów) poszczególnym aminokwasom. W procesie prowadzącym do powstania białka
uczestniczy wiele odmian RNA, którego cząsteczki są pod względem budowy podobne do
pojedynczego pasma DNA, przy czym w ich wypadku tyminę zastępuje uracyl. Szczególne
znaczenie mają cząsteczki matrycowego RNA (mRNA), których rolą jest przekazywnie
przepisanej z genów informacji do rybosomów, gdzie w procesie translacji syntetyzowane są
białka. Zbiór wszystkich cząsteczek mRNA obecnych w określonym momencie w komórce
nazywany jest transkryptomem.
Liczba genów u człowieka wynosi około 20-25 tysięcy, podczas gdy liczbę form
białkowych szacuje się na co najmniej kilkaset tysięcy. Za tak dużą nierównowagę
odpowiedzialne są głównie dwa zjawiska: alternatywny splicing genów i modyfikacje
potranslacyjne białek. W wyniku pierwszego z nich cząsteczka mRNA nie zawsze zawiera
wszystkie obszary kodujące genu, a wręcz możliwe jest, że będzie ona zawierać obszary
niekodujące. Tak więc liczba tworzących transkryptom cząsteczek mRNA jest większa od
liczby genów. Dalszy wzrost różnorodności białek wynika z faktu, że już po zakończeniu
syntezy mogą one ulegać modyfikacjom potranslacyjnym poprzez dołączenie cząstek
zmieniających ich właściwości biochemiczne. Wymienione zjawiska sprawiają, że samo
poznanie sekwencji genomu nie jest wystarczające do pełnego opisu jego ekspresji.
W efekcie, genomika, transkryptomika i proteomika są komplementarnymi dziedzinami,
badającymi różne aspekty tego samego mechanizmu, w ramach którego statyczna informacja
genetyczna zawarta w sekwencji nukleotydów genomu jest w sposób zależny od potrzeb
komórki odczytywana i zamieniana na zbiór aktywnie działających białek tworzących
proteom.
13
3. SPEKTROMETRIA MAS
Spektrometria mas jest techniką analityczną umożliwiającą dokładny pomiar mas atomów
oraz związków chemicznych po uprzedniej ich jonizacji i przetransferowaniu do fazy gazowej
[36, 38, 39]. W spektrometrii mas badane są jony, tak więc pomiar dotyczy stosunku masy
jonu do jego ładunku. Masa wyrażana jest w atomowych jednostkach masy (u) lub daltonach
(Da). Obie jednostki są równoważne i wynoszą 1,6605402·10-27 kg, co odpowiada jednej
dwunastej masy pojedynczego atomu izotopu węgla 12C. Jednostką stosunku masy do ładunku
jest thompson (Th), zdefiniowany jako 1 Da/e, gdzie e jest elementarnym ładunkiem
elektrycznym. Jednostka ta jednak jest rzadko używana literaturze dotyczącej spektrometrii
mas, w której bardziej powszechne jest stosowanie bezwymiarowej wartości m/z. W tym
wypadku m oznacza względną masę jonu (odniesioną do 1 Da), a z jest stopniem
naładowania, czyli liczbą niesionych przez jon ładunków.
Chcąc przedstawić konstrukcję spektrometru mas, w najprostszy sposób należy
powiedzieć, że składa się on z trzech podstawowych części: źródła jonów, w którym obojętne
cząstki zamieniane są na jony, analizatora rozdzielającego jony pod względem ich stosunków
masy do ładunku oraz detektora zliczającego liczbę jonów danego rodzaju. We
współczesnych spektrometrach całość pomiaru sterowana jest przez system komputerowy,
którego zadaniem jest również rejestracja, przetwarzanie i udostępnianie wyników analizy.
Bezpośrednim wynikiem pomiaru jest widmo mas. Postać widma mas zależna jest od rodzaju
stosowanego przyrządu, jednak pewne ogólne zasady jego powstawania opisane zostały
w następnym podrozdziale.
3.1. Widmo mas
Widmo mas jest zwykle prezentowane w postaci graficznej, jako wykres liczby
zarejestrowanych jonów o danych wartościach m/z. Występujące w tym wykresie piki mogą
odpowiadać jonom molekularnym substancji występujących w badanej próbce lub jonom ich
mniejszych fragmentów.
Związek pomiędzy masą cząstki a wartością m/z odpowiadającego mu w widmie piku
jest zależny od użytej metody jonizacji, której wybór jest z kolei zwykle podyktowany
właściwościami badanych substancji. Peptydy i białka, jako związki organiczne zawierające
14
w swej strukturze grupy funkcyjne łatwo akceptujące protony, jonizowane są przez
przyłączenie jednego lub większej liczby protonów. Oznacza to, że jeżeli względna masa
cząstki wynosi M0, a stopień naładowania równy jest z, to wartość m/z jonu można określić
z zależności1:
m 0=
M 0 z M p
,
z
(3.1)
gdzie Mp jest masą protonu.
Większość naturalnie występujących w przyrodzie pierwiastków jest zróżnicowana
pod względem składu izotopowego. Przykładowo, jądra około 98,93% atomów węgla
składają się z 6 protonów i 6 neutronów, a ich masy wynoszą 12,00000 Da. Jednak
w wypadku około 1,07% atomów liczba neutronów w jądrze jest większa o jeden. Masy tych
atomów, określanych jako izotop
13
C, są równe 13,003355 Da [37]. Fakt ten wpływa na
kształt widma mas cząstek i powoduje, że składa się ono nie z pojedynczego piku, ale całej
ich serii. Dokładne położenia i wzajemne relacje pomiędzy wysokościami pików widma
zależne są od rozkładu izotopowego cząstki, czyli mas i prawdopodobieństw wystąpień jej
odmian izotopowych. Dla cząstek o dużych masach zbiór odmian izotopowych może być
bardzo liczny, co skutkuje złożoną strukturą widma. Jednak ze względu na skończoną
rozdzielczość spektrometru piki pochodzące od odmian izotopowych o zbliżonych masach
mogą być nierozróżnialne. W efekcie obserwowana jest obwiednia izotopowa z pikami
o skończonej szerokości, będącymi wynikiem detekcji odmian izotopowych o takiej samej
sumarycznej liczbie nukleotydów w jądrach atomów (rysunek 3.1). Pik obwiedni o najniższej
wartości m/z (pik monoizotopowy) pochodzi od jonów, w których atomy wszystkich
pierwiastków były w podstawowym stanie izotopowym. Położenie tego piku dla z-krotnie
naładowanego jonu, reprezentującego cząstkę o masie M0, dane jest zależnością 3.1. Jony,
których detekcja objawia się powstaniem drugiego piku miały w swoim składzie jeden atom
z większą liczbą neutronów w jądrze, itd. Często przyjmuje się, że odległości pomiędzy
takimi sumarycznymi pikami są stałe i równe odwrotności stopnia naładowania jonu. Należy
jednak pamiętać, że jest to jedynie uproszczenie: w rzeczywistości odległości te nie są stałe,
1 W znanej autorowi literaturze nie są wprowadzane osobne oznaczenia dla wartości m/z i są one, podobnie jak
wartości masy, oznaczane małą literą m (np. [36, 38]). Rozróżnienie następuje jedynie przez użycie indeksów
dolnych lub górnych. Często można również spotkać się ze stosowaniem określenia „masa”
w kontekście sugerującym, że chodzi o wartość m/z, co jest błędne w wypadku jonizacji przez dołączenie
protonów i możliwości występowania jonów wielokrotnie naładowanych. W niniejszej pracy stosowane
będzie wyraźne rozdzielenie obu tych określeń. W celu zachowania większej jednoznaczności zapisu, dla
oznaczenia konkretnych wartości masy (atomu, cząstki) stosowana będzie duża litera M, natomiast dla
wartości m/z mała litera m. W obydwu wypadkach oznaczeniom towarzyszyć będą indeksy górne lub dolne.
15
gdyż masy izotopów poszczególnych pierwiastków nie różnią się dokładnie o 1 Da.
Zagadnienia związane z wyznaczaniem obwiedni izotopowej widm peptydów zostaną jeszcze
dokładnie omówione w rozdziale 5.3.2.
Rys. 3.1. Widmo mas złożonej próbki biologicznej. Powiększony fragment przestawia zakres wartości m/z
mieszczący obwiednię izotopową przykładowego jonu peptydowego o stopniu naładowania +2
Obecność naturalnych izotopów pierwiastków i wynikający z niej kształt widm
powoduje konieczność rozróżnienia pomiędzy dwoma rodzajami masy cząsteczki. Masa
monoizotopowa wyznaczana jest na podstawie dokładnych mas podstawowych odmian
izotopowych pierwiastków wchodzących w skład cząstki. W widmie mas jest ona
reprezentowana przez położenie piku monizotopowego. Masa średnia wyznaczana jest jako
średnia ważona mas wszystkich odmian izotopowych pierwiastków tworzących cząstkę, przy
czym wagami są procentowe udziały poszczególnych odmian. W widmie mas odpowiada jej
centroid (środek masy) obwiedni izotopowej. Tylko masa monizotopowa jest jednoznaczna,
gdyż dokładność określenia masy średniej jest ograniczona zmiennością procentowego
udziałów odmian izotopowych pierwiastków [40]. Z drugiej jednak strony, masa
monoizotopowa ma w spektrometrii praktyczne znaczenie jedynie dla związków o względnie
małych masach, dla których występuje wyraźny pik monoizotopowy, często będący również
najwyższym pikiem w obwiedni. Zwiększające się wraz z masą cząstki prawdopodobieństwo
wielokrotnego występowania cięższych odmian izotopowych powoduje zmniejszenie
16
relatywnej wysokości piku monoizotopowego. W efekcie dla dużych cząstek, takich jak
białka, obwiednia izotopowa staje się bardziej symetryczna, a pik monoizotopowy może być
nieobserwowalny.
3.2. Metody jonizacji używane do badania biomolekuł
Aby był możliwy pomiar masy w spektrometrze, cząstki muszą zostać zjonizowane
i przeprowadzone do fazy gazowej. Głównym powodem stosunkowo późnego wprowadzenia
spektrometrii mas do nauk biologicznych był brak odpowiednich metod łagodnej jonizacji,
umożliwiających przeniesienie do fazy gazowej dużych, nielotnych i łatwo ulegających
rozkładowi termicznemu cząstek biologicznych bez doprowadzenia do ich fragmentacji.
Pierwszą techniką, która umożliwiała analizę za pomocą spektrometru tego typu cząstek, była
opisana w 1981 r. jonizacja przez bombardowanie szybkimi atomami (FAB – Fast Atom
Bombardment) [41], jednak ze względu na jej ograniczenia prawdziwym przełomem stało się
dopiero wprowadzenie na początku lat 90. spektrometrów wykorzystujących rozpylanie
w polu elektrycznym oraz jonizację przez desorpcję laserową w matrycy.
3.1.1. Jonizacja przez rozpylanie w polu elektrycznym
Elekrorozpylanie (ESI – ElectroSpray Ionisation) [42] należy do grupy metod jonizacji
prowadzonych pod ciśnieniem atmosferycznym (API – Atmospheric Pressure Ionization).
Próbka jest rozpuszczana w lotnym rozpuszczalniku i pompowana przy zachowaniu
przepływu rzędu pojedynczych μl/min przez metalową kapilarę, do której przyłożone jest
napięcie 3-6 kV. W wyniku akumulacji ładunków w powierzchniowej warstwie cieczy na
końcu kapilary, próbka wydostaje się w postaci aerozolu wysoko naładowanych kropelek,
w czym dodatkowo pomaga płynący współosiowo wobec kapilary gaz nebulizujący, którym
zwykle jest azot. Odparowanie rozpuszczalnika z kropelek pod wpływem ciepłego gazu
suszącego powoduje ich kurczenie się i rozerwanie na skutek działania sił odpychania
kulombowskiego. Proces następuje kaskadowo, prowadząc do powstania coraz mniejszych
kropli, aż do momentu gdy następuje desorpcja jonów.
Elektrorozpylanie jest bardzo wydajną techniką jonizacji, która dzięki swej łagodności
nie powoduje dysocjacji badanych cząstek. Może być stosowana dla wielu rodzajów
17
substancji chemicznych i wydaje się, że nie ma w jej wypadku górnego ograniczenia masy
badanych cząstek. Duże cząstki polimerowe, mające w swej strukturze wiele miejsc
protonacji, generują jony wielokrotnie naładowane, widoczne w widmach mas jako kolejne
serie pików o takim samym kształcie obwiedni izotopowej, ale różniących się położeniem
piku monizotopowego oraz odstępami pomiędzy kolejnymi pikami. Generowanie podczas
jonizacji ESI jonów wielokrotnie naładowanych ma ogromne znaczenie praktyczne, gdyż
umożliwia pomiar cząstek o masach przekraczających nominalny zakres pomiarowy
analizatora. Z drugiej jednak strony jest przyczyną większego skomplikowania widm,
wymuszającego konieczność deizotopizacji, czyli identyfikacji i sumowania sygnałów
pochodzących od jonów reprezentujących tę samą cząstkę [43-45].
3.1.2. Jonizacja przez desorpcję laserową w matrycy
W technice jonizacji przez desorpcję laserową w matrycy (MALDI – Matrix Assisted Laser
Desorption/Ionization) [46] analizowana substancja jest mieszana z roztworem zawierającym
nadmiarową ilość małych, silnie absorbujących światło cząstek organicznych, zwanych
matrycą. Tak przygotowana próbka po wyschnięciu jest napromieniowywana impulsowym
światłem lasera, w efekcie czego następuje transfer do fazy gazowej na drodze desorpcji,
której towarzyszy jonizacja przez przeniesienie protonów między wzbudzoną matrycą
a analitem. MALDI jest więc odmianą jonizacji przez desorpcję laserową (LDI – Laser
Desorption Ionization), w której dzięki użyciu matrycy wyeliminowana została potrzeba
każdorazowego dostrajania długości fali lasera do charakterystyki absorpcji próbki.
Jednocześnie matryca chroni badane cząstki przed otrzymaniem nadmiernej energii, która
mogłaby spowodować fragmentację oraz separuje je od siebie, zapobiegając tworzeniu się
agregatów, co ułatwia tworzenie jonów molekularnych. Detekcja widma następuje po
każdym, trwającym kilka nanosenkund, impulsie lasera i jest powtarzana wielokrotnie w celu
uzyskania zadowalającej liczby jonów.
W odróżnieniu od przedstawianej wcześniej jonizacji przez elektrorozpylanie,
MALDI zwykle generuje jony jednokrotnie naładowane, co uniemożliwia rejestrację widm
związków chemicznych o masie przekraczającej zakres analizatora. Nie jest to również
metoda tak łagodna jak ESI i częściej prowadzi do fragmentacji. Dodatkową wadą jest
występowanie pochodzącego od cząstek matrycy szumu chemicznego w zakresie niskich mas.
18
Natomiast niezaprzeczalną zaletą jonizacji MALDI jest szybkość pomiaru i łatwość jego
automatyzacji, które to cechy umożliwiają osiągnięcie dużej wydajności analiz.
3.2. Parametry i rodzaje analizatorów
3.2.1. Podstawowe parametry analizatorów
Analizator jest najważniejszą częścią spektrometru mas, mającą decydujące znaczenie dla
jego parametrów. Zadaniem analizatora jest rozdzielenie jonów pod względem ich stosunku
masy do ładunku i skierowanie ich skupionej wiązki do detektora. Trzema podstawowymi
parametrami analizatora są: rozdzielczość, dokładność pomiaru m/z oraz zakres mierzonych
wartości m/z [36, 38, 39, 47]. Decydująca o precyzji pomiaru rozdzielczość jest miarą
zdolności rozróżnienia sygnałów pochodzących od dwóch jonów o bliskich wartościach m/z.
Dla dwóch sąsiednich, rozdzielonych pików o wartościach m/z, równych odpowiednio
m0 i m0+Δm0, zdolność rozdzielcza definiowana jest jako:
RP=
m0
.
 m0
(3.2)
W podanej definicji, stosowanej najczęściej w przypadku klasycznych analizatorów
z sektorem magnetycznym, dwa piki o jednakowej wysokości uznaje się za rozdzielone gdy
znajdująca się pomiędzy nimi dolina ma 10% ich wysokości. Dla pozostałych typów
analizatorów częściej używana jest definicja oparta na szerokości pojedynczego, izolowanego
piku. W tym wypadku we wzorze (3.2) Δm0 oznaczać będzie szerokość piku mierzoną
w połowie jego wysokości (FWHM – Full Witdh at Half Maximum), natomiast m0 wartość
m/z jego wierzchołka. Z rozdzielczością blisko powiązana jest dokładność pomiaru wartości
m/z. Ponieważ maleje ona wraz ze wzrostem wartości m/z, zwykle wyrażana jest
w sposób względny i podawana w jednostkach ppm (parts per milion). Zakres pomiarowy
wyznaczony jest przez graniczne możliwe do zmierzenia wartości m/z. Jest on zależny od
konstrukcji analizatora, ale w konkretnych zastosowaniach jego praktyczne ograniczenie
może również wynikać ze skończonej rozdzielczości i dokładności.
Czułość, rozumiana jako najmniejsza możliwa do wykrycia ilość badanego związku,
ma ogromne znaczenie podczas pomiarów próbek biologicznych, szczególnie tych
pochodzących z tkanek lub płynów ustrojowych, w których badane substancje mogą pojawiać
19
się w attomolarnych, a często nawet mniejszych stężeniach. Rozpiętość obserwowanych
stężeń różnych substancji występujących jednocześnie w próbkach biologicznych również
może być bardzo duża. Przykładowo, dla białek i peptydów zakres dynamiczny stężeń wynosi
od 105 u bakterii, przez 107-108 w ludzkich komórkach, do nawet 1012 w osoczu i surowicy
krwi [48]. Dlatego też istotnym parametrem, szczególnie w podczas analizy ilościowej, jest
zakres dynamiczny analizatora, czyli zakres, w którym zmierzony sygnał pochodzący od jonu
jest liniowo zależny od jego ilości w próbce.
Szybkość analizatora, czyli liczba cykli akwizycji widma mas (skanów) w jednostce
czasu, zazwyczaj nie ma decydującego znaczenia podczas dokładnych pomiarów mas
pojedynczych związków. Może być jednak bardzo ważna w wypadku próbek o dynamicznie
zmieniającym się składzie lub podawanych na wejście spektrometru bezpośrednio
z połączonego ze spektrometrem układu chromatograficznego.
3.2.2. Analizatory stosowane w badaniach proteomicznych
Historycznie pierwszym, bo użytym już w 1910 r. przez J. J. Thompsona, ale wciąż
wykorzystywanym rodzajem analizatora jest sektor magnetyczny. Jednak w badaniach
proteomicznych używane są zwykle przyrządy innego typu, głównie wyposażone
w analizatory kwadrupolowe, analizatory czasu przelotu lub pułapki jonowe [36, 38, 39]. Ze
względu na duże koszty i trudności w eksploatacji rzadziej spotykane są spektrometry
z oferującym obecnie najlepsze parametry analizatorem jonowego rezonansu cyklotronowego
z transformacją Fouriera, choć i one w ostatnich latach stały się bardziej powszechne.
Analizator czasu przelotu
Analizator czasu przelotu (TOF – Time of Flight) rozdziela przyspieszone w polu
elektrycznym jony na podstawie zależnej od masy i ładunku prędkości z jaką się poruszają.
Jony o mniejszych wartościach m/z uzyskują w wyniku impulsu przyspieszającego większe
prędkości i tym samym docierają do detektora wcześniej. Zmierzone czasy przelotu dla
wszystkich jonów zamieniane są na widmo przy użyciu funkcji kalibracyjnej, której
współczynniki wyznaczane są na podstawie pomiarów przeprowadzonych dla substancji
referencyjnych o znanych masach.
20
Współczesne analizatory TOF, wyposażone w reflektor elektryczny odwracający tory
lotu jonów w celu zniwelowania różnic w ich początkowej energii kinetycznej, osiągają
rozdzielczości rzędu 15000 i dokładności określenia masy na poziomie 5 ppm, jednocześnie
charakteryzując się dużą szybkością skanowania, szerokim zakresem pomiarowym i czułością
na poziomie femtomoli.
Analizator kwadrupolowy
Analizator kwadrupolowy zbudowany jest z czterech równoległych, symetrycznie ułożonych
metalowych prętów o przekroju hiperbolicznym. Przyspieszone jony wprowadzane są
w kierunku równoległym do osi prętów a tory ich lotu ulegają destabilizacji pod wpływem
wytworzonego przez przyłożenie do przeciwległych par prętów superpozycji potencjału
stałego i zmiennego, o częstotliwości radiowej. W efekcie analizator kwadrupolowy działa jak
filtr, który przy danych parametrach pola pozwala przejść tylko jonom o wybranych
wartościach m/z, podczas gdy pozostałe jony poruszają się po niestabilnych trajektoriach i nie
docierają do detektora. Widmo mas generowane jest poprzez zmianę potencjału stałego
i amplitudy potencjału zmiennego przy zachowaniu stałej częstotliwości pola.
Spektrometry z analizatorem kwadrupolowym są prostymi przyrządami o zdolności
rozdzielczej do 4000, jednak niski koszt, małe wymiary, niezawodność i uniwersalność
przyczyniły się do ich dużej popularności.
Analizator typu pułapka jonowa
Kwadrupolowa pułapka jonowa (QIT – Quadrupole Ion Trap) zbudowana jest z elektrody
w kształcie pierścienia oraz dwóch elektrod o przekroju sferycznym, ograniczających obszar
pułapki od góry i dołu. Zmienny potencjał przyłożony do elektrody kołowej wytwarza
trójwymiarowe pole kwadrupolowe, wymuszające ruch jonów po trajektoriach w formie
trójwymiarowej ósemki. W odróżnieniu od klasycznego kwadrupola, w obszarze pułapki
wiele rodzajów jonów może jednocześnie mieć stabilne tory lotu. W utrzymaniu wzajemnie
odpychających się jonów na orbitach o niewielkich promieniach mają udział również
zderzenia z cząsteczkami gazu obojętnego (najczęściej helu). Generacja widma odbywa się
poprzez zmianę amplitudy potencjału zmiennego w taki sposób aby doprowadzić do
21
destabilizacji torów i, w efekcie, ekspulsji jonów w kolejności wzrastających wartości m/z.
Możliwa jest również selektywna ekspulsja rezonansowa jonów o wybranych m/z poprzez
przyłożenie do elektrod sferycznych dodatkowego potencjału zmiennego o częstotliwości
pokrywającej się z częstotliwością ich drgań własnych.
Rozdzielczość i zakres mas pułapek jonowych są zbliżone do oferowanych przez
analizatory kwadrupolowe. Zakres dynamiczny pułapki jest jednak ograniczany przez
maksymalną liczbę jonów, które mogą jednocześnie przebywać w jej obszarze bez zaburzania
rozkładu pola w stopniu prowadzącym do zmniejszenia dokładności pomiaru masy.
Liniowa pułapka jonowa (LTQ – Linear Trap Quadrupole) jest analizatorem
o konstrukcji zbliżonej do klasycznego kwadrupola, ale zasadzie działania takiej samej jak
w kwadrupolowej pułapce jonowej. Jony są w tym wypadku przechowywane w cylindrycznej
objętości znacząco większej niż w klasycznej, trójwymiarowej pułapce jonowej, dzięki czemu
możliwe jest zwiększenie czułości, rozdzielczości i dokładności pomiaru.
Analizator cyklotronowego rezonansu jonów
Analizator cyklotronowego rezonansu jonów (ICR – Ion Cyclotron Resonance) jest odmianą
analizatora pułapkującego, który więzi jony w polu magnetycznym. Wykorzystuje on fakt, że
częstotliwość cyklotronowa ruchu obrotowego jonów w polu magnetycznym jest zależna od
ich wartości m/z, tak więc pomiar tej częstotliwości umożliwia określenie masy jonów.
Dostarczenie jonom energii przez impuls elektromagnetyczny o częstotliwości rezonansowej
powoduje sfazowanie ich ruchu, przy jednoczesnym zwiększeniu orbity lotu. Detekcja
wzbudzonych jonów odbywa się poprzez pomiar prądów indukowanych w płytach
odbiorczych. Jeżeli w komorze ICR znajduje się wiele różnych jonów, to konieczny jest
impuls zawierający składowe o wszystkich częstotliwościach cyklotronowych. Można to
osiągnąć przez przemiatanie częstotliwości i rejestrację prądów generowanych przez kolejne
grupy jonów, jednak bardziej wydajną techniką jest ukształtowanie pojedynczego impulsu
w taki sposób, aby możliwe było jednoczesne wzbudzenie wszystkich jonów. Indukowane
w płytach odbiorczych prądy będą wówczas zawierać wiele składowych częstotliwościowych,
które mogą być wyodrębnione za pomocą transformaty Fouriera. Analizator działający
zgodnie z tym schematem nazywany jest FT-ICR (Fourier Transform Ion Cyclotron
Resonance).
22
Do generacji pola magnetycznego zazwyczaj wykorzystywane są nadprzewodzące
magnesy, co pozwala uzyskać dużą stabilność czasową parametrów, ale jednocześnie jest
przyczyną dużych kosztów i rozmiarów analizatora oraz trudności w jego eksploatacji.
Natomiast zaletami analizatorów FT-ICR są: sięgająca 106 rozdzielczość, dokładność
określenia masy nawet poniżej 1 ppm oraz wysoka czułość przy zachowaniu stosunkowo
szerokiego zakresu dynamicznego.
3.3. Tandemowa spektrometria mas (MS/MS)
W badaniach strukturalnych, takich jak określanie sekwencji aminokwasowej peptydów,
pomiar mas jonów molekularnych nie jest wystarczający. Nawet bardzo dokładany pomiar
masy peptydu umożliwia jedynie określenie jego składu aminokwasowego. Wnioskowanie
o kolejności reszt aminokwasowych w sekwencji możliwe jest dopiero po doprowadzeniu do
dysocjacji wiązań w cząstce i zmierzeniu mas powstałych w ten sposób fragmentów. Wymaga
to wykonania dwóch cykli analizy spektrometrycznej, pomiędzy którymi następuje
fragmentacja, najczęściej poprzez dysocjację wywołaną kolizjami z cząstkami gazu
obojętnego (CID – Collision Inducted Disocciation) [36, 38, 39]. Spektrometry umożliwiające
przeprowadzenie tego typu dwuetapowej analizy nazywa się spektrometrami tandemowymi.
Najprostszym koncepcyjnie spektrometrem tandemowym jest przyrząd złożony
z trzech połączonych szeregowo kwadrupoli, z których dwa skrajne zajmują się separacją
mas, podczas gdy środkowy pełni funkcję komory kolizyjnej. Przyrząd taki może pracować
w dwóch trybach: zbierania pełnego widma (tryb MS) oraz tandemowym (tryb MS/MS, który
w wypadku proteomiki często nazywany jest trybem sekwencjonowania). Przy pomiarze
pełnego widma pierwsze dwa kwadrupole pełnią funkcję kolimatorów wiązki, a cała analiza
wykonywana jest w trzecim kwadrupolu, czyli przyrząd zachowuje się tak jak klasyczny
spektrometr. W trybie MS/MS pierwszy kwadrupol przepuszcza tylko jony o określonym
stosunku masy do ładunku, zwane jonami macierzystymi, które następnie ulegają
fragmentacji w wypełnianej gazem szlachetnym komorze kolizyjnej. Widmo fragmentacyjne,
czyli wartości m/z powstałych w wyniku fragmentacji jonów potomnych, jest rejestrowane
w trzecim kwadrupolu. Analogiczna jest zasada działania spektrometrów TOF-TOF,
złożonych z dwóch analizatorów czasu przelotu przedzielonych komorą kolizyjną.
23
Kolejne kroki spektrometrii tandemowej nie muszą być wykonywane przez
analizatory wykorzystujące te same metody separacji jonów. Przykładem łączenia różnych
typów analizatorów są spektrometry Q-TOF, w których trzeci z opisywanych wyżej
kwadrupoli zastąpiony jest analizatorem czasu przelotu.
Analiza tandemowa może być również przeprowadzona w pułapce jonowej.
Co ważne, zarówno QIT, jak i LTQ są w stanie mierzyć widma fragmentacyjne samodzielnie,
bez udziału drugiego analizatora. Poprzez odpowiednią kombinację potencjału stałego oraz
amplitudy i częstotliwości potencjału zmiennego możliwe jest usunięcie z obszaru pułapki
wszystkich jonów, z wyjątkiem tych o wybranej wartości m/z. Fragmentacja wybranego jonu
następuje na skutek zderzeń z cząstkami helu, po dostarczeniu mu dodatkowej energii poprzez
wzbudzenie rezonansowe potencjałem zmiennym o małej amplitudzie. Tak więc w tym
wypadku cykle analizy spektrometrycznej rozdzielone są czasowo, a nie przestrzennie, jak to
ma miejsce w omawianych wcześniej spektrometrach. Podobnymi możliwościami
charakteryzują się również analizatory FT-ICR, jednak w praktyce są one rzadko
wykorzystywane do spektrometrii tandemowej. Zwykle występują one w przyrządach
hybrydowych, w których zadaniem analizatora FT-ICR jest dokładny pomiar pełnego widma
mas, podczas gdy sekwencjonowaniem zajmuje się drugi analizator, o niższej rozdzielczości,
najczęściej liniowa pułapka jonowa. Przykładem takiego urządzenia jest spektrometr Finnigan
LTQ-FT firmy Thermo [49], z którego pochodzą wykorzystywane w niniejszej pracy dane.
3.4. Wstępne rozdzielanie chromatograficzne składowych próbek
Dokładny pomiar mas całych cząstek i specyficznych dla ich struktury fragmentów czyni ze
spektrometrii mas najdoskonalszą z obecnie dostępnych metod identyfikacji szerokiej klasy
związków chemicznych. Jednak skuteczność identyfikacji i jej jednoznaczność znacząco
maleją, gdy badane są skomplikowane mieszaniny substancji występujących w różnych
stężeniach. Z taką sytuacją mamy zwykle do czynienia w przypadku próbek biologicznych.
Rozwiązaniem tego problemu może być bezpośrednie połączenie spektrometru mas
z układem chromatograficznym, w którym następuje wstępne rozdzielenie składników próbki.
Chromatografia jest metodą rozdzielania składników mieszanin w wyniku ich różnego
podziału pomiędzy fazę ruchomą i stacjonarną układu chromatograficznego [50, 51].
W zależności od stosowanej techniki chromatograficznej, fazą ruchomą może być gaz, ciecz
24
lub fluid, a fazą stacjonarną ciało stałe lub ciecz. Przemieszczanie się składników wzdłuż
układu chromatograficznego jest możliwe tylko w fazie ruchomej, dlatego też dłużej będą
w nim przebywać składniki silniej oddziałujące z fazą stacjonarną. Rozdzielonym składnikom
mieszaniny, opuszczającym układ chromatograficzny w różnym czasie, odpowiadać będą
osobne piki w rejestrowanym przez detektor chromatogramie. Czas od wprowadzenia badanej
mieszaniny do detekcji maksimum piku nazywany jest całkowitym czasem retencji.
Najbardziej oczywiste wydaje się połączenie spektrometrii mas z chromatografią
gazową (GC – Gas Chromatography), jednak technika GC-MS nadaje się jedynie do badania
małych, lotnych i odpornych na temperaturę cząstek. W wypadku peptydów i białek
stosowana jest technika LC-MS, w której rozdzielenie składników próbki następuje przy
wykorzystaniu wysokosprawnej chromatografii cieczowej (HPLC – High Performance
Liquid Chromatography).
3.4.1. Zasada rozdzielania w HPLC o odwróconej fazie
HPLC jest odmianą tradycyjnej cieczowej chromatografii kolumnowej, w której analizowana
mieszanina związków wprowadzana jest do strumienia płynnej fazy ruchomej (eluentu)
i tłoczona pod ciśnieniem przez kolumnę chromatograficzną wypełnioną fazą stacjonarną.
W przypadku najczęściej łączonej ze spektrometrią mas techniki HPLC w układzie
odwróconej fazy (RP – Reversed Phase), faza stacjonarna jest niepolarna (hydrofobowa),
a faza ruchoma jest polarna (hydrofilowa). Typowym wypełnieniem kolumn są porowate
granulki żelu krzemionkowego, o powierzchni zmodyfikowanej przez związanie z nią
łańcuchów alkilowych. O hydrofobowości powierzchni czynnej fazy stacjonarnej decyduje
długość i ilość związanych z nią łańcuchów. W RP-HPLC stosowana jest silnie hydrofobowa
faza oktadecylosilanowa o 18 atomach węgla w łańcuchach (C18). Fazą ruchomą zwykle jest
woda z dodatkiem organicznego niepolarnego rozpuszczalnika, którym najczęściej jest
acetonitryl (ACN).
Podstawą rozdzielania w RP-HPLC są wzajemne oddziaływania pomiędzy analitem
a niepolarną fazą stacjonarną i polarnym rozpuszczalnikiem. Cząstki hydrofobowe
(niepolarne), dążąc do zmniejszenia powierzchni wystawionej na działanie polarnego
rozpuszczalnika, silniej oddziałują z fazą stacjonarną, natomiast cząstki bardziej hydrofilowe
(polarne) spędzać będą więcej czasu w fazie ruchomej. Tym samym rozdzielenie mieszaniny
25
następuje zgodnie z hydrofobowością jej składników: w pierwszej kolejności kolumnę
opuszczają cząstki hydrofilowe, podczas gdy cząstki hydrofobowe będą charakteryzować się
większymi czasami retencji.
Zwiększenie efektywności rozdzielania możliwe jest przez zastąpienie elucji
izokratycznej, w której skład fazy ruchomej jest stały, przez elucję gradientową, z liniowo
zwiększającym się udziałem rozpuszczalnika organicznego. Uzyskane w ten sposób
zmniejszenie polarności fazy ruchomej zwiększa jej siłę elucji i wymusza zejście z kolumny
silniej oddziałujących z fazą stacjonarną związków hydrofobowych. Efektywność
rozdzielania jest dodatkowo poprawiana przez dodanie do fazy ruchomej kwasu organicznego
(np. mrówkowego, octowego lub trójfluorooctowego) w celu regulacji pH i neutralizacji
ładunku na odsłoniętych fragmentach krzemionki będącej podłożem fazy nieruchomej.
Obserwowane
czasy
retencji
są
wynikiem
interakcji
analitu
z
systemem
chromatograficznym i tym samym są zależne nie tylko od właściwości badanych cząstek, ale
również od parametrów samego systemu (ciśnienia, wymiarów kolumny i wielkości granulek
będących jej wypełnieniem) oraz warunków chromatograficznych (składu fazy ruchomej
i sposobu jej zmiany w czasie, użytych modyfikatorów pH). Zagadnienia z tym związane
zostaną dokładniej omówione w rozdziale 5.3.3, poświęconym predykcji czasu retencji.
3.4.2. Łączenie HPLC ze spektrometrem mas
Na przestrzeni ostatnich 30 lat opracowano szereg rozwiązań konstrukcyjnych, które
umożliwiają połączenie RP-HPLC ze spektrometrem mas [36, 38], jednak na szerokie
zastosowanie LC-MS w naukach biologicznych pozwoliło dopiero wprowadzenie techniki
jonizacji przez rozpylanie w polu elektrycznym (ESI). Dzięki kompatybilności ze
stosowanymi w RP-HPLC eluentami, źródło jonów ESI może jednocześnie pełnić rolę
efektywnego interfejsu transferującego kolejne rozdzielone chromatograficznie frakcje próbki
do spektrometru. Osiągnięcie optymalnych dla jonizacji ESI warunków wymaga stosowania
systemów HPLC o przepływach na poziomie 20-200 nl/min z kolumnami w postaci kapilar
o długości około 500 mm i średnicy 50-100 μm [51]. Do układu zazwyczaj włączone są
również prekolumny, których zadaniem jest oczyszczanie próbki z zanieczyszczeń
zmniejszających wydajność źródła jonów. W efekcie oczyszczenie, rozdzielenie i pomiar
odbywają się w jednym kroku. Jakkolwiek możliwe jest także bezpośrednie sprzężenie
26
z układem HPLC spektrometru ze źródłem jonów MALDI, częściej spotykane jest w tym
wypadku połączenie typu off-line.
W typowym eksperymencie LC-MS badana próbka jest wstępnie rozdzielana pod
względem hydrofobowości w systemie RP-HPLC, a kolejne jej frakcje schodzące z kolumny
chromatograficznej są poddawane jonizacji i wprowadzane do spektrometru. Pomiar widm
mas następuje zwykle w regularnych odstępach czasu, zależnych od szybkości skanowania
spektrometru.
Taki
proces
pomiarowy
generuje
ogromne
ilości
danych:
widmo
w pojedynczym skanie może zawierać nawet kilkaset tysięcy punktów, zaś liczba skanów
może, zależnie od długości przebiegu chromatograficznego, sięgać kilku tysięcy. W efekcie
rozmiary plików z danymi LC-MS mierzone są w gigabajtach.
Możliwe jest również połączenie chromatografii ze spektrometrią tandemową
(LC-MS/MS), dzięki czemu rozdzielone substancje mogą być identyfikowane na podstawie
widm fragmentacyjnych. Co istotne, współczesne spektrometry są w stanie dynamicznie
przełączać się pomiędzy trybami MS i MS/MS. Pozwala to na tzw. akwizycję zależną od
danych (DDA – Data Dependent Acquisition), polegającą na cyklicznym wykonywaniu serii
skanów zaczynających się od pomiaru pełnego widma próbki [2, 36]. Na jego podstawie
wybierana jest pewna liczba jonów macierzystych, których widma fragmentacyjne są
mierzone w kolejnych skanach. Jony macierzyste zwykle są wybierane na podstawie
wysokości pików w pełnym widmie, a ich liczba jest zależna od szybkości skanowania
spektrometru.
Możliwe dzięki jonizacji ESI efektywne połączenie HPLC i spektrometrii mas miało
kluczowe znaczenie dla rozwoju proteomiki. Próbki biologiczne pochodzące z tkanek mogą
zawierać wiele tysięcy białek i ich bezpośrednia analiza w spektrometrze nie byłaby możliwa
bez wykonania wcześniejszego rozdzielenia chromatograficznego. W pojedynczym przebiegu
LC-MS/MS możliwe jest zidentyfikowanie wielu tysięcy peptydów, nawet o jednakowych
masach cząsteczkowych, pod warunkiem, że różnią się hydrofobowością. Dzięki
minimalizacji efektów supresji jonów w skomplikowanych mieszaninach możliwe stało się
też znaczne zwiększenie czułości analizy, co umożliwia detekcję białek występujących nawet
w niewielkiej liczbie kopii. Należy przy tym podkreślić, że dla proteomiki czułość ma
szczególne znaczenie, gdyż, w odróżnieniu od sekwencji nukleotydowych, dla białek nie
dysponujemy skutecznymi metodami amplifikacji.
27
4. SPEKTROMETRIA MAS W BADANIACH PROTEOMICZNYCH
Spektrometria stała się w ostatnich latach jedną z podstawowych technik analitycznych
wykorzystywanych w badaniach proteomicznych, szczególnie z zakresie identyfikacji składu
białkowego próbek [1-4]. W tym zakresie wyparła inne, wcześniej stosowane techniki, takie
jak degradacja Edmana [39]. Nowszym obszarem zastosowań jest analiza ilościowa. Możliwe
są również badania nad trójwymiarową strukturą białek [52], jakkolwiek wciąż są one
głównie domeną krystalografii rentgenowskiej i spektroskopii magnetycznego rezonansu
jądrowego (NMR – Nuclear Magnetic Resonance).
Ze względu na bardzo ograniczoną możliwość rozróżniania białek na podstawie
pomiaru masy całych cząstek, proteomika oparta o spektrometrię mas zajmuje się głównie
analizą peptydów. Mogą to być peptydy tworzące tzw. peptydom, czyli zbiór peptydów
naturalnie występujących w organizmie, lub też peptydy powstałe w wyniku trawienia białek
in vitro. W tym drugim wypadku przed wprowadzeniem próbki do spektrometru znajdujące
się w niej białka poddawane są działaniu enzymu proteolitycznego, który dzieli ich sekwencje
w ściśle określonych miejscach. Podział ten jest na tyle specyficzny, że możliwa staje się
identyfikacja całego białka na podstawie znajomości nawet niewielkiej liczby peptydów
proteolitycznych, pokrywających jedynie częściowo jego sekwencję. Takie podejście
w literaturze określane jest mianem bottom-up proteomics. Jego podstawową zaletą jest to, że
badane cząstki mają relatywnie krótkie sekwencje i niewielkie masy, co ułatwia ich
jednoznaczną identyfikację, która w wypadku pomiaru mas całych białek jest zadaniem
znacznie trudniejszym
lub
wręcz
niemożliwym,
szczególnie gdy występują
one
w mieszaninach. Najczęściej wykorzystywanym enzymem proteolitycznym jest trypsyna,
która dokonuje podziału po C-końcowej stronie argininy (R) i lizyny (K), z wyjątkiem miejsc
gdzie następnym aminokwasem jest prolina (P). Ze względu na dość częste występowanie
tych aminokwasów w sekwencjach białek (ich procentowe udziały w sekwencjach białek
zgromadzonych w bazie danych SwissProt [53] wynoszą odpowiednio 5,53% i 5,86%),
generowane przez trypsynę peptydy mają masy zwykle mniejsze od 4 kDa i tym samym
mieszczą się w typowo stosowanych zakresach pomiarowych spektrometru. Ponadto, peptydy
te łatwo ulegają jonizacji dzięki zasadowemu charakterowi występujących na ich C-końcach
reszt aminokwasowych.
28
W początkowej fazie rozwoju badań proteomicznych białka z próbek poddawane były
wstępnemu rozdzieleniu przy użyciu jedno- lub dwukierunkowej elektroforezy w żelach
poliakrylamidowych [5]. Po rozdziale i wybarwieniu poszczególne spoty z żelu były
wycinane, a znajdujące się w nich pojedyncze białka były poddawane trawieniu enzymem
proteolitycznym i osobno analizowane w spektrometrze mas w celu identyfikacji.
Czasochłonność, słaba powtarzalność i trudności w automatyzacji takiej procedury sprawiły,
że w ostatnich latach coraz większą popularność zdobywa podejście określane jako shotgun
proteomics, w którym do spektrometru wprowadzana jest mieszanina peptydów
pochodzących z jednoczesnego trawienia wszystkich białek znajdujących się w badanej
próbce [1-4].
4.1. Identyfikacja białek
Podstawowym zadaniem spektrometrii mas w badaniach proteomicznych jest identyfikacja
białek. Należy jednak podkreślić, że słowo identyfikacja rozumiane jest tutaj jako
rozpoznawanie w próbce białek, na temat których mamy już pewną wstępną wiedzę –
w szczególności znamy, przynajmniej częściowo, ich sekwencje. Wyznaczanie sekwencji
nieznanego białka jest bardzo rzadko wykonywane w oparciu jedynie o dane dostarczane
przez spektrometr mas. Zdecydowanie częściej w procesie identyfikacji wykorzystywane są
informacje zgromadzone w bazach danych sekwencji białkowych [6-18].
Pierwszą powszechnie stosowaną metodą identyfikacji był PMF (Peptide Mass
Fingerprinting). Technika ta nie wykorzystuje danych ze spektrometrii tandemowej i opiera
się jedynie na pomiarze mas peptydów powstałych w wyniku trawienia proteolitycznego
białek. Uzyskana w wyniku pomiaru lista mas jest następnie porównywana z wyznaczonymi
na podstawie znajomości sposobu działania enzymu listami mas peptydów wszystkich białek
z bazy danych. Każda zmierzona masa różniąca się od masy teoretycznej o wartość mniejszą
od zadanej tolerancji traktowana jest jako dopasowanie do białka. W najprostszym wypadku
wybierane jest białko charakteryzujące się największą liczbą dopasowań. Bardziej
zaawansowane algorytmy dodatkowo przypisują dopasowaniom wagi wyznaczone w oparciu
o empiryczny rozkład częstości występowania mas peptydów w bazie danych [6].
Skuteczność działania techniki PMF jest jednak ograniczona do próbek, w których występują
peptydy pochodzące z trawienia proteolitycznego pojedynczych białek. Wraz ze wzrostem
29
liczby białek pomiar samych mas peptydów nie jest już w stanie zapewnić wystarczającej
specyficzności identyfikacji.
Bezpośrednia analiza próbek zawierających skomplikowane mieszaniny białek stała
się możliwa dopiero przy użyciu spektrometrii tandemowej, w której mierzone są nie tylko
masy całych peptydów, ale również masy jonów będących efektem ich fragmentacji wewnątrz
spektrometru. Powstałe w wyniku podziału peptydów widma fragmentacyjne pozwalają
wnioskować o kolejności tworzących peptyd aminokwasów. Podobnie jak to ma miejsce
w technice PMF, również w tym wypadku identyfikacja zazwyczaj wspierana jest przez bazy
zawierające sekwencje białek. Zastosowanie bazy danych pozwala ominąć trudny, w ogólnym
przypadku nierozwiązany w sposób satysfakcjonujący problem sekwencjonowania de-novo,
czyli określenia nieznanej sekwencji peptydu na podstawie zmierzonego widma
fragmentacyjnego. Zastąpiony zostaje on znacznie prostszym w praktycznej realizacji
zadaniem, polegającym na wyszukaniu spośród zbioru sekwencji znanych peptydów tej,
której teoretyczne widmo MS/MS najlepiej pasuje do widma eksperymentalnego.
Wykorzystywany jest przy tym fakt, że znajomość zasad fragmentacji pozwala wyznaczyć
teoretyczne położenia pików w widmie MS/MS peptydu o dowolnej sekwencji. W pierwszym
kroku spośród wszystkich peptydów, które mogą powstać w wyniku trawienia znajdujących
się w bazie danych białek przez użyty enzym proteolityczny, wybierane są te o masach
mieszczących się w zadanej tolerancji wokół zmierzonej masy jonu macierzystego. Następnie
widma teoretyczne odpowiadające ich sekwencjom porównywane są z widmem
eksperymentalnym, czemu towarzyszy wyznaczenie pewnej miary dopasowania. Widmu
eksperymentalnemu przypisywana jest sekwencja charakteryzująca się największym
dopasowaniem (w literaturze anglojęzycznej pary powstałe przez przypisanie sekwencji do
widm określane są skrótem PSM – Peptide Spectrum Match, który będzie stosowany również
w niniejszej pracy). Proces ten powtarzany jest dla wszystkich zarejestrowanych podczas
analizy LC-MS/MS widm fragmentacyjnych.
Dzięki specyficzności podziału proteolitycznego, znajomość sekwencji peptydów
pozwala z pewnym prawdopodobieństwem określić z jakich białek one pochodzą.
Ostatecznym wynikiem przeszukania jest lista peptydów i białek, wraz z parametrami
świadczącymi o jakości ich identyfikacji.
30
4.1.1. Zasady fragmentacji peptydów
Najczęściej wykorzystywaną metodą fragmentacji peptydów jest CID, czyli
dysocjacja wywołana kolizjami z cząstkami gazu szlachetnego, zwykle argonu. Sposób w jaki
peptydy ulegają fragmentacji, a tym samym uzyskane dla nich widma fragmentacyjne, są
silnie zależne od energii kolizji. W większości komercyjnie dostępnych spektrometrów
stosowane są niskie energie, w zakresie od kilku do 100 eV [2, 39]. Przy takich energiach
kolizji, dysocjacji najczęściej ulegają pojedyncze wiązania łańcucha głównego peptydu,
w efekcie czego powstają dwa jony, z których jeden zawiera C-koniec, a drugi N-koniec
peptydu [39, 54, 55]. W zależności od miejsca dysocjacji, powstające jony nazywane są
odpowiednio a, b, c jeżeli zawierają N-koniec peptydu oraz x, y, z jeżeli zawierają C-koniec
(rysunek 4.1). Indeksy przy nazwach jonów określają pozycję aminokwasu, którego wiązanie
uległo przerwaniu. Dla jonów a, b, c indeksy liczone są zwykle od N-końca, podczas gdy dla
x, y, z od C-końca. Jony oznaczone jako bi i yL-i są zatem dwoma jonami powstałymi
w wyniku rozerwania wiązania pomiędzy atomami węgla i azotu w i-tym aminokwasie
peptydu o sekwencji długości L. To, który z tych dwóch jonów zostanie zdetekowany zależy
od tego, przy którym z nich pozostanie ładunek.
Rys. 4.1. Potencjalne miejsca dysocjacji wiązań w łańcuchu głównym przykładowego peptydu o sekwencji
złożonej z czterech reszt aminokwasowych (Ri oznacza łańcuch boczny i-tej reszty). Kierunek strzałki wskazuje
stronę, po której pozostaje ładunek umożliwiający detekcję jonu fragmentacyjnego
W zmierzonym widmie mas CID jony fragmentacyjne objawiają się w postaci pików
o wartościach m/z wynikających z ich masy i stopnia naładowania. Jeżeli sekwencje dwóch
jonów tego samego rodzaju i o jednakowej liczbie ładunków różnią się od siebie o jedną
resztę aminokwasową (np. dwa kolejne jony bi i bi+1), to różnica wartości m/z
31
odpowiadających im pików będzie równa masie tej reszty podzielonej przez stopień
naładowania. W efekcie każdy rodzaj jonów generuje serię pików o wzajemnych położeniach
zależnych od mas kolejnych aminokwasów w sekwencji peptydu, a tym samym niosących
informacje o tej sekwencji. Pikom należącym do serii często towarzyszą piki lżejszych jonów
powstałych przez oddysocjowanie cząsteczek wody lub amoniaku, które również mogą
posłużyć do identyfikacji sekwencji.
Prawdopodobieństwa powstania poszczególnych rodzajów jonów nie są jednakowe.
W zdecydowanej większości przypadków w widmach dominują serie pików związane
z jonami typu b i y. Dlatego też zwykle to właśnie jony z tych serii są wykorzystywane do
identyfikacji sekwencji peptydu. Przykładowe widmo fragmentacyjne, wraz z wynikami
identyfikacji, przedstawione jest na rysunku 4.2.
Rys. 4.2. Fragment widma MS/MS peptydu o sekwencji LADEIIIR po obróbce niskopoziomowej (filtracji
dolnoprzepustowej i deizotopizacji) oraz określeniu położeń pików jednokrotnie naładowanych jonów z serii
y i b. Identyfikacje sekwencji aminokwasowych wykonane na podstawie pików z obu serii są równoważne.
Niezaznaczona na rysunku, C-końcowa reszta aminokwasowa (R) może być określona na podstawie położenia
piku y1 lub różnicy pomiędzy wartościami m/z jonu macierzystego i piku jonu b7. W analogiczny sposób
identyfikowana jest N-końcowa reszta aminokwasowa (L), z tą jednak różnicą, że piki b1 zwykle nie są
obserwowane w widmie
32
4.1.2. Algorytmy identyfikacji z użyciem baz danych
Algorytmy stosowane przez systemy identyfikacji peptydów i białek można podzielić na trzy
ogólne kategorie: algorytmy wykorzystujące mniej lub bardziej złożone teoretyczne modele
widm peptydów i wyznaczające ich korelację z widmem pomiarowym, algorytmy oparte na
modelu statystycznym wynikającym z empirycznych częstotliwości wystąpień jonów
fragmentacyjnych w bazach danych oraz te dokonujące częściowej interpretacji sekwencji.
Do pierwszej grupy należy SEQUEST [7], będący historycznie pierwszym, ale nadal
powszechnie używanym systemem identyfikacji peptydów i białek na podstawie danych ze
spektrometrii tandemowej. Wykorzystuje on uproszczony model widma teoretycznego,
zawierający wszystkie piki z serii y i b, którym przypisywana jest abstrakcyjna wysokość 50,
oraz towarzyszące im piki bez amoniaku i wody, o wysokości 10. Mieszczącym się wokół
teoretycznych położeń pików przedziałom mas o szerokości zależnej od dokładności pomiaru
przypisane są o połowę mniejsze wysokości. Miara dopasowania do tego modelu wyznaczana
jest na podstawie jego korelacji wzajemnej z widmem eksperymentalnym. Do tej samej
kategorii należą również algorytmy używane przez programy X! Tandem [8], SONAR [9]
i SALSA [10], które posługują się innymi miarami dopasowania, ale podobnie jak SEQUEST
oparte są na prostych modelach widm fragmentacyjnych. Bardziej złożone modele zostały
natomiast wykorzystane w algorytmach SCOPE [11] i OLAV [12]. Modele te uwzględniają
fakt, że prawdopodobieństwo zaobserwowania fragmentacji w różnych miejscach łańcucha
peptydu jest zależne od sekwencji jego aminokwasów i właściwości spektrometru.
Współczynniki modeli wyznaczane są na podstawie dużych zbiorów uczących, w skład
których wchodzą zweryfikowane przez ekspertów widma.
Druga grupa algorytmów stosuje podejście będące rozwinięciem idei wywodzącej się
z techniki PMF. Wykorzystują one empiryczne modele opisujące prawdopodobieństwa
wystąpień jonów fragmentacyjnych o danej masie, mogących powstać z peptydów będących
efektem trawienia znajdujących się w bazie danych białek. Na ich podstawie wyznaczane jest
prawdopodobieństwo uzyskania zaobserwowanej zgodności z widmem teoretycznym
w sposób losowy. Każdy pik zmierzonego widma o masie mieszczącej się w oknie tolerancji
wokół teoretycznego położenia jest traktowany jako dopasowanie jonu fragmentacyjnego.
W najprostszym przypadku zliczana jest liczba dopasowań pików z serii b i y,
a prawdopodobieństwo losowego dopasowania całej sekwencji określane jest jako iloraz
33
prawdopodobieństw dopasowań jej fragmentów. Reprezentantem tej kategorii jest system
Mascot [13], oparty na rozwinięciu stosowanego w technice PMF algorytmu MOWSE
(MOlecular Weight Search) [6]. Niestety, pomimo że jest on obecnie najczęściej
wykorzystywanym systemem identyfikacji, szczegóły jego modelu statystycznego nie zostały
nigdzie opublikowane. Innym przykładem algorytmu z tej grupy jest OMMSA [14].
Algorytmy z częściową interpretacją widma, do których zaliczyć można m. in.
PeptideSearch [15], MS-Seq [16] oraz GutenTag [17] stanowią swego rodzaju etap pośredni
pomiędzy algorytmami czysto bazodanowymi a sekwencjonowaniem de-novo. Opierają się
one na założeniu, że możliwe jest odnalezienie w widmie ciągłej serii pików umożliwiającej
jednoznaczną identyfikację przynajmniej krótkiej sekwencji aminokwasów. Uzyskana w ten
sposób częściowa wiedza jest następnie włączana do procesu przeszukiwania bazy danych.
Zaletą tego rodzaju algorytmów jest odporność na różnice pomiędzy rzeczywistą sekwencją
peptydu a zawartością bazy danych, dzięki czemu dobrze nadają się do interpretacji peptydów
z nieznanymi modyfikacjami.
Należy zaznaczyć, że podany podział nie jest ścisły i część algorytmów może
korzystać z rozwiązań typowych dla innych grup. Przykładowo, Mascot najprawdopodobniej
wykorzystuje informacje o wysokości pików i ciągłości serii [18]. Dzięki temu możliwe jest
wyeliminowanie podstawowej wady algorytmów opartych na zliczaniach dopasowań, jaką
jest brak rozróżnienia pomiędzy pikami serii a pikami tła.
4.1.3. Ograniczenia skuteczności identyfikacji peptydów i białek
Naturalnym ograniczeniem możliwości identyfikacji jest jakość zmierzonych widm
fragmentacyjnych. Peptydy występują w próbkach w bardzo różnych stężeniach i te będące na
granicy detekcji spektrometru skutkować będą widmami o niepełnej dysocjacji oraz małej
statystyce jonów. Jakość widm może dodatkowo ulegać degradacji w wyniku ograniczonej
dokładności określenia masy i zdolności rozdzielczej spektrometru, szumu chemicznego
i elektroniki oraz fluktuacji sygnałów jonów na skutek zmiany koncentracji peptydów
wchodzących do źródła jonów. Dodatkowe ograniczenia wprowadza również sposób
akwizycji w technice LC-MS/MS, gdzie w pojedynczym skanie fragmentacji poddawana jest
jedynie ograniczona liczba jonów molekularnych, wybranych zwykle na podstawie wysokości
ich pików w pełnym widmie. Ponadto, w trakcie akwizycji nie następuje rozróżnienie rodzaju
34
jonów molekularnych. W efekcie, zbiór zmierzonych widm fragmentacyjnych zawierać
będzie, obok widm peptydów, również widma niepeptydowych zanieczyszczeń.
Należy również mieć na uwadze fakt, że mechanizmy rządzące fragmentacją wciąż
nie są dokładnie poznane [18, 56]. W wypadku wielu peptydów rzeczywiste widma
fragmentacyjne znacząco odbiegają od omawianego w podrozdziale 4.1.1 schematu, co nie
jest uwzględniane w prostych modelach używanych przez algorytmy identyfikacji.
Dodatkowym problemem jest fakt, że nie wszystkie sekwencje generują wystarczająco
unikalne widma, co jest szczególnie często obserwowane dla krótkich peptydów.
Wspomniane zjawiska powodują, że z jednej strony zwykle nie jest możliwe
określenie sekwencji wszystkich peptydów znajdujących się w złożonych próbkach, z drugiej
zaś wiele spośród identyfikacji jest fałszywie pozytywnych.
Zwiększeniu liczby zidentyfikowanych peptydów sprzyjają wszelkie działania
prowadzące do spadku złożoności frakcji próbki analizowanej przez spektrometr
w pojedynczym skanie. Najprostszym przykładem może być wydłużenie gradientu
chromatograficznego. Bardziej złożonym podejściem, zależnym od możliwości spektrometru,
jest stosowanie tzw. sekwencjonowania sektorowego, czyli wybierania jonów do
sekwencjonowania z oddzielnych podzakresów m/z.
Ograniczenie liczby fałszywie pozytywnych wyników możliwe jest dzięki
udoskonaleniu metod obróbki wstępnej widm fragmentacyjnych [57], wprowadzeniu kroku
oceny ich jakości przed wysłaniem do systemu identyfikacji [58] oraz stosowaniu
dokładniejszych modeli zjawiska fragmentacji peptydów [56]. Jednak pomimo postępów
w tej dziedzinie, występowanie znacznej, dochodzącej nawet do 90% ogółu wyników, liczby
fałszywych identyfikacji jest wciąż prawdopodobnie najpoważniejszym problemem badań
proteomicznych [18, 59]. W przypadku złożonych próbek białkowych, dla których ręczna
weryfikacja wszystkich widm jest praktycznie niemożliwa, konieczne jest stosowanie
automatycznych metod szacowania procentu fałszywie pozytywnych identyfikacji. Jednym z
najczęściej spotykanych podejść do tego problemu jest wykorzystanie podczas przeszukania
bazy danych określanej jako target/decoy [18, 59-63]. Baza taka składa się z dwóch części:
pierwsza z nich (target) zawiera rzeczywiste sekwencje białek, zaś druga (decoy) jest
„wabikiem” zbudowanym z takiej samej liczby sekwencji, które nie mają jednak
biologicznego znaczenia. Jeżeli obie części są rozłączne (tzn. nie mają wspólnych sekwencji),
każda identyfikacja niepochodząca z rzeczywistych białek może być traktowana jako wynik
35
fałszywie pozytywny. Przy dalszym założeniu, mówiącym że prawdopodobieństwa błędnego
przypisania do danego widma fragmentacyjnego sekwencji z obu części bazy są jednakowe,
liczba fałszywie pozytywnych identyfikacji w wynikach takiego przeszukania może być
wyznaczona jako podwojona liczba PSM o niebiologicznych sekwencjach. Oznacza to, że dla
dowolnego, utworzonego na podstawie pewnego kryterium, podzbioru wyników możemy
oszacować FDR (False Discovery Rate), czyli wartość oczekiwaną stosunku liczby fałszywie
pozytywnych
PSM
do
całkowitej
liczby
PSM
spełniających
zadane
kryterium
[18, 61, 64, 65]. Jako kryterium wyboru PSM najczęściej służy pewna progowa wartość
stosowanej przez używany system identyfikacji miary dopasowania sekwencji do widma.
W literaturze zaproponowano wiele sposobów tworzenia sekwencji niebiologicznych:
odwrócenie [59, 60] lub przetasowanie sekwencji całych białek [61], odwrócenie sekwencji
peptydów tryptycznych [62], losowa generacja z zachowaniem cech oryginalnych sekwencji
[63]. Najczęściej stosowane jest odwrócenie sekwencji białek, ale w zasadzie nie ma spójnego
stanowiska co do wpływu wybranej metody na uzyskiwane oszacowania FDR.
Zaletami metody bazy target/decoy są: prosta implementacja, możliwość użycia
w połączeniu z dowolną miarą jakości dopasowania oraz brak parametrycznych założeń
dotyczących rozkładu wartości tej miary. Wadą jest natomiast brak pewności co do tego, czy
niebiologiczna część bazy danych może być podstawą oszacowania rozkładu wartości miary
dopasowania fałszywych identyfikacji w części zawierającej rzeczywiste sekwencje.
Dokładniejsze omówienie tego zagadnienia, wraz z pewnymi dowodami o charakterze
empirycznym, można znaleźć w pracy [59].
4.2. Analiza ilościowa
W klasycznym podejściu, w którym analizowane mieszaniny białek poddawane były
wstępnemu rozdzieleniu przy użyciu elektroforezy dwukierunkowej, możliwe było uzyskanie
informacji
o
charakterze
ilościowym
na
podstawie
densytometrii
obrazów
żeli.
Rozwinięciem tego podejścia stało się różnicowe wybarwianie białek poddawanych wspólnej
elektroforezie 2-D DIGE (Two-dimensional Difference Gel Electrophoresis) [2, 5]. Wadami
technik żelowych są jednak czasochłonność, trudności w automatyzacji oraz podatność na
błędy wynikające z niezupełnego rozdzielenia białek w żelu.
36
Wraz z upowszechnieniem się metod analizy białek bez wcześniejszego rozdzielenia
składników próbek z użyciem żeli, konieczne stało się opracowanie metod analizy ilościowej
opartej w całości o dane spektrometryczne. Trudnością jest jednak fakt, że spektrometr mas
nie jest idealnym przyrządem dla pomiarów o charakterze ilościowym, ze względu na wciąż
nie do końca zbadaną relację pomiędzy ilością cząstek próbce a zmierzonym sygnałem.
Występujące w mieszaninach peptydów zjawisko supresji jonów oraz zależność efektywności
jonizacji od sekwencji peptydów powodują, że mówiąc o analizie ilościowej w spektrometrii
mamy na myśli przede wszystkim pomiary względnych różnic w poziomach ekspresji białek
pomiędzy różnymi próbkami biologicznymi [25, 66, 67]. Kolejnym problemem jest
rozdzielenie informacji o charakterze ilościowym i informacji jakościowych pomiędzy dwa
rodzaje danych pomiarowych. W ogólnym przypadku dane dostarczane przez spektrometr
pracujący w trybie sekwencjonowania (dane MS/MS) są jedynie źródłem wiedzy jakościowej
o składzie próbek. Proste metody wnioskujące o zmianach w ekspresji na podstawie liczby
zidentyfikowanych peptydów [68] czy stopnia pokrycia ich sekwencji [69] mogą dostarczyć
jedynie zgrubnych oszacowań, co jest wynikiem braku prostej zależności pomiędzy tymi
parametrami a stężeniem białka w próbce. Z drugiej strony, pełne widma mas próbek (dane
MS) niosą informacje o charakterze czysto ilościowym. Wprawdzie znając sekwencję
peptydu możemy określić przybliżone parametry jego pełnego widma mas, ale zależność ta
zwykle nie działa w drugą stronę: znajomość pełnego widma mas peptydu nie prowadzi do
jednoznacznego określenia jego sekwencji. Tak więc przeprowadzenie analizy ilościowej
w oparciu o dane LC-MS jest wieloetapowym procesem wymagającym połączenia informacji
jakościowych i ilościowych uzyskiwanych z obydwu rodzajów danych. W efekcie dotychczas
nie powstała
metoda,
która
umożliwiałaby wykonanie pełnej
analizy ilościowej
w pojedynczym kroku. W ogólności stosowane podejścia można podzielić na dwie grupy,
w zależności od tego czy wykorzystują znakowanie izotopami stabilnymi, czy też nie.
4.2.1. Metody ze znakowaniem izotopowym
Jednym z możliwych sposobów względnego pomiaru ilości białek jest użycie technik
znakowania próbek białkowych stabilnymi izotopami [33, 48, 71-73]. Wykorzystują one
zdolność spektrometru do rozpoznania peptydów o takiej samej sekwencji, różniących się
jednak zawartością stabilnych izotopów pierwiastków takich jak 2H, 13C, 15N i 18O. Peptydy
37
zawierające różne ilości izotopów będą miały bardzo zbliżone lub wręcz identyczne
właściwości biofizyczne, przez co stosunek intensywności ich sygnałów MS będzie
proporcjonalny do ilościowego stosunku białek, z których pochodzą. W najprostszej wersji
eksperyment polega na osobnym wyznakowaniu peptydów pochodzących z dwóch próbek
białkowych, które są następnie mieszane w równych proporcjach i wspólnie poddawane
analizie spektrometrycznej. W zarejestrowanym widmie mas połączonej próbki pojawią się
pary widm, przysuniętych wobec siebie o wartość m/z zależną od rodzaju użytych izotopów.
Podstawową różnicą pomiędzy poszczególnymi metodami z tej rodziny jest sposób
wprowadzenia izotopów. Do najczęściej wykorzystywanych metod należą: znakowanie
metaboliczne poprzez hodowle komórek na pożywkach o różnym składzie izotopowym [70],
znakowanie chemiczne, polegające na dołączeniu do peptydów znaczników o różnym
składzie izotopowym [71, 72] oraz znakowanie enzymatyczne przez trawienie białek
w środowiskach o różnym składzie izotopowym [73]. Możliwe jest również dodanie do
próbki syntetycznych peptydów znakowanych [33], co, w odróżnieniu od wszystkich
pozostałych metod, umożliwia pomiar bezwzględnych stężeń peptydów bądź białek.
4.2.2. Metody bez znakowania izotopowego
Wyniki badań prowadzonych z użyciem metod wykorzystujących znakowanie izotopami
stabilnymi pokazują, że pozwalają one w sposób wiarygodny i powtarzalny wykrywać nawet
stosunkowo niewielkie zmiany w ekspresji białek. Niestety, metody te nie są wolne od wad,
w pewnych wypadkach poważnie ograniczających zakres ich praktycznej stosowalności.
Oczywistymi wadami są wysokie koszty oraz zwiększenie stopnia skomplikowania procesu
przygotowywania próbek. W praktyce jednak istotniejszy może być różnicowy charakter tych
metod, który wymusza wspólną analizę próbki badanej i kontrolnej, a tym samym ogranicza
swobodę wyboru układu eksperymentalnego. Problemem mogą być również selektywność
znakowania i różnice w jego efektywności oraz trudności w zastosowaniu do badań
peptydomu. Dlatego też prowadzone są intensywne prace nad rozwojem technik analizy
ilościowej bez znakowania izotopowego (label free), w których informacje o względnych
zmianach ekspresji peptydów i białek uzyskuje się poprzez porównania sygnałów pomiędzy
widmami próbek mierzonych osobno.
38
Wiele prac badawczych dotyczących metod analizy ilościowej bez znakowania
izotopowego wykonano przy użyciu spektrometrów ze typu MALDI [30-31, 74-76].
Możliwość wykorzystania w takich zastosowaniach przyrządów z jonizacją ESI pojawiła się
wraz z wprowadzeniem systemów z kapilarnymi kolumnami chromatograficznymi. Dzięki
małym przepływom zapewniają one optymalne warunki jonizacji, pozwalające osiągnąć
linową odpowiedź mierzonego sygnału na zmiany stężenia peptydów, co zostało pokazane
zarówno dla prostych mieszanin [77], jak i bardziej złożonych próbek biologicznych
[21, 25, 26]. Należy jednak podkreślić, że porównywanie widm LC-MS jest zadaniem
trudniejszym niż w przypadku jednowymiarowych widm MALDI, co wynika nie tylko
z większej wymiarowości uzyskiwanych zbiorów danych, ale także z pojawienia się
w układzie pomiarowym dodatkowego źródła zmienności, jakim jest system HPLC. Nawet
przy zapewnieniu powtarzalnych warunków chromatograficznych obserwowane będą
rozrzuty w czasie elucji peptydów na skutek chwilowych zmian ciśnienia i temperatury.
Badania wykazują, że czasy retencji w HPLC mogą fluktuować o 1-2% przy zmianie
temperatury o 1ºC i to w sposób zależny od związku, podczas gdy eksperymenty LC-MS
rzadko odbywają przy się kontrolowanej temperaturze [25, 78].
Typowe oprogramowanie dostarczane przez producenta wraz ze spektrometrem nie
jest przystosowane do wykonywania automatycznej analizy ilościowej złożonych próbek
białkowych na podstawie danych LC-MS, co stało się motywacją dla rozwijania własnego
oprogramowania przez zespoły związane z laboratoriami proteomicznymi [19-29].
Systematyczne porównania proponowanych w tej dziedzinie rozwiązań są jednak nieco
utrudnione przez fakt, że w odróżnieniu od np. stosowanej w transkyptomice techniki
mikromacierzy, proteomika nie posługuje się wspólną platformą technologiczną. Tym samym,
systemy analizy często są ściśle związane z używanym przez autorów sprzętem. Ponadto
część z nich opisywana była jedynie w pobieżny sposób, przy okazji publikacji wyników
badań nad klasyfikacją próbek lub wyszukiwaniem biomarkerów.
Spotykane w literaturze rozwiązania można w ogólności zaliczyć do dwóch grup,
przy czym podział ten jest w znacznym stopniu związany z parametrami stosowanego przez
autorów spektrometru. Dla przyrządów o niskiej rozdzielczości często spotykanym
podejściem jest traktowanie widma LC-MS jako macierzy sygnałów, której metody analizy
wykazują podobieństwa ze stosowanymi w przetwarzaniu obrazów [27-29]. Pełne widma mas
próbek zamieniane są na „mapy”, czy też „obrazy”, poprzez silną kwantyzację osi m/z i czasu
39
retencji,
a
czasem
również
intensywności.
Następnie
poddawane
są
filtracji
dolnoprzepustowej i porównywane w celu wykrycia cech wspólnych lub różnicujących, przy
czym jako cechy traktowane są w tym wypadku poszczególne „piksele”. W najprostszym
przypadku porównanie odbywa się tylko na podstawie intensywności [27], ale w bardziej
złożonych podejściach stosowane są odpowiednie testy statystyczne [28]. Zaletą tego typu
metod jest fakt, że pozwalają one przeprowadzić analizę ilościową przy użyciu popularnych
i tanich przyrządów niskorozdzielczych, takich jak pułapka jonowa. Oczywistą wadą jest
natomiast zupełne oderwanie analizy od kontekstu biologicznego próbek, co czyni ją bardziej
podatną na błędy wynikające z rozrzutów wartości m/z i czasów retencji pomiędzy pomiarami
oraz obecności w próbkach zanieczyszczeń i szumu chemicznego.
Dla przyrządów z analizatorami średniej (Q-TOF) i wysokiej rozdzielczości (FT-ICR)
stosowane jest zwykle podejście oparte na ekstrakcji cech z widma, przy czym cechami są
w tym wypadku reprezentujące peptydy pary wartości w postaci {masa ; czas retencji}.
Ekstrakcja cech obejmuje detekcję wszystkich występujących w widmie pików (poprzedzoną
zwykle fazą obróbki wstępnej) oraz łączenie ich w grupy odpowiadające jonom peptydowym.
W efekcie pełne widmo mas każdej z próbek zamienione zostaje na listę cech, co pozwala na
znaczące zmniejszenie rozmiaru danych i stosowanie w dalszej analizie klasycznych metod
statystycznych i uczenia maszynowego. Aby jednak możliwe były porównania ilościowe,
konieczne jest wcześniejsze określenie cech reprezentujących te same peptydy w kolejnych
próbkach. Proces ten musi uwzględniać możliwość występowania pomiędzy widmami różnic
w masie i czasie retencji.
Na przestrzeni ostatnich 5 lat szereg zespołów zaprezentowało kompletne systemy
analizy ilościowej w LC-MS, obejmujące swym działaniem wszystkie elementy
przedstawionego powyżej ogólnego schematu [19-26]. Istnieją również prace skupiające się
na poszczególnych jego etapach, takich jak: obróbka wstępna [79-82], detekcja i grupowanie
pików [83-86] i wyrównanie parametrów czasowych widm [87-91]. Większość dostępnej
literatury dotyczy metod przetwarzania danych generowanych przez przyrządy o średniej
rozdzielczości [19-23, 26]. Słabiej reprezentowane są najciekawsze z punktu widzenia
niniejszej rozprawy prace dotyczące spektrometrów z wysokorozdzielczymi analizatorami
FT-ICR. W przypadku tych ostatnich najbardziej rozwiniętą metodą jest AMT (Accurate
Mass and Time) [25, 91-95]. Jednocześnie implementujące ją oprogramowanie stanowi
najdokładniej opisany i, co ważne, znajdujący praktyczne zastosowanie w rzeczywistych
40
badaniach. system analizy ilościowej. Dlatego też AMT poświęcona zostanie szczególna
uwaga w zamieszczonym poniżej przeglądzie metod przetwarzania danych LC-MS w analizie
ilościowej bez znakowania izotopowego. Przegląd ten podzielony jest na dwie części:
pierwsza dotyczy kroków obróbki wykonywanych w ramach widma mas pojedynczej próbki,
druga zaś poświęcona jest rozwiązaniom stosowanym na etapie łączenia informacji
pochodzących z różnych próbek.
Ekstrakcja cech w pojedynczym widmie
Pierwszym krokiem w ekstrakcji cech jest detekcja pików, która może następować w obrębie
poszczególnych skanów [20, 23-25, 83] lub wzdłuż osi czasu retencji, z użyciem
chromatogramów wyznaczanych w zakresach m/z o szerokości odpowiadającej przyjętemu
kwantowaniu widma [22, 26, 79, 84, 86, 88]. Dość zaskakujący jest fakt, że podczas detekcji
pików rzadko wykorzystywana jest ich dwuwymiarowa natura.
Detekcję zazwyczaj poprzedza etap obróbki wstępnej, mającej na celu redukcję
szumów i uwypuklenie pików. Filtracja widm mas w ramach skanów może odbywać się
w dziedzinie sygnału, przy użyciu filtru Savitzkyego-Golaya [20, 83], bądź też w dziedzinie
transformaty Fouriera [80] lub falkowej [23, 81]. Korekcja tła, będąca istotnym krokiem
przetwarzania gęstych, jednowymiarowych widm MALDI, nie stanowi tak dużego problemu
w wypadku widm ESI, szczególnie tych pochodzących z wysokorozdzielczych przyrządów
FT-ICR. Jeżeli jest wykonywana, to linia bazowa może być wyznaczona przez dopasowanie
wielomianu niskiego stopnia do rozkładu minimów lokalnych [20]. Innym podejściem jest
wykorzystanie nieliniowego filtru typu top- hat, odejmującego od oryginalnego sygnału
wynik działania morfologicznego operatora otwarcia [83]. Podczas filtracji chromatogramów
używane są dolnoprzepustowe filtry oparte na liczeniu średniej arytmetycznej, średniej
geometrycznej lub mediany sygnału w oknie o zadanej szerokości [22, 26, 79], a także
dopasowane filtry gaussowskie, stosowane po wcześniejszym wyznaczeniu drugiej
pochodnej, co pozwala na jednoczesną korekcję linii bazowej [79, 84, 86].
Właściwa detekcja pików często wykonywana jest poprzez proste wykrywanie
obszarów widma lub chromatogramu o wartościach przekraczających poziom estymowanego
lokalnie szumu. W zależności od metody, uznanie piku za prawidłowy wymaga spełnienia
dodatkowych warunków dotyczących jego szerokości [22] lub występowania koincydencji
41
maksimów lokalnych w wzdłuż osi m/z [26] i czasu retencji [20]. Stosowane są również
bardziej złożone podejścia, oparte na wykorzystaniu transformaty falkowej [83, 85].
Po określeniu położeń wszystkich pików w widmie następuje wyznaczenie cech
poprzez grupowanie pików reprezentujących te same jony peptydowe. W najprostszym
wypadku piki grupowane są jedynie na podstawie sąsiedztwa w m/z i czasie retencji [26].
Częściej jednak proces ten rozbijany jest na etapy deizotopizacji widm mas z poszczególnych
skanów, po którym następuje łączenie profili elucji w czasie retencji. Deizotopizacja wiąże się
z określeniem położenia piku monoizotopowego i stopnia naładowania wszystkich obwiedni
izotopowych w widmie. Przy danym stopniu naładowania jonu piki należące do jednej
obwiedni powinny charakteryzować się zależnymi od składu chemicznego peptydu odstępami
i stosunkami wysokości. Ponieważ jednak na tym etapie sekwencje peptydów nie są znane,
zakłada się stałość odstępów pomiędzy pikami i stosuje przybliżone wartości stosunków ich
wysokości. Przykładem algorytmu deizotopizacji jest THRASH (Thorough High Resolution
Analysis of Spectra by Horn) [43], stanowiący podstawę detekcji cech w metodzie AMT.
Zaczyna on pracę od określenia pozycji najwyższego piku widma (zakładając przy tym, że
jest to pik monoizotopowy obwiedni), a następnie wyznacza stopień naładowania na
podstawie częstotliwości występowania pików w jego otoczeniu z użyciem transformaty
Pattersona [44]. Znajomość ładunku i wartości m/z umożliwia wyliczenie masy, która z kolei
służy od określenia średniego składu chemicznego [45] i przybliżonego rozkładu
izotopowego [96]. Uzyskana w ten sposób teoretyczna obwiednia izotopowa porównywana
jest z danymi eksperymentalnymi w celu wyznaczenia stopnia jej dopasowania. Proces jest
powtarzany dla wszystkich pików powyżej progu szumu. Podobne podejście, zwykle jednak
z różnego rodzaju uproszczeniami, stosowane jest także w innych metodach [19, 20, 23, 83].
Efektem deizotopizacji jest wyznaczanie dla każdego skanu listy występujących
w nim mas. Dalsze grupowanie w kierunku czasu retencji oparte jest na założeniu, że
podobne masy występujące w sąsiadujących skanach reprezentują te same peptydy.
Połączenie ich w pojedynczą cechę następuje na podstawie zadanych tolerancji dla różnic
w masie [21] lub, jak to ma miejsce w systemie AMT, poprzez dwuwymiarową klasteryzację
[25, 93]. W większości przypadków autorzy nie odnoszą się do problemu błędów
popełnianych podczas ekstrakcji cech. O ich istnieniu świadczyć może chociażby fakt, że
w metodzie AMT wprowadzony został krok filtracji cech o stosunku masy do ładunku nie
mieszczącym się w zakresie pomiarowym [25]. Jeżeli wziąć pod uwagę fakt, że AMT używa
42
najbardziej
rozbudowanego
podejścia
do
deizotopizacji,
można
przypuszczać,
że
w pozostałych metodach problem ten również występuje.
W wyniku ekstrakcji powstaje zbiór cech, których pozycje określane są zwykle jako
średnie lub mediany pozycji połączonych pików. Wartościami cech stają się, w zależności od
podejścia, wysokość piku monoizotopowego w maksimum profilu elucji [20], suma
wysokości wszystkich pików [26], lub tylko tych pochodzących od dominującego stopnia
naładowania [25].
Grupowanie cech z wielu widm
Przeprowadzenie analizy ilościowej wymaga wzajemnego przyporządkowania cech
reprezentujących te same peptydy w poszczególnych próbkach. Bezpośrednie porównanie
pozycji cech z różnych widm prowadzić będzie do wykrywania fałszywych różnicowań na
skutek możliwych niedokładności kalibracji skali m/z i zmienności czasów retencji. O ile
zapewniana przez spektrometr dokładność określenia mas jest zwykle dobra, o tyle słaba
powtarzalność HPLC jest poważnym problemem, wymuszającym konieczność wzajemnego
dopasowania skali czasu porównywanych przebiegów. Należy przy tym zwrócić uwagę, że
wyznaczenie globalnego liniowego przekształcenia pomiędzy widmami nie jest w stanie
zapewnić wystarczającej dokładności, gdyż na skutek wahań ciśnienia i temperatury różnice
w czasach elucji mogą zmieniać się w sposób nieliniowy [25, 78].
Większość algorytmów wyrównywania skali czasu działa w oparciu o pełne widma
mas próbek. W tym przypadku dopasowywaniu mogą podlegać globalne profile elucji,
reprezentowane przez chromatogramy całkowitego prądu jonowego TIC (Total Ion Current)
[89, 90] lub też zbiory chromatogramów wykonanych dla podzakresów skali m/z [20, 27, 88].
Proces ten może odbywać się w parach, w odniesieniu do wybranego widma referencyjnego
[20, 27, 87, 89] lub obejmować jednocześnie wszystkie widma [88, 90]. Znaczna część
opisanych w literaturze metod wykorzystuje programowanie dynamiczne i wywodzi się od
algorytmu DTW (Dynamic Time Warping) [97]. Algorytm ten wyznacza nieliniowe
przekształcenie poprzez lokalne rozciąganie i kompresję skali czasu, w taki sposób, aby
zminimalizować odległość pomiędzy analizowaną i referencyjną serią czasową. Pierwotnie
został on opracowany na potrzeby przetwarzania sygnałów mowy, ale znalazł zastosowanie
w chromatografii cieczowej, a następnie również w LC-MS, gdzie używany jest zarówno
43
w oryginalnej postaci [20], jak i z modyfikacjami dotyczącymi minimalizowanej funkcji celu
[27, 87] lub umożliwiającymi jednoczesne działanie na wielu zbiorach danych [88]. W DTW
każdy z punktów serii czasowej może być przemieszczony, co czyni ten algorytm
kosztownym obliczeniowo. Alternatywnym podejściem jest podzielenie serii czasowej na
segmenty, wewnątrz których następuje liniowe przeskalowanie osi czasu, przy jednoczesnym
zachowaniu ciągłości w węzłach (granicach segmentów). Również w tym wypadku
optymalizacja odbywa się poprzez programowanie dynamiczne, którego zadaniem jest
maksymalizacja sumy współczynników korelacji pomiędzy odpowiadającymi sobie
fragmentami w obydwu seriach czasowych. Oparty na tym schemacie algorytm COW
(Correlation Optimized Warping) stosowany był najpierw w chromatografii cieczowej [98],
a następnie zmodyfikowany na potrzeby danych LC-MS [89]. Inna ciekawa metoda, o nazwie
CPM (Continous Profile Models) [90], wykorzystuje ukryty model Markowa (HMM –
Hidden Markov Model) [99] trenowany przy użyciu algorytmu EM (Expectation
Maximization) [100] na całym zbiorze dopasowywanych widm. O postaci przekształcenia
skali czasu decyduje w tym przypadku mapowanie numerów poszczególnych skanów na
ukryte stany modelu, reprezentujące „prawdziwy” czas retencji.
Jakkolwiek popularniejsze są metody operujące na pełnych widmach mas, istnieją
również takie, które są przeznaczone dla danych po ekstrakcji cech [26, 91]. Przykładem
może być przedstawiony w [26] algorytm optymalizujący liczbę cech o pokrywających się
pozycjach w ramach bloków reprezentujących zakresy wartości m/z i czasów retencji.
Poszukiwane przekształcenie ma postać przedziałami liniową, a do jego wyznaczenia
stosowany jest algorytm przyspieszonego losowego przeszukiwania (ARS – Accelerated
Random Search) [101].
4.2.3. Ograniczania metod analizy ilościowej bez znakowania izotopowego
Przedstawione w poprzednim podrozdziale metody analizy ilościowej bez znakowania
izotopowego oparte są na założeniu, że określenie masy oraz czasu elucji jest wystarczającym
sposobem opisu peptydów, umożliwiającym ich wiarygodną identyfikację w różnych
widmach mas. Tym samym zakładają, że nie ma potrzeby wykorzystywania na etapie
ekstrakcji cech informacji o sekwencjach peptydów. Zaletą takiego podejścia jest możliwość
porównania próbek na podstawie dużej liczby cech, która nie jest ograniczana przez
44
niedoskonałości procesu sekwencjonowania. Problemem pozostaje natomiast fakt, że
znakomitej większości z nich nie można nadać interpretacji biologicznej. W wypadku tych
metod połączenie informacji ilościowych, uzyskanych z widm LC-MS, z jakościowymi,
dostarczanymi przez przebiegi LC-MS/MS, jest oczywiście możliwe, ale następuje już po
etapie ekstrakcji cech. Ze względu na sposób w jaki zdefiniowane są cechy, przypisanie im
konkretnych peptydów może być oparte jedynie na bliskości w dziedzinie masy i czasu
retencji. Tym samym prawidłowość tego przyporządkowania jest w znacznej mierze
uzależniona od jakości dopasowania czasów retencji, które w tym wypadku musi objąć
również przebiegi LC-MS/MS. Należy w tym miejscu zwrócić uwagę, że wszystkie opisane
wcześniej algorytmy wyrównywania skali czasu bazują na założeniu o niezmienności
kolejności schodzenia peptydów z kolumny chromatograficznej. Oczekiwane jest także duże
podobieństwo pomiędzy profilami elucji widm. Oba założenia są słuszne w sensie globalnym,
ale już niekoniecznie w lokalnym. Przy porównywaniu próbek pochodzących z różnych grup
badanych lokalnie mogą występować duże różnice w widmach. Zdecydowana zmiana ilości
pewnych peptydów, lub też pojawianie się nowych, może zaburzyć działanie algorytmów i to,
paradoksalnie, w miejscach najciekawszych z punktu widzenia analizy ilościowej.
Oczywistym zastosowaniem metod analizy ilościowej jest szukanie różnic pomiędzy
badanymi próbkami, które np. w wypadku zastosowań diagnostycznych traktowane są jako
potencjalne biomarkery stanów chorobowych. Może się wydawać, że nie ma większego
znaczenia czy biomarkerom można przypisać konkretne peptydy i ważne jest jedynie aby
w sposób konsekwentny pozwalały rozróżnić osoby zdrowe od chorych. Takie podejście stało
się przyczyną początkowego entuzjastycznego przyjęcia licznych doniesień o wykrytych przy
użyciu spektrometrii mas różnicowaniach, często podawanych w postaci pozbawionych opisu
biologicznego list mas [102]. Entuzjazm ten wydaje się obecnie nieco słabnąć na skutek braku
niezależnych potwierdzeń tych obserwacji oraz licznych publikacji pokazujących ogromny
wpływ, jaki na wyniki mają sposób zbierania, przygotowania i przechowywania badanych
próbek [32, 33, 102-104]. Możliwość nadania interpretacji biologicznej nie chroni wprawdzie
przed wykryciem fałszywych różnicowań, ale ułatwia ich weryfikację. Jednocześnie daje
szansę odsiania tych wyników, które prowadzą do wniosków trywialnych z diagnostycznego
punktu widzenia.
45
5. METODA ANALIZY ILOŚCIOWEJ ZMIAN EKSPRESJI BIAŁEK I PEPTYDÓW
W OPARCIU O DANE Z TECHNIKI LC-MS
5.1. Ogólna charakterystyka metody
Proponowana w niniejszej pracy metoda analizy ilościowej należy do kategorii label free,
czyli nie wykorzystuje znakowania izotopami stabilnymi, co pozwala na porównywanie
próbek przygotowywanych osobno i poddawanych pomiarowi w różnym czasie oraz
zwiększa swobodę w planowaniu układu eksperymentu. Odporność na niestabilność
parametrów spektrometru i układu HPLC, konieczną do prawidłowego działania metody bez
znakowania izotopowego, uzyskuje się poprzez uwzględnienie w procesie przetwarzania
danych możliwości wystąpienia pomiędzy widmami różnic w kalibracji wartości m/z, czasie
elucji peptydów oraz ilości badanego materiału biologicznego. Metoda może być użyta
zarówno w badaniach proteomu, jak i peptydomu, co oznacza, że peptydy w analizowanych
próbkach mogą mieć pochodzenie naturalne lub też być wynikiem trawienia białek in vitro za
pomocą enzymu proteolitycznego. Podczas opracowywania metody wykorzystywane były
dane pochodzące ze spektrometru LTQ-FT firmy Thermo [49]. Jest to przyrząd hybrydowy,
w którym za rejestrację pełnych widm mas odpowiada wysokorozdzielczy analizator FT-ICR,
natomiast pomiar widm fragmentacyjnych odbywa się w liniowej pułapce jonowej. Metoda
nie bazuje jednak na specyficznej konstrukcji spektrometru i wykorzystuje niezależny od niej
format danych. Tym samym może bez większych modyfikacji zostać użyta z innym rodzajem
spektrometru, pod warunkiem, że zapewnia on dostateczną rozdzielczość (np. typu Q-TOF).
W odróżnieniu od opisywanych w rozdziale 4.2.2 metod analizy ilościowej, cechą jest
peptyd o znanej sekwencji, a nie tylko wartości masy i czasu retencji określające pozycję
widma reprezentujących go jonów. Analiza ilościowa jest więc oparta na wcześniejszej
identyfikacji występujących w próbkach peptydów. Uzyskane dzięki sekwencjonowaniu
informacje służą do utworzenia teoretycznych modeli opisujących dokładny kształt
i przybliżone położenie widm mas jonów peptydowych, które następnie są wykorzystywane
na etapie ekstrakcji wartości liczbowych z pełnych widm mas próbek. Modele te, zgodnie
z naturą widm LC-MS, mają postać dwuwymiarową, dzięki czemu detekcja widm jonów
odbywa
się
jednorazowo,
bez
konieczności
późniejszego
grupowania
informacji
z poszczególnych skanów. Jednocześnie już na etapie ekstrakcji cech uwzględniona jest
46
możliwość występowania rozrzutów w czasach elucji peptydów, dzięki czemu nie jest
potrzebny osobny krok dopasowywania parametrów czasowych widm. Określenie
właściwego czasu retencji odbywa się osobno dla każdego peptydu, bez czynienia typowego
dla algorytmów dopasowywania założenia o zachowaniu kolejności jego zejścia z kolumny
chromatograficznej.
Proces przetwarzania danych w przedstawianej metodzie można, w pewnym
uproszczeniu, podzielić na cztery podstawowe etapy:
●
budowanie bazy wiedzy o występujących w próbkach białkach i peptydach na
podstawie wielokrotnych przebiegów sekwencjonujących LC-MS/MS;
●
tworzenie teoretycznych modeli widm mas jonów zidentyfikowanych peptydów;
●
ekstrakcja z widm LC-MS porównywanych próbek wartości liczbowych, będących
miarą względnej ilości peptydów;
●
dalsza obróbka danych w postaci liczbowej, mająca na celu umożliwienie
wnioskowania o względnych zmianach ekspresji peptydów i białek.
Szczegółowemu omówieniu wymienionych powyżej etapów poświęcone zostały
kolejne cztery podrozdziały pracy, w których proponowane przez autora rozwiązania
zaprezentowane zostaną w odniesieniu do tych znanych z literatury podejść.
5.2. Gromadzenie wiedzy o składzie próbek
W
przypadku
rzeczywistych
próbek
biologicznych,
zawierających
skomplikowane
mieszaniny białek, niedoskonałość procesu sekwencjonowania powoduje, że pojedynczy
przebieg LC-MS/MS zwykle nie jest w stanie dostarczyć zadowalającej liczby
identyfikacji [105]. Dlatego też wymagane do przeprowadzenia analizy ilościowej informacje
o charakterze jakościowym uzyskiwane są z wielokrotnych przebiegów sekwencjonujących.
Tak więc w proponowanej metodzie eksperyment zaczyna się od serii przebiegów
LC-MS/MS, na podstawie których budowana jest baza wiedzy o składzie badanych próbek.
Zagadnienia związane z przetwarzaniem danych jakościowych i identyfikacją
peptydów na podstawie widm fragmentacyjnych nie leżały w głównym nurcie prowadzonych
47
przez autora prac badawczych. Wynikało to zarówno z ram czasowych narzuconych przez
proces przygotowania rozprawy, jak i z ograniczeń natury technicznej. Przedstawiana metoda
może pracować w oparciu o identyfikacje dostarczane przez dowolny system bazodanowy,
jednak dostępne dla autora dane pochodziły z komercyjnego systemu identyfikacji
Mascot [13] firmy MatrixScience, który nie tylko ma charakter zamknięty, ale dodatkowo
producent wykazuje silną niechęć do dzielenia się wiedzą o szczegółach jego działania.
W efekcie wyniki identyfikacji peptydów i białek traktowane są w znacznej mierze jako dane
wejściowe dla dalszych kroków przetwarzania. Z drugiej jednak strony liczba peptydów, które
mogą zostać poddane analizie ilościowej jest uzależniona od wyników analizy jakościowej.
Dlatego też w niniejszym rozdziale przedstawione zostaną pewne rozwiązania związane
z eliminacją podstawowych wad systemu Mascot, do których można zaliczyć: ograniczone
możliwości oszacowania liczby fałszywie pozytywnych identyfikacji, niedostosowanie do
danych pomiarowych pochodzących z wysokorozdzielczych spektrometrów oraz wynikające
z redundancji baz danych trudności w porównywaniu wyników przeszukań.
5.2.1. Eliminacja fałszywie pozytywnych identyfikacji
Mascot jest systemem identyfikacji opartym na modelu statystycznym wykorzystującym
empiryczny rozkład częstości występowania jonów fragmentacyjnych o danej masie,
pochodzących z peptydów będących wynikiem podziału białek z bazy danych. Podobnie jak
większość systemów identyfikacji, grupuje on wyniki w hierarchiczną strukturę, u podstawy
której leżą przypisania sekwencji do widm fragmentacyjnych (PSM - Peptide Spectrum
Match). Pojedynczy peptyd może być reprezentowany przez wiele PSM, pochodzących od
jonów o różnym stopniu naładowania lub poddanych sekwencjonowaniu w różnych skanach
przebiegu LC-MS/MS. Ostatnim poziomem hierarchii są białka zidentyfikowane na
podstawie jednego, lub większej liczby peptydów.
Używaną przez system Mascot miarą jakości przypisania sekwencji do widma
fragmentacyjnego jest prawdopodobieństwo p uzyskania obserwowanego dopasowania widm,
teoretycznego i eksperymentalnego, w sposób losowy. Dla wygody wyrażane jest w postaci
logarytmicznej, jako score:
score=−10log p .
Przykładowy rozkład wartości score zaprezentowany został na rysunku 5.1.a.
48
(5.1)
Dla każdego PSM Mascot wyznacza próg istotności wartości score określany jako
Mascot Identity Threshold (MIT) i dany zależnością:
 N  ,
MIT =−10log 20
(5.2)
gdzie α przyjmuje domyślnie wartość 0,05, a N jest liczbą sekwencji kandydackich, o masach
mieszczących się w zadanym przedziale tolerancji wokół masy jonu macierzystego.
Występujący we wzorze (5.2) parametr α ma sens poziomu błędu typu I jedynie przy
założeniu pełnej losowości sekwencji peptydów z bazy danych. Ponieważ założenie to
w ogólnym przypadku nie jest spełnione, podawany jest również drugi próg, nazywany
Mascot Homology Threshold (MHT), będący empiryczną miarą odstępstwa score od rozkładu
wartości wyznaczonego na podstawie wszystkich sekwencji kandydackich [106, 107].
Niestety, dokładna definicja tego progu nie została przez producenta opublikowana, podobnie
zresztą jak i wszelkie szczegóły dotyczące stosowanego modelu statystycznego i sposobu
obliczania wartości score. Oba progi stosowane były w literaturze jako wartości odniesienia
dla score [106, 108], choć często można spotkać się z użyciem arbitralnie wybranej wartości
jako kryterium decydującego o wyborze zbioru peptydów.
a)
b)
Rys. 5.1. Przykładowe rozkłady wartości: a) miary dopasowania score; b) towarzyszących mierze score progów
istotności MIT i MHT
49
W niniejszej pracy proponowane jest stosowanie zmodyfikowanej wartości mscore,
określonej jako:
mscore=score−MMT =score−min MIT , MHT  ,
(5.3)
gdzie MIT i MHT są wartościami progów Mascota dla PSM o danej wartości score. Miarą
jakości identyfikacji białka jest mscoreB, wyznaczane na podstawie wartości mscore PSM
o wartościach pochodzących z danego białka:
NB
mscore B=∑ mscore iMMT ,
(5.4)
i =1
gdzie NB jest liczbą PSM identyfikujących białko, a MMT średnią progów istotności użytych
do określenia wartości mscorei.
Wybór progu MMT jako odniesienia dla wartości score podyktowany jest
obserwowanymi rozkładami wartości progów MIT i MHT, których przykłady zostały
przestawione na rysunku 5.1.b. Wartość progu MIT zależy jedynie od liczby sekwencji
kandydackich (wzór 5.2), która dla znacznej części widm jest zbliżona. Skutkuje to wąskim
rozkładem progów MIT, sugerującym, że użycie ich do zmodyfikowania score tylko
w nieznacznym stopniu będzie się różniło od odjęcia arbitralnie przyjętej wartości i w efekcie
może nie prowadzić do wzrostu informacji niesionej przez nową miarę. Empiryczny próg
MHT, który jest zależny zarówno od widma, jak i sekwencji, charakteryzuje się większą
specyficznością, a rozkład jego wartości jest zbliżony w kształcie do rozkładu score
(rysunek 5.1.a). Z drugiej jednak strony może on przyjmować nierealistycznie wysokie
wartości w szczególnych przypadkach widm, dla których mała liczba sekwencji kandydackich
uniemożliwia prawidłową estymację rozkładu score.
Miara mscore nie jest wykorzystywana w sposób bezpośredni, a służy jedynie do
uporządkowania PSM pod względem jakości identyfikacji w celu przypisania im q-wartości.
Pojęcie q-wartości wprowadzone zostało przez Storey'a i Tibshiraniego w kontekście analizy
wyników badań ekspresji genów przy użyciu mikromacierzy i jest definiowane jako
minimalny FDR, dla którego dana cecha może zostać uznana za istotną statystycznie [109].
Jest więc sposobem przeniesienia właściwości całego zbioru wyników, jaką jest FDR, na
poziom pojedynczych cech.
W przypadku wyników sekwencjonowania do wyznaczenia q-wartości można
wykorzystać opisywaną już w rozdziale 4.1.3 metodę przeszukiwania bazy zawierającej
zarówno rzeczywiste sekwencje białek, jak i ich odwrócone wersje. Procedura zaczyna się od
posortowania zbioru wszystkich PSM zgodnie z wartościami miary mscore. Liczba fałszywie
50
pozytywnych identyfikacji związanych z i-tą pozycją posortowanego zbioru szacowana jest
jako podwojona liczba PSM o odwróconych sekwencjach znajdujących się na pozycjach nie
większych od i. Związany z tą pozycją FDR wyznaczany jest jako liczba fałszywych
identyfikacji odniesiona do numeru pozycji. Przy znajomości wartości FDR dla kolejnych
pozycji zbioru, określenie q- wartości sprowadza się do wymuszenia monotoniczności tych
pierwszych:
{
dla i= N
q i= FDR i
,
min FDRi , FDRi1  dla i=1, , N −1
(5.5)
gdzie N jest liczebnością zbioru wszystkich PSM.
Filtracja wyników sekwencjonowania odbywa się poprzez odrzucenie wszystkich
PSM o q-wartościach nie większych od zadanego progu. Dodatkowym warunkiem jest
wymóg, aby białka identyfikowane były na podstawie co najmniej dwóch peptydów
o różnych sekwencjach.
5.2.2. Wyznaczanie parametrów przeszukiwania bazy danych
Wyniki identyfikacji nie są zależne jedynie od jakości zmierzonych widm fragmetacyjnych.
Wpływają na nie również określane przez użytkownika parametry, dotyczące zarówno
rodzaju badanych próbek, jak i używanego sprzętu. Do pierwszej grupy należą
m.in.:
stosowana baza danych sekwencji białkowych, ograniczenie zakresu przeszukania do
proteomu określonego gatunku, rodzaj użytego enzymu proteolitycznego i stopień jego
specyficzności oraz uwzględniane modyfikacje potranslacyjne. Najważniejszymi parametrami
związanymi ze sprzętem są zakresy tolerancji mas jonów macierzystych i fragmentacyjnych
(MMD – Maximum Mass Deviation). Pierwszy z nich wpływa na listę peptydów
kandydackich, których teoretyczne widma fragmentacyjne będą porównywane z widmem
eksperymentalnym,
drugi
zaś
decyduje
o
prawidłowym
wyborze
pików
widma
fragmentacyjnego służących do identyfikacji. Wybór właściwych wartości MMD może
wydawać się oczywisty, jako że powinny one być uzależnione od dokładności określenia
masy używanego spektrometru. Należy jednak pamiętać, że podawana przez producenta
dokładność nominalna jest osiągana jedynie przy pomiarach mas pojedynczych substancji,
prowadzonych w warunkach optymalnych dla spektrometru. Zachowanie takich warunków
w trakcie typowych dla proteomiki pomiarów skomplikowanych mieszanin związków
51
o znacząco różniących się stężeniach jest w praktyce bardzo trudne. W tym przypadku można
raczej mówić o dokładności określenia masy w sensie statystycznym. Dodatkowym
problemem jest fakt, że błąd określenia masy może mieć również składową systematyczną,
wynikającą z niedokładnej kalibracji skali m/z, dryfu termicznego i innych zjawisk
degradujących dokładność pomiaru.
W każdym eksperymencie proteomicznym występują peptydy, których prawidłowa
identyfikacja nie budzi większych wątpliwości ze względu na bardzo wysoką wartość mscore
lub pochodzenie z białek na pewno występujących w próbkach. Peptydy te można traktować
jako swego rodzaju wewnętrzne standardy, a obserwowany dla nich rozkład błędów może być
podstawą kalibracji i oszacowania rzeczywistej dokładności określenia masy. W spotykanych
w literaturze podejściach odbywa się to poprzez proste wyznaczenie wartości średniej
i odchylenia standardowego błędów względnych [25, 106] lub też przez dopasowanie metodą
najmniejszych kwadratów krzywej Gaussa do ich histogramu [110]. Oszacowanie wartości
średniej służy następnie do rekalibracji mas jonów macierzystych. Po jej wykonaniu dane są
ponownie przesyłane do systemu identyfikacji, przy czym zakres tolerancji mas ustalany jest
na podstawie odchylenia standardowego.
W niniejszej pracy proponowana jest udoskonalona procedura, uwzględniająca
możliwość występowania zależności błędu od zmierzonej wartości m/z. Ponadto, kalibracja
i wyznaczanie parametrów przeszukania dotyczą nie tylko mas jonów macierzystych, ale
także mas jonów fragmentacyjnych. Wynika to z faktu, że w przyrządzie, z którego pochodzą
użyte w pracy dane, pomiar obu rodzajów jonów następuje w dwóch analizatorach o znacznie
różniących się parametrach.
Wyznaczenie parametrów kalibracji dla jonów macierzystych odbywa się na
podstawie wektora e, którego elementami są błędy względne pomiaru wartości m/z, wyrażone
w jednostkach ppm. Dla i-tego jonu błąd ten dany jest zależnością:
e i=10 6

miE −mi
mi

,
(5.6)
gdzie mi i miE to, odpowiednio, rzeczywista i zmierzona wartość m/z. Rzeczywista wartość
m/z wyznaczana jest na podstawie stopnia naładowania jonu i przypisanej mu przez system
Mascot sekwencji aminokwasowej. Zakładana jest liniowa zależność błędu względnego od
wartości m/z. Parametry prostej kalibracyjnej wyznaczane są metodą najmniejszych
52
kwadratów, przy czym robione jest to w sposób zapewniający odporność na wartości
odstające, wynikające z możliwych nieprawidłowych identyfikacji sekwencji dla części
uwzględnionych peptydów. W tym celu wykorzystywany jest iteracyjny algorytm RANSAC
(RANdom SAmple Consensus), który wyznacza punkty najbardziej odbiegające od
optymalizowanego modelu na drodze powtarzanych w sposób iteracyjny losowych podziałów
zbioru danych [111]. Przy znanych parametrach prostej kalibracyjnej a i b możliwe jest
wyznaczenie skorygowanej wartości m/z dla dowolnego jonu jako:
−6
mCAL=m[1−10 amb ] .
(5.7)
Kalibracja widm MS/MS wykonywana jest w taki sam sposób jak to ma miejsce dla
jonów macierzystych, z tą jednak różnicą, że aby wyznaczyć wektor błędów e konieczne jest
wygenerowanie teoretycznych widm fragmentacyjnych dla wszystkich uwzględnianych
peptydów. Dokładniej rzecz ujmując, wyliczane są jedynie teoretyczne pozycje pików
reprezentujących jednokrotnie naładowane jony z serii y, które zwykle najłatwiej
zidentyfikować w eksperymentalnym widmie fragmentacyjnym. Określone na ich podstawie
parametry kalibracyjne są następnie używane dla wszystkich pozostałych pików widm.
Skorygowane widma fragmentacyjne zapisywane są w formacie umożliwiającym
import do Mascota. Stosowane w powtórnym przeszukaniu zakresy tolerancji wyznaczane są
jako wielokrotność odchylenia standardowego estymowanego na podstawie odchylenia
medianowego (MAD – Median Absolute Deviation) [112]:
MMD=K⋅median ∣E−median E ∣/0,6745 ,
(5.8)
gdzie E oznacza wektor błędów względnych określenia masy po wykonaniu kalibracji
(uwzględniane są jedynie jony, które nie zostały uznane za skrajne przez algorytm RANSAC
na etapie wyznaczania parametrów funkcji kalibracyjnej), natomiast parametr K domyślnie
przyjmuje wartość 3. Z nie do końca zrozumiałych przyczyn, dla jonów fragmentacyjnych
Mascot dopuszcza jedynie użycie bezwzględnego błędu określenia masy. Dlatego też w ich
przypadku konieczne jest ponowne przeliczenie tolerancji względnej (w jednostkach ppm) na
bezwzględną (wyrażoną w Da), co niestety prowadzi do niepożądanego spadku dokładności
w zakresie małych m/z.
53
5.2.3. Redukcja redundancji wyników identyfikacji
Podczas analizy próbek o nieznanym składzie białkowym zwykle używana jest możliwie jak
najobszerniejsza baza danych sekwencji aminokwasowych, co pozwala zminimalizować
ryzyko braku identyfikacji na skutek niekompletności tej ostatniej. Dodatkowo, poprawia to
skuteczność działania algorytmu identyfikacji w przypadku widm o słabej jakości, na
podstawie których nie jest możliwe odtworzenie pełnej sekwencji peptydów [107]. Z drugiej
strony, duże bazy, takie jak NCBI [113], charakteryzują się silną redundancją i częstymi
zmianami identyfikatorów odpowiadających najbardziej aktualnym wersjom sekwencji.
Skutkuje to niepożądanym wydłużeniem listy białek zidentyfikowanych na podstawie tych
samych peptydów oraz utrudnia automatyzację przetwarzania wyników identyfikacji.
Aby uwzględnić wspomniane wyżej zjawisko, w prezentowanej metodzie możliwe
jest analizowanie nie tylko poszczególnych białek, ale także całych rodzin o zbliżonej
sekwencji. Grupowanie białek w rodziny odbywa się na podstawie wyników aglomeracyjnej
klasteryzacji hierarchicznej [114]. Miarą podobieństwa pary białek jest procent identyczności
F, równy procentowi identycznych reszt aminokwasowych zajmujących odpowiadające sobie
pozycje w ich dopasowanych globalnie sekwencjach. Dopasowanie globalne sekwencji
wykonywane jest za pomocą opartego na programowaniu dynamicznym algorytmu
Needlemana-Wunsha [115] z afinicznym modelem kar za przerwy i wybraną macierzą
substytucji reszt aminokwasowych [99]. Możliwe jest również ominięcie kosztownego
obliczeniowo procesu wyznaczania dopasowania sekwencji i użycie przybliżonej miary
podobieństwa, opartej na zliczaniu liczby K-merów, czyli subsekwencji aminokwasów
o długości K [116]. Podobne do siebie sekwencje będą charakteryzować się większą liczbą
wspólnych K-merów i tym samym wyższą wartością miary podobieństwa, która dla dwóch
sekwencji S1 i S2 o długościach, odpowiednio, L1 i L2 dana jest zależnością:
∑ min  N 1 , N  2
F Kmer =
K
min L1, L2 −K 1
,
(5.9)
gdzie ΞK oznacza zbiór wszystkich K-merów o długości K, a Nξ1 i Nξ2 to liczby wystąpień
K-meru ξ w sekwencjach S1 i S2.
54
5.3. Model widma mas peptydu
Dla każdego zidentyfikowanego peptydu1 możliwe jest utworzenie modelu opisującego jego
widmo poprzez określenie dwuwymiarowego kształtu oraz przybliżonego położenia wzdłuż
osi m/z i czasu retencji. Pełny model widma z-krotnie naładowanego jonu odpowiadającego
peptydowi o złożonej z LP reszt aminokwasowych sekwencji S P i masie monoizotopowej M P
określony jest przez następujące parametry:
{
mP
f P  m/ z 
,
P
tr
g P t 
(5.10)
gdzie m P jest wartością m/z odpowiadającą położeniu piku monoizotopowego widma, funkcja
f P(m/z) opisuje kształt obwiedni izotopowej jonu, trP jest teoretycznym czasem zejścia
z kolumny chromatograficznej, a funkcja g P(t) określa profil elucji, czyli kształt pików
w kierunku osi czasu retencji.
5.3.1. Położenie widma wzdłuż osi m/z
Położenie piku monoizotopowego widma wynika z masy monoizotopowej M P peptydu oraz
stopnia naładowania z reprezentującego go jonu. Masa monoizotopowa peptydu dana jest jako
suma mas reszt aminokwasowych wchodzących w skład jego sekwencji S P (wraz
z ewentualnymi modyfikacjami potranslacyjnymi) oraz mas N- i C-końca sekwencji.
Te ostatnie w wypadku badań proteomicznych zwykle są odpowiednio równe masie atomu
wodoru i grupy hydroksylowej. Aby zachować większą uniwersalność i łatwość
uwzględniania dowolnych modyfikacji potranslacyjnych, masa monoizotopowa peptydu nie
jest wyznaczana na podstawie tabel mas reszt aminokwasowych, ale bezpośrednio z ich
składu pierwiastkowego. Przy znanej masie, wartość m/z piku monoizotopowego m P dla jonu
molekularnego o danym stopniu naładowania wyznaczana jest z zależności (3.1).
1 W niniejszym podrozdziale zakładane jest, że, zgodnie z podstawową ideą prezentowanej tu metody, podczas
wyznaczania modeli widm mas znane są sekwencje aminokwasowe peptydów. W rzadkich przypadkach
(np. podczas badania białek niewystępujących w stosowanej bazie danych), dopuszczane jest wyznaczanie
modelu bez znajomości sekwencji. Przypadek ten został omówiony w punkcie 8.1.2 Dodatku.
55
5.3.2. Kształt przekroju widma w kierunku osi m/z
Określenie kształtu przekroju widma w kierunku osi m/z wymaga obliczenia ciągłej obwiedni
izotopowej. W tym celu konieczne jest wyznaczenie teoretycznego rozkładu izotopowego,
czyli zbioru odmian izotopowych cząstki (o określonym składzie izotopowym i wynikającej
z niego dokładnej masie) wraz z prawdopodobieństwem ich występowania. Pełną obwiednię
izotopową można następnie wygenerować jako splot rozkładu izotopowego z funkcją
odwzorowującą kształt piku wynikającego ze skończonej rozdzielczości spektrometru.
Stopień skomplikowania rozkładu mas izotopowych jest zależny od liczby atomów
pierwiastków wieloizotopowych tworzących cząstkę. Opracowano szereg uproszczonych
podejść wyznaczania przybliżonych rozkładów izotopowych [36, 117, 118], jednak ich
zastosowanie jest zwykle ograniczone do cząstek o prostym składzie chemicznym.
W ogólności, rozkład mas izotopowych cząstki o dowolnej masie i składzie może być
przedstawiony w formie wielomianowej [119, 120]. Dla NA atomów przykładowego
pierwiastka A, posiadającego JA izotopów o prawdopodobieństwach wystąpienia pAi i masach
MAi, poszukiwany rozkład wyraża się zależnością:
P A= p A1 x
M A1
 p A2 x
M A2
... p A J x
MAJ NA
A
A

,
(5.11)
gdzie x jest ułatwiającą formalny zapis zmienną pomocniczą, grupującą kombinacje
izotopowe o tych samych masach. Współczynniki rozwinięcia wyrażenia (5.11) można
wyznaczyć z rozkładu wielomianowego [121] :
∑
K A1 , K A2 , ..., K AJ
NA!
p A1 K p A2K ⋯ p A J
K A1 ! K A2 ! ⋯K A J !
A1
A
KJ
A2
A
A
,
(5.12)
A
gdzie KAi to liczby wystąpień poszczególnych izotopów, spełniające warunek:
JA
∑ K Aj=N A
.
(5.13)
j=1
Uwzględnienie atomów pozostałych pierwiastków wchodzących w skład cząstki wymaga
wyznaczenia współczynników iloczynu reprezentujących je wielomianów.
Metoda wielomianowa charakteryzuje się nieskończoną rozdzielczością, co oznacza,
że wynikiem jej działania jest lista par {masa; prawdopodobieństwo} dla wszystkich
możliwych odmian izotopowych. Niestety jednak, praktyczny zakres stosowalności jej
bezpośrednich implementacji [122, 123] jest ograniczony do cząstek o masach poniżej 1 kDa.
Jest to wynikiem ogromnej liczby możliwych odmian izotopowych, która dla NA atomów
56
pierwiastka o JA izotopach rośnie jak liczba JA-elementowych kombinacji z powtórzeniami ze
zbioru NA-elementowego. Całkowita liczba odmian izotopowych cząstki jest iloczynem liczb
odmian dla wszystkich pierwiastków składowych, co szybko prowadzi do „eksplozji
kombinatorycznej” wraz ze wzrostem masy. Ominięcie tego problemu jest możliwe dzięki
wprowadzeniu kroku przycinania, polegającego na eliminowaniu w trakcie obliczeń pików
odpowiadających odmianom izotopowym o prawdopodobieństwie występowania poniżej
pewnego progu [124-128]. Wpływ przycinania na dokładność wynikowej obwiedni jest silnie
zależny od składu chemicznego cząstki oraz szczegółów implementacji, takich jak sposób
wyznaczania progu (może być stały bądź adaptatywny) i etapu, na którym jest on stosowany
(czy dotyczy pojedynczych atomów, czy też całych ich grup). Dla dużych biopolimerów,
charakteryzujących się złożonymi rozkładami, w których ujawnia się wpływ nawet izotopów
o bardzo małym prawdopodobieństwie wystąpienia, przycinanie prowadzone na osobnych
pikach może skutkować znacznymi zniekształceniami wynikowej obwiedni [96].
W znacznej części praktycznych zastosowań uwzględnianie wszystkich możliwych
odmian izotopowych nie jest konieczne, gdyż otrzymana w ten sposób lista zawiera grupy
pików nierozróżnialnych ze względu na skończoną rozdzielczość spektrometru. Ze względu
na ryzyko zniekształceń całkowitej obwiedni w wyniku eliminowania osobnych pików,
podejściem dającym większą zgodność z wynikami eksperymentalnymi może okazać się
łączenie w trakcie obliczeń pików o zbliżonych masach, a nawet wszystkich pochodzących od
odmian izotopowych o takiej samej całkowitej liczbie nukleonów [129-131]. Dzięki redukcji
liczby rozpatrywanych odmian izotopowych, efektywność tego typu algorytmów jest
w mniejszym stopniu warunkowana skutecznością przycinania, dzięki czemu stosowany przy
nim próg może być ustawiony na znacznie niższym poziomie. Przykładem takiego podejścia
jest generujący wyniki o dużej zgodności z danymi pomiarowymi algorytm Kubinyi [130],
którego wadą jest jednak oparcie się na założeniu, że kolejne piki wynikowego rozkładu są
rozmieszczone w jednakowych odstępach.
Równoważnym sposobem opisu rozkładu mas izotopowych atomu pierwiastka A,
posiadającego JA izotopów o masach MAi i prawdopodobieństwach wystąpienia pAi, jest
przedstawienie go jako sumy delt Diraca [132]:
P A m= p A1  m−M A1 p A2  m−M A2 ... p A J  m−M A J  .
A
A
(5.14)
Wyznaczenie rozkładu całej cząstki na podstawie rozkładów wszystkich atomów
wchodzących w jej skład pierwiastków możliwe jest poprzez splot odpowiadających im
57
funkcji w dziedzinie masy lub równoważne mu mnożenie w dziedzinie transformaty Fouriera.
W oparciu o tę reprezentację powstał algorytm wyznaczania pełnej obwiedni izotopowej
wykorzystujący szybką transformatę Fouriera (FFT – Fast Fourier Transform) [133] o nazwie
Mercury [96], charakteryzujący się efektywnym wykorzystaniem pamięci. Uzyskiwana
rozdzielczość jest zależna od liczby punktów próbkowania oraz szerokości połówkowej
funkcji opisującej kształt poszczególnych pików i może być zwiększona przez zawężenie
zakresu rozpatrywanych mas [134]. Podejście to zostało również zmodyfikowane przez
autorów w kierunku zwiększenia szybkości działania kosztem rozdzielczości i rezygnacji
z generowania pełnej obwiedni [131]. W tym przypadku obliczenia wykonywane są po
zaokrągleniu mas izotopów do najbliższych liczb całkowitych, a następnie położenia pików są
korygowane na podstawie odchyleń standardowych rozkładów izotopowych pierwiastków
tworzących rozpatrywaną cząstkę. Niedogodnością algorytmów opartych na transformacie
Fouriera jest konieczność odpowiedniego doboru zakresu mas, aby uniknąć zniekształceń
widma w wyniku aliasingu oraz niemożność zachowania informacji o składzie izotopowym
poszczególnych pików.
Wyznaczanie postaci funkcji f P(m/z), odpowiedzialnej w omawianym modelu za opis
kształtu obwiedni izotopowej, odbywa się przy użyciu opracowanego przez autora algorytmu,
opartego na splocie w dziedzinie masy. W swej podstawowej wersji generuje on rozkład
pików sumarycznych, powstających przez połączenie wszystkich pików pochodzących od
odmian izotopowych o jednakowej całkowitej liczbie nukleonów. Tym samym jest on
powiązany z omawianym wcześniej algorytmem Kubinyi [130] oraz z jedną z odmian
fourierowskiego algorytmu Rockwooda [131]. Istotną różnicą jest jednak fakt, że wyznaczane
są dokładne masy pików sumarycznych, rozumiane jako średnie mas tworzących je odmian
izotopowych, ważone przez prawdopodobieństwa ich występowania. Efektem działania
rozszerzonej wersji algorytmu mogą być dokładne masy, prawdopodobieństwa wystąpień
oraz, co jest unikalną cechą, składy izotopowe wszystkich odmian tworzących piki
sumaryczne. Ze względu na ograniczoną zdolność rozdzielczą stosowanego spektrometru
funkcje te nie są jednak bezpośrednio wykorzystywane podczas generacji modeli widm jonów
peptydów, dlatego też ich opis został umieszczony w punkcie 8.1.1 Dodatku.
Prawdopodobieństwa występowania poszczególnych pików sumarycznych cząstki
reprezentowane są przez elementy wektora p. Wyznaczanie prawdopodobieństw odbywa się
58
w sposób iteracyjny, będący odpowiednikiem budowania cząstki z grup atomów kolejnych
pierwiastków, aż do momentu uzyskania docelowego składu chemicznego. Każdemu łączeniu
odpowiada
splot
aktualnego
wektora
prawdopodobieństw
cząstki
p
z
wektorem
prawdopodobieństw przyłączanej grupy atomów aktualnie rozpatrywanego pierwiastka pE.
Atomy tego samego pierwiastka dodawane są do cząstki w grupach o licznościach będących
potęgami liczby 2, przy czym wektor prawdopodobieństw grupy atomów o liczności 2n+1
(n = 0, 1, ...) jest wyznaczany na podstawie wektorów prawdopodobieństw grup atomów
o liczności 2n. Rozwiązanie to, wzorowane na algorytmie Kubynyi, pozwala ograniczyć liczbę
koniecznych mnożeń. Dalsze zwiększenie wydajności można osiągnąć przez zastosowanie
tablic z obliczonymi wcześniej wartościami wektorów prawdopodobieństw grup atomów.
Na początku działania algorytmu wektor p zawiera jeden element o wartości równej 1,
podczas gdy wektor pE zawiera prawdopodobieństwa wystąpień izotopów pierwszego
z rozpatrywanych pierwiastków. Proces dodawania atomów tego pierwiastka sterowany jest
poprzez binarną reprezentację ich liczby. Pojawienie się w niej wartości 1 na n-tej pozycji
oznacza konieczność przyłączenia grupy 2n atomów. Wiąże się to z wyznaczeniem nowego
wektora prawdopodobieństw cząstki p', którego k-ty element dany będzie wzorem:
p ' [k ]=∑ p [i] p E [k −i ] .
i
(5.15)
Wektor prawdopodobieństw pierwiastka pE uaktualniany jest w każdej iteracji poprzez splot
z samym sobą. Po uwzględnieniu wszystkich atomów pierwszego pierwiastka proces jest
kontynuowany dla kolejnych pierwiastków, aż do osiągnięcia docelowego składu cząstki.
Aby umożliwić wyznaczenie mas pików sumarycznych, reprezentacja rozkładu
izotopowego wzbogacona jest o wektor masy M. Jego uaktualnianie na podstawie wektorów
mas ME grup przyłączanych atomów odbywa się jednocześnie z liczeniem splotu
prawdopodobieństw, przy czym k-ty element nowego wektora M' dany jest zależnością:
M ' [k ]=∑ p [i] p E [ k −i]  M [i]M E [ k −i] .
i
(5.16)
Po zakończeniu obliczeń każdy element wektora mas M dzielony jest przez odpowiadający
mu element wektora prawdopodobieństw p. W rezultacie masy pików stają się średnimi
ważonymi mas wszystkich odmian izotopowych, których prawdopodobieństwa składały się
na dany pik sumaryczny, przy czym wagami są prawdopodobieństwa wystąpienia
poszczególnych odmian. Po każdym kroku splatania rozmiar nowych wektorów
prawdopodobieństw p i mas M będzie równy powiększonej o jeden sumie rozmiarów
59
wektorów prawdopodobieństw łączonych fragmentów. W celu zwiększenia szybkości
działania, po każdym splocie może być wykonywane przycinanie. W odróżnieniu od
algorytmów wielomianowych, dotyczy ono jednak jedynie pików sumarycznych znajdujących
się na krańcach rozkładu, dzięki czemu stosowana może być bardzo niska wartość progu.
Po określeniu mas i prawdopodobieństw występowania odmian izotopowych peptydu,
możliwe jest wyznaczenie pełnej postaci obwiedni izotopowej odpowiadającego mu jonu
molekularnego. W pierwszej kolejności konieczne jest zamienienie, korzystając z zależności
(3.1), mas każdej z odmian izotopowych na wartości m/z wynikające ze stopnia naładowania
jonu, a następnie wykonanie splotu z funkcją modelującą kształt piku. Ze względu na rodzaj
spektrometru używanego trakcie opracowania prezentowanej metody, udział w całej obwiedni
k-tego piku sumarycznego o wartości m/z równej mk i prawdopodobieństwie wystąpienia pk
opisywany jest funkcją Gaussa:

f k m/ z = p k exp −
m/ z−mk 
2 k 2
2

,
(5.17)
przy czym wartość parametru σk, decydującego o szerokości piku, związana jest z położeniem
jego maksimum mk i rozdzielczością spektrometru RP następującą zależnością:
 k=
mk
.
RP 2  2 ln 2
(5.18)
Całkowita obwiednia f P(m/z) jest sumą funkcji kształtów pierwszych K pików sumarycznych,
których prawdopodobieństwa wystąpienia są większe od zadanego progu .
5.3.3. Położenie widma wzdłuż osi czasu retencji
Analizy LC-MS/MS oprócz identyfikacji peptydów mogą również dostarczyć informacji
o czasie, w którym nastąpiło ich sekwencjonowanie. Uzyskaną w ten sposób wiedzę można
wykorzystać na dwa sposoby. Pierwszym, prostszym podejściem jest bezpośrednie
wykorzystanie czasów sekwencjonowania w przebiegu LC-MS/MS do estymacji położenia
peptydu w przebiegach LC-MS. W wypadku wielokrotnych przebiegów sekwencjonujących,
oszacowaniem
pozycji
peptydu
staje
się
wartość
średnia
zmierzonych
czasów
sekwencjonowania we wszystkich próbkach, w których został wykryty, zaś dokładność tego
oszacowania wyznaczana jest jako odchylenie standardowe wartości średniej.
60
Zdecydowanie trudniejszą, ale jednocześnie bardziej elegancką metodą jest predykcja
czasów retencji na podstawie sekwencji peptydu. W tym przypadku uśrednione czasy
sekwencjonowania wykorzystywane są jako zbiór uczący dla tworzonego predyktora. Dzięki
takiemu podejściu do wyznaczenia wartości parametrów modelu widma dowolnego peptydu
wystarczająca jest znajomość jego sekwencji. Dodatkowo zyskuje się możliwość tworzenia
modeli dla peptydów, które nie zostały w próbkach zidentyfikowane, a zgodnie z naszą
wiedzą powinny się w nich znajdować.
W systemie wysokosprawnej chromatografii cieczowej w układzie odwróconej fazy
(RP-HPLC), przy ustalonych warunkach chromatograficznych czas retencji tr jest zależny od
hydrofobowości H peptydu:
t r =A g H t g ,
(5.19)
gdzie Ag jest współczynnikiem proporcjonalności opisującym liniowy w czasie wzrost
stężenia acetonitrylu dodawanego do fazy ruchomej, natomiast tg jest wynikającym
z objętości martwych systemu HPLC opóźnieniem z jakim gradient dociera do detektora.
W tak zdefiniowanym modelu hydrofobowość H opisuje zachowanie chromatograficzne
cząstki i jest właściwym celem predykcji, jako że współczynnik Ag jest z góry określony przez
nachylenie gradientu acetonitrylu, a opóźnienie tg jest charakterystyczne dla danego systemu
HPLC i może być oszacowane np. na podstawie czasu elucji wzorcowego peptydu lub
poprzez analizę chromatogramu.
Pomimo tego, że predykcja czasu elucji w RP-HPLC jest przedmiotem badań od
początku lat 80., mechanizm retencji nadal nie jest opisany wystarczająco dokładnie aby
możliwe było stworzenie w pełni teoretycznego modelu. Dlatego też stosuje się modele
o charakterze empirycznym, które w najprostszym przypadku zakładają, że zachowanie
chromatograficzne peptydu jest zależne tylko od składu aminokwasowego [135-140].
Hydrofobowość w takim wypadku może być wyrażona zależnością:
20
H =∑ N i Rc i ,
(5.20)
i=1
gdzie Rci jest współczynnikiem retencji i-tej reszty aminokwasowej, wstępującej Ni razy
w sekwencji peptydu. Ze względu na właściwości łańcuchów bocznych, aminokwasy można
podzielić na hydrofobowe i hydrofilowe. Podział ten znajduje odbicie w wartościach
współczynników retencji Rci, będących miarą wkładu poszczególnych reszt aminokwasowych
w całkowitą hydrofobowość peptydu. Wartości tych współczynników wyznaczane są zwykle
61
poprzez modele cząstkowych najmniejszych kwadratów (PLS – partial least squares) lub
regresję wielokrotną (multiple regression) wobec zmierzonych czasów retencji peptydów
o naturalnym pochodzeniu [135-138], bądź też syntetycznych [139, 140]. Należy podkreślić,
że możliwość bezpośredniego zastosowania współczynników retencji wyznaczonych dla
samodzielnych systemów HPLC do predykcji czasów retencji w próbkach proteomicznych
jest zwykle mocno ograniczona. Współczynniki dla HPLC powstawały dla konkretnych
warunków chromatograficznych, zwykle w oparciu o niewielkie zbiory krótkich peptydów,
często ze zmodyfikowanymi N- i C-końcami, podczas gdy w badaniach protomicznych mamy
do czynienia z peptydami o mocno zróżnicowanej długości oraz wolnych końcowych grupach
aminowych i karboksylowych, co może mieć znaczący wpływ na czas retencji [141-144]. Nie
uwzględniają one również występowania reszt cysteinowych zmodyfikowanych przez
karbamidometylację, co jest wynikiem sposobu przygotowania próbek białkowych do analizy
w spektrometrze mas. Tak więc, jakkolwiek modele w postaci (5.20) są powszechnie
stosowane w analizach LC-MS [145-148], to ich użycie wymaga ponownego wyznaczenia
wartości współczynników retencji.
Zastosowanie przedstawionego powyżej liniowego modelu do skomplikowanych
mieszanin peptydów o zróżnicowanym składzie i długości pochodzących z rzeczywistych
badań proteomicznych, zwykle nie przynosi zadowalających rezultatów. Uzyskiwane wartości
kwadratu współczynnika korelacji R2 na poziomie 0,80 - 0,85 pokazują, że założenie
o zależności hydrofobowości jedynie od składu aminokwasowego jest uproszczeniem
słusznym jedynie dla krótkich sekwencji [149]. W ogólnym przypadku na zachowanie
chromatograficzne peptydu wpływają również inne czynniki zależne od kolejności reszt
aminokwasowych w sekwencji, czego dowodem są różnice w obserwowanych czasach
retencji peptydów izomerycznych, czyli mających jednakowy skład [150]. W szeregu prac
pokazano możliwość poprawy wyników predykcji poprzez uwzględnienie parametrów takich
jak: długość sekwencji peptydu [141-143, 149, 151] i jej skłonność do tworzenia struktur
drugorzędowych [142, 143, 149], punkt izoelektryczny [142] oraz teoretyczny współczynnik
podziału pomiędzy fazą ruchomą a stacjonarną i objętość Van Der Waalsa [152].
Istotny wpływ na czas retencji wydają się mieć sekwencje skrajnych fragmentów
sekwencji, szczególnie zaś części blisko N-końca [141-145, 149]. Przykładowo, zespół
Krokhina [141] zaobserwował, że elucja późniejsza od przewidywanej jest typowa dla
peptydów posiadających hydrofilowe reszty aminokwasowe blisko N-końca, podczas gdy
62
hydrofobowe reszty aminokwasowe na tej pozycji przyczyniają się do wcześniejszej elucji.
Zgodnie z zaproponowaną przez autorów interpretacją zjawisko to jest efektem tworzenia się
par jonowych pomiędzy znajdującymi się w fazie ruchomej anionami kwasu a N-końcowymi
wolnymi grupami aminowymi, które w kwaśnym środowisku (pH=2) niosą dodatni ładunek.
Aby skompensować to zjawisko autorzy wyznaczyli dodatkowy zestaw współczynników
retencji dla początkowych pozycji w sekwencji, wraz z wagami o wartościach zależnych od
odległości od N-końca. Dodatkowo wprowadzone zostały poprawki uwzględniające fakt, że
wcześniejsza elucja obserwowana jest również dla bardzo krótkich (mniej niż 10 reszt),
długich (ponad 20 reszt) oraz silnie hydrofobowych peptydów. Model ten został następnie
znacząco rozbudowany w kolejnych pracach tego samego zespołu [142, 143] poprzez
wyznaczenie osobnych zestawów współczynników retencji również dla C-końca oraz szeregu
współczynników korekcyjnych o wartościach zależnych od sekwencji peptydu. Uwzględniają
one m. in. efekt sąsiedztwa zasadowych reszt aminokwasowych, występowanie powtórzeń
reszt silnie hydrofobowych lub hydrofilowych, punkt izoelektryczny, skłonność peptydu do
tworzenia helikalnych struktur drugorzędowych, a nawet wielkość porów wypełnienia
kolumn chromatograficznych. W rezultacie powstał bez wątpienia najbardziej rozbudowany
z dostępnych w literaturze model, którego parametry wyznaczone zostały jednak w bardzo
czasochłonny, „ręczny” sposób, bez użycia jakichkolwiek metod optymalizacji.
Alternatywnym podejściem do predykcji czasów retencji jest wykorzystanie
sztucznych sieci neuronowych (ANN – Artificial Neural Networks) [153], które umożliwiają
opis złożonych nieliniowych zależności w danych bez konieczności tworzenia dokładnego
modelu zjawisk leżących u ich podstaw. Możliwość skutecznego zastosowania sieci
neuronowych do predykcji czasów retencji zademonstrował po raz pierwszy Petritis w 2003
roku [154]. Zaproponowana przez niego sieć złożona była z 20 neuronów w warstwie
wejściowej, na które podawane były znormalizowane liczby wystąpień w sekwencji peptydu
każdej z reszt aminokwasowych, dwóch neuronów w warstwie ukrytej i jednego
wyjściowego. Wagi neuronów ustalane były na podstawie zbioru blisko 7 tysięcy peptydów
przy użyciu algorytmu propagacji wstecznej, minimalizującego kwadrat błędu pomiędzy
zmierzonym czasem retencji a wyjściem sieci. Podobną strukturę sieci zastosowano również
w [155], z tym że liczbę neuronów wejściowych ograniczono do 16, uwzględniając tylko
reszty aminokwasowe o największym wpływie na hydrofobowość. W późniejszej pracy,
zespół Petritisa zaprezentował sieć o znacznie bardziej rozbudowanej strukturze, na którą
63
składają się 1052 neurony w warstwie wejściowej, 24 w warstwie ukrytej i jeden wyjściowy
[149]. Sekwencja peptydu podawana jest na wejścia sieci w postaci zbioru co najwyżej 50
wektorów binarnych o długości 21 i niezerowej wartości na pojedynczej pozycji,
identyfikującej resztę aminokwasową (wymiar 21 zamiast 20 jest wynikiem uwzględnienia
dodatkowego, zmodyfikowanego aminokwasu). Na wejścia o numerach od 1 do 21 podawany
jest wektor odpowiadający reszcie aminokwasowej zajmującej pozycję na N-końcu
sekwencji, natomiast ostatnie 21 wejść o numerach od 1039 do 1050 odpowiada reszcie
aminokwasowej na C-końcu. Peptydy krótsze od 50 reszt aminokwasowych nie zapełniają
wszystkich wejść sieci, natomiast w wypadku dłuższych od 50 uwzględniane są jedynie
skrajne fragmenty sekwencji. Dodatkowe dwa wejścia przeznaczone są na całkowitą długość
i moment hydrofobowy, mówiący o amfofilowości sekwencji. W odróżnieniu od
zaprezentowanego wcześniej prostego modelu, który uwzględniał jedynie całkowity skład
aminokwasowy, w tym wypadku sieć jest czuła również na kolejność reszt w sekwencji,
dzięki czemu uzyskano nie tylko lepsze wyniki predykcji, ale również możliwość
rozróżnienia peptydów izomerycznych. Niestety jednak, wyznaczanie wag sieci o tak
rozbudowanej strukturze wymaga ogromnych zbiorów treningowych. Autorzy w treningu
użyli prawie 346 tysięcy peptydów pochodzących z proteomów różnych organizmów.
Obydwa przedstawione podejścia, zarówno to oparte na złożonym modelu zjawiska
retencji [142, 143], jak i to wykorzystujące sieć neuronową o rozbudowanej strukturze [149]
charakteryzują się bardzo dobrą skutecznością predykcji (wartości R2 ponad 0,95 dla zbiorów
testowych), ale jednocześnie mają cechy utrudniające dostosowanie ich do konkretnego
układu chromatograficznego. W przypadku sieci neuronowej zaproponowanej przez Petritisa
trudnością jest rozmiar wymaganych podczas treningu zbiorów danych, który stanowi
poważne wyzwanie nawet dla dużego laboratorium proteomicznego. Dla modelu Krokhina
przyczyna jest jeszcze bardziej prozaiczna: nie został on w pełni opublikowany i nie jest
znana dokładna postać funkcyjna wszystkich występujących w nim czynników korekcyjnych.
Należy przy tym podkreślić, że brak możliwości przystosowania do używanego systemu
HPLC jest niestety poważną wadą obu metod, gdyż, jak przyznają sami ich autorzy, nawet
stosunkowo niewielkie zmiany w składzie fazy ruchomej czy powierzchni fazy stacjonarnej
będą miały znaczący wpływ na dokładność predykcji.
64
W związku z ograniczonymi możliwościami praktycznego wykorzystania opisanych
powyżej algorytmów predykcji czasów retencji, w niniejszej pracy proponowane jest
odmienne podejście do tego problemu. W omawianej tutaj metodzie analizy ilościowej, seria
przebiegów LC-MS poprzedzona jest pewną liczbą przebiegów LC-MS/MS, mających na
celu identyfikację znajdujących się w próbkach peptydów. W ramach tego samego
eksperymentu oba rodzaje przebiegów dotyczą próbek o podobnym składzie i wykonywane są
w możliwie powtarzalnych warunkach chromatograficznych. Jednocześnie zarówno rodzaj
analizowanych peptydów, jak i warunki chromatograficzne mogą w istotny sposób różnić się
pomiędzy eksperymentami. Fakt ten skłania do wniosku, że lepszym podejściem może okazać
się przeprowadzenie treningu predyktora na danych LC-MS/MS związanych z konkretnym
eksperymentem, a tym samym dostosowywanie go do rodzaju próbek, z którymi będzie
następnie używany. W takim wypadku zagadnieniem równie ważnym jak sam model jest
możliwość optymalizacji jego parametrów w celu przystosowania ich do charakteru badanych
próbek. Dlatego też opracowana została własna metoda predykcji czasów retencji, oparta na
relatywnie prostym modelu (pozostającym w luźnym związku z modelem zaproponowanym
przez Krokhina w [141]), którego parametry poddawane są optymalizacji przy użyciu
algorytmu
ewolucyjnego
[156-158].
Podstawą
modelu
jest
zestaw
dwudziestu
współczynników retencji Rc, reprezentujących niezależną od pozycji w sekwencji
hydrofobowość poszczególnych reszt aminokwasowych. Wyznaczona przez ich sumowanie
hydrofobowość całkowita jest jednak następnie modyfikowana w sposób zależny od
sekwencji, ze szczególnym uwzględnieniem jej N-końcowego fragmentu.
Wpływ dodatniego ładunku N-końca na obserwowany czas retencji uwzględniany jest
w prezentowanym modelu przez wprowadzenie addytywnego czynnika korekcyjnego HNt,
o wartości zależnej od N-końcowych reszt aminokwasowych. Założone zostało, że dodatni
ładunek grupy aminowej powoduje osłabienie naturalnej hydrofobowości lub hydrofilowości
znajdujących się w jego sąsiedztwie reszt aminokwasowych. Jego wpływ rozciąga się na
reszty zajmujące w sekwencji peptydu pozycje od 1 do LNt i maleje wykładniczo wraz
z oddalaniem się od N-końca. Ostateczna postać poprawki dana jest wzorem:
L Nt
  Nt e −
H Nt =∑ − Rc i− Rc
Nt
i−1
,
(5.21)
i=1
gdzie Rc(i) jest współczynnikiem retencji reszty aminokwasowej zajmującej i-tą pozycję
 jest średnią współczynników retencji wszystkich reszt aminokwasowych.
w sekwencji, a Rc
65
Maksymalny zasięg LNt zależny jest od decydującego o szybkości spadku wartości funkcji
wykładniczej współczynnika BNt: uwzględniane są pozycje, dla których wartość tej funkcji
jest większa od 0,05.
Podobne, choć mające mniejszy wpływ na czas retencji zjawisko można
zaobserwować dla występujących wewnątrz sekwencji peptydu zasadowych reszt
aminokwasowych (argininy – R, lizyny – K, histydyny – H), których łańcuchy boczne niosą
dodatnie ładunki [141, 142]. Charakter wpływu, jego interpretacja i sposób uwzględnienia go
w modelu są w tym przypadku analogiczne jak dla N-końca, z tą tylko różnicą, że poprawka
działa w sposób dwustronny. Wystąpienie na k-tej pozycji w sekwencji którejś z zasadowych
reszt aminokwasowych skutkować będzie poprawką w postaci:
LX
LX
  X e− i ∑ − Rc k i− Rc
  X e−
H X =∑ − Rc k −i − Rc
X
i=1
X
i
,
(5.22)
i=1
gdzie X należy do zbioru {R, K, H}.
Dodatkowym elementem jest przedziałami liniowy multiplikatywny czynnik
korekcyjny KL, związany z długością LP sekwencji peptydu. Jego zasadnicza postać jest
zgodna z modelem Krokhina:
{
1−a1 10−L P  dla L P 10
K L= 1
dla L P ∈〈 10 ; 20 〉 ,
1−a 2  L P −20 dla L P 20
(5.23)
z tą jednak różnicą, że nachylenia prostych a1 i a2 nie są wartościami z góry ustalonymi, lecz
poddawane są optymalizacji.
Po
wyznaczeniu
wartości
wszystkich
czynników
korekcyjnych,
całkowita
hydrofobowość H peptydu wyznaczana jest z zależności:
∑
20
H =K L
i =1
N i Rc iH Nt H RH L H K

,
(5.24)
gdzie Ni jest liczbą wystąpień reszty aminokwasowej o współczynniku retencji równym Rci.
Przy znanej hydrofobowości H i danych parametrach gradientowej zmiany stężenia
acetonitrylu w fazie ruchomej (nachyleniu Ag i opóźnieniu tg), przewidywany czas zejścia
peptydu z kolumny chromatograficznej może być określony na podstawie zależności (5.19).
Wartości parametrów opisanego powyżej modelu wyznaczane są na podstawie zbioru
sekwencji Nt peptydów i wektora t S zawierającego średnie czasy sekwencjonowania tych
peptydów, zaobserwowane w związanych z eksperymentem przebiegach LC-MS/MS.
66
Optymalizacja parametrów realizowana jest przy użyciu algorytmu ewolucyjnego. Genotyp
każdego z osobników populacji jest rzeczywistoliczbowym wektorem w postaci:
[ Rc1 , , Rc 20 ,  Nt , Nt , R , R , K ,  K , H ,  H , a 1 , a2 ] .
(5.25)
Kolejne pozycje wektora (5.25) reprezentują optymalizowane parametry modelu, którymi są:
współczynniki
retencji
dla
każdej
z
reszt
aminokwasowych
(Rci, dla i = 1, .., 20),
współczynniki eksponencjalnych poprawek dla N-końca (αNt, βNt,) i zasadowych reszt
aminokwasowych (αR, βR, αL, βL, αH, βH) oraz nachylenia prostych modelujących wpływ
długości peptydu na hydrofobowość (a1, a2). Fenotyp osobnika ma postać wektora t P, którego
elementami są przewidywane czasy retencji dla wszystkich peptydów ze zbioru uczącego,
wyznaczone na podstawie wartości parametrów modelu tworzących jego genotyp. Wartością
przystosowania osobnika jest współczynnik korelacji liniowej pomiędzy wektorami t S i t P ,
czyli pomiędzy rzeczywistymi a przewidywanymi czasami retencji peptydów:
Nt
r t S , t P =
∑  ti S −tS t iP −tP 
i=1

Nt
∑ ti −tS 2
S
i=1

,
Nt
(5.26)
∑ ti −tP 2
P
i=1
gdzie :
Nt
Nt
1
1
S
S
P
P
t = ∑ t i ; t = ∑ t i .
N t i =1
N t i=1
(5.27)
Użyty algorytm ewolucyjny charakteryzuje się populacją o stałej liczebności. Stosowany jest
schemat sukcesji elitarnej, gdyż, jak wykazały testy, pozwala to przyspieszyć osiągnięcie
zbieżności. Aby jednak uniknąć łatwego osiadania w maksimach lokalnych funkcji celu, elita
jest niewielka (5% wielkości populacji) i krótkożyciowa (maksymalny czas życia wynosi 3
pokolenia). Prawdopodobieństwo reprodukcji osobników jest liniowo zależne od ich rangi,
ustalanej przez posortowanie całej populacji według nierosnących wartości przystosowania
(w taki jednak sposób, aby osobniki o jednakowej wartości przystosowania otrzymały takie
same rangi). Osobniki potomne powstają poprzez krzyżowanie równomierne i mutację
o rozkładzie Cauchy’ego. Osobniki niemieszczące się w ograniczeniach przestrzeni
poszukiwań są z pewnym prawdopodobieństwem naprawiane przez lustrzane odbicie wobec
ograniczeń. Kryterium zatrzymania algorytmu jest nieosiągnięcie przez pewną zdefiniowaną
liczbę pokoleń poprawy w stosunku do najlepszego z dotychczasowych osobników.
67
5.3.4. Kształt przekroju widma w kierunku osi czasu retencji
W idealnych warunkach pik chromatograficzny byłby opisywany zależnością:

g t =h exp −
t−t r 2
2
2

,
(5.28)
gdzie h jest wysokością w maksimum wypadającym w czasie retencji tr, a σ parametrem
decydującym o szerokości [159]. Jednak piki obserwowane w rzeczywistości bardzo rzadko
są symetryczne i stosowanie do ich opisu funkcji Gaussa może prowadzić do błędów
[159, 160]. Ze względu na złożoność mechanizmu interakcji pomiędzy analitem a fazą
stacjonarną, nie istnieje uniwersalny model teoretyczny opisujący w sposób dokładny kształt
pików chromatograficznych [160-162]. Dlatego wielu autorów zaproponowało funkcje
kształtu o charakterze empirycznym, które jakkolwiek nie mają ścisłego uzasadnienia
fizykochemicznego, to jednak pozwalają uzyskać dobre dopasowanie do danych
eksperymentalnych [161, 162]. Część z proponowanych modeli wywodzi się z funkcji
Gaussa, modyfikowanej w taki sposób aby możliwy był opis pików asymetrycznych, ale
stosowane są również funkcje Lorenza, Poissona, logarytmiczno-normalna, jak i złożenia
dwóch różnych funkcji. Obszerne zestawienie wszystkich stosowanych funkcji, wraz z ich
pobieżną charakterystyką i zakresem zastosowania, zamieszczone jest w [161], a mniejsze,
ale za to bardziej szczegółowe porównania dostępne są w [159, 162, 163].
W pracy zastosowana została najczęściej wykorzystywana do opisu pików
chromatograficznych, zmodyfikowana wykładniczo funkcja Gaussa (EMG – Exponentially
Modified Gauss) [159-162]. Jest ona wynikiem splotu
funkcji g( t ) (5.28) z funkcją
wykładniczą o stałej czasowej τ i jednostkowym polu:
 .
1
t
e t = exp −


(5.29)
Ostateczna postać funkcji kształtu piku dana jest zależnością:
g P t=
 
h 
 2 t−t r
exp
−
 2

2 2
{ [ 
1−erf
1  t−t r
−
2  
]}
,
(5.30)
gdzie tr, h, σ i τ są parametrami związanymi, odpowiednio, z położeniem maksimum,
wysokością, szerokością i asymetrią, a erf jest funkcją błędu Gaussa (Gauss error function):
t
erf t=
2
e −x dx .
∫
 0
68
2
(5.31)
Stosowane w modelu parametry związane z szerokością i asymetrią funkcji (5.30) mają
charakter empiryczny i ustalone zostały na podstawie kształtów pików z dużego zbioru widm.
5.4. Przetwarzanie pełnych widm mas próbek
5.4.1. Dwuwymiarowa reprezentacja pełnych widm mas próbek
Bezpośrednim wynikiem pomiaru LC-MS jest zbiór jednowymiarowych widm mas kolejnych
frakcji próbki schodzącej z kolumny chromatograficznej. Każde widmo mas ma postać listy
par liczb reprezentujących wartość m/z jonu oraz liczbę jego zliczeń. Dla dalszego
przetwarzania zdecydowanie wygodniejsza wydaje się jednak być reprezentacja w postaci
macierzy widma W, której kolumny odpowiadają kolejnym wartościom m/z, a wiersze
oznaczają kolejne numery skanów (czyli, pośrednio, czasy retencji). Przejście na taką w pełni
dwuwymiarową postać wiąże się z koniecznością kwantowania osi wartości m/z, które
pierwotnie określone są z malejącą dokładnością. Najczęściej stosowaną metodą jest podział
osi m/z na przedziały o stałej szerokości [19-29, 83, 84]. Wadą takiego podejścia jest fakt, że,
w zależności od wybranej wartości kwantu, uzyskane przedziały odpowiadają rzeczywistej
rozdzielczości spektrometru tylko w wąskim zakresie wartości m/z, co prowadzi albo do
utraty dokładności w zakresie małych m/z, albo do redundancji dla dużych ich wartości.
W niniejszej pracy proponowane jest zastosowanie reprezentacji danych w naturalnej
dla analizatora FT-ICR dziedzinie częstotliwości cyklotronowej. Oznacza to, że i-ta kolumna
macierzy widma W jest związana z częstotliwością cyklotronową fi, a odpowiadająca jej
wartość m/z mi wyznaczana jest z zależności:
m i=
A B

f i f 2i ,
(5.32)
gdzie A i B są parametrami kalibracyjnymi widma, o wartościach zależnych od zakresu
częstotliwości [164]. Rozwiązanie takie w przypadku spektrometru z analizatorem FT-ICR
pozwala ominąć problemy wynikające z kwantyzacji osi m/z, zapewniając utrzymanie
maksymalnej możliwej dla przyrządu dokładności w całym zakresie m/z, bez niepotrzebnego
zwiększania wymiarowości macierzy widma.
Aby zachować niezależność od rodzaju przyrządu pomiarowego, oprogramowanie
69
implementujące opisywane dalej metody przetwarzania może również działać w oparciu
o reprezentację macierzy widma w dziedzinie m/z. W tym przypadku stosowana jest
kwantyzacja osi wartości m/z, przy czym szerokość przedziałów uzależniona jest od zdolności
rozdzielczej stosowanego spektrometru.
Rozdzielczość wzdłuż osi czasu retencji może pozostać niezmieniona (wówczas
każdy wiersz macierzy widma W odpowiadać będzie pojedynczemu skanowi) lub też
zmniejszona przez sumowanie sąsiednich skanów w pewnym zakresie czasów retencji.
Na rysunku 5.2 przedstawiona została dwuwymiarowa reprezentacja przykładowego
pełnego widma mas próbki, zmierzonego w typowym zakresie, wraz z powiększeniem
fragmentu, na którym widoczne są widma mas jonów peptydów.
Rys 5.2. Dwuwymiarowa reprezentacja pełnego widma mas próbki. Górna część rysunku przedstawia pełny
zakres pomiarowy, podczas gdy dolna część jest powiększeniem zaznaczonego fragmentu z widocznymi
widmami jonów peptydowych
70
5.4.2. Ekstrakcja wartości liczbowych z pełnych widm mas próbek
Algorytm wyszukiwania widm mas jonów peptydowych
Ze względu na zdecydowanie większą rozdzielczość i powtarzalność pomiarów spektrometru
mas w porównaniu z systemem HPLC, wyszukanie peptydu w praktyce sprowadza się do
wyznaczenia pozycji widma reprezentującego go jonu wzdłuż osi czasu retencji. Przez
właściwy czas retencji rozumiany jest taki, dla którego funkcja opisująca obwiednię
izotopową peptydu f P(m) wykazuje najlepsze dopasowanie do danych pomiarowych.
Algorytm wyszukiwania składa się z dwóch etapów: w pierwszej kolejności
identyfikowane są wszystkie możliwe położenia widma peptydu wzdłuż osi czasu retencji,
z których następnie wybierane jest to, które charakteryzuje się najlepszym dopasowaniem.
Pierwszy etap oparty jest na wykorzystaniu pewnej funkcji c P(t), która w idealnym przypadku
przyjmuje wartości niezerowe jedynie dla poprawnego czasu retencji widma poszukiwanego
peptydu. W proponowanym algorytmie używana jest w tym celu funkcja będąca średnią
geometryczną chromatogramów ciP(t) dla wartości m/z odpowiadających NC najwyższym
pikom obwiedni izotopowej peptydu. Dodatkowo uwzględniany jest fakt, że położenie
poszukiwanego widma wzdłuż osi czasu retencji nie jest dowolne i nie powinno znacząco
odbiegać od teoretycznego czasu zejścia z kolumny chromatograficznej określanego przez
parametr trP modelu. Dlatego wartości chromatogramu są modyfikowane przez funkcję kary
w postaci gaussoidy o maksimum dla czasu trP i szerokości wynikającej z wartości parametru
σC. Ostateczna postać funkcji ciP(t) dana jest zależnością:
P

c t =exp −
t −t r P 2
2 C
2
 ∏
NC
NC
i=1
ci P t .
(5.33)
W każdym skanie wartość chromatogramu cząstkowego ciP(t) wyznaczana jest jako
P
P
maksymalna wysokość widma w przedziale wartości m/z 〈 mi − mC ; mi  mC 〉 , gdzie
miP jest położeniem i-tego, pod względem teoretycznej wysokości, piku obwiedni,
a bezwzględna tolerancja ΔmC określana jest na podstawie wyrażonej w jednostkach ppm
względnej tolerancji δmC, będącej parametrem przeszukiwania:
 mC =10−6  mC mi P .
(5.34)
Oznacza to, że wraz ze wzrostem wartości m/z zwiększana jest tolerancja wyznaczenia
chromatogramu, co jest zgodne ze spadkiem dokładności wzdłuż osi m/z. Dodatkowym
71
wymogiem jest występowanie maksimum lokalnego widma w rozpatrywanym przedziale
wartości m/z.
Po wyznaczeniu ostatecznej postaci całkowitego chromatogramu poddawany jest on
wygładzeniu przy użyciu filtru Savitzkiego-Golaya [165], po którym następuje detekcja
pików. Wykryte w chromatogramie piki uznawane są za potencjalne miejsca występowania
poszukiwanego widma jonu peptydowego i w obszarze każdego z nich podejmowana jest
próba dopasowania teoretycznego modelu do danych eksperymentalnych.
Dopasowanie funkcji opisującej kształt obwiedni izotopowej następuje w skanie,
w którym występowało maksimum piku chromatogramu. Uwzględniane są przy tym
pochodzące z tego skanu wartości widma wj odpowiadające punktom mj (j = {1, ..., NW})
znajdującym się w zakresie m/z teoretycznej obwiedni izotopowej. Wyznaczenie modelującej
dane eksperymentalne funkcji f E(m/z) odbywa się metodą najmniejszych kwadratów, przy
użyciu iteracyjnego algorytmu Levenberga–Marquardta [166, 167]. Minimalizacji poddawane
jest wyrażenie:
NW
S  =∑ [ w j − f E  m j∣ ]
2
,
(5.35)
j =1
gdzie β jest wektorem parametrów opisujących położenia, wysokości i szerokości połówkowe
dla K uwzględnianych pików obwiedni. Początkowe wartości parametrów określone są przez
model teoretyczny widma jonu. W wypadku wykrycia słabego dopasowania, proces może być
iteracyjnie powtarzany ze zmodyfikowanymi początkowymi wartościami parametrów. Jako
miara jakości dopasowania do danych eksperymentalnych stosowany jest współczynnik
determinacji (coefficient of determination):
NW
∑  w j− f jE
RW 2=1− j =1
N
W
∑  w j− w 
2
,
(5.36)
2
j=1
gdzie fjE są wartościami funkcji f E(m/z) w punktach mj, a w
 jest średnią arytmetyczną wartości
widma. Sama wartość współczynnika RW2 nie jest jednak wystarczającym wskaźnikiem
jakości dopasowania: z jednej strony nie jest ona czuła na odstępstwa od początkowych
oszacowań położeń i wysokości pików, a z drugiej może być degradowana przez występujące
w rozpatrywanym obszarze widma piki nie należące do poszukiwanej obwiedni. Dlatego też
wyznaczana jest również miara dopasowania do idealnej obwiedni izotopowej:
72
NW
∑  f j SP− f j E 
R P2 =1− j=1
N
W
2
,
(5.37)
P 2
∑  f j SP− fj 
j=1
gdzie fjSP są wartościami funkcji f SP(m/z), która powstaje przez takie przeskalowanie
i przesunięcie teoretycznej obwiedni f P(m/z), aby jej pik monoizotopowy miał położenie
i wysokość zgodne z wartościami określonymi przez funkcję f E(m/z). Wartość RP2 jest
podstawą wyboru najlepszego spośród wszystkich rozpatrywanych pików chromatogramu.
Dopasowanie danego przez funkcję gP(t) kształtu przekroju widma w kierunku osi
czasu retencji odbywa się na podstawie chromatogramu wykonanego dla najwyższego piku
obwiedni i przebiega w sposób analogiczny do opisanego dla kierunku m/z.
Należy zwrócić uwagę, że stanowiące podstawę algorytmu wyszukiwania modele
widm tworzone są w oparciu o skład peptydów oraz parametry czasowe przebiegów
LC-MS/MS i tym samym nie mogą z góry uwzględniać błędów systematycznych związanych
z pomiarami widm LC-MS. Dlatego też lepsze rezultaty wyszukiwania można osiągnąć dzięki
dostosowaniu zarówno samych modeli, jak i parametrów wyszukiwania do aktualnie
analizowanego widma. W tym celu opisany powyżej proces wyszukiwania powtarzany jest
dwukrotnie, przy czym pierwsze powtórzenie służy do wyznaczenia parametrów
korygujących ewentualne różnice w kalibracji spektrometru mas czy gradiencie
chromatograficznym, które następnie są uwzględniane w drugim powtórzeniu. W pierwszym
powtórzeniu stosowane są szerokie przedziały tolerancji dla wartości m/z i czasów retencji,
którym jednak towarzyszą ostre wymagania dotyczące jakości dopasowania do teoretycznej
obwiedni. Dla znalezionych widm określane są względne odstępstwa wobec teoretycznego
położenia w kierunku osi m/z i czasu retencji. Na podstawie wartości błędów wyznaczane są
parametry krzywych kalibracyjnych korygujących teoretyczne położenia w modelach oraz
nowe, zawężone wartości parametrów δmC i σC związanych z zakresami tolerancji
chromatogramów cząstkowych i funkcji kary. Stosowana przy ich wyznaczaniu metoda jest
taka sama jak ta zaprezentowana w rozdziale 5.2.2 przy okazji opisu rekalibracji widm
fragmentacyjnych.
73
Ocena ilościowa względnej ekspresji peptydów i białek
Ostateczną wartością liczbową, będącą miarą ilości peptydu staje się objętość wyznaczona
z dopasowanego modelu. Przy ograniczonym zakresie pomiarowym m/z peptyd jest zwykle
reprezentowany przez jedną lub dwie odmiany jonów o różnych stopniach naładowania.
Większa liczba stopni naładowania jest w praktyce rzadko spotykana. Liczba obserwowanych
stopni naładowania jest zależna nie tylko od masy peptydu, ale także od jego sekwencji, która
decyduje o prawdopodobieństwie przyjęcia określonej liczby protonów. W efekcie,
najczęściej jeden ze stopni naładowania ma charakter dominujący i może być on uznany za
najlepszego reprezentanta ilości peptydu [25]. W tej pracy zastosowano alternatywne
rozwiązanie, polegające na sumowaniu sygnałów wszystkich wykrytych stopni naładowania.
Sumowanie następuje jednak dopiero po normalizacji (opisanej w rozdziale 5.5.3), która ze
względu na swój nieliniowy charakter może działać z różną siłą na wartości sygnałów
poszczególnych stopni naładowania.
Wartości liczbowe określające ilość peptydu będą w dalszej części pracy określane
poziomem lub względną wartością jego ekspresji. Należy jednak jeszcze raz podkreślić, że
w wyniku różnych efektywności jonizacji peptydów wielkości te mają jedynie charakter
względny. Mogą służyć do określenia zmian w ilości tego samego peptydu w różnych
próbkach, jednak nie są odzwierciedleniem jego bezwzględnego stężenia. Analogiczny zwrot
będzie stosowany wobec białek, których względna ekspresja wyznaczana jest jako mediana
ekspresji reprezentujących je peptydów.
5.5. Przetwarzanie danych liczbowych
Po powtórzeniu przedstawionego w poprzednim podrozdziale procesu wyszukiwania widm
mas jonów dla wszystkich znanych peptydów we wszystkich badanych próbkach uzyskuje się
zbiór danych w postaci liczbowej. W dalszej części pracy będzie on symbolizowany przez
macierz danych X o wymiarze P x N, której j-ta kolumna xj reprezentuje próbkę, zaś i-ty
wiersz xi reprezentuje cechę. Ze względu na specyfikę badań proteomicznych liczba wierszy
macierzy X jest zwykle znacznie większa od liczby próbek. Wartościami cech
w poszczególnych próbkach są względne wartości ekspresji jonów peptydowych.
74
Pomimo zasadniczych różnic w obiekcie badań, sposobie pomiaru i metodach
przetwarzania niskopoziomowego, dane z proteomiki wykorzystującej spektrometrię mas, po
zamianie na postać liczbową, wykazują duże podobieństwo do danych uzyskiwanych za
pomocą używanych w transkryptomice mikromacierzy DNA [168]. Podobieństwo to ma swój
praktyczny wymiar, jako że mikromacierze, będąc starszą i zdecydowanie bardziej dojrzałą
techniką pomiarową, doczekały się szeregu opracowań dotyczących metod przetwarzania
i analizy statystycznej. Jakkolwiek stosowanych w ich przypadku rozwiązań zwykle nie
można w sposób bezpośredni wykorzystać podczas analizy danych proteomicznych, jednak
bez wątpienia mogą one być pewnym źródłem inspiracji. Dlatego też w dalszej części pracy
często pojawiać się będą odniesienia do literatury dotyczącej mikromacierzy, szczególnie
w zakresie zagadnień, które w kontekście proteomiki są bardzo rzadko poruszane
(rekonstrukcja brakujących wartości) lub traktowane w uproszczony sposób (normalizacja).
5.5.1. Transformata logarytmiczna danych
Pomimo, że związek pomiędzy ilością peptydu a odpowiadającym mu sygnałem ma
w idealnym wypadku charakter liniowy, dane proteomiczne często poddawane są
logarytmowaniu [23, 25, 74, 169]. Operacja ta pozwala ograniczyć zakres dynamiczny
danych, który w skali liniowej może być bardzo duży (typowo od 103 do 109). Wpływa to
korzystnie na dalsze kroki przetwarzania, gdyż zmniejsza ryzyko zdominowania całego
zbioru danych przez pojedyncze peptydy o bardzo wysokiej wartości ekspresji. Ponadto,
zlogarytmowanie zmienia rozkład wartości na w przybliżeniu symetryczny, o charakterze
zbliżonym do normalnego, nadając tym samym wariancji bardziej intuicyjne znaczenie [169].
Zamiana skali stosowana jest również w prezentowanej tutaj metodzie i w dalszej części
pracy zakładane jest, że elementy macierzy danych poddane zostały logarytmowaniu. Wyjątki
od tej reguły będą w sposób wyraźny zaznaczane.
5.5.2. Imputacja brakujących wartości
Problem brakujących wartości pojawia się często w kontekście wielu technik pomiarowych
dostępnych biologii molekularnej, takich jak: mikromacierze [170], RT-PCR [171]
i dwukierunkowa elektroforeza różnicowa [172]. W przypadku proteomiki wykorzystującej
75
spektrometrię mas zagadnienia związane z brakującymi wartościami nie doczekały się
szerszego omówienia, co jest zaskakujące zważywszy, że ich występowanie w danych jest
naturalną konsekwencją cech stosowanej metody pomiarowej. W znanej autorowi literaturze,
jeżeli problem ten jest w ogóle poruszany, to proponowane są proste rozwiązania polegające
na usunięciu z dalszej analizy cech nie wykrytych we wszystkich próbkach [26] lub
rekonstrukcji przez wstawienie pewnej stałej wartości w miejsce brakujących danych [25].
Najbardziej oczywistą przyczyną braku zmierzonej ekspresji dla części peptydów jest
ich faktyczne niewystępowanie w poszczególnych próbkach. Należy pamiętać, że
w przypadku spektrometrii mas mamy do czynienia z rozdzieleniem procesu identyfikacji
peptydów (na drodze analizy LC-MS/MS) od procesu pomiaru ich ilości (poprzez osobne
przebiegi LC-MS). Podczas analiz LC-MS/MS zwykle stosuje się łączenie różnych próbek
biologicznych w jedną próbkę mierzoną, co umożliwia zwiększenie liczby jednorazowo
sekwencjonowanych peptydów. Ma to jednak również wadę w postaci niemożności
określenia, z której probki biologicznej faktycznie pochodzi peptyd. Może to spowodować, że
np. w próbkach grupy kontrolnej poszukiwane będą peptydy występujące jedynie u osób
chorych. W przypadku tego typu peptydów, prawdopodobieństwo braku prawidłowo
określonej ekspresji będzie zależne od przynależności do jednej z badanych grup próbek.
W celu maksymalizacji liczby sekwencjonowań, w przebiegach LC-MS/MS stosuje
się zdecydowanie większe ilości materiału biologicznego. Jest to możliwe, gdyż w tym
przypadku nie jest groźne przekroczenie zakresu dynamicznego analizatora, które
w ilościowych przebiegach LC-MS jest niedopuszczalne. W efekcie peptydy charakteryzujące
się małą efektywnością jonizacji lub pochodzące z białek występujących w bardzo niskich
stężeniach, mogą w przebiegach LC-MS znaleźć się poniżej progu detekcji. Dla takich
peptydów obserwowana będzie silna zależność prawdopodobieństwa brakujących wartości od
poziomu ekspresji. Często będą one również skutkować pojawianiem się brakujących
wartości w całym wierszu macierzy danych X.
Pojedyncze brakujące wartości mogą być również efektem niedoskonałości procesu
przygotowywania próbki (np. różnic w specyficzności enzymu proteolitycznego),
niestabilności
parametrów
spektrometru,
supresji
wynikającej
z
pojawienia
się
zanieczyszczeń lub nałożenia się widm mas o bardzo różnej intensywności. Wreszcie,
przyczyną braku sygnału mogą być również błędy na etapie ekstrakcji cech z widm mas
próbek. Tego typu brakujące wartości mogą mieć charakter w pełni losowy, jednak zwykle
76
również dla nich obserwuje się zależność od poziomu ekspresji.
W przedstawianej tutaj metodzie analizy ilościowej wprowadzony został odrębny krok
przetwarzania danych związany z eliminacją brakujących wartości. Na proponowane
podejście składają się etapy filtracji i imputacji, co jest wynikiem opisanej powyżej
różnorodności przyczyn braku zmierzonych wartości ekspresji.
Etap filtracji
Przez filtrację rozumiane jest usunięcie wierszy macierzy danych X, w których liczba
brakujących wartości przekracza zadany próg. Aby uniknąć usunięcia peptydów
różnicujących, które występują tylko w jednej z porównywanych grup, filtracja poprzedzona
jest testem badającym hipotezę zerową H0 o braku zależności liczby brakujących wartości od
przynależności do grupy. Statystyka testowa ma postać [167]:
2
J
 =∑ ∑
2
 N ij−E ij 
E ij
i =1 j =1
2
,
(5.38)
gdzie Nij są zaobserwowanymi liczbami brakujących (i = 1) i niebrakujących (i = 2) wartości
w j-tej grupie, a Eji są ich wartościami oczekiwanymi:
E ij =
Ni N j
.
N
(5.39)
Przy prawdziwości H0 statystyka testowa (5.40) ma rozkład χ2 o J–1 stopniach swobody.
Wiersze, dla których wykryta zostanie istotna statystycznie (przy zadanym progu istotności)
zależność pomiędzy brakującymi wartościami a przynależnością do jednej z grup badanych
nie podlegają automatycznej filtracji, a dalsze postępowanie z nimi zależy od wyboru
użytkownika i charakteru prowadzonej analizy. Domyślnie, wiersze te są odpowiednio
odznaczane, a brakujące wartości zastępowane są minimalną wartością całego zbioru danych
(taka rekonstrukcja dotyczy jedynie grupy próbek, w której wykryto najwięcej brakujących
wartości). Możliwe jest jednak również włączenie tego typu cech do zbioru potencjalnie
różnicujących albo zupełne wykluczenie ich z dalszej analizy.
77
Etap imputacji
Po filtracji w macierzy danych nadal będą występować pojedyncze brakujące wartości. W ich
przypadku możliwe jest oczywiście trywialne postępowanie, polegające na wstawieniu
pewnej wartości stałej, ale zdecydowanie lepszym rozwiązaniem wydaje się użycie metody
odtworzenia brakujących wartości na podstawie pozostałych.
Klasyczną metodą imputacji jest użycie algorytmu EM, który, po wstępnym
zastąpieniu brakujących wartości np. średnią wiersza, w kolejnych iteracjach powtarza dwa
kroki. W pierwszym z nich wyznaczane są warunkowe wartości oczekiwane brakujących
danych przy użyciu współczynników regresji określonych na podstawie aktualnych estymat
największej wiarygodności macierzy kowariancji i wektora wartości średnich, po czym,
w drugim kroku, te ostatnie poddawane są ponownej estymacji [173]. W literaturze można
jednak spotkać także szereg innych rozwiązań, zarówno o charakterze ogólnym, jak
i związanych z konkretnymi zastosowaniami [170 - 174].
W badaniach z zakresu biologii molekularnej dużą popularność zdobyła, koncepcyjnie
prosta, nieparametryczna metoda najbliższych sąsiadów (KNN – K Nearest Neighbours).
Pierwotnie przeznaczona była ona dla danych pochodzących z mikromacierzy DNA [170], ale
znalazła zastosowanie również w innych technikach pomiarowych [171, 172]. U jej podstaw
leży obserwacja o istnieniu grup genów, których profile ekspresji wykazują znaczne
podobieństwo. Chcąc oszacować brakujący poziom ekspresji genu i w próbce j, szukamy
K najbliższych mu genów (według pewnego ustalonego kryterium bliskości) spośród tych, dla
których poziom ekspresji w próbce j został zmierzony prawidłowo. Następnie szukaną
wartość xij wyznaczamy jako średnią ważoną poziomów ekspresji w próbce j genów
należących do wyznaczonego sąsiedztwa:
K
∑ wk x kj
xij = j=1N
.
(5.40)
∑ wk
j =1
W oryginalnej wersji metody wagi wk były równe odwrotności odległości Euklidesa pomiędzy
profilami ekspresji i stosowany był stały, wybrany z góry rozmiar sąsiedztwa.
Dla danych proteomicznych wymagane do działania algorytmu KNN założenie
o występowaniu w zbiorze danych cech mających podobne profile ekspresji nie może budzić
większych zastrzeżeń: nie dość, że istnieją grupy peptydów pochodzących z tych samych
78
białek, to jeszcze część z nich jest reprezentowana przez więcej niż jeden stopień
naładowania. Dlatego też w proponowanej metodzie na etapie imputacji brakujących wartości
zastosowana została zmodyfikowana przez autora pracy wersja tego algorytmu.
Najistotniejsze z wprowadzonych modyfikacji dotyczą stosowanej miary odległości
oraz sposobu w jaki budowane jest sąsiedztwo. Występująca w oryginalnej metodzie
odległość Euklidesa zastąpiona została odległością wynikającą ze współczynnika korelacji
liniowej pomiędzy wartościami ekspresji peptydów. Wagi wk są więc wyznaczane jako:
wk =
1
1
=
,
d r 1−r i ,k
(5.41)
gdzie ri,k jest współczynnikiem korelacji liniowej pomiędzy pomiędzy i-tym i k-tym wierszem
macierzy danych X. Ponieważ optymalna wielkość sąsiedztwa uwzględnianego podczas
imputacji jest zależna od liczby cech i charakteru samych danych, lepszym rozwiązaniem
wydaje się ustalanie jej w sposób dynamiczny i traktowanie liczby K jako maksymalnego
dopuszczalnego rozmiaru otoczenia, do którego mogą jednak wejść jedynie cechy, których
korelacja z aktualnie rekonstruowaną cechą jest większa od zadanego progu. W skrajnym
przypadku, gdy liczba spełniających ten warunek cech jest równa 0, działanie algorytmu
ograniczane jest do zastąpienia brakujących wartości średnią arytmetyczną pozostałych
elementów tego samego wiersza macierzy X. W odróżnieniu od swojego pierwowzoru,
algorytm działa w sposób iteracyjny, korzystając z wyznaczonych w poprzedniej iteracji
wartości na etapie budowania sąsiedztwa i określania wag wchodzących w jego skład cech.
Proces zatrzymywany jest gdy średni kwadrat różnic pomiędzy imputowanymi wartościami
z następujących po sobie iteracji spadnie poniżej nadanego progu.
5.5.3. Normalizacja
Zmiany w zmierzonym poziomie ekspresji peptydów, a przez to i białek, nie zawsze są
odzwierciedleniem rzeczywistych zmian biologicznych. Mogą one również wynikać z błędów
systematycznych na etapie przygotowania próbek lub pomiaru. Do głównych przyczyn
błędów można zaliczyć m.in. różnice w wyjściowej ilości badanego materiału biologicznego,
przeładowanie kolumny chromatograficznej i niestałość czasową parametrów spektrometru
i układu HPLC [25, 95]. Pokazano również, że istotny wpływ na wyniki analizy ilościowej
mogą mieć warunki przechowywania materiału biologicznego i gotowych próbek przed
pomiarem [32, 33, 102-104]. W przypadku metod analizy ilościowej wykorzystujących
79
znakowanie naturalnymi izotopami stabilnymi, niekorzystny wpływ tych czynników jest
w znacznym stopniu ograniczony dzięki wspólnemu przygotowywaniu i pomiarowi obydwu
porównywanych próbek biologicznych. W metodach bez znakowania wnioskowanie
ilościowe oparte jest na wartościach ekspresji pochodzących z próbek przygotowywanych
i mierzonych oddzielnie, często w dużych odstępach czasu. Tym samym metody te z natury
swojej są mniej odporne na błędy systematyczne i wymagają wprowadzenia do procesu
przetwarzania kroku normalizacji, mającego na celu zminimalizowanie ich wpływu, tak aby
możliwe było bezpośrednie porównanie próbek.
Najprostszą z możliwych metod normalizacji jest przeskalowanie wartości ekspresji
wszystkich peptydów za pomocą pojedynczego czynnika korekcyjnego, wyznaczonego np.
jako średnia arytmetyczna lub mediana zmierzonych wartości ekspresji wszystkich peptydów,
albo na podstawie całkowitej liczby zliczeń pełnego widma próbki. Korzysta się przy tym
z założenia, że wielkości te powinny być stałe dla próbek o podobnym składzie oraz że
wpływ błędów systematycznych jest niezależny od wartości zmierzonego sygnału. Ta prosta
metoda
normalizacji
jest
powszechnie
używana
w
badaniach
proteomicznych
[20, 22-26, 31, 88], jakkolwiek pokazano, że leżące u jej podstaw założenia nie zawsze muszą
być słuszne [95, 175]. Wpływ efektów supresji jonów, ograniczonego zakresu dynamicznego
analizatora czy przeładowania kolumny chromatograficznej może skutkować nieliniową
zależnością wartości błędu od wartości zmierzonego sygnału, co prowadzi do wniosku, że
lepsze rezultaty można by osiągnąć stosując nieliniowe metody normalizacji [95].
Zarówno liniowe, jak i nieliniowe metody wykorzystujące w procesie normalizacji
wszystkie peptydy wymagają spełnienia dwóch założeń mówiących, że zdecydowana
większość peptydów nie zmienia swojej ekspresji pomiędzy próbkami oraz rozkład wartości
ekspresji peptydów nad- i podekspresyjnych jest w przybliżeniu symetryczny. Założenia te
bez wątpienia można uznać za słuszne dla powtórzeń technicznych tej samej próbki
biologicznej. Zwykle jednak normalizacji podlegają nie tylko powtórzenia techniczne, ale
również próbki o odmiennym pochodzeniu biologicznym. W tym przypadku wspomniane
założenia niekoniecznie muszą być spełnione i lepszym rozwiązaniem byłoby oparcie
normalizacji o zbiór peptydów, których ekspresja nie ulega zmianie w badanych grupach.
Jedną z możliwości jest wprowadzenie do wszystkich próbek stałej ilości egzogennych
peptydów (spike-in peptides). Podejście takie, jakkolwiek stosowane [21, 32], napotyka na
trudności wynikające z braku uniwersalnie stosowalnych peptydów standardowych, których
80
ekspresja mogłaby „kontrolować” całość złożonego procesu przygotowania i pomiaru próbek.
Innym, często spotykanym w biologii molekularnej podejściem jest oparcie normalizacji na
złożeniu o niezmienności ekspresji genów lub białek o podstawowym znaczeniu dla życia
komórki, określanych w literaturze anglojęzycznej jako „housekeeping” [20, 24]. Istnieją
jednak dowody na to, że ekspresja tradycyjnie używanych w tym celu genów i białek może
ulegać znaczącym zmianom pod wpływem warunków eksperymentalnych i przy rożnych
patologiach [175]. Dlatego też lepszym rozwiązaniem wydaje się być użycie procedury
wyznaczania zbioru niezmiennych cech bezpośrednio na podstawie danych.
Autorowi nie są znane żadne przykłady wykorzystania w proteomice metod, które
rozwiązywałyby oba wymienione powyżej problemy. Dlatego też opracowano algorytm
nieliniowej normalizacji, który może działać zarówno w oparciu o wszystkie peptydy, jak
i pewien ich podzbiór, charakteryzujący się małymi rozrzutami w nieznormalizowanym
zbiorze danych. Wykorzystuje on prosty model, mówiący, że logarytm zmierzonego poziom
ekspresji i-tego peptydu w j-tej próbce może być przedstawiony jako:
x ij =i j i ij ,
(5.42)
gdzie μi jest rzeczywistą wartością ekspresji w skali logarytmicznej, αj jest nieliniową ciągłą
funkcją modelującą zależny od poziomu ekspresji efekt j-tej próbki, a εij niezależnym błędem
losowym o zerowej wartości średniej. Oszacowanie efektu próbki następuje przy użyciu
lokalnie ważonej regresji wielomianowej LOESS [176]. Zaletą użycia tej nieparametrycznej
metody jest możliwość estymowania zależności αj(μi) bez wstępnych założeń dotyczących jej
postaci funkcyjnej.
Normalizacja odbywa się względem pseudopróbki referencyjnej, utworzonej jako
wektor wartości średnich x macierzy danych X:
N
1
x = ∑ x j .
N j=1
(5.43)
Estymatą efektu j-tej próbki na i-ty peptyd  j i  staje się wartość krzywej dopasowania
LOESS wyznaczonej na podstawie wykresu zależności x j − x od x . Znormalizowana
wartość obliczana jest jako różnica:
xij = xij − 
 x ij  .
81
(5.44)
Proces powtarzany jest w sposób iteracyjny, aż do momentu, w którym wartość średnia
kwadratów różnic pomiędzy krzywymi normalizacyjnymi otrzymanymi w dwóch kolejnych
iteracjach spadnie poniżej zadanego progu.
Opisana powyżej procedura stosowana jest przy normalizacji powtórzeń technicznych.
W przypadku normalizacji próbek pochodzących z różnych grup badanych, normalizacja
odbywa się z użyciem zbioru peptydów wybranych w oparciu o ich wariancję we wszystkich
próbkach zbioru danych. Podstawą podejścia jest założenie, że efekt związany z pojedynczą
próbką zawiera składową „techniczną” oraz składową związaną z prawdziwym efektem
biologicznym, która w wypadku idealnego peptydu nieróżnicującego powinna być równa 0.
Jeśli obie te składowe są niezależnymi efektami losowymi, to peptydy mające tylko wariancję
techniczną, bez efektu biologicznego, powinny charakteryzować się mniejszą wariancją
całkowitą. Ponieważ wariancja jest zależna od wartości ekspresji [169], to aby zapewnić
równomierny rozkład peptydów w całym zakresie dynamicznym, wybór peptydów odbywa
osobno dla pewnej liczby przedziałów wartości ekspresji. Dla każdego przedziału wybierany
jest peptyd o najmniejszej wariancji. Normalizacja odbywa się według podanego powyżej
schematu, z tą jednak różnicą, że w każdej iteracji postać krzywej LOESS wyznaczana jest na
podstawie wybranego zbioru peptydów, a następnie używana dla wszystkich peptydów.
5.5.4. Redukcja szumu
Oprócz błędów systematycznych utrudnieniem w analizie ilościowej jest zmniejszenie
precyzji pomiaru na skutek szumu. Jego źródłami mogą być błędy losowe na etapie
przygotowywania próbek, fluktuacje sygnałów jonów na skutek supresji czy zmian
koncentracji peptydów wchodzących do źródła jonów oraz szumy detektora.
Redukcja poziomu szumu przeprowadzana jest po wyznaczeniu macierzy Y będącej
reprezentacją macierzy danych X w przestrzeni składowych głównych:
T
Y =T X ,
(5.45)
gdzie T jest ortonormalną macierzą transformaty Karhunena-Loèvego [177], której
niezerowymi kolumnami są wektory własne macierzy kowariancji cech, odpowiadające
uporządkowanym niemalejąco wartościom własnym λ1 ≥ λ2 ≥ .. ≥ λR ≥ 0 (gdzie R oznacza rząd
macierzy X po odjęciu wektora wartości średnich). Cechy w układzie współrzędnych
82
wyznaczonym przez kolumny macierzy T będą nieskorelowane (ich macierz kowariancji
będzie diagonalna), a wariancja danych w kierunku i-tej składowej równa wartości własnej λi,
zaś całkowita wariancja jest sumą wszystkich wartości własnych. Względny udział i- tej
składowej głównej w całkowitej wariancji może być wyrażony następująco:
p i=
i
R
∑j
.
(5.46)
j=1
Procedura redukcji szumu opiera się na założeniu, że zawarte w danych informacje
związane są z Q (Q < R) pierwszymi składowymi głównymi, podczas gdy ostatnie składowe,
mające najmniejszy udział w całkowitej wariancji, niosą głównie szum i mogą być pominięte.
Liczba istotnych składowych Q wyznaczana jest na podstawie zadanego procentu całkowitej
wariancji i zależności (5.46). Przeniesienie danych z powrotem do oryginalnej przestrzeni
odbywa się przy użyciu macierzy TQ, o niezerowych wektorach tylko w Q pierwszych
kolumnach:
 =T Q Y .
X
(5.47)
Ze względu na dużą wymiarowość danych, macierz transformaty Karhunena-Loèvego
nie jest wyznaczana bezpośrednio na podstawie macierzy korelacji, lecz przy użyciu rozkładu
macierzy X na wartości szczególne (SVD – Singular Value Decomposition) [177].
83
6. WYNIKI
W niniejszym rozdziale przedstawiono wyniki zastosowania poszczególnych etapów
proponowanej w rozprawie metody analizy ilościowej. Organizacja rozdziału odpowiada
kolejności omawiania tych etapów w pracy i jednocześnie jest zgodna z kolejnością ich
wykonywania podczas typowej analizy, począwszy od gromadzenia wiedzy jakościowej
o składzie białkowym próbek, poprzez tworzenie modeli widm peptydów i wykorzystanie ich
w procesie ekstrakcji z pełnych widm mas cech niosących informacje ilościowe, aż po
przetwarzanie wyższego poziomu, operujące na danych w postaci liczbowej. Prezentacja
wyników poprzedzona została opisem użytych zbiorów danych.
6.1. Opis zbiorów danych
Pewnym problemem związanym z przedstawianiem wyników z zakresu proteomiki jest fakt,
że dziedzina ta nie doczekała się jeszcze standardowych, ogólnodostępnych zbiorów danych
pozwalających na łatwe porównywanie różnych metod przetwarzania. Jest to efektem
zarówno dużej wymiarowość i różnorodności formatów zapisu danych pomiarowych, jak
i silnej ich zależność od rodzaju wykorzystywanego spektrometru. Z tego też powodu
większość użytych w pracy danych pochodzi z jednego źródła, którym jest pracujący
w Środowiskowym Laboratorium Spektrometrii Mas Instytutu Biochemii i Biofizyki PAN
spektrometr Finnigan LTQ-FT (Thermo) sprzężony z systemem HPLC nanoAcquity (Waters).
Wykorzystane w pracy zbiory danych można podzielić na dwie kategorie. Do
pierwszej należą uproszczone zbiory, złożone jedynie z list sekwencji peptydów
i odpowiadających im czasów retencji. Zbiory w tej postaci są używane tylko w celu
prezentacji wyników algorytmu predykcji czasów retencji i zostaną przedstawione
w poświęconym temu zagadnieniu podrozdziale 6.3.1. Druga kategoria obejmuje zestawy
kompletnych danych pomiarowych (LC-MS/MS i LC-MS) wygenerowanych na podstawie
próbek przygotowanych specjalnie na potrzeby niniejszej pracy lub też będących częścią
rzeczywistych badań biologicznych, w których współuczestniczył autor [33, 180-183]. Zbiory
te wykorzystane zostaną do zademonstrowania wyników kolejnych etapów analizy
ilościowej. Aby uniknąć konieczności wielokrotnej prezentacji, ogólny opis wszystkich
użytych zbiorów tego rodzaju umieszczony został poniżej, podczas gdy w poszczególnych
84
podrozdziałach przedstawiane będą jedynie te ich właściwości, które są bezpośrednio
związane z omawianymi tam zagadnieniami. Do tej kategorii należą następujące zbiory:
●
BSA – zbiór danych będący wynikiem pomiaru 6 próbek zawierających peptydy
powstałe w wyniku trawienia trypsyną pojedynczego białka: bydlęcej albuminy (BSA
– Bovine Serum Albumin) o 100% czystości. Do kolejnych próbek białko BSA
dodawane było we wzrastającej ilości, odpowiednio: 10, 50, 100, 200, 500, 1000 pg
(przy objętości próbki 20 μl). W pracy wykorzystywane są jedynie połączone wyniki
identyfikacji peptydów;
●
7BIAŁEK – zbiór danych będący efektem analizy próbek zawierających peptydy
z siedmiu trawionych trypsyną białek: BSA (czystość 100%), beta-kazeiny z mleka
krowiego
(czystość > 98%),
cytochromu
C
z
mięśnia
sercowego
konia
(czystość > 95%), drożdżowej dehydrogenazy alkoholowej I (czystość > 90%),
bydlęcej insuliny (brak informacji o czystości), lizozymu z jaja kurzego
(czystość > 90%) oraz końskiej mioglobiny (czystość > 90%). Zbiór złożony jest z 15
pełnych widm mas próbek, w których białko BSA dodawane było w ilościach 10, 20,
50, 100 i 200 ng (objętość próbki 20 μl), a pozostałe sześć białek miało niezmienne
stężenie. Dla każdej próbki z określoną ilością BSA wykonywane były trzy
powtórzenia pomiaru. Wykonane zostały również osobne sekwencjonowania
pojedynczych białek standardowych, mające na celu identyfikację ich zanieczyszczeń;
●
SUROWICA1 – próbki pochodzące z badań nad peptydami o masie poniżej 5 kDa
występującymi w surowicy ludzkiej krwi. W skład zbioru danych wchodzi 60 pełnych
widm mas, z których 30 pochodzi z analizy próbek pobranych od osób zdrowych, a 30
od pacjentów ze zdiagnozowanym rakiem jelita grubego;
●
SUROWICAMIX1 – zbiór złożony z 10 pełnych widm mas będących powtórzeniami
technicznymi pomiaru pojedynczej próbki biologicznej powstałej przez połączenie
wszystkich próbek z omawianego wcześniej zbioru danych SUROWICA;
●
KRZEPNIĘCIE1 – zbiór 24 pełnych widm mas próbek peptydomu surowicy krwi
pobranej zgodnie ze ściśle kontrolowanym protokołem od 12 zdrowych osób. Po
pobraniu krew od każdej osoby była dzielona na dwie części, które przed dalszym
1 Zbiory powstały w ramach prowadzonych przez zespól prof. Jerzego Ostrowskiego z Pracowni Biologii
i Gastroenterologii Molekularnej Kliniki Gastroenterologii Centrum Onkologii w Warszawie badań nad
składem niskocząsteczkowej frakcji surowicy krwi u pacjentów z rakiem jelita grubego.
85
przetwarzaniem i analizą w spektrometrze poddawane były wykrzepianiu przez
odpowiednio jedną lub dwie godziny;
●
OSOCZE2 – zbiór danych wygenerowany w ramach badań nad zmianami składu
proteomu osocza ludzkiej krwi wywołanymi mukowiscydozą. Badane były białka
o masie do 30 kDa. Zbiór składa się z 20 pełnych widm mas próbek pochodzących od
10 pacjentów ciężko chorych oraz 10 pacjentów, u których obserwowane były łagodne
objawy;
●
OSOCZEMIX2 – 10 powtórzeń technicznych pojedynczej próbki będącej połączeniem
wszystkich próbek ze zbioru danych OSOCZE.
Akwizycja danych odbywała się według ujednoliconego protokołu pomiarowego.
Pełne widma mas próbek mierzone były w zakresie m/z 300-1500 przy rozdzielczości 50000.
Rozdzielanie chromatograficzne odbywało się przy trwającej 45 minut gradientowej zmianie
udziału acetonitrylu w fazie ruchomej od 5 do 30%. Dane zapisywane były w formacie
kontrolującego akwizycję programu XCalibur (wersja 2.0), a następnie konwertowane3 do
formatu stosowanego przez oprogramowanie implementujące omówione w rozprawie
algorytmy (opis w punktach 8.3.2 i 8.3.3 Dodatku), w którym odbywało się dalsze
przetwarzanie. Podczas akwizycji widm fragmentacyjnych stosowana była technika
sekwencjonowania sektorowego, z podziałem pełnego zakresu mierzonych wartości m/z na
cztery podzakresy: 300-600, 500-800, 700-1000 oraz 900-1500. Poszczególne przebiegi
LC-MS/MS rozdzielane były pustymi przebiegami, zapobiegającymi przenoszeniu peptydów
pomiędzy analizami. Za niskopoziomową obróbkę widm fragmentacyjnych odpowiedzialny
był program MascotDistiller (wersja 2.2.2), z którego dane przesyłane były do systemu
identyfikacji Mascot (wersja 2.0). Jako źródło sekwencji białek wykorzystywana była baza
danych SwissProt. W zależności od rodzaju próbek, przeszukiwanie ograniczone było do
białek ludzkich lub też obejmowało całą bazę. Podczas przeszukiwania uwzględniona była
możliwość występowania peptydów zmodyfikowanych przez utlenienie metioniny. Analiza
raportów sekwencjonowania odbywała się za pomocą autorskiego oprogramowania opisanego
w punkcie 8.3.1 Dodatku oraz w [184].
2 Zbiory powstały w ramach grantu europejskiego „Development of new technologies for low abundance
proteomics: application to cystic fibrosis.” Badania prowadzone były pod kierownictwem prof. Michała
Dadleza w Instytycie Biochemii i Biofizyki PAN we wspolpracy z Instytutem Matki i Dziecka.
3 Autorem oprogramowania dokonującego konwersji formatów danych jest dr hab. Jarosław Poznański
z Instytutu Biochemii i Biofizyki PAN.
86
6.2. Gromadzenie wiedzy o składzie próbek
Wnioskowanie o jakości wyników identyfikacji jest w znacznym stopniu ułatwione w sytuacji
gdy znany jest rzeczywisty skład białkowy próbek. Dlatego też do prezentacji wyników użyte
zostały zbiory BSA i 7BIAŁEK pochodzące z analizy próbek złożonych z odpowiednio
jednego i siedmiu znanych białek. Aby możliwe było określenie poziomu fałszywych
identyfikacji, przeszukiwana przez system Mascot baza danych powstała przez połączenie
części zawierającej wszystkie sekwencje aminokwasowe z bazy SwissProt (wersja
2008.09.05, 397539 sekwencji) oraz części złożonej z ich odwróconych wersji.
6.2.1. Eliminacja fałszywie pozytywnych identyfikacji
W celu weryfikacji skuteczności proponowanej w pracy miary jakości identyfikacji opartej na
progu MMT (dalej nazywanej mscoreMMT), wyznaczone na jej podstawie q-wartości zostały
porównane z uzyskanymi przy bezpośrednim użyciu wartości score oraz po jej modyfikacji
przez odjęcie progów MHT (mscoreMHT) oraz MIT (mscoreMIT). Porównanie dotyczyło liczby
PSM o q-wartościach ≤ 0,01 oraz liczby zidentyfikowanych na ich podstawie peptydów.
Zebrane w tabeli 6.1 wyniki pokazują, że liczności zbiorów peptydów uzyskiwane
przy wykorzystaniu mscoreMIT tylko w niewielkim stopniu różnią się od tych będących
efektem użycia niezmodyfikowanej wartości score, co jest potwierdzeniem obserwacji
dotyczącej małej specyficzności progu MIT. W przypadku obydwu badanych zbiorów danych
miary mscoreMHT i mscoreMMT pozwalają uzyskać mniej zachowawcze estymaty poziomu
fałszywie pozytywnych identyfikacji, przy czym użycie tej ostatniej prowadzi do większych
zbiorów PSM i peptydów. Relacje pomiędzy wielkościami zbiorów peptydów są zachowane
w szerokim zakresie progów q-wartości, co zostało uwidocznione na rysunku 6.1.
Tab. 6.1. Porównanie miar jakości identyfikacji. Tabela zawiera liczby PSM o q-wartościach ≤ 0,01 oraz liczby
zidentyfikowanych na ich podstawie peptydów
mscoreMMT
mscoreMHT
mscoreMIT
score
Peptydy
PSM
Peptydy
PSM
Peptydy
PSM
Peptydy
PSM
BSA
141
652
140
649
114
472
112
473
7BIAŁEK
348
3623
330
3191
303
3002
297
2982
87
a)
b)
Rys. 6.1. Zależność liczby zidentyfikowanych peptydów od progu q-wartości PSM wyznaczanych przy użyciu
różnych miar jakości identyfikacji: a) zbiór danych BSA; b) zbiór danych 7BIAŁEK
Znajomość składu próbek daje okazję do weryfikacji czy q-wartości określone na
podstawie mscoreMMT przy użyciu przeszukania połączonej bazy danych mogą być traktowane
jako przybliżenie rzeczywistego poziomu fałszywie pozytywnych wyników. Jeżeli założyć
pełną czystość białek występujących w próbkach, wówczas każda zidentyfikowana
sekwencja, która z nich nie pochodzi może być uznana za fałszywie pozytywny wynik. Tym
samym możliwe jest wyznaczenie q-wartości i porównanie ich z tymi uzyskanymi przy
użyciu bazy danych zawierającej odwrócone sekwencje.
Zgodnie z tabelą 6.1, w wynikach sekwencjonowania zbioru BSA występuje 652 PSM
o q-wartościach nie przekraczających progu 0,01. Spośród nich 645 reprezentuje sekwencje
peptydów z bydlęcej albuminy lub pochodzących z autolizy trypsyny, co odpowiada
poziomowi fałszywie pozytywnych identyfikacji o wartości równej 0,0107. Co ważne, duża
zgodność obydwu rodzajów q- wartości (R2 = 0,9941) utrzymuje się w najbardziej
interesującym z praktycznego punktu widzenia przedziale 〈0 ; 0,1〉 , co zastało pokazane na
rysunku 6.2.a.
Niestety, w przypadku drugiego z użytych zbioru sekwencjonowań, q-wartości
wyznaczane przy użyciu odwróconej bazy danych w przedziale 〈 0 ; 0,1〉 przyjmują wyraźnie
mniejsze wartości od uzyskanych na podstawie znajomości składu próbek (rysunek 6.2.b).
Należy jednak zwrócić uwagę, że nie musi to być dowodem nieskuteczności metody
88
szacowania poziomu fałszywie pozytywnych wyników. W odróżnieniu od opisywanych
poprzednio próbek, w tym przypadku użyte białka (z wyjątkiem BSA) charakteryzowały się
czystością od 90% do 98%. Zastosowanie dla tego zbioru danych progu q-wartości równego
0,01 skutkuje identyfikacją 41 białek, przy czym obecność 29 z nich można łatwo
wytłumaczyć na podstawie znajomości składu próbek (rysunek 6.3). Do grupy tej oprócz
trypsyny należy 7 białek rzeczywiście wprowadzonych do próbek oraz 21 ich odpowiedników
pochodzących z innych organizmów, których identyfikacja jest wynikiem dużej homologii
sekwencji oraz zastosowania bazy danych bez ograniczeń taksonomii. Wśród pozostałych są
cztery białka, które występują w krowim mleku (alfa-S1-kazeina, alfa-S2-kazeina,
kappa-kazeina, laktoglobulina) oraz pochodząca z mięśnia sercowego tropina I (siedem
odmian od różnych organizmów). Zarówno zbieżność miejsca pochodzenia, jak i wyniki
osobnych sekwencjonowań, wykonanych dla każdego z siedmiu białek standardowych,
wskazują, że obecność wspomnianych białek jest efektem niepełnej czystości beta-kazeiny
i cytochromu C. Uznanie wymienionych białek za faktycznie występujące w próbkach
znacząco podnosi zgodność obydwu rodzajów q-wartości (R2 = 0,9952), jednak niemożność
uzyskania
od
producenta
standardów
białkowych
informacji
potwierdzających
przypuszczenia co do składu zanieczyszczeń czyni ten wynik spekulatywnym.
a)
b)
Rys. 6.2. Porównanie q-wartości wyznaczonych na podstawie bazy danych z odwróconymi sekwencjami z tymi
określonymi na podstawie znajomości składu próbek: a) zbiór danych BSA; b) zbiór danych 7BIAŁEK
89
Rys. 6.3. Wyniki klasteryzacji hierarchicznej białek zidentyfikowanych w zbiorze danych 7BIAŁEK przy progu
q-wartości równym 0,01. Odległość pomiędzy białkami wynika ze procentu identyczności ich sekwencji,
wyznaczonego wykonaniu po globalnego dopasowaniu algorytmem Needlemana-Wunsha. Zaznaczone zostały
liście drzewa klasteryzacji odpowiadające trypsynie oraz siedmiu białkom wprowadzonym do badanych próbek
6.2.2. Kalibracja widm fragmentacyjnych
Przedstawione dotychczas wyniki identyfikacji uzyskane zostały przy użyciu opisanej
w rozdziale 5.2.2 metody dwukrotnego przeszukania zmierzonych widm fragmentacyjnych
przez
system
Mascot.
Pierwsze
przeszukanie,
wykonane
z
dużymi
wartościami
maksymalnych dopuszczalnych odchyłek masy (MMDMS = 40 ppm dla jonów macierzystych
oraz MMDMS/MS = 0,8 Da dla jonów potomnych), służyło do wybrania zbiorów widm
o wiarygodnie przypisanych sekwencjach (kryterium była q-wartość ≤ 0,01). Zbiory te były
następnie podstawą dla procedury wyznaczenia parametrów funkcji kalibracyjnych mas
jonów macierzystych i fragmentacyjnych oraz określenia zawężonych przedziałów tolerancji
wykorzystywanych w drugim przeszukaniu. Przykładowe wyniki tej procedury dla zbioru
danych 7BIAŁEK przedstawia rysunek 6.4.
90
a)
b)
c)
d)
Rys. 6.4. Kalibracja widm fragmentacyjnych. Górne panele przedstawiają zależność błędu pomiaru wartości m/z
jonów macierzystych przed (panel a) i po kalibracji (panel b). Dolne panele prezentują zależność błędu pomiaru
wartości m/z jonów fragmentacyjnych przed (panel c) i po kalibracji (panel d). Na czerwono zaznaczone są
punkty odrzucone przez algorytm RANSAC i nie brane pod uwagę podczas wyznaczania parametrów kalibracji
Celem kalibracji jest poprawienie jakości wyników identyfikacji, czego bezpośrednim
efektem powinno być zwiększenie liczby peptydów o wiarygodnie przypisanych
sekwencjach. W tabeli 6.2 zamieszczone zostały wyniki porównania dotyczącego wpływu
stosowania kalibracji i użytej w tym celu metody na liczbę PSM o q-wartościach nie
91
większych od 0,01. Testy przeprowadzono na dwóch wykorzystanych już poprzednio
zbiorach danych o znanym składzie białkowym (BSA i 7BIAŁEK). Dodatkowo użyta została
jedna z próbek należących do zbioru OSOCZE, charakteryzująca się silną zależnością błędu
od zmierzonej wartości m/z. Jako metoda odniesienia wykorzystana została spotykana
w literaturze procedura oparta na oszacowaniu wartości średniej i odchylenia standardowego
względnego błędu określenia masy jedynie dla jonów macierzystych [106, 110]. W tabelach
z wynikami metoda ta oznaczona jest jako „kalibracja MS”, natomiast proponowana przez
autora metoda, uwzględniająca również widma fragmentacyjne i zależność błędu od wartości
m/z, nazywana jest „kalibracją MS i MS/MS”.
Tab. 6.2. Wpływ kalibracji na wyniki identyfikacji peptydów. Podane zostały liczby PSM o q-wartościach ≤ 0,01
oraz zidentyfikowanych na ich podstawie peptydów. Wartości w nawiasach oznaczają procentową zmianę wobec
liczebności zbiorów otrzymywanych przy braku kalibracji
Bez kalibracji
Peptydy
PSM
BSA
74
225
7BIAŁEK
288
2731
OSOCZE
614
1238
Kalibracja MS
Kalibracja MS i MS/MS
Peptydy
PSM
Peptydy
PSM
75
255
141
652
(+ 1,35%)
(+ 13,33%)
316
3220
348
3623
(+ 9,72%)
(+ 17,90%)
(+ 20,83%)
(+ 32,66%)
610
1232
723
1496
(– 0,65%)
(– 0,48%)
(+ 17,75%)
(+ 20,84%)
(+ 90,54%) (+ 189,77%)
Jak wynika z tabeli 6.2, kalibracja może znacząco – w przypadku jednego ze zbiorów
niemal dwukrotnie – zwiększyć liczbę zidentyfikowanych peptydów spełniających wymagane
kryterium. Dla PSM poprawa jest jeszcze wyraźniejsza, co oznacza zwiększenie liczby
przypisań przypadających na poszczególne peptydy, a tym samym dodatkowy wzrost
wiarygodności identyfikacji tych ostatnich. Wpływ zastosowanej metody kalibracji jest
w oczywisty sposób powiązany ze specyfiką danych. Gdy zależność funkcyjna błędu
względnego od wartości m/z jest słaba (np. zbiór 7BIAŁEK), istotny wzrost liczby peptydów
osiągany jest już po kalibracji prostszą metodą, aczkolwiek nawet w takim wypadku
wprowadzenie kroku kalibracji mas jonów fragmentacyjnych skutkuje poprawą wyników.
Przy silniejszej zależności błędu względnego od m/z (zbiór danych BSA), dopiero wykonanie
pełnej kalibracji przynosi zauważalną poprawę, a w skrajnym przypadku używanie
uproszczonej procedury może wręcz prowadzić do pogorszenia wyników (zbiór OSOCZE).
92
Większa liczba zidentyfikowanych peptydów skutkuje również poprawą jakości
identyfikacji białek, która może być mierzona w kategoriach wzrostu wartości ich mscoreB lub
też stopnia pokrycia ich sekwencji (tabela 6.3). Oba zastosowane kryteria są ze sobą
powiązane, choć nie zawsze w oczywisty sposób: obserwowany na skutek kalibracji wzrost
mscoreB jest silniejszy, gdyż jest on bezpośrednim wynikiem większej liczby PSM, podczas
gdy poprawa stopnia pokrycia wymaga identyfikacji nowych, unikalnych fragmentów
sekwencji białka i nie jest zależna od liczby PSM przypadających na peptyd.
Tab. 6.3. Wpływ kalibracji na wyniki identyfikacji białek. Podane zostały wartości mscoreB i procenty pokrycia
sekwencji znanych białek ze zbiorów danych BSA (wiersz zaznaczony na szaro) i 7BIAŁEK
Bez kalibracji
Kalibracja MS
Kalibracja MS
i MS/MS
mscoreB Pokrycie [%] mscoreB Pokrycie [%] mscoreB Pokrycie [%]
Albumina
3880,2
59,47
5628,3
61,94
11923,6
79,24
Albumina
7243,6
55,52
9032,1
65,9
9867,3
67,55
Beta-kazeina
702,9
48,66
968,5
54,02
985,7
54,02
Dehydrogenaza alkoholowa I
7193,9
60,63
10770,4
60,63
11104,4
61,78
Insulina
6189,6
42,86
7615,4
42,86
7730,5
50,48
Cytochrom C
2670,4
41,9
4015,2
44,76
4298,3
44,76
Mioglobina
13661,6
64,94
17051,6
75,97
17625,8
77,92
Lizozym
10684,4
72,11
12868,5
75,97
13098,9
80,27
6.3. Model widma mas peptydu
6.3.1. Predykcja czasu retencji
Zaprezentowana w rozdziale 5.3.3 metoda predykcji czasów retencji porównana została
z czterema opisanymi w literaturze algorytmami, z których dwa poddawane były treningowi
na wykorzystywanych podczas testów zbiorach danych, podczas gdy dwa pozostałe miały
parametry od nich niezależne. Do pierwszej grupy nalezą: prosty model liniowy
wyznaczający hydrofobowość jako sumę współczynników retencji oraz sieć neuronowa
o strukturze 20:2:1 [154]. Niestety, nie było możliwe włączenie do porównania rozbudowanej
sieci neuronowej o strukturze 1052:24:1 zaproponowanej przez Petritisa w [149]. Jej wagi są
objęte patentem, a implementujące ją oprogramowanie dostępne jest jedynie dla rządowych
93
placówek badawczych na terenie USA [185], natomiast autor nie dysponował zbiorami
danych o rozmiarze umożliwiającym skuteczny trening tak złożonej sieci neuronowej.
Dlatego też jako przykłady predykcji w oparciu o parametry niezależne od konkretnych
zbiorów danych wykorzystane zostały oba warianty modelu Krokhina [141-143] (wyniki dla
wersji rozszerzonej modelu wygenerowano przy użyciu dostępnego w Internecie programu
Sequence Specific Retention Calculator [186]).
Wydajność wymienionych metod predykcji czasów retencji przetestowana została dla
pięciu zbiorów złożonych z sekwencji peptydów i obserwowanych dla nich czasów retencji.
Trzy z nich pochodzą z systemu HPLC sprzężonego ze spektrometrem, który posłużył do
wygenerowania pozostałych danych pomiarowych z pracy:
●
7BIAŁEK – zbiór będący przykładem niewielkiego zestawu (348 sekwencji)
peptydów tryptycznych poddanych jednorazowemu sekwencjonowaniu;
●
SUROWICA – zbiór powstały z połączenia 32 przebiegów LC-MS/MS (wykonanych
w okresie ponad roku) analizujących peptydom surowicy ludzkiej krwi. Zbiór zawiera
1235 sekwencji;
●
SYNAPTOSOMY4 – duży zbiór peptydów (3408 sekwencji) pochodzący z trawienia
trypsyną białek frakcji synaptosomalnej mózgu myszy transgenicznych z chorobą
Alzheimera.
Do porównania dołączone zostały ponadto dwa dostępne w literaturze zestawy peptydów,
które były zbiorami testowymi (zbiory treningowe nie zostały opublikowane) dla drugiej
wersji modelu Krokhina [143] (zbiór KROKHIN, 255 sekwencji) oraz rozbudowanej sieci
neuronowej Petritisa [149] (zbiór PETIRITIS, 1303 sekwencje).
Porównania były wykonywane po podzieleniu poszczególnych zbiorów danych na
części treningową i testową. Zawierający 80% peptydów zbiór treningowy służył do
wyznaczenia parametrów predyktorów, których skuteczność była następnie sprawdzana na
peptydach ze zbioru testowego. Czasy retencji każdego zbioru treningowego zamieniane były
na znormalizowane wartości (NET – Normalized Elution Time) przez liniowe przeskalowanie
na zakres 〈0,1 ; 0,9〉 . Procedura losowego podziału zbiorów
powtarzana była 100 razy,
a zebrane w tabeli 6.4 wyniki są wartościami średnimi uzyskanych kwadratów
współczynników korelacji pomiędzy rzeczywistymi i przewidywanymi czasami retencji
4 Zbiór danych pochodzi z badań nad proteomem frakcji synaptosomalnej myszy transgenicznych, będących
modelem choroby Alzheimera. Badania prowadzone są pod kierownictwem prof. Michała Dadleza
w Instytucie Biochemii i Biofizyki PAN we współpracy z Instytutem Medycyny Doświadczalnej i Klinicznej
PAN i Międzynarodowym Instytutem Biologii Molekularnej i Komórkowej.
94
peptydów wchodzących w skład zbiorów testowych. W przypadku metod o parametrach
niezależnych od zbiorów danych podawane są jedynie wyniki dla całego zbioru peptydów.
Tab. 6.4. Porównanie skuteczności metod predykcji czasów retencji. Podane są wartości średnie i odchylenia
standardowe kwadratów współczynników korelacji wyznaczonych na podstawie 100 zbiorów testowych.
W przypadku metod o parametrach niezależnych od zbiorów danych (wiersze zaznaczone na szaro) podawana
jest wartość dla całego zbioru danych
7BIAŁEK
SUROWICA
SYNAPTOSOMY
PETRITIS
KROKHIN
EA
0,9338 (0,0086)
0,8996 (0,0102)
0,9347 (0,0060)
0,9100 (0,0081)
0,9526 (0,0123)
Model liniowy
0,8267 (0,0381)
0,8189 (0,0141)
0,8865 (0,0071)
0,8292 (0,0173)
0,9247 (0,0178)
ANN
0,9201 (0,0177)
0,8817 (0,0331)
0,9254 (0,0044)
0,8920 (0,0193)
0,9428 (0,0160)
Krokhin1
0,8668
0,8530
0,8931
0,8341
0,9479
Krokhin2
0,8983
0,8717
0,9218
0,8992
0,9790
Uzyskane wyniki pokazują, że niezależnie od używanej metody można zaobserwować
wpływ specyfiki zbiorów danych na skuteczność predykcji. Wszystkie metody uzyskują
zdecydowanie najlepsze rezultaty (R2 od 0,9247 do 0,9790) dla zbioru KROKHIN, co nie jest
zaskoczeniem, zważywszy, że jako jedyny był on wygenerowany w następujących po sobie
przebiegach o ściśle kontrolowanej powtarzalności warunków chromatograficznych i przy
stałej temperaturze. Swego rodzaju przeciwieństwem tej sytuacji jest zbiór danych
SUROWICA, stanowiący połączenie przebiegów sekwencjonujących wykonanych w dużych
odstępach czasowych. Ponadto, wchodzące w jego skład próbki zawierały naturalnie
występujące w surowicy krwi peptydy, charakteryzujące się większym zróżnicowaniem
długości i składów N- i C-końcowych fragmentów sekwencji w porównaniu z peptydami
tryptycznymi. Tym samym wyniki dla tych dwóch zbiorów danych można traktować jako
górne i dolne oszacowanie możliwej do osiągnięcia skuteczności poszczególnych metod.
Wyniki obydwu modeli Krokhina, wykorzystujących stałe, niezależne od zbioru
danych wartości parametrów dobrze ilustrują związany z predykcją problem, jakim jest
zależność czasów retencji od układu chromatograficznego i panujących w nim warunków.
Z jednej strony oba modele wykazują dużą skuteczność dla zbioru danych pochodzącego
z systemu HPLC, dla którego optymalizowane były wartości ich parametrów, z drugiej
jednak, zdecydowanie słabsze rezultaty dla pozostałych przypadków wskazują na ograniczoną
zdolność uogólniania. Zjawisko to jest dodatkowo pogłębiane przez fakt, że oba modele
opracowane zostały przy użyciu systemu HPLC połączonego off- line ze spektrometrem typu
MALDI. Takie warunki są bez wątpienia optymalne z punku widzenia dokładnego pomiaru
95
czasów retencji, jednak znacząco odbiegają one od panujących podczas analiz LC-MS/MS,
w których system HPLC poddany jest rygorom (zarówno czasowym jak i dotyczącym składu
fazy ruchomej) wynikającym z bezpośredniego połączenia ze źródłem jonów ESI.
Spośród metod, których parametry dostosowywane były do poszczególnych zbiorów
danych najlepsze rezultaty uzyskał proponowany w niniejszej pracy model wspomagany
przez algorytm ewolucyjny. Fakt, że model ten jest w pewnym stopniu wzorowany na
pierwotnym
modelu
Krokhina
skutkował
podobieństwem
wartości
uzyskiwanych
współczynników retencji (rysunek 6.5.a), tak więc poprawa skuteczności predykcji osiągnięta
została głównie dzięki elementom różniącym obie metody: odmiennemu sposobowi
uwzględnienia wpływu N-końca, wprowadzeniu poprawek związanych z sąsiedztwem
aminokwasów zasadowych (szczególnie argininy, której wpływ na hydrofobowość sąsiednich
reszt aminokwasowych jest tylko nieznacznie mniejszy od wpływu N-końca, co zastało
pokazane na rysunku 6.5.b) oraz zastąpieniu ręcznego doboru parametrów przez
optymalizację za pomocą algorytmu ewolucyjnego.
a)
b)
Rys. 6.5. Przykładowe wyniki optymalizacji algorytmem ewolucyjnym parametrów modelu: a) porównanie
współczynników retencji reszt aminokwasowych (oznaczonych jednoliterowymi symbolami) z wartościami
pochodzącymi z modelu Krokhina [141]; b) postać funkcji modelujących wpływ N-końca i sąsiedztwa
aminokwasów zasadowych
96
Z punku widzenia użycia predykcji w procesie ekstrakcji cech ilościowych z pełnych
widm mas, znaczenie ma błąd predykcji odniesiony do całkowitego czasu trwania przebiegu
chromatograficznego. W zbiorze testowym o największej zaobserwowanej wartości R2 błąd
predykcji dla 50% peptydów mieścił się w zakresie ±2,00%, a dla 95% peptydów –
w zakresie ±6,82% długości przebiegu (rysunek 6.6.a). W najgorszym przypadku szerokości
przedziałów błędu dla 50% i 95% peptydów wynosiły ±5,28% i ±15,33% (rysunek 6.6.b).
Średnio, uwzględniając wszystkie zbiory danych, wartości te były równe ±3,98% i ±10,22%.
Należy jednak zwrócić uwagę, że w praktycznych zastosowaniach wartości błędu predykcji są
mniejsze, gdyż do wyznaczenia parametrów modelu wykorzystywane są wszystkie
zidentyfikowane peptydy, bez wykonanego na potrzeby tego porównania podziału na części
treningową i uczącą.
a)
b)
Rys. 6.6. Wykresy procentu peptydów o danym poziomie błędu predykcji, wyrażonego w procentach czasu
trwania przebiegu chromatograficznego: a) najlepszy obserwowany przypadek (zbiór danych KROKHIN);
b) najgorszy przypadek (zbiór danych SUROWICA)
6.3.2. Obwiednia izotopowa i profil elucji
Algorytm stosowany przy wyznaczaniu teoretycznej obwiedni izotopowej widm jonów
peptydowych korzysta z pików sumarycznych, powstających przez połączenie pików
wszystkich odmian izotopowych o jednakowej liczbie nukleonów w jądrach atomów
97
tworzących cząstkę. Rozwiązanie takie, jak już zostało to omówione w rozdziale 5.3.2,
pozwala znacząco zmniejszyć liczbę rozpatrywanych pików obwiedni. Przykładowo,
rzeczywisty rozkład izotopowy stosowanej w celach kalibracyjnych substancji P, będącej
peptydem o składzie C63H98N18O13S1 i masie monizotopowej 1346,72814 Da złożony jest
z ponad 5,05·107 odmian, podczas gdy liczba niezerowych pików sumarycznych wynosi 150.
Wraz ze wzrostem masy cząstki różnica w liczbie pików staje się coraz większa: teoretyczne
widmo małego białka, insuliny bydlęcej o składzie C254H377N65O75S6 i masie 5729,60086 Da
zawiera już ponad 1,56·1012 pików odmian izotopowych, wobec 267 pików sumarycznych.
Zastosowanie uproszczonego widma jest możliwe przy założeniu, że skończona
rozdzielczość spektrometru nie pozwala rozróżnić pików pochodzących od rzeczywistych
odmian izotopowych o małych różnicach w masie. Przy rozdzielczości 50000, stosowanej
podczas akwizycji używanych w niniejszej pracy danych pomiarowych, założenie to jest
spełnione. Co więcej, ze względu na ograniczenia zakresu dynamicznego i stosunku sygnału
do szumu, obserwowana jest jedynie pewna liczba początkowych pików sumarycznych. Na
rysunku 6.7 przedstawione zostało porównanie zmierzonego widma substancji P i jego
teoretycznego modelu w zakresie wartości m/z odpowiadającym pierwszym pięciu pikom
sumarycznym, zawierających 99,5047% informacji pełnej obwiedni. Współczynnik
determinacji
uproszczonego
modelu
przed
wykonaniem
dopasowania
algorytmem
Levenberga–Marquardta wynosi w tym wypadku 0,9982. Co ciekawe, wartość ta jest nawet
nieznacznie większa od uzyskanej dla modelu uwzględniającego piki wszystkich odmian
izotopowych (obliczonego przy użyciu rozszerzonej wersji algorytmu opisanej w punkcie
8.1.1 Dodatku), co najprawdopodobniej wynika z faktu, że wyznaczenie pełnego modelu
wymaga wprowadzenia kroku przycinania. Po wykonaniu procedury dopasowania oba
modele prowadzą do tej samej wartości współczynnika determinacji, równej 0,9996. Różnica
pomiędzy modelem przed i po dopasowaniu widoczna jest na rysunku 6.8.a zwierającym
zbliżenie zakresu wartości m/z mieszczącego drugi pik sumaryczny obwiedni. Należy
podkreślić, że w przypadku obwiedni izotopowej zgodność początkowych wartości
parametrów modelu z danymi jest bardzo istotna, gdyż służą one nie tylko jako punkty
startowe dla iteracyjnego algorytmu Levenberga–Marquardta, ale są także podstawą dla
wyboru właściwych położeń widm jonów peptydowych na etapie ekstrakcji wartości
liczbowych z pełnych widma mas próbek (por. rozdział 5.4.2).
98
Rys. 6.7. Porównanie danych pomiarowych z funkcją modelującą kształt obwiedni izotopowej jonu substancji P.
Rysunek dotyczy modelu przed wykonaniem dopasowania algorytmem Levenberga–Marquardta
Wysoka wartość współczynnika determinacji wskazuje, że przybliżenie kształtu pików
obwiedni izotopowej za pomocą funkcji Gaussa jest w pełni uzasadnione, co jest również
widoczne na rysunkach 6.7 oraz 6.8.a. Trzeba jednak pamiętać, że kształt pików jest silnie
zależny od rodzaju analizatora, w który wyposażony jest spektrometr. O ile w wypadku
stosowanego tutaj analizatora FT-ICR założenie o kształcie gaussowskim nie budzi większych
wątpliwości, o tyle dla spektrometru Q-TOF mogłoby prowadzić do błędów, gdyż
generowane przez analizator czasu przelotu piki nie są symetryczne.
Kształt przekroju widma w kierunku osi czasów retencji jest w modelu opisywany
przez zmodyfikowaną wykładniczo funkcję Gaussa. Pewną wadą tej funkcji jest to, że dobrze
opisuje jedynie piki o wydłużonym zboczu opadającym. W praktyce okazuje się jednak, że
nie jest to poważnym ograniczeniem, gdyż właśnie z takimi pikami mamy do czynienia
w widmach LC-MS. W odróżnieniu od obwiedni izotopowej, początkowe wartości
parametrów funkcji modelującej kształt nie są związane z sekwencją peptydu i ustalane są
w sposób empiryczny. Fakt ten nie ma jednak zasadniczego wpływu na wyniki etapu
ekstrakcji cech, gdyż w tym przypadku profilu elucji wartości te stanowią jedynie punkty
startowe dla procedury Levenberga–Marquardta i istotna jest tylko zgodność z danymi
modelu po dopasowaniu. Dla używanej tu jako przykład substancji P wartości
współczynników determinacji przed i po dopasowaniu wynoszą odpowiednio 0,9577 i 0,9993
(rysunek 6.9.b).
99
a)
b)
Rys. 6.8. Porównanie danych pomiarowych z funkcjami modelującymi dwuwymiarowy kształt widma mas
substancji P (przed i po wykonaniu dopasowania algorytmem Levenberga–Marquardta): a) powiększenie zakresu
wartości m/z mieszczącego drugi pik sumaryczny obwiedni izotopowej; b) profil elucji wyznaczony dla piku
monizotopowego obwiedni
Przedstawione powyżej wyniki dotyczą pomiaru pojedynczej substancji o stężeniu
dobranym tak, aby zapewnić optymalne warunki dla kalibracji skali wartości m/z. Niestety,
z punktu widzenia analiz LC-MS złożonych próbek biologicznych warunki takie należy uznać
za nierealistyczne. Można oczekiwać, że w ich przypadku duża rozpiętość stężeń białek,
różnice w efektywności jonizacji peptydów oraz nakładanie widm reprezentujących je jonów
będą przyczyniać się do degradacji wyników. Dla wszystkich używanych w pracy zbiorów
i dla wszystkich jonów peptydowych uznanych przez algorytm wyszukiwania za prawidłowo
odnalezione wartości średnie współczynników determinacji dla dopasowanych modeli
obwiedni izotopowych i profili elucji wynosiły odpowiednio 0,9563 i 0,9367, przy czym za
pogorszenie wyników w znacznej mierze odpowiadały widma o małej intensywności,
znajdujące się blisko poziomu szumu.
Porównanie trójwymiarowej reprezentacji danych pomiarowych i dopasowanego
modelu widma dla przykładowego jonu peptydowego pochodzącego z rzeczywistych analiz
LC-MS zamieszczone zostało na rysunku 6.9.
100
Rys. 6.9. Trójwymiarowa wizualizacja widma mas przykładowego jonu peptydowego: a) dane pomiarowe;
b) model widma po wykonaniu dopasowania procedurą Levenberga–Marquardta
6.4. Ekstrakcja wartości liczbowych z pełnych widm mas próbek
Procedura ekstrakcji cech o charakterze ilościowym wykorzystuje algorytm wyszukiwania,
którego działanie oparte jest na teoretycznych modelach widm mas jonów peptydowych oraz
na funkcji c P(t), której wartości wskazują potencjalne położenia tych widm w pełnym widmie
mas próbki. Postać tej funkcji powinna być kompromisem pomiędzy czułością
a specyficznością wyszukiwania: z jednej strony musi być zachowana możliwość wyszukania
prawidłowego widma nawet w wypadku braku idealnej zgodności z teoretycznym położeniem
i kształtem, z drugiej zaś strony próby wyznaczania dopasowania modelu do danych
eksperymentalnych są kosztowne obliczeniowo i należy dążyć do minimalizacji ich liczby.
Funkcją o największej możliwej czułości jest chromatogram wykonany dla pewnego
przedziału wartości m/z wokół dokładnego położenia piku monoizotopowego obwiedni.
Jednocześnie jest to jednak funkcja o bardzo niskiej specyficzności, która przyjmuje
niezerowe wartości dla wielu czasów retencji niezwiązanych z poszukiwanym peptydem.
Funkcja w postaci przedstawionej w rozdziale 5.4.2 pozwala uzyskać większą specyficzność,
nie prowadząc do spadku czułości (rysunek 6.10). Wyznaczanie funkcji c P(t) jako średniej
geometrycznej chromatogramów cząstkowych umożliwia wykluczenie położeń związanych
z pojedynczymi pikami szumowymi oraz pikami należącymi do obwiedni o stopniu
101
naładowania innym niż ma poszukiwany jon (rysunek 6.10.b). Wyjątkiem w tym przypadku
są jedynie obwiednie jonów o liczbie ładunków będącej parzystą wielokrotnością właściwego.
Wymóg występowania maksimum w zakresach m/z chromatogramów cząstkowych powoduje,
że nie są uwzględniane pozycje związane ze zboczami pików o maksimach położonych poza
dopuszczalnym zakresem tolerancji (rysunek 6.10.c). Dodatkowo, zastosowanie funkcji kary
eliminuje położenia oddalone od przewidzianego czasu zejścia peptydu z kolumny
chromatograficznej. W efekcie, łączny chromatogram zwykle zawiera jedynie niewielką
liczbę pików, a często wręcz tylko pojedynczy pik odpowiadający prawidłowemu położeniu
poszukiwanego jonu (rysunek 6.10.a).
Rys. 6.10. Porównanie czułości i specyficzności chromatogramu wykonanego dla piku monoizotopowego
poszukiwanego widma (górny panel) oraz funkcji c P(t) w postaci stosowanej w prezentowanym algorytmie
(dolny panel). Boczne panele pokazują fragmenty widm mas związanych z wybranymi pikami chromatogramu,
z zaznaczonym na czerwono oczekiwanym kształtem obwiedni poszukiwanego jonu: a) prawidłowy jon; b) jon
o zbliżonym położeniu piku monoizotopowego, ale innym stopniu naładowania; c) jon o tym samym stopniu
naładowania, lecz niewłaściwym położeniu piku monoizotopowego
Warunkiem skuteczności wyszukiwania jest uwzględnienie możliwości występowania
różnic w parametrach czasowych i kalibracji skali wartości m/z widm mas próbek. Dlatego też
ważnym elementem algortytmu wyszukiwania jest procedura rekalibracji modeli oraz
102
automatycznego określania szerokości przedziałów tolerancji dla wartości m/z i czasów
retencji. Bez jej zastosowania konieczne byłoby używanie podczas przeszukania szerokich
zakresów, znacząco zwiększających ryzyko nieprawidłowego określenia pozycji widm
peptydów. Typowo, dla wstępnego przeszukania dopuszczalna dokładność określenia wartości
m/z jest równa ±20 ppm, a funkcja kary za odstępstwo od teoretycznego czasu retencji ma
szerokość połówkową tak dobraną, aby wyeliminować wszystkie widma oddalone od
przewidywanego położenia o więcej niż ±20% czasu trwania przebiegu. Przeprowadzenie
kalibracji zawęża przedziały tolerancji do odpowiednio ±7-9 ppm i ±4-6%, które to wartości
są zdecydowanie bliższe rzeczywistym możliwościom stosowanego układu pomiarowego.
Wyniki działania rekalibracji dla przykładowego widma mas pokazane zostały na
rysunku 6.11.
a)
b)
Rys. 6.11. Wyznaczanie współczynników kalibracyjnych pełnych widm mas dla skali wartości m/z (panel a)
i czasu retencji (panel b). Na czerwono zaznaczono punkty odrzucone przez algorytm RANSAC i nie brane pod
uwagę podczas wyznaczania parametrów kalibracji. Rysunek dotyczący kalibracji czasów retencji zawiera
dodatkowo zaznaczoną szarym kolorem krzywą dopasowania LOESS. Jej postać pozwala wnioskować, że
możliwe jest usprawnienie procedury przez wprowadzenie nieliniowej funkcji kalibracyjnej dla czasu retencji
Procedurze wyszukiwania w widmach mas próbek poddawane są wszystkie peptydy,
których sekwencje zostały zidentyfikowane na podstawie PSM o q- wartościach ≤ 0,01.
Uwzględniane są przy tym jony o stopniach naładowania, które występowały w wynikach
sekwencjonowań. Liczby poszukiwanych
widm jonów peptydowych
103
dla czterech
przykładowych zbiorów danych zamieszczone zostały w tabeli 6.5. Tabela ta zawiera również
średnie liczby jonów uznanych za prawidłowo wyszukane przez algorytm ekstrakcji cech,
natomiast rysunek 6.12 prezentuje efekty jego działania dla przykładowej próbki.
Tab. 6.5. Podsumowanie wyników działania algorytmu wyszukiwania widm mas jonów peptydowych w pełnych
widmach mas próbek. W dwóch pierwszych wierszach zamieszczone zostały liczby poszukiwanych jonów
peptydowych oraz wartości średnie liczby jonów uznanych przez algorytm za prawidłowo wyszukane (po
zaokrągleniu do najbliższej liczby całkowitej). Ostatni wiersz zawiera liczbę błędnie zidentyfikowanych jonów
peptydowych odniesioną do liczb jonów uznanych za prawidłowo zidentyfikowane w poszczególnych próbkach
(w tabeli podana jest, wyrażona w procentach wartość średnia dla całego zbioru danych)
7BIAŁEK
OSOCZE
SUROWICA
KRZEPNIĘCIE
Liczba szukanych jonów
348
1126
1667
1667
Liczba znalezionych jonów
318
932
1361
1053
Błąd [%]
0,63
1,47
1,93
1,11
Rys. 6.12. Fragment widma mas próbki ze zbioru danych SUROWICA z naniesionymi efektami działania
algorytmu wyszukiwania jonów peptydowych. W etykietach widm widoczne są sekwencje peptydów, stopnie
naładowania jonów oraz identyfikatory białek, z których pochodzą peptydy
Różnica pomiędzy liczbami poszukiwanych i odnalezionych jonów wynika przede
wszystkim z faktu, że podczas identyfikujących skład próbek przebiegów LC-MS/MS
używana jest większa ilość materiału biologicznego, co było już dokładniej omawiane
w rozdziale 5.5.2. Potwierdzeniem tego mogą być zauważalnie lepsze rezultaty wyszukiwania
104
w próbkach zbioru danych 7BIAŁEK, które zawierały białka w kontrolowanych i relatywnie
wysokich stężeniach. Natomiast porównanie efektów wyszukiwania w zbiorów danych
SUROWICA i KRZEPNIĘCIE ilustruje wpływ jaki może mieć na wyniki analizy ilościowej
sposób przygotowania materiału biologicznego. Oba te zbiory pochodzą z badań nad składem
peptydomu surowicy krwi i poszukiwane w nich były takie same jony peptydowe. Jednak
dla połowy próbek zbioru KRZEPNIĘCIE użyta została inna procedura przechowywania krwi
po pobraniu (dwie godziny wykrzepiania zamiast jednej), która, jak się okazało, spowodowała
znaczące zmiany ich składu peptydowego. Zjawisko to pokazuje ryzyko związane
z wnioskowaniem o różnicach między próbkami bez znajomości sekwencji badanych
peptydów, a tym samym bez możliwości nadania interpretacji biologicznej wynikom.
Przyczyną nieodnalezienia części widm może być również błędne działanie algorytmu
wyszukiwania. Określenie poziomu błędów związanego z procesem ekstrakcji cech nie jest
jednak zadaniem trywialnym, gdyż ten etap przetwarzania danych nie poddaje się łatwo
obiektywnej ocenie. Swego rodzaju paradoksem jest to, że ręczna weryfikacja przez eksperta
jest w zasadnie jedyną w pełni wiarygodną metodą oceny działania algorytmu, którego
zadaniem jest właśnie uwolnienie badacza od konieczności ręcznego wyszukiwania widm.
Wyniki tego rodzaju weryfikacji, dokonanej przez mgr Magdalenę Bakun z Instytutu
Biochemii i Biofizyki PAN zamieszczone zostały w tabeli 6.5. Za błędy uznawane były
wszystkie przypadki niezgodności rezultatów wyszukiwania z opinią weryfikującego,
włączając w to również takie, w których prawidłowa identyfikacja jest praktycznie
niemożliwa dla algorytmu działającego na poziomie pojedynczej próbki. Do tych ostatnich
można zaliczyć np. jony charakteryzujące się w konkretnej próbce małą liczbą zliczeń
i słabym dopasowaniu, o pozycji których można wnioskować dopiero na podstawie
porównania z widmami mas innych próbek.
Uzyskane wyniki pokazują zależność liczby błędów od stopnia skomplikowania
badanych próbek. Nie może to dziwić, zważywszy, że główną przyczyną błędów były niskie
wartości dopasowania dla widm maskowanych przez intensywne piki pochodzące z obwiedni
innych jonów peptydowych. W próbkach zawierających jedynie ograniczony zestaw
peptydów (zbiór 7BIAŁEK) sytuacje takie występują rzadko, w efekcie czego liczba błędów
jest wyraźnie mniejsza. Niestety, rzetelna ocena skuteczności proponowanego algorytmu nie
jest w pełni możliwa, gdyż w znanej autorowi literaturze zagadnienia związane z oceną
poprawności działania prezentowanych rozwiązań są zwykle pomijane.
105
6.5. Przetwarzanie danych liczbowych
6.5.1. Imputacja brakujących wartości
Zaprezentowany w rozdziale 5.5.2 zmodyfikowany algorytm K najbliższych sąsiadów
(określany w dalszej części jako KNNC) porównany z został z czterema innymi metodami
imputacji brakujących wartości: zastąpieniem średnią wiersza (RMEAN), algorytmem
Expectation Maximization [173] (EM), oryginalną wersją algorytmu najbliższych sąsiadów,
która tworzy sąsiedztwo na podstawie odległości Euklidesa [170] (KNNE) oraz metodą
wykorzystującą rozkład macierzy danych na wartości szczególne [170] (SVD, opis tej metody
zamieszczony został w punkcie 8.2.1 Dodatku).
Testy wykonane zostały dla czterech zbiorów danych, poddanych wcześniejszej
filtracji, w wyniku której pozostały w nich jedynie wiersze macierzy danych mające
prawidłowo zmierzone wartości ekspresji w co najmniej 70% próbek. Dwa zbiory
(KRZEPNIĘCIE i SUROWICA) pochodzą z badań nad peptydomem, podczas gdy w dwóch
pozostałych (OSOCZE i OSOCZEMIX) peptydy powstały w wyniku trawienia białek. Podział
ten jest o tyle istotny, że zbiory danych z badań białek charakteryzują się większą korelacją
pomiędzy grupami cech (peptydami tego samego białka), co może mieć wpływ na
skuteczność porównywanych metod. Dla każdego zbioru danych określona została zależność
procentu brakujących wartości od średniego poziomu ekspresji w wierszach macierzy danych.
Następnie, na podstawie kompletnych wierszy każdego zbioru danych wygenerowano po 100
zbiorów testowych o zadanym procencie (równym 1, 5, 10, 15, 20) brakujących wartości,
utworzonych w sposób losowy, ale z zachowaniem wspomnianej uprzednio zależności.
Przykładowa postać tej zależności pokazana została na rysunku 6.13.b, podczas gdy rysunek
6.13.a przedstawia rozkład wartości ekspresji po filtracji.
Podstawą porównania metod był znormalizowany błąd średniokwadratowy (NRMSE
– Normalized Root Mean Squared Error), wyznaczany jako:

NR
1
 x i − x i 2
∑
N R i =1
,
NRMSE=
x

(6.1)
gdzie xi i x i to odpowiednio rzeczywiste i zrekonstruowane poziomy ekspresji NR sztucznie
utworzonych brakujących wartości, a x jest wartością średnią rzeczywistych poziomów
106
ekspresji. Dla badanych zbiorów danych udział brakujących wartości po filtracji wahał się od
2,13% do 7,46%, dlatego też do głównego porównania, którego wyniki przedstawione zastały
w tabeli 6.6, wybrano zbiory testowe zawierające 5% brakujących wartości. Podane w tabeli
wartości są średnimi dla 100 zbiorów testowych. Zależność wartości średnich NRMSE od
procentu brakujących wartości dla przykładowego zbioru danych (SUROWICA) pokazano na
rysunku 6.14.a. Dla tego samego zbioru, na rysunku 6.14.b przedstawione zostały rozkłady
błędów rekonstrukcji poszczególnych metod przy 5% udziale brakujących wartości.
Tab. 6.6. Porównanie wartości średnich i odchyleń standardowych NRMSE uzyskiwanych przez porównywane
metody imputacji brakujących wartości. Wiersze zaznaczone na szaro zawierają charakterystykę zbiorów danych
po filtracji
KRZEPNIĘCIE
SUROWICA
OSOCZE
OSOCZEMIX
Liczba wierszy po filtracji
667
1156
762
882
Liczba kompletnych wierszy
402
693
470
750
7,46%
4,44%
5,66%
2,13%
KNNC
0,0310 (0,0036)
0,0298 (0,0006)
0,0297 (0,0027)
0,0466 (0,0028)
KNNE
0,0328 (0,0021)
0,0381 (0,0011)
0,0318 (0,0033)
0,0377 (0,0029)
RMEAN
0,0484 (0,0024)
0,0676 (0,0014)
0,0518 (0,0026)
0,0948 (0,0047)
EM
0,0313 (0,0025)
0,0312 (0,0012)
0,0306 (0,0030)
0,0398 (0,0044)
SVD
0,0326 (0,0024)
0,0431 (0,0013)
0,0356 (0,0030)
0,0563 (0,0042)
Procent brakujących wartości
a)
b)
Rys. 6.13. Zbiór danych SUROWICA po filtracji brakujących wartości: a) rozkład wartości ekspresji cech; b)
zależność procentu brakujących wartości od średniego poziomu ekspresji cech w wierszach macierzy danych
107
a)
b)
Rys. 6.14. Wyniki porównania skuteczności metod imputacji brakujących wartości dla zbioru danych
SUROWICA: a) zależność wartości NRMSE od procentu brakujących wartości; b) rozkład błędów imputacji
(wyrażonych w procentach rzeczywistej wartości) dla przypadku 5% brakujących wartości w zbiorze danych
Dla trzech z czterech badanych zbiorów danych można było zaobserwować
następującą zależność: największe wartości błędu były efektem zastąpienia brakujących
wartości średnią wiersza, zdecydowanie lepsze i dość zbliżone rezultaty uzyskały metody
KNNE oraz SVD, zaś najlepiej wypadły metody KNNC i EM, przy czym ta pierwsza miała
nieznaczną przewagę. Co ważne, relacje te były zachowane również przy wzrastającym
procencie brakujących wartości, jako że wartości błędów wszystkich porównywanych metod,
za wyjątkiem SVD, nie wykazywały silnej zależności od stopnia niekompletności zbiorów
danych (rysunek 6.14.a).
Brak zasadniczych różnic poziomu błędu imputowanych wartości pomiędzy dwoma
zbiorami z badań peptydomu a proteomicznym zbiorem OSOCZE wskazuje, że leżące
u podstaw metody najbliższych sąsiadów założenie o istnieniu grup cech o podobnych
profilach ekspresji jest spełnione nawet w wypadku gdy peptydy nie są wynikiem trawienia
proteolitycznego białek. Natomiast osobnego omówienia wymaga złożony z powtórzeń
technicznych zbiór danych OSOCZEMIX, dla którego metoda KNNC sprawowała się gorzej nie
tylko od EM, ale także od swego korzystającego z odległości Euklidesa pierwowzoru.
Przyczyną tak słabych wyników było niedostosowanie parametrów metody do specyfiki tego
zbioru danych. Przed rozpoczęciem testów wartości parametrów wszystkich metod zostały tak
dobrane aby zminimalizować uzyskiwany przez nie błąd uśredniony po wszystkich zbiorach
108
danych. Dla KNNC oznaczało to wybór stosunkowo dużego, bo równego 20, maksymalnego
rozmiaru sąsiedztwa oraz wynoszącej 0,8 minimalnej wymaganej wartości współczynnika
korelacji należących do niego profili ekspresji (rysunek 6.15.a). Przy takich parametrach
średnia liczba sąsiadów wynosiła 12 (rysunek 6.15.b), jednak dla zbioru danych, w którym nie
ma grup peptydów o charakterystycznych profilach ekspresji (a z taką sytuacją, niejako
z założenia, mamy do czynienia dla powtórzeń technicznych) próg korelacji przestawał
spełniać swoją rolę i sąsiedztwo zawsze przyjmowało maksymalny rozmiar. Wymuszenie
mniejszego rozmiaru sąsiedztwa prowadziło do spadku błędu, jednak jego wartość nadal była
większa niż dla KNNE. Fakt ten sugeruje, że w szczególnym przypadku powtórzeń
technicznych, odległość Euklidesa jest lepszą podstawą budowania sąsiedztwa.
a)
b)
Rys. 6.15. Wybór parametrów algorytmu K najbliższych sąsiadów: a) zależność NRMSE od progu
współczynnika korelacji (dla współczynnika korelacji równego 0,9, w wypadku części cech nie jest możliwe
zbudowanie otoczenia i imputacja odbywa się przez zastąpienie średnią wiersza, co powoduje wzrost błędu);
b) średnia wielkość sąsiedztwa w zależności od współczynnika korelacji
6.5.2. Normalizacja
Opisana w rozdziale 5.5.3 metoda oparta na ważonej lokalnie regresji LOESS porównana
została z najczęściej używaną w badaniach proteomicznych normalizacją przez liniowe
przeskalowanie wartości oraz z powszechnie stosowaną dla danych mikromacierzowych
nieliniową normalizacją kwantylową [187] (Dodatek, punkt 8.2.2). W przypadku normalizacji
109
liniowej porównane zostały dwa sposoby wyznaczania współczynnika skalującego: jako
całkowitej liczby zliczeń w pełnym widmie próbki lub jako wartości średniej zmierzonych
poziomów ekspresji wszystkich peptydów. Normalizacja LOESS rozpatrywana była zarówno
w wariancie działającym na całym zbiorze peptydów, jak i w wersji z wyborem zbioru
peptydów o niezmiennej ekspresji, nazywanej w dalszej części pracy iLOESS.
W pierwszej kolejności zweryfikowana została zdolność poszczególnych metod do
minimalizacji
różnic
pomiędzy
próbkami
będącymi
powtórzeniami
technicznymi
lub biologicznymi. Zbiory danych, dla których przeprowadzono porównanie zostały tak
wybrane, aby można je było można uszeregować w kolejności wzrastającego stopnia
złożoności. Najprostszy z nich złożony jest ze sztucznie utworzonych próbek zawierających
peptydy pochodzące z trawienia 6 białek o niezmiennych stężeniach (zbiór 7BIAŁEK
z wykluczonymi peptydami białka BSA). Pozostałe trzy zbiory danych pochodzą z badań nad
peptydomem surowicy ludzkiej krwi, poczynając od powtórzeń technicznych pojedynczej
próbki (zbiór danych SUROWICAMIX), przez próbki pobrane i przetwarzane zgodnie ze ściśle
kontrolowanym protokołem od grupy zdrowych osób (zbiór danych KRZEPNIĘCIE, tylko
próbki z poddawane wykrzepianiu przez jedną godzinę), aż po pobrane w warunkach
klinicznych próbki pochodzące od pacjentów ze zdiagnozowanym rakiem jelita grubego
(zbiór SUROWICA, tylko grupa chorych). Przy okazji należy podkreślić, że materiał
biologiczny pobrany z płynów ustrojowych, w tym także surowicy krwi, jest jednym
z najtrudniejszych w analizie ze względu na duże zróżnicowanie osobnicze. Dlatego też
można przyjąć, że wyniki dla prezentowanych tu zbiorów danych stanowią swego rodzaju
oszacowanie najgorszego możliwego przypadku i rozrzuty obserwowane np. dla próbek z linii
komórkowych lub jednorodnych genetycznie organizmów z hodowli laboratoryjnych są
zwykle mniejsze.
Podstawą porównania, którego wyniki zamieszczone są w tabeli 6.7 była wartość
średnia współczynnika zmienności (coefficient of variation) cech w znormalizowanych
zbiorach danych:
V=
N
si
1
,
∑
N i=1 x i
(6.2)
gdzie xi i si to odpowiednio wartość średnia i odchylenie standardowe poziomów ekspresji
(w pierwotnej skali liniowej) i-tej cechy, a N jest liczbą. Zebrane w tabeli wyniki dotyczą
zbiorów danych poddanych procedurze redukcji szumu opisanej w rozdziale 5.5.4.
110
Tab. 6.7. Wyniki porównania metod normalizacji danych dla zbiorów złożonych z powtórzeń technicznych
i biologicznych. Tabela zawiera wartości współczynników zmienności uśrednionych po wszystkich cechach
7BIAŁEK
SUROWICAMIX KRZEPNIĘCIE
SUROWICA
Bez normalizacji
30,13
41,25
51,67
85,10
Skalowanie (całkowita liczba zliczeń)
25,11
33,07
49,19
64,43
Skalowanie (średni poziom ekspresji)
23,89
32,85
45,96
62,52
Normalizacja kwantylowa
22,99
27,33
38,85
55,10
Normalizacja LOESS
18,89
27,14
37,42
54,06
Normalizacja iLOESS
23,69
30,76
37,94
57,16
Na podstawie uzyskanych wyników można stwierdzić, że niezależnie od zbioru
danych, trzy uwzględnione w porównaniu nieliniowe metody normalizacji osiągają lepsze
wyniki od liniowego przeskalowania wartości, przy czym w sposób konsekwentny najlepsze
wyniki osiąga metoda LOESS, a najsłabsze zwykle iLOESS. Nie przekreśla to jednak sensu
używania tej ostatniej, jako że w rzeczywistym celem badawczym zwykle nie jest
porównywanie próbek będących technicznymi bądź biologicznymi powtórzeniami.
W celu sprawdzenia czy duża skuteczność algorytmów działających na całym zbiorze
cech nie jest okupiona zwiększonym ryzykiem „spłaszczenia” faktycznie występujących
pomiędzy próbkami różnic, wykorzystany został ponownie zbiór 7BIAŁEK. Tym razem
jednak oprócz sześciu wcześniej badanych białek o stałej ekspresji, uwzględnione zostały
również peptydy pochodzące z białka BSA, które dodawane było do próbek we wzrastającej
ilości. W tym wypadku użycie normalizacji iLOESS pozwoliło uzyskać największą wartość
kwadratu współczynnika korelacji liniowej (R2 = 0,9984) pomiędzy stężeniem białka a jego
zmierzonym poziomem ekspresji, co zostało pokazane na rysunku 6.16.a. Zjawisko to wynika
z faktu, że peptydy białka BSA stanowiły niemal 25% zbioru danych i w dodatku zmiana ich
poziomu ekspresji miała charakter jednostronny. W efekcie nie były spełnione założenia
konieczne do prawidłowego działania metod wyznaczających parametry normalizacji przy
użyciu wszystkich cech, co prowadziło do fałszywego zmniejszenia różnic w ekspresji
pomiędzy próbkami. Będąca elementem metody iLOESS procedura wyboru cech
o niezmiennej ekspresji powoduje, że peptydy białka BSA nie są uwzględnione podczas
wyznaczania parametrów normalizacji (rysunek 6.16.b), co tłumaczy uzyskanie wyniku
bardziej zgodnego z oczekiwanym.
111
a)
b)
Rys. 6.16. Porównanie nieliniowych metod normalizacji danych dla zbioru danych BSA: a) zależność
zmierzonego poziomu ekspresji białka BSA od ilości, w jakiej było ono dodawane do próbek (zaznaczone
zostały wartości średnie i odchylenia standardowe dla trzech powtórzeń); b) wykres typu scatterplot dla dwóch
próbek różniących się ilością białka BSA (10 i 100 ng) po normalizacj iLOESS. Zielone punkty oznaczają
peptydy z BSA. Czerwonymi trójkątami zaznaczono zbiór peptydów o niezmiennej ekspresji, wybrany jako
podstawa procedury normalizacyjnej
Przedstawione powyżej obserwacje zostały również potwierdzone dla próbek
rzeczywistych, pochodzących z surowicy krwi osób zdrowych. Użyte zostały w tym celu
znakowane syntetyczne peptydy, o sekwencjach takich samych jak sekwencje siedmiu
naturalnie występujących w próbkach peptydów (tabela 6.8), lecz wyznakowanych izotopowo
przez zastąpienie dwóch atomów wodoru przez atomy deuteru w dwóch glicynach. W efekcie
znakowania w pełnym widmie mas próbki można zaobserwować przesunięte wobec siebie
pary widm pochodzących od peptydów naturalnych i ich o 4 Da cięższych syntetycznych
odpowiedników (rysunek 6.17). Przy znajomości stężeń dodawanych do próbek peptydów
syntetycznych, metoda ta pozwala wyznaczyć bezwzględne stężenie naturalnie występujących
w osoczu peptydów poprzez porównanie objętości pików obwiedni po uprzednim ich
rozpleceniu. Co ważne, nie jest w tym wypadku wymagana żadna procedura normalizacyjna,
gdyż porównanie odbywa się w ramach pojedynczej próbki.
W opisany powyżej sposób wyznaczone zostały bezwzględne stężenia peptydów dla
dwóch grup próbek, różniących się czasem wykrzepiania po pobraniu krwi (próbki z obu grup
zbioru KRZEPNIĘCIE). Następnie zostały one porównane z wartościami względnych
poziomów ekspresji (w oryginalnej skali liniowej) tych samych peptydów. Porównanie
112
dotyczyło kwadratu współczynnika korelacji liniowej pomiędzy bezwzględnym stężeniem
a względnymi poziomami ekspresji po normalizacji zbioru danych trzema metodami
nieliniowymi. Zbadane zostały również stosunki wartości średnich (FC – fold change)
pomiędzy próbkami pochodzącymi z porównywanych w tym eksperymencie grup.
Zamieszczone w tabeli 6.8 wyniki porównania wskazują, że również w tym przypadku użycie
metod wyznaczających parametry normalizacji na podstawie wszystkich cech prowadzi do
zaniżonych oszacowań stopnia różnicowania pomiędzy grupami próbek i skutkuje słabszą
korelacją względnych poziomów ekspresji peptydów z ich bezwzględnym stężeniem niż ma
to miejsce dla algorytmu iLOESS.
Rys. 6.17. Para widm mas pochodzących od naturalnego peptydu i jego znakowanego izotopowo odpowiednika
Tab. 6.8. Porównanie metod normalizacji dla zbioru peptydów znakowanych izotopowo. Tabela zawiera wartości
kwadratów współczynników korelacji pomiędzy bezwzględnymi stężeniami peptydów (wyznaczonymi
z użyciem znakowania izotopowego) i ich względną ekspresją, określoną po normalizacji zbioru danych trzema
metodami. Zamieszczone zostały również stosunki wartości średnich stężeń (kolumna „Znakowanie”)
i względnych poziomów ekspresji po normalizacji dla dwóch grup próbek (pozostałe kolumny)
Znakowanie
Kwantylowa
2
LOESS
iLOESS
FC
FC
R
FC
R
FC
R2
ADSGEGDFLAEGGGVR
2,2983
1,9359
0,9019
2,1151
0,9315
2,3011
0,9522
DSGEGDFLAEGGGVR
2,2653
1,9060
0,8993
2,1459
0,9387
2,2313
0,9595
SGEGDFLAEGGGVR
2,0011
1,7041
0,8029
1,6938
0,8765
1,9687
0,8906
GEGDFLAEGGGVR
1,7550
1,4614
0,7928
1,6209
0,7957
1,7689
0,8666
EGDFLAEGGGVR
1,0460
1,0539
0,7239
0,8663
0,5411
1,0361
0,6178
GDFLAEGGGVR
0,8553
0,9313
0,6183
0,8553
0,6088
0,9015
0,8522
DFLAEGGGVR
0,5623
0,6360
0,8662
0,7062
0,8509
0,6427
0,9204
FLAEGGGVR
0,5165
0,6461
0,8446
0,5964
0,8303
0,4993
0,9231
113
2
7. ZAKOŃCZENIE
W rozprawie opisana została metoda umożliwiająca analizę ilościową względnych zmian
ekspresji peptydów i białek w oparciu o dane dostarczane przez system pomiarowy LC-MS
bez konieczności stosowania znakowania izotopami stabilnymi. Zaprezentowana metoda ma
charakter kompleksowy i obejmuje swym zakresem wszystkie konieczne do przeprowadzenia
analizy ilościowej kroki, począwszy od gromadzenia wiedzy o składzie próbek, przez
wykorzystanie jej podczas ekstrakcji cech ilościowych z widm mas, aż do etapu obróbki
mającej na celu poprawę jakości danych sprowadzonych do postaci liczbowej. Podstawową
jej właściwością jest ścisłe powiązanie analizy ilościowej z wynikami analizy jakościowej, co
oznacza, że rozpatrywanymi cechami są tutaj peptydy o znanej sekwencji, nie zaś jony
określone jedynie poprzez swoją masę i czas elucji. Podejście takie z jednej strony umożliwia
nadanie wszystkim badanym cechom jednoznacznej interpretacji biologicznej, z drugiej zaś
pozwala na użycie zawartych w sekwencjach informacji w dalszym przetwarzaniu danych.
Najważniejszymi elementami odróżniającymi zaprezentowaną metodę od spotykanych
w literaturze rozwiązań, zdaniem autora, są:
●
oparcie etapu ekstrakcji wartości liczbowych z pełnych widm mas próbek na
wykorzystaniu teoretycznych modeli widm mas jonów peptydowych. W efekcie
problem ekstrakcji sprowadzony zostaje do wyszukania obszarów widma mas próbki,
w którym modele jonów wykazują największą zgodność z danymi pomiarowymi.
Względnym poziomem ekspresji peptydu staje się w takim wypadku suma objętości
dopasowanych modeli reprezentujących go jonów. W pracy przedstawiono
odpowiedni dwuwymiarowy model widma i zaproponowano autorski algorytm
wyznaczania jego najistotniejszego elementu, którym jest funkcja opisująca obwiednię
izotopową;
●
zaproponowanie nowej, wykorzystującej algorytm genetyczny, metody predykcji
czasów retencji peptydów i wykazanie jej skuteczności w porównaniu ze znanymi
z literatury algorytmami. Zastosowanie predykcji pozwala określić przybliżone
położenia widm mas jonów peptydowych wzdłuż osi czasu retencji w oparciu jedynie
o znajomość sekwencji, bez konieczności sięgania po dodatkowe informacje o czasie
ich sekwencjonowania w przebiegach LC-MS/MS;
114
●
opracowanie algorytmu wyszukiwania widm jonów peptydowych, korzystającego
z wyznaczonych uprzednio modeli oraz efektywnej, dwuwymiarowej reprezentacji
danych w dziedzinie częstotliwości cyklotronowej. Algorytm ten uwzględnia zarówno
charakterystykę przyrządu pomiarowego, jak i możliwość występowania pomiędzy
próbkami różnic w kalibracji osi wartości m/z i obserwowanych czasach retencji. Co
również istotne, jego działanie nie wymaga czynienia założeń dotyczących
zachowania kolejności zajścia peptydów z kolumny chromatograficznej;
●
wprowadzenie do procesu obróbki danych jawnego kroku związanego z eliminacją
brakujących wartości, złożonego z etapów filtracji i imputacji. Wykorzystany na etapie
imputacji, zmodyfikowany przez autora algorytm K najbliższych sąsiadów, jak
pokazały wyniki porównań, przewyższa skutecznością nie tylko swoją pierwotną,
przeznaczoną dla mikromacierzy DNA wersję, ale także inne często stosowane
algorytmy;
●
zaproponowanie nieliniowej metody normalizacji, działającej w oparciu o wybrany
w sposób automatyczny zbiór peptydów, charakteryzujących się małą zmiennością
ekspresji w nieznormalizowanym zbiorze danych. W pracy pokazana została jej
przewaga nad typowo stosowanymi w badaniach proteomicznych metodami
liniowymi oraz fakt, że jej działanie wydaje się być dobrym kompromisem pomiędzy
skutecznością eliminacji wpływu niebiologicznych źródeł rozrzutu a ryzykiem
zatarcia rzeczywistych różnic pomiędzy porównywanymi grupami próbek.
Wybrany jako podstawa metody schemat działania, wykorzystujący w szerokim
zakresie wiedzę jakościową o składzie próbek niesie ze sobą pewne ograniczenia.
W szczególności, na skutek niedoskonałości procesu sekwencjonowania może on prowadzić
do zmniejszenia liczby uwzględnianych podczas analizy ilościowej cech. Tym samym,
kluczowego znaczenia nabierają metody poprawiające skuteczność identyfikacji składu
próbek. Jakkolwiek zagadnienia związane z sekwencjonowaniem nie były podstawowym
celem pracy, zaproponowano w niej pewne rozwiązania, które pomimo swej prostoty
pozwalają zwiększyć liczbę wiarygodnie zidentyfikowanych peptydów i ułatwiają
automatyczną analizę wyników. Należą do nich:
115
●
procedura kalibracji widm MS/MS i szacowania maksymalnych dopuszczalnych
błędów określenia masy. W odróżnieniu od typowo stosowanych rozwiązań, obejmuje
ona swym działaniem nie tylko jony macierzyste, ale także potomne oraz uwzględnia
możliwość występowania zależności błędu od zmierzonej wartości m/z;
●
oparcie wyboru zbioru prawidłowo zidentyfikowanych peptydów na q-wartościach
wyznaczanych przy użyciu zmodyfikowanej miary dopasowania stosowanej przez
system identyfikacji Mascot;
●
użycie algorytmu klasteryzacji hierarchicznej do redukcji redundancji wyników
przeszukania przez grupowanie rodzin białek o dużym stopniu podobieństwa
sekwencji.
Opisywana w rozprawie metoda ma szeroki zakres stosowalności i wykorzystywana
była w szeregu rzeczywistych badań nad ekspresją białek i peptydów, w tym m. in.
dotyczących struktury kompleksów tworzonych przez białko K [179, 180], składu płynów
ustrojowych człowieka (surowicy i osocza krwi [33] oraz moczu [180]), proteomu szczepów
drożdży PSI+ i psi- [181] oraz frakcji synaptosomalnej mózgu myszy transgenicznych
z chorobą Alzheimera [182, 183]. Praktyczne zastosowanie opisywanych algorytmów
ułatwione było przez takie ukierunkowanie prac badawczych, aby ich rozwojowi towarzyszył
rozwój oprogramowania możliwego do zastosowania w laboratorium proteomicznym, a tym
samym spełniającego wymagania w zakresie niezawodności, szybkości przetwarzania oraz
przejrzystości prezentacji danych i wyników analiz. Jego przygotowanie wiązało się
z pokonaniem szeregu trudności – często mało „efektownych” z naukowego punktu widzenia
– związanych zarówno ze złożonością samych danych, jak i koniecznością dostosowania
oprogramowania do obsługi przez użytkowników o bardzo zróżnicowanym poziomie wiedzy
z zakresu spektrometrii mas. Za duże swoje osiągnięcie autor uważa więc fakt, że jest ono
obecnie rutynowo stosowane w Środowiskowym Laboratorium Mas Instytutu Biochemii
i Biofizyki PAN oraz Klinice Gastroenterologii Centrum Onkologii w Warszawie, a dalszy
jego rozwój odbywa się w ramach grantu badawczo rozwojowego prowadzonego we
współpracy z tymi ośrodkami.
Na zakończenie należy podkreślić, że jakkolwiek opisana tutaj metoda może być
traktowana jako pewna zamknięta całość, autor uznaje jej obecny stan raczej jako punkt startu
dla dalszych prac, mających na celu zarówno doskonalenie już istniejących elementów, jak
116
i wprowadzenie nowych. Pełny opis planowanych zmian przekraczałby objętość tego
rozdziału, dlatego też poruszone zostaną jedynie wybrane zagadnienia.
Oczywistym kierunkiem rozwoju jest przystosowanie metody do badań z użyciem
znakowania izotopami stabilnymi, co, dzięki jej modułowej strukturze, jest zadaniem
relatywnie prostym, wymagającym jedynie modyfikacji w obrębie funkcji opisującej
obwiednię izotopową widm jonów peptydowych. Nieznaczne zmiany tego samego elementu
modelu powinny również umożliwić skuteczne działanie metody dla danych pochodzących ze
spektrometrów o średniej rozdzielczości typu Q-TOF.
Pozostając w zakresie zagadnień związanych z modelami widm jonów peptydowych
można stwierdzić, że pewien niedosyt pozostawiają rezultaty osiągane przez opisany w pracy
algorytmu predykcji czasów retencji. Wprawdzie, jak zostało to pokazane w rozdziale 6.3.1,
przewyższa on wybrane metody referencyjne, ale wydaje się, że możliwe będzie dalsze
zwiększenie jego skuteczności poprzez uwzględnienie w modelu hydrofobowości
dodatkowych czynników, takich jak np. wpływ C-końcowego fragmentu sekwencji czy też
skłonność peptydów do tworzenia struktur drugorzędowych. Ciekawym kierunkiem prac
może być również wykorzystanie predykcji czasów retencji do wyszukiwania widm jonów
reprezentujących peptydy pochodzące z tych fragmentów sekwencji zidentyfikowanych
białek, które nie zostały pokryte w wyniku sekwencjonowania. Aby uniknąć konieczności
stosowania metody zachłannej, polegającej na szukaniu jonów wszystkich możliwych
peptydów tryptycznych, predykcja powinna w tym wypadku obejmować również zależność
pomiędzy sekwencją aminokwasów a efektywnością jonizacji (czyli pośrednio –
prawdopodobieństwem rejestracji peptydu przez spektrometr).
Bez wątpienia jednak największe znaczenie dla dalszego rozwoju metody będą miały
prace skupiające się nad poprawą skuteczności etapu gromadzenia wiedzy o charakterze
jakościowym a, w efekcie, zwiększeniem liczby uwzględnianych podczas analizy ilościowej
cech. W tym zakresie obiecujące wydają się wyniki prowadzonych przez mgr. Lecha
Raczyńskiego z Instytutu Radioelektroniki PW badań nad mechanizmem fragmentacji
peptydów. Dzięki nim możliwe będzie stworzenie dokładniejszego modelu widm MS/MS,
pozwalającego identyfikować peptydy o nietypowych wzorach fragmentacji.
117
8. DODATEK
8.1. Rozszerzenia modelu widma mas peptydu
8.1.1. Wyznaczanie pełnego rozkładu izotopowego
Jakkolwiek ze względu na ograniczoną rozdzielczość stosowanego spektrometru nie jest to
obecnie wykorzystywane podczas wyznaczania modelu widma peptydu, rozszerzona wersja
algorytmu zaprezentowanego w rozdziale 5.3.2 umożliwia również wyznaczenie składu
(a tym samym – dokładnej masy i prawdopodobieństwa wystąpienia) wszystkich odmian
izotopowych tworzących piki sumaryczne.
Każda odmiana izotopowa jest reprezentowana w postaci wektora składu, którego
elementy Kij oznaczają liczby atomów i-tego pierwiastka znajdujących się w j-tym stanie
izotopowym:
[ K 11, K 12,  , K 1 I ; K 21, K 22,  , K 2 I ;] .
1
(8.1)
2
W obecnej implementacji wektor ten uwzględnia izotopy stabilne wodoru (1H, 2H), węgla
(12C, 13C), azotu (14N, 15N), tlenu (16O, 17O, 18O) i siarki (32S, 33S, 34S, 35S), czyli pierwiastków
wchodzących w skład aminokwasów tworzących białka oraz dodatkowo często występujący
w modyfikacjach potranslacyjnych fosfor (31P). Tak więc najlżejsza odmiana izotopowa
cząstki o składzie chemicznym C254H377N65O75S6 reprezentowana jest 14-elementowym
wektorem o postaci [ 254, 0 ; 377, 0 ; 65, 0 ; 75, 0, 0 ; 0 ; 6, 0, 0, 0 ].
Dysponując składem chemicznym odmiany izotopowej, jej masę Mk oraz
prawdopodobieństwo pk wystąpienia można wyznaczyć z zależności:
M k =K 11 M 11K 1 I M 1 I K 21 M 21 K 1 I m1 I  ,
1

pk =
N1 !
p11K ⋯ p 1 I
K 11 ! ⋯K 1 I !
1
K 1I
11
1
1
1
2

N 2!
p 21K ⋯ p 2 I
K 21 ! ⋯K 2 I !
K 2I
21
2
(8.2)
2
1
2

⋯ .
(8.3)
W celu wyznaczenia dokładnego rozkładu izotopowego cząstki, jej odmiany
grupowane są, zgodnie z całkowitą liczbą nukleonów, w listy powiązane z odpowiednimi
pikami sumarycznymi. Lista odmian izotopowych k-tego piku sumarycznego jest
aktualizowana w trakcie splotu podczas wyznaczania wartości prawdopodobieństwa jego
występowania (por. wzór 5.15 w rozdziale 5.3.2), przy czym operacja mnożenia zastępowana
jest tutaj utworzeniem nowej odmiany izotopowej na podstawie dwóch istniejących, poprzez
118
zsumowanie ich wektorów składu, a operacji sumowania odpowiada dodanie do listy piku
nowej odmiany izotopowej. Przetwarzaniu w następnej iteracji poddawane są jedynie listy
związane z pikami sumarycznymi, które nie zostały wyeliminowane w kroku przycinania.
Zastosowanie progu prawdopodobieństwa pików sumarycznych jest w tym przypadku
konieczne, gdyż bez niego algorytm staje się odpowiednikiem algorytmu wielomianowego.
Należy jednak zwrócić uwagę, że przycinanie dotyczy pików sumarycznych, a nie pików
poszczególnych odmian izotopowych. W efekcie usuwane są wszystkie odmiany izotopowe
związane z nieobserwowalnymi pikami sumarycznymi o znikomym prawdopodobieństwie,
podczas gdy listy odmian izotopowych najbardziej nas interesujących głównych pików
pozostają kompletne.
8.1.2. Wyznaczanie przybliżonego rozkładu izotopowego bez znajomości sekwencji
Dla peptydu o nieznanej sekwencji nie jest możliwe wyznaczenie dokładnej obwiedni
izotopowej. Istnieje jednak możliwość jej oszacowania na podstawie znanej masy
monoizotopowej, korzystając z założenia, że peptydy o zbliżonych masach powinny
charakteryzować się podobnym składem chemicznym. Oznacza to, że nieznana skład
aminokwasowy peptydu może być zastąpiony pewną liczbą cząstek „sztucznego”
aminokwasu, którego skład chemiczny jest średnią składów rzeczywistych aminokwasów
ważoną przez częstotliwość ich występowania w bazie danych sekwencji białkowych.
Przykładem takiego modelowego aminokwasu jest zaproponowany w [45] i wykorzystywany
również w niniejszej pracy averagine, o masie średniej 111,1254 Da i składzie chemicznym
C4,9384H7,7583N1,3577O1,4773S0,04417. Przy znanej masie averagine możliwe jest się określenie liczby
jego cząstek potrzebnych do zbudowania peptydu o zadanej masie monoizotopowej.
Przybliżony skład chemiczny peptydu otrzymuje się przez pomnożenie liczby cząstek
averagine przez liczby atomów każdego z tworzących go pierwiastków (z zaokrągleniem do
najbliższej wartości całkowitej). Ostatnim krokiem jest uzupełnienie różnicy w masie przez
dodanie odpowiedniej liczby atomów wodoru. Uzyskany w ten sposób przybliżony skład
chemiczny staje się podstawą do oszacowania obwiedni izotopowej.
Położenie widm wzdłuż osi czasu retencji dla peptydów o nieznanej sekwencji nie
może być określone za pomocą algorytmu predykcji, dlatego też w ich przypadku konieczne
jest bezpośrednie użycie informacji o czasie sekwencjonowania w przebiegach LC-MS/MS.
119
8.2. Wybrane metody referencyjne
8.2.1. Normalizacja kwantylowa
Zaproponowana przez grupę Terry'ego Speeda [187] normalizacja kwantylowa (quantile
normalization) jest obecnie najpowszechniej wykorzystywaną metodą normalizacji danych
pochodzących z mikromacierzy DNA. Stanowi ona element dwóch najpopularniejszych miar
ekspresji genów: RMA (Robust Multiarray Average) [188] i jej udoskonalonej wersji
GC-RMA [189]. Jest to nieparametryczna metoda opierająca swe działanie na założeniu, że
zmierzone wartości ekspresji we wszystkich próbkach pochodzą z tego samego rozkładu.
Obserwowane odstępstwa od tego rozkładu są traktowane jako artefakty wynikające
z niedoskonałości procedury pomiarowej. Tym samym celem normalizacji jest doprowadzenie
do sytuacji, w której wartości każdej z kolumn macierzy danych X miały ten sam rozkład, co
jest osiągane za pomocą następującej procedury:
●
wartości w poszczególnych kolumnach macierzy X są sortowane, w efekcie czego
powstaje macierz Xs;
●
wszystkie elementy w i-tym wierszu macierzy Xs są zastępowane wartością średnią
tego wiersza;
●
znormalizowana macierzy danych otrzymywana jest przez przywrócenie pierwotnego
uporządkowania (takiego jak w wyjściowej macierzy X) wartościom w kolumnach
powstałej w poprzednim kroku macierzy X's.
8.2.2. Imputacji brakujących przy użyciu rozkładu na wartości szczególne
W tej metodzie imputacji wykorzystywany jest rozkład macierzy danych X na wartości
szczególne, w postaci:
X = U ⋅ Σ ⋅VT ,
(8.4)
gdzie Σ jest diagonalną macierzą o rzeczywistych, nieujemnych i uporządkowanych
niemalejąco elementach, będących wartościami szczególnymi macierzy X, a U i V są
ortonormalnymi macierzami, których kolumnami są, odpowiednio, lewo- i prawostronne
wektory szczególne macierzy X [177].
120
Aby wyznaczyć brakującą wartość i-tej cechy w j-tej próbce macierzy danych X,
wykonywana jest liniowa regresja wielokrotna wobec K prawostronnych wektorów
szczególnych odpowiadających największym wartościom szczególnym. Otrzymane w ten
sposób współczynniki służą następnie do wyznaczenia brakującej wartości jako kombinacji
liniowej K wektorów szczególnych. Ponieważ rozkład SVD może być policzony tylko dla
kompletnych macierzy, początkowo brakujące wartości są zastępowane średnimi wierszy.
Ostateczne estymaty dla brakujących wartości otrzymywane są przez iteracyjne powtarzanie
opisanej wcześniej procedury, aż do osiągnięcia spadku różnicy średniokwadratowej
pomiędzy wartościami imputowanymi w kolejnych iteracjach poniżej pewnego progu [170].
8.3. Oprogramowanie
8.3.1. MascotScan – przetwarzanie wyników identyfikacji składu próbek
Danymi wejściowymi dla programu są wyniki sekwencjonowania generowane przez system
Mascot firmy MatrixScience. Możliwy jest odczyt danych zapisanych w oryginalnym
formacie Mascota oraz, co jest unikalną cechą, raportów zapisanych w postaci plików HTML.
Sposób reprezentacji danych w programie oraz jego interfejs graficzny zostały tak
zaprojektowane, aby umożliwiały łatwe porównywanie i łączenie informacji pochodzących
z wielu próbek, co jest bardzo problematyczne w wypadku posługiwania się pierwotną
postacią wyników. Użytkownik ma dostęp do wszystkich określanych przez system Mascot
parametrów
zidentyfikowanych
sekwencji
oraz
możliwość
wyznaczenia
szeregu
dodatkowych, takich jak: stopień pokrycia białek i ich teoretyczny podział przez wybrany
enzym proteolityczny, punkt izoelektryczny czy hydrofobowość. Może również w szerokim
zakresie wpływać na sposób prezentacji danych poprzez definiowanie podziału próbek na
grupy odzwierciedlające różne warunki eksperymentalne, a także wybór sposobu
formatowania i porządkowania list zidentyfikowanych peptydów i białek.
Zaimplementowane w programie funkcje filtracji pozwalają wyeliminować peptydy
niespełniające wymaganych kryteriów w zakresie jakości identyfikacji, błędu określenia
masy, odstępstwa od przewidywanego czasu retencji, częstości występowania oraz szeregu
innych parametrów. Analiza wiarygodności zidentyfikowanych sekwencji może być oparta na
wyznaczanej przez system Mascot wartości score, jak i wykorzystywać wyniki przeszukania
121
bazy danych zawierającej odwrócone bądź randomizowane sekwencji aminokwasowe.
Dostępny w programie interfejs sieciowy pozwala na łączenie się z ogólnodostępnymi
bazami w celu uzyskania dodatkowych informacji o badanych białkach oraz ściągnięcia ich
sekwencji. W sposób bezpośredni obsługiwane są bazy danych NCBI, SwissProt oraz SGD.
Dzięki zastosowaniu mechanizmu tłumaczenia pomiędzy identyfikatorami możliwe jest
korzystanie ze wszystkich wymienionych baz, niezależnie od tego, która z nich była używana
przez system Mascot przy przeszukiwaniu próbek. Pochodzące z baz danych informacje
o sekwencji są wykorzystywane m. in. podczas redukcji redundancji wyników identyfikacji
poprzez klasteryzację białek wykazujących duży stopień identyczności.
Program umożliwia również dostęp do pełnych widm mas próbek, jednak w obecnej
wersji nie jest bezpośrednio odpowiedzialny za przeprowadzenie analizy ilościowej bez
znakowania. Wspiera ją jednak poprzez generację modeli widm mas jonów peptydowych,
będących parametrami wejściowymi algorytmu ekstrakcji wartości liczbowych, będącego
elementem programu MSparky (opis w punkcie 8.3.2).
MascotScan zrealizowany jest w języku programowania Java i przygotowany do
działania na jedno- i wieloprocesorowych stacjach roboczych pracujących pod systemami
operacyjnymi Windows, GNU/Linux oraz MacOS X. Program, podobnie jak i pozostałe tutaj
prezentowane, dostępny jest pod adresem http://www.ire.pw.edu.pl/~trubel.
8.3.2. MSparky – przetwarzanie pełnych widm mas próbek
MSparky jest zmodyfikowaną przez autora rozprawy wersją, przeznaczonego do analizy
danych pochodzących ze spektroskopii NMR programu Sparky [190]. Głównymi zaletami
tego programu są: wysoka jakość wizualizacji danych oraz zintegrowany interfejs
skryptowego języka Python, który umożliwił przystosowanie go do pracy z danymi
spektrometrycznymi i implementację opisywanych w pracy algorytmów ich przetwarzania.
Danymi wejściowymi dla programu są dwuwymiarowe widma mas w formacie UCSF.
Konwersja z formatu zapisu stosowanego przez producenta spektrometru odbywa się za
pomocą oprogramowania opracowanego przez dr. hab. Jarosława Poznańskiego z Instytutu
Biochemii i Biofizyki PAN. Program umożliwia pracę zarówno z opisywaną w rozdziale 5.4.1
reprezentacją danych w dziedzinie częstotliwości rezonansowej, jak i z widmami mas w
dziedzinie m/z. W tym drugim przypadku stosowana jest kwantyzacja osi wartości m/z,
122
z domyślną szerokością przedziałów 0,02 Da (kwantyzacja wykonywana jest na etapie
konwersji formatu zapisu danych). Z punktu widzenia użytkownika różnica pomiędzy obiema
reprezentacjami nie jest bezpośrednio widoczna, gdyż translacja współrzędnych odbywa się
na poziomie wewnętrznych funkcji programu.
MSparky jest odpowiedzialny za kluczowy dla analizy ilościowej etap ekstrakcji
wartości liczbowych z pełnych widm mas próbek, realizowany przez przedstawiony
w rozdziale 5.4.2 algorytm wyszukiwania. Niezbędne do jego działania modele widm jonów
peptydowych są importowane z programu MascotScan (opis w punkcie 8.3.2). Wyniki
wyszukiwania są dostępne dla użytkownika w postaci list zawierających wyznaczone
wartości ekspresji, pozycję widm oraz parametry świadczące o jakości dopasowania. Ponadto
są one również nanoszone na reprezentację graficzną danych w postaci przypisanych widmom
jonów etykiet zawierających sekwencje (por. rys. 6.12). Ta ostatnia cecha ma szczególne
znaczenie podczas weryfikacji wyników działania algorytmu.
Program udostępnia również pewne podstawowe funkcje związane z przetwarzaniem,
wizualizacją i analizą liczbowych wartości ekspresji (m. in. normalizacja, wykresy typu
scatterplot, selekcja peptydów i białek różnicujących), jednak zdecydowanie większymi
możliwościami w tym zakresie dysponuje omawiany dalej program ShowArray.
8.3.3. ShowArray – przetwarzanie danych w postaci liczbowej i analiza statystyczna
Opisane w rozprawie metody przetwarzania danych liczbowych zaimplementowane zostały
w pracującym w środowisku Matlab programie ShowArray. Jego dość egzotyczna jak na
proteomikę nazwa wynika za faktu, że program ten początkowo był przeznaczony do analizy
danych pomiarów wykorzystujących mikromacierze DNA (został on użyty w szeregu
rzeczywistych badań transkryptomicznych, w tym m. in. nad zmianami ekspresji genów
w odmianach choroby refluksowej [191, 192]), a dopiero później przystosowany do danych
pochodzących ze spektrometrii mas.
Większość dostępnych w ShowArray funkcji dotyczy analizy statystycznej oraz
wizualizacji wielowymiarowych zbiorów danych, czyli zagadnień które nie są bezpośrednio
związane z tematem niniejszej rozprawy. Dlatego też w tym przypadku prezentacja zostanie
ograniczona do wymienienia w punktach głównych możliwości programu:
●
filtracja i imputacja brakujących wartości (KNN, SVD, EM i inne, prostsze metody);
123
●
filtracja, zmiana skali i normalizacja cech (standaryzacja, wybielanie, median polish);
●
normalizacja próbek za pomocą metod liniowych (skalowanie, regresja liniowa) bądź
nieliniowych (LOWESS, LOESS, iLOESS, wyrównywanie kwantyli);
●
selekcja cech różnicujących przy użyciu jedno- i wielowymiarowych testów
statystycznych, zarówno parametrycznych, jak i nieparametrycznych. W przypadku
testów jednowymiarowych
możliwa jest korekcja pod kątem wielokrotności
testowania poprzez kontrolę poziomu FDR (False Discovery Rate) lub FWER
(FamilyWise Error Rate);
●
analiza składowych głównych i niezależnych;
●
klasteryzacja danych: hierarchiczna, K-średnich, PAM (Partitioning Around Medoids),
Jarvisa-Patricka lub przy użyciu algorytmu genetycznego;
●
wizualizacja pojedynczych wartości cech i całego zbioru danych, w tym m. in.:
rzutowanie na płaszczyznę rozpiętą przez wybrane składowe główne, obrazowanie
macierzy korelacji próbek i cech, histogramy, wykresy typu scatterplot i boxplot.
124
9. SPIS SKRÓTÓW I OZNACZEŃ
Skróty użyte w pracy:
2D-DIGE
Two-dimensional Difference Gel Electrophoresis, dwuwymiarowa elektroforeza różnicowa.
ACN
Acetonitryl.
AMT
Accurate Mass and Time, metoda analizy ilościowej bez znakowania izotopowego.
ANN
Artificial Neural Network, sztuczna sieć neuronowa.
API
Atmospheric Pressure Ionization, jonizacja pod ciśnieniem atmosferycznym.
ARS
Accelerated Random Search, algorytm przyspieszonego losowego przeszukiwania.
BSA
Bovine Serum Albumin, bydlęca albumina (białko występujące w osoczu krwi).
CID
Collision Inducted Disocciation, metoda fragmentacji peptydów.
COW
Correlation Optimized Warping, metoda dopasowywania skali czasów retencji widm LC-MS.
CPM
Continous Profile Models, metoda dopasowywania skali czasów retencji widm LC-MS.
DDA
Data Dependent Acvisition, akwizycja zależna od danych.
DTW
Dynamic Time Warping, algorytm dopasowywania serii czasowych.
EA
Evolutionary Algorithm, algorytm ewolucyjny.
EM
Expectation Maximization, algorytm wyznaczania estymatorów największej wiarygodności.
EMG
Exponentially Modified Gauss, wykładniczo zmodyfikowana funkcja Gaussa.
ESI
Electrospray Ionisation, jonizacja przez elektrorozpylanie.
FAB
Fast Atom Bombardment, jonizacja przez bombardowanie szybkimi atomami.
FDR
False Discovery Rate, wartość oczekiwana stosunku liczby nieprawidłowo odrzuconych
hipotez zerowych do wszystkich odrzuconych.
FFT
Fast Fourier Transform, szybki algorytm wyznaczania transformaty Fouriera.
FT-ICR
Fourier Transform Ion Cyclotron Resonance, analizator cyklotronowego rezonansu jonowego
z transformacją Fouriera.
FWHM
Full Witdh at Half Maximum, szerokość piku w połowie jego wysokości.
GC
Gas Chromatography, chromatografia gazowa.
GC-MS
Gas Chromatography – Mass Spectrometry, technika analityczna wykorzystująca połączenie
spektrometrii mas z chromatografią gazową.
HMM
Hidden Markov Model, ukryty model Markowa.
HPLC
High Performance Liquid Chromatography, wysokosprawna chromatografia cieczowa.
ICR
Ion Cyclotron Resonance, analizator cyklotronowego rezonansu jonowego
KLT
Karhunen-Loève Transform, transformata Karhunena-Loèvego.
KNN
K Nearest Neighbours, w pracy skrót używany jest jako nazwa metody imputacji brakujących
wartości.
LC
Liquid Chromatography, chromatografia cieczowa.
125
LC-MS
Liquid Chromatography – Mass Spectrometry, technika analityczna wykorzystująca połączenie
spektrometrii mas z chromatografią cieczową.
LDI
Laser Desorption Ionization, jonizacja przez desorpcję laserową
LTQ
Linear Trap Quadrupole, liniowa pułapka jonowa, rodzaj analizatora.
MALDI
Matrix Assisted Laser Desorption/Ionization, jonizacja przez desorpcję laserową w matrycy.
MMD
Maximum Mass Deviation, maksymalny błąd określenia masy.
MOWSE
MOlecular Weight Search, algorytm identyfikacji peptydów będący podstawą systemu Mascot.
MS
Mass Spectrometry, spektrometria mas.
MS/MS
tandemowa spektrometria mas.
NCBI
National Center for Biotechnology, w pracy skrót jest używany w jako nazwa największej bazy
danych sekwencji aminokwasowych.
NET
Normalized Elution Time, znormalizowany czas retencji.
NMR
Nuclear Magnetic Resonance, magnetyczny rezonans jądrowy.
NRMSE
Normalized Root Mean Squared Error, znormalizowany błąd średniokwadratowy.
PLS
Partial Least Squares, metoda cząstkowych najmniejszych kwadratów.
PMF
Peptide Mass Fingerprinting, metoda identyfikacji białek na podstawie pomiaru mas peptydów
powstałych w wyniku ich podziału przez enzym proteolityczny.
PSM
Peptide Spectrum Match, widmo fragmentacyjne z przypisaną sekwencją.
Q
Quadrupole, kwadrupol.
QIT
Quadrupole Ion Trap, kwadrupolowa pułapka jonowa, rodzaj analizatora.
Q-TOF
Quadrupole – Time of Flight, rodzaj tandemowego spektrometru mas.
RANSAC
RANdom SAmple Consensus, algorytm wyznaczania parametrów modelu na podstawie danych,
w których występuje duża liczba punktów odstających.
RP
Resolving Power, rozdzielczość analizatora.
RP-HPLC
Reversed Phase HPLC, HPLC w układzie odwróconej fazy.
RT-PCR
Real Time – Polymerase Chain Reaction, reakcja łańcuchowa polimerazy z analizą ilości
produktu w czasie rzeczywistym (technika badania ekspresji genów).
SGD
Saccharomyces Genome Database, baza danych zawierająca sekwencje białek wchodzących
w skład proteomu drożdży.
SVD
Singular Value Decomposition, rozkład macierzy na wartości szczególne.
THRASH
Thorough High Resolution Analysis of Spectra by Horn, metoda deizotopozacji widm mas.
TIC
Total Ion Current, chromatogram całkowitego prądu jonowego.
TOF
Time of Flight, analizator czasu przelotu.
126
Ważniejsze oznaczenia użyte w pracy:
Ag
współczynnik opisujący liniowy wzrost udziału acetonitrylu w fazie ruchomej HPLC.
cP(t)
chromatogram łączny – funkcja wskazująca potencjalne położenia widma jonu peptydowego
wzdłuż osi czasu retencji.
e
ładunek elementarny.
F
procent identyczności pary białek wyznaczony po globalnym dopasowaniu ich sekwencji.
FKmer
przybliżony procent identyczności pary białek wyznaczony na podstawie wspólnych K-merów.
P
f (m/z)
P
funkcja opisująca kształt obwiedni izotopowej widma jonu peptydowego.
g (t)
funkcja opisująca profil elucji widma jonu peptydowego.
LP
długość sekwencji peptydu.
H
hydrofobowość peptydu.
m
masa względna (odniesionej do 1Da).
mP
wartość m/z odpowiadająca pikowi monoizotopowemu widma jonu peptydowego.
m/z
stosunek masy względnej jonu do jego stopnia naładowania.
MHT
wartość progu istotności score MIT.
MIT
wartość progu istotności score MHT.
MMT
mniejsza z wartości MIT i MHT.
MMDMS
wartość MMD dla jonów macierzystych.
MMDMS/MS
wartość MMD dla jonów potomnych.
P
M
masa monoizotopowa peptydu.
Mp
masa protonu.
mscore
wartość score zmodyfikowana przez odjęcie progu MMT.
mscoreB
miara jakości identyfikacji białek.
Rc
współczynnik retencji.
RP
rozdzielczość analizatora.
P
S
sekwencja peptydu.
score
miara jakości identyfikacji stosowana przez system Mascot.
tg
opóźnienie gradientu acetonitrylu w HPLC.
tr
czas retencji (elucji).
W
macierz pełnego widma mas próbki.
X
macierz danych.
z
stopień naładowania jonu (liczba niesionych przez niego ładunków).
ξ
K-mer (subsekwencja złożona z K reszt aminokwasowych).
127
Tab. 9.1. Nazwy, symbole, masy monoizotopowe1 i skład chemiczny reszt aminokwasowych.
Aminokwas
Symbol
Masa
Skład chemiczny
Alanina
Ala (A)
71,037114
C3H5NO
Arginina
Arg (R)
156,101111
C6H12N4O
Asparagina
Asn (N)
114,042927
C4H6N2O2
Cysteina
Cys (C)
103,009185
C3H5NOS
Fenyloalanina
Phe (F)
147,068414
C9H9NO
Glicyna
Gly (G)
57,021464
C2H3NO
Glutamina
Gln (Q)
128,058578
C5H8N2O2
Histydyna
His (H)
137,058912
C6H7N3O
Izoleucyna
Ile (I)
113,084064
C6H11NO
Kwas asparaginowy
Asp (D)
115,026943
C4H5NO3
Kwas glutaminowy
Glu (E)
129,042593
C5H7NO3
Leucyna
Leu (L)
113,084064
C6H11NO
Lizyna
Lys (K)
128,094963
C6H12N2O
Metionina
Met (M)
131,040485
C5H9NOS
Prolina
Pro (P)
97,052764
C5H7NO
Seryna
Ser (S)
87,032028
C3H5NO2
Treonina
Thr (T)
101,047679
C4H7NO2
Tryptofan
Trp (W)
186,079313
C11H10N2O
Tyrozyna
Tyr (Y)
163,06332
C9H9NO2
Walina
Val (V)
99,06841
C5H9NO
1 Masy monoizotopowe zgodne z tymi używanymi przez system identyfikacji Mascot [13].
128
10. BIBLIOGRAFIA
1.
Aebersold R., Mann M.: Mass spectrometry-based proteomics. Nature, 2003, 422, 198-207.
2.
Mann M., Hendrickson R. C., Pandey A.: Analysis of proteins and proteomes by mass spectrometry. Annu.
Rev. Biochem., 2001, 70, 437-473.
3.
Aebersold R.: A mass spectrometry journey into protein and proteome research. J. Am. Soc. Mass
Spectrometry, 2003, 14, 685-695.
4.
De Hoog C.L., Mann M.: Proteomics. Annual Review of Genomics and Human Genetics, 2004, 5,
267-2693.
5.
Beranova-Giordani S.: Proteome analysis by two-dimensional gel electrophoresis and mass spectrometry:
strengths and limitations. Trends in Analytical Chemistry, 2003, 22, 273-281.
6.
Papin D.J., Hojrup P., Bleasby A.J.: Rapid identification of proteins using peptide mass fingerprinting. Curr.
Biol., 1994, 3, 327-332.
7.
Eng J.K., McCormack A.L., Yates J.R. III: An approach to correlate tandem mass spectral data of peptides
with aminoacid sequences in a protein database. J. Am. Soc. Mass Spectrom., 1994, 5 (11), 976-989.
8.
Craig R., Beavis R. C.: Tandem: matching proteins with tandem mass spectra. Bioinformatics, 2004, 20,
1466-1467.
9.
Field H.I., Fenyo D., Beavis R.C.: RADARS, a bioinformatics solution that automates proteome mass
spectral analysis, optimises protein identification, and archives data in a relational database. Proteomics,
2002, 2, 36-47.
10. Hansen B.T. et al.: SALSA: a pattern recognition algorithm to detect electrophile-adducted peptides by
automated evaluation of CID spectra in LC-MS-MS analyses. Analytical Chemistry, 2001, 73, 1676-1683.
11. Bafna V., Edwards N.: SCOPE: a probabilistic model for scoring tandem mass spectra against a peptide
database. Bioinformatics, 2001, 17, S13-S21.
12. Colinge J. et al.: OLAV: towards high-throughput tandem mass spectrometry data identification. Proteomics,
2003, 3, 1454-1463.
13. Perkins D. N. et al.: Probability-based protein identification by searching sequence database using mass
spectrometry data. Electorphoresis, 1999, 20, 3551-3567.
14. Geer L. Y. et al.: Open Mass Spectrometry Search Algorithm. Journal of Proteome Research, 2004, 3,
958-964.
15. Mann M., Wilm M.: Error-tolerant identification of peptides in sequence databases by peptide sequence
tags. Analytical Chemistry, 1994, 66, 4390-4399.
16. Clauser, K.R., Baker, P. & Burlingame, A.L. Role of accurate mass measurement (+/-10 ppm) in protein
identification strategies employing MS or MS/MS and database searching. Analytical Chemistry, 1999, 71,
2871-2882.
17. Tabb D.L., Saraf A., Yates J.R. III: GutenTag: High-throughput sequence tagging via an empirically derived
fragmentation model. Analytical Chemistry, 2003, 75, 6415-6421.
18. Sadygov R. G., Cociorva D. C., Yates J. R. III: Large-scale database searching using tandem mass spectra:
Looking up the answer in the back of the book. Nature Methods, 2004, 1,195-202.
129
19. Kearney P., Thibault P.: Bioinformatics meets proteomics – Bridging the gap between mass spectrometry
data analysis and cell biology. J. Bioinform. Comp. Biol., 2003, 1, 183-200.
20. Wang W. et al.: Quantification of proteins and metabolites by mass spectrometry without isotopic labeling
or spiked standards. Analytical Chemistry, 2003, 75, 4818-4826.
21. Wiener M. C. et al.: Differential Mass Spectrometry: A Label-Free LC-MS Method for Finding Significant
Differences in Complex Peptide and Protein Mixtures. Analytical Chemistry, 2004, 76, 6085-6096.
22. America A. H. et al.: Alignment and statistical difference analysis of complex peptide datasets generated by
multidimensional LC-MS. Proteomics, 2006, 2, 641-653.
23. Li X. et al.: A Software Suite for the Generation and Comparison of Peptide Arrays from Sets of Data
Collected by Liquid Chromatography-Mass Spectrometry. Molecular & Cellular Proteomics, 2005, 4,
1328-1340.
24. Silva J. C. et al.: Quantitative Proteomic Analysis by Accurate Mass Retention Time Pairs. Analytical
Chemistry, 2005, 77, 2187-2200.
25. Zimmer J. S. et al.: Advances in proteomics data analysis and display using accurate mas and time
approach. Mass Spectrometry, 2006, 25,450-482.
26. Radulovic D. et al.: Informatics platform for global proteomic profiling and biomarker discovery using
liquid-chromatography-tandem mass spectrometry. Molecular & Cellular Proteomics, 2004, 3, 984-997.
27. Prakash A. et al.: Signal Maps for Mass Spectrometry-based Comparative Proteomics. Molecular & Cellular
Proteomics, 2006, 5, 423-432.
28. Listgarten J. et al.: Difference detection in LC-MS data for protein biomarker discovery. Bioinformatics,
2006, 23, e198-e204.
29. Leptos K. C. et al.: MapQuant: Open-source software for large-scale protein quantification. Proteomics
2006, 6, 1770-1782.
30. Ward, D.G. Identification of serum biomarkers for colon cancer by proteomic analysis. Br J Cancer, 2006,
94, 1898-905.
31. Villanueva J et al.: Differential exoprotease activities confer tumor-specific serum peptidome patterns.
J. Clin Invest., 2006, 116, 271-84.
32. Villanueva J et al.: Serum peptidome patterns that distinguish metastatic thyroid carcinoma from cancerfree controls are unbiased by gender and age. Molecular & Cellular Proteomics, 2006, 5(10), 1840-52.
33. Bakun M., Karczmarski J., Poznański J., Rubel T., Rózga M., Malinowska A., Sands D., Hennig E., Olędzki
J., Ostrowski J., Dadlez M.: An integrated LC-ESI-MS platform for quantitation of serum peptide ladders.
Application for colon carcinoma study. Proteomics - Clinical Applications, (praca przyjęta do druku).
34. Stryer L.: Biochemia. PWN, Warszawa, 1997.
35. Murray R. K., Granner D. K, Rodwell V. K.: Biochemia Harpera. PZWL, Warszawa, 2008.
36. Dass C.: Fundamentals of Contemporary Mass Spectrometry. Wiley, 2007.
37. Coursey J. S., Schwab D. J., Dragoset R. A.: Atomic Weights and Isotopic Compositions Element. NIST,
2005, http://physics.nist.gov/PhysRefData/Compositions.
38. Hoffmann E., Charette J., Stroobant V.: Spektrometria mas, WNT, 1998.
130
39. Kitner M., Sherman N. E.: Protein Sequencing and Indentification Using Tandem Mass Spectrometry. Wiley,
2007.
40. Beu S. C. et al.: Fourier transform electrospray instrumentation for tandem high-resolution mass
spectrometry of large molecules. J. Am. Soc. Mass Spectrom., 1993, 4, 557-565.
41. Barber M. et al.: Fast atom bombardment of solids (F.A.B.): a new ion source for mass spectrometry.
J. Chem. Soc. Chem. Commun., 1981, 325-327.
42. Fenn J. B. et al.: Electrospray ionization for mass spectrometry of large biomolecules. Science, 1989, 246,
64-71.
43. Horn D. M., Zubarev R. A., McLafferty F. W.: Automated Reduction and Interpretation of High Resolution
Electrospray Mass Spectra of Large Molecules. J. Am. Soc. Mass Spectrom., 2000, 11, 320-332.
44. Senko M. W., Beu S., McLafferty F. W.: Automated assignment of charge states from resolved isotopic
peaks for multiply charged ions. J. Am. Soc. Mass Spectrom., 1995, 6, 52-56.
45. Senko M. W., Beu S. C., McLafferty F. W.: Determination of Monoisotopic Masses and Ion Populations for
Large Biomolecules from Resolved Isotopic Distributions. J. Am. Soc. Mass. Spectrom., 1995, 6, 229-233.
46. Karas M., Hillenkamp F., Laser desorption ionization of proteins with molecular masses exceeding 10000
daltons. Analytical Chemistry, 1988, 60, 1299-2301.
47. Barwick V. et al.: Methodology for accurate mass measurement of small molecules. Best Practice Guide.
LGC Ltd., 2004.
48. Schneider L. V., Hall M. P.: Stable isotope methods for high-precision proteomics. Drug Discovery Today,
2005, 10, 353-63.
49. Finnigan LTQ FT Hardware Manual, Thermo Electron Corporation , 2004.
50. Witkiewicz Z.: Podstawy chromatografii, WNT, 1995.
51. Guzzetta A.: Reverse Phase HPLC Basics for LC/MS. IonSource, 2005.
52. Rutkowska-Włodarczyk I. et al.: Structural Changes of eIF4E upon Binding to the mRNA 5'
Monomethylguanosine and Trimethylguanosine Cap. Biochemistry, 2008, 47, 2710-2720.
53. SwissProt: http://www.expasy.ch/sprot/
54. Hunt D.F. et al.: Protein sequencing by tandem mass spectrometry. Proc. Natl. Acad. Sci., 1986, 83,
6233-6237.
55. Papayannopoulos I. A:. The interpretation of collision-induced dissociation tandem mass spectra of
peptides. Mass Spectrom. Rev., 1995, 14, 49-73.
56. Zhang Z.: Prediction of Low-Energy Collision-Induced Dissociation Spectra of Peptides. Analytical
Chemistry, 2004, 76, 3908-3922.
57. Gentzel M. et al.: Preprocessing of tandem mass spectrometric data to support automatic protein
identification. Proteomics, 2003, 3, 1597-1610.
58. Bern, M. et al.: Automatic quality assessment of peptide tandem mass spectra. Bioinformatics, 2004, 20,
I49-I54.
59. Elias J.E., Gygi S.P.: Target-decoy search strategy for increased confidence in large-scale protein
identifications by mass spectrometry. Nature Methods, 2007, 4, 207-214.
131
60. Higdon R. et al.: Randomized Sequence Database for Tandem Mass Spectrometry Peptide and Protein
Identification. Journal of Interogative Biology, 2005, 9, 364-377.
61. Reidegeld K. A. et al.: An easy-to-use Decoy Database Builder software tool, implementing different decoy
strategies for false discovery rate calculation in automated MS/MS protein identifications. Proteomics,
2008, 8, 1129-1137.
62. Matthiesen R. et al.: Database-independent, database-dependent, and extended interpretation of peptide
mass spectra in VEMS V2.0. Proteomics, 2004, 4, 2583–2593.
63. Weatherly D. B.: A Heuristic Method for Assigning a False-discovery Rate for Protein Identifications from
Mascot Database Search Results. Molecular & Cellular Proteomics, 2005, 4, 762-772.
64. Benjamini Y., Hochberg Y.: Controlling the false discovery rate: a practical and powerful approach to
multiple testing. Journal of the Royal Statistical Society B, 1995, 57, 289-300.
65. Storey J.D.: A direct approach to false discovery rates. Journal of the Royal Statistical Society: Series B
(Statistical Methodology), 2002 , 64, 479-498.
66. Diamandis E. P.: Proteomic Patterns in Biological Fluids: Do They Represent the Future of Cancer
Diagnostics? Clinical Chemistry 2003, 49, 1272-1278.
67. Antignaca J. P. et al.: The ion suppression phenomenon in liquid chromatography – mass spectrometry and
its consequences in the field of residue analysis. Analytica Chimica Acta, 2005, 529, 129-136.
68. Florens L. et al.: A proteomic view of the Plasmodium falciparum life cycle. Nature, 2002, 419, 520-526.
69. Ishihama Y. et al.: Exponentially Modified Protein Abundance Index (emPAI) for Estimation of Absolute
Protein Amount in Proteomics by the Number of Sequenced Peptides per Protein. Molecular & Cellular
Proteomics, 2005, 4, 1265-1272.
70. Ong S.E. et al.: Stable isotope labeling by amino acids in cell culture, SILAC, as a simple and accurate
approach to expression proteomics. Molecular & Cell Proteomics, 2002 , 1, 376-86.
71. Gygi S. P. et al.: Quantitative analysis of complex protein mixtures using isotope-coded affinity tags. Nature
Biotechnology, 1999, 17, 994-999.
72. Khainovski N. et al.: Multiplexed protein quantitation in Saccharomyces cerevisiae using aminereactive
isobaric tagging reagents. Molecular & Cellular Proteomics, 2004, 3, 1154-1169.
73. Yao X. et al.: Proteolytic 18O labeling for comparative proteomics: model studies with two serotypes of
adenovirus. Analytical Chemistry, 2001, 73, 2836-2842.
74. Baggerly K. A. et al.: A comprehensive approach to the analysis of matrix-assisted laser
desorption/ionization-time of flight proteomics spectra from serum samples. Proteomics, 2003, 3,
1667-1672.
75. Wagner M., Naik D., Pothen A.: Protocols for disease classification from mass spectrometry data.
Proteomics, 2003, 3, 1692-1698.
76. Petricoin E. F., Liotta L. A.: SELDI-TOF-based serum proteomic pattern diagnostics for early detection of
cancer. Curr. Opin. Biotechnol., 2004, 15, 24-30.
77. Tang K., Page J. S., Smith R. D.: Charge competition and the linear dynamic range of detection in
electrospray ionization mass spectrometry. J Am Soc Mass Spectrom, 2004, 15, 1416-1423.
78. Listgarten J., Emili A.: Statistical and Computational Methods for Comparative Proteomic Profiling.
Molecular & Cellular Proteomics, 2005, 4, 419-434.
132
79. Bylund D.: Chemometric Tools for Enhanced Performance in Liquid Chromatography-Mass Spectrometry.
Uppsala University, Uppsala, 2001.
80. Kast J.: Noise Filtering Techniques for Electrospray Quadrupole Time of Flight Mass Spectra. J Am Soc.
Mass Spectrom., 2003, 14, 766-776.
81. Randolph T. W., Yasui Y.: Multiscale processing of mass spectrometry data. UW Biostatistics Working
Paper Series, 2004, Working Paper 230.
82. Zhang X. et al.: Data pre-processing in liquid chromatography-mass spectrometry-based proteomics.
Bioinformatics, 2005, 21, 4054-4059.
83. Schulz-Trieglaff O. et al.: A Fast and Accurate Algorithm for the Quantification of Peptides from Mass
Spectrometry Data. Research in Computational Molecular Biology, 2007, 473-487.
84. Smith C. A. et al.: XCMS: Processing Mass Spectrometry Data for Metabolite Profiling Using Nonlinear
Peak Alignment, Matching, and Identification. Analytical Chemistry, 2006, 78, 779-787.
85. Lange E. et al.: High accuracy peak-picking of proteomics data using wavelet techniques. Proceedings of
the Pacific Symposium on Biocomputing, 2006, 243-254.
86. Andreev V. P. et al.: A Universal Denoising and Peak Picking Algorithm for LC-MS Based on Matched
Filtration in the Chromatographic Time Domain. Analytical Chemistry, 2003, 75 (22), 6314-6326.
87. Prince J., Marcotte E.: Chromatographic alignment of ESI-LC-MS proteomics data sets by ordered bijective
interpolated warping. Analytical Chemistry, 2006, 78, 6140-6152.
88. Finney G. L. et al.: Label-Free Comparative Analysis of Proteomics Mixtures Using Chromatographic
Alignment of High-Resolution LC-MS Data. Analytical Chemistry, 2008, 80, 961-971.
89. Bylund D. et al.: Chromatographic alignment by warping and dynamic programming as a pre-processing
tool for PARAFAC modelling of liquid chromatography mass spectrometry data. J. Chromatogr. A, 2002,
961, 237-244.
90. Listgarten J. et al.: Multiple alignment of continuous time series. Advances in Neural Information
Processing Systems. MIT Press, 2005.
91. Jaitly N. et al.: Robust algorithm for alignment of liquid chromatography-mass spectrometry analyses in an
accurate mass and time tag data analysis pipeline. Analytical Chemistry., 2006, 78, 7397-409.
92. Norbeck A. D. et al.: The utility of accurate mass and LC elution time information in the analysis of
complex proteomes. J Am Soc. Mass Spectrom., 2005, 16, 1239-1249.
93. Anderson K. K., Monroe M. E., Daly D. S.: Estimating probabilities of peptide database identifications to
LC-FTICR-MS observations. Proteome Science, 2006, 4, 1.
94. Fang R. et al.: Differential label-free quantitative proteomic analysis of Sherwanella oneidensis cultured
under aerobic and suboxic conditions by accurate mass and time tag approach. Molecular & Cellular
Proteomics, 2006, 5, 714-125.
95. Callister S. J. et al.: Normalization Approaches for Removing Systematic Biases Associated with Mass
Spectrometry and Label-Free Proteomics. J. Proteome Res., 2006, 5, 277-286.
96. Rockwood A. L., Van Orden S. L., Smith R. D.: Rapid Calculation of Isotope Distributions. Analytical
Chemistry, 1995, 67, 2699-2704.
97. Sakoe H., Chiba S.: Dynamic programming algorithm optimization for spoken word recognition. IEEE
Trans. Acoust., 1978, 26, 43-39.
133
98. Nielsen N. V., Carstensen J. M., Smedsgaard J.: Aligning of single and multiple wavelength
chromatographic profiles for chemometric data analysis using correlation optimised warping.
J. Chromatogr. A, 1998, 805, 17-35.
99. Higgs P. G., Attwood T. K.: Bioinformatyka i ewolucja molekularna. WNT, 2008.
100.Dempster A. P., Laird N. M., Rubin D. B.: Maximum Likelihood from Incomplete Data via the EM
Algorithm. Journal of the Royal Statistical Society. Series B (Methodological), 1977, 39, 1-38.
101.Appel, M.J., Labarre, R., Radulovic, D.: On accelerated random search. SIAM Journal on Optimzation,
2004 , 14, 3, 708-31.
102.Diamandis E. P.: Mass Spectrometry as a Diagnostic and a Cancer Biomarker Discovery Tool. Molecular &
Cellular Proteomics, 2004, 3, 367-378.
103.Timms J. F. et al.: Preanalytic Influence of Sample Handling on SELDI-TOF Serum Protein Profile. Clinical
Chemistry, 2007, 53, 4, 645-656.
104.Findeisen P.: Spiking of serum specimens with exogenous reporter peptides for mass spectrometry based
protease profling as diagnostic tool. Rapid Commun. Mass Spectrom., 2008, 22, 1223-1229.
105.Liu H., Sadygov R. G. Yates J. R. III: A model for random sampling and estimation of relative protein
abundance in shotgun proteomics. Analytical Chemistry, 2004, 76, 4193-4201.
106.Brosch M. et al.: Comparison of Mascot and X!Tandem performance for low and high accuracy mass
spectrometry and the development of an Adjusted Mascot Threshold. Molecular & Cellular Proteomics,
2008, 7, 962-970.
107.Mascot Workshop. Matrix Science, 2006.
108.Rudnick P. A. et al.: Large Scale Analysis of MASCOT Results Using a Mass Accuracy-Based THreshold
(MATH) Effectively Improves Data Interpretation. Journal of Proteome Research, 2005, 4, 1353-1360.
109.Storey, J. D.; Tibshirani, R.: Statistical significance for genome-wide studies. Proc. Natl. Acad. Sci. U.S.A.,
2003, 100, 9440-9445.
110.Zubarev R., Mann M.: On the Proper Use of Mass Accuracy in Proteomics. Molecular & Cellular
Proteomics, 2007, 6, 377-381.
111. Fischler M. A., Bolles R. C.: Random sample consensus: A paradigm for model fitting with applications to
image analysis and automated cartography. Communications of the ACM 1981, 24, 381-395.
112.Huber P. J.: Robust Statistics. John Wiley & Sons, 1981.
113.NCBI: http://www.ncbi.nlm.nih.gov/entrez
114.Larose D. T.: Odkrywanie wiedzy w danych, PWN, 2006.
115.Needleman S. B., Wunsch C. D.: A general method applicable to the search for similarities in the amino
acid sequence of two proteins. J Mol Biol. 1970,48, 443-453
116.Edgar R. C.: MUSCLE: a multiple sequence alignment method with reduced time and space complexity.
BMC Bioinformatics, 2004,5, 113-132.
117.Carrick A., Glocklin F.: Mass and Abundance Data for Polyisotopic Elements. J. Chem. Soc. A Inorg. Phys.
Theor., 1967, 40-42.
134
118.Robinson R. J, Warner C. G, Gohlke R. S.: Calculation of Relative Abundance of Isotope Clusters in Mass
Spectrometry. J. Chem. Educ., 1970, 47, 467-468.
119.Hugentobler E., Jöliger J.: A general approach to calculating isotope abundance ratios in mass
spectrometry. J. Chem. Educ., 1972, 49, 610 -612.
120.Genty C.: Application of statistical method to isotopic analysis. General Principles. Analytical Chemistry,
1973, 45, 505-511.
121.Frodesen A. G., Skjeggestad O., Tofte H.: Probability and Statistics in Particle Physics.
Universitetsforlaget, 1979.
122.Brownawell M. L., Filippo J. S.: A Program for the Synthesis of Mass-Spectral Isotopic Abundances. J.
Chem. Educ., 1982, 59, 663-665.
123.Olsen C. E.: A Pascal Program for Micro-Computers for Calculations of Compositions and Isotope Clusters
from Accurate Mass Measurements. Int. J. Mass Spectrom Ion Processes, 1983, 47, 337-340.
124.Yergey J.: A general approach to calculating isotopic distributions for mass spectrometry. Int. J. Mass
Spectrom. Ion Phys., 1983, 52, 337-349.
125.Hsu C. S.: Diophantine Approach to Isotopic Abundance Calculations. Analytical Chemistry, 1984, 56,
1356-1361.
126.Hibbert D. B.: A Prolog Program for the Calculation of Isotope Distributions in Mass-Spectrometry. Chem.
Intelligent Lab. Syst., 1989, 6, 203-212.
127.Datta B. P.: Polynomial Method of Molecular Isotopic Abundance Calculations: A Computational Note.
Rapid Commun. Mass Spectrom., 1997, 11, 1767-1774.
128.Snider R. K.: Efficient Calculation of Exact Mass Isotopic Distributions. J. Am. Soc. Mass Spectrom., 2007,
18, 1511-1515.
129.Roussis S. G., Proulx R.: Reduction of Chemical Formulas from the Isotopic Peak Distributions of HighResolution Mass Spectra. Analytical Chemistry, 2003, 75, 1470-1482.
130.Kubinyi H.: Calculation of Isotope Distributions in Mass Spectrometry. A Trivial Solution for a Nontrivial
Problem. Anal. Chim. Acta, 1991, 247, 107-119.
131.Rockwood A. L., Van Orden S. L.: Ultrahigh-Speed Calculation of Isotope Distributions. Analytical
Chemistry, 1996, 68, 2027-2030.
132.Rockwood A. L.: Relationship of Fourier-Transforms to Isotope Distribution Calculations. Rapid Commun.
Mass Spectrom., 1995, 9,103-105.
133.Cooley J. W., Tukey J. W.: An algorithm for the machine calculation of complex Fourier series. Math.
Comput., 1965, 19, 297-301.
134.Rockwood A. L., Van Orden S. L., Smith R. D.: Ultrahigh Resolution Isotope Distribution Calculations.
Rapid Commun. Mass Spectrom., 1996, 10, 54-59.
135.Meek J. L.: Prediction of peptide retention times in high-pressure liquid chromatography on the basis of
amino acid composition. Proc. Natl. Acad. Sci. U. S. A., 1980, 77, 1632-1636.
136.Browne C. A., Bennett H. P. J., Solomon S.: The isolation of peptides by high-performance liquid
chromatography using predicted elution positions. Anal. Biochem., 1982, 124, 201-208.
135
137.Sasagawa T., Okuyama T., Teller D. C.: Prediction of peptide retention times in reversed-phases highperformance liquid chromatography during linear gradient elution. J. Chromatogr., 1982, 240, 329-340.
138.Sakamoto Y., Kawakami N., Sasagawa T. Prediction of peptide retention times. J. Chromatogr., 1988, 442,
69-79.
139.Guo D. et al.: Prediction of peptide retention times in reversed-phase highperformance liquid
chromatography I. Determination of retention coefficients of amino acid residues of model synthetic
peptides. J. Chromatogr., 1986, 359, 499-517.
140.Guo D. et al.: Prediction of peptide retention times in reversed-phase high-performance liquid
chromatography II. Correlation of observed and predicted peptide retention times factors and influencing
the retention times of peptides. J. Chromatogr., 1986, 359, 518-532.
141.Krokhin O. V. et al.: An Improved Model for Prediction of Retention Times of Tryptic Peptides in Ion Pair
Reversed-phase HPLC. Molecular & Cellular Proteomics, 2004, 3, 908-919.
142.Krokhin O. V. et al.: Use of Peptide Retention Time Prediction for Protein Identification by off-line
Reversed-Phase HPLC-MALDI MS/MS. Analytical Chemistry, 2006, 78, 6265-69.
143.Krokhin O. V.: Sequence Specific Retention Calculator - a novel algorithm for peptide retention prediction
in ion-pair RP-HPLC: application to 300 and 100 pore size C18 sorbents. Analytical Chemistry, 2006, 78,
7785-95.
144.Tripet B. et al.: Requirements for prediction of peptide retention time in reversed-phase high-performance
liquid chromatography: Hydrophilicity/ hydrophobicity of side-chains at the N- and C-termini of peptides
are dramatically affected by the end-groups and location. J. Chromatogr. A, 2007, 1141, 212-225.
145.Palmblad, M. et al.: Prediction of chromatographic retention and protein identification in liquid
chromatography/mass spectrometry. Analytical Chemistry, 2002, 74, 5826-5830.
146.Bihan, T. L. et at.: Definition and characterization of a “trypsinosome” from specific peptide
characteristics by nano-HPLC-MS/MS and in silico analysis of complex protein mixtures. Journal of
Proteome Research, 2004, 3, 1138-1148.
147.Schweizer M. et al.: Prediction of short peptides composition by RP-HPLC coupled to ESI mass
spectrometry. Food Chemistry, 2007, 105, 1606-1613.
148.Kawakami T. et al.: Protein identification from product ion spectra of peptides validated by correlation
between measured and predicted elution times in liquid chromatography/mass spectrometry. Proteomics,
2005, 5, 856-64.
149.Petritis, K. et al.: Improved peptide elution time prediction for reversed-phase liquid chromatography-MS
by incorporating peptide sequence information. Analytical Chemistry, 2006, 78(14), 5026-5039.
150.Petritis K. et al.: Ion-pair reversed-phase liquid chromatography – electrospray mass spectrometry for the
analysis of underivatized small peptides. Journal of Chromatography A, 2002, 957, 173–185.
151.Mant, C. T. et al.: Effect of peptide chain length on peptide retention behaviour in reversed-phase
chromatography. J. Chromatogr., 1988, 458, 193-205.
152.Kaliszan R. et al.: Prediction of high-performace liquid chromatography retntion of peptides with use of
quantitative structure-retention relationships. Proteomics, 2005, 5, 409-415.
153.Tadeusiewicz R.: Sieci neuronowe. Akademicka Oficyna Wydawnicza RM, 1993.
154.Petritis, K. et al.: Use of artificial neural networks for the accurate prediction of peptide liquid
chromatography elution times in proteome analyses. Analytical Chemistry, 2003, 75, 1039-1048.
136
155.Shinoda, K. et al.: Prediction of liquid chromatographic retention times of peptides generated by protease
digestion of the escherichia coli proteome using artificial neural networks. Journal of Proteome Research,
2006, 5, 3312-3317.
156.Goldberg, D. E.: Genetic Algorithms in Search, Optimization and Machine Learning, Kluwer Academic
Publishers, 1989.
157.Arabas J.: Wykłady z algorytmów ewolucyjnych. WNT, 2001.
158.Michalewicz Z.: Algorytmy genetyczne + struktury danych = programy ewolucyjne. WNT, 1996.
159.Caballero R. D., Garcıa-Alvarez-Coque M. C., Baeza-Baeza J. J.: Parabolic-Lorentzian modified Gaussian
model for describing and deconvolving chromatographic peaks. J. Chromatogr. A, 2002, 954, 59-76.
160.Pápai Z., Pap T. L.: Determination of chromatographic peak parameters by non-linear curve fitting using
statistical moments. Analyst, 2002, 127, 494-498.
161.Di Marco V. B., Bombi G. G.: Mathematical functions for the representation of chromatographic peaks.
J. Chromatogr. A, 2001, 931, 1-30.
162.Li J.: Comparison of the capability of peak functions in describing real chromatographic peaks.
J. Chromatogr. A, 2002, 952, 63-70.
163.Nikitas P., Pappa-Louisi A., Papageorgiou A.: On the equations describing chromatographic peaks and the
problem of the deconvolution of overlapped peaks. J. Chromatogr. A, 2001, 912, 13-29.
164.Marshall A. G., Hendrickson C. L., Jackson G. S.: Fourier Transform Ion Cyclotron Resonance Mass
Spectrometry: A Primer. Mass Spectrometry Reviews 1998, 17, 1-35
165. Savitzky A., Golay M. J.: Smoothing and Differentiation of Data by Simplified Least Squares Procedures.
Analytical Chemistry, 1964, 36, 1627-1639.
166.Marquardt D.: An Algorithm for Least-Squares Estimation of Nonlinear Parameters. SIAM Journal on
Applied Mathematics, 1963, 11, 431-441.
167.Press W. H. et al.: Numerical Recipes in C . Cambridge University Press, 1998.
168.Quackenbush J.: Microarray data normalization and transformation. Nat. Genet., 2002, 32, 496-501.
169.Anderle M. et al.: Quantifying reproducibility for differential proteomics: noise analysis for protein liquid
chromatography-mass spectrometry of human serum. Bioinformatics 2004, 20, 3575-3582
170.Troyanskaya O. et al.: Missing value estimation methods for DNA microarrays. Bioinformatics, 2001, 17,
520-525.
171.Perreard L.: Classification and risk stratification of invasive breast carcinomas using a real-time quantitative
RT-PCR assay. Breast Cancer Research 2006, 8, R23.
172.Zoeller J. J., Iozzo R. V.: Proteomic profiling of endorepellin angiostatic activity on human endothelial cells.
Proteome Science 2008, 6, 7-14.
173.Little R. J., Rubin D. B.: Statistical Analysis with Missing Data. John Wiley & Sons, 1987.
174.Farhangfara A., Kurganb L., Dyc J.: Impact of imputation ofmissing values on classification error for
discrete data. Pattern Recognition, 2008, 41, 3692-3705.
175.Cairns D. A. et al.: Proteomic profiling using mass spectrometry – does normalising by total ion current
potentially mask some biological differences? Proteomics, 2008, 8, 21-27.
137
176.Cleveland W. S., Devlin S. J.: Locally weighted regression: An approach to regression analysis by local
fitting. Journal of the American Staistical Association 1988, 83, 596-610.
177.Berrar D.P., Dubitzky W., Granzow M.: A Practical Approach to Microarray Data Analysis. Kluwer
Academic Publishers, 2002 .
178.Mikula M., Dzwonek A., Rubel T., Karczmarski J., Wyrwicz L. S., Dadlez M., Ostrowski J.: Landscape of
the hnRNP K protein-protein interactome. Proteomics, 2006, 6, 2395-2406.
179.Mikula M., Karczmarski J., Dzwonek A., Rubel T., Hennig E., Dadlez M., Bujnicki J., Bomsztyk K.,
Ostrowski J.: Casein kinases phosphorylate multiple residues spanning the entire hnRNP K length. Biochim.
Biophys. Acta - Proteins and Proteomics, 2006, 1764, 299-306
180.Lewandowicz A., Bakun M., Rubel T., Imiela J., Dadlez M.: LC-LTQ FTICR MS based relative and
absolute peptide quantitation for detection of markers of bladder cancer and other conditions in urine
proteome and peptidome. European Kidney and Urine Proteomics Meeting, Bergamo, 2008.
181.Sikora J., Rubel T., Poznański J., Boguta M., Dadlez M.: Mass Spectrometry Based Differential Proteomics
of the Mitochondria of [PSI+] and [psi-] Saccharomyces cerevisiae Strains. 17th Internaltional Mass
Spectrometry Confrence, Praga, 2006.
182.Malinowska A., Szybińska A., Rubel T., Wysłouch-Cieszyńska A., Dadlez M.: Application of IEF-LC-MS
Method in Analysis of Synaptosomes form Mouse Models of Alzheimer's Disease. 1st European Synapse
Meeting, Bordo, 2008.
183.Malinowska A., Szybińska A., Rubel T., Wysłouch-Cieszyńska A., Dadlez M.: Qualitative and Quantitative
Proteomic Profiling of Synaptosomes from Mouse Models of Alzheimer's Disease. 8th Siena Meeting From
Genome to Proteome: Integration and Proteome Completion, Siena, 2008.
184.Rubel T., Pawłowski Z., Raczyński L., Zaremba K.: Oprogramowanie do analizy danych z
sekwencjonowania w badaniach proteomicznych wykorzystujących spektrometrię mas. XV Krajowa
Konferencja Naukowa Biocybernetyka i Inżynieria Biomedyczna, Wrocław, 2007.
185.Monroe M., Kangas L.: Normalized Elution Time Prediction Utility. Pacific Northwest National Laboratory,
http://omics.pnl.gov/software/NETPredictionUtility.php.
186.Krokhin O., Cortens J.: Sequence Specific Retention Calculator. Manitoba Centre for Proteomics,
http://hs2.proteome.ca/SSRCalc/SSRCalc32.html.
187.Bolstad B. M. et al.: A comparison of normalization methods for high density oligonucleotide array data
based on variance and bias. Bioinformatics, 2003, 19,185-193.
188.Irizarry R. A. et al.: Summaries of Affymetrix GeneChip probe level data, Nucleic Acids Research, 2003, 31,
4, e15.
189.Wu Z. et al.: Model-Based Background Adjustment for Oligonucleotide Expression Arrays. Journal of the
American Statistical Association, 2004, 99, 909-817.
190.Goddard T. D., Kneller D. G.: SPARKY 3. University of California, www.cgl.ucsf.edu/home/sparky.
191.Ostrowski J., Rubel T., Wyrwicz L., Mikula M., Bielasik A., Butruk E., Reguła J.: Three clinical variants of
gastroesophageal reflux disease from two distinct gene expresson signatures. Journal of Molecular
Medicine, 2006, 84, 872-82.
192.Ostrowski J., Mikula M., Karczmarski J., Rubel T., Wyrwicz L. S., Bragoszewski P., Gaj P., Dadlez M.,
Butruk E., Regula J.: Molecular defense mechanisms of Barrett’s metaplasia estimated by an integrative
genomics. Journal of Molecular Medicine, 2007, 85, 733-43.
138

Podobne dokumenty