Odczyt wyników
Transkrypt
Odczyt wyników
3.2.2 Odczyt wyników Odczytu dokonuje się, podobnie jak w przypadku płytek cDNA, przez pobudzanie próbek światłem lasera, a następnie odczytywanie natężenia fluorescencji. Uzyskany w ten sposób sygnał jest dyskretyzowany i zapisany jako obraz w pliku *.dat. Np. dla płytki o rozmiarach 1.28 x 1.28 skanowanej z rozdzielczością 3m, każdej próbce 24 x 24 m odpowiada obraz 8 x 8 pikseli. Następnie dla każdej próbki ignorujemy wartości granicznego piksela a na podstawie pozostałych jest wyznaczamy 75 percentyl (kwantyl rzędu k/100, gdzie k = 1,...,99) jako wartość reprezentująca intensywność w danej próbce. Wartości te zapisywane są w pliku *.cel. Następnie dane przetwarzane są przez algorytmy statystyczne zaimplementowane w pakiecie Affymetrix® Microarray Suite 5.0. Zadaniem tych algorytmów jest wyznaczenie wartość liczbowej, która będzie opisywać poziom ekspresji danego genu – sygnał. W uproszczeniu, działanie wspomnianych algorytmów, polega na skorygowaniu wartości intensywności fluorescencji sond PM przy wykorzystaniu wartości intensywności fluorescencji sond MM, a następnie wyznaczeniu, przy użyciu skorygowanych intensywności, wartości sygnału w próbce. Dodatkowo, dla każdej próbki wyznaczany jest parametr kontrolny, mówiący o „pewności”, że gen ulega ekspresji w danej próbce. Szczegółowy opis wyznaczania wartości sygnału, udostępniony przez firmę Affymetrix wraz z opisem pakietu Affymetrix® Microarray Suite 5.0, został przedstawiony poniżej. Wyznaczanie wartości ekspresji (sygnału) Wartość sygnału wyznaczana jest na podstawie wartości intensywności fluorescencji w parze „komórek” PM – MM z uwzględnieniem korekcji tła. Proces ten wykonywany jest w kilku krokach: 1. Wstępne przetwarzanie intensywności fluorescencji w komórkach - korekcja globalnego tła 2. Wprowadzenie tzw. idealnego niedopasowania IM (Ideal Mismatch) i korekta intensywności PM Wykorzystujemy tu wartości uzyskane dzięki próbkom MM, które mówią nam o hybrydyzacji z podkładem i przypadkowymi, nieprawidłowymi fragmentami łańcuchów oligonukleotydowych, co ogólnie wpływa niekorzystnie na wartość PM. Wartość IM obliczamy korzystając z następującego wzoru: IM i , j gdzie: w MM i , j PM ( SBii ,)j 2 PM i , j 2 w gdy MM i , j PM i , j gdy MM i , j PM i , j i SB i contrast gdy MM i , j PM i , j i SBi contrast contrast contrast SBi 1 scale standardowo: contrast = 0.03 scaled = 10 j – numer pary (PM-MM) w i-tym zbiorze próbek SB – tło charakterystyczne (specific background) SB i T bi (log 2 ( PM i, j ) log 2 ( MM i, j ) : j 1,..., n i ) Tbi – oznacza tu one-stepTukey’s biweght algorithm – algorytm obliczania „solidnej” średniej nie zakłóconej przez wartości oddalone. Zasadę działania tego algorytmu przedstawiono poniżej przy pomocy pseudokodu. X = {x1, x2, ... , xn} c– stała strojenia (c = 5) - bardzo mała wartość stosowana dla uniknięcia dzielenia przez 0 ( = 0.0001) m = mediana(X); s = mediana(abs(X – m)); for (i = 0; i < n; i++) { ui = (xi – m)/(c * s + ); if abs(ui) <= 1 w[i] = (1 – u2)2; else w[i] = 0; } Tbi = suma(w * x)/suma(w); Mając daną wartość IM, można łatwo policzyć wartość próbki PV (probe value). Wykorzystując poniższą formułę mamy gwarancję stabilności numerycznej. Vi,j = max(PMi,j – IMi,j, d) standardowo d = 2-20 3. Logarytmowanie skorygowanych wartości intensywności PM w celu ustabilizowania wariancji Obliczamy wartość PV dla każdej j-tej pary próbek w i-tej grupie próbek, n jest liczbą par próbek w zbiorze próbek. PVi,j = log2(Vi,j) j = 1, ... , ni 4. Obliczenie bezwzględnej wartości ekspresji w i-tej grupie próbek SignalLogValuei Tbi (PVi,1 , ... , PVi,ni ) Skalowanie sygnału przy użyciu trymowanej średniej ReportedValue(i) nf * sf * 2 (SignalLog Valuei ) gdzie: sf – współczynnik skalowania nf – współczynnik normalizacji Zarówno sf jak i nf mogą być wyznaczane dla wszystkich grup próbek lub tylko dla jednej wybranej. Współczynnik sf może być wybrany przez użytkownika lub wyliczony na podstawie następującej zależności: sf TrimMean 2 Sc SignalLogValuei ,0.02,0.98 gdzie: Sc – sygnał celu (wartość domyślna Sc = 500) TrimMean – średnia z wartości sygnału w grupie próbek obliczana po usunięciu 2 % najniższych i 2% najwyższych wartości Współczynnik nf przyjmuje wartość 1 jeśli wykonujemy analizę bezwzględną, w przeciwnym przypadku – gdy wykonujemy analizę porównawczą – współczynnik nf jest wyznaczany według wzoru: nf TrimMeanSPVbi ,0.02,0.98 TrimMeanSPVei ,0.02,0.98 gdzie: SPVbi – sygnał bazowy SPVei – sygnał eksperymentu Oprócz wyznaczenia wartości sygnału w próbce, bardzo ważne jest również określenie informacji o tym z jaką pewnością możemy powiedzieć, że gen ulega ekspresji w danej próbce. Wprowadzony jest tu podział na trzy grupy: Present – gen ulega ekspresji Absent – gen nie ulega ekspresji Marginal – ekspresja genu na granicy wykrywalności Podział ten bazuje na tzw. p-wartości (p-value) wyznaczanej dala każdej grupy próbek (genu). Algorytm można przedstawić w czterech punktach: Usuwamy nasycone (MM 46000) pary próbek oraz pary próbek dla 1. PM MM + . Jeśli wszystkie pary próbek w danej grupie próbek są których nasycone gen jest klasyfikowany jako obecny (present) a p-value ustawiana na 0 2. Obliczamy wynik dyskryminacji Ri dla i-tej pary próbek, mierzy on różnice pomiędzy intensywnością PM i MM Ri PM i MM i PM i MM i jeśli Ri < grupa próbek jest odrzucona (inicjalna wartość = 0.015). Zwiększając możemy zredukować ilość niepoprawnie zdetekowanych komórek, ale jednocześnie zredukujemy liczbę poprawnie zdetekowanych 3. Używając one-sided Wilcoxon’s Signed Rank Test obliczamy p-value dla zerowej hipotezy: H0: mediana(Ri - ) = 0 przeciw hipotezie alternatywnej:\ H1: mediana(Ri - ) > 0 Ustawiamy dwa poziomy istotności 1 i 2 takie, że 4. 0 < 1 < 2 < 0.5 standardowe wartości 1 = 0.04 2 = 0.06 Klasyfikacja (do jednej z trzech grup: Present, Absent, Marginal ) odbywa się według następujących zasad (rys. 3.9): Present jeśli p-value < 1 Marginal jeśli 1 p-value < 2 Absent p-value 2 jeśli Rys. 3.9 Wyznaczanie parametru określającego czy dany gen ulega ekspresji w badanej próbce W wyniku wszystkich powyższych działań otrzymujemy komplet danych opisujących ekspresję badanych genów. Dane te mogą być zapisane w postaci pliku tekstowego o formacie pokazanym na poniższym rysunku (rys. 3.10). Rys. 3.10 Postać danych wyjściowych uzyskanych za pomocą programu Affymetrix® Microarray Suite 5.0