Odczyt wyników

Transkrypt

Odczyt wyników
3.2.2 Odczyt wyników
Odczytu dokonuje się, podobnie jak w przypadku płytek cDNA, przez pobudzanie
próbek światłem lasera, a następnie odczytywanie natężenia fluorescencji. Uzyskany w ten
sposób sygnał jest dyskretyzowany i zapisany jako obraz w pliku *.dat. Np. dla płytki o
rozmiarach 1.28 x 1.28 skanowanej z rozdzielczością 3m, każdej próbce 24 x 24 m
odpowiada obraz 8 x 8 pikseli. Następnie dla każdej próbki ignorujemy wartości granicznego
piksela a na podstawie pozostałych jest wyznaczamy 75 percentyl (kwantyl rzędu k/100,
gdzie k = 1,...,99) jako wartość reprezentująca intensywność w danej próbce. Wartości te
zapisywane są w pliku *.cel.
Następnie dane przetwarzane są przez algorytmy statystyczne zaimplementowane w
pakiecie Affymetrix® Microarray Suite 5.0. Zadaniem tych algorytmów jest wyznaczenie
wartość liczbowej, która będzie opisywać poziom ekspresji danego genu – sygnał. W
uproszczeniu, działanie wspomnianych algorytmów, polega na skorygowaniu wartości
intensywności fluorescencji sond PM przy wykorzystaniu wartości intensywności
fluorescencji sond MM, a następnie wyznaczeniu, przy użyciu skorygowanych intensywności,
wartości sygnału w próbce. Dodatkowo, dla każdej próbki wyznaczany jest parametr
kontrolny, mówiący o „pewności”, że gen ulega ekspresji w danej próbce.
Szczegółowy opis wyznaczania wartości sygnału, udostępniony przez firmę
Affymetrix wraz z opisem pakietu Affymetrix® Microarray Suite 5.0, został przedstawiony
poniżej.
Wyznaczanie wartości ekspresji (sygnału)
Wartość sygnału wyznaczana jest na podstawie wartości intensywności fluorescencji
w parze „komórek” PM – MM z uwzględnieniem korekcji tła. Proces ten wykonywany jest w
kilku krokach:
1. Wstępne przetwarzanie intensywności fluorescencji w komórkach - korekcja globalnego
tła
2. Wprowadzenie tzw. idealnego niedopasowania IM (Ideal Mismatch) i korekta
intensywności PM
Wykorzystujemy tu wartości uzyskane dzięki próbkom MM, które mówią nam o
hybrydyzacji z podkładem i przypadkowymi, nieprawidłowymi fragmentami łańcuchów
oligonukleotydowych, co ogólnie wpływa niekorzystnie na wartość PM. Wartość IM
obliczamy korzystając z następującego wzoru:
IM i , j
gdzie:
w

 MM i , j
 PM
  ( SBii ,)j
2
 PM i , j
 2 w
gdy
MM i , j  PM i , j
gdy
MM i , j  PM i , j i SB i  contrast 
gdy
MM i , j  PM i , j i SBi  contrast 
contrast
 contrast  SBi 
1 

scale


standardowo: contrast = 0.03
scaled = 10
j – numer pary (PM-MM) w i-tym zbiorze próbek
SB – tło charakterystyczne (specific background)
SB i  T bi (log 2 ( PM
i, j
)  log 2 ( MM
i, j
) : j  1,..., n i )
Tbi – oznacza tu one-stepTukey’s biweght algorithm – algorytm obliczania „solidnej”
średniej nie zakłóconej przez wartości oddalone.
Zasadę działania tego algorytmu przedstawiono poniżej przy pomocy pseudokodu.
X = {x1, x2, ... , xn}
c– stała strojenia (c = 5)
 - bardzo mała wartość stosowana dla uniknięcia dzielenia przez 0 ( = 0.0001)
m = mediana(X);
s = mediana(abs(X – m));
for (i = 0; i < n; i++)
{
ui = (xi – m)/(c * s + );
if abs(ui) <= 1
w[i] = (1 – u2)2;
else
w[i] = 0;
}
Tbi = suma(w * x)/suma(w);
Mając daną wartość IM, można łatwo policzyć wartość próbki PV (probe value).
Wykorzystując poniższą formułę mamy gwarancję stabilności numerycznej.
Vi,j = max(PMi,j – IMi,j, d) standardowo d = 2-20
3. Logarytmowanie skorygowanych wartości intensywności PM w celu ustabilizowania
wariancji
Obliczamy wartość PV dla każdej j-tej pary próbek w i-tej grupie próbek, n jest liczbą par
próbek w zbiorze próbek.
PVi,j = log2(Vi,j)
j = 1, ... , ni
4. Obliczenie bezwzględnej wartości ekspresji w i-tej grupie próbek
SignalLogValuei  Tbi (PVi,1 , ... , PVi,ni )
Skalowanie sygnału przy użyciu trymowanej średniej
ReportedValue(i)  nf * sf * 2 (SignalLog Valuei )
gdzie: sf – współczynnik skalowania
nf – współczynnik normalizacji
Zarówno sf jak i nf mogą być wyznaczane dla wszystkich grup próbek lub tylko dla jednej
wybranej. Współczynnik sf może być wybrany przez użytkownika lub wyliczony na
podstawie następującej zależności:
sf 

TrimMean 2
Sc
SignalLogValuei
,0.02,0.98

gdzie: Sc – sygnał celu (wartość domyślna Sc = 500)
TrimMean – średnia z wartości sygnału w grupie próbek obliczana po usunięciu 2 %
najniższych i 2% najwyższych wartości
Współczynnik nf przyjmuje wartość 1 jeśli wykonujemy analizę bezwzględną, w
przeciwnym przypadku – gdy wykonujemy analizę porównawczą – współczynnik nf jest
wyznaczany według wzoru:
nf 
TrimMeanSPVbi ,0.02,0.98
TrimMeanSPVei ,0.02,0.98
gdzie: SPVbi – sygnał bazowy
SPVei – sygnał eksperymentu
Oprócz wyznaczenia wartości sygnału w próbce, bardzo ważne jest również określenie
informacji o tym z jaką pewnością możemy powiedzieć, że gen ulega ekspresji w danej
próbce. Wprowadzony jest tu podział na trzy grupy:

Present – gen ulega ekspresji

Absent – gen nie ulega ekspresji

Marginal – ekspresja genu na granicy wykrywalności
Podział ten bazuje na tzw. p-wartości (p-value) wyznaczanej dala każdej grupy próbek (genu).
Algorytm można przedstawić w czterech punktach:
Usuwamy nasycone (MM  46000) pary próbek oraz pary próbek dla
1.
PM  MM + . Jeśli wszystkie pary próbek w danej grupie próbek są
których
nasycone gen jest klasyfikowany jako obecny (present) a p-value ustawiana na 0
2.
Obliczamy wynik dyskryminacji Ri dla i-tej pary próbek, mierzy on
różnice pomiędzy intensywnością PM i MM
Ri 
PM i  MM i
PM i  MM i
jeśli Ri <  grupa próbek jest odrzucona (inicjalna wartość  = 0.015). Zwiększając 
możemy zredukować ilość niepoprawnie zdetekowanych komórek, ale jednocześnie
zredukujemy liczbę poprawnie zdetekowanych
3.
Używając one-sided Wilcoxon’s Signed Rank Test obliczamy p-value dla
zerowej hipotezy:
H0: mediana(Ri - ) = 0
przeciw hipotezie alternatywnej:\
H1: mediana(Ri - ) > 0
Ustawiamy dwa poziomy istotności 1 i 2 takie, że
4.
0 < 1 < 2 < 0.5
standardowe wartości 1 = 0.04
2 = 0.06
Klasyfikacja (do jednej z trzech grup: Present, Absent, Marginal ) odbywa się według
następujących zasad (rys. 3.9):
Present
jeśli
p-value < 1
Marginal jeśli
1  p-value < 2
Absent
p-value  2
jeśli
Rys. 3.9 Wyznaczanie parametru określającego czy dany gen ulega ekspresji w badanej
próbce
W wyniku wszystkich powyższych działań otrzymujemy komplet danych opisujących
ekspresję badanych genów. Dane te mogą być zapisane w postaci pliku tekstowego o
formacie pokazanym na poniższym rysunku (rys. 3.10).
Rys. 3.10 Postać danych wyjściowych uzyskanych za pomocą programu Affymetrix®
Microarray Suite 5.0