Metody nauczania maszynowego w zastosowaniach

Transkrypt

Metody nauczania maszynowego w zastosowaniach
Bioinformatyka 2 (BT172)
Wykład 9
Metody nauczania maszynowego w
zastosowaniach bioinformatycznych
Marcin Kurdziel
Zakład Biofizyki, Wydział Biotechnologii UJ
19-XII-2005
P LAN WYKŁADU
Kwantyfikacja poziomów ekspresji genów z wykorzystaniem mikromacierzy
Normalizacji danych, testy hipotez zmian w ekspresji
Nauczanie maszynowe: z nauczycielem vs. bez nauczyciela
Metody hierarchicznej analizy skupisk
Algorytmy klasyfikacji: kNN, SVM
Ocena jakości schematu klasyfikacji
W ZORCE EKSPRESJI GENÓW
Pula wyznakowanego
cDNA lub RNA (Affymetrix
*
GeneChip R ) podlega hybrydyzacji do sond
immobilizowanych na stałym podłożu, w celu identyfikacji
transkryptów których ekspresja uległa zmianie, w stosunku
do zadanego wzorca, w odpowiedzi na zaistnienie
określonych warunków eksperymentalnych
+
Estymacja odpowiedzi na poziomie transkryptu oraz
jej zmienności
+
Test(y) istotności statystycznej obserwowanych zmian
,
-
.0/12
3547698;:=<>8
39?A@=BC@=DFEHG=@JILKMI
Geny
I
1.50
1.18
-2.10
0.09
Macierze
II
III
0.21 -0.26
2.43 -1.35
-1.32 0.12
-1.11 0.63
IV
0.05
0.29
-0.22
-0.22
N ORMALIZACJA , N ORMALIZACJA , ...
W typowych warunkach eksperymentalnych wydajność procesu izolacji mRNA oraz jego
znakowania i hybrydyzacji podlegaja˛ zmiana˛ w poszczególnych etapach eksperymentu. Co za
tym idzie, analiza danych z mikromacierzy nie jest możliwa bez odpowiednio przeprowadzonej
normalizacji
Normalizacja pomi˛edzy mikromacierzami umożliwia analiz˛e porównawcza˛ niwelujac
˛
różnice co do średniej (lub mediany) oraz rozrzutu intensywności sygnałów na płytce
Normalizacja w obr˛ebie mikromacierzy wykorzystuje techniki cyfrowej obróbki obrazu
w celu kompensacji wpływu czynników takich jak poziom odniesienia (tło), lokalizacja
sondy na płytce, etc. na oszacowana˛ wartość zmiany ekspresji transkryptu
Średnia czy mediana?
!
"#
$%
&
('
")
const
N ORMALIZACJA , N ORMALIZACJA , ...
4.0
4.0
3.0
3.0
2.0
2.0
1.0
1.0
0.0
0.0
-1.0
-1.0
-2.0
-2.0
-3.0
-3.0
-4.0
Bardziej skomplikowane
schematy normalizacji moga˛
brać pod uwag˛e pozycj˛e danego
sygnału w posortowanej tablicy
sygnałów (normalizacja
wzgl˛edem rankingu, ang. rank
normalization) lub prowadzić
globalna˛ korekcj˛e krzywych
dopasowanych do pewnych
rozkładów sygnałów (np.
normalizacja loess – Local
regression)
-4.0
I
II
III
IV
V
I
4.0
4.0
3.0
3.0
2.0
2.0
1.0
1.0
0.0
0.0
-1.0
-1.0
-2.0
-2.0
-3.0
-3.0
-4.0
II
-4.0
III
I
‘“’•”
II
III
‘“’[–
IV
V
I
—™˜
II
‘“’•”
IV
V
III
˜
š
›œžIV 
V
œ Ÿ  šA¡¢  Ÿ
A JEDNAK SI E˛ RÓ ŻNI
W dobrze zaprojektowanym eksperymencie, jedynie niewielka cz˛eść spośród
kilku(nastu) tysi˛ecy genów reprezentowanych na mikromacierzy b˛edzie
wykazywała istotna˛ biologicznie zmian˛e poziomu ekspresji, podczas gdy
pewna zmienność sygnału może wyst˛epować dla niemal wszystkich
obserwowanych sond; Jak zidentyfikować geny o zmiennej ekspresji?
t-statystyka:
N
Referencyjny zbiór O mikromacierzy w których
pewnemu
genowi odpowiadaja˛ poziomy ekspresji
PRQTSRUWV>VWVWUMQYX[Z
oraz \
innych mikromacierzy
w
których
poziomy
jego
ekspresji wynosza˛
P^]_SRUWV>VWVWU`]bacZ
1.0
0.8
0.6
QhgTi
f
d%e
]^g
f
S
Xpo
jlknm
a
S
0.4
0.2
‰
q=rhs
S
XutvaxwHy
z
{}|b~M€
X
{
w€ ‚
{Fƒ
r
t…X
†‡„ |b~
ˆ
†
wˆ ‚
†Mƒ !
r
prawdopodobieństwo hipotezy zerowej (tj. Šhf ‹Œ Ž> 
przy obserwowanej wartości  ) szacujemy zakładajac
˛ rozkład normalny w obydwu sygnałach
P/2
P/2
0.0
-3
-2
-1
0
-t t
1
2
3
A JEDNAK SI E˛ RÓ ŻNI
Czy założenie rozkładu normalnego jest właściwe? W ogólnym przypadku nie ma podstaw by
sadzić,
˛
iż obserwowane wartości poziomów ekspresji genu posiadaja˛ rozkład zgodny z krzywa˛
Gaussa. Co wi˛ecej, gdy założenie to nie jest spełnione t-statystyka prowadzi do bł˛ednych
wniosków
Prosta replikacja (podwojenie) danych wejściowych:
¤R¥M¦¨§
©
¦Mª¬«­¦`®!¯°¦•±^²
µ³ª ´
©°¶H·¸C¹
³Tº¼» ³‡½ ¦%¾
¹
Ç
È ¥
ÄÊÉ
¶
²
¿® ´
9
©°¶H·¸À
¿¨ºÁ» ¿R½ ¦ÃÂÅÄƤR¦
À
È
Metody alternatywne:
Ë
testy permutacyjne
Ë
regularna t-statystyka
Ë
test Bayesa
Ë
wi˛ecej niż jedna hipoteza Ì
ANOVA
DYCHOTOMIA METOD NAUCZANIA
MASZYNOWEGO
Z NAUCZYCIELEM
B EZ NAUCZYCIELA
W przypadku, gdy dost˛epne sa pewne ob- W przypadku, gdy dost˛epne sa obserwacje,
serwacje, jednakże brak jest jakichkolwiek in- wraz z informacja˛ o ich przynależności do
formacji nt. ich przynależności do hipotety- konkretnych klas
cznych kategorii (klas)
£
£
£
Analiza skupisk (ang. cluster analysis) w celu identyfikacji naturalnie wyst˛epujacych
˛
grup (t.j. klas)
obiektów o podobnych wartościach obserwowanych
parametrów
Wizualizacja lub mapowanie wielowymiarowych
wektorów obserwacji odzwierciedlajaca
˛ topologi˛e
analizowanego zbioru danych
£
Algorytmy klasyfikacji pozwalajace
˛ przewidywać
przynależność wektorów obserwacji do zadanych
klas, na podstawie przykładów poznanych w trakcie
uczenia
Nadzorowane metody wizualizacji, uwzgl˛edniajace
˛
w procesie konstrukcji mapy wielowymiarowego zbioru danych informacje o przynależności
jego elementów do poszczególnych klas, tak aby
w wynikowej mapie możliwie dobrze rozdzielić
poszczególne klasy
Przykładowo, analiza skupisk w wektorach
poziomów ekspresji genów dla różnych przy- Przykładowo, na podstawie klasyfikacji wzorpadków chłoniaka pozwala zidentyfikować ców ekspresji genów możliwe jest rozróżniemolekularnie odmienne podtypy tego nowot- nie pomi˛edzy ALL i AML.
woru
H IERARCHICZNA ANALIZA SKUPISK
Budowa struktury hierarchicznej poprzez iteracyjne łaczenie
˛
skupisk o najmniejszej wzajemnej odległości. Trzy klasyczne
metody tego typu, różniace
˛ si˛e co do sposobu wyznaczania
odległości mi˛edzy skupiskami, to:
Metoda połaczenia
˛
minimalnego (ang. Single Link Clustering)
,+.-/
!#" $&%('*)
Metoda połaczenia
˛
maksymalnego (ang.
Clustering)
0
0
4
Complete Link
213
,+.-/
" $&%('*)
Metoda połaczenia
˛
średniego (ang. Average Link Clustering)
0658795:;0<
=
> 579 > 5:
?
@.AB;C&D!E FGBC*H IJLK*M
9ONQPSR
M IARY PODOBIE ŃSTWA
Euklidesowa miara odległości
Û á
Ï ÐH
ÍYÎÏhÐ
Ø Ö×
ÑMÒWÓRÔ%Õ
×
ÚÛ>ÜÞÝàß
Ù
Ò
oraz jej pochodne, takie jak metryka taksówkowa Û
ÍäÎCÏhÐ
Ï Ð
Ñ`Ò>ÓRÔ%Õ
Ð Û âRã
ÚÛ>Ü7Ýæå
å
Ù
ÐÛ
á
Ò
å
å
å
å
sa˛ przydatne w ocenie podobieństwa wektorów ekspresji genów, pochodzacych
˛
z różnych
macierzy – np. wektorów ekspresji dla różnych przypadków badanego nowotworu
W przypadku porównywania wzorców ekspresji dwóch różnych genów, w zmiennych warunkach środowiskowych lub w obecności określonych bodźców czy stanów fizjologicznych,
typowe miary odległości nie sa˛ przydatne. W takim przypadku istotnych biologicznie
ì
ÎCñ
ñ liniowej Pearsona
informacji może dostarczych współczynnikÎCì korelacji
ì
ç
Õ
é
ñ
Î ñ
í>îlð í Ô
é
qP èé
êbë é
î ðí 0
íá îHð í 0
í l
Ô ò
Ô ò
ã
PÎ èé‡êbë
qP èé
êbë
óYôõhö=÷`øWùRú%ûýübþ}ÿ
ì é
íïîHð í Ô
(przykładowo)
K LASYFIKACJA DANYCH – ALGORYTM K NN
Algorytm
klasyfikacji
wieloklasowej,
nieliniowa˛ granic˛e debudujacy
˛
cyzyjna,˛ przypisujac
˛ zadany wektor
obserwacji do klasy reprezentowanej
przez
najbliższego
(w
zadanej
sasiada
˛
z
metryce
odległości)
puli wektorów trenujacej
˛
(1-NN
1–Nearest Neighbour) lub do klasy
która posiada najwi˛ecej reprezentantów
w liście y najbliższych sasiadów
˛
(
k-NN)
Pomimo swojej prostoty jest to metoda za˛ w wi˛ekskakujaco
˛ skuteczna, dajac
szości praktycznych problemów rezultaty zbliżone do algorytmów znacznie
bardziej złożonych.
Warto także
zwrócić uwag˛e, iż kNN, w zasadzie
nie wymaga dedykowanych procedur
poza gromadzeniem zbioru
trenujacych,
˛
przykładów
K LASYFIKACJA DANYCH – M ASZYNY
W EKTORÓW W SPIERAJACYCH
˛
H
m
TVUXWY[Z\(]_^`YbadcfeUhgi
j
m
W
m
Maszyny
Wektorów
Wspierajacych
˛
(ang.
Support Vector Machines
– SVM) prowadza˛ klasyfikacj˛e
dwuklasowa,˛ budujac
˛ liniowa˛ (w
wersji podstawowej) granic˛e dektóra
cyzyjna˛ (hiperpłaszczyzn˛e),
maksymalizuje margines separacji klas:
Można pokazać,
iż tak zbudowana
˛
płaszczyzna jest zadana wyłacznie
przez przykłady trenujace
˛
leżace
˛
bezpośrednio na marginesie separacji.
Przykłady te nazywamy Wektorami
Wspierajacymi
˛
(ang. Support Vectors).
Pozostałe przykłady, nie maja˛ wpływu
na końcowy wynik procesu trenowania.
m
k2lmonqpsrutvxw
K LASYFIKACJA DANYCH – M ASZYNY
W EKTORÓW W SPIERAJACYCH
˛
W celu budowy nieliniowych granic decyzyjnych, algorytm SVM zast˛epuje kanoniczny
iloczyn skalarny £`¤¦¥.¤¨§ funkcja˛ jadra
˛ ©«ª`¤¬¥.¤¨­ (ang. kernel function) realizujac
˛ a˛ nieliniowe
mapowanie przykładów trenujacych
˛
K(x,y)
©®ªL¯°¥O±o­ ²´³µ¦¶,¹·º ¸`µ ¥
©®ªL¯»¥,±’­¼²´½ª,£(¯°¥O±o§°¾«¿™­ÁÀ ¥
©®ªL¯»¥,±’­¼²´ÂÏÄ#Ňª(½ ÆÈÇ°ÉOÊoËdÌ«ÍbÎ
O CENA JAKO ŚCI SCHEMATU KLASYFIKACJI
Rozważmy zagadnienie klasyfikacji dwuklasowej, której celem jest
identyfikacja przypadków o interesujacych
˛
własnościach, np. wzorcach
ekspresji genów sugerujacych
˛
pewna˛ transformacj˛e nowotworowa,˛ w dużej
liczbie przypadków typowych (tj. o normalnych poziomach ekspresji)
Jeśli odsetek przypadków interesujacych
˛
wynosi np. 0.01%, zaś klasyfikator
w każdym przypadku stwierdza brak poszukiwanych cech wzorców
ekspresji, jego dokładność można oszacować na około 99.99%!! Procentowa
ocena jakości klasyfikacji jest w tym przypadku bezwartościowa
Bardziej precyzyjna˛ ocen˛e można uzyskać stosujac
˛ kryterium
czułości – z|{ – oraz specyficzności – z&}
z~{€

z&}ž
‚ƒ…„‡†‰ˆŠ„‰‹Œ„Ž{‹’‘|ˆ“‘”z|•—–u˜™„›šd{‹’‘|ˆ“‘”z|•—–u˜b„œ

‚ƒ…„‡†—ˆ”„‰‹Œ„Ÿ‹Œ„ }¢¡ ƒ…„›šb‹Œ„ }¢¡ ƒ…„œ
O CENA JAKO ŚCI SCHEMATU KLASYFIKACJI
KRZYWE ROC
Wykres zależności czułości od negacji specyficzności nazywany jest krzywa˛ ROC
(ang. Receiver Operating Characateristic ) i stanowi podstaw˛e wiarygodnej
oceny jakości klasyfikacji. Szczególnie wygodnym sposobem kwantyfikacji
krzywej ROC jest określenie pola
powierzchni zawartego pod nia˛ obszaru,
tzw. indeksu Ñ»Ò
1.0
0.8
Az
sn
Modyfikujac
˛
parametry
klasyfikatora
(np.
wartość progu decyzyjnego)
możemy wpływać na jego czułość i
specyficzność. Jednakże, parametry
˛
W
te sa˛ ze soba˛ ściśle powiazane.
˛
czułość
szczególności zwi˛ekszajac
klasyfikacji
powodujemy
spadek
specyficzności.
Podobnie, wzrost
specyficzności pociaga
˛ za soba˛ spadek
czułości
0.6
=
0.
Az
90
=
0.
80
A
=
z
0.
70
0.4
c
de
yz
ja
o
los
wa
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
1.0 - sp
W przypadku klasyfikatora podejmujacego
˛
decyzje losowe, z poprawka˛ na prawdopodobieństwo zaistnienia każdego
typu obserwacji, ѻҮӛÔÕ Ö . Klasyfikator doskonały charakteryzuje si˛e
wartościa˛ Ñ»Ò|ÓØ×Õ Ô
P RZYDATNE ADRESY
Publiczne bazy danych mikromacierzy:
Ï
Stanford MicroArray Database http://genome-www5.stanford.edu/,
Ï
EBI ArrayExpress database http://www.ebi.ac.uk/arrayexpress/
Bioinformatyka i nauczanie maszynowe:
Ï
BioPython – Bioinformatics in Python – http://www.biopython.org/
Ï
PyML – Machine Learning in Python – http://pyml.sourceforge.net/
Ï
Bioinformatics Toolbox for Matlab R – http://www.mathworks.com/products/bioinfo/
(komercyjny)
Ï
Biocondictor, R – http://www.bioconductor.org/ http://www.r-project.org/
Ð

Podobne dokumenty