Metody nauczania maszynowego w zastosowaniach
Transkrypt
Metody nauczania maszynowego w zastosowaniach
Bioinformatyka 2 (BT172) Wykład 9 Metody nauczania maszynowego w zastosowaniach bioinformatycznych Marcin Kurdziel Zakład Biofizyki, Wydział Biotechnologii UJ 19-XII-2005 P LAN WYKŁADU Kwantyfikacja poziomów ekspresji genów z wykorzystaniem mikromacierzy Normalizacji danych, testy hipotez zmian w ekspresji Nauczanie maszynowe: z nauczycielem vs. bez nauczyciela Metody hierarchicznej analizy skupisk Algorytmy klasyfikacji: kNN, SVM Ocena jakości schematu klasyfikacji W ZORCE EKSPRESJI GENÓW Pula wyznakowanego cDNA lub RNA (Affymetrix * GeneChip R ) podlega hybrydyzacji do sond immobilizowanych na stałym podłożu, w celu identyfikacji transkryptów których ekspresja uległa zmianie, w stosunku do zadanego wzorca, w odpowiedzi na zaistnienie określonych warunków eksperymentalnych + Estymacja odpowiedzi na poziomie transkryptu oraz jej zmienności + Test(y) istotności statystycznej obserwowanych zmian , - .0/12 3547698;:=<>8 39?A@=BC@=DFEHG=@JILKMI Geny I 1.50 1.18 -2.10 0.09 Macierze II III 0.21 -0.26 2.43 -1.35 -1.32 0.12 -1.11 0.63 IV 0.05 0.29 -0.22 -0.22 N ORMALIZACJA , N ORMALIZACJA , ... W typowych warunkach eksperymentalnych wydajność procesu izolacji mRNA oraz jego znakowania i hybrydyzacji podlegaja˛ zmiana˛ w poszczególnych etapach eksperymentu. Co za tym idzie, analiza danych z mikromacierzy nie jest możliwa bez odpowiednio przeprowadzonej normalizacji Normalizacja pomi˛edzy mikromacierzami umożliwia analiz˛e porównawcza˛ niwelujac ˛ różnice co do średniej (lub mediany) oraz rozrzutu intensywności sygnałów na płytce Normalizacja w obr˛ebie mikromacierzy wykorzystuje techniki cyfrowej obróbki obrazu w celu kompensacji wpływu czynników takich jak poziom odniesienia (tło), lokalizacja sondy na płytce, etc. na oszacowana˛ wartość zmiany ekspresji transkryptu Średnia czy mediana? ! "# $% & (' ") const N ORMALIZACJA , N ORMALIZACJA , ... 4.0 4.0 3.0 3.0 2.0 2.0 1.0 1.0 0.0 0.0 -1.0 -1.0 -2.0 -2.0 -3.0 -3.0 -4.0 Bardziej skomplikowane schematy normalizacji moga˛ brać pod uwag˛e pozycj˛e danego sygnału w posortowanej tablicy sygnałów (normalizacja wzgl˛edem rankingu, ang. rank normalization) lub prowadzić globalna˛ korekcj˛e krzywych dopasowanych do pewnych rozkładów sygnałów (np. normalizacja loess – Local regression) -4.0 I II III IV V I 4.0 4.0 3.0 3.0 2.0 2.0 1.0 1.0 0.0 0.0 -1.0 -1.0 -2.0 -2.0 -3.0 -3.0 -4.0 II -4.0 III I II III [ IV V I II IV V III IV V A¡¢ A JEDNAK SI E˛ RÓ ŻNI W dobrze zaprojektowanym eksperymencie, jedynie niewielka cz˛eść spośród kilku(nastu) tysi˛ecy genów reprezentowanych na mikromacierzy b˛edzie wykazywała istotna˛ biologicznie zmian˛e poziomu ekspresji, podczas gdy pewna zmienność sygnału może wyst˛epować dla niemal wszystkich obserwowanych sond; Jak zidentyfikować geny o zmiennej ekspresji? t-statystyka: N Referencyjny zbiór O mikromacierzy w których pewnemu genowi odpowiadaja˛ poziomy ekspresji PRQTSRUWV>VWVWUMQYX[Z oraz \ innych mikromacierzy w których poziomy jego ekspresji wynosza˛ P^]_SRUWV>VWVWU`]bacZ 1.0 0.8 0.6 QhgTi f d%e ]^g f S Xpo jlknm a S 0.4 0.2 q=rhs S XutvaxwHy z {}|b~M X { w {F r t X |b~ w M ! r prawdopodobieństwo hipotezy zerowej (tj. hf > przy obserwowanej wartości ) szacujemy zakładajac ˛ rozkład normalny w obydwu sygnałach P/2 P/2 0.0 -3 -2 -1 0 -t t 1 2 3 A JEDNAK SI E˛ RÓ ŻNI Czy założenie rozkładu normalnego jest właściwe? W ogólnym przypadku nie ma podstaw by sadzić, ˛ iż obserwowane wartości poziomów ekspresji genu posiadaja˛ rozkład zgodny z krzywa˛ Gaussa. Co wi˛ecej, gdy założenie to nie jest spełnione t-statystyka prowadzi do bł˛ednych wniosków Prosta replikacja (podwojenie) danych wejściowych: ¤R¥M¦¨§ © ¦Mª¬«¦`®!¯°¦±^² µ³ª ´ ©°¶H·¸C¹ ³Tº¼» ³½ ¦%¾ ¹ Ç È ¥ ÄÊÉ ¶ ² ¿® ´ 9 ©°¶H·¸À ¿¨ºÁ» ¿R½ ¦ÃÂÅÄƤR¦ À È Metody alternatywne: Ë testy permutacyjne Ë regularna t-statystyka Ë test Bayesa Ë wi˛ecej niż jedna hipoteza Ì ANOVA DYCHOTOMIA METOD NAUCZANIA MASZYNOWEGO Z NAUCZYCIELEM B EZ NAUCZYCIELA W przypadku, gdy dost˛epne sa pewne ob- W przypadku, gdy dost˛epne sa obserwacje, serwacje, jednakże brak jest jakichkolwiek in- wraz z informacja˛ o ich przynależności do formacji nt. ich przynależności do hipotety- konkretnych klas cznych kategorii (klas) £ £ £ Analiza skupisk (ang. cluster analysis) w celu identyfikacji naturalnie wyst˛epujacych ˛ grup (t.j. klas) obiektów o podobnych wartościach obserwowanych parametrów Wizualizacja lub mapowanie wielowymiarowych wektorów obserwacji odzwierciedlajaca ˛ topologi˛e analizowanego zbioru danych £ Algorytmy klasyfikacji pozwalajace ˛ przewidywać przynależność wektorów obserwacji do zadanych klas, na podstawie przykładów poznanych w trakcie uczenia Nadzorowane metody wizualizacji, uwzgl˛edniajace ˛ w procesie konstrukcji mapy wielowymiarowego zbioru danych informacje o przynależności jego elementów do poszczególnych klas, tak aby w wynikowej mapie możliwie dobrze rozdzielić poszczególne klasy Przykładowo, analiza skupisk w wektorach poziomów ekspresji genów dla różnych przy- Przykładowo, na podstawie klasyfikacji wzorpadków chłoniaka pozwala zidentyfikować ców ekspresji genów możliwe jest rozróżniemolekularnie odmienne podtypy tego nowot- nie pomi˛edzy ALL i AML. woru H IERARCHICZNA ANALIZA SKUPISK Budowa struktury hierarchicznej poprzez iteracyjne łaczenie ˛ skupisk o najmniejszej wzajemnej odległości. Trzy klasyczne metody tego typu, różniace ˛ si˛e co do sposobu wyznaczania odległości mi˛edzy skupiskami, to: Metoda połaczenia ˛ minimalnego (ang. Single Link Clustering) ,+.-/ !#" $&%('*) Metoda połaczenia ˛ maksymalnego (ang. Clustering) 0 0 4 Complete Link 213 ,+.-/ " $&%('*) Metoda połaczenia ˛ średniego (ang. Average Link Clustering) 0658795:;0< = > 579 > 5: ? @.AB;C&D!E FGBC*H IJLK*M 9ONQPSR M IARY PODOBIE ŃSTWA Euklidesowa miara odległości Û á Ï ÐH ÍYÎÏhÐ Ø Ö× ÑMÒWÓRÔ%Õ × ÚÛ>ÜÞÝàß Ù Ò oraz jej pochodne, takie jak metryka taksówkowa Û ÍäÎCÏhÐ Ï Ð Ñ`Ò>ÓRÔ%Õ Ð Û âRã ÚÛ>Ü7Ýæå å Ù ÐÛ á Ò å å å å sa˛ przydatne w ocenie podobieństwa wektorów ekspresji genów, pochodzacych ˛ z różnych macierzy – np. wektorów ekspresji dla różnych przypadków badanego nowotworu W przypadku porównywania wzorców ekspresji dwóch różnych genów, w zmiennych warunkach środowiskowych lub w obecności określonych bodźców czy stanów fizjologicznych, typowe miary odległości nie sa˛ przydatne. W takim przypadku istotnych biologicznie ì ÎCñ ñ liniowej Pearsona informacji może dostarczych współczynnikÎCì korelacji ì ç Õ é ñ Î ñ í>îlð í Ô é qP èé êbë é î ðí 0 íá îHð í 0 í l Ô ò Ô ò ã PÎ èéêbë qP èé êbë óYôõhö=÷`øWùRú%ûýübþ}ÿ ì é íïîHð í Ô (przykładowo) K LASYFIKACJA DANYCH – ALGORYTM K NN Algorytm klasyfikacji wieloklasowej, nieliniowa˛ granic˛e debudujacy ˛ cyzyjna,˛ przypisujac ˛ zadany wektor obserwacji do klasy reprezentowanej przez najbliższego (w zadanej sasiada ˛ z metryce odległości) puli wektorów trenujacej ˛ (1-NN 1–Nearest Neighbour) lub do klasy która posiada najwi˛ecej reprezentantów w liście y najbliższych sasiadów ˛ ( k-NN) Pomimo swojej prostoty jest to metoda za˛ w wi˛ekskakujaco ˛ skuteczna, dajac szości praktycznych problemów rezultaty zbliżone do algorytmów znacznie bardziej złożonych. Warto także zwrócić uwag˛e, iż kNN, w zasadzie nie wymaga dedykowanych procedur poza gromadzeniem zbioru trenujacych, ˛ przykładów K LASYFIKACJA DANYCH – M ASZYNY W EKTORÓW W SPIERAJACYCH ˛ H m TVUXWY[Z\(]_^`YbadcfeUhgi j m W m Maszyny Wektorów Wspierajacych ˛ (ang. Support Vector Machines – SVM) prowadza˛ klasyfikacj˛e dwuklasowa,˛ budujac ˛ liniowa˛ (w wersji podstawowej) granic˛e dektóra cyzyjna˛ (hiperpłaszczyzn˛e), maksymalizuje margines separacji klas: Można pokazać, iż tak zbudowana ˛ płaszczyzna jest zadana wyłacznie przez przykłady trenujace ˛ leżace ˛ bezpośrednio na marginesie separacji. Przykłady te nazywamy Wektorami Wspierajacymi ˛ (ang. Support Vectors). Pozostałe przykłady, nie maja˛ wpływu na końcowy wynik procesu trenowania. m k2lmonqpsrutvxw K LASYFIKACJA DANYCH – M ASZYNY W EKTORÓW W SPIERAJACYCH ˛ W celu budowy nieliniowych granic decyzyjnych, algorytm SVM zast˛epuje kanoniczny iloczyn skalarny £`¤¦¥.¤¨§ funkcja˛ jadra ˛ ©«ª`¤¬¥.¤¨ (ang. kernel function) realizujac ˛ a˛ nieliniowe mapowanie przykładów trenujacych ˛ K(x,y) ©®ªL¯°¥O±o ²´³µ¦¶,¹·º ¸`µ ¥ ©®ªL¯»¥,±¼²´½ª,£(¯°¥O±o§°¾«¿ÁÀ ¥ ©®ªL¯»¥,±¼²´ÂÃÄ#Ū(½ ÆÈÇ°ÉOÊoËdÌ«ÍbÎ O CENA JAKO ŚCI SCHEMATU KLASYFIKACJI Rozważmy zagadnienie klasyfikacji dwuklasowej, której celem jest identyfikacja przypadków o interesujacych ˛ własnościach, np. wzorcach ekspresji genów sugerujacych ˛ pewna˛ transformacj˛e nowotworowa,˛ w dużej liczbie przypadków typowych (tj. o normalnych poziomach ekspresji) Jeśli odsetek przypadków interesujacych ˛ wynosi np. 0.01%, zaś klasyfikator w każdym przypadku stwierdza brak poszukiwanych cech wzorców ekspresji, jego dokładność można oszacować na około 99.99%!! Procentowa ocena jakości klasyfikacji jest w tym przypadku bezwartościowa Bardziej precyzyjna˛ ocen˛e można uzyskać stosujac ˛ kryterium czułości – z|{ – oraz specyficzności – z&} z~{ z&} {|z|ud{|z|ub }¢¡ b }¢¡ O CENA JAKO ŚCI SCHEMATU KLASYFIKACJI KRZYWE ROC Wykres zależności czułości od negacji specyficzności nazywany jest krzywa˛ ROC (ang. Receiver Operating Characateristic ) i stanowi podstaw˛e wiarygodnej oceny jakości klasyfikacji. Szczególnie wygodnym sposobem kwantyfikacji krzywej ROC jest określenie pola powierzchni zawartego pod nia˛ obszaru, tzw. indeksu Ñ»Ò 1.0 0.8 Az sn Modyfikujac ˛ parametry klasyfikatora (np. wartość progu decyzyjnego) możemy wpływać na jego czułość i specyficzność. Jednakże, parametry ˛ W te sa˛ ze soba˛ ściśle powiazane. ˛ czułość szczególności zwi˛ekszajac klasyfikacji powodujemy spadek specyficzności. Podobnie, wzrost specyficzności pociaga ˛ za soba˛ spadek czułości 0.6 = 0. Az 90 = 0. 80 A = z 0. 70 0.4 c de yz ja o los wa 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 1.0 - sp W przypadku klasyfikatora podejmujacego ˛ decyzje losowe, z poprawka˛ na prawdopodobieństwo zaistnienia każdego typu obserwacji, ѻҮÓÔÕ Ö . Klasyfikator doskonały charakteryzuje si˛e wartościa˛ Ñ»Ò|ÓØ×Õ Ô P RZYDATNE ADRESY Publiczne bazy danych mikromacierzy: Ï Stanford MicroArray Database http://genome-www5.stanford.edu/, Ï EBI ArrayExpress database http://www.ebi.ac.uk/arrayexpress/ Bioinformatyka i nauczanie maszynowe: Ï BioPython – Bioinformatics in Python – http://www.biopython.org/ Ï PyML – Machine Learning in Python – http://pyml.sourceforge.net/ Ï Bioinformatics Toolbox for Matlab R – http://www.mathworks.com/products/bioinfo/ (komercyjny) Ï Biocondictor, R – http://www.bioconductor.org/ http://www.r-project.org/ Ð