BKonopka_Ontologies_..
Transkrypt
BKonopka_Ontologies_..
Ontologie i podobieństwo semantyczne Bogumił Konopka Grupa Biofizyki i Bioinformatyki Nanoporów (dr hab. inż. M. Kotulska, prof. PWr) Instytut Inżynierii Biomedycznej i Pomiarowej WPPT PWr O czym będzie wykład? ● Ontologia – co to jest? ● Czym są ontologie? ● Jakie są ich główne zadania? ● Jakie są typy ontologii? ● Jakie są zasady ich projektowania? ● Przykłady ontologii (SNOMED-CT, GO) ● Co to jest podobieństwo semantyczne ● ● Algorytmy obliczania podobieństwa semantycznego Internet drugiej generacji – semantic web 2 Ontologia jako nauka Ontologia [gr. on óntos ‘będący’, ‘byt’, óntos on ‘rzeczywiście będący, istniejący’, lógos ‘słowo’, ‘nauka’, ‘teoria’], filozficzna nauka o bycie; w sensie pierwotnym — termin używany od XVII w. (J. Clauberg, Ch. Wolff) zamiennie ze starszą nazwą metafizyka; odnosi się do arystotelesowskiej „filozofii pierwszej” jako do nauki o bycie jako bycie, następnie do kontynuacji jej rozważań w teorii bytu, zajmującej się bytem w jego naturze powszechnym; Encyklopedia PWN ● Ontologia odpowiada na pytania dotyczące otaczającej nas rzeczywistości. ● Czym są rzeczy? ● Co jest ich esencją? ● ● Co w nich pozostaje nawet gdy ulegają zmianom (np. zmienią kolor lub kształt). Co sprawia, że są tym czym są? 3 ● Ontologia starożytna rozróżniała dwa pojęcia ● ● ● Esencja – czyli coś co nadaje rzeczy sens/znaczenie; jest to pewna idea lub koncepcja – nie musi istnieć Egzystencja – oznacza coś co jest obecne w świecie, namacalne Przykład: Centaur to pół człowiek, pół koń. Ma esencję, pomimo tego że nie istnieje 4 http://farm7.static.flickr.com/6065/6064594985_0a1d61209a.jpg Ontologia jako nauka Ontologie przez małe „o” ● ● ● „Ontologia to jednoznaczne, formalne określenie konceptualizacji” (T. Gruber 1993)(google „konceptualizacja”: ujmowanie w pojęcia) Konceptualizacja to inaczej abstrakcyjne, uproszczone przedstawienie fragmentu otaczającego świata - model Każda ontologia składa się ze: ● słownika terminów określających pewną dziedzinę ● związków pomiędzy terminami ● zbioru reguł ograniczających ontologię 5 Do czego służą ontologie? ● Najważniejszym zadaniem ontologii jest precyzyjne identyfikowanie klas obiektów oraz relacji między nimi w zadanej dziedzinie wiedzy. 6 Ontologie przez małe „o” - przykłady ● Prosty przykład z dziedziny elektroniki: ● „Wzmacniacz operacyjny to typ urządzenia elektronicznego, a tranzystory to elementy składowe wzmacniacza operacyjnego”. Urządzenie elektroniczne TYP Wzmacniacz operacyjny EL. Składowy Tranzystor 7 Ontologie przez małe „o” ● Enzym Białko A + CH3 X Uczestniczy Modyfikacja potranslacyjna Cel: <białko> Enzym: <białko> JEST Fosforylacja Substrat:: PO4 3- Białko A-CH3 Substrat Nazwa: <cząsteczka> Przeprowadza JEST Enzym PH: <wart. PH> Ki: <wart. Ki> Metylacja Substrat : CH3- JEST Kinaza Przeprowadza fosforylację Substrat: PO43- JEST Metylaza Przeprowadza metylację Substrat: CH38 Ontologie – zapis formalny ● Ontologia może zostać opisana przez parę <O,L>, gdzie ● O to opis struktury ontologii; ● L leksykon pojęć Struktura O to zbiór ● C zbiór terminów ● R zbiór relacji. ● ● C A. Maedche 2003, Ontology Learning for the Semantic Web ● O O={C , R , H , A }, gdzie : HC – hierarchia terminów C Dla H ={h=c i , c j , r :c i , c j ∈C ,r ∈R } AO to zbiór aksjomatów, pozwalających na wprowadzenie dodatkowych ograniczeń do O. 9 Ontologia – zapis formalny ● Leksykon definicji zdefiniowany jest jako C R L={L , L , F ,G}, gdzie: ● LC to zbiór definicji dla terminów ● LR to zbiór definicji dla relacji ● F i G to funkcje przypisania terminów/relacji do ich definicji 10 Ontologie – zapis formalny ● F⊆LC x C opisuje pary elementów termin-definicja: C F l c =c ∈C : l c , c∈ F dla wszystkich l c ∈ L −1 C F c =l∈ L : l c , c∈F dla wszystkich c∈C ● R G⊆ L x R opisuje pary elementów relacja-definicja G l r =r ∈ R :l r , r ∈G dla wszystkich l r ∈ L R G−1 r =l∈ L R :l r ,r ∈G dla wszystkich r ∈ R 11 Ontologie – zapis formalny ● Przykład ● Ontologia O = {C,R,HCAO}, ● ● C = {c1,c2,c3} ● R={r1,r2} ● HC={(c1,c2,r1),(c2,c3,r2)} ● AO=Ø Leksykon L = {LC,LR,F,G} ● Urządzenie elektroniczne TYP Wzmacniacz operacyjny EL. Składowy Tranzystor LC={'U. Elektroniczne',... 'Wzm. operacyjny','Tranzystor'} ● LR={'TYP','El. Składowy'} ● F(c1)='U. Elektroniczne' , G(r2)='El. Skłdaowy' 12 Funkcje ontologii Dzielenie się wiedzą ● Unifikacja różnych sposobów przedstawienia tych samych obiektów ● ● ● Umożliwienie wymiany danych pomiędzy aplikacjami komputerowymi Ułatwienie komunikacji pomiędzy ludźmi Namacalne/formalne przedstawienie teorii Uporządkowanie struktury wiedzy ● Umożliwienie tworzenia aplikacji wykorzystujących zebraną wiedzę 13 Funkcje ontologii - przykłady ● Dzielenie się wiedzą ● ● ● ● Grupa badawcza projektuje ontologię urządzeń elektronicznych Inne grupy korzystają z udostępnionej ontologii Wszyscy posługują się tym samym słownictwem Możliwe jest wykorzystanie wspólnej wiedzy w systemach automatycznego projektowania ● Uporządkowanie struktury wiedzy ● Ontologia ludzi na uczelni typ Człowiek Wykładowca Student Kobieta Mężczyzna 14 Funkcje ontologii - przykłady ● Dzielenie się wiedzą ● ● ● ● Grupa badawcza projektuje ontologię urządzeń elektronicznych Inne grupy korzystają z udostępnionej ontologii Wszyscy posługują się tym samym słownictwem Możliwe jest wykorzystanie wspólnej wiedzy w systemach automatycznego projektowania ● Uporządkowanie struktury wiedzy ● Ontologia ludzi na uczelni typ Wykładowca Funkcja Student Kobieta Człowiek typ Mężczyzna 15 Rodzaje ontologii Podział ze względu na funkcję ● Ontologia – słownik ● ● ● Nacisk na zdefiniowanie słownictwa w dziedzinie Definiowane pojęcia mogą być wykorzystywane do opisu określonych układów Przykład – ontologia urządzeń elektronicznych (slajd 8) ● Ontologia - zapis wiedzy ● ● ● Nacisk na odpowiednią strukturyzację Relacje i terminy są zapisem wiedzy samym w sobie Przykład – ontologia modyfikacji potranslacyjnych (slajd 9) 16 N. Guarino, Formal Ontology in Information Systems. Proceedings of FOIS’98, Trento, Italy, 6-8 June 1998. Amsterdam, IOS Press, pp. 3-15. Rodzaje ontologii Podział ze względu na szczegółowość ● Ontologie wysokiego rzędu – opisują bardzo ogólne terminy np. przestrzeń, czas, części, itp... – mają zastosowanie w innych ontologiach ● Ontologie dziedzinowe/zadaniowe – uszczegóławiają ogólne terminy, uwzględniając konkretną dziedzinę/zadanie np. medycyna / diagnozowanie ● Ontologie aplikacyjne – bardzo szczegółowe, często opisują role konkretnych bytów/elementów opisywanej dziedziny podczas określonych procesów/zdarzeń 17 Zasady projektowania ontologii 1.Przejrzystość 2.Możliwość rozbudowy 3.Koherentność 4.Minimalizacja ograniczeń 5.Przedstawianie wiedzy rozłącznej oraz wiedzy kompletnej 6.Minimalizacja różnic składniowych 7.Standaryzacja konwencji nazewnictwa 18 Zasady projektowania ontologii ● Przejrzystość ● ● ● ● Ontologia powinna w efektywny sposób definiować znaczenie wykorzystywanych terminów. Definicje powinny być obiektywne i mogą mieć formę formalnych aksjomatów. Definicja powinna zawierać warunki konieczne i warunki wystarczające dla zdefiniowania danego terminu. Wszystkie definicje powinny być dodatkowo opisane językiem naturalnym. 19 Zasady projektowania ontologii ● Przejrzystość ● ● Modyfikacja Ontologia powinna w efektywny sposób definiować potranslacyjna „Reakcja chemiczna w wyniku, znaczenie wykorzystywanych terminów. której modyfikacji ulega ukształtowane białko” Definicje powinny być obiektywne i mogą mieć Musi mieć formę formalnych aksjomatów. Cel: (białko) ● ● Definicja powinna zawierać warunki konieczne i Może zachodzić przy udziale warunki wystarczające dla zdefiniowania danego Enzym: (białko) terminu. Wszystkie definicje powinny być dodatkowo opisane językiem naturalnym. 20 Zasady projektowania ontologii ● Możliwość rozbudowy ● Terminy powinny być zdefiniowane w taki sposób, że dodawanie bardziej wyspecjalizowanych lub zupełnie nowych elementów nie pociąga za sobą konieczności zmian w już istniejących definicjach. (Np. dodadanie glikozylacji, ) 21 Zasady projektowania ontologii Koherentność ● ● Wnioski wyciągane na podstawie struktury ontologii powinny być spójne z definicjami. Jeżeli na podstawie ontologii tworzony jest wniosek, który jest sprzeczny z definicjami terminów to taka ontologia nie jest koherentna. Przykład Pozytywny – ● Fosforylacja to Modyfikacja potranslacyjna przeprowadzana przez enzym, który jest kinazą. http://i.istockimg.com ● Przykład Negatywny: – Dłoń – część ręki składająca się z palców 22 Zasady projektowania ontologii Koherentność ● ● Wnioski wyciągane na podstawie struktury ontologii powinny być spójne z definicjami. Jeżeli na podstawie ontologii tworzony jest wniosek, który jest sprzeczny z definicjami terminów to taka ontologia nie jest koherentna. Przykład Pozytywny – ● Fosforylacja to Modyfikacja potranslacyjna przeprowadzana przez enzym, który jest kinazą. http://i.istockimg.com ● Przykład Negatywny: – Dłoń – „Część ręki składająca się z palców” Śródręcze 23 Zasady projektowania ontologii ● Minimalizacja ograniczeń ● Aby ontologia była jak najbardziej uniwersalna, należy minimalizować liczbę wprowadzanych ograniczeń do tych najbardziej koniecznych. – – Np. jak zdefiniować cel modyfikacji w naszej przykładowej ontologii? ( „białko ludzkie”?, „białko bakteryjne”? ...) Można założyć, że "Cel" jest określany przez „identyfikator białka”, ale bez definiowania konkretnego formatu np. Uniprot albo PDB Co zyskujemy? 24 Zasady projektowania ontologii ● Przedstawianie wiedzy rozłącznej oraz wiedzy kompletnej ● W klasie należy wydzielać rozłączne pod_klasy np. dla klasy (Białko) można stworzyć pod_klasy (Globularne, Membranowe, Fibryle). – ● Pod_klasy są rozłączne ponieważ to samo białko nie może być jednocześnie Globularne i Membranowe. Rozkład klasy na pod_klasy jest kompletny, gdy wszystkie możliwe przypadki klasy nadrzędnej można zakwalifikować do jednej z pod_klas 25 Zasady projektowania ontologii ● Minimalizacja różnic składniowych ● Przy definiowaniu pojęć bliźniaczych należy posługiwać się tą samą składnią Kinaza ●Definicja: "Enzym przeprowadzający fosforylację" Informacje: ●1. Jest "Enzym" ●2. Ma "Substrat" PO3 ● Metylotransferaza ●Definicja: Przypadek klasy "Enzym", "Białko przeprowadzające modyfikację postranslacyjną. Jednym z substratów jest CH3" ● Axiom: ●= (("Enzym" "Kinaza") ("CH3")) ● Axiom: ●= (("Enzym" "Kinaza") ("PO3")) ● 26 Zasady projektowania ontologii ● Standaryzacja konwencji nazewnictwa ● ● Żeby ułatwić zrozumienie terminów, powinno się stosować te same wzorce nazewnictwa dla bliźniaczych terminów, Przykład negatywny: – ● Palec_Kciuk, Wskazujący_Palec_u_Dłoni Przykład pozytywny – Palec_Kciuk, Palec_Wskazujący 27 Przykładowe ontologie ● BFO - Basic Formal Ontology ● DOLCE ● SNOMED - CT ● OGMS – (Ontology for General Medical Science) ● Gene Ontology ● ChEBI ● EXACT (Experimental ACTions ontology) ● Portale z ontologiami: http://bioportal.bioontology.org/ http://www.obofoundry.org/ 28 SNOMED – CT (1) Systematized NOmenclature of MEDicine -Clinical Terms ● Baza unifikująca terminologię wykorzystywaną w różnych obszarach medycyny: ● Procedury ● Aparatura ● Czynności administracyjne ● Diagnostyka ● Jednostki chorobowe ● ... itd. 29 SNOMED – CT (2) Systematized NOmenclature of MEDicine -Clinical Terms ● ● Zasadnicze cele SNOMED'u to ułatawienie: ● akwizycji ● analizy ● wymiany danych medycznych Obszary zastosowania: ● Systemy opieki medycznej - kliniki ● Badania naukowe w medycynie ● Systemy nadzoru publicznej opieki medycznej ● Analiza kosztów ● ... 30 SNOMED – CT (3) Systematized NOmenclature of MEDicine -Clinical Terms ● ● ● Leksykon składa się z prawie 400 tys. klas (terminów) Terminy są zhierarchizowane przez relację „is_a” (łączy bardziej ogólnych przodków z potomkami) Inne relacje wprowadzają dodatkowe informacje (np. <viral pneumonia> „has a finding site” <lung>) 31 SNOMED – CT (4) Systematized NOmenclature of MEDicine -Clinical Terms ● Terminy są podzielone na kilkanaście rozłącznych hierarchii np: ● Rezultaty badań klinicznych/zaburzenia – ● Procedury – ● Terminy opisujące obserwacje i rezultaty badań (w tym choroby) Wszelkie procedury medyczne od zadań administracyjnych po procedury diagnostyczne Produkt Biologiczny/Farmaceutyczny – Terminy związane z lekami traktowanymi jako produkty, a nie substancje. Wykorzystywane np przy przetwarzaniu zamówień lub wydawaniu recept. 32 SNOMED – CT (5) Systematized NOmenclature of MEDicine -Clinical Terms ● ● ● Polska jest członkiem IHTSDO od grudnia 2011 Za wykorzystanie i dystrybucję bazy SNOMED‑CT w polsce odpowiada Centrum Systemów Informacyjnych Ohrony Zdrowia (CSIOZ). www.csioz.gov.pl 33 Gene Ontology - GO ● Cel ● ● Zadania ● Tworzenie i kontrola słownika wyrażeń ● ● ● Standaryzacja opisu genów oraz białek Opisywanie obiektów Dostarczenie narzędzi do przetwarzania zgromadzonych danych Struktura ● Molecular function (8660) ● Biological Process (17893) ● Cellular Component (2625) Gene Ontology - GO Gene Ontology - GO Gene Ontology GO ● Opisywany obiekt: 2he4A > Q15599 Molecular function Biological Process Cellular Component GO:0005515 GO:0006461 GO:0016324 GO:0008022 GO:0048839 GO:0016020 GO:0016247 GO:0012505 GO:0005886 GO:0005737 GO:0005634 Gene Ontology GO ● Opisywany obiekt: 2he4A > Q15599 Molecular function Biological Process Cellular Component protein binding protein complex assembly nucleus protein Cterminus binding inner ear development cytoplasm channel regulator activity plasma membrane membrane apical plasma membrane extrinsic to membrane Co to jest podobieństwo semantyczne? Semantyka językoznawcza – nauka o znaczeniu wyrazów Podobieństwo semantyczne – podobieństwo znaczenia W oparciu o terminy W oparciu o krawędzie ontologii Metody hybrydowe C Pesquita, D Faria, A´ O Falca, P Lord, F M Couto, Semantic Similarity in Biomedical Ontologies, PLoS Comput Biol 5(7): e1000443. doi:10.1371/journal.pcbi.1000443 Podział miar podobieństwa semantycznego Miary bazujące na krawędziach Metody mierzące odległość pomiędzy terminami ● Metody mierzące wspólną drogę do korzenia drzewa http://bioinformatics.clemson.edu/G-SESAME ● Miary bazujące na krawędziach ● ● Zaleta – bardzo intuicyjne, zbliżone do sposobu wnioskowania ludzi Podstawowe założenia: ● ● Węzły i krawędzie są rozmieszczone równomiernie Krawędzie na tym samym poziomie w grafie odpowiadają tej samej odległości semantycznej (znaczeniowej) Miary bazujące na węzłach Miary bazujące na węzłach Wykorzystują właściwości porównywanych terminów, terminów poprzedzających (“przodków”) lub terminów następujących (“dzieci”). ● Np. Information Content IC (informatywność) ● IC=−log p c ● ● p(c) – prawdopodobieństwo wystąpienia terminu “c” w określonej bazie p (c) oblicza się jako częstotliwość przypisań danego terminu i jego potomków; IC oblicza się również wykorzystując liczbę “dzieci” terminu; Miary bazujące na węzłach ● MICA (Most Informative Common Ancestor) ● DCA (Disjoint Common Ancestor) Miary bazujące na węzłach ● Najbardziej popularne miary podobieństwa semantycznego korzystające z IC. ● Resnik sim Res c 1, c 2 = IC c MICA ● Lin ● Jian & Conrath 2xICc MCIA sim Lin c 1, c 2= IC c 1 IC c 2 sim JC c 1, c 2 =1−IC c 1 IC c 2 −2xIC c MICA ● Schlicker sim Rel c 1, c 2 =sim Lin c 1, c2 x 1− p c A Cx – termin x p(cA)- prawdopodobieństwo wystąpienia danego przodka w bazie (A -> Ancestor) Miary bazujące na węzłach ● Zalety metod korzystających z IC: ● ● ● Mniej wrażliwe na zmienną odległość znaczeniową pomiędzy terminami Mniej wrażliwe na nierównomierny rozkład terminów w grafie Wady: ● Na częstotliwość przypisywania danego terminu mają wpływ trendy w nauce Porównywanie zbiorów terminów Porównywanie dwóch zbiorów Porównywanie zbiorów terminów ● Porównywanie parami: ● Wszystkie pary ● ● Najlepsze pary Metody łączenia wyników: ● Średnia ● Maksimum ● Białko A Suma GO:0043229 Białko B GO:0043231 GO:0043227 0.475 0.593 GO:0005622 0.700 0.588 Porównywanie zbiorów terminów Porównywanie zbiorów terminów ● Najlepsze rozwiązanie porównywania zbiorów to średnia z najlepiej pasujących par. ● wypośrodkowanie pomiędzy metodami wykorzystującymi maksimum, a uśredniającymi ∑ max j go Ai , go Bj ∑ max i go Ai , go Aj Similarity A , B= i j Białko A mn GO:0043229 Białko B GO:0043231 GO:0043227 0.475 0.593 GO:0005622 0.700 0.588 Ocena poprawności miary ● ● Nie ma obiektywnego punktu odniesienia. Można wykorzystywać inne właściwości, aby ocenić stopień podobieństwa: ● Podobieństwo sekwencji aminokwasowej – korelacja (ograniczenie do nonIEA) ● Ekseprymenty ekspresji genów – korelacja ● Wyniki klasyfikacji białek ● ... IEA – Inferred Electronically Annotation Ocena poprawności miary ● ● Żadna z metod opisanych w literaturze nie została uznana za najlepszą Skuteczność metod zmienia się w zależności od: ● Pierwotnego przeznaczenia ● Bazy danych ● Stosowanej miary skuteczności ● Internet - teraz ● ● ● Medium, które umożliwia swobodny dostęp do informacji Umożliwia swobodną publikację, własnymi poglądami, wiedzą, ... World Wide Web Consortium – pracuje nad udoskonalaniem sieci http://answers.yourdictionary.com Przyszłość ontologii Semantic web – sieć semantyczna ● Internet drugiej generacji ● Strony internetowe mają zawierać dane oraz meta‑dane – ● ● Dzięki ontologiom informacja ma mieć dobrze zdefiniowane znaczenie Programy komputerowe będą mogły w sposób „świadomy” interpretować informację i korzystać z niej Możliwe będzie zlecanie im złożonych zadań np. umówienie wizyty u lekarza lub zakup produktów żywnościowych. Przyszłość ontologii