BKonopka_Ontologies_..

Transkrypt

BKonopka_Ontologies_..
Ontologie i podobieństwo
semantyczne
Bogumił Konopka
Grupa Biofizyki i Bioinformatyki
Nanoporów
(dr hab. inż. M. Kotulska, prof. PWr)
Instytut Inżynierii Biomedycznej i Pomiarowej
WPPT PWr
O czym będzie wykład?
●
Ontologia – co to jest?
●
Czym są ontologie?
●
Jakie są ich główne zadania?
●
Jakie są typy ontologii?
●
Jakie są zasady ich projektowania?
●
Przykłady ontologii (SNOMED-CT, GO)
●
Co to jest podobieństwo semantyczne
●
●
Algorytmy obliczania podobieństwa semantycznego
Internet drugiej generacji – semantic web
2
Ontologia jako nauka
Ontologia [gr. on óntos ‘będący’, ‘byt’, óntos on ‘rzeczywiście będący, istniejący’, lógos ‘słowo’, ‘nauka’, ‘teoria’], filozficzna nauka o bycie; w sensie pierwotnym — termin używany od XVII w. (J. Clauberg, Ch. Wolff) zamiennie ze starszą nazwą metafizyka; odnosi się do arystotelesowskiej „filozofii pierwszej” jako do nauki o bycie jako bycie, następnie do kontynuacji jej rozważań w teorii bytu, zajmującej się bytem w jego naturze powszechnym;
Encyklopedia PWN ●
Ontologia odpowiada na pytania dotyczące otaczającej
nas rzeczywistości.
●
Czym są rzeczy?
●
Co jest ich esencją?
●
●
Co w nich pozostaje nawet gdy
ulegają zmianom
(np. zmienią kolor lub kształt).
Co sprawia, że są tym czym są?
3
●
Ontologia starożytna rozróżniała dwa pojęcia
●
●
●
Esencja – czyli coś co nadaje rzeczy
sens/znaczenie; jest to pewna idea lub koncepcja –
nie musi istnieć
Egzystencja – oznacza coś co jest obecne w
świecie, namacalne
Przykład:
Centaur to pół człowiek,
pół koń.
Ma esencję,
pomimo tego że nie istnieje
4
http://farm7.static.flickr.com/6065/6064594985_0a1d61209a.jpg
Ontologia jako nauka
Ontologie przez małe „o”
●
●
●
„Ontologia to jednoznaczne, formalne określenie
konceptualizacji” (T. Gruber 1993)(google
„konceptualizacja”: ujmowanie w pojęcia)
Konceptualizacja to inaczej abstrakcyjne,
uproszczone przedstawienie fragmentu otaczającego
świata - model
Każda ontologia składa się ze:
●
słownika terminów określających pewną dziedzinę
●
związków pomiędzy terminami
●
zbioru reguł ograniczających ontologię
5
Do czego służą ontologie?
●
Najważniejszym zadaniem ontologii jest
precyzyjne identyfikowanie klas obiektów oraz
relacji między nimi w zadanej dziedzinie
wiedzy.
6
Ontologie przez małe „o” - przykłady
●
Prosty przykład z
dziedziny elektroniki:
●
„Wzmacniacz
operacyjny to typ
urządzenia
elektronicznego, a
tranzystory to elementy
składowe wzmacniacza
operacyjnego”.
Urządzenie
elektroniczne
TYP
Wzmacniacz
operacyjny
EL.
Składowy
Tranzystor
7
Ontologie przez małe „o”
●
Enzym
Białko A + CH3 X
Uczestniczy
Modyfikacja
potranslacyjna
Cel: <białko>
Enzym: <białko>
JEST
Fosforylacja
Substrat:: PO4 3-
Białko A-CH3
Substrat
Nazwa: <cząsteczka>
Przeprowadza
JEST
Enzym
PH: <wart. PH>
Ki: <wart. Ki>
Metylacja
Substrat : CH3-
JEST
Kinaza
Przeprowadza fosforylację
Substrat: PO43-
JEST
Metylaza
Przeprowadza metylację
Substrat: CH38
Ontologie – zapis formalny
●
Ontologia może zostać opisana przez parę <O,L>, gdzie
●
O to opis struktury ontologii;
●
L leksykon pojęć
Struktura O to zbiór
●
C zbiór terminów
●
R zbiór relacji.
●
●
C
A. Maedche 2003, Ontology Learning for the Semantic Web
●
O
O={C , R , H , A }, gdzie :
HC – hierarchia terminów
C
Dla
H ={h=c i , c j , r :c i , c j ∈C ,r ∈R }
AO to zbiór aksjomatów, pozwalających na
wprowadzenie dodatkowych ograniczeń do O.
9
Ontologia – zapis formalny
●
Leksykon definicji zdefiniowany jest jako
C
R
L={L , L , F ,G}, gdzie:
●
LC to zbiór definicji dla terminów
●
LR to zbiór definicji dla relacji
●
F i G to funkcje przypisania terminów/relacji do ich
definicji
10
Ontologie – zapis formalny
●
F⊆LC x C opisuje pary elementów
termin-definicja:
C
F l c =c ∈C : l c , c∈ F dla wszystkich l c ∈ L
−1
C
F c =l∈ L : l c , c∈F dla wszystkich c∈C
●
R
G⊆ L x R opisuje pary elementów
relacja-definicja
G l r =r ∈ R :l r , r ∈G dla wszystkich l r ∈ L R
G−1 r =l∈ L R :l r ,r ∈G dla wszystkich r ∈ R
11
Ontologie – zapis formalny
●
Przykład
●
Ontologia O = {C,R,HCAO},
●
●
C = {c1,c2,c3}
●
R={r1,r2}
●
HC={(c1,c2,r1),(c2,c3,r2)}
●
AO=Ø
Leksykon L = {LC,LR,F,G}
●
Urządzenie
elektroniczne
TYP
Wzmacniacz
operacyjny
EL.
Składowy
Tranzystor
LC={'U. Elektroniczne',...
'Wzm. operacyjny','Tranzystor'}
●
LR={'TYP','El. Składowy'}
●
F(c1)='U. Elektroniczne' , G(r2)='El. Skłdaowy'
12
Funkcje ontologii Dzielenie się wiedzą
●
Unifikacja różnych sposobów przedstawienia
tych samych obiektów
●
●
●
Umożliwienie wymiany danych pomiędzy
aplikacjami komputerowymi
Ułatwienie komunikacji pomiędzy ludźmi
Namacalne/formalne przedstawienie teorii
Uporządkowanie
struktury wiedzy
●
Umożliwienie tworzenia aplikacji
wykorzystujących zebraną wiedzę
13
Funkcje ontologii - przykłady
●
Dzielenie się wiedzą
●
●
●
●
Grupa badawcza
projektuje ontologię
urządzeń elektronicznych
Inne grupy korzystają z
udostępnionej ontologii
Wszyscy posługują się
tym samym słownictwem
Możliwe jest
wykorzystanie wspólnej
wiedzy w systemach
automatycznego
projektowania
●
Uporządkowanie
struktury wiedzy
●
Ontologia ludzi na
uczelni
typ
Człowiek
Wykładowca
Student
Kobieta
Mężczyzna
14
Funkcje ontologii - przykłady
●
Dzielenie się wiedzą
●
●
●
●
Grupa badawcza
projektuje ontologię
urządzeń elektronicznych
Inne grupy korzystają z
udostępnionej ontologii
Wszyscy posługują się
tym samym słownictwem
Możliwe jest
wykorzystanie wspólnej
wiedzy w systemach
automatycznego
projektowania
●
Uporządkowanie
struktury wiedzy
●
Ontologia ludzi na
uczelni
typ
Wykładowca
Funkcja
Student
Kobieta
Człowiek
typ
Mężczyzna
15
Rodzaje ontologii
Podział ze względu na funkcję
●
Ontologia – słownik
●
●
●
Nacisk na zdefiniowanie
słownictwa w dziedzinie
Definiowane pojęcia
mogą być
wykorzystywane do
opisu określonych
układów
Przykład – ontologia
urządzeń
elektronicznych (slajd 8)
●
Ontologia - zapis
wiedzy
●
●
●
Nacisk na odpowiednią
strukturyzację
Relacje i terminy są
zapisem wiedzy samym
w sobie
Przykład – ontologia
modyfikacji
potranslacyjnych
(slajd 9)
16
N. Guarino, Formal Ontology in Information Systems.
Proceedings of FOIS’98, Trento, Italy, 6-8 June 1998. Amsterdam, IOS Press, pp. 3-15.
Rodzaje ontologii
Podział ze względu na szczegółowość
●
Ontologie wysokiego rzędu
– opisują bardzo ogólne terminy
np. przestrzeń, czas, części,
itp... – mają zastosowanie w
innych ontologiach
●
Ontologie
dziedzinowe/zadaniowe –
uszczegóławiają ogólne terminy,
uwzględniając konkretną
dziedzinę/zadanie np. medycyna
/ diagnozowanie
●
Ontologie aplikacyjne –
bardzo szczegółowe, często
opisują role konkretnych
bytów/elementów opisywanej
dziedziny podczas określonych
procesów/zdarzeń
17
Zasady projektowania ontologii
1.Przejrzystość
2.Możliwość rozbudowy
3.Koherentność
4.Minimalizacja ograniczeń
5.Przedstawianie wiedzy rozłącznej oraz wiedzy
kompletnej
6.Minimalizacja różnic składniowych
7.Standaryzacja konwencji nazewnictwa
18
Zasady projektowania ontologii
●
Przejrzystość
●
●
●
●
Ontologia powinna w efektywny sposób definiować
znaczenie wykorzystywanych terminów.
Definicje powinny być obiektywne i mogą mieć
formę formalnych aksjomatów.
Definicja powinna zawierać warunki konieczne i
warunki wystarczające dla zdefiniowania danego
terminu.
Wszystkie definicje powinny być dodatkowo
opisane językiem naturalnym.
19
Zasady projektowania ontologii
●
Przejrzystość
●
●
Modyfikacja
Ontologia powinna w efektywny sposób
definiować
potranslacyjna
„Reakcja chemiczna w wyniku,
znaczenie wykorzystywanych terminów.
której modyfikacji ulega
ukształtowane białko”
Definicje powinny być obiektywne i mogą mieć
Musi mieć
formę formalnych aksjomatów.
Cel: (białko)
●
●
Definicja powinna zawierać warunki konieczne i
Może zachodzić przy udziale
warunki wystarczające dla zdefiniowania
danego
Enzym:
(białko)
terminu.
Wszystkie definicje powinny być dodatkowo
opisane językiem naturalnym.
20
Zasady projektowania ontologii
●
Możliwość rozbudowy
●
Terminy powinny być zdefiniowane w taki sposób,
że dodawanie bardziej wyspecjalizowanych lub
zupełnie nowych elementów nie pociąga za sobą
konieczności zmian w już istniejących definicjach.
(Np. dodadanie glikozylacji, )
21
Zasady projektowania ontologii
Koherentność
●
●
Wnioski wyciągane na podstawie struktury ontologii
powinny być spójne z definicjami. Jeżeli na
podstawie ontologii tworzony jest wniosek, który jest
sprzeczny z definicjami terminów to taka ontologia
nie jest koherentna.
Przykład Pozytywny
–
●
Fosforylacja to Modyfikacja potranslacyjna
przeprowadzana przez enzym, który jest kinazą.
http://i.istockimg.com
●
Przykład Negatywny:
–
Dłoń – część ręki
składająca się z palców
22
Zasady projektowania ontologii
Koherentność
●
●
Wnioski wyciągane na podstawie struktury ontologii
powinny być spójne z definicjami. Jeżeli na
podstawie ontologii tworzony jest wniosek, który jest
sprzeczny z definicjami terminów to taka ontologia
nie jest koherentna.
Przykład Pozytywny
–
●
Fosforylacja to Modyfikacja potranslacyjna
przeprowadzana przez enzym, który jest kinazą.
http://i.istockimg.com
●
Przykład Negatywny:
–
Dłoń – „Część ręki
składająca się z palców”
Śródręcze
23
Zasady projektowania ontologii
●
Minimalizacja ograniczeń
●
Aby ontologia była jak najbardziej uniwersalna,
należy minimalizować liczbę wprowadzanych
ograniczeń do tych najbardziej koniecznych.
–
–
Np. jak zdefiniować cel modyfikacji w naszej
przykładowej ontologii? ( „białko ludzkie”?, „białko
bakteryjne”? ...)
Można założyć, że "Cel" jest określany przez
„identyfikator białka”, ale bez definiowania konkretnego
formatu np. Uniprot albo PDB
Co zyskujemy?
24
Zasady projektowania ontologii
●
Przedstawianie wiedzy rozłącznej oraz wiedzy
kompletnej
●
W klasie należy wydzielać rozłączne pod_klasy np.
dla klasy (Białko) można stworzyć pod_klasy
(Globularne, Membranowe, Fibryle).
–
●
Pod_klasy są rozłączne ponieważ to samo białko nie
może być jednocześnie Globularne i Membranowe.
Rozkład klasy na pod_klasy jest kompletny, gdy
wszystkie możliwe przypadki klasy nadrzędnej
można zakwalifikować do jednej z pod_klas
25
Zasady projektowania ontologii
●
Minimalizacja różnic składniowych
●
Przy definiowaniu pojęć bliźniaczych należy
posługiwać się tą samą składnią
Kinaza
●Definicja: "Enzym przeprowadzający
fosforylację"
Informacje:
●1. Jest "Enzym"
●2. Ma "Substrat" PO3
●
Metylotransferaza
●Definicja: Przypadek klasy "Enzym",
"Białko przeprowadzające modyfikację
postranslacyjną. Jednym z substratów
jest CH3"
●
Axiom:
●= (("Enzym" "Kinaza") ("CH3"))
●
Axiom:
●= (("Enzym" "Kinaza") ("PO3"))
●
26
Zasady projektowania ontologii
●
Standaryzacja konwencji nazewnictwa
●
●
Żeby ułatwić zrozumienie terminów, powinno się
stosować te same wzorce nazewnictwa dla
bliźniaczych terminów,
Przykład negatywny:
–
●
Palec_Kciuk, Wskazujący_Palec_u_Dłoni
Przykład pozytywny
–
Palec_Kciuk, Palec_Wskazujący
27
Przykładowe ontologie
●
BFO - Basic Formal Ontology
●
DOLCE
●
SNOMED - CT
●
OGMS – (Ontology for General Medical Science)
●
Gene Ontology
●
ChEBI
●
EXACT (Experimental ACTions ontology)
●
Portale z ontologiami:
http://bioportal.bioontology.org/
http://www.obofoundry.org/
28
SNOMED – CT (1)
Systematized NOmenclature of MEDicine -Clinical Terms
●
Baza unifikująca terminologię wykorzystywaną w
różnych obszarach medycyny:
●
Procedury
●
Aparatura
●
Czynności administracyjne
●
Diagnostyka
●
Jednostki chorobowe
●
... itd.
29
SNOMED – CT (2)
Systematized NOmenclature of MEDicine -Clinical Terms
●
●
Zasadnicze cele SNOMED'u to ułatawienie:
●
akwizycji
●
analizy
●
wymiany danych medycznych
Obszary zastosowania:
●
Systemy opieki medycznej - kliniki
●
Badania naukowe w medycynie
●
Systemy nadzoru publicznej opieki medycznej
●
Analiza kosztów
●
...
30
SNOMED – CT (3)
Systematized NOmenclature of MEDicine -Clinical Terms
●
●
●
Leksykon składa się z prawie 400 tys. klas
(terminów)
Terminy są zhierarchizowane przez relację
„is_a” (łączy bardziej ogólnych przodków z
potomkami)
Inne relacje wprowadzają dodatkowe
informacje (np. <viral pneumonia> „has a
finding site” <lung>)
31
SNOMED – CT (4)
Systematized NOmenclature of MEDicine -Clinical Terms
●
Terminy są podzielone na kilkanaście
rozłącznych hierarchii np:
●
Rezultaty badań klinicznych/zaburzenia
–
●
Procedury
–
●
Terminy opisujące obserwacje i rezultaty badań (w tym
choroby)
Wszelkie procedury medyczne od zadań
administracyjnych po procedury diagnostyczne
Produkt Biologiczny/Farmaceutyczny
–
Terminy związane z lekami traktowanymi jako produkty, a
nie substancje. Wykorzystywane np przy przetwarzaniu
zamówień lub wydawaniu recept.
32
SNOMED – CT (5)
Systematized NOmenclature of MEDicine -Clinical Terms
●
●
●
Polska jest członkiem IHTSDO od grudnia 2011
Za wykorzystanie i dystrybucję bazy
SNOMED‑CT w polsce odpowiada Centrum
Systemów Informacyjnych Ohrony Zdrowia
(CSIOZ).
www.csioz.gov.pl
33
Gene Ontology - GO
●
Cel
●
●
Zadania
●
Tworzenie i kontrola słownika wyrażeń
●
●
●
Standaryzacja opisu genów oraz białek
Opisywanie obiektów
Dostarczenie narzędzi do przetwarzania zgromadzonych danych
Struktura
●
Molecular function (8660)
●
Biological Process (17893)
●
Cellular Component (2625)
Gene Ontology - GO
Gene Ontology - GO
Gene Ontology ­ GO
●
Opisywany obiekt: 2he4A ­> Q15599
Molecular function
Biological Process
Cellular Component
GO:0005515
GO:0006461
GO:0016324
GO:0008022
GO:0048839
GO:0016020
GO:0016247
GO:0012505
GO:0005886
GO:0005737
GO:0005634
Gene Ontology ­ GO
●
Opisywany obiekt: 2he4A ­> Q15599
Molecular function
Biological Process
Cellular Component
protein binding
protein complex assembly
nucleus
protein C­terminus binding
inner ear development
cytoplasm
channel regulator activity
plasma membrane
membrane
apical plasma membrane
extrinsic to membrane
Co to jest podobieństwo semantyczne?
Semantyka językoznawcza – nauka o znaczeniu wyrazów
Podobieństwo semantyczne – podobieństwo znaczenia
W oparciu o terminy
W oparciu o
krawędzie ontologii
Metody hybrydowe
C Pesquita, D Faria, A´ O Falca, P Lord, F M Couto, Semantic Similarity in
Biomedical Ontologies, PLoS Comput Biol 5(7): e1000443.
doi:10.1371/journal.pcbi.1000443
Podział miar podobieństwa semantycznego
Miary bazujące na krawędziach
Metody mierzące odległość pomiędzy terminami
●
Metody mierzące wspólną drogę do korzenia drzewa
http://bioinformatics.clemson.edu/G-SESAME
●
Miary bazujące na krawędziach
●
●
Zaleta – bardzo intuicyjne, zbliżone do sposobu wnioskowania ludzi
Podstawowe założenia:
●
●
Węzły i krawędzie są rozmieszczone równomiernie
Krawędzie na tym samym poziomie w grafie odpowiadają tej samej odległości semantycznej (znaczeniowej)
Miary bazujące na węzłach
Miary bazujące na węzłach
Wykorzystują właściwości porównywanych terminów, terminów poprzedzających (“przodków”) lub terminów następujących (“dzieci”).
●
Np. Information Content IC (informatywność) ●
IC=−log p c
●
●
p(c) – prawdopodobieństwo
wystąpienia terminu “c” w
określonej bazie
p (c) oblicza się jako częstotliwość przypisań danego terminu i jego potomków;
IC oblicza się również wykorzystując liczbę “dzieci” terminu;
Miary bazujące na węzłach
●
MICA (Most Informative Common Ancestor)
●
DCA (Disjoint Common Ancestor)
Miary bazujące na węzłach
●
Najbardziej popularne miary podobieństwa semantycznego korzystające z IC.
●
Resnik
sim Res c 1, c 2 = IC c MICA 
●
Lin
●
Jian & Conrath
2xICc MCIA
sim Lin c 1, c 2=
IC c 1 IC c 2 
sim JC c 1, c 2 =1−IC c 1 IC c 2 −2xIC c MICA 
●
Schlicker
sim Rel c 1, c 2 =sim Lin  c 1, c2  x 1− p c A 
Cx – termin x
p(cA)- prawdopodobieństwo wystąpienia danego przodka w bazie (A -> Ancestor)
Miary bazujące na węzłach
●
Zalety metod korzystających z IC:
●
●
●
Mniej wrażliwe na zmienną odległość znaczeniową pomiędzy terminami
Mniej wrażliwe na nierównomierny rozkład terminów w grafie
Wady:
●
Na częstotliwość przypisywania danego terminu mają wpływ trendy w nauce
Porównywanie zbiorów terminów
Porównywanie
dwóch zbiorów
Porównywanie zbiorów terminów
●
Porównywanie parami:
●
Wszystkie pary
●
●
Najlepsze pary
Metody łączenia wyników:
●
Średnia
●
Maksimum
●
Białko A
Suma
GO:0043229
Białko B
GO:0043231
GO:0043227
0.475
0.593
GO:0005622
0.700
0.588
Porównywanie zbiorów terminów
Porównywanie zbiorów terminów
●
Najlepsze rozwiązanie porównywania zbiorów to średnia z najlepiej pasujących par.
●
wypośrodkowanie pomiędzy metodami wykorzystującymi maksimum, a uśredniającymi
∑ max j  go Ai , go Bj ∑ max i  go Ai , go Aj 
Similarity  A , B=
i
j
Białko A
mn
GO:0043229
Białko B
GO:0043231
GO:0043227
0.475
0.593
GO:0005622
0.700
0.588
Ocena poprawności miary
●
●
Nie ma obiektywnego punktu odniesienia. Można wykorzystywać inne właściwości, aby ocenić stopień podobieństwa:
●
Podobieństwo sekwencji aminokwasowej – korelacja (ograniczenie do nonIEA)
●
Ekseprymenty ekspresji genów – korelacja
●
Wyniki klasyfikacji białek
●
...
IEA – Inferred Electronically Annotation
Ocena poprawności miary
●
●
Żadna z metod opisanych w literaturze nie została uznana za najlepszą
Skuteczność metod zmienia się w zależności od:
●
Pierwotnego przeznaczenia
●
Bazy danych ●
Stosowanej miary skuteczności
●
Internet - teraz
●
●
●
Medium, które
umożliwia swobodny
dostęp do informacji
Umożliwia swobodną
publikację, własnymi
poglądami, wiedzą, ...
World Wide Web
Consortium – pracuje
nad udoskonalaniem
sieci
http://answers.yourdictionary.com
Przyszłość ontologii
Semantic web – sieć semantyczna
●
Internet drugiej generacji
●
Strony internetowe mają zawierać dane oraz
meta‑dane
–
●
●
Dzięki ontologiom informacja ma mieć dobrze
zdefiniowane znaczenie
Programy komputerowe będą mogły w sposób
„świadomy” interpretować informację i korzystać z
niej
Możliwe będzie zlecanie im złożonych zadań np.
umówienie wizyty u lekarza lub zakup produktów
żywnościowych.
Przyszłość ontologii