Algorytmiczny model uczenia się języka
Transkrypt
Algorytmiczny model uczenia się języka
Nina Gierasimczuk & Jakub Szymanik Algorytmiczny model uczenia się języka Prezentacja Forum Filozoficzne, Lublin 15 maja 2004 Spis treści 1. Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.1. Filozoficzny problem uczenia się . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2. Teza Churcha-Turinga . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3. Hierarchia Chomsky’ego . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.4. Języki regularne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.5. Struktura nawiasowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2. Algorytm uczący się języków . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.1. Założenia algorytmicznego uczenia się . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.2. Tablica obserwacyjna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.3. Konstrukcja automatu skończonego przy użyciu tablicy obserwacyjnej . . . . . . . . . 5 2.4. Algorytm L* . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3. Uczenie się języków bezkontekstowych . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 4. Dygresja semantyczna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 4.1. Obliczenia a neurologiczne podłoże języka . . . . . . . . . . . . . . . . . . . . . . . . . 10 Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1 1. Wprowadzenie 1.1. Filozoficzny problem uczenia się Noam Chomsky Idee i prawdy są nam wrodzone jako skłonności, dyspozycje, nawyki i naturalne potencjalności. Doświadczenie służy wydobywaniu, a nie formowaniu tych wrodzonych struktur. — Twórczy aspekt użycia języka. — Abstrakcyjność zasad interpretacji zdań. — Uniwersalny charakter struktury językowej. W. v O. Quine: Kiedy pierwotny człowiek zaczął rozwijać język, możliwości komunikowania się wzrastały. Język sam tworzył to, do przekazywania czego służył. — Model uczenia się języka przez dziecko. — Brak danych empirycznych by orzekać o kompetencji. — Zbiór zdań danego języka może być generowany przez wiele alternatywnych kompleksów reguł. 1.2. Teza Churcha-Turinga Teza Churcha-Turinga w wersji psychologicznej Mechanizmy obliczeniowe umysłu ludzkiego nie różnią się istotnie (są wzajemnie wielomianowo redukowalne) od mechanizmów obliczeniowych dostępnych urządzeniom liczącym takim jak maszyny Turinga. Teza Edmondsa Praktycznie obliczalne są problemy klasy PTIME czyli takie, dla których istnieje deterministyczna maszyna Turinga działająca w czasie wielomianowym w zależności od długości wejścia. 1.3. Hierarchia Chomsky’ego Definicja 1. Gramatyka G = (A, Σ, S, P ), gdzie: — A - afabet (terminalny) — Σ - zbiór zmiennych (alfabet nieterminalny) — S∈Σ — P skończony zbiór par postaci αi −→ βi dla αi , βi ∈ (A ∪ Σ)∗ . Definicja 2. Dla γ, γ ′ ∈ (A ∪ Σ)∗ γ −→ G γ ′ wtw istnieją η1 , η2 oraz i = 1, . . . , n, takie, że γ = η1 αi η2 oraz γ ′ = η1 βi η2 Definicja 3. γ γi −→ G ∗ −→ G γ ′ wtw istnieje ciąg γ1 , . . . , γn ∈ (A ∪ Σ)∗ taki, że γ = γ1 , γ ′ = γn oraz γi+1 dla i = 1, . . . , n − 1. 2 Definicja 4. L(G) = {γ ∈ A∗ : S ∗ −→ G γ} Hierarchia Chomsky’ego — Języki klasy 0 to dowolne języki postaci L(G), tzw. języki rekurencyjnie przeliczalne. — Języki klasy 1 są postaci L(G), gdzie wszystkie produkcje gramatyki G są postaci: η1 Y η2 −→ G η1 βη2 dla Y ∈ Σ, η1 , η2 , β ∈ (A ∪ Σ)∗ — Języki klasy 2 są postaci L(G), gdzie wszystkie produkcje gramatyki G są postaci: Y −→ G β dla Y ∈ Σ, β ∈ (A ∪ Σ)∗ — Języki klasy 3 są postaci L(G), gdzie wszystkie produkcje gramatyki G są postaci: Y −→ G αZ lub Y −→ G α dla Y, Z ∈ Σ, α ∈ A∗ 1.4. Języki regularne Definicja 5. Automat skończony (FA) jest to (A, Q, qs , F, δ), gdzie: — A jest alfabetem wejściowym; — Q jest skończonym zbiorem stanów; — qs ∈ Q jest wyróżnionym stanem początkowym; — F ⊆ Q jest zbiorem stanów akceptujących; — δ : Q × A −→ Q jest funkcją przejścia. Język rozpoznawany (akceptowany) przez FA H to zbiór słów nad alfabetem A, które są akceptowane przez H, czyli: L(H) = {w ∈ A∗ : δ̄(qs , w) ∈ F }. Język L ⊆ A∗ jest regularny, wtedy i tylko wtedy, gdy istnieje FA H, taki, że L = L(H). a, b q1s Rysunek 1. FA akceptujące L1 , L2 oraz L3 . a, b q2s q3s a b 3 q31 Rysunek 2. FA akceptujący L4 = {w ∈ A∗ : na (w) 6≡ nb (w)(mod2)}. a, b a, b q4s q41 1.5. Struktura nawiasowa G= (A, Σ,S, P ), gdzie: — A= (, ) — Σ = {S, T } — P = {S −→ G λ|(S)|(T ), T −→ G λ|ST } Rozważmy zdania: 1. The cat died. 2. The cat the dog chased died. 3. The cat the dog the rat bit chased died. 4. The cat the dog the rat the elephant admired bit chased died. Powyższe zdania są postaci: (noun phrase)n (transitive verb)n−1 intransitive verb 2. Algorytm uczący się języków 2.1. Założenia algorytmicznego uczenia się Algorytm L∗ korzysta w istotny sposób ze wskazówek nauczyciela, odpowiadającego na pytania dwóch kategorii: 1. Zapytania o należenie danej struktury do szukanej gramatyki, formalnie: T (α) = 1 jeśli α ∈ L 0 jeśli α ∈ /L 2. Zapytania o równoważność struktury wyjściowej algorytmu i struktury szukanej, formalnie: R(M) = 1 jeśli L(M) = L h0, αi , α ∈ L ÷ L(M) jeśli L(M) 6= L 4 2.2. Tablica obserwacyjna Definicja 6. Tablica obserwacyjna jest to (S, E, T ), gdzie: 1. S - niepusty skończony zbiór ciągów domknięty na prefiksy; 2. E - niepusty skończony zbiór ciągów domknięty na sufiksy; 3. T - skończona funkcja ((S · A) · E) → {0, 1}, gdzie T (u) = 1 ⇔ u ∈ L. (S, E, T ) można przedstawić za pomocą dwuwymiarowej tablicy: 1. Wiersze oznaczone elementami zbioru (S · A). 2. Kolumny oznaczone elementami zbioru E. 3. Wartość w komórce o współrzędnych (s, e), gdzie s ∈ (S · A), e ∈ E, jest równa T (s · e). 4. Niech s ∈ (S · A), wtedy row (s) - wektor złożony z wartości T (s · e), dla wszystkich e ∈ E. Tabela 1. Tablica obserwacyjna S ((S · A) \ S) T e .. . s··· 1(= T (s · e)) E s1 Definicja 7. Tablica obserwacyjna (S, E, T ) jest domknięta wtedy i tylko wtedy, gdy: ∀t ∈ S · A∃s ∈ S (row (t) = row (s)) Definicja 8. Tablica obserwacyjna (S, E, T ) jest spójna wtedy i tylko wtedy, gdy: ∀s1 , s2 ∈ S∀a ∈ A [(row (s1 ) = row (s2 )) ⇒ (row (s1 · a) = row (s2 · a))] 2.3. Konstrukcja automatu skończonego przy użyciu tablicy obserwacyjnej Algorytm L∗ uczący się gramatyk regularnych będzie używał tablicy obserwacyjnej do stworzenia hipotezy – odpowiedniego automatu skończonego. Definicja 9. Niech (S, E, T ) – domknięta i spójna tablica obserwacyjna. Możemy zdefiniować automat skończony M (S, E, T ) nad alfabetem A taki, że: 1. Q = {row (s) : s ∈ S} – zbiór stanów automatu M; 2. qs = row (λ) – stan początkowy automatu M; 3. F = {row (s) : s ∈ S ∧ T (s, λ) = 1} – zbiór stanów akceptujących; 4. δ (row (s) , a) = row (s · a) – funkcja przejścia automatu M. 5 Fakt 1. Powyższy automat jest dobrze zdefiniowany. Dowód twierdzenia 1. Stan początkowy qs jest dobrze zdefiniowany, ponieważ zbiór S = {λ} jest niepusty. 2. Zbiór stanów akceptujących F jest dobrze zdefiniowany, ponieważ jeśli istnieją s1 , s2 ∈ S takie, że row (s1 ) = row (s2 ), to T (s1 ) = T (s1 · λ) oraz T (s2 ) = T (s2 · λ) będą sobie równe. 3. Funkcja przejścia δ jest dobrze zdefiniowana. Niech s1 , s2 ∈ S takie, że: row (s1 ) = row (s2 ). Skoro (S, E, T ) jest spójna, to dla dowolnego a ∈ A, row (s1 · a) = row (s2 · a). Ponieważ zaś (S, E, T ) jest domknięta, to wartość ta jest równa row(s) dla pewnego s ∈ S. Twierdzenie 1. Jeśli tablica obserwacyjna (S, E, T ) jest domknięta i spójna to automat skończony M (S, E, T ) skonstruowany jak wyżej jest zgodny ze skończoną funkcją T . Każdy inny automat skończony zgodny z tą funkcją, lecz nierównoważny automatowi M (S, E, T ) musi mieć więcj stanów. Lemat 1. Niech (S, E, T ) - tablica obserwacyjna, n - liczba parami różnych wektorów row(s), dla każdego s ∈ S. Wtedy dowolny automat skończony zgodny z funkcją T musi mieć przynajmniej n stanów. Z dowodu powyższego lematu wynika, że algorytm kończy obliczenie po najwyżej n zapytaniach o równoważność oraz najpóźniej po n − 1. wykonaniu głównej pętli. 6 2.4. Algorytm L* begin S := λ; E := λ; Zapytanie o należenie λ oraz każdego a ∈ A. Konstrukcja początkowej tablicy obserwacyjnej (S, E, T ). repeat while (S, E, T ) nie jest domknięta lub nie jest spójna; if (S, E, T ) nie jest spójna then znajdź s1 , s2 ∈ S, a ∈ A, e ∈ E takie, że: row(s1) = row(s2 ) i T (s1 · a · e) 6= T (s2 · a · e); dodaj s1 · a do zbioru E; rozszerz T do (S · A) · E używając zapytań o należenie. if (S, E, T ) nie jest domknięta then znajdź s1 ∈ S i a ∈ A takie, że: dla dowolnego s ∈ S row(s1 · a) 6= row(s); dodaj s1 · a do zbioru S; rozszerz T do (S · A) · E używając zapytań o należenie. M:=M(S, E, T ) Zapytanie o poprawność M; if odpowiedź = TAK then output:= M; else dodaj kontrprzykład t i wszystkie jego prefiksy do S; rozszerz T do (S · A) · E używając zapytań o należenie. until (S, E, T ) jest domknięta i spójna; end Twierdzenie 2. Dla dowolnego tzw. minimalnie adekwatnego nauczyciela prezentującego nieznany regularny zbiór U, algorytm L∗ zatrzymuje się oraz podaje na wyjściu FA H izomorficzny z minimalnym FA akceptującym zbiór U. Co więcej, jeśli n jest liczbą stanów minimalnego dla zbioru U FA zaś m jest górnym ograniczeniem długości kontrprzykładów, to całkowity czas działania algorytmu L∗ jest wielomianowy wzgledem n i m. 7 Przez osłabianie informacji trenującej można osiągnąć efekty mniej imponujące pod względem niskiej złożoności i elegancji, natomiast jeszcze bardziej interesujące poznawczo. — Rezygnacja z zapytań o równoważność. Modyfikacja algorytmu L∗ umożliwiająca nauczenie się automatu docelowego z dowolnie dużym prawdopodobieństwem pod warunkiem poświęcenia na to dostatecznie dużej liczby obliczeń. — Rezygnacja z zapytań o równoważność i należenie. Modyfikacja algorytmu L∗ umożliwiająca uczenie się na podstawie eksperymentów (inteligentny agent). Nauczenie się automatu dokładnie modelującego identyfikowany system nie jest gwarantowane. 3. Uczenie się języków bezkontekstowych Algorytm uczący się gramatyk bezkontekstowych korzysta z danych strukturalnych – nieetykietowanych drzew derywacyjnych danej gramatyki bezkontekstowej. 1. Zbiór drzew derywacyjnych danej gramatyki bezkontekstowej jest regularnym zbiorem drzew. 2. Regularny zbiór drzew to zbiór drzew rozpoznawany przez pewien automat drzewiasty. 3. Procedura tworzenia z drzew derywacyjnych ich opisów strukturalnych zachowuje regularność zbioru. 4. Problem uczenia się gramatyki bezkontekstowej z opisów strukturalnych jest więc redukowany do problemu uczenia się pewnego automatu drzewiastego. Ponadto: — Cel nauki: gramatyka bezkontekstowa (nie zaś język bezkontekstowy). — Struktura algorytmu: analogiczna do tej dla języków regularnych. 8 4. Dygresja semantyczna 1. Każda książka w bibliotece IF UW jest zielona. 2. Pewna książka w bibliotece IF UW jest zielona 3. Co najmniej dwie książki w bibliotece IF UW są zielone. 4. Większość książek w bibliotece IF UW jest zielona. Rysunek 3. M = (U, R1 , R2 ) Rozważmy model M = (U, R1 , R2 ), gdzie U = {b1 , b2 , b3 , b4 , b5 }. Model ten będzie reprezentowało słowo αM = a1 a2 a4 a3 a3 nad alfabetem A = {a1 , a2 , a3 , a4 }, które mówi, że element b1 ∈ S1 = U − (R1 ∪ R2 ), b2 ∈ S2 = R1 − R2 , b3 ∈ S4 = R1 ∩ R2 , a b4 , b5 ∈ S3 = R2 − R1 . Słowo αM – opisuje model M z dokładnością do izomorfizmu. Odpowiedni algorytm będzie akceptował αM wtedy i tylko wtedy, gdy w M będzie prawdziwe zdanie, którego znaczeniem jest ten algorytm. Rysunek 4. FA akceptujący L∀ A − {a2 } A a2 9 Rysunek 5. FA akceptujący L∃ A − {a4 } A a4 Rysunek 6. FA akceptujący L∃2 A − {a4 } A − {a4 } a4 A a4 4.1. Obliczenia a neurologiczne podłoże języka Twierdzenie 3. (M. Mostowski 1998) Kwantyfikator monadyczny Q jest definiowalny w logice podzielności ⇐⇒ LQ jest rozpoznawalny przez automat skończony. Hipoteza: Rozumienie zdań z kwantyfikatorami definiowalnymi w logice podzielności (np. każdy, co najmniej dwa, parzyście wiele) nie angażuje ośrodków mózgu związanych z pamięcią operacyjną (bezpośrednią, krótkotrwałą). Podczas, gdy analiza zdań z kwantyfikatorami nie wyrażalnymi w tej logice (np. większość) wymaga skorzystania z zasobów takiej pamięci. Wstępne wyniki badań neurologicznych: Rozumienie zdań z kwantyfikatorami elementarnymi nie angażuje ośrodków pamięci operacyjnej w stopniu uchwytnym dla procedur neuroobrazowania (fMRi). Podczas, gdy analiza zdań z bardziej złożonymi kwantyfikatorami wymaga uaktywnienia ośrodków mózgu związanych z pamięcią operacyjną w stopniu obserwowalnym za pomocą neuroobrazowania. Literatura [1] D. ANGLUIN Learning Regular Sets from Queries and Counterexamples, Information and Computation 75 (1987), str. 87 – 106. [2] P. CICHOSZ Systemy uczące się, Warszawa 2000. [3] Y. SAKAKIBARA Learning Context-free Grammars from Structural Data in Polynomial Time, Theoretical Computer Science 75 (1990), str. 223 – 242. [4] J. VAN BENTHEM Essays in Logical Semantics, Reidel Publishing Company, Amsterdam 1986. 10 [5] R. CLARK Learning First-Order Quantifiers Denotations. An Essay in Semantic Learnability, IRCS Technical Report 1996, University of Pennsylvania, str. 19 – 96, zob. też: fttp://babel.ling.upenn.edu/papers/faculty/robin clark/papers/lfoq.ps [6] C. T. MCMILLAN, R. CLARK et al. Frontal and Parietal Contributions to Generalized Quantifiers, Cognitive Neuroscience Society Annual Meeting, San Francisco 2003, zob. też: fttp://www.ling.upenn.edu/facpapers/robin clark/quantifierMRI.pdf [7] M. MOSTOWSKI Computational semantics for monadic quantifiers, Journal of Applied Non-Classical Logics Vol. 8 (1998) no 1-2. 11