Algorytmiczny model uczenia się języka

Transkrypt

Algorytmiczny model uczenia się języka
Nina Gierasimczuk & Jakub Szymanik
Algorytmiczny model uczenia się języka
Prezentacja
Forum Filozoficzne, Lublin 15 maja 2004
Spis treści
1. Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.1.
Filozoficzny problem uczenia się . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.2.
Teza Churcha-Turinga . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.3.
Hierarchia Chomsky’ego . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.4.
Języki regularne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.5.
Struktura nawiasowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
2. Algorytm uczący się języków . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
2.1.
Założenia algorytmicznego uczenia się . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
2.2.
Tablica obserwacyjna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.3.
Konstrukcja automatu skończonego przy użyciu tablicy obserwacyjnej . . . . . . . . .
5
2.4.
Algorytm L* . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
3. Uczenie się języków bezkontekstowych . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
4. Dygresja semantyczna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
4.1.
Obliczenia a neurologiczne podłoże języka . . . . . . . . . . . . . . . . . . . . . . . . .
10
Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
1
1. Wprowadzenie
1.1. Filozoficzny problem uczenia się
Noam Chomsky
Idee i prawdy są nam wrodzone jako skłonności, dyspozycje, nawyki i naturalne potencjalności.
Doświadczenie służy wydobywaniu, a nie formowaniu tych wrodzonych struktur.
— Twórczy aspekt użycia języka.
— Abstrakcyjność zasad interpretacji zdań.
— Uniwersalny charakter struktury językowej.
W. v O. Quine:
Kiedy pierwotny człowiek zaczął rozwijać język, możliwości komunikowania się wzrastały. Język
sam tworzył to, do przekazywania czego służył.
— Model uczenia się języka przez dziecko.
— Brak danych empirycznych by orzekać o kompetencji.
— Zbiór zdań danego języka może być generowany przez wiele alternatywnych kompleksów
reguł.
1.2. Teza Churcha-Turinga
Teza Churcha-Turinga w wersji psychologicznej Mechanizmy
obliczeniowe
umysłu
ludzkiego nie różnią się istotnie (są wzajemnie wielomianowo redukowalne) od mechanizmów
obliczeniowych dostępnych urządzeniom liczącym takim jak maszyny Turinga.
Teza Edmondsa Praktycznie obliczalne są problemy klasy PTIME czyli takie, dla których
istnieje deterministyczna maszyna Turinga działająca w czasie wielomianowym w zależności
od długości wejścia.
1.3. Hierarchia Chomsky’ego
Definicja 1. Gramatyka G = (A, Σ, S, P ), gdzie:
— A - afabet (terminalny)
— Σ - zbiór zmiennych (alfabet nieterminalny)
— S∈Σ
— P skończony zbiór par postaci αi −→ βi dla αi , βi ∈ (A ∪ Σ)∗ .
Definicja 2. Dla γ, γ ′ ∈ (A ∪ Σ)∗ γ
−→
G
γ ′ wtw istnieją η1 , η2 oraz i = 1, . . . , n, takie, że
γ = η1 αi η2 oraz γ ′ = η1 βi η2
Definicja 3. γ
γi
−→
G
∗
−→
G
γ ′ wtw istnieje ciąg γ1 , . . . , γn ∈ (A ∪ Σ)∗ taki, że γ = γ1 , γ ′ = γn oraz
γi+1 dla i = 1, . . . , n − 1.
2
Definicja 4. L(G) = {γ ∈ A∗ : S
∗
−→
G
γ}
Hierarchia Chomsky’ego
— Języki klasy 0 to dowolne języki postaci L(G), tzw. języki rekurencyjnie przeliczalne.
— Języki klasy 1 są postaci L(G), gdzie wszystkie produkcje gramatyki G są postaci:
η1 Y η2
−→
G
η1 βη2 dla Y ∈ Σ, η1 , η2 , β ∈ (A ∪ Σ)∗
— Języki klasy 2 są postaci L(G), gdzie wszystkie produkcje gramatyki G są postaci:
Y
−→
G
β dla Y ∈ Σ, β ∈ (A ∪ Σ)∗
— Języki klasy 3 są postaci L(G), gdzie wszystkie produkcje gramatyki G są postaci:
Y
−→
G
αZ lub Y
−→
G
α dla Y, Z ∈ Σ, α ∈ A∗
1.4. Języki regularne
Definicja 5. Automat skończony (FA) jest to (A, Q, qs , F, δ), gdzie:
— A jest alfabetem wejściowym;
— Q jest skończonym zbiorem stanów;
— qs ∈ Q jest wyróżnionym stanem początkowym;
— F ⊆ Q jest zbiorem stanów akceptujących;
— δ : Q × A −→ Q jest funkcją przejścia.
Język rozpoznawany (akceptowany) przez FA H to zbiór słów nad alfabetem A, które są
akceptowane przez H, czyli:
L(H) = {w ∈ A∗ : δ̄(qs , w) ∈ F }.
Język L ⊆ A∗ jest regularny, wtedy i tylko wtedy, gdy istnieje FA H, taki, że L = L(H).
a, b
q1s
Rysunek 1. FA akceptujące L1 , L2 oraz L3 .
a, b
q2s
q3s
a
b
3
q31
Rysunek 2. FA akceptujący L4 = {w ∈ A∗ : na (w) 6≡ nb (w)(mod2)}.
a, b
a, b
q4s
q41
1.5. Struktura nawiasowa
G=
(A, Σ,S, P ), gdzie:
— A=
(, )
— Σ = {S, T }
— P = {S
−→
G
λ|(S)|(T ), T
−→
G
λ|ST }
Rozważmy zdania:
1. The cat died.
2. The cat the dog chased died.
3. The cat the dog the rat bit chased died.
4. The cat the dog the rat the elephant admired bit chased died.
Powyższe zdania są postaci:
(noun phrase)n (transitive verb)n−1 intransitive verb
2. Algorytm uczący się języków
2.1. Założenia algorytmicznego uczenia się
Algorytm L∗ korzysta w istotny sposób ze wskazówek nauczyciela, odpowiadającego na
pytania dwóch kategorii:
1. Zapytania o należenie danej struktury do szukanej gramatyki, formalnie:
T (α) =



1 jeśli α ∈ L
0 jeśli α ∈
/L
2. Zapytania o równoważność struktury wyjściowej algorytmu i struktury szukanej, formalnie:
R(M) =



1
jeśli L(M) = L
h0, αi , α ∈ L ÷ L(M) jeśli L(M) 6= L
4
2.2. Tablica obserwacyjna
Definicja 6. Tablica obserwacyjna jest to (S, E, T ), gdzie:
1. S - niepusty skończony zbiór ciągów domknięty na prefiksy;
2. E - niepusty skończony zbiór ciągów domknięty na sufiksy;
3. T - skończona funkcja ((S · A) · E) → {0, 1}, gdzie T (u) = 1 ⇔ u ∈ L.
(S, E, T ) można przedstawić za pomocą dwuwymiarowej tablicy:
1. Wiersze oznaczone elementami zbioru (S · A).
2. Kolumny oznaczone elementami zbioru E.
3. Wartość w komórce o współrzędnych (s, e), gdzie s ∈ (S · A), e ∈ E, jest równa T (s · e).
4. Niech s ∈ (S · A), wtedy row (s) - wektor złożony z wartości T (s · e), dla wszystkich e ∈ E.
Tabela 1. Tablica obserwacyjna
S
((S · A) \ S)
T
e
..
.
s···
1(= T (s · e))
E
s1
Definicja 7. Tablica obserwacyjna (S, E, T ) jest domknięta wtedy i tylko wtedy, gdy:
∀t ∈ S · A∃s ∈ S (row (t) = row (s))
Definicja 8. Tablica obserwacyjna (S, E, T ) jest spójna wtedy i tylko wtedy, gdy:
∀s1 , s2 ∈ S∀a ∈ A [(row (s1 ) = row (s2 )) ⇒ (row (s1 · a) = row (s2 · a))]
2.3. Konstrukcja automatu skończonego przy użyciu tablicy obserwacyjnej
Algorytm L∗ uczący się gramatyk regularnych będzie używał tablicy obserwacyjnej do stworzenia hipotezy – odpowiedniego automatu skończonego.
Definicja 9. Niech (S, E, T ) – domknięta i spójna tablica obserwacyjna. Możemy zdefiniować
automat skończony M (S, E, T ) nad alfabetem A taki, że:
1. Q = {row (s) : s ∈ S} – zbiór stanów automatu M;
2. qs = row (λ) – stan początkowy automatu M;
3. F = {row (s) : s ∈ S ∧ T (s, λ) = 1} – zbiór stanów akceptujących;
4. δ (row (s) , a) = row (s · a) – funkcja przejścia automatu M.
5
Fakt 1. Powyższy automat jest dobrze zdefiniowany.
Dowód twierdzenia
1. Stan początkowy qs jest dobrze zdefiniowany, ponieważ zbiór S = {λ} jest niepusty.
2. Zbiór stanów akceptujących F jest dobrze zdefiniowany, ponieważ jeśli istnieją s1 , s2 ∈ S
takie, że row (s1 ) = row (s2 ), to T (s1 ) = T (s1 · λ) oraz T (s2 ) = T (s2 · λ) będą sobie równe.
3. Funkcja przejścia δ jest dobrze zdefiniowana. Niech s1 , s2 ∈ S takie, że: row (s1 ) = row (s2 ).
Skoro (S, E, T ) jest spójna, to dla dowolnego a ∈ A, row (s1 · a) = row (s2 · a). Ponieważ
zaś (S, E, T ) jest domknięta, to wartość ta jest równa row(s) dla pewnego s ∈ S.
Twierdzenie 1. Jeśli tablica obserwacyjna (S, E, T ) jest domknięta i spójna to automat skończony M (S, E, T ) skonstruowany jak wyżej jest zgodny ze skończoną funkcją T . Każdy inny
automat skończony zgodny z tą funkcją, lecz nierównoważny automatowi M (S, E, T ) musi mieć
więcj stanów.
Lemat 1. Niech (S, E, T ) - tablica obserwacyjna, n - liczba parami różnych wektorów row(s),
dla każdego s ∈ S. Wtedy dowolny automat skończony zgodny z funkcją T musi mieć przynajmniej n stanów.
Z dowodu powyższego lematu wynika, że algorytm kończy obliczenie po najwyżej n zapytaniach
o równoważność oraz najpóźniej po n − 1. wykonaniu głównej pętli.
6
2.4. Algorytm L*
begin
S := λ;
E := λ;
Zapytanie o należenie λ oraz każdego a ∈ A.
Konstrukcja początkowej tablicy obserwacyjnej (S, E, T ).
repeat
while (S, E, T ) nie jest domknięta lub nie jest spójna;
if (S, E, T ) nie jest spójna
then znajdź s1 , s2 ∈ S, a ∈ A, e ∈ E takie, że:
row(s1) = row(s2 ) i T (s1 · a · e) 6= T (s2 · a · e);
dodaj s1 · a do zbioru E;
rozszerz T do (S · A) · E używając zapytań o należenie.
if (S, E, T ) nie jest domknięta
then znajdź s1 ∈ S i a ∈ A takie, że:
dla dowolnego s ∈ S row(s1 · a) 6= row(s);
dodaj s1 · a do zbioru S;
rozszerz T do (S · A) · E używając zapytań o należenie.
M:=M(S, E, T )
Zapytanie o poprawność M;
if odpowiedź = TAK
then output:= M;
else dodaj kontrprzykład t i wszystkie jego prefiksy do S;
rozszerz T do (S · A) · E używając zapytań o należenie.
until (S, E, T ) jest domknięta i spójna;
end
Twierdzenie 2. Dla dowolnego tzw. minimalnie adekwatnego nauczyciela prezentującego nieznany regularny zbiór U, algorytm L∗ zatrzymuje się oraz podaje na wyjściu FA H izomorficzny
z minimalnym FA akceptującym zbiór U. Co więcej, jeśli n jest liczbą stanów minimalnego dla
zbioru U FA zaś m jest górnym ograniczeniem długości kontrprzykładów, to całkowity czas
działania algorytmu L∗ jest wielomianowy wzgledem n i m.
7
Przez osłabianie informacji trenującej można osiągnąć efekty mniej imponujące pod
względem niskiej złożoności i elegancji, natomiast jeszcze bardziej interesujące poznawczo.
— Rezygnacja z zapytań o równoważność. Modyfikacja algorytmu L∗ umożliwiająca nauczenie
się automatu docelowego z dowolnie dużym prawdopodobieństwem pod warunkiem poświęcenia na to dostatecznie dużej liczby obliczeń.
— Rezygnacja z zapytań o równoważność i należenie. Modyfikacja algorytmu L∗ umożliwiająca uczenie się na podstawie eksperymentów (inteligentny agent). Nauczenie się automatu
dokładnie modelującego identyfikowany system nie jest gwarantowane.
3. Uczenie się języków bezkontekstowych
Algorytm uczący się gramatyk bezkontekstowych korzysta z danych strukturalnych – nieetykietowanych drzew derywacyjnych danej gramatyki bezkontekstowej.
1. Zbiór drzew derywacyjnych danej gramatyki bezkontekstowej jest regularnym zbiorem
drzew.
2. Regularny zbiór drzew to zbiór drzew rozpoznawany przez pewien automat drzewiasty.
3. Procedura tworzenia z drzew derywacyjnych ich opisów strukturalnych zachowuje regularność zbioru.
4. Problem uczenia się gramatyki bezkontekstowej z opisów strukturalnych jest więc redukowany do problemu uczenia się pewnego automatu drzewiastego.
Ponadto:
— Cel nauki: gramatyka bezkontekstowa (nie zaś język bezkontekstowy).
— Struktura algorytmu: analogiczna do tej dla języków regularnych.
8
4. Dygresja semantyczna
1. Każda książka w bibliotece IF UW jest zielona.
2. Pewna książka w bibliotece IF UW jest zielona
3. Co najmniej dwie książki w bibliotece IF UW są zielone.
4. Większość książek w bibliotece IF UW jest zielona.
Rysunek 3. M = (U, R1 , R2 )
Rozważmy model M = (U, R1 , R2 ), gdzie U = {b1 , b2 , b3 , b4 , b5 }. Model ten będzie reprezentowało słowo αM = a1 a2 a4 a3 a3 nad alfabetem A = {a1 , a2 , a3 , a4 }, które mówi, że element
b1 ∈ S1 = U − (R1 ∪ R2 ), b2 ∈ S2 = R1 − R2 , b3 ∈ S4 = R1 ∩ R2 , a b4 , b5 ∈ S3 = R2 − R1 .
Słowo αM – opisuje model M z dokładnością do izomorfizmu.
Odpowiedni algorytm będzie akceptował αM wtedy i tylko wtedy, gdy w M będzie prawdziwe zdanie, którego znaczeniem jest ten algorytm.
Rysunek 4. FA akceptujący L∀
A − {a2 }
A
a2
9
Rysunek 5. FA akceptujący L∃
A − {a4 }
A
a4
Rysunek 6. FA akceptujący L∃­2
A − {a4 }
A − {a4 }
a4
A
a4
4.1. Obliczenia a neurologiczne podłoże języka
Twierdzenie 3. (M. Mostowski 1998) Kwantyfikator monadyczny Q jest definiowalny w
logice podzielności ⇐⇒ LQ jest rozpoznawalny przez automat skończony.
Hipoteza: Rozumienie zdań z kwantyfikatorami definiowalnymi w logice podzielności (np. każdy, co najmniej dwa, parzyście wiele) nie angażuje ośrodków mózgu związanych z pamięcią
operacyjną (bezpośrednią, krótkotrwałą). Podczas, gdy analiza zdań z kwantyfikatorami nie
wyrażalnymi w tej logice (np. większość) wymaga skorzystania z zasobów takiej pamięci.
Wstępne wyniki badań neurologicznych: Rozumienie zdań z kwantyfikatorami elementarnymi
nie angażuje ośrodków pamięci operacyjnej w stopniu uchwytnym dla procedur neuroobrazowania (fMRi). Podczas, gdy analiza zdań z bardziej złożonymi kwantyfikatorami wymaga
uaktywnienia ośrodków mózgu związanych z pamięcią operacyjną w stopniu obserwowalnym
za pomocą neuroobrazowania.
Literatura
[1] D. ANGLUIN Learning Regular Sets from Queries and Counterexamples, Information
and Computation 75 (1987), str. 87 – 106.
[2] P. CICHOSZ Systemy uczące się, Warszawa 2000.
[3] Y. SAKAKIBARA Learning Context-free Grammars from Structural Data in Polynomial Time, Theoretical Computer Science 75 (1990), str. 223 – 242.
[4] J. VAN BENTHEM Essays in Logical Semantics, Reidel Publishing Company, Amsterdam 1986.
10
[5] R. CLARK Learning First-Order Quantifiers Denotations. An Essay in Semantic Learnability, IRCS Technical Report 1996, University of Pennsylvania, str. 19 – 96, zob.
też: fttp://babel.ling.upenn.edu/papers/faculty/robin clark/papers/lfoq.ps
[6] C. T. MCMILLAN, R. CLARK et al. Frontal and Parietal Contributions to Generalized
Quantifiers, Cognitive Neuroscience Society Annual Meeting, San Francisco 2003,
zob. też: fttp://www.ling.upenn.edu/facpapers/robin clark/quantifierMRI.pdf
[7] M. MOSTOWSKI Computational semantics for monadic quantifiers, Journal of Applied Non-Classical Logics Vol. 8 (1998) no 1-2.
11

Podobne dokumenty