diff --git a/morphology/doc/model.pdf b/morphology/doc/model.pdf index 8f57127..322be4c 100644 --- a/morphology/doc/model.pdf +++ b/morphology/doc/model.pdf diff --git a/morphology/doc/model.tex b/morphology/doc/model.tex index 798b461..80efa72 100644 --- a/morphology/doc/model.tex +++ b/morphology/doc/model.tex @@ -10,27 +10,12 @@ \parindent 0pt \parskip 4pt -% \newcommand{\tensor}{\otimes} -% \newcommand{\forward}{\operatorname{/}} -% \newcommand{\backward}{\operatorname{\backslash}} -% \newcommand{\both}{\mid} -% \newcommand{\plus}{\oplus} -% \newcommand{\zero}{0} -% \newcommand{\one}{1} -% \newcommand{\letin}[2]{{\bf let}\;#1\;{\bf in}\;#2} -% \newcommand{\caseof}[2]{{\bf case}\;#1\;{\bf of}\;#2} -% \newcommand{\emp}{{\bf emp}} -% \newcommand{\inl}{{\bf inl}} -% \newcommand{\inr}{{\bf inr}} -% \newcommand{\coord}[1]{{#1}^\star} -% \newcommand{\map}[2]{{\bf map}\;#1\;#2} -% \newcommand{\concat}[1]{{\bf concat}\;#1} -% \newcommand{\makeset}[1]{{\bf makeset}\;#1} -% \newcommand{\maketerm}[1]{{\bf maketerm}\;#1} -% \newcommand{\addlist}[2]{{\bf add}\;#1\;#2} -% \newcommand{\ana}[1]{{\bf ana}(#1)} -% \newcommand{\One}{\bullet} - +\newcommand{\form}{{\it form}} +\newcommand{\lemma}{{\it lemma}} +\newcommand{\cat}{{\it cat}} +\newcommand{\interp}{{\it interp}} +\newcommand{\fsuf}{{\it fsuf}} +\newcommand{\lsuf}{{\it lsuf}} \title{Model probabilistyczny guessera dla języka polskiego} \author{Wojciech Jaworski} @@ -39,48 +24,48 @@ \begin{document} \maketitle -Zakładamy, że język jest rozkładem probabilistycznym na czwórkach (form,lemma,cat,interp), +Zakładamy, że język jest rozkładem probabilistycznym na czwórkach (\form,\lemma,\cat,\interp), czyli, że wystąpienia kolejnych słów w tekście są od siebie niezależne. -Interpretacja interp jest zbiorem tagów zgodnym a tagsetem SGJP. -Kategoria $cat \in \{ noun, adj, adv, verb, other \}$ +Interpretacja \interp{} jest zbiorem tagów zgodnym a tagsetem SGJP. +Kategoria $\cat \in \{ noun, adj, adv, verb, other \}$ Zakładamy też, że język jest poprawny, tzn. nie ma literówek, ani błędów gramatycznych. Dysponujemy następującymi danymi: \begin{itemize} \item słownikiem gramatycznym S, czyli zbiorem czwórek, o których wiemy, że należą do języka; -\item zbiorem reguł, czyli zbiorem czwórek (fsuf,lsuf,cat,interp) +\item zbiorem reguł, czyli zbiorem czwórek (\fsuf,\lsuf,\cat,\interp) \item zbiorem wyjątków, czyli zbiorem czwórek, o których wiemy, że należą do języka, które nie są opisywane przez reguły \item otagowaną listą frekwencyjną. \end{itemize} -Reguła przyłożona do formy ucina fsuf i przykleja lsuf. +Reguła przyłożona do formy ucina \fsuf{} i przykleja \lsuf. -Celem jest aproksymacja wartości P(lemma,cat,interp|form). +Celem jest aproksymacja wartości P(\lemma,\cat,\interp|\form). -Pytanie 1: $P((form,lemma,cat,interp) \in S)$ +Pytanie 1: $P((\form,\lemma,\cat,\interp) \in S)$ -Pytanie 2: $P((form,lemma,cat,interp) \not\in S \wedge form \in S)$ +Pytanie 2: $P((\form,\lemma,\cat,\interp) \not\in S \wedge \form \in S)$ Załóżmy, że reguły i wyjątki mają postać taką, że do danej formy można zaaplikować tylko jedną z nich (dla żadnej reguły sufix nie jest podciągiem innego sufixu). Wtedy -\[P(lemma,cat,interp|form)\approx P(rule|form)=P(rule|fsuf)\] +\[P(\lemma,\cat,\interp|\form)\approx P(rule|\form)=P(rule|\fsuf)\] (W powyższym drzewie sufixowym w każdym węźle mamy dowiązania do sufixów o jeden znak dłuższych oraz kategorię pozostałe traktową łącznie Pytanie 3: Czy faktycznie zachodzi powyższa zależność? Jak zmierzyć podobieństwo? Problem tu jest taki, że lista frekwencyjna jest zbyt mała by precyzyjnie określić p-stwo ok. 40000 reguł -\[P(rule|fsuf)=P(lsuf,cat,interp|fsuf)=P(fsuf|lsuf,cat,interp)\frac{P(lsuf,cat,interp)}{P(fsuf)}\] +\[P(rule|\fsuf)=P(\lsuf,\cat,\interp|\fsuf)=P(\fsuf|\lsuf,\cat,\interp)\frac{P(\lsuf,\cat,\interp)}{P(\fsuf)}\] -$P(fsuf)$ jest prawdopodobieństwem tego, że do języka należy słowo o zadanym sufixie. +$P(\fsuf)$ jest prawdopodobieństwem tego, że do języka należy słowo o zadanym sufixie. Można je oszacować za pomocą listy frekwencyjnej. -Zakładamy, że interp jest niezależne od lsuf, pod warunkiem określonego cat -$P(lsuf,cat,interp)=P(lsuf,cat)P(interp|lsuf,cat)=P(lsuf,cat)P(interp|cat)$ +Zakładamy, że \interp jest niezależne od \lsuf, pod warunkiem określonego \cat +$P(\lsuf,\cat,\interp)=P(\lsuf,\cat)P(\interp|\lsuf,\cat)=P(\lsuf,\cat)P(\interp|\cat)$ -$P(lsuf,cat)$ i $P(interp|cat)$ można oszacować na podstawie listy frekwencyjnej. +$P(\lsuf,\cat)$ i $P(\interp|\cat)$ można oszacować na podstawie listy frekwencyjnej. -$P(fsuf|lsuf,cat,interp)$ wynosi 0, gdy nie ma reguły postaci (fsuf,lsuf,cat,interp); -1, gdy jest dokładnie jedna reguła z (lsuf,cat,interp), a gdy jest ich więcej trzeba +$P(\fsuf|\lsuf,\cat,\interp)$ wynosi 0, gdy nie ma reguły postaci (\fsuf,\lsuf,\cat,\interp); +1, gdy jest dokładnie jedna reguła z (\lsuf,\cat,\interp), a gdy jest ich więcej trzeba oszacować z listy frekwencyjnej. Pytanie 4: Czy powyższe przybliżenie jest poprawne, jak często jest więcej niż jedna reguła i ile wynoszą wówczas p-stwa? @@ -91,4 +76,6 @@ Zadania poboczne: wytworzenie otagowanej listy frekwencyjnej, wytworzenie (uzupe Zadanie na przyszłość: reguły słowotwórstwa i ich interpretacja semantyczna. +Do powyższego modelu trzeba jeszcze dodać prefixy nie i naj. + \end{document} \ No newline at end of file