uzupełnienie modelu

Wojciech Jaworski
1 parent 269f5d1e
Showing 2 changed files with 24 additions and 37 deletions
morphology/doc/model.pdf
morphology/doc/model.tex
@@ -10,27 +10,12 @@
 \parindent 0pt
 \parskip 4pt
  
-% \newcommand{\tensor}{\otimes}
-% \newcommand{\forward}{\operatorname{/}}
-% \newcommand{\backward}{\operatorname{\backslash}}
-% \newcommand{\both}{\mid}
-% \newcommand{\plus}{\oplus}
-% \newcommand{\zero}{0}
-% \newcommand{\one}{1}
-% \newcommand{\letin}[2]{{\bf let}\;#1\;{\bf in}\;#2}
-% \newcommand{\caseof}[2]{{\bf case}\;#1\;{\bf of}\;#2}
-% \newcommand{\emp}{{\bf emp}}
-% \newcommand{\inl}{{\bf inl}}
-% \newcommand{\inr}{{\bf inr}}
-% \newcommand{\coord}[1]{{#1}^\star}
-% \newcommand{\map}[2]{{\bf map}\;#1\;#2}
-% \newcommand{\concat}[1]{{\bf concat}\;#1}
-% \newcommand{\makeset}[1]{{\bf makeset}\;#1}
-% \newcommand{\maketerm}[1]{{\bf maketerm}\;#1}
-% \newcommand{\addlist}[2]{{\bf add}\;#1\;#2}
-% \newcommand{\ana}[1]{{\bf ana}(#1)}
-% \newcommand{\One}{\bullet}
-
+\newcommand{\form}{{\it form}}
+\newcommand{\lemma}{{\it lemma}}
+\newcommand{\cat}{{\it cat}}
+\newcommand{\interp}{{\it interp}}
+\newcommand{\fsuf}{{\it fsuf}}
+\newcommand{\lsuf}{{\it lsuf}}
  
 \title{Model probabilistyczny guessera dla języka polskiego}
 \author{Wojciech Jaworski}
@@ -39,48 +24,48 @@
 \begin{document}
 \maketitle
  
-Zakładamy, że język jest rozkładem probabilistycznym na czwórkach (form,lemma,cat,interp),
+Zakładamy, że język jest rozkładem probabilistycznym na czwórkach (\form,\lemma,\cat,\interp),
 czyli, że wystąpienia kolejnych słów w tekście są od siebie niezależne.
-Interpretacja interp jest zbiorem tagów zgodnym a tagsetem SGJP.
-Kategoria $cat \in \{ noun, adj, adv, verb, other \}$
+Interpretacja \interp{} jest zbiorem tagów zgodnym a tagsetem SGJP.
+Kategoria $\cat \in \{ noun, adj, adv, verb, other \}$
 Zakładamy też, że język jest poprawny, tzn. nie ma literówek, ani błędów gramatycznych.
  
 Dysponujemy następującymi danymi: 
 \begin{itemize}
 \item słownikiem gramatycznym S, czyli zbiorem czwórek, o których wiemy, że należą do języka;
-\item zbiorem reguł, czyli zbiorem czwórek (fsuf,lsuf,cat,interp)
+\item zbiorem reguł, czyli zbiorem czwórek (\fsuf,\lsuf,\cat,\interp)
 \item zbiorem wyjątków, czyli zbiorem czwórek, o których wiemy, że należą do języka, które nie są opisywane przez reguły
 \item otagowaną listą frekwencyjną.
 \end{itemize}
-Reguła przyłożona do formy ucina fsuf i przykleja lsuf.
+Reguła przyłożona do formy ucina \fsuf{} i przykleja \lsuf.
  
-Celem jest aproksymacja wartości P(lemma,cat,interp|form).
+Celem jest aproksymacja wartości P(\lemma,\cat,\interp|\form).
  
-Pytanie 1: $P((form,lemma,cat,interp) \in S)$
+Pytanie 1: $P((\form,\lemma,\cat,\interp) \in S)$
  
-Pytanie 2: $P((form,lemma,cat,interp) \not\in S \wedge form \in S)$
+Pytanie 2: $P((\form,\lemma,\cat,\interp) \not\in S \wedge \form \in S)$
  
 Załóżmy, że reguły i wyjątki mają postać taką, że do danej formy można zaaplikować tylko jedną z nich 
 (dla żadnej reguły sufix nie jest podciągiem innego sufixu). Wtedy
-\[P(lemma,cat,interp|form)\approx P(rule|form)=P(rule|fsuf)\]
+\[P(\lemma,\cat,\interp|\form)\approx P(rule|\form)=P(rule|\fsuf)\]
 (W powyższym drzewie sufixowym w każdym węźle mamy dowiązania do sufixów o jeden znak dłuższych oraz kategorię pozostałe traktową łącznie
  
 Pytanie 3: Czy faktycznie zachodzi powyższa zależność? Jak zmierzyć podobieństwo?
  
 Problem tu jest taki, że lista frekwencyjna jest zbyt mała by precyzyjnie określić p-stwo ok. 40000 reguł
  
-\[P(rule|fsuf)=P(lsuf,cat,interp|fsuf)=P(fsuf|lsuf,cat,interp)\frac{P(lsuf,cat,interp)}{P(fsuf)}\]
+\[P(rule|\fsuf)=P(\lsuf,\cat,\interp|\fsuf)=P(\fsuf|\lsuf,\cat,\interp)\frac{P(\lsuf,\cat,\interp)}{P(\fsuf)}\]
  
-$P(fsuf)$ jest prawdopodobieństwem tego, że do języka należy słowo o zadanym sufixie. 
+$P(\fsuf)$ jest prawdopodobieństwem tego, że do języka należy słowo o zadanym sufixie. 
 Można je oszacować za pomocą listy frekwencyjnej.
  
-Zakładamy, że interp jest niezależne od lsuf, pod warunkiem określonego cat
-$P(lsuf,cat,interp)=P(lsuf,cat)P(interp|lsuf,cat)=P(lsuf,cat)P(interp|cat)$ 
+Zakładamy, że \interp jest niezależne od \lsuf, pod warunkiem określonego \cat
+$P(\lsuf,\cat,\interp)=P(\lsuf,\cat)P(\interp|\lsuf,\cat)=P(\lsuf,\cat)P(\interp|\cat)$ 
  
-$P(lsuf,cat)$ i $P(interp|cat)$ można oszacować na podstawie listy frekwencyjnej.
+$P(\lsuf,\cat)$ i $P(\interp|\cat)$ można oszacować na podstawie listy frekwencyjnej.
  
-$P(fsuf|lsuf,cat,interp)$ wynosi 0, gdy nie ma reguły postaci (fsuf,lsuf,cat,interp);
-1, gdy jest dokładnie jedna reguła z (lsuf,cat,interp), a gdy jest ich więcej trzeba
+$P(\fsuf|\lsuf,\cat,\interp)$ wynosi 0, gdy nie ma reguły postaci (\fsuf,\lsuf,\cat,\interp);
+1, gdy jest dokładnie jedna reguła z (\lsuf,\cat,\interp), a gdy jest ich więcej trzeba
 oszacować z listy frekwencyjnej. 
  
 Pytanie 4: Czy powyższe przybliżenie jest poprawne, jak często jest więcej niż jedna reguła i ile wynoszą wówczas p-stwa?
@@ -91,4 +76,6 @@ Zadania poboczne: wytworzenie otagowanej listy frekwencyjnej, wytworzenie (uzupe
  
 Zadanie na przyszłość: reguły słowotwórstwa i ich interpretacja semantyczna.
  
+Do powyższego modelu trzeba jeszcze dodać prefixy nie i naj.
+
 \end{document}
 \ No newline at end of file