Commit 16ab7479a8f9ddb209480d3023bf00c208f500e7

Authored by Wojciech Jaworski
1 parent 269f5d1e

uzupełnienie modelu

morphology/doc/model.pdf
No preview for this file type
morphology/doc/model.tex
... ... @@ -10,27 +10,12 @@
10 10 \parindent 0pt
11 11 \parskip 4pt
12 12  
13   -% \newcommand{\tensor}{\otimes}
14   -% \newcommand{\forward}{\operatorname{/}}
15   -% \newcommand{\backward}{\operatorname{\backslash}}
16   -% \newcommand{\both}{\mid}
17   -% \newcommand{\plus}{\oplus}
18   -% \newcommand{\zero}{0}
19   -% \newcommand{\one}{1}
20   -% \newcommand{\letin}[2]{{\bf let}\;#1\;{\bf in}\;#2}
21   -% \newcommand{\caseof}[2]{{\bf case}\;#1\;{\bf of}\;#2}
22   -% \newcommand{\emp}{{\bf emp}}
23   -% \newcommand{\inl}{{\bf inl}}
24   -% \newcommand{\inr}{{\bf inr}}
25   -% \newcommand{\coord}[1]{{#1}^\star}
26   -% \newcommand{\map}[2]{{\bf map}\;#1\;#2}
27   -% \newcommand{\concat}[1]{{\bf concat}\;#1}
28   -% \newcommand{\makeset}[1]{{\bf makeset}\;#1}
29   -% \newcommand{\maketerm}[1]{{\bf maketerm}\;#1}
30   -% \newcommand{\addlist}[2]{{\bf add}\;#1\;#2}
31   -% \newcommand{\ana}[1]{{\bf ana}(#1)}
32   -% \newcommand{\One}{\bullet}
33   -
  13 +\newcommand{\form}{{\it form}}
  14 +\newcommand{\lemma}{{\it lemma}}
  15 +\newcommand{\cat}{{\it cat}}
  16 +\newcommand{\interp}{{\it interp}}
  17 +\newcommand{\fsuf}{{\it fsuf}}
  18 +\newcommand{\lsuf}{{\it lsuf}}
34 19  
35 20 \title{Model probabilistyczny guessera dla języka polskiego}
36 21 \author{Wojciech Jaworski}
... ... @@ -39,48 +24,48 @@
39 24 \begin{document}
40 25 \maketitle
41 26  
42   -Zakładamy, że język jest rozkładem probabilistycznym na czwórkach (form,lemma,cat,interp),
  27 +Zakładamy, że język jest rozkładem probabilistycznym na czwórkach (\form,\lemma,\cat,\interp),
43 28 czyli, że wystąpienia kolejnych słów w tekście są od siebie niezależne.
44   -Interpretacja interp jest zbiorem tagów zgodnym a tagsetem SGJP.
45   -Kategoria $cat \in \{ noun, adj, adv, verb, other \}$
  29 +Interpretacja \interp{} jest zbiorem tagów zgodnym a tagsetem SGJP.
  30 +Kategoria $\cat \in \{ noun, adj, adv, verb, other \}$
46 31 Zakładamy też, że język jest poprawny, tzn. nie ma literówek, ani błędów gramatycznych.
47 32  
48 33 Dysponujemy następującymi danymi:
49 34 \begin{itemize}
50 35 \item słownikiem gramatycznym S, czyli zbiorem czwórek, o których wiemy, że należą do języka;
51   -\item zbiorem reguł, czyli zbiorem czwórek (fsuf,lsuf,cat,interp)
  36 +\item zbiorem reguł, czyli zbiorem czwórek (\fsuf,\lsuf,\cat,\interp)
52 37 \item zbiorem wyjątków, czyli zbiorem czwórek, o których wiemy, że należą do języka, które nie są opisywane przez reguły
53 38 \item otagowaną listą frekwencyjną.
54 39 \end{itemize}
55   -Reguła przyłożona do formy ucina fsuf i przykleja lsuf.
  40 +Reguła przyłożona do formy ucina \fsuf{} i przykleja \lsuf.
56 41  
57   -Celem jest aproksymacja wartości P(lemma,cat,interp|form).
  42 +Celem jest aproksymacja wartości P(\lemma,\cat,\interp|\form).
58 43  
59   -Pytanie 1: $P((form,lemma,cat,interp) \in S)$
  44 +Pytanie 1: $P((\form,\lemma,\cat,\interp) \in S)$
60 45  
61   -Pytanie 2: $P((form,lemma,cat,interp) \not\in S \wedge form \in S)$
  46 +Pytanie 2: $P((\form,\lemma,\cat,\interp) \not\in S \wedge \form \in S)$
62 47  
63 48 Załóżmy, że reguły i wyjątki mają postać taką, że do danej formy można zaaplikować tylko jedną z nich
64 49 (dla żadnej reguły sufix nie jest podciągiem innego sufixu). Wtedy
65   -\[P(lemma,cat,interp|form)\approx P(rule|form)=P(rule|fsuf)\]
  50 +\[P(\lemma,\cat,\interp|\form)\approx P(rule|\form)=P(rule|\fsuf)\]
66 51 (W powyższym drzewie sufixowym w każdym węźle mamy dowiązania do sufixów o jeden znak dłuższych oraz kategorię pozostałe traktową łącznie
67 52  
68 53 Pytanie 3: Czy faktycznie zachodzi powyższa zależność? Jak zmierzyć podobieństwo?
69 54  
70 55 Problem tu jest taki, że lista frekwencyjna jest zbyt mała by precyzyjnie określić p-stwo ok. 40000 reguł
71 56  
72   -\[P(rule|fsuf)=P(lsuf,cat,interp|fsuf)=P(fsuf|lsuf,cat,interp)\frac{P(lsuf,cat,interp)}{P(fsuf)}\]
  57 +\[P(rule|\fsuf)=P(\lsuf,\cat,\interp|\fsuf)=P(\fsuf|\lsuf,\cat,\interp)\frac{P(\lsuf,\cat,\interp)}{P(\fsuf)}\]
73 58  
74   -$P(fsuf)$ jest prawdopodobieństwem tego, że do języka należy słowo o zadanym sufixie.
  59 +$P(\fsuf)$ jest prawdopodobieństwem tego, że do języka należy słowo o zadanym sufixie.
75 60 Można je oszacować za pomocą listy frekwencyjnej.
76 61  
77   -Zakładamy, że interp jest niezależne od lsuf, pod warunkiem określonego cat
78   -$P(lsuf,cat,interp)=P(lsuf,cat)P(interp|lsuf,cat)=P(lsuf,cat)P(interp|cat)$
  62 +Zakładamy, że \interp jest niezależne od \lsuf, pod warunkiem określonego \cat
  63 +$P(\lsuf,\cat,\interp)=P(\lsuf,\cat)P(\interp|\lsuf,\cat)=P(\lsuf,\cat)P(\interp|\cat)$
79 64  
80   -$P(lsuf,cat)$ i $P(interp|cat)$ można oszacować na podstawie listy frekwencyjnej.
  65 +$P(\lsuf,\cat)$ i $P(\interp|\cat)$ można oszacować na podstawie listy frekwencyjnej.
81 66  
82   -$P(fsuf|lsuf,cat,interp)$ wynosi 0, gdy nie ma reguły postaci (fsuf,lsuf,cat,interp);
83   -1, gdy jest dokładnie jedna reguła z (lsuf,cat,interp), a gdy jest ich więcej trzeba
  67 +$P(\fsuf|\lsuf,\cat,\interp)$ wynosi 0, gdy nie ma reguły postaci (\fsuf,\lsuf,\cat,\interp);
  68 +1, gdy jest dokładnie jedna reguła z (\lsuf,\cat,\interp), a gdy jest ich więcej trzeba
84 69 oszacować z listy frekwencyjnej.
85 70  
86 71 Pytanie 4: Czy powyższe przybliżenie jest poprawne, jak często jest więcej niż jedna reguła i ile wynoszą wówczas p-stwa?
... ... @@ -91,4 +76,6 @@ Zadania poboczne: wytworzenie otagowanej listy frekwencyjnej, wytworzenie (uzupe
91 76  
92 77 Zadanie na przyszłość: reguły słowotwórstwa i ich interpretacja semantyczna.
93 78  
  79 +Do powyższego modelu trzeba jeszcze dodać prefixy nie i naj.
  80 +
94 81 \end{document}
95 82 \ No newline at end of file
... ...