Commit 16ab7479a8f9ddb209480d3023bf00c208f500e7

Authored by Wojciech Jaworski
1 parent 269f5d1e

uzupełnienie modelu

morphology/doc/model.pdf
No preview for this file type
morphology/doc/model.tex
@@ -10,27 +10,12 @@ @@ -10,27 +10,12 @@
10 \parindent 0pt 10 \parindent 0pt
11 \parskip 4pt 11 \parskip 4pt
12 12
13 -% \newcommand{\tensor}{\otimes}  
14 -% \newcommand{\forward}{\operatorname{/}}  
15 -% \newcommand{\backward}{\operatorname{\backslash}}  
16 -% \newcommand{\both}{\mid}  
17 -% \newcommand{\plus}{\oplus}  
18 -% \newcommand{\zero}{0}  
19 -% \newcommand{\one}{1}  
20 -% \newcommand{\letin}[2]{{\bf let}\;#1\;{\bf in}\;#2}  
21 -% \newcommand{\caseof}[2]{{\bf case}\;#1\;{\bf of}\;#2}  
22 -% \newcommand{\emp}{{\bf emp}}  
23 -% \newcommand{\inl}{{\bf inl}}  
24 -% \newcommand{\inr}{{\bf inr}}  
25 -% \newcommand{\coord}[1]{{#1}^\star}  
26 -% \newcommand{\map}[2]{{\bf map}\;#1\;#2}  
27 -% \newcommand{\concat}[1]{{\bf concat}\;#1}  
28 -% \newcommand{\makeset}[1]{{\bf makeset}\;#1}  
29 -% \newcommand{\maketerm}[1]{{\bf maketerm}\;#1}  
30 -% \newcommand{\addlist}[2]{{\bf add}\;#1\;#2}  
31 -% \newcommand{\ana}[1]{{\bf ana}(#1)}  
32 -% \newcommand{\One}{\bullet}  
33 - 13 +\newcommand{\form}{{\it form}}
  14 +\newcommand{\lemma}{{\it lemma}}
  15 +\newcommand{\cat}{{\it cat}}
  16 +\newcommand{\interp}{{\it interp}}
  17 +\newcommand{\fsuf}{{\it fsuf}}
  18 +\newcommand{\lsuf}{{\it lsuf}}
34 19
35 \title{Model probabilistyczny guessera dla języka polskiego} 20 \title{Model probabilistyczny guessera dla języka polskiego}
36 \author{Wojciech Jaworski} 21 \author{Wojciech Jaworski}
@@ -39,48 +24,48 @@ @@ -39,48 +24,48 @@
39 \begin{document} 24 \begin{document}
40 \maketitle 25 \maketitle
41 26
42 -Zakładamy, że język jest rozkładem probabilistycznym na czwórkach (form,lemma,cat,interp), 27 +Zakładamy, że język jest rozkładem probabilistycznym na czwórkach (\form,\lemma,\cat,\interp),
43 czyli, że wystąpienia kolejnych słów w tekście są od siebie niezależne. 28 czyli, że wystąpienia kolejnych słów w tekście są od siebie niezależne.
44 -Interpretacja interp jest zbiorem tagów zgodnym a tagsetem SGJP.  
45 -Kategoria $cat \in \{ noun, adj, adv, verb, other \}$ 29 +Interpretacja \interp{} jest zbiorem tagów zgodnym a tagsetem SGJP.
  30 +Kategoria $\cat \in \{ noun, adj, adv, verb, other \}$
46 Zakładamy też, że język jest poprawny, tzn. nie ma literówek, ani błędów gramatycznych. 31 Zakładamy też, że język jest poprawny, tzn. nie ma literówek, ani błędów gramatycznych.
47 32
48 Dysponujemy następującymi danymi: 33 Dysponujemy następującymi danymi:
49 \begin{itemize} 34 \begin{itemize}
50 \item słownikiem gramatycznym S, czyli zbiorem czwórek, o których wiemy, że należą do języka; 35 \item słownikiem gramatycznym S, czyli zbiorem czwórek, o których wiemy, że należą do języka;
51 -\item zbiorem reguł, czyli zbiorem czwórek (fsuf,lsuf,cat,interp) 36 +\item zbiorem reguł, czyli zbiorem czwórek (\fsuf,\lsuf,\cat,\interp)
52 \item zbiorem wyjątków, czyli zbiorem czwórek, o których wiemy, że należą do języka, które nie są opisywane przez reguły 37 \item zbiorem wyjątków, czyli zbiorem czwórek, o których wiemy, że należą do języka, które nie są opisywane przez reguły
53 \item otagowaną listą frekwencyjną. 38 \item otagowaną listą frekwencyjną.
54 \end{itemize} 39 \end{itemize}
55 -Reguła przyłożona do formy ucina fsuf i przykleja lsuf. 40 +Reguła przyłożona do formy ucina \fsuf{} i przykleja \lsuf.
56 41
57 -Celem jest aproksymacja wartości P(lemma,cat,interp|form). 42 +Celem jest aproksymacja wartości P(\lemma,\cat,\interp|\form).
58 43
59 -Pytanie 1: $P((form,lemma,cat,interp) \in S)$ 44 +Pytanie 1: $P((\form,\lemma,\cat,\interp) \in S)$
60 45
61 -Pytanie 2: $P((form,lemma,cat,interp) \not\in S \wedge form \in S)$ 46 +Pytanie 2: $P((\form,\lemma,\cat,\interp) \not\in S \wedge \form \in S)$
62 47
63 Załóżmy, że reguły i wyjątki mają postać taką, że do danej formy można zaaplikować tylko jedną z nich 48 Załóżmy, że reguły i wyjątki mają postać taką, że do danej formy można zaaplikować tylko jedną z nich
64 (dla żadnej reguły sufix nie jest podciągiem innego sufixu). Wtedy 49 (dla żadnej reguły sufix nie jest podciągiem innego sufixu). Wtedy
65 -\[P(lemma,cat,interp|form)\approx P(rule|form)=P(rule|fsuf)\] 50 +\[P(\lemma,\cat,\interp|\form)\approx P(rule|\form)=P(rule|\fsuf)\]
66 (W powyższym drzewie sufixowym w każdym węźle mamy dowiązania do sufixów o jeden znak dłuższych oraz kategorię pozostałe traktową łącznie 51 (W powyższym drzewie sufixowym w każdym węźle mamy dowiązania do sufixów o jeden znak dłuższych oraz kategorię pozostałe traktową łącznie
67 52
68 Pytanie 3: Czy faktycznie zachodzi powyższa zależność? Jak zmierzyć podobieństwo? 53 Pytanie 3: Czy faktycznie zachodzi powyższa zależność? Jak zmierzyć podobieństwo?
69 54
70 Problem tu jest taki, że lista frekwencyjna jest zbyt mała by precyzyjnie określić p-stwo ok. 40000 reguł 55 Problem tu jest taki, że lista frekwencyjna jest zbyt mała by precyzyjnie określić p-stwo ok. 40000 reguł
71 56
72 -\[P(rule|fsuf)=P(lsuf,cat,interp|fsuf)=P(fsuf|lsuf,cat,interp)\frac{P(lsuf,cat,interp)}{P(fsuf)}\] 57 +\[P(rule|\fsuf)=P(\lsuf,\cat,\interp|\fsuf)=P(\fsuf|\lsuf,\cat,\interp)\frac{P(\lsuf,\cat,\interp)}{P(\fsuf)}\]
73 58
74 -$P(fsuf)$ jest prawdopodobieństwem tego, że do języka należy słowo o zadanym sufixie. 59 +$P(\fsuf)$ jest prawdopodobieństwem tego, że do języka należy słowo o zadanym sufixie.
75 Można je oszacować za pomocą listy frekwencyjnej. 60 Można je oszacować za pomocą listy frekwencyjnej.
76 61
77 -Zakładamy, że interp jest niezależne od lsuf, pod warunkiem określonego cat  
78 -$P(lsuf,cat,interp)=P(lsuf,cat)P(interp|lsuf,cat)=P(lsuf,cat)P(interp|cat)$ 62 +Zakładamy, że \interp jest niezależne od \lsuf, pod warunkiem określonego \cat
  63 +$P(\lsuf,\cat,\interp)=P(\lsuf,\cat)P(\interp|\lsuf,\cat)=P(\lsuf,\cat)P(\interp|\cat)$
79 64
80 -$P(lsuf,cat)$ i $P(interp|cat)$ można oszacować na podstawie listy frekwencyjnej. 65 +$P(\lsuf,\cat)$ i $P(\interp|\cat)$ można oszacować na podstawie listy frekwencyjnej.
81 66
82 -$P(fsuf|lsuf,cat,interp)$ wynosi 0, gdy nie ma reguły postaci (fsuf,lsuf,cat,interp);  
83 -1, gdy jest dokładnie jedna reguła z (lsuf,cat,interp), a gdy jest ich więcej trzeba 67 +$P(\fsuf|\lsuf,\cat,\interp)$ wynosi 0, gdy nie ma reguły postaci (\fsuf,\lsuf,\cat,\interp);
  68 +1, gdy jest dokładnie jedna reguła z (\lsuf,\cat,\interp), a gdy jest ich więcej trzeba
84 oszacować z listy frekwencyjnej. 69 oszacować z listy frekwencyjnej.
85 70
86 Pytanie 4: Czy powyższe przybliżenie jest poprawne, jak często jest więcej niż jedna reguła i ile wynoszą wówczas p-stwa? 71 Pytanie 4: Czy powyższe przybliżenie jest poprawne, jak często jest więcej niż jedna reguła i ile wynoszą wówczas p-stwa?
@@ -91,4 +76,6 @@ Zadania poboczne: wytworzenie otagowanej listy frekwencyjnej, wytworzenie (uzupe @@ -91,4 +76,6 @@ Zadania poboczne: wytworzenie otagowanej listy frekwencyjnej, wytworzenie (uzupe
91 76
92 Zadanie na przyszłość: reguły słowotwórstwa i ich interpretacja semantyczna. 77 Zadanie na przyszłość: reguły słowotwórstwa i ich interpretacja semantyczna.
93 78
  79 +Do powyższego modelu trzeba jeszcze dodać prefixy nie i naj.
  80 +
94 \end{document} 81 \end{document}
95 \ No newline at end of file 82 \ No newline at end of file