Commit 16ab7479a8f9ddb209480d3023bf00c208f500e7
1 parent
269f5d1e
uzupełnienie modelu
Showing
2 changed files
with
24 additions
and
37 deletions
morphology/doc/model.pdf
No preview for this file type
morphology/doc/model.tex
@@ -10,27 +10,12 @@ | @@ -10,27 +10,12 @@ | ||
10 | \parindent 0pt | 10 | \parindent 0pt |
11 | \parskip 4pt | 11 | \parskip 4pt |
12 | 12 | ||
13 | -% \newcommand{\tensor}{\otimes} | ||
14 | -% \newcommand{\forward}{\operatorname{/}} | ||
15 | -% \newcommand{\backward}{\operatorname{\backslash}} | ||
16 | -% \newcommand{\both}{\mid} | ||
17 | -% \newcommand{\plus}{\oplus} | ||
18 | -% \newcommand{\zero}{0} | ||
19 | -% \newcommand{\one}{1} | ||
20 | -% \newcommand{\letin}[2]{{\bf let}\;#1\;{\bf in}\;#2} | ||
21 | -% \newcommand{\caseof}[2]{{\bf case}\;#1\;{\bf of}\;#2} | ||
22 | -% \newcommand{\emp}{{\bf emp}} | ||
23 | -% \newcommand{\inl}{{\bf inl}} | ||
24 | -% \newcommand{\inr}{{\bf inr}} | ||
25 | -% \newcommand{\coord}[1]{{#1}^\star} | ||
26 | -% \newcommand{\map}[2]{{\bf map}\;#1\;#2} | ||
27 | -% \newcommand{\concat}[1]{{\bf concat}\;#1} | ||
28 | -% \newcommand{\makeset}[1]{{\bf makeset}\;#1} | ||
29 | -% \newcommand{\maketerm}[1]{{\bf maketerm}\;#1} | ||
30 | -% \newcommand{\addlist}[2]{{\bf add}\;#1\;#2} | ||
31 | -% \newcommand{\ana}[1]{{\bf ana}(#1)} | ||
32 | -% \newcommand{\One}{\bullet} | ||
33 | - | 13 | +\newcommand{\form}{{\it form}} |
14 | +\newcommand{\lemma}{{\it lemma}} | ||
15 | +\newcommand{\cat}{{\it cat}} | ||
16 | +\newcommand{\interp}{{\it interp}} | ||
17 | +\newcommand{\fsuf}{{\it fsuf}} | ||
18 | +\newcommand{\lsuf}{{\it lsuf}} | ||
34 | 19 | ||
35 | \title{Model probabilistyczny guessera dla języka polskiego} | 20 | \title{Model probabilistyczny guessera dla języka polskiego} |
36 | \author{Wojciech Jaworski} | 21 | \author{Wojciech Jaworski} |
@@ -39,48 +24,48 @@ | @@ -39,48 +24,48 @@ | ||
39 | \begin{document} | 24 | \begin{document} |
40 | \maketitle | 25 | \maketitle |
41 | 26 | ||
42 | -Zakładamy, że język jest rozkładem probabilistycznym na czwórkach (form,lemma,cat,interp), | 27 | +Zakładamy, że język jest rozkładem probabilistycznym na czwórkach (\form,\lemma,\cat,\interp), |
43 | czyli, że wystąpienia kolejnych słów w tekście są od siebie niezależne. | 28 | czyli, że wystąpienia kolejnych słów w tekście są od siebie niezależne. |
44 | -Interpretacja interp jest zbiorem tagów zgodnym a tagsetem SGJP. | ||
45 | -Kategoria $cat \in \{ noun, adj, adv, verb, other \}$ | 29 | +Interpretacja \interp{} jest zbiorem tagów zgodnym a tagsetem SGJP. |
30 | +Kategoria $\cat \in \{ noun, adj, adv, verb, other \}$ | ||
46 | Zakładamy też, że język jest poprawny, tzn. nie ma literówek, ani błędów gramatycznych. | 31 | Zakładamy też, że język jest poprawny, tzn. nie ma literówek, ani błędów gramatycznych. |
47 | 32 | ||
48 | Dysponujemy następującymi danymi: | 33 | Dysponujemy następującymi danymi: |
49 | \begin{itemize} | 34 | \begin{itemize} |
50 | \item słownikiem gramatycznym S, czyli zbiorem czwórek, o których wiemy, że należą do języka; | 35 | \item słownikiem gramatycznym S, czyli zbiorem czwórek, o których wiemy, że należą do języka; |
51 | -\item zbiorem reguł, czyli zbiorem czwórek (fsuf,lsuf,cat,interp) | 36 | +\item zbiorem reguł, czyli zbiorem czwórek (\fsuf,\lsuf,\cat,\interp) |
52 | \item zbiorem wyjątków, czyli zbiorem czwórek, o których wiemy, że należą do języka, które nie są opisywane przez reguły | 37 | \item zbiorem wyjątków, czyli zbiorem czwórek, o których wiemy, że należą do języka, które nie są opisywane przez reguły |
53 | \item otagowaną listą frekwencyjną. | 38 | \item otagowaną listą frekwencyjną. |
54 | \end{itemize} | 39 | \end{itemize} |
55 | -Reguła przyłożona do formy ucina fsuf i przykleja lsuf. | 40 | +Reguła przyłożona do formy ucina \fsuf{} i przykleja \lsuf. |
56 | 41 | ||
57 | -Celem jest aproksymacja wartości P(lemma,cat,interp|form). | 42 | +Celem jest aproksymacja wartości P(\lemma,\cat,\interp|\form). |
58 | 43 | ||
59 | -Pytanie 1: $P((form,lemma,cat,interp) \in S)$ | 44 | +Pytanie 1: $P((\form,\lemma,\cat,\interp) \in S)$ |
60 | 45 | ||
61 | -Pytanie 2: $P((form,lemma,cat,interp) \not\in S \wedge form \in S)$ | 46 | +Pytanie 2: $P((\form,\lemma,\cat,\interp) \not\in S \wedge \form \in S)$ |
62 | 47 | ||
63 | Załóżmy, że reguły i wyjątki mają postać taką, że do danej formy można zaaplikować tylko jedną z nich | 48 | Załóżmy, że reguły i wyjątki mają postać taką, że do danej formy można zaaplikować tylko jedną z nich |
64 | (dla żadnej reguły sufix nie jest podciągiem innego sufixu). Wtedy | 49 | (dla żadnej reguły sufix nie jest podciągiem innego sufixu). Wtedy |
65 | -\[P(lemma,cat,interp|form)\approx P(rule|form)=P(rule|fsuf)\] | 50 | +\[P(\lemma,\cat,\interp|\form)\approx P(rule|\form)=P(rule|\fsuf)\] |
66 | (W powyższym drzewie sufixowym w każdym węźle mamy dowiązania do sufixów o jeden znak dłuższych oraz kategorię pozostałe traktową łącznie | 51 | (W powyższym drzewie sufixowym w każdym węźle mamy dowiązania do sufixów o jeden znak dłuższych oraz kategorię pozostałe traktową łącznie |
67 | 52 | ||
68 | Pytanie 3: Czy faktycznie zachodzi powyższa zależność? Jak zmierzyć podobieństwo? | 53 | Pytanie 3: Czy faktycznie zachodzi powyższa zależność? Jak zmierzyć podobieństwo? |
69 | 54 | ||
70 | Problem tu jest taki, że lista frekwencyjna jest zbyt mała by precyzyjnie określić p-stwo ok. 40000 reguł | 55 | Problem tu jest taki, że lista frekwencyjna jest zbyt mała by precyzyjnie określić p-stwo ok. 40000 reguł |
71 | 56 | ||
72 | -\[P(rule|fsuf)=P(lsuf,cat,interp|fsuf)=P(fsuf|lsuf,cat,interp)\frac{P(lsuf,cat,interp)}{P(fsuf)}\] | 57 | +\[P(rule|\fsuf)=P(\lsuf,\cat,\interp|\fsuf)=P(\fsuf|\lsuf,\cat,\interp)\frac{P(\lsuf,\cat,\interp)}{P(\fsuf)}\] |
73 | 58 | ||
74 | -$P(fsuf)$ jest prawdopodobieństwem tego, że do języka należy słowo o zadanym sufixie. | 59 | +$P(\fsuf)$ jest prawdopodobieństwem tego, że do języka należy słowo o zadanym sufixie. |
75 | Można je oszacować za pomocą listy frekwencyjnej. | 60 | Można je oszacować za pomocą listy frekwencyjnej. |
76 | 61 | ||
77 | -Zakładamy, że interp jest niezależne od lsuf, pod warunkiem określonego cat | ||
78 | -$P(lsuf,cat,interp)=P(lsuf,cat)P(interp|lsuf,cat)=P(lsuf,cat)P(interp|cat)$ | 62 | +Zakładamy, że \interp jest niezależne od \lsuf, pod warunkiem określonego \cat |
63 | +$P(\lsuf,\cat,\interp)=P(\lsuf,\cat)P(\interp|\lsuf,\cat)=P(\lsuf,\cat)P(\interp|\cat)$ | ||
79 | 64 | ||
80 | -$P(lsuf,cat)$ i $P(interp|cat)$ można oszacować na podstawie listy frekwencyjnej. | 65 | +$P(\lsuf,\cat)$ i $P(\interp|\cat)$ można oszacować na podstawie listy frekwencyjnej. |
81 | 66 | ||
82 | -$P(fsuf|lsuf,cat,interp)$ wynosi 0, gdy nie ma reguły postaci (fsuf,lsuf,cat,interp); | ||
83 | -1, gdy jest dokładnie jedna reguła z (lsuf,cat,interp), a gdy jest ich więcej trzeba | 67 | +$P(\fsuf|\lsuf,\cat,\interp)$ wynosi 0, gdy nie ma reguły postaci (\fsuf,\lsuf,\cat,\interp); |
68 | +1, gdy jest dokładnie jedna reguła z (\lsuf,\cat,\interp), a gdy jest ich więcej trzeba | ||
84 | oszacować z listy frekwencyjnej. | 69 | oszacować z listy frekwencyjnej. |
85 | 70 | ||
86 | Pytanie 4: Czy powyższe przybliżenie jest poprawne, jak często jest więcej niż jedna reguła i ile wynoszą wówczas p-stwa? | 71 | Pytanie 4: Czy powyższe przybliżenie jest poprawne, jak często jest więcej niż jedna reguła i ile wynoszą wówczas p-stwa? |
@@ -91,4 +76,6 @@ Zadania poboczne: wytworzenie otagowanej listy frekwencyjnej, wytworzenie (uzupe | @@ -91,4 +76,6 @@ Zadania poboczne: wytworzenie otagowanej listy frekwencyjnej, wytworzenie (uzupe | ||
91 | 76 | ||
92 | Zadanie na przyszłość: reguły słowotwórstwa i ich interpretacja semantyczna. | 77 | Zadanie na przyszłość: reguły słowotwórstwa i ich interpretacja semantyczna. |
93 | 78 | ||
79 | +Do powyższego modelu trzeba jeszcze dodać prefixy nie i naj. | ||
80 | + | ||
94 | \end{document} | 81 | \end{document} |
95 | \ No newline at end of file | 82 | \ No newline at end of file |