Commit 28ff93c6050b9a9611750335f8a9ab69d99eb8e6
rozwiązanie konfliktu w .gitignore
Showing
3 changed files
with
99 additions
and
1 deletions
.gitignore
morphology/doc/model.pdf
0 → 100644
No preview for this file type
morphology/doc/model.tex
0 → 100644
1 | +\documentclass{article} | ||
2 | +\usepackage{amsmath} | ||
3 | +\usepackage{amssymb} | ||
4 | +\usepackage[T1]{fontenc} | ||
5 | +\usepackage[utf8]{inputenc} | ||
6 | +\usepackage[polish]{babel} | ||
7 | +% \usepackage{tikz} | ||
8 | +% \usetikzlibrary{conceptgraph} | ||
9 | + | ||
10 | +\parindent 0pt | ||
11 | +\parskip 4pt | ||
12 | + | ||
13 | +% \newcommand{\tensor}{\otimes} | ||
14 | +% \newcommand{\forward}{\operatorname{/}} | ||
15 | +% \newcommand{\backward}{\operatorname{\backslash}} | ||
16 | +% \newcommand{\both}{\mid} | ||
17 | +% \newcommand{\plus}{\oplus} | ||
18 | +% \newcommand{\zero}{0} | ||
19 | +% \newcommand{\one}{1} | ||
20 | +% \newcommand{\letin}[2]{{\bf let}\;#1\;{\bf in}\;#2} | ||
21 | +% \newcommand{\caseof}[2]{{\bf case}\;#1\;{\bf of}\;#2} | ||
22 | +% \newcommand{\emp}{{\bf emp}} | ||
23 | +% \newcommand{\inl}{{\bf inl}} | ||
24 | +% \newcommand{\inr}{{\bf inr}} | ||
25 | +% \newcommand{\coord}[1]{{#1}^\star} | ||
26 | +% \newcommand{\map}[2]{{\bf map}\;#1\;#2} | ||
27 | +% \newcommand{\concat}[1]{{\bf concat}\;#1} | ||
28 | +% \newcommand{\makeset}[1]{{\bf makeset}\;#1} | ||
29 | +% \newcommand{\maketerm}[1]{{\bf maketerm}\;#1} | ||
30 | +% \newcommand{\addlist}[2]{{\bf add}\;#1\;#2} | ||
31 | +% \newcommand{\ana}[1]{{\bf ana}(#1)} | ||
32 | +% \newcommand{\One}{\bullet} | ||
33 | + | ||
34 | + | ||
35 | +\title{Model probabilistyczny guessera dla języka polskiego} | ||
36 | +\author{Wojciech Jaworski} | ||
37 | +%\date{} | ||
38 | + | ||
39 | +\begin{document} | ||
40 | +\maketitle | ||
41 | + | ||
42 | +Zakładamy, że język jest rozkładem probabilistycznym na czwórkach (form,lemma,cat,interp), | ||
43 | +czyli, że wystąpienia kolejnych słów w tekście są od siebie niezależne. | ||
44 | +Interpretacja interp jest zbiorem tagów zgodnym a tagsetem SGJP. | ||
45 | +Kategoria $cat \in \{ noun, adj, adv, verb, other \}$ | ||
46 | +Zakładamy też, że język jest poprawny, tzn. nie ma literówek, ani błędów gramatycznych. | ||
47 | + | ||
48 | +Dysponujemy następującymi danymi: | ||
49 | +\begin{itemize} | ||
50 | +\item słownikiem gramatycznym S, czyli zbiorem czwórek, o których wiemy, że należą do języka; | ||
51 | +\item zbiorem reguł, czyli zbiorem czwórek (fsuf,lsuf,cat,interp) | ||
52 | +\item zbiorem wyjątków, czyli zbiorem czwórek, o których wiemy, że należą do języka, które nie są opisywane przez reguły | ||
53 | +\item otagowaną listą frekwencyjną. | ||
54 | +\end{itemize} | ||
55 | +Reguła przyłożona do formy ucina fsuf i przykleja lsuf. | ||
56 | + | ||
57 | +Celem jest aproksymacja wartości P(lemma,cat,interp|form). | ||
58 | + | ||
59 | +Pytanie 1: $P((form,lemma,cat,interp) \in S)$ | ||
60 | + | ||
61 | +Pytanie 2: $P((form,lemma,cat,interp) \not\in S \wedge form \in S)$ | ||
62 | + | ||
63 | +Załóżmy, że reguły i wyjątki mają postać taką, że do danej formy można zaaplikować tylko jedną z nich | ||
64 | +(dla żadnej reguły sufix nie jest podciągiem innego sufixu). Wtedy | ||
65 | +\[P(lemma,cat,interp|form)\approx P(rule|form)=P(rule|fsuf)\] | ||
66 | +(W powyższym drzewie sufixowym w każdym węźle mamy dowiązania do sufixów o jeden znak dłuższych oraz kategorię pozostałe traktową łącznie | ||
67 | + | ||
68 | +Pytanie 3: Czy faktycznie zachodzi powyższa zależność? Jak zmierzyć podobieństwo? | ||
69 | + | ||
70 | +Problem tu jest taki, że lista frekwencyjna jest zbyt mała by precyzyjnie określić p-stwo ok. 40000 reguł | ||
71 | + | ||
72 | +\[P(rule|fsuf)=P(lsuf,cat,interp|fsuf)=P(fsuf|lsuf,cat,interp)\frac{P(lsuf,cat,interp)}{P(fsuf)}\] | ||
73 | + | ||
74 | +$P(fsuf)$ jest prawdopodobieństwem tego, że do języka należy słowo o zadanym sufixie. | ||
75 | +Można je oszacować za pomocą listy frekwencyjnej. | ||
76 | + | ||
77 | +Zakładamy, że interp jest niezależne od lsuf, pod warunkiem określonego cat | ||
78 | +$P(lsuf,cat,interp)=P(lsuf,cat)P(interp|lsuf,cat)=P(lsuf,cat)P(interp|cat)$ | ||
79 | + | ||
80 | +$P(lsuf,cat)$ i $P(interp|cat)$ można oszacować na podstawie listy frekwencyjnej. | ||
81 | + | ||
82 | +$P(fsuf|lsuf,cat,interp)$ wynosi 0, gdy nie ma reguły postaci (fsuf,lsuf,cat,interp); | ||
83 | +1, gdy jest dokładnie jedna reguła z (lsuf,cat,interp), a gdy jest ich więcej trzeba | ||
84 | +oszacować z listy frekwencyjnej. | ||
85 | + | ||
86 | +Pytanie 4: Czy powyższe przybliżenie jest poprawne, jak często jest więcej niż jedna reguła i ile wynoszą wówczas p-stwa? | ||
87 | + | ||
88 | +Pytanie 5: Co zrobić z niejednoznacznymi interpretacjami? | ||
89 | + | ||
90 | +Zadania poboczne: wytworzenie otagowanej listy frekwencyjnej, wytworzenie zbioru reguł, wskazanie, które reguły opisują sytuacje wyjątkowe. | ||
91 | + | ||
92 | +Zadanie na przyszłość: reguły słowotwórstwa i ich interpretacja semantyczna. | ||
93 | + | ||
94 | +\end{document} | ||
0 | \ No newline at end of file | 95 | \ No newline at end of file |