model.tex 3.44 KB
\documentclass{article}
\usepackage{amsmath}
\usepackage{amssymb}
\usepackage[T1]{fontenc}
\usepackage[utf8]{inputenc}
\usepackage[polish]{babel}
% \usepackage{tikz}
% \usetikzlibrary{conceptgraph}

\parindent 0pt
\parskip 4pt

\newcommand{\form}{{\it form}}
\newcommand{\lemma}{{\it lemma}}
\newcommand{\cat}{{\it cat}}
\newcommand{\interp}{{\it interp}}
\newcommand{\fsuf}{{\it fsuf}}
\newcommand{\lsuf}{{\it lsuf}}

\title{Model probabilistyczny guessera dla języka polskiego}
\author{Wojciech Jaworski}
%\date{}

\begin{document}
\maketitle

Zakładamy, że język jest rozkładem probabilistycznym na czwórkach (\form,\lemma,\cat,\interp),
czyli, że wystąpienia kolejnych słów w tekście są od siebie niezależne.
Interpretacja \interp{} jest zbiorem tagów zgodnym a tagsetem SGJP.
Kategoria $\cat \in \{ noun, adj, adv, verb, other \}$
Zakładamy też, że język jest poprawny, tzn. nie ma literówek, ani błędów gramatycznych.

Dysponujemy następującymi danymi: 
\begin{itemize}
\item słownikiem gramatycznym S, czyli zbiorem czwórek, o których wiemy, że należą do języka;
\item zbiorem reguł, czyli zbiorem czwórek (\fsuf,\lsuf,\cat,\interp)
\item zbiorem wyjątków, czyli zbiorem czwórek, o których wiemy, że należą do języka, które nie są opisywane przez reguły
\item otagowaną listą frekwencyjną.
\end{itemize}
Reguła przyłożona do formy ucina \fsuf{} i przykleja \lsuf.

Celem jest aproksymacja wartości P(\lemma,\cat,\interp|\form).

Pytanie 1: $P((\form,\lemma,\cat,\interp) \in S)$

Pytanie 2: $P((\form,\lemma,\cat,\interp) \not\in S \wedge \form \in S)$

Załóżmy, że reguły i wyjątki mają postać taką, że do danej formy można zaaplikować tylko jedną z nich 
(dla żadnej reguły sufix nie jest podciągiem innego sufixu). Wtedy
\[P(\lemma,\cat,\interp|\form)\approx P(rule|\form)=P(rule|\fsuf)\]
(W powyższym drzewie sufixowym w każdym węźle mamy dowiązania do sufixów o jeden znak dłuższych oraz kategorię pozostałe traktową łącznie

Pytanie 3: Czy faktycznie zachodzi powyższa zależność? Jak zmierzyć podobieństwo?

Problem tu jest taki, że lista frekwencyjna jest zbyt mała by precyzyjnie określić p-stwo ok. 40000 reguł

\[P(rule|\fsuf)=P(\lsuf,\cat,\interp|\fsuf)=P(\fsuf|\lsuf,\cat,\interp)\frac{P(\lsuf,\cat,\interp)}{P(\fsuf)}\]

$P(\fsuf)$ jest prawdopodobieństwem tego, że do języka należy słowo o zadanym sufixie. 
Można je oszacować za pomocą listy frekwencyjnej.

Zakładamy, że \interp jest niezależne od \lsuf, pod warunkiem określonego \cat
$P(\lsuf,\cat,\interp)=P(\lsuf,\cat)P(\interp|\lsuf,\cat)=P(\lsuf,\cat)P(\interp|\cat)$ 

$P(\lsuf,\cat)$ i $P(\interp|\cat)$ można oszacować na podstawie listy frekwencyjnej.

$P(\fsuf|\lsuf,\cat,\interp)$ wynosi 0, gdy nie ma reguły postaci (\fsuf,\lsuf,\cat,\interp);
1, gdy jest dokładnie jedna reguła z (\lsuf,\cat,\interp), a gdy jest ich więcej trzeba
oszacować z listy frekwencyjnej. 

Pytanie 4: Czy powyższe przybliżenie jest poprawne, jak często jest więcej niż jedna reguła i ile wynoszą wówczas p-stwa?

Pytanie 5: Co zrobić z niejednoznacznymi interpretacjami?

Zadania poboczne: wytworzenie otagowanej listy frekwencyjnej, wytworzenie (uzupełnienie) zbioru reguł na podstawie SGJP i listy frekwencyjnej, wskazanie, które reguły opisują sytuacje wyjątkowe.

Zadanie na przyszłość: reguły słowotwórstwa i ich interpretacja semantyczna.

Do powyższego modelu trzeba jeszcze dodać prefixy nie i naj.

\end{document}