Commit 28ff93c6050b9a9611750335f8a9ab69d99eb8e6

Authored by Wojciech Jaworski
2 parents 5007a782 6664a570

rozwiązanie konfliktu w .gitignore

.gitignore
@@ -3,4 +3,8 @@ @@ -3,4 +3,8 @@
3 *.o 3 *.o
4 *.a 4 *.a
5 *.cmxa 5 *.cmxa
6 -.DS_Store  
7 \ No newline at end of file 6 \ No newline at end of file
  7 +.DS_Store
  8 +pre
  9 +*.aux
  10 +*.log
  11 +*.tex.backup
morphology/doc/model.pdf 0 → 100644
No preview for this file type
morphology/doc/model.tex 0 → 100644
  1 +\documentclass{article}
  2 +\usepackage{amsmath}
  3 +\usepackage{amssymb}
  4 +\usepackage[T1]{fontenc}
  5 +\usepackage[utf8]{inputenc}
  6 +\usepackage[polish]{babel}
  7 +% \usepackage{tikz}
  8 +% \usetikzlibrary{conceptgraph}
  9 +
  10 +\parindent 0pt
  11 +\parskip 4pt
  12 +
  13 +% \newcommand{\tensor}{\otimes}
  14 +% \newcommand{\forward}{\operatorname{/}}
  15 +% \newcommand{\backward}{\operatorname{\backslash}}
  16 +% \newcommand{\both}{\mid}
  17 +% \newcommand{\plus}{\oplus}
  18 +% \newcommand{\zero}{0}
  19 +% \newcommand{\one}{1}
  20 +% \newcommand{\letin}[2]{{\bf let}\;#1\;{\bf in}\;#2}
  21 +% \newcommand{\caseof}[2]{{\bf case}\;#1\;{\bf of}\;#2}
  22 +% \newcommand{\emp}{{\bf emp}}
  23 +% \newcommand{\inl}{{\bf inl}}
  24 +% \newcommand{\inr}{{\bf inr}}
  25 +% \newcommand{\coord}[1]{{#1}^\star}
  26 +% \newcommand{\map}[2]{{\bf map}\;#1\;#2}
  27 +% \newcommand{\concat}[1]{{\bf concat}\;#1}
  28 +% \newcommand{\makeset}[1]{{\bf makeset}\;#1}
  29 +% \newcommand{\maketerm}[1]{{\bf maketerm}\;#1}
  30 +% \newcommand{\addlist}[2]{{\bf add}\;#1\;#2}
  31 +% \newcommand{\ana}[1]{{\bf ana}(#1)}
  32 +% \newcommand{\One}{\bullet}
  33 +
  34 +
  35 +\title{Model probabilistyczny guessera dla języka polskiego}
  36 +\author{Wojciech Jaworski}
  37 +%\date{}
  38 +
  39 +\begin{document}
  40 +\maketitle
  41 +
  42 +Zakładamy, że język jest rozkładem probabilistycznym na czwórkach (form,lemma,cat,interp),
  43 +czyli, że wystąpienia kolejnych słów w tekście są od siebie niezależne.
  44 +Interpretacja interp jest zbiorem tagów zgodnym a tagsetem SGJP.
  45 +Kategoria $cat \in \{ noun, adj, adv, verb, other \}$
  46 +Zakładamy też, że język jest poprawny, tzn. nie ma literówek, ani błędów gramatycznych.
  47 +
  48 +Dysponujemy następującymi danymi:
  49 +\begin{itemize}
  50 +\item słownikiem gramatycznym S, czyli zbiorem czwórek, o których wiemy, że należą do języka;
  51 +\item zbiorem reguł, czyli zbiorem czwórek (fsuf,lsuf,cat,interp)
  52 +\item zbiorem wyjątków, czyli zbiorem czwórek, o których wiemy, że należą do języka, które nie są opisywane przez reguły
  53 +\item otagowaną listą frekwencyjną.
  54 +\end{itemize}
  55 +Reguła przyłożona do formy ucina fsuf i przykleja lsuf.
  56 +
  57 +Celem jest aproksymacja wartości P(lemma,cat,interp|form).
  58 +
  59 +Pytanie 1: $P((form,lemma,cat,interp) \in S)$
  60 +
  61 +Pytanie 2: $P((form,lemma,cat,interp) \not\in S \wedge form \in S)$
  62 +
  63 +Załóżmy, że reguły i wyjątki mają postać taką, że do danej formy można zaaplikować tylko jedną z nich
  64 +(dla żadnej reguły sufix nie jest podciągiem innego sufixu). Wtedy
  65 +\[P(lemma,cat,interp|form)\approx P(rule|form)=P(rule|fsuf)\]
  66 +(W powyższym drzewie sufixowym w każdym węźle mamy dowiązania do sufixów o jeden znak dłuższych oraz kategorię pozostałe traktową łącznie
  67 +
  68 +Pytanie 3: Czy faktycznie zachodzi powyższa zależność? Jak zmierzyć podobieństwo?
  69 +
  70 +Problem tu jest taki, że lista frekwencyjna jest zbyt mała by precyzyjnie określić p-stwo ok. 40000 reguł
  71 +
  72 +\[P(rule|fsuf)=P(lsuf,cat,interp|fsuf)=P(fsuf|lsuf,cat,interp)\frac{P(lsuf,cat,interp)}{P(fsuf)}\]
  73 +
  74 +$P(fsuf)$ jest prawdopodobieństwem tego, że do języka należy słowo o zadanym sufixie.
  75 +Można je oszacować za pomocą listy frekwencyjnej.
  76 +
  77 +Zakładamy, że interp jest niezależne od lsuf, pod warunkiem określonego cat
  78 +$P(lsuf,cat,interp)=P(lsuf,cat)P(interp|lsuf,cat)=P(lsuf,cat)P(interp|cat)$
  79 +
  80 +$P(lsuf,cat)$ i $P(interp|cat)$ można oszacować na podstawie listy frekwencyjnej.
  81 +
  82 +$P(fsuf|lsuf,cat,interp)$ wynosi 0, gdy nie ma reguły postaci (fsuf,lsuf,cat,interp);
  83 +1, gdy jest dokładnie jedna reguła z (lsuf,cat,interp), a gdy jest ich więcej trzeba
  84 +oszacować z listy frekwencyjnej.
  85 +
  86 +Pytanie 4: Czy powyższe przybliżenie jest poprawne, jak często jest więcej niż jedna reguła i ile wynoszą wówczas p-stwa?
  87 +
  88 +Pytanie 5: Co zrobić z niejednoznacznymi interpretacjami?
  89 +
  90 +Zadania poboczne: wytworzenie otagowanej listy frekwencyjnej, wytworzenie zbioru reguł, wskazanie, które reguły opisują sytuacje wyjątkowe.
  91 +
  92 +Zadanie na przyszłość: reguły słowotwórstwa i ich interpretacja semantyczna.
  93 +
  94 +\end{document}
0 \ No newline at end of file 95 \ No newline at end of file