Blame view

morphology/doc/model.tex 8.3 KB
Wojciech Jaworski authored
1
2
3
4
5
6
7
8
\documentclass{article}
\usepackage{amsmath}
\usepackage{amssymb}
\usepackage[T1]{fontenc}
\usepackage[utf8]{inputenc}
\usepackage[polish]{babel}
% \usepackage{tikz}
% \usetikzlibrary{conceptgraph}
Wojciech Jaworski authored
9
\usepackage{amsthm}
Wojciech Jaworski authored
10
11
12
13

\parindent 0pt
\parskip 4pt
Wojciech Jaworski authored
14
15
16
17
18
19
\newcommand{\form}{{\it form}}
\newcommand{\lemma}{{\it lemma}}
\newcommand{\cat}{{\it cat}}
\newcommand{\interp}{{\it interp}}
\newcommand{\fsuf}{{\it fsuf}}
\newcommand{\lsuf}{{\it lsuf}}
Wojciech Jaworski authored
20
Wojciech Jaworski authored
21
\newtheorem{task}{Zadanie}
Szymon Rutkowski authored
22
\newtheorem{answer}{Odpowiedź}
Wojciech Jaworski authored
23
Wojciech Jaworski authored
24
\title{Model probabilistyczny fleksji języka polskiego}
Wojciech Jaworski authored
25
26
27
28
29
30
\author{Wojciech Jaworski}
%\date{}

\begin{document}
\maketitle
Wojciech Jaworski authored
31
Zakładamy, że język jest rozkładem probabilistycznym na czwórkach (\form,\lemma,\cat,\interp),
Wojciech Jaworski authored
32
czyli, że wystąpienia kolejnych słów w tekście są od siebie niezależne.
Wojciech Jaworski authored
33
Interpretacja \interp{} jest zbiorem tagów zgodnym a tagsetem SGJP.
Wojciech Jaworski authored
34
Kategoria $\cat \in \{ {\rm noun}, {\rm adj}, {\rm adv}, {\rm verb}, {\rm other} \}$
Wojciech Jaworski authored
35
36
37
38
39
Zakładamy też, że język jest poprawny, tzn. nie ma literówek, ani błędów gramatycznych.

Dysponujemy następującymi danymi: 
\begin{itemize}
\item słownikiem gramatycznym S, czyli zbiorem czwórek, o których wiemy, że należą do języka;
Wojciech Jaworski authored
40
\item zbiorem reguł, czyli zbiorem czwórek (\fsuf,\lsuf,\cat,\interp)
Wojciech Jaworski authored
41
42
43
\item zbiorem wyjątków, czyli zbiorem czwórek, o których wiemy, że należą do języka, które nie są opisywane przez reguły
\item otagowaną listą frekwencyjną.
\end{itemize}
Wojciech Jaworski authored
44
Reguła przyłożona do formy ucina \fsuf{} i przykleja \lsuf.
Wojciech Jaworski authored
45
Wojciech Jaworski authored
46
47
48
49
50
Lista frekwencyjna wytworzona jest na podstawie NKJP1M. Usunięte zostały z niej symbole 
(formy do których odczytania nie wystarczy znajomość reguł wymowy takie, jak liczby zapisane cyframi, oznaczenia godzin i lat,
znaki interpunkcyjne, skróty, emotikony). Usunięte zostały również formy odmienialne z użyciem myślnika i apostrofu 
(np. odmienione akronimy i nazwiska obce, formy takie jak ,,12-latek``). 
Interpretacje na liście frekwencyjnej zostały skonwertowane do postaci takiej jaka występuje w SGJP, 
Wojciech Jaworski authored
51
łączącej interpretacje form identycznych. Na przykład interpretacje adj:pl:nom:m1:pos, adj:pl:voc:m1:pos, adj:pl:nom:p1:pos i adj:pl:voc:p1:pos 
Wojciech Jaworski authored
52
53
zostały złączone w adj:pl:nom.voc:m1.p1:pos, a frekwencje form zsumowane.
Wojciech Jaworski authored
54
Celem jest aproksymacja wartości P(\lemma,\cat,\interp|\form).
Wojciech Jaworski authored
55
Wojciech Jaworski authored
56
57
58
%Jakość aproksymacji mierzymy licząc jak często wśród $k$ najbardziej prawdopodobnych trójek $\lemma,\cat,\interp$ 
%wskazanych przez model dla zadanej formy znajduje się trójka poprawna. Wyniki dla poszczególnych form agregujemy 
%za pomocą średniej ważonej po ich częstościach.
Wojciech Jaworski authored
59
Wojciech Jaworski authored
60
%Pytanie 0: Ile wynosi powyższa miara liczona z użyciem p-stw wziętych z listy frekwencyjnej? (To jest ograniczenie górne dla modelu)
Wojciech Jaworski authored
61
Wojciech Jaworski authored
62
%Pytanie 0': Ile wynosi powyższa miara liczona z użyciem częstości wziętych ze zbioru reguł? (To jest ograniczenie dolne dla modelu)
Wojciech Jaworski authored
63
Wojciech Jaworski authored
64
65
66
Pierwszym kryterium jest przynależność formy do słownika S. 
Jeśli forma należy do S zakładamy, że jedno z haseł S zawierające tę formę
poprawnie opisuje jej lemat, kategorię i interpretację.
Wojciech Jaworski authored
67
Wojciech Jaworski authored
68
69
70
71
72
73
\begin{task}
Jakie jest prawdopodobieństwo trafienia na formę, której lemat, kategoria i interpretacja należy do słownika, czyli
\[P((\form,\lemma,\cat,\interp) \in S)\]
Jakie jest prawdopodobieństwo trafienia na formę, która należy do słownika, ale jej lemat, kategoria lub interpretacja należy do słownika, czyli
\[P((\form,\lemma,\cat,\interp) \not\in S \wedge \form \in S)\]
\end{task}
Wojciech Jaworski authored
74
Szymon Rutkowski authored
75
\begin{answer}
Szymon Rutkowski authored
76
77
Prawdopodobieństwo natrafienia na formę należącą do słownika wynosi 95,67\%, zaś natrafienia na formę należącą do SGJP bez odpowiedniej
interpretacji -- 3,92\% (lista tych form znajduje się w pliku traps.txt).
Szymon Rutkowski authored
78
79
\end{answer}
Wojciech Jaworski authored
80
81
82
83
84
85
86
87
88
89
90
91
92
93
W przypadku form należących do słownika różnorodność interpretacji będzie niewielka, 
natomiast istotne będzie prawdopodobieństwo wystąpienia danego lematu.
Zaś w przypadku form nie należących do słownika prawdopodobieństwo wystąpienia lematu
będzie zawsze małe.

Dzielimy teraz listę frekwencyjną na część należącą do S i nie należącą do S. 
Od tej pory budujemy model osobno dla każdej z części.

W przypadku cześci należącej do S zauważamy, że \[P(\lemma,\cat,\interp|\form)=P(\form|\lemma,\cat,\interp)\frac{P(\lemma,\cat,\interp)}{P(\form)}\]

Zakładamy, że \interp{} jest niezależne od \lemma, pod warunkiem określonego \cat
\[P(\lemma,\cat,\interp)=P(\lemma,\cat)P(\interp|\lemma,\cat)=P(\lemma,\cat)P(\interp|\cat)\]

$P(\form)$, $P(\lemma,\cat)$ i $P(\interp|\cat)$ szacujemy na podstawie listy frekwencyjnej,
Szymon Rutkowski authored
94
95
96
w przypadku pierwszych dwu stosując wygładzanie. Wyliczenie $P(\form)$ zawiera uogólniona lista frekwencyjna
(ścieżka {\tt resources/NKJP1M/NKJP1M-generalized-frequency.tab} w repozytorium ENIAM), $P(\lemma,\cat)$ -- plik
 {\tt prob\_lemmacat.txt}, zaś $P(\interp|\cat)$ -- {\tt prob\_itp\_givencat.txt} (oba zawarte w katalogu {\tt morphology/doc}).
Wojciech Jaworski authored
97
98
99

$P(\form|\lemma,\cat,\interp)$ wynosi 0, gdy w S nie ma krotki postaci (\form,\lemma,\cat,\interp);
1, gdy jest dokładnie jedna krotka z (\lemma,\cat,\interp). Gdy jest ich więcej oznacza to, że
Szymon Rutkowski authored
100
lemat ma przynajmniej dwa warianty odmiany. Są to przypadki rzadkie. Przypisujemy każdej z możliwości
Wojciech Jaworski authored
101
prawdopodobieństwo 1.
Wojciech Jaworski authored
102
Wojciech Jaworski authored
103
104
105
106
\begin{task}
Przejrzeć SGJP i znaleźć wszystkie przykłady, w których dla ustalonego lematu, kategorii i interpretacji
jest więcej niż jedna forma. Znaleźć wystąpienia tych krotek na liście frekwencyjnej.
\end{task}
Wojciech Jaworski authored
107
Szymon Rutkowski authored
108
109
110
111
\begin{answer}
Lista takich form znajduje się w pliku multi\_forms.txt.
\end{answer}
Wojciech Jaworski authored
112
113
114
115
116
117
118
119
120
121
122
Teraz zanalizujemy drugą część listy frekwencyjnej. 
Załóżmy, że reguły mają postać taką, że sufiks żadnej reguły nie jest podciągiem sufixu innej z nich.
Sufiksy reguł tworzą drzewo, które w każdym węźle ma dowiązania do sufixów o jeden znak dłuższych oraz kategorię pozostałe traktową łącznie.
Przyjmujemy następujące założenie modelowe:
\[P(\lemma,\cat,\interp|\form)\approx P(rule|\form)=P(rule|\fsuf)\]
Wynika ono z tego, że mając nieznaną formę musimy oprzeć się na ogólnych regułach 
odmiany i nie możemy korzystać z tego że ma ona jakieś konkretne brzmienie.
Korzystamy tutaj tylko z reguł oznaczonych jako produktywne.

Problem tu jest taki, że lista frekwencyjna jest zbyt mała by precyzyjnie określić p-stwo ok. 40000 reguł.
Dlatego znowu stosujemy zabieg z prawdopodobieństwem warunkowym.
Wojciech Jaworski authored
123
Wojciech Jaworski authored
124
\[P(rule|\fsuf)=P(\lsuf,\cat,\interp|\fsuf)=P(\fsuf|\lsuf,\cat,\interp)\frac{P(\lsuf,\cat,\interp)}{P(\fsuf)}\]
Wojciech Jaworski authored
125
Wojciech Jaworski authored
126
$P(\fsuf)$ jest prawdopodobieństwem tego, że do języka należy słowo o zadanym sufixie. 
Wojciech Jaworski authored
127
128
Można je oszacować za pomocą listy frekwencyjnej.
Wojciech Jaworski authored
129
130
Zakładamy, że \interp{} jest niezależne od \lsuf, pod warunkiem określonego \cat
\[P(\lsuf,\cat,\interp)=P(\lsuf,\cat)P(\interp|\lsuf,\cat)=P(\lsuf,\cat)P(\interp|\cat)\]
Wojciech Jaworski authored
131
Wojciech Jaworski authored
132
$P(\lsuf,\cat)$ i $P(\interp|\cat)$ można oszacować na podstawie listy frekwencyjnej.
Wojciech Jaworski authored
133
Wojciech Jaworski authored
134
135
136
137
138
139
140
\begin{task}
Oszacować $P(\fsuf)$ i $P(\lsuf,\cat)$ na podstawie listy frekwencyjnej.
Sprawdzić dla jakich sufiksów próbka jest mała albo nie ma jej wcale. 
\end{task}

% w razie gdyby był problem można próbować dzielić sufiksy na części i założyć niezależność tych części
Wojciech Jaworski authored
141
$P(\fsuf|\lsuf,\cat,\interp)$ wynosi 0, gdy nie ma reguły postaci (\fsuf,\lsuf,\cat,\interp);
Wojciech Jaworski authored
142
143
144
145
146
147
148
149
150
151
152
1, gdy jest dokładnie jedna reguła z (\fsuf,\lsuf,\cat,\interp). Ustawiamy produktywność reguł tak 
by nie pojawiało się więcej pasujących reguł. 

\begin{task}
Określić produktywność reguł i sprawdzić, czy nie ma niejednoznacznych dopasowań.
\end{task}

\begin{task}
Określić jakość modelu.
\end{task}
Szymon Rutkowski authored
153
154
155
156
\begin{answer}
Wyliczona jakość modelu (stopień pokrycia listy frekwencyjnej przez co najmniej 95\% najbardziej prawdopodobnych interpretacji wg modelu) wyniosła 79,90\%.
\end{answer}
Wojciech Jaworski authored
157
%czasowniki produktywne to te z lematem ać ować ywać, ić, yć, (nąć)
Wojciech Jaworski authored
158
159
160

Pytanie 4: Czy powyższe przybliżenie jest poprawne, jak często jest więcej niż jedna reguła i ile wynoszą wówczas p-stwa?
Wojciech Jaworski authored
161
Zadania poboczne: wytworzenie otagowanej listy frekwencyjnej, wytworzenie (uzupełnienie) zbioru reguł na podstawie SGJP i listy frekwencyjnej, wskazanie, które reguły opisują sytuacje wyjątkowe.
Wojciech Jaworski authored
162
163
164

Zadanie na przyszłość: reguły słowotwórstwa i ich interpretacja semantyczna.
Wojciech Jaworski authored
165
166
Do powyższego modelu trzeba jeszcze dodać prefixy nie i naj.
Szymon Rutkowski authored
167
\end{document}