user_manual.tex
4.69 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
\documentclass[oneside,pwrcover,withmarginpar,hidelinks,11pt]{article}
%\documentclass[twoside,11pt]{report}
\sloppy
\usepackage{url}
\usepackage{algorithm}
\usepackage{algorithmic}
\usepackage{covington} % numbered examples
\usepackage{color} % TODOs
\usepackage[table]{xcolor}
\usepackage{adjustbox}
\usepackage{enumitem}
\usepackage[backend=bibtex,defernumbers=true]{biblatex}
\addbibresource[label=pwr]{./bib/pwr-wlasne}
\usepackage{amsmath, amsthm, amssymb,amsfonts}
\usepackage{verbatim}
\usepackage{graphicx}
\usepackage{colortbl}
\definecolor{violet}{rgb}{.4,.1,.8}
\newcommand\map[1]{{\footnotesize \fontfamily{phv}\selectfont \textcolor{blue}{#1}}}
\newcommand{\todo}[1]{\textcolor{red}{{\bfseries TODO:} #1}}
\usepackage[polish]{babel}
\usepackage[T1]{fontenc}
\usepackage[utf8]{inputenc}
\usepackage{bussproofs}
\usepackage{cmll}
\newcommand{\tensor}{\bullet}
\newcommand{\forward}{\operatorname{/}}
\newcommand{\backward}{\operatorname{\backslash}}
\newcommand{\both}{\mid}
\newcommand{\plus}{\oplus}
\newcommand{\maybe}{?}
\newcommand{\zero}{0}
\newcommand{\one}{1}
\title{Kategorialny Parser Składniowo-Semantyczny „ENIAM”\\{\Large instrukcja użytkownika}}
\author{Wojciech Jaworski}
%\date{}
\begin{document}
\maketitle
\section{Opis}
Kategorialny Parser Składniowo-Semantyczny „ENIAM” %{\tt hdl.handle.net/11321/264}
jest narzędziem generującym formy logiczne dla zdań w języku polskim.
Parser pracuje na niepreparowanych danych, realizuje kolejne etapy przetwarzania tekstu: tokenizację,
lematyzację, rozpoznawanie związków składniowych, anotację sensami słów oraz rolami tematycznymi,
częściową dezambiguację oraz tworzenie reprezentacji semantycznej.
Parser przyjmuje na wejściu niepreparowany tekst, a na wyjściu prezentuje reprezentacje semantyczne
kolejnych zdań składających się na ten tekst. Reprezentacje semantyczne składają
się z grafu semantycznego i formuły logicznej. Są one szczegółowo opisane w
%rozdziale \ref{rep_sem}.
dokumencie „Definicja reprezentacji semantycznej”
Dla każdego zdania generowane jest do 10 alternatywnych propozycji reprezentacji.
W przypadku, gdy podział tekstu na zdania jest niejednoznaczny (np. zdania zawierają
skróty kończące się kropką) prezentowane są efekty przetwarzania wszystkich możliwych
podziałów na zdania.
UWAGA: Wpisywany tekst powinien być poprawny.
W szczególności zdania muszą kończyć się kropką lub innym znakiem interpunkcyjnym. %TODO: poprawić w programie
Literówki są częściowo obsługiwane --- są interpretowane jak nieznane słowa,
a błędne końcówki fleksyjne prowadzą do uzyskania innych niż zamierzone powiązań semantycznych.
\section{Użytkowanie}
\subsection{Wersja demonstracyjna}
Oficjalne demo parsera znajduje się pod adresem {\tt http://eniam.nlp.ipipan.waw.pl}.
Niestety z przyczyn technicznych działa dość wolno (zwłaszcza przy wpisywaniu
pierwszego zapytania) Dostępne jest też nieoficjalne demo
({\tt http://students.mimuw.edu.pl/\textasciitilde{}wjaworski/eniam.html}),
które działa istotnie szybciej.
\subsection{Instalacja}
%TODO
%\subsection{Plik konfiguracyjny}
\subsection{Wersja wsadowa}%TODO jak to nazwać?
Aby korzystać z parsera należy wpierw uruchomić serwer {\tt pre}
(znajduje się w podkatalogu {\tt pre}).
Serwer uruchamia się od 4 do 10 minut zależnie od sprzętu i
wymaga przynajmniej 4GB RAM.
Gdy serwer będzie gotowy do użycia wypisze „Ready!”.
Aby sparsować pojedyncze zdanie „Ala ma kota.” należy, będąc w katalogu {\tt parser}
wpisać komendę:\\
{\tt ./eniam 'Ala ma kota.'}
Spowoduje to wygenerowanie do katalogu wyjściowego formy logicznej dla zadanego zdania.
Aby sparsować korpus należy dostarczyć ENIAM-owi plik zawierający
zdania rozdzielone znakiem nowej linii. Do parsowania korpusów
przystosowana jest współbieżna wersja ENIAM-a, którą uruchamia się poleceniem\\
{\tt ./eniam.distr file}\\
gdzie {\tt file} jest plikiem zawierającym korpus.
Plik {\tt config} zawiera konfigurację ENIAM-a.
Można w nim określić położenie katalogów z zasobami leksykalnymi i Walentym.
Ustalić port i serwer na którym jest dostępne {\tt pre}.
Wskazać ścieżkę do katalogu wyjściowego.
Określić liczbę generowanych rozwiązań, timeout parsera, ograniczenie pamięci dla parsera
oraz liczbę współbieżnie uruchamianych procesów parsera przez {\tt eniam.distr}.
W katalogu wyjściowym generowane są formy logiczne
w postaci grafów semantycznych i formuł rozszerzonej logiki pierwszego rzędu.
Grafy semantyczne zapisane są w XML oraz wizualizowane jako obrazki PNG.
Z kolei formuły logiki pierwszego rzędu wyrażone są w MathML.
%\section{Definicja reprezentacji semantycznej}\label{rep_sem}
\end{document}