user_manual.tex 4.69 KB
\documentclass[oneside,pwrcover,withmarginpar,hidelinks,11pt]{article}
%\documentclass[twoside,11pt]{report}

\sloppy
\usepackage{url}
\usepackage{algorithm}
\usepackage{algorithmic}
\usepackage{covington} % numbered examples
\usepackage{color} % TODOs
\usepackage[table]{xcolor}
\usepackage{adjustbox}
\usepackage{enumitem}

\usepackage[backend=bibtex,defernumbers=true]{biblatex}
\addbibresource[label=pwr]{./bib/pwr-wlasne}

\usepackage{amsmath, amsthm, amssymb,amsfonts}

\usepackage{verbatim}
\usepackage{graphicx}


\usepackage{colortbl}
\definecolor{violet}{rgb}{.4,.1,.8}
\newcommand\map[1]{{\footnotesize \fontfamily{phv}\selectfont \textcolor{blue}{#1}}}

\newcommand{\todo}[1]{\textcolor{red}{{\bfseries TODO:} #1}}

\usepackage[polish]{babel}
\usepackage[T1]{fontenc}
\usepackage[utf8]{inputenc}
\usepackage{bussproofs}
\usepackage{cmll}
\newcommand{\tensor}{\bullet}
\newcommand{\forward}{\operatorname{/}}
\newcommand{\backward}{\operatorname{\backslash}}
\newcommand{\both}{\mid}
\newcommand{\plus}{\oplus}
\newcommand{\maybe}{?}
\newcommand{\zero}{0}
\newcommand{\one}{1}

\title{Kategorialny Parser Składniowo-Semantyczny „ENIAM”\\{\Large instrukcja użytkownika}}
\author{Wojciech Jaworski}
%\date{}

\begin{document}

\maketitle
 
\section{Opis}
Kategorialny Parser Składniowo-Semantyczny „ENIAM” %{\tt hdl.handle.net/11321/264}
jest narzędziem generującym formy logiczne dla zdań w języku polskim. 
Parser pracuje na niepreparowanych danych, realizuje kolejne etapy przetwarzania tekstu: tokenizację, 
lematyzację, rozpoznawanie związków składniowych, anotację sensami słów oraz rolami tematycznymi, 
częściową dezambiguację oraz tworzenie reprezentacji semantycznej.
 
Parser przyjmuje na wejściu niepreparowany tekst, a na wyjściu prezentuje reprezentacje semantyczne
kolejnych zdań składających się na ten tekst. Reprezentacje semantyczne składają
się z grafu semantycznego i formuły logicznej. Są one szczegółowo opisane w 
%rozdziale \ref{rep_sem}.
dokumencie „Definicja reprezentacji semantycznej”

Dla każdego zdania generowane jest do 10 alternatywnych propozycji reprezentacji.
W przypadku, gdy podział tekstu na zdania jest niejednoznaczny (np. zdania zawierają 
skróty kończące się kropką) prezentowane są efekty przetwarzania wszystkich możliwych 
podziałów na zdania.

UWAGA: Wpisywany tekst powinien być poprawny.
W szczególności zdania muszą kończyć się kropką lub innym znakiem interpunkcyjnym. %TODO: poprawić w programie
Literówki są częściowo obsługiwane --- są interpretowane jak nieznane słowa,
a błędne końcówki fleksyjne prowadzą do uzyskania innych niż zamierzone powiązań semantycznych.
 
\section{Użytkowanie}

\subsection{Wersja demonstracyjna}
Oficjalne demo parsera znajduje się pod adresem {\tt http://eniam.nlp.ipipan.waw.pl}. 
Niestety z przyczyn technicznych działa dość wolno (zwłaszcza przy wpisywaniu 
pierwszego zapytania) Dostępne jest też nieoficjalne demo
({\tt http://students.mimuw.edu.pl/\textasciitilde{}wjaworski/eniam.html}),
które działa istotnie szybciej.

\subsection{Instalacja}
%TODO

%\subsection{Plik konfiguracyjny}

\subsection{Wersja wsadowa}%TODO jak to nazwać?

Aby korzystać z parsera należy wpierw uruchomić serwer {\tt pre}
(znajduje się w podkatalogu {\tt pre}).
Serwer uruchamia się od 4 do 10 minut zależnie od sprzętu i
wymaga przynajmniej 4GB RAM.
Gdy serwer będzie gotowy do użycia wypisze „Ready!”.

Aby sparsować pojedyncze zdanie „Ala ma kota.” należy, będąc w katalogu {\tt parser}
wpisać komendę:\\
{\tt ./eniam 'Ala ma kota.'}

Spowoduje to wygenerowanie do katalogu wyjściowego formy logicznej dla zadanego zdania.

Aby sparsować korpus należy dostarczyć ENIAM-owi plik zawierający
zdania rozdzielone znakiem nowej linii. Do parsowania korpusów 
przystosowana jest współbieżna wersja ENIAM-a, którą uruchamia się poleceniem\\
{\tt ./eniam.distr file}\\
gdzie {\tt file} jest plikiem zawierającym korpus.

Plik {\tt config} zawiera konfigurację ENIAM-a.
Można w nim określić położenie katalogów z zasobami leksykalnymi i Walentym.
Ustalić port i serwer na którym jest dostępne {\tt pre}.
Wskazać ścieżkę do katalogu wyjściowego.
Określić liczbę generowanych rozwiązań, timeout parsera, ograniczenie pamięci dla parsera
oraz liczbę współbieżnie uruchamianych procesów parsera przez {\tt eniam.distr}.

W katalogu wyjściowym generowane są formy logiczne 
w postaci grafów semantycznych i formuł rozszerzonej logiki pierwszego rzędu.
Grafy semantyczne zapisane są w XML oraz wizualizowane jako obrazki PNG. 
Z kolei formuły logiki pierwszego rzędu wyrażone są w MathML.

%\section{Definicja reprezentacji semantycznej}\label{rep_sem}

\end{document}