\documentclass[oneside,pwrcover,withmarginpar,hidelinks,11pt]{article} %\documentclass[twoside,11pt]{report} \sloppy \usepackage{url} \usepackage{algorithm} \usepackage{algorithmic} \usepackage{covington} % numbered examples \usepackage{color} % TODOs \usepackage[table]{xcolor} \usepackage{adjustbox} \usepackage{enumitem} \usepackage[backend=bibtex,defernumbers=true]{biblatex} \addbibresource[label=pwr]{./bib/pwr-wlasne} \usepackage{amsmath, amsthm, amssymb,amsfonts} \usepackage{verbatim} \usepackage{graphicx} \usepackage{colortbl} \definecolor{violet}{rgb}{.4,.1,.8} \newcommand\map[1]{{\footnotesize \fontfamily{phv}\selectfont \textcolor{blue}{#1}}} \newcommand{\todo}[1]{\textcolor{red}{{\bfseries TODO:} #1}} \usepackage[polish]{babel} \usepackage[T1]{fontenc} \usepackage[utf8]{inputenc} \usepackage{bussproofs} \usepackage{cmll} \newcommand{\tensor}{\bullet} \newcommand{\forward}{\operatorname{/}} \newcommand{\backward}{\operatorname{\backslash}} \newcommand{\both}{\mid} \newcommand{\plus}{\oplus} \newcommand{\maybe}{?} \newcommand{\zero}{0} \newcommand{\one}{1} \title{Kategorialny Parser Składniowo-Semantyczny „ENIAM”\\{\Large instrukcja użytkownika}} \author{Wojciech Jaworski} %\date{} \begin{document} \maketitle \section{Opis} Kategorialny Parser Składniowo-Semantyczny „ENIAM” %{\tt hdl.handle.net/11321/264} jest narzędziem generującym formy logiczne dla zdań w języku polskim. Parser pracuje na niepreparowanych danych, realizuje kolejne etapy przetwarzania tekstu: tokenizację, lematyzację, rozpoznawanie związków składniowych, anotację sensami słów oraz rolami tematycznymi, częściową dezambiguację oraz tworzenie reprezentacji semantycznej. Parser przyjmuje na wejściu niepreparowany tekst, a na wyjściu prezentuje reprezentacje semantyczne kolejnych zdań składających się na ten tekst. Reprezentacje semantyczne składają się z grafu semantycznego i formuły logicznej. Są one szczegółowo opisane w %rozdziale \ref{rep_sem}. dokumencie „Definicja reprezentacji semantycznej” Dla każdego zdania generowane jest do 10 alternatywnych propozycji reprezentacji. W przypadku, gdy podział tekstu na zdania jest niejednoznaczny (np. zdania zawierają skróty kończące się kropką) prezentowane są efekty przetwarzania wszystkich możliwych podziałów na zdania. UWAGA: Wpisywany tekst powinien być poprawny. W szczególności zdania muszą kończyć się kropką lub innym znakiem interpunkcyjnym. %TODO: poprawić w programie Literówki są częściowo obsługiwane --- są interpretowane jak nieznane słowa, a błędne końcówki fleksyjne prowadzą do uzyskania innych niż zamierzone powiązań semantycznych. \section{Użytkowanie} \subsection{Wersja demonstracyjna} Oficjalne demo parsera znajduje się pod adresem {\tt http://eniam.nlp.ipipan.waw.pl}. Niestety z przyczyn technicznych działa dość wolno (zwłaszcza przy wpisywaniu pierwszego zapytania) Dostępne jest też nieoficjalne demo ({\tt http://students.mimuw.edu.pl/\textasciitilde{}wjaworski/eniam.html}), które działa istotnie szybciej. \subsection{Instalacja} %TODO %\subsection{Plik konfiguracyjny} \subsection{Wersja wsadowa}%TODO jak to nazwać? Aby korzystać z parsera należy wpierw uruchomić serwer {\tt pre} (znajduje się w podkatalogu {\tt pre}). Serwer uruchamia się od 4 do 10 minut zależnie od sprzętu i wymaga przynajmniej 4GB RAM. Gdy serwer będzie gotowy do użycia wypisze „Ready!”. Aby sparsować pojedyncze zdanie „Ala ma kota.” należy, będąc w katalogu {\tt parser} wpisać komendę:\\ {\tt ./eniam 'Ala ma kota.'} Spowoduje to wygenerowanie do katalogu wyjściowego formy logicznej dla zadanego zdania. Aby sparsować korpus należy dostarczyć ENIAM-owi plik zawierający zdania rozdzielone znakiem nowej linii. Do parsowania korpusów przystosowana jest współbieżna wersja ENIAM-a, którą uruchamia się poleceniem\\ {\tt ./eniam.distr file}\\ gdzie {\tt file} jest plikiem zawierającym korpus. Plik {\tt config} zawiera konfigurację ENIAM-a. Można w nim określić położenie katalogów z zasobami leksykalnymi i Walentym. Ustalić port i serwer na którym jest dostępne {\tt pre}. Wskazać ścieżkę do katalogu wyjściowego. Określić liczbę generowanych rozwiązań, timeout parsera, ograniczenie pamięci dla parsera oraz liczbę współbieżnie uruchamianych procesów parsera przez {\tt eniam.distr}. W katalogu wyjściowym generowane są formy logiczne w postaci grafów semantycznych i formuł rozszerzonej logiki pierwszego rzędu. Grafy semantyczne zapisane są w XML oraz wizualizowane jako obrazki PNG. Z kolei formuły logiki pierwszego rzędu wyrażone są w MathML. %\section{Definicja reprezentacji semantycznej}\label{rep_sem} \end{document}