morphology.html
3.39 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
<META HTTP-EQUIV="CONTENT-TYPE" CONTENT="text/html; charset=utf8">
<TITLE>ENIAMmorphology</TITLE>
<META HTTP-EQUIV="Content-Language" CONTENT="pl">
</head>
<body>
<center>
<h1>ENIAMmorphology: analizator morfologiczny i guessser dla języka polskiego</h1>
<h3>Podaj słowo:</h3>
<form method=POST action="cgi-bin/morphology.cgi">
<p><input type="text" name="text0" value="" size="100"></p>
<p><input type="submit" value="Analizuj" size="60"></p>
</form>
<BR><BR>
<h3>Opis programu</h3>
</center>
<p>Dla zadanej formy program znajduje możliwe lematyzacje oraz interpretacje morfosyntaktyczne.<BR>
Wskazuje, które z nich znajdują się w SGJP w wersji z 2017.07.30.<BR>
Program analizuje słowa obce zaopatrzone w polskie końcówki fleksyjne, akronimy oraz niektóre formy gwarowe.
<p>Program na wejściu otrzymuje pojedynczą formę. <BR>
Forma nie może być liczbą zapisaną za pomocą cyfr, znakiem interpunkcyjnym, ani inną sekwencją znaków<BR>
nie reprezentującą słowa za pomocą reguł ortograficznych.<BR>
Nie może ona posiadać aglutynatu, ani sufiksu trybu przypuszczającego.<BR>
Nie są analizowane również formy typu '2-gi'.
<p>Na wyjściu generowana jest tabela, w której kolejnych wersach znajdują się możliwe interpretacje zadanej formy.<BR>
Kolejne kolumny tabeli zawierają:
<ul>
<li> lemat,
<li> interpretację morfosyntaktyczną,
<li> frekwencję (liczbę form z SGJP, które lematyzują się w taki sam sposób)
<li> status, możliwe wartości to
<ul>
<li> LemmaVal: znajduje się w SGJP,
<li> LemmaAlt: wyjątek - znajduje się w SGJP, nie jest objęty przez reguły morfologiczne zaimplementowane w modelu,
<li> LemmNotVal: interpretacja zgodna z modelem, nie zawarta w SGJP,
<li> TokNotFound: nie znaleziono interpretacji,
</ul>
<li> star, wartość pusta dla reguł produktywnych, pozostałe możliwe wartości to
<ul>
<li> *: interpretacja nieproduktywna,
<li> A: obca ortografia na styku tematu i końcówki,
<li> B: obca ortografia w lemacie ,
<li> C: akronim,
<li> D: forma gwarowa,
</ul>
<li> atrybuty opisujące reguły morfologiczne wykorzystane do uzyskania interpretacji.
</ul>
<p>Interpretacje, w których star=B są wysoce niejednoznaczne,
ponieważ polegają na odgadnięciu obcej końcówki tematu,
która nie jest widoczna w zadanej formie.<BR>
Atrybuty w ostatnim wersie tabeli są podawane po to, by
umożliwić budowanie tagerów wykorzystujących cechy morfologiczne.
<h3>Do pobrania</h3>
Źródła:<br>
<ul>
<li><a href="eniam-morphology-1.2.tar.bz2">eniam-morphology-1.2.tar.bz2</a><br>
<li><a href="xlib-4.4.tar.gz">xlib-4.4.tar.gz</a><br>
</ul>
Linux 64-bit:<br>
<ul>
<li><a href="eniam-mophology-1.2-linux-x86_64.tar.bz2">eniam-mophology-1.2-linux-x86_64.tar.bz2</a>
</ul>
<center>
<hr align="center" size="2" width="800" />
Autor: <A HREF="http://www.mimuw.edu.pl/~wjaworski">Wojciech Jaworski</A>, Szymon Rutkowski<BR>
Copyright © 2016-2018 Institute of Computer Science Polish Academy of Sciences<BR><BR>
Parser wykorzystuje z następujące zasoby:<BR>
<A HREF="http://sgjp.pl">SGJP</A> Copyright © 2007–2017 Zygmunt Saloni, Włodzimierz Gruszczyński, Marcin Woliński, Robert Wołosz, Danuta Skowrońska<BR>
<P><small>W trosce o jakość generowanych lematyzacji zapytania użytkowników mogą być logowane.</small>
</center>
</body>
</html>