test.ml
4.11 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
(*
* ENIAMtokenizer, a tokenizer for Polish
* Copyright (C) 2016 Wojciech Jaworski <wjaworski atSPAMfree mimuw dot edu dot pl>
* Copyright (C) 2016 Institute of Computer Science Polish Academy of Sciences
*
* This library is free software: you can redistribute it and/or modify
* it under the terms of the GNU Lesser General Public License as published by
* the Free Software Foundation, either version 3 of the License, or
* (at your option) any later version.
*
* This library is distributed in the hope that it will be useful,
* but WITHOUT ANY WARRANTY; without even the implied warranty of
* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
* GNU Lesser General Public License for more details.
*
* You should have received a copy of the GNU Lesser General Public License
* along with this program. If not, see <http://www.gnu.org/licenses/>.
*)
let test_strings = [
(* "a gdybym miałem";
"A Gdy Miałem";
"GDY MIAŁEM";
"I II III IV V VI VII VIII IX X MCXIV MXC";
"Kiedy Piotr Prabucki, przewodniczący Komisji Budżetu PeKaO";
"25 idzie 20.";*)
(* "Kot. Kot. kot.";
"25.";
"25.888.231";
"Ala 25.888.231.111 ma.";
"Ala 25.888.031,011.";
"Ala -25.888.031,011.";
"Ala -25 .";
"Ala -1° C 3° ciepła 20—30°C od 180° do 260°C około 6° poniżej horyzontu.";
"Ala 22-25 .";
"Ala 22.5.2000-25.5.2001 .";
"Szpak frunie.";*)
(* "Kot miauczy."; *)
(* "Np. Ala.";*)
(* "w. dom.";
"tzn.";
"c.d.n."; *)
(* "Arabia Saudyjska biegnie.";
"Cauchy'ego ONZ-owska biegnie.";*)
(* "TE-cie E-e.";
"MS-DOS-owska CI-cie KRRi-cie UJ-ocie UJ-OCIE.";*)
(* "rock'n'rollowy d’Alembertowi staro-cerkiewno-słowiańskimi"; *)
(* "Tom idzie.";*)
(* "Miałem miał."; *)
(* "Szpak śpiewa.";
"Ala ma kota.";
"Ale mają kota:"*)
(* "Matura.";
"matura";
"„Matura.”";
"„Matura”.";
"„matura”";
"- matura";
"- Matura";
"2 jabłka";
"- 2 jabłka";*)
(* "ping-ponga" *)
(* "drukowanym w „Dialogu”";
"drukowanym w „Dialogu”."; *)
(* "\"Throw out\" znaczy \"wyrzucić\".";
"- Votare! ( Głosujmy !)";
"( Głosujmy !)";
"„Dialog”"; *)
(* "x br." *)
(* "ponad 388 tys. ludzi";
"ponad 388 tys. km.2"; *)
(* "(PTTK Żyrardów, tel. 0-46 855-45-26)";
"40-045 Katowice, ul. Astrów 7, tel. (032) 51 30 86, tel. i faks 51 86 28, 517 193, 518 609"; *)
(* "przeciętnie 7,5 tys. kibiców";
"0,4mln";
"8,8665tys.";
"70-75 tys.";
"70-75tys."; *)
(* "myjni \"A-Car Auto\" Myjnia"; *)
(* "nowaka@lp2.pl"; *)
(* "poufale :P) Im"; *)
(*"Piłsudskiego 12 A Konstancin-Jeziorna";
"Mary Mary";
"TTTTTTTK TTTTTTTK"; *)
(* "Marcin Jagodziński czytanie: http://marcin.webcorp.pl pisanie: marcinj@webcorp.pl";
"Możemy nauczyć się kung-fu z waszego filmu."; *)
(* "Jak znam Pola, będzie teraz rozmawiał przynajmniej z profesorem Żołądziem.";
"Przeniosłam wzrok na jego dłoń, a potem wróciłam do badania jej faktury opuszkiem palca."; *)
(* "On-line Komunikat dotyczy kilku zagadnień, w tym przyjęcia przez państwa członkowskie systemów ratingowych PEGI i PEGI On-line."; *)
(* "Moim zdaniem UMŚ stanowi"; *)
(* "że 50-tką nie da rady"; *)
(* "mgr inż Jan ppm hhhtcem"; *)
(* "stosując metodę 9.3."; *)
(* "medyczny m.in. ultrasonograf"; *)
(* "oddechowych z kaszlemchgrypką i bezgłosem"; *)
"środa";
"środy";
]
let _ =
ENIAMtokenizer.initialize ();
print_endline "Testy wbudowane";
Xlist.iter test_strings (fun s ->
print_endline ("\nTEST: " ^ s);
let tokens = ENIAMtokenizer.parse s in
(* print_endline (ENIAMtokenizer.xml_of tokens); *)
Xlist.iter tokens (fun token -> print_endline (ENIAMtokenizer.string_of 0 token)));
print_endline "Testy użytkownika.";
print_endline "Wpisz tekst i naciśnij ENTER, pusty tekst kończy.";
let s = ref (read_line ()) in
while !s <> "" do
let tokens = ENIAMtokenizer.parse !s in
(* print_endline (ENIAMtokenizer.xml_of tokens); *)
Xlist.iter tokens (fun token -> print_endline (ENIAMtokenizer.string_of 0 token));
print_endline "Wpisz tekst i naciśnij ENTER, pusty tekst kończy.";
s := read_line ()
done;
()