test.ml 2.77 KB
(*
 *  ENIAMtokenizer, a tokenizer for Polish
 *  Copyright (C) 2016 Wojciech Jaworski <wjaworski atSPAMfree mimuw dot edu dot pl>
 *  Copyright (C) 2016 Institute of Computer Science Polish Academy of Sciences
 *
 *  This library is free software: you can redistribute it and/or modify
 *  it under the terms of the GNU Lesser General Public License as published by
 *  the Free Software Foundation, either version 3 of the License, or
 *  (at your option) any later version.
 *
 *  This library is distributed in the hope that it will be useful,
 *  but WITHOUT ANY WARRANTY; without even the implied warranty of
 *  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 *  GNU Lesser General Public License for more details.
 *
 *  You should have received a copy of the GNU Lesser General Public License
 *  along with this program.  If not, see <http://www.gnu.org/licenses/>.
 *)


let test_strings = [
(*  "a gdybym miałem";
  "A Gdy Miałem";
  "GDY MIAŁEM";
  "I II III IV V VI VII VIII IX X MCXIV MXC";
  "Kiedy Piotr Prabucki, przewodniczący Komisji Budżetu PeKaO";
  "25 idzie 20.";
  "Kot. Kot. kot.";
  "25.";
  "25.888.231";
  "Ala 25.888.231.111 ma.";
  "Ala 25.888.031,011.";
  "Ala -25.888.031,011.";
  "Ala -25 .";
  "Ala -1° C  3° ciepła 20—30°C od 180° do 260°C  około 6° poniżej horyzontu.";
  "Ala 22-25 .";
  "Ala 22.5.2000-25.5.2001 .";
  "Szpak frunie.";*)
  (* "Kot miauczy."; *)
(*  "Np. Ala.";*)
  (* "w. dom.";
  "tzn.";
  "c.d.n."; *)
(*  "Arabia Saudyjska biegnie.";
  "Cauchy'ego ONZ-owska biegnie.";*)
  (* "TE-cie E-e.";
  "MS-DOS-owska CI-cie KRRi-cie UJ-ocie UJ-OCIE.";
  "rock'n'rollowy d’Alembertowi staro-cerkiewno-słowiańskimi"; *)
(*  "Tom idzie.";*)
  (* "Miałem miał."; *)
(*  "Szpak śpiewa.";
  "Ala ma kota.";
  "Ale mają kota:"*)
(*  "Matura.";
  "matura";
  "„Matura.”";
  "„Matura”.";
  "„matura”";
  "- matura";
  "- Matura";
  "2 jabłka";
  "- 2 jabłka";*)
  (* "ping-ponga" *)
  "drukowanym w „Dialogu”";
  "drukowanym w „Dialogu”.";
  ]

let _ =
  ENIAMtokenizer.initialize ();
  print_endline "Testy wbudowane";
  Xlist.iter test_strings (fun s ->
    print_endline ("\nTEST: " ^ s);
    let tokens = ENIAMtokenizer.parse s in
    (* print_endline (ENIAMtokenizer.xml_of tokens); *)
    Xlist.iter tokens (fun token -> print_endline (ENIAMtokenizer.string_of 0 token)));
  print_endline "Testy użytkownika.";
  print_endline "Wpisz tekst i naciśnij ENTER, pusty tekst kończy.";
  let s = ref (read_line ()) in
  while !s <> "" do
    let tokens = ENIAMtokenizer.parse !s in
    (* print_endline (ENIAMtokenizer.xml_of tokens); *)
    Xlist.iter tokens (fun token -> print_endline (ENIAMtokenizer.string_of 0 token));
    print_endline "Wpisz tekst i naciśnij ENTER, pusty tekst kończy.";
    s := read_line ()
  done;
  ()