obsługa słowników

Wojciech Jaworski
1 parent 8e42d298
Showing 7 changed files with 570 additions and 378 deletions
guesser/dict.ml
guesser/generate.ml
guesser/makefile
guesser/ruleGenerator.ml
guesser/rules.ml
guesser/stem.ml
guesser/types.ml
+open Xstd
+open Printf
+open Types
+
+let get_form e =
+  match e.forms with
+    [form] -> form
+  | _ -> failwith "get_form"
+
+let load_tab filename =
+  File.load_tab filename (function
+      orth :: lemma :: interp :: _ ->
+        {lemma=lemma; cat=""; forms=[{orth=orth; interp=interp; freq=1; genre=""; validated=false}]; proper_type="";
+         ndm=false; stem=""}
+    | line -> failwith ("load_tab: " ^ (String.concat "\t" line)))
+
+let load_tab_full filename =
+  File.load_tab filename (function
+      [orth; lemma; interp] ->
+        {lemma=lemma; cat=""; forms=[{orth=orth; interp=interp; freq=1; genre=""; validated=false}]; proper_type="";
+         ndm=false; stem=""}
+    | [orth; lemma; interp; proper_type] ->
+        {lemma=lemma; cat=""; forms=[{orth=orth; interp=interp; freq=1; genre=""; validated=false}]; proper_type=proper_type;
+         ndm=false; stem=""}
+    | [orth; lemma; interp; proper_type; genre] ->
+        {lemma=lemma; cat=""; forms=[{orth=orth; interp=interp; freq=1; genre=genre; validated=false}]; proper_type=proper_type;
+         ndm=false; stem=""}
+(*     | orth :: lemma :: interp :: proper_type :: genre -> (orth,lemma,interp,proper_type,String.concat ";" genre) :: l *)
+    | line -> failwith ("load_tab_full: " ^ (String.concat "\t" line)))
+
+let pos = StringSet.of_list [
+  "subst";"adj";"adv";"interp";"num";"xxx";"prep";"fin";"praet";"qub";"inf";"interj";
+  "brev";"numcol";"ppas";"pact";"adja";"conj";"ger";"pcon";"pant";"comp";"depr";
+  "adjp";"imps";"impt";"pred";"bedzie";"burk";"aglt";"ppron12";"ppron3";"adjc";
+  "winien";"siebie"
+  ]
+
+let rec find_pos rev = function
+    s :: l -> if StringSet.mem pos s then List.rev rev, s :: l else find_pos (s :: rev) l
+  | [] -> failwith "find_pos"
+
+let split_lemma_interp s =
+  let l = Xstring.split_delim ":" s in
+  let lemma,interp = find_pos [List.hd l] (List.tl l) in
+  String.concat ":" lemma, String.concat ":" interp
+
+let rec remove_empties = function
+    "" :: l -> remove_empties l
+  | l -> l
+
+let split_freq_orth s =
+  match remove_empties (Xstring.split " " s) with
+    freq :: l -> (*print_endline (String.concat "|" (freq :: l));*) int_of_string freq, String.concat " " l
+  | _ -> failwith "split_freq_orth"
+
+let load_freq_tab filename =
+  File.load_tab filename (function
+      [freq_orth; lemma_interp] ->
+        (* print_endline (freq_orth ^ "\t" ^ lemma_interp); *)
+        let freq,orth = split_freq_orth freq_orth in
+        let lemma,interp = split_lemma_interp lemma_interp  in
+        {lemma=lemma; cat=""; forms=[{orth=orth; interp=interp; freq=freq; genre=""; validated=false}]; proper_type="";
+         ndm=false; stem=""}
+    | line -> failwith ("load_freq_tab: " ^ (String.concat "\t" line)))
+
+let proper_type_selector e = e.proper_type
+let genre_selector e = e.genre
+let interp_selector e = (get_form e).interp
+let freq_selector e = (get_form e).freq
+
+let print_quantities out_filename selector dict =
+  let qmap = Xlist.fold dict StringQMap.empty (fun qmap entry ->
+    StringQMap.add qmap (selector entry)) in
+  File.file_out out_filename (fun file ->
+    StringQMap.iter qmap (fun k v ->
+      fprintf file "%6d\t%s\n" v k))
+
+(**********************************************************************************)
+
+let load_dict_as_set filename =
+  let l = load_tab filename in
+  List.sort compare (StringSet.to_list (Xlist.fold l StringSet.empty (fun set entry ->
+    let form = get_form entry in
+    StringSet.add set (String.concat "\t" [form.orth;entry.lemma;form.interp]))))
+
+let load_dict_as_set_full filename =
+  let l = load_tab_full filename in
+  List.sort compare (StringSet.to_list (Xlist.fold l StringSet.empty (fun set entry ->
+    let form = get_form entry in
+    StringSet.add set (String.concat "\t" [form.orth;entry.lemma;form.interp;entry.proper_type;form.genre]))))
+
+let rec compare_dicts_rec file = function
+    [],[] -> ()
+  | [],b :: lb -> fprintf file "> %s\n" b; compare_dicts_rec file ([],lb)
+  | a :: la,[] -> fprintf file "< %s\n" a; compare_dicts_rec file (la,[])
+  | a :: la, b :: lb ->
+       if a = b then compare_dicts_rec file (la,lb) else
+       if a < b then (fprintf file "< %s\n" a; compare_dicts_rec file (la,b :: lb)) else
+       (fprintf file "> %s\n" b; compare_dicts_rec file (a :: la,lb))
+
+let compare_dicts filename1 filename2 filename_out =
+  let dict1 = load_dict_as_set filename1 in
+  let dict2 = load_dict_as_set filename2 in
+  File.file_out filename_out (fun file ->
+    compare_dicts_rec file (dict1,dict2))
+
+let compare_dicts_full filename1 filename2 filename_out =
+  let dict1 = load_dict_as_set_full filename1 in
+  let dict2 = load_dict_as_set_full filename2 in
+  File.file_out filename_out (fun file ->
+    compare_dicts_rec file (dict1,dict2))
+
+(**********************************************************************************)
+
+let find_entry_cat entry =
+  let form = get_form entry in
+  let cat,tags = match Xstring.split ":" form.interp with
+      cat :: tags -> cat,tags
+    | _ -> failwith ("find_entry_type: " ^ form.interp) in
+  if cat = "subst" || cat = "depr" then "noun" else
+  if cat = "adj" || cat = "adja"|| cat = "adjc"|| cat = "adjp" then "adj" else
+  if cat = "adv" then "adv" else
+  if cat = "inf" || cat = "praet"|| cat = "fin" || cat = "ppas" || cat = "pact" || cat = "pacta" ||
+     cat = "impt" || cat = "imps" || cat = "pcon" || cat = "pant" || cat = "ger" || cat = "" then "verb" else
+  if cat = "bedzie" || cat = "pred"|| cat = "prep" || cat = "num" || cat = "aglt" || cat = "winien" ||
+     cat = "qub" || cat = "brev" || cat = "comp" || cat = "interj" || cat = "burk" ||
+     cat = "conj" || cat = "ppron12" || cat = "ppron3" || cat = "" then "other" else
+  if cat = "cond" then "cond" else
+  failwith ("find_entry_cat: " ^ cat)
+
+let assign_entry_cat dict =
+  Xlist.rev_map dict (fun entry ->
+    {entry with cat = find_entry_cat entry})
+
+let split_dict path filename =
+  let dict = load_tab (path ^ filename) in
+  let dict = List.rev (assign_entry_cat dict) in
+  File.file_out (path ^ "noun_" ^ filename) (fun noun_file ->
+  File.file_out (path ^ "adj_" ^ filename) (fun adj_file ->
+  File.file_out (path ^ "adv_" ^ filename) (fun adv_file ->
+  File.file_out (path ^ "verb_" ^ filename) (fun verb_file ->
+  File.file_out (path ^ "other_" ^ filename) (fun other_file ->
+  Xlist.iter dict (fun entry ->
+    let form = get_form entry in
+    try
+      let file = match entry.cat with
+          "noun" -> noun_file
+        | "adj" -> adj_file
+        | "adv" -> adv_file
+        | "verb" -> verb_file
+        | "other" -> other_file
+        | "cond" -> raise Not_found
+        | _ -> failwith "split_dict" in
+      fprintf file "%s\t%s\t%s\n" form.orth entry.lemma form.interp
+    with Not_found -> ()))))))
+
+let merge_entries dict =
+  let dict = assign_entry_cat dict in
+  let map = Xlist.fold dict StringMap.empty (fun map entry ->
+    let form = get_form entry in
+    let key =
+      if entry.cat = "noun" then (* FIXME: problem z depr *)
+        let gender = match Xstring.split ":" form.interp with
+            ["depr";_;_;"m2"] -> "m1"
+          | "depr" :: _ -> failwith ("merge_entries: " ^ form.interp)
+          | [_;_;_;gender] -> gender
+          | _ -> failwith ("merge_entries: " ^ form.interp) in
+        entry.lemma ^ "|" ^ entry.cat ^ "|" ^ gender
+      else entry.lemma ^ "|" ^ entry.cat in
+    StringMap.add_inc map key entry (fun e ->
+      if entry.proper_type <> e.proper_type then
+        failwith ("merge_entries: " ^ key ^ " " ^ entry.proper_type ^ " " ^ e.proper_type) else
+      {e with forms = form :: e.forms})) in
+  StringMap.fold map [] (fun dict _ e -> e :: dict)
+
+(**********************************************************************************)
+
+let mark_ndm dict =
+  Xlist.fold dict [] (fun dict entry ->
+    if entry.cat <> "noun" &&  entry.cat <> "adj" then entry :: dict else
+    let map = Xlist.fold entry.forms StringMap.empty (fun map form ->
+      StringMap.add_inc map form.interp (StringSet.singleton form.orth) (fun set -> StringSet.add set form.orth)) in
+    let qmap = StringMap.fold map StringQMap.empty (fun qmap interp orths ->
+      StringSet.fold orths qmap StringQMap.add) in
+    let n = StringMap.size map in
+    let found = StringQMap.fold qmap [] (fun found orth v ->
+      if v = n then orth :: found else found) in
+    (* printf "%s\t%s\t%d\t%s\n%!" entry.lemma entry.cat n (String.concat " " found); *)
+    match found with
+      [] -> entry :: dict
+    | [orth] ->
+        let ndm,odm = Xlist.fold entry.forms ([],[]) (fun (ndm,odm) form ->
+          if form.orth = orth then form :: ndm, odm else ndm, form :: odm) in
+        let dict = {entry with forms=odm} :: dict in
+        {entry with forms=ndm; ndm=true} :: dict
+    | _ -> failwith ("mark_ndm: " ^ (String.concat " " found)))
+
+let print_ndm filename dict =
+  File.file_out filename (fun file ->
+    Xlist.iter dict (fun entry ->
+      if entry.ndm then
+        let orth = (List.hd entry.forms).orth in
+        fprintf file "%s\t%s\t%s\n" orth entry.lemma entry.cat))
+
+let kolwiek_lemmas = StringSet.of_list [
+  (* adj *)
+  "czyjkolwiek"; "czyjś"; "czyjże"; "jakiciś"; "jakikolwiek"; "jakisi"; "jakiś"; "jakiści";
+  "jakiściś"; "jakiśkolwiek"; "jakiż"; "jakiżkolwiek"; "jakowyś"; "kijże"; "kiż"; "którykolwiek";
+  "któryś"; "któryż"; "któryżkolwiek"; "niejakiś"; "takiż"; "takowyż"; "tenże"; "tyliż"; "ówże";
+  (* noun *)
+  "cokolwiek:s"; "cośkolwiek"; "cóżkolwiek"; "ktokolwiek"; "ktośkolwiek"; "któżkolwiek";
+  "cociś"; "cosi"; "cosik"; "cosiś"; "coś:s"; "cościś"; "coże"; "cóż";
+  "ktoś:s2"; "któż";
+  (* adv *)
+  "jakkolwiek"; "jakoś"; "małoż"; "niejakkolwiek"; "niejakoś"; (*"niemalże";*) ]
+
+let kolwiek_suffixes = [
+  "żkolwiek"; "żekolwiek"; "śkolwiek"; "kolwiek"; "ż"; "że"; "ściś"; "ciś"; "ś"; "ści"; "sik"; "si"]
+
+let find_kolwiek_suffixes dict =
+  Xlist.rev_map dict (fun entry ->
+    if StringSet.mem kolwiek_lemmas entry.lemma then
+      {entry with forms=Xlist.map entry.forms (fun form ->
+          {form with orth=Xlist.fold kolwiek_suffixes form.orth (fun orth kolwiek_suf ->
+            if Xstring.check_sufix kolwiek_suf orth then
+              Xstring.cut_sufix kolwiek_suf orth
+            else orth)})}
+    else entry)
+
+let exceptional_lemmata = StringSet.of_list ([
+  (* błąd w słowniku *)
+  "ówże";
+  (* wiele stemów *)
+  "twój:a"; "swój"; "mój:a"; "wszystek";
+  (* oboczności w stemie *)
+  "co:s"; "cociś"; "cokolwiek:s"; "cosi"; "cosik"; "cosiś"; "coś:s"; "cościś"; "cośkolwiek"; "coże"; "cóż"; "cóżkolwiek";
+  "kto"; "ktokolwiek"; "ktoś:s2"; "ktośkolwiek"; "któż"; "któżkolwiek"; "nikt"; "nic";
+  "Angel"; "Apollo"; "Białystok"; "Bober"; "Dzięgiel"; "Engel"; "Gołąb:s2"; "Gózd"; "Hendel"; "Herschel"; "Jastrząb";
+  "Kodrąb:s2"; "Kozioł"; "Krasnystaw"; "Majcher"; "Ob"; "Omulew"; "Orzeł"; "Różanystok"; "Schuster"; "Stępień"; "Słonim";
+  "Wielkanoc"; "achtel"; "archiprezbiter"; "arcydzięgiel"; "bedel"; "ber"; "białagłowa"; "białodrzew"; "ceter"; "deszcz";
+  "drama"; "dziób:s1"; "dzięgiel"; "dżemper"; "falafel"; "grubodziób"; "harbajtel"; "harbejtel"; "harmider"; "imćpan";
+  "iściec"; "jarząb:s2"; "kierdel"; "kimel"; "kiper:s1"; "klaster"; "kliper"; "kosodrzew"; "kureń"; "manczester";
+  "nadpiersień"; "osep"; "otrząs"; "pedel"; "piksel"; "podpiersień"; "podziem"; "prezbiter"; "protokół"; "przedpiersień";
+  "ratel"; "rondel:s2"; "rozpiór:s1"; "rozpiór:s2"; "rzeczpospolita"; "rzep:s2"; "rzepień"; "rzewień"; "rąb"; "sosrąb";
+  "srebrnodrzew"; "swąd"; "szmermel"; "szpiegierz"; "ulster"; "wab:s2"; "wermiszel"; "wilczełyko"; "woleoczko"; "włosień:s2";
+  "zew"; "złotogłów"; "świreń"; "źreb"; "żółtodziób";
+  "człowiek"; "półczłowiek"; "przedczłowiek"; "praczłowiek"; "nadczłowiek"; "git-człowiek"; ""; ""; ""; ""; ""; ""; ""; "";
+  "przechrzest"; "chrzest"; "półdziecko"; "roczek:s2"; "rok:s1"; "tydzień"; ""; ""; ""; ""; ""; "";
+  (* oboczności w odmianie *)
+  "niekażdy"; "każdy"; "niektóry:a"; "który"; "tenże"; "ten"; "tamten"; "kijże";
+  "ucho:s2"; "dziecko"; "oko:s2"; "imię"; "nozdrze";
+  "ZHR"; "WAT"; "VAT"; "PAT"; "FAT"; "DAT"; "PAGART"; "PIT:s2"; "PIT:s1"; "OIT:s2"; "OIT:s1"; "CIT";
+  "NOT"; "LOT"; "KRRiT"; ""; ""; ""; ""; ""; ""; ""; ""; "";
+  "być"; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
+  ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
+  (* pozostawione *)
+  "czyjże"; "czyjś"; "czyjkolwiek"; "kiż"; "ów"; "ow"; "on:a"; "ki";
+  "Pia"; "jo-jo"; "+lecie"; "";
+  "zagrząźć"; "zrzeć";
+  (* niepełny paradygmat *)
+  "zróść"; "zląc"; "zaróść"; "zaprząc"; "zaprzysiąc"; "zanieść:v2"; "zaląc"; "wzróść"; "wyróść"; "wyprząc"; "wyprzysiąc";
+  "róść"; "sprzysiąc"; "sprząc"; "ugrząźć"; "uląc"; "upiec:v2"; "uprząc"; "uróść"; "wieść:v2"; "wprząc"; "wróść"; "wyląc";
+  "powieść:v2"; "posiąc"; "przeląc"; "przeprząc"; "przeróść"; "przyprząc"; "przysiąc"; "przyróść"; "prząc"; "pójść:v2"; "rozprząc"; "rozróść";
+  "krzywoprzysiąc"; "ląc"; "naróść"; "obróść"; "odprzysiąc"; "odprząc"; "odróść"; "oprzysiąc"; "podróść"; "pogrząźć"; "poprzysiąc"; "poróść";
+  "dojść:v2"; "doprząc"; "doróść"; "dosiąc"; "grząźć"; "iść:v2";
+  (* wiele stemów *)
+  "uwlec"; "wewlec"; "wlec"; "wwlec"; "wywlec"; "wyżec"; "zawlec"; "zażec"; "zewlec"; "zwlec"; "zżec"; "żec";
+  "podwlec"; "podżec"; "powlec:v1"; "powlec:v2"; "przeoblec"; "przewlec"; "przeżec"; "przyoblec"; "przywlec"; "przyżec"; "rozwlec"; "rozżec";
+  "dowlec"; "nawlec"; "oblec:v2"; "obwlec"; "odwlec"; "owlec"; "zeżreć";
+  (* inne *)
+  "liźć"; "iść:v1"; "wyniść"; "wynijść"; "wyjść"; "wniść"; "wnijść"; "wejść"; "ujść"; "rozejść"; "pójść:v1"; "przyjść"; "przejść:v2"; "przejść:v1"; "podejść"; "odejść"; "obejść:v2"; "obejść:v1"; "najść:v2"; "najść:v1"; "nadejść"; "dojść:v1";
+  "roztworzyć:v2"; "przetworzyć:v2"; "otworzyć";
+  "zsiąść:v2"; "zsiąść:v1"; "zesiąść"; "zasiąść"; "wysiąść"; "współposiąść"; "wsiąść"; "usiąść"; "siąść"; "rozsiąść"; "przysiąść"; "przesiąść"; "powsiąść"; "posiąść"; "podsiąść"; "osiąść"; "obsiąść"; "nasiąść"; "dosiąść";
+  "źreć:v1"; "zniść"; "znijść"; "znajść"; "zejść"; "zejść"; "zajść:v2"; "zajść:v1"; "wzniść"; "wznijść"; "wzejść"
+(*
+   "moi"; "twoi";
+  (*"AIDS"; "BGŻ"; "BWZ"; "BZ";*) (*"Bandtkie";*) (*"CRZZ"; "FPŻ";*) (*"Jokai"; "Jókai"; "Linde";*)(* "MSZ"; "MWGzZ"; *)
+  (*"NSZ"; "OPZZ";*) "Radetzky"; "Tagore"; (*"UNZ"; "URz"; "WBZ"; "ZSZ"; "ZWZ"; "ZZ";*) "aids";
+  "arcyksiężna"; "cornflakes"; "księżna"; (*"scrabble";*) "sms"; "teścina";
+  "Wielkanoc"; "białagłowa"; "rzeczpospolita"; "imćpan";
+  "Ob"; "podziem"; "Pia"; "woleoczko"; "wilczełyko"; "jo-jo"; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
+  "Omulew"; "drama"; (*"Kayah";*) "ratel"; "grubodziób"; "rozpiór:s1"; "ceter"; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
+  "DJ"; "FIFA"; (*"manicure"; "Greenpeace"; "Google";*) ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
+  "włosień:s2"; "deszcz"; "falafel"; "Krasnystaw";
+  "Różanystok"; "Białystok"; "ZHR"; "rzep:s2"; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
+  "IKEA"; "makao"; "macao"; "kakao"; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
+  "dziecko"; "oko:s2"; "ucho:s2"; "półdziecko"; "b-cia"; ""; ""; ""; ""; ""; ""; ""; ""; "";
+  "idea"; "ręka"; "cześć:s"; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
+  "ABBA"; "UEFA"; "FAMA"; "SABENA"; "MENA"; "APA"; "NASA"; "ANSA";
+  "NAFTA"; "LETTA"; "ETA"; "ELTA"; "EFTA"; "CEFTA";
+  "WAT"; "VAT"; "PAT"; "FAT"; "DAT"; "PAGART";
+  "PIT:s2"; "PIT:s1"; "OIT:s2"; "OIT:s1"; "CIT"; "NOT"; "LOT"; "KRRiT";
+  "człowiek"; "półczłowiek"; "przedczłowiek"; "praczłowiek"; "nadczłowiek"; "git-człowiek"; ""; ""; ""; ""; ""; ""; ""; "";
+  "szwa"; "hawanna"; "butaforia"; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
+  "Skopie"; "Mathea"; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
+  "poema:s1"; "klima:s1"; "dylema"; "dilemma"; "apoftegma"; "aksjoma"; ""; ""; ""; ""; ""; ""; ""; "";
+  "burgrabia"; "gograbia"; "grabia"; "hrabia"; "margrabia"; "murgrabia"; "sędzia:s1"; "wicehrabia"; "współsędzia";
+  "cieśla"; "bibliopola"; "świszczypałka"; "śwircałka"; "świerczałka"; "ścierciałka"; "tatka"; "sługa:s1"; "stupajka:s1"; "stepka"; "starowinka:s2"; "skurczypałka"; "mężczyzna"; "klecha";
+  ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
+  ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
+  ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
+  ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";*)
+  ] @ File.load_lines "data/obce.tab" @ File.load_lines "data/validated_adj.tab" @ File.load_lines "data/validated_noun.tab" @ File.load_lines "data/validated_verb.tab" @ File.load_lines "data/adv_nieodprzymiotnikowe.tab")
+
+let remove_exceptional_lemmata dict =
+  Xlist.fold dict [] (fun dict entry ->
+    if StringSet.mem exceptional_lemmata entry.lemma then dict
+    else entry :: dict)
+
+let generate_stem dict =
+  Xlist.rev_map dict (fun entry ->
+    {entry with stem=
+      if entry.ndm then (List.hd entry.forms).orth else
+      if entry.cat = "noun" || entry.cat = "adj" || entry.cat = "adv" || entry.cat = "verb" then
+        Stem.generate_stem entry
+      else ""})
+
+let validate dict =
+  let rules = Rules.interp_compound_rule_trees in
+  Xlist.rev_map dict (fun entry ->
+    let simple_lemma = Stem.simplify_lemma entry.lemma in
+    let forms = Xlist.rev_map entry.forms (fun form ->
+      (* printf "E %s\t%s\t%s\n" orth lemma interp; *)
+      let candidates = Rules.CharTrees.find rules form.orth in
+      (* printf "S %d\n" (Xlist.size forms); *)
+      let candidates = Xlist.fold candidates [] (fun candidates (stem,rule) ->
+        (* printf "R %s\t%s\n" stem (Rules.string_of_rule rule); *)
+        if stem ^ rule.Rules.set = simple_lemma then (stem,rule) :: candidates else candidates) in
+      if candidates = [] then form else {form with validated=true}) in
+    {entry with forms=forms})
+
+let remove_validated_forms dict =
+  Xlist.fold dict [] (fun dict entry ->
+    let forms = Xlist.fold entry.forms [] (fun forms form ->
+      if form.validated then forms else form :: forms) in
+    if forms = [] then dict else {entry with forms=forms} :: dict)
+
+let remove_validated_entries dict =
+  Xlist.fold dict [] (fun dict entry ->
+    let forms = Xlist.fold entry.forms [] (fun forms form ->
+      if form.validated then forms else form :: forms) in
+    if forms = [] then dict else entry :: dict)
+
+let remove_not_validated_forms dict =
+  Xlist.fold dict [] (fun dict entry ->
+    let forms = Xlist.fold entry.forms [] (fun forms form ->
+      if form.validated then form :: forms else forms) in
+    if forms = [] then dict else {entry with forms=forms} :: dict)
+
+let remove_not_validated_entries dict =
+  Xlist.fold dict [] (fun dict entry ->
+    let forms = Xlist.fold entry.forms [] (fun forms form ->
+      if form.validated then form :: forms else forms) in
+    if Xlist.size forms <> Xlist.size entry.forms then dict else entry :: dict)
+
+let print filename dict =
+  File.file_out filename (fun file ->
+    Xlist.iter dict (fun entry ->
+      Xlist.iter entry.forms (fun form ->
+        fprintf file "%s\t%s\t%s\n" form.orth entry.lemma form.interp)))
+
+let print_lemmata filename dict =
+  File.file_out filename (fun file ->
+    Xlist.iter dict (fun entry ->
+      fprintf file "%s\n" entry.lemma))
@@ -15,11 +15,172 @@ let zasoby_path =
 (*   | "mozart" -> "." *)
   | s -> failwith ("unknown host: " ^ s)
  
-let morfeusz_path = zasoby_path ^ "morfeusz/"
+let lematy_nkjp_filename = "lematy_NKJP1M_freq.tab"
+
+let morfeusz_old_path = zasoby_path ^ "morfeusz/old2/"
 let sgjp_filename2015 = "sgjp-20151020.tab"
 let polimorf_filename2015 = "polimorf-20151020.tab"
-let sgjp_filename = "sgjp-20160508.tab"
-let polimorf_filename = "polimorf-20160508.tab"
+
+let morfeusz_path = zasoby_path ^ "morfeusz/"
+let sgjp_filename201605 = "sgjp-20160508.tab"
+let polimorf_filename201605 = "polimorf-20160508.tab"
+let sgjp_filename = "sgjp-20160724.tab"
+let polimorf_filename = "polimorf-20160724.tab"
+
+let adv_sgjp_filename = "adv_" ^ sgjp_filename201605
+let odm_adj_sgjp_filename = "odm_adj_" ^ sgjp_filename201605
+let ndm_adj_sgjp_filename = "ndm_adj_" ^ sgjp_filename201605
+let odm_noun_sgjp_filename = "odm_noun_" ^ sgjp_filename201605
+let ndm_noun_sgjp_filename = "ndm_noun_" ^ sgjp_filename201605
+let verb_sgjp_filename = "verb_" ^ sgjp_filename201605
+
+(* Test wczytywania słowników i liczenie częstości *)
+let _ =
+  (* print_endline "sgjp_filename2015";
+  let _ = Dict.load_tab (morfeusz_old_path ^ sgjp_filename2015) in
+  print_endline "polimorf_filename2015";
+  let _ = Dict.load_tab (morfeusz_old_path ^ polimorf_filename2015) in
+  print_endline "sgjp_filename201605";
+  let _ = Dict.load_tab (morfeusz_path ^ sgjp_filename201605) in
+  print_endline "polimorf_filename201605";
+  let _ = Dict.load_tab (morfeusz_path ^ polimorf_filename201605) in
+  print_endline "sgjp_filename";
+  let _ = Dict.load_tab (morfeusz_path ^ sgjp_filename) in
+  print_endline "polimorf_filename";
+  let _ = Dict.load_tab (morfeusz_path ^ polimorf_filename) in
+  print_endline "adv_sgjp_filename";
+  let _ = Dict.load_tab (morfeusz_path ^ adv_sgjp_filename) in
+  print_endline "odm_adj_sgjp_filename";
+  let _ = Dict.load_tab (morfeusz_path ^ odm_adj_sgjp_filename) in
+  print_endline "ndm_adj_sgjp_filename";
+  let _ = Dict.load_tab (morfeusz_path ^ ndm_adj_sgjp_filename) in
+  print_endline "odm_noun_sgjp_filename";
+  let _ = Dict.load_tab (morfeusz_path ^ odm_noun_sgjp_filename) in
+  print_endline "ndm_noun_sgjp_filename";
+  let _ = Dict.load_tab (morfeusz_path ^ ndm_noun_sgjp_filename) in
+  print_endline "verb_sgjp_filename";
+  let _ = Dict.load_tab (morfeusz_path ^ verb_sgjp_filename) in
+  print_endline "sgjp_filename2015";
+  let dict = Dict.load_tab_full (morfeusz_old_path ^ sgjp_filename2015) in
+  Dict.print_quantities "results/proper-type-sgjp-20151020.txt" Dict.proper_type_selector dict;
+  Dict.print_quantities "results/genre-sgjp-20151020.txt" Dict.genre_selector dict;
+  Dict.print_quantities "results/interp-sgjp-20151020.txt" Dict.interp_selector dict;
+  print_endline "polimorf_filename2015";
+  let dict = Dict.load_tab_full (morfeusz_old_path ^ polimorf_filename2015) in
+  Dict.print_quantities "results/proper-type-polimorf-20151020.txt" Dict.proper_type_selector dict;
+  Dict.print_quantities "results/genre-polimorf-20151020.txt" Dict.genre_selector dict;
+  Dict.print_quantities "results/interp-polimorf-20151020.txt" Dict.interp_selector dict;
+  print_endline "sgjp_filename201605";
+  let dict = Dict.load_tab_full (morfeusz_path ^ sgjp_filename201605) in
+  Dict.print_quantities "results/proper-type-sgjp-20160508.txt" Dict.proper_type_selector dict;
+  Dict.print_quantities "results/genre-sgjp-20160508.txt" Dict.genre_selector dict;
+  Dict.print_quantities "results/interp-sgjp-20160508.txt" Dict.interp_selector dict;
+  print_endline "polimorf_filename201605";
+  let dict = Dict.load_tab_full (morfeusz_path ^ polimorf_filename201605) in
+  Dict.print_quantities "results/proper-type-polimorf-20160508.txt" Dict.proper_type_selector dict;
+  Dict.print_quantities "results/genre-polimorf-20160508.txt" Dict.genre_selector dict;
+  Dict.print_quantities "results/interp-polimorf-20160508.txt" Dict.interp_selector dict;
+  print_endline "sgjp_filename";
+  let dict = Dict.load_tab_full (morfeusz_path ^ sgjp_filename) in
+  Dict.print_quantities "results/proper-type-sgjp-20160724.txt" Dict.proper_type_selector dict;
+  Dict.print_quantities "results/genre-sgjp-20160724.txt" Dict.genre_selector dict;
+  Dict.print_quantities "results/interp-sgjp-20160724.txt" Dict.interp_selector dict;
+  print_endline "polimorf_filename";
+  let dict = Dict.load_tab_full (morfeusz_path ^ polimorf_filename) in
+  Dict.print_quantities "results/proper-type-polimorf-20160724.txt" Dict.proper_type_selector dict;
+  Dict.print_quantities "results/genre-polimorf-20160724.txt" Dict.genre_selector dict;
+  Dict.print_quantities "results/interp-polimorf-20160724.txt" Dict.interp_selector dict;
+  print_endline "adv_sgjp_filename";
+  let dict = Dict.load_tab_full (morfeusz_path ^ adv_sgjp_filename) in
+  print_endline "odm_adj_sgjp_filename";
+  let dict = Dict.load_tab_full (morfeusz_path ^ odm_adj_sgjp_filename) in
+  print_endline "ndm_adj_sgjp_filename";
+  let dict = Dict.load_tab_full (morfeusz_path ^ ndm_adj_sgjp_filename) in
+  print_endline "odm_noun_sgjp_filename";
+  let dict = Dict.load_tab_full (morfeusz_path ^ odm_noun_sgjp_filename) in
+  print_endline "ndm_noun_sgjp_filename";
+  let dict = Dict.load_tab_full (morfeusz_path ^ ndm_noun_sgjp_filename) in
+  print_endline "verb_sgjp_filename";
+  let dict = Dict.load_tab_full (morfeusz_path ^ verb_sgjp_filename) in
+  print_endline "lematy_nkjp_filename";
+  let dict = Dict.load_freq_tab (zasoby_path ^ lematy_nkjp_filename) in
+  Dict.print_quantities "results/interp-lematy_nkjp.txt" Dict.interp_selector dict;
+  Dict.print_quantities "results/freq-lematy_nkjp.txt" Dict.freq_selector dict;*)
+  ()
+
+(* Porównanie wersji słowników *)
+let _ =
+  (* Dict.compare_dicts_full (morfeusz_old_path ^ sgjp_filename2015) (morfeusz_path ^ sgjp_filename201605) "results/comparition_sgjp1_full.out"; *)
+  (* Dict.compare_dicts_full (morfeusz_path ^ sgjp_filename201605) (morfeusz_path ^ sgjp_filename) "results/comparition_sgjp2_full.out"; *)
+  (* Dict.compare_dicts_full (morfeusz_old_path ^ polimorf_filename2015) (morfeusz_path ^ polimorf_filename201605) "results/comparition_polimorf1_full.out"; *)
+  (* Dict.compare_dicts_full (morfeusz_path ^ polimorf_filename201605) (morfeusz_path ^ polimorf_filename) "results/comparition_polimorf2_full.out"; *)
+(*   compare_dicts morfeusz_path sgjp_filename2015 sgjp_filename "results/comparition_sgjp.out"; *)
+  ()
+
+(* Podział słownika *)
+let _ =
+  (* Dict.split_dict morfeusz_path sgjp_filename; *)
+  ()
+
+(* Wypisanie nieodmiennych *)
+let _ =
+  (* let dict = Dict.load_tab_full (morfeusz_path ^ sgjp_filename) in
+  let dict = Dict.merge_entries dict in
+  let dict = Dict.mark_ndm dict in
+  Dict.print_ndm "results/ndm-sgjp.tab" dict; *)
+  ()
+
+let check_stem_generation path filename =
+  let dict = Dict.load_tab_full (path ^ filename) in
+  let dict = Dict.merge_entries dict in
+  let dict = Dict.mark_ndm dict in
+  let dict = Dict.find_kolwiek_suffixes dict in
+  let _ = Dict.generate_stem dict in
+  ()
+
+(* Sprawdzenie działania stemowania *)
+let _ =
+  check_stem_generation morfeusz_path sgjp_filename;
+(*   check_stem_generation morfeusz_path ("odm_adj_" ^ sgjp_filename);  *)
+(*   check_stem_generation morfeusz_path ("odm_noun_" ^ sgjp_filename); *)
+  ()
+
+let find_not_validated_forms path filename out_filename =
+  let dict = Dict.load_tab (path ^ filename) in
+  let dict = Dict.validate dict in
+  let dict = Dict.remove_validated_forms dict in
+  Dict.print out_filename dict
+
+let find_not_validated_entries path filename out_filename =
+  let dict = Dict.load_tab (path ^ filename) in
+  let dict = Dict.merge_entries dict in
+  let dict = Dict.validate dict in
+  let dict = Dict.remove_validated_entries dict in
+  Dict.print out_filename dict
+
+(* Wypisanie niezwalidowanych form *)
+let _ =
+  find_not_validated_forms morfeusz_path odm_adj_sgjp_filename "results/not_validated_odm_adj.tab";
+  (* find_not_validated_entries morfeusz_path ("odm_adj_" ^ sgjp_filename) "results/not_validated_odm_adj.tab"; *)
+  (* find_not_validated_entries "results/" "not_validated_odm_adj.tab" "results/not_validated_odm_adj2.tab"; *)
+  (* find_not_validated_entries morfeusz_path ("odm_noun_" ^ sgjp_filename) "results/not_validated_odm_noun.tab"; *)
+  (* find_not_validated_entries morfeusz_path ("adv_" ^ sgjp_filename) "results/not_validated_adv.tab";*)
+  (* find_not_validated_entries morfeusz_path ("verb_" ^ sgjp_filename) "results/not_validated_verb.tab"; *)
+  ()
+
+let find_validated_lemmata path filename out_filename =
+  let dict = Dict.load_tab (path ^ filename) in
+  let dict = Dict.merge_entries dict in
+  let dict = Dict.validate dict in
+  let dict = Dict.remove_not_validated_entries dict in
+  Dict.print_lemmata out_filename dict
+
+(* Wypisanie zwalidowanych lematów *)
+let _ =
+  find_validated_lemmata morfeusz_path odm_adj_sgjp_filename "results/validated_odm_adj.tab";
+  find_validated_lemmata morfeusz_path odm_noun_sgjp_filename "results/validated_odm_noun.tab";
+  find_validated_lemmata morfeusz_path verb_sgjp_filename "results/validated_verb.tab";
+  ()
  
 (**********************************************************************************)
  
@@ -164,75 +325,6 @@ let load_tab_full filename =
     | line -> failwith ("load_tab_full: " ^ (String.concat "\t" line)))
 (*     | _ -> failwith ("load_tab_full: " ^ line)) *)
  
-let load_dict_as_set filename =
-  let l = load_tab filename in
-  List.sort compare (StringSet.to_list (Xlist.fold l StringSet.empty (fun set (orth,lemma,interp) ->
-    StringSet.add set (String.concat "\t" [orth;lemma;interp]))))
-
-let load_dict_as_set_full filename =
-  let l = load_tab_full filename in
-  List.sort compare (StringSet.to_list (Xlist.fold l StringSet.empty (fun set (orth,lemma,interp,cl,cl2) ->
-    StringSet.add set (String.concat "\t" [orth;lemma;interp;cl;cl2]))))
-
-let rec compare_dicts_rec file = function
-    [],[] -> ()
-  | [],b :: lb -> fprintf file "> %s\n" b; compare_dicts_rec file ([],lb)
-  | a :: la,[] -> fprintf file "< %s\n" a; compare_dicts_rec file (la,[])
-  | a :: la, b :: lb ->
-       if a = b then compare_dicts_rec file (la,lb) else
-       if a < b then (fprintf file "< %s\n" a; compare_dicts_rec file (la,b :: lb)) else
-       (fprintf file "> %s\n" b; compare_dicts_rec file (a :: la,lb))
-
-let compare_dicts path filename1 filename2 filename_out =
-  let dict1 = load_dict_as_set (path ^ filename1) in
-  let dict2 = load_dict_as_set (path ^ filename2) in
-  File.file_out filename_out (fun file ->
-    compare_dicts_rec file (dict1,dict2))
-
-let compare_dicts_full path filename1 filename2 filename_out =
-  let dict1 = load_dict_as_set_full (path ^ filename1) in
-  let dict2 = load_dict_as_set_full (path ^ filename2) in
-  File.file_out filename_out (fun file ->
-    compare_dicts_rec file (dict1,dict2))
-
-(* Porównanie wersji słowników *)
-let _ =
-(*   compare_dicts_full morfeusz_path sgjp_filename2015 sgjp_filename "results/comparition_sgjp_full.out"; *)
-(*   compare_dicts_full morfeusz_path polimorf_filename2015 polimorf_filename "results/comparition_polimorf_full.out"; *)
-(*   compare_dicts morfeusz_path sgjp_filename2015 sgjp_filename "results/comparition_sgjp.out"; *)
-  ()
-
-let split_dict path filename =
-  let dict = load_tab (path ^ filename) in
-  File.file_out (path ^ "noun_" ^ filename) (fun noun_file ->
-  File.file_out (path ^ "adj_" ^ filename) (fun adj_file ->
-  File.file_out (path ^ "adv_" ^ filename) (fun adv_file ->
-  File.file_out (path ^ "verb_" ^ filename) (fun verb_file ->
-  File.file_out (path ^ "other_" ^ filename) (fun other_file ->
-  Xlist.iter dict (fun (orth,lemma,interp) ->
-    let cat,tags = match Xstring.split ":" interp with
-        cat :: tags -> cat,tags
-      | _ -> failwith ("split_dict: " ^ interp) in
-    if cat = "subst" || cat = "depr" then
-      fprintf noun_file "%s\t%s\t%s\n" orth lemma interp else
-    if cat = "adj" || cat = "adja"|| cat = "adjc"|| cat = "adjp" then
-      fprintf adj_file "%s\t%s\t%s\n" orth lemma interp else
-    if cat = "adv" then
-      fprintf adv_file "%s\t%s\t%s\n" orth lemma interp else
-    if cat = "inf" || cat = "praet"|| cat = "fin" || cat = "ppas" || cat = "pact" || cat = "pacta" ||
-       cat = "impt" || cat = "imps" || cat = "pcon" || cat = "pant" || cat = "ger" || cat = "" then
-      fprintf verb_file "%s\t%s\t%s\n" orth lemma interp else
-    if cat = "bedzie" || cat = "pred"|| cat = "prep" || cat = "num" || cat = "aglt" || cat = "winien" ||
-       cat = "qub" || cat = "brev" || cat = "comp" || cat = "interj" || cat = "burk" || cat = "conj" || cat = "ppron12" || cat = "ppron3" || cat = "" then
-      fprintf other_file "%s\t%s\t%s\n" orth lemma interp else
-    if cat = "cond" then () else
-    print_endline cat))))))
-
-
-(* Podział słownika *)
-let _ =
-(*   split_dict morfeusz_path sgjp_filename; *)
-  ()
  
 let map_of_tab data =
   Xlist.fold data StringMap.empty (fun map (orth,lemma,interp) ->
@@ -294,128 +386,7 @@ let _ =
   ()
  
 (**********************************************************************************)
-
-let kolwiek_lemmas = StringSet.of_list [
-  (* adj *)
-  "czyjkolwiek"; "czyjś"; "czyjże"; "jakiciś"; "jakikolwiek"; "jakisi"; "jakiś"; "jakiści";
-  "jakiściś"; "jakiśkolwiek"; "jakiż"; "jakiżkolwiek"; "jakowyś"; "kijże"; "kiż"; "którykolwiek";
-  "któryś"; "któryż"; "któryżkolwiek"; "niejakiś"; "takiż"; "takowyż"; "tenże"; "tyliż"; "ówże";
-  (* noun *)
-  "cokolwiek:s"; "cośkolwiek"; "cóżkolwiek"; "ktokolwiek"; "ktośkolwiek"; "któżkolwiek";
-  "cociś"; "cosi"; "cosik"; "cosiś"; "coś:s"; "cościś"; "coże"; "cóż";
-  "ktoś:s2"; "któż";
-  (* adv *)
-  "jakkolwiek"; "jakoś"; "małoż"; "niejakkolwiek"; "niejakoś"; (*"niemalże";*) ]
-
-let kolwiek_suffixes = [
-  "żkolwiek"; "żekolwiek"; "śkolwiek"; "kolwiek"; "ż"; "że"; "ściś"; "ciś"; "ś"; "ści"; "sik"; "si"]
-
-let find_kolwiek_suffixes morfs =
-  StringMap.mapi morfs (fun lemma interps ->
-    if StringSet.mem kolwiek_lemmas lemma then
-      Xlist.map interps (fun (orth,interp) ->
-          (Xlist.fold kolwiek_suffixes orth (fun orth kolwiek_suf ->
-          if Xstring.check_sufix kolwiek_suf orth then
-            Xstring.cut_sufix kolwiek_suf orth
-          else orth)), interp)
-    else interps)
-
-
-let exceptional_lemmata = StringSet.of_list ([
-  (* błąd w słowniku *)
-  "ówże";
-  (* wiele stemów *)
-  "twój:a"; "swój"; "mój:a"; "wszystek";
-  (* oboczności w stemie *)
-  "co:s"; "cociś"; "cokolwiek:s"; "cosi"; "cosik"; "cosiś"; "coś:s"; "cościś"; "cośkolwiek"; "coże"; "cóż"; "cóżkolwiek";
-  "kto"; "ktokolwiek"; "ktoś:s2"; "ktośkolwiek"; "któż"; "któżkolwiek"; "nikt"; "nic";
-  "Angel"; "Apollo"; "Białystok"; "Bober"; "Dzięgiel"; "Engel"; "Gołąb:s2"; "Gózd"; "Hendel"; "Herschel"; "Jastrząb";
-  "Kodrąb:s2"; "Kozioł"; "Krasnystaw"; "Majcher"; "Ob"; "Omulew"; "Orzeł"; "Różanystok"; "Schuster"; "Stępień"; "Słonim";
-  "Wielkanoc"; "achtel"; "archiprezbiter"; "arcydzięgiel"; "bedel"; "ber"; "białagłowa"; "białodrzew"; "ceter"; "deszcz";
-  "drama"; "dziób:s1"; "dzięgiel"; "dżemper"; "falafel"; "grubodziób"; "harbajtel"; "harbejtel"; "harmider"; "imćpan";
-  "iściec"; "jarząb:s2"; "kierdel"; "kimel"; "kiper:s1"; "klaster"; "kliper"; "kosodrzew"; "kureń"; "manczester";
-  "nadpiersień"; "osep"; "otrząs"; "pedel"; "piksel"; "podpiersień"; "podziem"; "prezbiter"; "protokół"; "przedpiersień";
-  "ratel"; "rondel:s2"; "rozpiór:s1"; "rozpiór:s2"; "rzeczpospolita"; "rzep:s2"; "rzepień"; "rzewień"; "rąb"; "sosrąb";
-  "srebrnodrzew"; "swąd"; "szmermel"; "szpiegierz"; "ulster"; "wab:s2"; "wermiszel"; "wilczełyko"; "woleoczko"; "włosień:s2";
-  "zew"; "złotogłów"; "świreń"; "źreb"; "żółtodziób";
-  "człowiek"; "półczłowiek"; "przedczłowiek"; "praczłowiek"; "nadczłowiek"; "git-człowiek"; ""; ""; ""; ""; ""; ""; ""; "";
-  "przechrzest"; "chrzest"; "półdziecko"; "roczek:s2"; "rok:s1"; "tydzień"; ""; ""; ""; ""; ""; "";
-  (* oboczności w odmianie *)
-  "niekażdy"; "każdy"; "niektóry:a"; "który"; "tenże"; "ten"; "tamten"; "kijże";
-  "ucho:s2"; "dziecko"; "oko:s2"; "imię"; "nozdrze";
-  "ZHR"; "WAT"; "VAT"; "PAT"; "FAT"; "DAT"; "PAGART"; "PIT:s2"; "PIT:s1"; "OIT:s2"; "OIT:s1"; "CIT";
-  "NOT"; "LOT"; "KRRiT"; ""; ""; ""; ""; ""; ""; ""; ""; "";
-  "być"; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
-  ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
-  (* pozostawione *)
-  "czyjże"; "czyjś"; "czyjkolwiek"; "kiż"; "ów"; "ow"; "on:a"; "ki";
-  "Pia"; "jo-jo"; "+lecie"; "";
-  "zagrząźć"; "zrzeć";
-  (* niepełny paradygmat *)
-  "zróść"; "zląc"; "zaróść"; "zaprząc"; "zaprzysiąc"; "zanieść:v2"; "zaląc"; "wzróść"; "wyróść"; "wyprząc"; "wyprzysiąc";
-  "róść"; "sprzysiąc"; "sprząc"; "ugrząźć"; "uląc"; "upiec:v2"; "uprząc"; "uróść"; "wieść:v2"; "wprząc"; "wróść"; "wyląc";
-  "powieść:v2"; "posiąc"; "przeląc"; "przeprząc"; "przeróść"; "przyprząc"; "przysiąc"; "przyróść"; "prząc"; "pójść:v2"; "rozprząc"; "rozróść";
-  "krzywoprzysiąc"; "ląc"; "naróść"; "obróść"; "odprzysiąc"; "odprząc"; "odróść"; "oprzysiąc"; "podróść"; "pogrząźć"; "poprzysiąc"; "poróść";
-  "dojść:v2"; "doprząc"; "doróść"; "dosiąc"; "grząźć"; "iść:v2";
-  (* wiele stemów *)
-  "uwlec"; "wewlec"; "wlec"; "wwlec"; "wywlec"; "wyżec"; "zawlec"; "zażec"; "zewlec"; "zwlec"; "zżec"; "żec";
-  "podwlec"; "podżec"; "powlec:v1"; "powlec:v2"; "przeoblec"; "przewlec"; "przeżec"; "przyoblec"; "przywlec"; "przyżec"; "rozwlec"; "rozżec";
-  "dowlec"; "nawlec"; "oblec:v2"; "obwlec"; "odwlec"; "owlec"; "zeżreć";
-  (* inne *)
-  "liźć"; "iść:v1"; "wyniść"; "wynijść"; "wyjść"; "wniść"; "wnijść"; "wejść"; "ujść"; "rozejść"; "pójść:v1"; "przyjść"; "przejść:v2"; "przejść:v1"; "podejść"; "odejść"; "obejść:v2"; "obejść:v1"; "najść:v2"; "najść:v1"; "nadejść"; "dojść:v1";
-  "roztworzyć:v2"; "przetworzyć:v2"; "otworzyć";
-  "zsiąść:v2"; "zsiąść:v1"; "zesiąść"; "zasiąść"; "wysiąść"; "współposiąść"; "wsiąść"; "usiąść"; "siąść"; "rozsiąść"; "przysiąść"; "przesiąść"; "powsiąść"; "posiąść"; "podsiąść"; "osiąść"; "obsiąść"; "nasiąść"; "dosiąść";
-  "źreć:v1"; "zniść"; "znijść"; "znajść"; "zejść"; "zejść"; "zajść:v2"; "zajść:v1"; "wzniść"; "wznijść"; "wzejść"
 (*
-   "moi"; "twoi";
-  (*"AIDS"; "BGŻ"; "BWZ"; "BZ";*) (*"Bandtkie";*) (*"CRZZ"; "FPŻ";*) (*"Jokai"; "Jókai"; "Linde";*)(* "MSZ"; "MWGzZ"; *)
-  (*"NSZ"; "OPZZ";*) "Radetzky"; "Tagore"; (*"UNZ"; "URz"; "WBZ"; "ZSZ"; "ZWZ"; "ZZ";*) "aids";
-  "arcyksiężna"; "cornflakes"; "księżna"; (*"scrabble";*) "sms"; "teścina";
-  "Wielkanoc"; "białagłowa"; "rzeczpospolita"; "imćpan";
-  "Ob"; "podziem"; "Pia"; "woleoczko"; "wilczełyko"; "jo-jo"; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
-  "Omulew"; "drama"; (*"Kayah";*) "ratel"; "grubodziób"; "rozpiór:s1"; "ceter"; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
-  "DJ"; "FIFA"; (*"manicure"; "Greenpeace"; "Google";*) ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
-  "włosień:s2"; "deszcz"; "falafel"; "Krasnystaw";
-  "Różanystok"; "Białystok"; "ZHR"; "rzep:s2"; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
-  "IKEA"; "makao"; "macao"; "kakao"; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
-  "dziecko"; "oko:s2"; "ucho:s2"; "półdziecko"; "b-cia"; ""; ""; ""; ""; ""; ""; ""; ""; "";
-  "idea"; "ręka"; "cześć:s"; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
-  "ABBA"; "UEFA"; "FAMA"; "SABENA"; "MENA"; "APA"; "NASA"; "ANSA";
-  "NAFTA"; "LETTA"; "ETA"; "ELTA"; "EFTA"; "CEFTA";
-  "WAT"; "VAT"; "PAT"; "FAT"; "DAT"; "PAGART";
-  "PIT:s2"; "PIT:s1"; "OIT:s2"; "OIT:s1"; "CIT"; "NOT"; "LOT"; "KRRiT";
-  "człowiek"; "półczłowiek"; "przedczłowiek"; "praczłowiek"; "nadczłowiek"; "git-człowiek"; ""; ""; ""; ""; ""; ""; ""; "";
-  "szwa"; "hawanna"; "butaforia"; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
-  "Skopie"; "Mathea"; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
-  "poema:s1"; "klima:s1"; "dylema"; "dilemma"; "apoftegma"; "aksjoma"; ""; ""; ""; ""; ""; ""; ""; "";
-  "burgrabia"; "gograbia"; "grabia"; "hrabia"; "margrabia"; "murgrabia"; "sędzia:s1"; "wicehrabia"; "współsędzia";
-  "cieśla"; "bibliopola"; "świszczypałka"; "śwircałka"; "świerczałka"; "ścierciałka"; "tatka"; "sługa:s1"; "stupajka:s1"; "stepka"; "starowinka:s2"; "skurczypałka"; "mężczyzna"; "klecha";
-  ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
-  ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
-  ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";
-  ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; ""; "";*)
-  ] @ File.load_lines "data/obce.tab" @ File.load_lines "data/validated_adj.tab" @ File.load_lines "data/validated_noun.tab" @ File.load_lines "data/validated_verb.tab" @ File.load_lines "data/adv_nieodprzymiotnikowe.tab")
-
-let remove_exceptional_lemmata dict =
-  StringMap.fold dict StringMap.empty (fun dict lemma interps ->
-    if StringSet.mem exceptional_lemmata lemma then dict
-    else StringMap.add dict lemma interps)
-
-let check_stem_generation stem_sel path filename =
-  let dict = load_tab (path ^ filename) in
-  let dict = map_of_tab dict in
-  let dict = remove_exceptional_lemmata dict in
-  let dict = find_kolwiek_suffixes dict in
-  StringMap.iter dict (fun lemma forms ->
-    (* let _ = Stem.generate_stem stem_sel lemma forms in FIXME*)
-    ())
-
-(* Sprawdzenie działania stemowania *)
-let _ =
-(*   check_stem_generation Stem.adj_stem_sel morfeusz_path ("odm_adj_" ^ sgjp_filename);  *)
-(*   check_stem_generation Stem.noun_stem_sel morfeusz_path ("odm_noun_" ^ sgjp_filename); *)
-  ()
-
 let remove_com_sup dict =
   List.rev (Xlist.fold dict [] (fun l (orth,lemma,interp) ->
     if Xstring.check_sufix ":com" interp || Xstring.check_sufix ":sup" interp then l else (orth,lemma,interp) :: l))
@@ -470,19 +441,6 @@ let generate_adj_com_rules path filename adj_com_rules_filename =
       StringMap.iter rules2 (fun rule (q,l) ->
         fprintf file "\t%s\t# %d %s\n" rule q (String.concat " " l))))
  
-let find_validated_lemata_adj_pos dict =
-  let dict = map_of_tab dict in
-  StringMap.fold dict [] (fun lemmata lemma forms ->
-    if Rules.validate_entry lemma forms then lemma :: lemmata else lemmata)
-
-let find_validated_lemata_adj path filename =
-  let interp_sel = load_interp_sel "data/interps.tab" in
-  let dict = load_tab (path ^ filename) in
-  let dict = split_into_groups interp_sel dict in
-  if StringMap.size dict <> 3 then failwith ("generate_adj_rules: " ^
-    String.concat " " (StringMap.fold dict [] (fun l s _ -> s :: l))) else
-  find_validated_lemata_adj_pos (StringMap.find dict "adj")
-
 let generate_adv_pos_rules rules_filename dict =
   let dict = map_of_tab dict in
   let dict = find_kolwiek_suffixes dict in
@@ -575,12 +533,6 @@ let generate_verb_rules path filename rules_filename =
   generate_verb_rules2 rules_filename (StringMap.find dict "verb");
   ()
  
-let find_validated_lemata_noun path filename =
-  let dict = load_tab (path ^ filename) in
-  let dict = map_of_tab dict in
-  StringMap.fold dict [] (fun lemmata lemma forms ->
-    if Rules.validate_entry lemma forms then lemma :: lemmata else lemmata)
-
 let find_tags_lemata_noun path filename =
   let dict = load_tab (path ^ filename) in
   let dict = map_of_tab dict in
@@ -591,19 +543,6 @@ let find_tags_lemata_noun path filename =
         String.concat " " (Xlist.map l (fun (k,v) -> k ^ "=" ^ v))
         )))))
  
-let find_validated_lemata_verb2 dict =
-  let dict = map_of_tab dict in
-  StringMap.fold dict [] (fun lemmata lemma forms ->
-    if Rules.validate_entry lemma forms then lemma :: lemmata else lemmata)
-
-let find_validated_lemata_verb path filename =
-  let interp_sel = load_interp_sel "data/interps.tab" in
-  let dict = load_tab (path ^ filename) in
-  let dict = split_into_groups interp_sel dict in
-  if StringMap.size dict <> 2 then failwith ("generate_verb_rules: " ^
-    String.concat " " (StringMap.fold dict [] (fun l s _ -> s :: l))) else
-  find_validated_lemata_verb2 (StringMap.find dict "verb")
-
 let find_tags_lemata_verb2 dict =
   let dict = map_of_tab dict in
   StringMap.iter dict (fun lemma forms ->
@@ -632,15 +571,6 @@ let _ =
   ()
  
 let _ =
-(*   let l = find_validated_lemata_adj morfeusz_path ("odm_adj_" ^ sgjp_filename) in *)
-(*   let l = find_validated_lemata_noun morfeusz_path ("odm_noun_" ^ sgjp_filename) in *)
-(*    let l = find_validated_lemata_verb morfeusz_path ("verb_" ^ sgjp_filename) in  *)
-(*    let l = find_validated_lemata_noun "data/" "nouns_ex.tab" in  *)
-(*       let l = find_validated_lemata_verb "data/" "verbs_ex.tab" in     *)
-(*       Xlist.iter l print_endline;          *)
-  ()
-
-let _ =
 (*   find_tags_lemata_verb "data/" "verbs_ex.tab"; *)
 (*  find_tags_lemata_noun "data/" "nouns_ex.tab"; *)
   ()
@@ -649,23 +579,6 @@ let _ =
 (*   Rules.print "results/rules/"; *)
   (* Rules.print_compound_rules "results/compounds.dic" (Rules.create_rules ()); *)
   ()
-(* FIXME
-let find_not_parsed_entries path filename out_filename =
-  let rules = Rules.create_char_trees (Rules.create_rules ()) in
-  (* let interp_sel = load_interp_sel "data/interps.tab" in *)
-  let dict = load_tab (path ^ filename) in
-  let not_parsed = Xlist.fold dict [] (fun not_parsed (orth,lemma,interp) ->
-    (* printf "E %s\t%s\t%s\n" orth lemma interp; *)
-    let simple_lemma = Rules.simplify_lemma lemma in
-    let forms = Rules.CharTrees.find rules orth in
-    (* printf "S %d\n" (Xlist.size forms); *)
-    let forms = Xlist.fold forms [] (fun forms (stem,rule) ->
-      (* printf "R %s\t%s\n" stem (Rules.string_of_rule rule); *)
-      if stem ^ rule.Rules.set = simple_lemma then (stem,rule) :: forms else forms) in
-    if forms = [] then (orth,lemma,interp) :: not_parsed else not_parsed) in
-  File.file_out out_filename (fun file ->
-    Xlist.iter not_parsed (fun (orth,lemma,interp) ->
-      fprintf file "%s\t%s\t%s\n" orth lemma interp))
  
 let interp_rule_string tags interp =
   let tags = Xlist.sort tags compare_tag in
@@ -699,14 +612,9 @@ let print_interp_rules con_flag group_flag lemma_flag path filename out_filename
       else interp_rules)) in
   File.file_out out_filename (fun file ->
     StringMap.iter interp_rules (fun k (q,l) ->
-      fprintf file "\t%s\t# %d %s\n" k q (String.concat " " l))) *)
+      fprintf file "\t%s\t# %d %s\n" k q (String.concat " " l)))
  
 let _ =
-  (* find_not_parsed_entries morfeusz_path ("odm_adj_" ^ sgjp_filename) "results/not_parsed_odm_adj.tab"; *)
-  (* find_not_parsed_entries "results/" "not_parsed_odm_adj.tab" "results/not_parsed_odm_adj2.tab"; *)
-  (* find_not_parsed_entries morfeusz_path ("odm_noun_" ^ sgjp_filename) "results/not_parsed_odm_noun.tab"; *)
-  (* find_not_parsed_entries morfeusz_path ("adv_" ^ sgjp_filename) "results/not_parsed_adv.tab";*)
-  (* find_not_parsed_entries morfeusz_path ("verb_" ^ sgjp_filename) "results/not_parsed_verb.tab"; *)
   (* print_interp_rules true true true morfeusz_path ("odm_adj_" ^ sgjp_filename) "results/interp_rules_odm_adj.tab"; *)
   (* print_interp_rules false true true morfeusz_path ("odm_adj_" ^ sgjp_filename) "results/interp_rules_odm_adj2.tab"; *)
   (* print_interp_rules true true true morfeusz_path ("adv_" ^ sgjp_filename) "results/interp_rules_adv.tab"; *)
@@ -715,78 +623,4 @@ let _ =
   (* print_interp_rules true true true morfeusz_path ("odm_noun_" ^ sgjp_filename) "results/interp_rules_odm_noun.tab";
   print_interp_rules true true false morfeusz_path ("odm_noun_" ^ sgjp_filename) "results/interp_rules_odm_noun2.tab"; *)
   ()
-
-(***
-let expand_tags tags =
-  if tags = "" then [] else
-  List.flatten (Xlist.map (Xstring.split "|" tags) (fun tags ->
-    let tags = Xlist.map (Xstring.split ":" tags) (Xstring.split "\\.") in
-    Xlist.map (Xlist.multiply_list tags) (String.concat ":")))
-
-let prepare_rules l =
-  Xlist.fold l [] (fun rules rule_set_name ->
-    let rule_set = StringMap.find rule_map rule_set_name in
-    Xlist.fold rule_set rules (fun rules (alternation_name, sufix, tags) ->
-      let alternation = StringMap.find alternation_map alternation_name in
-      Xlist.fold alternation rules (fun rules (a,b) ->
-        (a ^ sufix, b, expand_tags tags) :: rules)))
-
-let prepare_rules_simple l =
-  Xlist.fold l [] (fun rules rule_set_name ->
-    let rule_set = StringMap.find rule_map rule_set_name in
-    Xlist.fold rule_set rules (fun rules (alternation_name, sufix, tags) ->
-      let alternation = StringMap.find alternation_map alternation_name in
-      Xlist.fold alternation rules (fun rules (a,b) ->
-        (a ^ sufix, b, [tags]) :: rules)))
-
-let rules_adj_flex = prepare_rules_simple ["ADJ-FLEX"]
-let rules_adj_lemma = prepare_rules ["ADJ-LEMMA"]
-
-let rules_a = prepare_rules ["NOUN-FLEX-GENERAL";"NOUN-FLEX-A"]
-let rules_noun_as_adj = prepare_rules ["NOUN-FLEX-GENERAL";"NOUN-ADJ-FLEX"]
-let rules_noun_lemma = prepare_rules ["NOUN-LEMMA"]
-
-let is_applicable_rule (a,_,_) s = check_sufix a s
-
-let apply_rule (a,b,_) s =
-  (cut_sufix a s) ^ b
-
-let match_interp (_,_,l) s =
-  Xlist.mem l s
-
-let get_interps (_,_,l) = l
-
-let apply_rules rules s =
-  Xlist.fold rules [] (fun l rule ->
-    if is_applicable_rule rule s then
-      (apply_rule rule s, get_interps rule) :: l
-    else l)
-
-let check_inflexion rules stem interps =
-  StringMap.fold interps true (fun b interp orths ->
-    Xlist.fold orths b (fun b orth ->
-      let c = Xlist.fold rules false (fun c rule ->
-        if is_applicable_rule rule orth && match_interp rule interp then
-          if apply_rule rule orth = stem then true else c
-        else c) in
-      if c then b else false))
-
-let has_known_inflexion_noun stem interps =
-  let b1 = check_inflexion rules_a stem interps in
-  let b2 = check_inflexion rules_noun_as_adj stem interps in
-  b1 || b2
-
-let has_known_inflexion_adj stem interps =
-  let b = check_inflexion rules_adj_flex stem interps in
-  b
-
-let select_inflexion rules stem interps =
-  StringMap.fold interps StringMap.empty (fun interps interp orths ->
-    let orths = Xlist.fold orths [] (fun orths orth ->
-      let c = Xlist.fold rules false (fun c rule ->
-        if is_applicable_rule rule orth && match_interp rule interp then
-          if apply_rule rule orth = stem then true else c
-        else c) in
-      if c then orths else orth :: orths) in
-    if orths = [] then interps else StringMap.add interps interp orths)
-***)
+*)
@@ -6,7 +6,7 @@ OCAMLFLAGS=$(INCLUDES) -g
 OCAMLOPTFLAGS=$(INCLUDES) unix.cmxa xml-light.cmxa str.cmxa nums.cmxa xlib.cmxa
  
 all:
-	$(OCAMLOPT) -o generate $(OCAMLOPTFLAGS) rules.ml stem.ml ruleGenerator.ml generate.ml
+	$(OCAMLOPT) -o generate $(OCAMLOPTFLAGS) types.ml rules.ml stem.ml ruleGenerator.ml dict.ml generate.ml
  
 lib:
 	$(OCAMLOPT) -linkall -a -o inflexion.cmxa $(INCLUDES) $(MODS3)
 open Xstd
 open Printf
+open Types
  
 let alternation_map = Rules.alternation_map
  
@@ -163,13 +164,13 @@ let generate_rule stem stem_pref orth =
   let c,f = rule_code (a,b) in
   if f then "\t" ^ c else sprintf "%s\t%s\t%s" c a b
  
-let rec classify_entry lemma stem forms = function
+let rec classify_entry entry = function
     (class_interp,suf,cl) :: class_sel ->
-       let l = Xlist.fold forms [] (fun l (orth,interp) ->
-         if interp = class_interp then orth :: l else l) in
+       let l = Xlist.fold entry.forms [] (fun l form ->
+         if form.interp = class_interp then form.orth :: l else l) in
        let b = Xlist.fold l false (fun b orth ->
          if Xstring.check_sufix suf orth then true else b) in
-       if b then cl else classify_entry lemma stem forms class_sel
+       if b then cl else classify_entry entry class_sel
 (*       let l = StringSet.to_list (Xlist.fold l StringSet.empty (fun set orth ->
          if check_prefix stem orth then
            StringSet.add set (cut_prefix stem orth)
@@ -210,25 +211,21 @@ let entry_classes =
    "subst:sg:nom:n2","um","UM";
   ]
  
-let generate_rules_entry cat rules lemma forms =
-  let stem = Stem.generate_stem cat lemma forms in
-  let stem_pref = Stem.cut_stem_sufix stem in
-  let cl = classify_entry lemma stem forms entry_classes in
-  let forms = Rules.select_not_validated lemma forms in
-  Xlist.fold forms rules (fun rules (orth,interp) ->
-    let rule = cl ^ "\t" ^ generate_rule stem stem_pref orth in
-    let rules2 = try StringMap.find rules interp with Not_found -> StringMap.empty in
-    let rules2 = StringMap.add_inc rules2 rule (1,[lemma]) (fun (q,l) -> q+1, if q < 20 then lemma :: l else l) in
-    StringMap.add rules interp rules2)
+let generate_rules_entry rules entry =
+  let stem_pref = Stem.cut_stem_sufix entry.stem in
+  let cl = classify_entry entry entry_classes in
+  Xlist.fold entry.forms rules (fun rules form ->
+    let rule = cl ^ "\t" ^ generate_rule entry.stem stem_pref form.orth in
+    let rules2 = try StringMap.find rules form.interp with Not_found -> StringMap.empty in
+    let rules2 = StringMap.add_inc rules2 rule (1,[entry.lemma]) (fun (q,l) -> q+1, if q < 20 then entry.lemma :: l else l) in
+    StringMap.add rules form.interp rules2)
  
-let generate_rules_com_entry cat rules lemma forms =
-  let stem = Stem.generate_stem cat lemma forms in
-  let stem_pref = Stem.cut_stem_sufix stem in
-(*   let cl = classify_entry lemma stem forms entry_classes in   *)
-  let forms = Rules.select_not_validated lemma forms in
-  Xlist.fold forms rules (fun rules (orth,interp) ->
-    if not (Xstring.check_sufix ":com" interp) then rules else
-    let rule = "\t" ^ generate_rule stem stem_pref orth in
-    let rules2 = try StringMap.find rules interp with Not_found -> StringMap.empty in
-    let rules2 = StringMap.add_inc rules2 rule (1,[lemma]) (fun (q,l) -> q+1, if q < 20 then lemma :: l else l) in
-    StringMap.add rules interp rules2)
+let generate_rules_com_entry rules entry =
+  let stem_pref = Stem.cut_stem_sufix entry.stem in
+(*   let cl = classify_entry entry entry_classes in   *)
+  Xlist.fold entry.forms rules (fun rules form ->
+    if not (Xstring.check_sufix ":com" form.interp) then rules else
+    let rule = "\t" ^ generate_rule entry.stem stem_pref form.orth in
+    let rules2 = try StringMap.find rules form.interp with Not_found -> StringMap.empty in
+    let rules2 = StringMap.add_inc rules2 rule (1,[entry.lemma]) (fun (q,l) -> q+1, if q < 20 then entry.lemma :: l else l) in
+    StringMap.add rules form.interp rules2)
@@ -282,7 +282,7 @@ let interp_compound_rule_trees = CharTrees.create interp_compound_rules
 (**********************************************************************************************)
 (**********************************************************************************************)
  
-let rec select_tag tag rev = function
+(* let rec select_tag tag rev = function
     [] -> "", rev
   | (k,v) :: l -> if k = tag then v, rev @ l else select_tag tag ((k,v) :: rev) l
  
@@ -375,4 +375,4 @@ let string_of_rule rule =
 let print_compound_rules filename rules =
   File.file_out filename (fun file ->
     Xlist.iter rules (fun rule ->
-      fprintf file "%s\n" (string_of_rule rule)))
+      fprintf file "%s\n" (string_of_rule rule))) *)
 open Xstd
 open Printf
+open Types
  
 (* Zakładam, że zbiór form należy do jednego leksemu *)
  
@@ -120,18 +121,18 @@ let simplify_lemma s =
   | [s;_] -> s
   | _ -> failwith "simplify_lemma"
  
-let generate_stem cat lemma forms =
-  let orth = simplify_lemma lemma in
-  let lemma_stem_sel = try StringMap.find lemma_stem_sel cat with Not_found -> [] in
+let generate_stem entry =
+  let orth = simplify_lemma entry.lemma in
+  let lemma_stem_sel = try StringMap.find lemma_stem_sel entry.cat with Not_found -> [] in
   let stems = Xlist.fold lemma_stem_sel StringMap.empty (fun stems sel ->
       if is_applicable_sel sel orth then
         StringMap.add_inc stems (apply_sel sel orth) (get_priority sel) (fun priority -> min priority (get_priority sel))
       else stems) in
-  let stems2 = Xlist.fold forms StringMap.empty (fun stems (orth,interp) ->
-    let sels = try StringMap.find stem_sel interp with Not_found -> [] in
+  let stems2 = Xlist.fold entry.forms StringMap.empty (fun stems form ->
+    let sels = try StringMap.find stem_sel form.interp with Not_found -> [] in
     Xlist.fold sels stems (fun stems sel ->
-      if is_applicable_sel sel orth then
-        StringMap.add_inc stems (apply_sel sel orth) (get_priority sel) (fun priority -> min priority (get_priority sel))
+      if is_applicable_sel sel form.orth then
+        StringMap.add_inc stems (apply_sel sel form.orth) (get_priority sel) (fun priority -> min priority (get_priority sel))
       else stems)) in
   let stems = if StringMap.is_empty stems then stems2 else stems in
   let stems,_ = StringMap.fold stems ([],max_int) (fun (stems,priority) stem p ->
@@ -139,12 +140,12 @@ let generate_stem cat lemma forms =
     if p > priority then stems,priority else
     stem :: stems, priority) in
   match stems with
-    [] -> (*print_endline ("stem not found for " ^ lemma);
-          Xlist.iter forms (fun (orth,interp) -> printf "  %s\t%s\n" orth interp);*)
+    [] -> (*print_endline ("stem not found for " ^ entry.lemma);
+          Xlist.iter entry.forms (fun (form.orth,form.interp) -> printf "  %s\t%s\n" form.orth form.interp);*)
           ""
   | [s] -> s
-  | l -> print_endline ("many stems found for " ^ lemma ^ ": " ^ String.concat " " l); ""
-         (*printf "\"%s\"; " lemma; ""*)
+  | l -> print_endline ("many stems found for " ^ entry.lemma ^ ": " ^ String.concat " " l); ""
+         (*printf "\"%s\"; " entry.lemma; ""*)
  
 let rec merge_digraph = function
     [] -> []
@@ -164,13 +165,6 @@ let rec merge_digraph = function
   | "q" :: "u" :: l -> "qu" :: (merge_digraph l)
   | s :: l -> s :: (merge_digraph l)
  
-(*let text_to_chars s =
-  (try UTF8.validate s with UTF8.Malformed_code -> failwith ("Invalid UTF8 string: " ^ s));
-  let r = ref [] in
-  UTF8.iter (fun c ->
-    r := (UTF8.init 1 (fun _ -> c)) :: (!r)) s;
-  merge_digraph (List.rev (!r))*)
-
 let cut_stem_sufix s =
   let l = Xunicode.utf8_chars_of_utf8_string (*text_to_chars*) s in
   let l = match List.rev l with
+type form = {orth: string; interp: string; freq: int; genre: string; validated: bool}
+type entry = {lemma: string; cat: string; forms: form list; proper_type: string; ndm: bool; stem: string}