ne i przygotowanie do walidacji tokenizacji

Wojciech Jaworski
1 parent 06c25d4e
Showing 2 changed files with 135 additions and 39 deletions
NKJP2/ENIAM_NKJP.ml
NKJP2/makefile
@@ -19,9 +19,9 @@
  
 open Xstd
  
-type id = {corref: string; prefix: string; suffix: string; numbers: int list}
+type id = {corref: string; prefix: string; suffix: string; suffix2: string; numbers: int list}
  
-let empty_id = {corref = ""; prefix = ""; suffix = ""; numbers = []}
+let empty_id = {corref = ""; prefix = ""; suffix = ""; suffix2 = ""; numbers = []}
  
 let parse_id id =
   (* if String.length s = 0 then empty_id else *)
@@ -30,14 +30,15 @@ let parse_id id =
       [corref;id] -> corref,id
     | [id] -> "",id
     | _ -> failwith ("parse_id 1: " ^ id) in
-  let prefix,id = match Xstring.split "_" id with
-      [prefix;id] -> prefix,id
+  let prefix,id,suffix2 = match Xstring.split "_" id with
+      [prefix;id] -> prefix,id,""
+    | [prefix;id;suffix2] -> prefix,id,suffix2
     | _ -> failwith ("parse_id 2: " ^ id) in
   let suffix,id = match Xstring.split "-" id with
       [id;suffix] -> suffix,id
     | _ -> failwith ("parse_id 3: " ^ id) in
   let numbers =  try Xlist.map (Xstring.split "\\." id) int_of_string with _ -> failwith ("parse_id 4: " ^ id) in
-  {corref=corref; prefix=prefix; suffix=suffix; numbers=numbers}
+  {corref=corref; prefix=prefix; suffix=suffix; suffix2=suffix2; numbers=numbers}
  
 let process_header_type typ =
   if Xstring.check_prefix "#typ_" typ then Xstring.cut_prefix "#typ_" typ
@@ -158,6 +159,59 @@ let load_morphosyntax path name =
         List.rev (Xlist.rev_map entries load_morph_entry)
     | _ -> failwith "load_morphosyntax"
  
+type named = {typ: string; orth: string; base: string; cert: string; subtype: string; derived: string*string; wheen: string; }
+
+let empty_named = {typ=""; orth=""; base=""; cert=""; subtype=""; derived="",""; wheen=""}
+
+let load_named_feature named = function
+    Xml.Element("f",["name","type"],[Xml.Element("symbol",["value",v],[])]) -> {named with typ=v}
+  | Xml.Element("f",["name","orth"],[Xml.Element("string",[],[Xml.PCData orth])]) -> {named with orth=orth}
+  | Xml.Element("f",["name","base"],[Xml.Element("string",[],[Xml.PCData base])]) -> {named with base=base}
+  | Xml.Element("f",["name","certainty"],[Xml.Element("symbol",["value",cert],[])]) -> {named with cert=cert}
+  | Xml.Element("f",["name","subtype"],[Xml.Element("symbol",["value",v],[])]) -> {named with subtype=v}
+  | Xml.Element("f",["name","derived"],[Xml.Element("fs",["type","derivation"],[
+      Xml.Element("f",["name","derivType"],[Xml.Element("symbol",["value",v],[])]);
+      Xml.Element("f",["name","derivedFrom"],[Xml.Element("string",[],[Xml.PCData from])])])]) -> {named with derived=(v,from)}
+  | Xml.Element("f",["name","derived"],[Xml.Element("fs",["type","derivation"],[
+      Xml.Element("f",["name","derivType"],[Xml.Element("symbol",["value",v],[])]);
+      Xml.Element("f",["name","derivedFrom"],[Xml.Element("string",[],[])])])]) -> {named with derived=(v,"")}
+  | Xml.Element("f",["name","when"],[Xml.Element("string",[],[Xml.PCData w])]) -> {named with wheen=w}
+  | Xml.Element("f",["name","when"],[Xml.Element("string",[],[])]) -> {named with wheen=""}
+  | Xml.Element("f",["name","comment"],[Xml.Element("string",[],[Xml.PCData base])]) -> named
+  | Xml.Element("f",["name","comment"],[Xml.Element("string",[],[])]) -> named
+  | xml -> failwith ("load_named_feature: " ^ Xml.to_string_fmt xml)
+
+let load_ptr = function
+  | Xml.Element("ptr",["target",target],[]) -> parse_id target
+  | xml -> failwith ("load_ptr: " ^ Xml.to_string_fmt xml)
+
+let load_named_token = function
+    Xml.Element("seg",["xml:id",id_seg],Xml.Element("fs",["type","named"],features) :: ptrs) ->
+      let named = Xlist.fold features empty_named load_named_feature in
+      let ptrs = Xlist.fold ptrs [] (fun ptrs xml -> load_ptr xml :: ptrs) in
+      parse_id id_seg,named,List.rev ptrs
+  | xml -> failwith ("load_named_token: " ^ Xml.to_string_fmt xml)
+
+let load_named_sentence = function
+    Xml.Element("s",["xml:id",id_s;"corresp",corresp],tokens) ->
+      parse_id corresp,parse_id id_s,List.rev (Xlist.rev_map tokens load_named_token)
+  | xml -> failwith ("load_morph_sentence: " ^ Xml.to_string_fmt xml)
+
+let load_named_entry = function
+    Xml.Element("p",["xml:id",id_p;"corresp",corresp],sentences) ->
+      parse_id corresp,parse_id id_p,List.rev (Xlist.rev_map sentences load_named_sentence)
+  | xml -> failwith ("load_morph_entry: " ^ Xml.to_string_fmt xml)
+
+let load_named path name =
+  try
+  match Xml.parse_file (path ^ name ^ "/ann_named.xml") with
+      Xml.Element("teiCorpus", _,[Xml.Element("xi:include",_,_);
+                   Xml.Element("TEI",[],[Xml.Element("xi:include",_,_);
+                     Xml.Element("text",["xml:lang","pl"],[Xml.Element("body",[],entries)])])]) ->
+        List.rev (Xlist.rev_map entries load_named_entry)
+    | _ -> failwith "load_morphosyntax"
+  with Xml.File_not_found _ -> []
+
 let parse_seg_corresp corresp =
   if not (Xstring.check_prefix "text.xml#string-range(" corresp) then failwith "parse_seg_corresp" else
   if not (Xstring.check_sufix ")" corresp) then failwith "parse_seg_corresp" else
@@ -216,7 +270,33 @@ let print_tokens tokens =
 let rec merge_sentences name id_p rev = function
     ({corref=""; prefix="segm"; numbers=[id_segm_p;id_segm_s]; suffix="s"},segm_tokens) :: segmentation,
     ({corref="ann_segmentation.xml"; prefix="segm"; numbers=[c_segm_p;c_segm_s]; suffix="s"},
-     {corref=""; prefix="morph"; numbers=[id_morph_p;id_morph_s]; suffix="s"},morph_tokens) :: morphosyntax ->
+     {corref=""; prefix="morph"; numbers=[id_morph_p;id_morph_s]; suffix="s"},morph_tokens) :: morphosyntax,
+    ({corref="ann_morphosyntax.xml"; prefix="morph"; numbers=[c_morph_p;c_morph_s]; suffix="s"},
+     {corref=""; prefix="named"; numbers=[id_named_p;id_named_s]; suffix="s"},named_tokens) :: named ->
+        (* if id_p <> id_segm_p then Printf.printf "merge_sentences inconsistent numbering: %s segm_%d-p segm_%d.%d-s\n" name id_p id_segm_p id_segm_s; *)
+        if id_segm_p <> c_segm_p || id_segm_p <> id_morph_p || id_segm_p <> c_morph_p || id_segm_p <> id_named_p then failwith "merge_sentences 2" else
+        if id_segm_s <> c_segm_s || c_segm_s <> id_morph_s || c_segm_s <> c_morph_s || c_segm_s <> id_named_s then failwith "merge_sentences 3" else
+        let tokens = merge_tokens name id_p [] (segm_tokens,morph_tokens) in
+        (* let _ = print_tokens tokens in *)
+        let id_s = string_of_int id_segm_p ^ "." ^ string_of_int id_segm_s in
+        if tokens = [] then failwith "merge_sentences 4" else
+        let id_div,id_ab,token = List.hd tokens in
+        let l = match split_sentences id_div id_ab [token] [] (List.tl tokens) with
+          [id_div,id_ab,tokens] -> [id_div,id_ab,id_s,tokens]
+        | [id_div1,id_ab1,tokens1;id_div2,id_ab2,tokens2] -> [id_div2,id_ab2,id_s^"b",tokens2;id_div1,id_ab1,id_s^"a",tokens1]
+        | [id_div1,id_ab1,tokens1;id_div2,id_ab2,tokens2;id_div3,id_ab3,tokens3] -> [id_div3,id_ab3,id_s^"c",tokens3;id_div2,id_ab2,id_s^"b",tokens2;id_div1,id_ab1,id_s^"a",tokens1]
+        | _ -> failwith (Printf.sprintf "merge_sentences 5: %s %d %d" name id_div id_ab) in
+        let named_tokens = Xlist.fold named_tokens [] (fun named_tokens (id,n,ptrs) ->
+          (StringSet.of_list (Xstring.split " " n.orth),id,n,ptrs) :: named_tokens) in
+        let l = Xlist.map l (fun (id_div,id_ab,id_s,tokens) ->
+          let orths = Xlist.fold tokens StringSet.empty (fun orths (_,_,_,orth,_,_,_) -> StringSet.add orths orth) in
+          let named_tokens = Xlist.fold named_tokens [] (fun named_tokens (n_orths,id,n,ptrs) ->
+            if StringSet.size (StringSet.intersection orths n_orths) = StringSet.size n_orths then (id,n,ptrs) :: named_tokens else named_tokens) in
+          id_div,id_ab,id_s,tokens,named_tokens) in
+        merge_sentences name id_p (l @ rev) (segmentation,morphosyntax,named)
+  | ({corref=""; prefix="segm"; numbers=[id_segm_p;id_segm_s]; suffix="s"},segm_tokens) :: segmentation,
+    ({corref="ann_segmentation.xml"; prefix="segm"; numbers=[c_segm_p;c_segm_s]; suffix="s"},
+     {corref=""; prefix="morph"; numbers=[id_morph_p;id_morph_s]; suffix="s"},morph_tokens) :: morphosyntax, [] ->
         (* if id_p <> id_segm_p then Printf.printf "merge_sentences inconsistent numbering: %s segm_%d-p segm_%d.%d-s\n" name id_p id_segm_p id_segm_s; *)
         if id_segm_p <> c_segm_p || id_segm_p <> id_morph_p then failwith "merge_sentences 2" else
         if id_segm_s <> c_segm_s || c_segm_s <> id_morph_s then failwith "merge_sentences 3" else
@@ -230,14 +310,15 @@ let rec merge_sentences name id_p rev = function
         | [id_div1,id_ab1,tokens1;id_div2,id_ab2,tokens2] -> [id_div2,id_ab2,id_s^"b",tokens2;id_div1,id_ab1,id_s^"a",tokens1]
         | [id_div1,id_ab1,tokens1;id_div2,id_ab2,tokens2;id_div3,id_ab3,tokens3] -> [id_div3,id_ab3,id_s^"c",tokens3;id_div2,id_ab2,id_s^"b",tokens2;id_div1,id_ab1,id_s^"a",tokens1]
         | _ -> failwith (Printf.sprintf "merge_sentences 5: %s %d %d" name id_div id_ab) in
-        merge_sentences name id_p (l @ rev) (segmentation,morphosyntax)
-  | [],[] -> List.rev rev
+        let l = Xlist.map l (fun (id_div,id_ab,id_s,tokens) -> id_div,id_ab,id_s,tokens,[]) in
+        merge_sentences name id_p (l @ rev) (segmentation,morphosyntax,[])
+  | [],[],[] -> List.rev rev
   | _ -> failwith "merge_sentences"
  
 let rec merge_paragraph id_div id_ab rev = function
-    (id_div2,id_ab2,id_s,tokens) :: sentences ->
-      if id_div <> id_div2 || id_ab <> id_ab2 then List.rev rev, (id_div2,id_ab2,id_s,tokens) :: sentences
-      else merge_paragraph id_div id_ab ((id_s,tokens) :: rev) sentences
+    (id_div2,id_ab2,id_s,tokens,named_tokens) :: sentences ->
+      if id_div <> id_div2 || id_ab <> id_ab2 then List.rev rev, (id_div2,id_ab2,id_s,tokens,named_tokens) :: sentences
+      else merge_paragraph id_div id_ab ((id_s,tokens,named_tokens) :: rev) sentences
   | [] -> List.rev rev, []
  
 let rec get_spaces n = function
@@ -252,7 +333,7 @@ let rec split_front rev n p =
 let match_tokens name id_p s sentences =
   let p = Xunicode.utf8_chars_of_utf8_string s in
   let len = Xlist.size p in
-  let i,p,sentences = Xlist.fold sentences (0,p,[]) (fun (i,p,sentences) (id_s,tokens) ->
+  let i,p,sentences = Xlist.fold sentences (0,p,[]) (fun (i,p,sentences) (id_s,tokens,named_tokens) ->
     let i,p,tokens = Xlist.fold tokens (i,p,[]) (fun (i,p,tokens) (beg,len,nps,orth,lemma,cat,interp) ->
       (* Printf.printf "match_tokens: %s %n i=%d beg=%d len=%d\n" name id_p i beg len; *)
       let no_spaces,p = get_spaces 0 p in
@@ -261,17 +342,17 @@ let match_tokens name id_p s sentences =
       let real_orth,p = split_front [] len p in
       if beg = i then i+len, p, (beg,len,no_spaces,String.concat "" real_orth,orth,lemma,cat,interp) :: tokens else
       failwith (Printf.sprintf "match_tokens 1: %s %n i=%d beg=%d len=%d" name id_p i beg len)) in
-    i,p,(id_s,List.rev tokens) :: sentences) in
+    i,p,(id_s,List.rev tokens,named_tokens) :: sentences) in
   let no_spaces,p = get_spaces 0 p in
   if i+no_spaces <> len then failwith (Printf.sprintf "match_tokens 2: %s %n i=%d len=%d p='%s'" name id_p i len (String.concat "" p))
   else List.rev sentences
  
 let rec merge_paragraphs name id_p rev = function
     ({corref=""; prefix="txt"; numbers=[id_div;id_ab]; suffix="ab"},paragraph) :: paragraphs,
-    (id_div2,id_ab2,id_s,tokens) :: sentences ->
+    (id_div2,id_ab2,id_s,tokens,named_tokens) :: sentences ->
        (* print_endline ("B " ^ string_of_int id_p ^ " " ^ string_of_int id_p ^ " " ^ paragraph); *)
        if id_div <> id_div2 && id_ab <> id_ab2 then failwith "merge_paragraphs 1" else
-       let l,sentences = merge_paragraph id_div id_ab [id_s,tokens] sentences in
+       let l,sentences = merge_paragraph id_div id_ab [id_s,tokens,named_tokens] sentences in
        (* Printf.printf "%d.%d: %s\n" id_div id_ab (String.concat " " (Xlist.map l fst)); *)
        let l =
          try match_tokens name id_p paragraph l
@@ -285,24 +366,50 @@ let rec merge_entries name rev = function
     ({corref="text.xml"; prefix="txt"; numbers=[c_div]; suffix="div"},
      {corref=""; prefix="segm"; numbers=[id_segm_p]; suffix="p"},segm_sentences) :: segmentation,
     ({corref="ann_segmentation.xml"; prefix="segm"; numbers=[c_segm_p]; suffix="p"},
-     {corref=""; prefix="morph"; numbers=[id_morph_p]; suffix="p"},morph_sentences) :: morphosyntax ->
+     {corref=""; prefix="morph"; numbers=[id_morph_p]; suffix="p"},morph_sentences) :: morphosyntax,
+    ({corref="ann_morphosyntax.xml"; prefix="morph"; numbers=[c_morph_p]; suffix="p"},
+     {corref=""; prefix="named"; numbers=[id_named_p]; suffix="p"},named_sentences) :: named ->
+        (* print_endline ("A " ^ string_of_int id_div); *)
+        if id_div <> c_div || c_div <> id_segm_p || id_segm_p <> c_segm_p ||
+           c_segm_p <> id_morph_p || id_morph_p <> c_morph_p || c_morph_p <> id_named_p then failwith "merge_entries 2" else
+        let sentences = merge_sentences name id_div [] (segm_sentences,morph_sentences,named_sentences) in
+        let paragraphs = merge_paragraphs name id_div [] (paragraphs,sentences) in
+        merge_entries name ((id_div,true,paragraphs) :: rev) (text,segmentation,morphosyntax,named)
+  | ({corref=""; prefix="txt"; numbers=[id_div]; suffix="div"},paragraphs) :: text,
+    ({corref="text.xml"; prefix="txt"; numbers=[c_div]; suffix="div"},
+     {corref=""; prefix="segm"; numbers=[id_segm_p]; suffix="p"},segm_sentences) :: segmentation,
+    ({corref="ann_segmentation.xml"; prefix="segm"; numbers=[c_segm_p]; suffix="p"},
+     {corref=""; prefix="morph"; numbers=[id_morph_p]; suffix="p"},morph_sentences) :: morphosyntax, [] ->
         (* print_endline ("A " ^ string_of_int id_div); *)
         if id_div <> c_div || c_div <> id_segm_p || id_segm_p <> c_segm_p || c_segm_p <> id_morph_p then failwith "merge_entries 2" else
-        let sentences = merge_sentences name id_div [] (segm_sentences,morph_sentences) in
+        let sentences = merge_sentences name id_div [] (segm_sentences,morph_sentences,[]) in
         let paragraphs = merge_paragraphs name id_div [] (paragraphs,sentences) in
-        merge_entries name ((id_div,paragraphs) :: rev) (text,segmentation,morphosyntax)
-  | [],[],[] -> List.rev rev
+        merge_entries name ((id_div,false,paragraphs) :: rev) (text,segmentation,morphosyntax,[])
+  | [],[],[],[] -> List.rev rev
   | _ -> failwith "merge_entries"
  
+let fold path s f =
+  let names = get_folders path in
+  Xlist.fold names s (fun s name ->
+    (* print_endline name; *)
+    if name = "030-2-000000012" then s else
+    let typ,channel = load_header path name in
+    let text = load_text path name in
+    let segmentation = load_segmentation path name in
+    let morphosyntax = load_morphosyntax path name in
+    let named = load_named path name in
+    let entries = merge_entries name [] (text,segmentation,morphosyntax,named) in
+    f s (name,typ,channel,entries))
+
 let nkjp_path = "../../NLP resources/NKJP-PodkorpusMilionowy-1.2/"
  
 let calculate_statistics stats typ channel entries =
-  Xlist.fold entries stats (fun stats (id_div,paragraphs) ->
+  Xlist.fold entries stats (fun stats (id_div,has_ne,paragraphs) ->
     Xlist.fold paragraphs stats (fun stats (paragraph,sentences) ->
-      Xlist.fold sentences stats (fun stats (id_s,tokens) ->
+      Xlist.fold sentences stats (fun stats (id_s,tokens,named_tokens) ->
         let bad_tokens = Xlist.fold tokens 0 (fun n (_,_,_,real_orth,orth,_,_,_) ->
           if real_orth = orth then n else n+1) in
-        let all_tokens = Xlist.size tokens in
+        (* let all_tokens = Xlist.size tokens in *)
         let s = Printf.sprintf "%s %s %d" typ channel bad_tokens in
         StringQMap.add stats s)))
  
@@ -310,22 +417,11 @@ let print_stats stats =
   StringQMap.iter stats (fun k v ->
     Printf.printf "%5d %s\n" v k)
  
-let _ =
-  let names = get_folders nkjp_path in
-  let stats = Xlist.fold names StringQMap.empty (fun stats name ->
-    (* print_endline name; *)
-    if name = "030-2-000000012" then stats else
-    let typ,channel = load_header nkjp_path name in
-    (* print_endline typ; *)
-    (* print_endline channel; *)
-    (* print_endline (typ ^ "\t" ^ channel); *)
-    let text = load_text nkjp_path name in
-    let segmentation = load_segmentation nkjp_path name in
-    let morphosyntax = load_morphosyntax nkjp_path name in
-    let entries = merge_entries name [] (text,segmentation,morphosyntax) in
+(* let _ =
+  let stats = fold nkjp_path StringQMap.empty (fun stats (name,typ,channel,entries) ->
     calculate_statistics stats typ channel entries) in
-  print_stats stats
-(*130-3-900001 - poprawione w korpusie*)
+  print_stats stats *)
+
 (*
 frekwencje typów:
     127 fakt
@@ -3,10 +3,10 @@ OCAMLOPT=ocamlopt
 OCAMLDEP=ocamldep
 INCLUDES=-I +xml-light -I +xlib -I +zip -I +bz2 -I +eniam
 OCAMLFLAGS=$(INCLUDES) -g
-OCAMLOPTFLAGS=$(INCLUDES) unix.cmxa xml-light.cmxa str.cmxa nums.cmxa zip.cmxa bz2.cmxa xlib.cmxa #eniam-tokenizer.cmxa eniam-morphology.cmxa eniam-subsyntax.cmxa
+OCAMLOPTFLAGS=$(INCLUDES) unix.cmxa xml-light.cmxa str.cmxa nums.cmxa zip.cmxa bz2.cmxa xlib.cmxa eniam-tokenizer.cmxa #eniam-morphology.cmxa eniam-subsyntax.cmxa
 INSTALLDIR=`ocamlc -where`/eniam
  
-SOURCES=ENIAM_NKJP.ml
+SOURCES=ENIAM_NKJP.ml validateTokenizer.ml
  
 all: $(SOURCES)
 	$(OCAMLOPT) -o test $(OCAMLOPTFLAGS) $^