Added 21 new features.

Bartłomiej Nitoń
1 parent ba27568f
Showing 8 changed files with 212 additions and 19 deletions
conf.py
corneferencer/entities.py
corneferencer/inout/mmax.py
corneferencer/resolvers/constants.py
corneferencer/resolvers/features.py
corneferencer/resolvers/resolve.py
corneferencer/resolvers/vectors.py
corneferencer/utils.py
@@ -2,7 +2,7 @@ import os
  
 from gensim.models.word2vec import Word2Vec
  
-from corneferencer.utils import initialize_neural_model
+from corneferencer.utils import initialize_neural_model, load_freq_list
  
  
 CONTEXT = 5
@@ -11,9 +11,10 @@ RANDOM_WORD_VECTORS = True
 W2V_SIZE = 50
 W2V_MODEL_NAME = 'w2v_allwiki_nkjpfull_50.model'
  
-NUMBER_OF_FEATURES = 1126
-NEURAL_MODEL_NAME = 'weights_2017_05_10.h5'
+NUMBER_OF_FEATURES = 1147
+NEURAL_MODEL_NAME = 'model_1147_features.h5'
  
+FREQ_LIST_NAME = 'base.lst'
  
 # do not change that
 W2V_MODEL_PATH = os.path.join(os.path.dirname(__file__), 'models', W2V_MODEL_NAME)
@@ -21,3 +22,6 @@ W2V_MODEL = Word2Vec.load(W2V_MODEL_PATH)
  
 NEURAL_MODEL_PATH = os.path.join(os.path.dirname(__file__), 'models', NEURAL_MODEL_NAME)
 NEURAL_MODEL = initialize_neural_model(NUMBER_OF_FEATURES, NEURAL_MODEL_PATH)
+
+FREQ_LIST_PATH = os.path.join(os.path.dirname(__file__), 'freq', FREQ_LIST_NAME)
+FREQ_LIST = load_freq_list(FREQ_LIST_PATH)
@@ -17,9 +17,9 @@ class Text:
 class Mention:
  
     def __init__(self, mnt_id, text, lemmatized_text, words, span,
-                 head_orth, head_base, dominant, node, prec_context,
+                 head_orth, head, dominant, node, prec_context,
                  follow_context, sentence, position_in_mentions,
-                 start_in_words, end_in_words):
+                 start_in_words, end_in_words, rarest, paragraph_id, sentence_id):
         self.id = mnt_id
         self.set = ''
         self.old_set = ''
@@ -28,7 +28,7 @@ class Mention:
         self.words = words
         self.span = span
         self.head_orth = head_orth
-        self.head_base = head_base
+        self.head = head
         self.dominant = dominant
         self.node = node
         self.prec_context = prec_context
@@ -38,3 +38,6 @@ class Mention:
         self.start_in_words = start_in_words
         self.end_in_words = end_in_words
         self.features = get_mention_features(self)
+        self.rarest = rarest
+        self.paragraph_id = paragraph_id
+        self.sentence_id = sentence_id
@@ -3,7 +3,7 @@ import shutil
  
 from lxml import etree
  
-from conf import CONTEXT
+from conf import CONTEXT, FREQ_LIST
 from corneferencer.entities import Mention, Text
  
  
@@ -38,16 +38,17 @@ def read_mentions(mentions_path, words_path):
         mention_words = span_to_words(span, words)
  
         (prec_context, follow_context, sentence,
-         mnt_start_position, mnt_end_position) = get_context(mention_words, words)
+         mnt_start_position, mnt_end_position,
+         paragraph_id, sentence_id) = get_context(mention_words, words)
  
-        head_base = get_head_base(head_orth, mention_words)
+        head = get_head(head_orth, mention_words)
         mention = Mention(mnt_id=markable.attrib['id'],
                           text=span_to_text(span, words, 'orth'),
                           lemmatized_text=span_to_text(span, words, 'base'),
                           words=mention_words,
                           span=span,
                           head_orth=head_orth,
-                          head_base=head_base,
+                          head=head,
                           dominant=dominant,
                           node=markable,
                           prec_context=prec_context,
@@ -55,7 +56,10 @@ def read_mentions(mentions_path, words_path):
                           sentence=sentence,
                           position_in_mentions=idx,
                           start_in_words=mnt_start_position,
-                          end_in_words=mnt_end_position)
+                          end_in_words=mnt_end_position,
+                          rarest=get_rarest_word(mention_words),
+                          paragraph_id=paragraph_id,
+                          sentence_id=sentence_id)
         mentions.append(mention)
  
     return mentions
@@ -71,12 +75,20 @@ def get_words(filepath):
         lastinsent = False
         if 'lastinsent' in word.attrib and word.attrib['lastinsent'] == 'true':
             lastinsent = True
+        lastinpar = False
+        if 'lastinpar' in word.attrib and word.attrib['lastinpar'] == 'true':
+            lastinpar = True
         words.append({'id': word.attrib['id'],
                       'orth': word.text,
                       'base': word.attrib['base'],
                       'hasnps': hasnps,
                       'lastinsent': lastinsent,
-                      'ctag': word.attrib['ctag']})
+                      'lastinpar': lastinpar,
+                      'ctag': word.attrib['ctag'],
+                      'msd': word.attrib['msd'],
+                      'gender': get_gender(word.attrib['msd']),
+                      'person': get_person(word.attrib['msd']),
+                      'number': get_number(word.attrib['msd'])})
     return words
  
  
@@ -130,6 +142,8 @@ def word_to_ignore(word):
  
  
 def get_context(mention_words, words):
+    paragraph_id = 0
+    sentence_id = 0
     prec_context = []
     follow_context = []
     sentence = []
@@ -146,7 +160,11 @@ def get_context(mention_words, words):
             sentence = get_sentence(idx, words)
             mnt_end_position = get_mention_end(last_word, words)
             break
-    return prec_context, follow_context, sentence, mnt_start_position, mnt_end_position
+        if word['lastinsent']:
+            sentence_id += 1
+        if word['lastinpar']:
+            paragraph_id += 1
+    return prec_context, follow_context, sentence, mnt_start_position, mnt_end_position, paragraph_id, sentence_id
  
  
 def get_prec_context(mention_start, words):
@@ -218,10 +236,10 @@ def get_sentence_end(words, word_idx):
     return len(words) - 1
  
  
-def get_head_base(head_orth, words):
+def get_head(head_orth, words):
     for word in words:
         if word['orth'].lower() == head_orth.lower() or word['orth'] == head_orth:
-            return word['base']
+            return word
     return None
  
  
@@ -272,6 +290,58 @@ def get_one_word_text(word_id, words, form):
     return this_word[form]
  
  
+def get_gender(msd):
+    tags = msd.split(':')
+    if 'm1' in tags:
+        return 'm1'
+    elif 'm2' in tags:
+        return 'm2'
+    elif 'm3' in tags:
+        return 'm3'
+    elif 'f' in tags:
+        return 'f'
+    elif 'n' in tags:
+        return 'n'
+    else:
+        return 'unk'
+
+
+def get_person(msd):
+    tags = msd.split(':')
+    if 'pri' in tags:
+        return 'pri'
+    elif 'sec' in tags:
+        return 'sec'
+    elif 'ter' in tags:
+        return 'ter'
+    else:
+        return 'unk'
+
+
+def get_number(msd):
+    tags = msd.split(':')
+    if 'sg' in tags:
+        return 'sg'
+    elif 'pl' in tags:
+        return 'pl'
+    else:
+        return 'unk'
+
+
+def get_rarest_word(words):
+    min_freq = 0
+    rarest_word = words[0]
+    for i, word in enumerate(words):
+        word_freq = 0
+        if word['base'] in FREQ_LIST:
+            word_freq = FREQ_LIST[word['base']]
+
+        if i == 0 or word_freq < min_freq:
+            min_freq = word_freq
+            rarest_word = word
+    return rarest_word
+
+
 def write(inpath, outpath, text):
     textname = os.path.splitext(os.path.basename(inpath))[0]
     intextdir = os.path.dirname(inpath)
 RESOLVERS = ['entity_based', 'incremental']
+
+NOUN_TAGS = ['subst', 'ger', 'depr']
+PPRON_TAGS = ['ppron12', 'ppron3']
+ZERO_TAGS = ['fin', 'praet', 'bedzie', 'impt', 'winien', 'aglt']
@@ -2,11 +2,12 @@ import numpy
 import random
  
 from conf import RANDOM_WORD_VECTORS, W2V_MODEL, W2V_SIZE
+from corneferencer.resolvers import constants
  
  
 # mention features
 def head_vec(mention):
-    return list(get_wv(W2V_MODEL, mention.head_base))
+    return list(get_wv(W2V_MODEL, mention.head['base']))
  
  
 def first_word_vec(mention):
@@ -65,6 +66,19 @@ def sentence_vec(mention):
     return list(get_context_vec(mention.sentence, W2V_MODEL))
  
  
+def mention_type(mention):
+    type_vec = [0] * 4
+    if mention.head['ctag'] in constants.NOUN_TAGS:
+        type_vec[0] = 1
+    elif mention.head['ctag'] in constants.PPRON_TAGS:
+        type_vec[1] = 1
+    elif mention.head['ctag'] in constants.ZERO_TAGS:
+        type_vec[2] = 1
+    else:
+        type_vec[3] = 1
+    return type_vec
+
+
 # pair features
 def distances_vec(ante, ana):
     vec = []
@@ -118,6 +132,45 @@ def base_match(ante, ana):
     return 0
  
  
+def ante_contains_rarest_from_ana(ante, ana):
+    ana_rarest = ana.rarest
+    for word in ante.words:
+        if word['base'] == ana_rarest['base']:
+            return 1
+    return 0
+
+
+def agreement(ante, ana, tag_name):
+    agr_vec = [0] * 3
+    if ante.head[tag_name] == 'unk' or ana.head[tag_name] == 'unk':
+        agr_vec[2] = 1
+    elif ante.head[tag_name] == ana.head[tag_name]:
+        agr_vec[0] = 1
+    else:
+        agr_vec[1] = 1
+    return agr_vec
+
+
+def is_acronym(ante, ana):
+    if ana.text.upper() == ana.text:
+        return check_one_way_acronym(ana.text, ante.text)
+    if ante.text.upper() == ante.text:
+        return check_one_way_acronym(ante.text, ana.text);
+    return 0;
+
+
+def same_sentence(ante, ana):
+    if ante.sentence_id == ana.sentence_id:
+        return 1
+    return 0
+
+
+def same_paragraph(ante, ana):
+    if ante.paragraph_id == ana.paragraph_id:
+        return 1
+    return 0
+
+
 # supporting functions
 def get_wv(model, lemma, use_random_vec=True):
     vec = None
@@ -168,3 +221,15 @@ def get_distance_bucket(distance):
     elif distance >= 64:
         return 9
     return 10
+
+
+def check_one_way_acronym(acronym, expression):
+    initials = u''
+    for expr1 in expression.split('-'):
+        for expr2 in expr1.split():
+            expr2 = expr2.strip()
+            if expr2:
+                initials += unicode(expr2[0]).upper()
+    if acronym == initials:
+        return 1;
+    return 0;
@@ -19,6 +19,9 @@ def incremental(text):
                     best_prediction = prediction
                     best_ante = ante
             if best_ante is not None:
+                # print ('wynik')
+                # print(best_ante.text, best_prediction, ana.text)
+                # print (best_ante.set, ana.set)
                 if best_ante.set:
                     ana.set = best_ante.set
                 else:
@@ -34,6 +37,7 @@ def entity_based(text):
     last_set_id = 0
     for i, ana in enumerate(text.mentions):
         if i > 0:
+            print ('!!!!!!!!!!%s!!!!!!!!!!!!' % ana.text)
             best_fit = get_best_set(sets, ana)
             if best_fit is not None:
                 ana.set = best_fit['set_id']
@@ -50,8 +54,14 @@ def entity_based(text):
                          'mentions': [ana]})
             ana.set = str_set_id
             last_set_id += 1
+        print (ana.set)
+        for ss in sets:
+            print (';;;'.join(['%s:%s' % (ss['set_id'], mnt.text) for mnt in ss['mentions']]))
  
     remove_singletons(sets)
+    print (';'.join([ss['set_id'] for ss in sets]))
+    for ss in sets:
+        print (';;;'.join(['%s:%s' % (ss['set_id'], mnt.text) for mnt in ss['mentions']]))
  
  
 def get_best_set(sets, ana):
@@ -72,6 +82,7 @@ def predict_set(mentions, ana):
         sample = numpy.asarray([pair_vec], dtype=numpy.float32)
         prediction = NEURAL_MODEL.predict(sample)[0]
         prediction_sum += prediction
+        print(mnt.text, prediction, ana.text)
     return prediction_sum / float(len(mentions))
  
  
@@ -23,6 +23,10 @@ def get_mention_features(mention):
     vec.extend(features.following_context_vec(mention))
     vec.extend(features.mention_vec(mention))
     vec.extend(features.sentence_vec(mention))
+
+    # cechy uzupelniajace
+    vec.extend(features.mention_type(mention))
+
     return vec
  
  
@@ -32,4 +36,14 @@ def get_pair_features(ante, ana):
     vec.append(features.head_match(ante, ana))
     vec.append(features.exact_match(ante, ana))
     vec.append(features.base_match(ante, ana))
+
+    # cechy uzupelniajace
+    vec.append(features.ante_contains_rarest_from_ana(ante, ana))
+    vec.extend(features.agreement(ante, ana, 'gender'))
+    vec.extend(features.agreement(ante, ana, 'number'))
+    vec.extend(features.agreement(ante, ana, 'person'))
+    vec.append(features.is_acronym(ante, ana))
+    vec.append(features.same_sentence(ante, ana))
+    vec.append(features.same_paragraph(ante, ana))
+
     return vec
 from __future__ import print_function
  
+import codecs
 import sys
  
 from keras.models import Model
@@ -12,15 +13,36 @@ def eprint(*args, **kwargs):
  
 def initialize_neural_model(number_of_features, path_to_model):
     inputs = Input(shape=(number_of_features,))
+
     output_from_1st_layer = Dense(1000, activation='relu')(inputs)
-    output_from_1st_layer = Dropout(0.5)(output_from_1st_layer)
+    output_from_1st_layer = Dropout(0.2)(output_from_1st_layer)
     output_from_1st_layer = BatchNormalization()(output_from_1st_layer)
+
     output_from_2nd_layer = Dense(500, activation='relu')(output_from_1st_layer)
-    output_from_2nd_layer = Dropout(0.5)(output_from_2nd_layer)
+    output_from_2nd_layer = Dropout(0.2)(output_from_2nd_layer)
     output_from_2nd_layer = BatchNormalization()(output_from_2nd_layer)
-    output = Dense(1, activation='sigmoid')(output_from_2nd_layer)
+
+    output_from_3rd_layer = Dense(300, activation='relu')(output_from_2nd_layer)
+    output_from_3rd_layer = Dropout(0.2)(output_from_3rd_layer)
+    output_from_3rd_layer = BatchNormalization()(output_from_3rd_layer)
+
+    output = Dense(1, activation='sigmoid')(output_from_3rd_layer)
  
     model = Model(inputs, output)
     model.compile(optimizer='Adam', loss='binary_crossentropy', metrics=['accuracy'])
     model.load_weights(path_to_model)
+
     return model
+
+
+def load_freq_list(freq_path):
+    freq_list = {}
+    with codecs.open(freq_path, 'r', 'utf-8') as freq_file:
+        lines = freq_file.readlines()
+        for line in lines:
+            line_parts = line.split()
+            freq = int(line_parts[0])
+            base = line_parts[1]
+            if base not in freq_list:
+                freq_list[base] = freq
+    return freq_list