Added 43 new features.

Bartłomiej Nitoń
1 parent 0f6eeffb
Showing 7 changed files with 468 additions and 34 deletions
conf.py
corneferencer/entities.py
corneferencer/inout/mmax.py
corneferencer/resolvers/constants.py
corneferencer/resolvers/features.py
corneferencer/resolvers/vectors.py
corneferencer/utils.py
 import os
  
-from gensim.models.word2vec import Word2Vec
+import utils
  
-from corneferencer.utils import initialize_neural_model, load_freq_list
+from gensim.models.word2vec import Word2Vec
  
  
 CONTEXT = 5
-THRESHOLD = 0.5
+THRESHOLD = 0.95
 RANDOM_WORD_VECTORS = True
 W2V_SIZE = 50
 W2V_MODEL_NAME = 'w2v_allwiki_nkjpfull_50.model'
  
-NUMBER_OF_FEATURES = 1147
-NEURAL_MODEL_NAME = 'model_1147_features.h5'
+NUMBER_OF_FEATURES = 1190
+NEURAL_MODEL_NAME = 'model_1190_features.h5'
  
 FREQ_LIST_NAME = 'base.lst'
+LEMMA2SYNONYMS_NAME = 'lemma2synonyms.map'
+LEMMA2HYPERNYMS_NAME = 'lemma2hypernyms.map'
+TITLE2LINKS_NAME = 'link.map'
+TITLE2REDIRECT_NAME = 'redirect.map'
+
  
 # do not change that
-W2V_MODEL_PATH = os.path.join(os.path.dirname(__file__), 'models', W2V_MODEL_NAME)
+MAIN_PATH = os.path.dirname(__file__)
+
+W2V_MODEL_PATH = os.path.join(MAIN_PATH, 'models', W2V_MODEL_NAME)
 W2V_MODEL = Word2Vec.load(W2V_MODEL_PATH)
  
-NEURAL_MODEL_PATH = os.path.join(os.path.dirname(__file__), 'models', NEURAL_MODEL_NAME)
-NEURAL_MODEL = initialize_neural_model(NUMBER_OF_FEATURES, NEURAL_MODEL_PATH)
+NEURAL_MODEL_PATH = os.path.join(MAIN_PATH, 'models', NEURAL_MODEL_NAME)
+NEURAL_MODEL = utils.initialize_neural_model(NUMBER_OF_FEATURES, NEURAL_MODEL_PATH)
+
+FREQ_LIST_PATH = os.path.join(MAIN_PATH, 'freq', FREQ_LIST_NAME)
+FREQ_LIST = utils.load_freq_list(FREQ_LIST_PATH)
+
+LEMMA2SYNONYMS_PATH = os.path.join(MAIN_PATH, 'wordnet', LEMMA2SYNONYMS_NAME)
+LEMMA2SYNONYMS = utils.load_one2many_map(LEMMA2SYNONYMS_PATH)
+
+LEMMA2HYPERNYMS_PATH = os.path.join(MAIN_PATH, 'wordnet', LEMMA2HYPERNYMS_NAME)
+LEMMA2HYPERNYMS = utils.load_one2many_map(LEMMA2HYPERNYMS_PATH)
+
+TITLE2LINKS_PATH = os.path.join(MAIN_PATH, 'wikipedia', TITLE2LINKS_NAME)
+TITLE2LINKS = utils.load_one2many_map(TITLE2LINKS_PATH)
  
-FREQ_LIST_PATH = os.path.join(os.path.dirname(__file__), 'freq', FREQ_LIST_NAME)
-FREQ_LIST = load_freq_list(FREQ_LIST_PATH)
+TITLE2REDIRECT_PATH = os.path.join(MAIN_PATH, 'wikipedia', TITLE2REDIRECT_NAME)
+TITLE2REDIRECT = utils.load_one2one_map(TITLE2REDIRECT_PATH)
@@ -19,7 +19,8 @@ class Mention:
     def __init__(self, mnt_id, text, lemmatized_text, words, span,
                  head_orth, head, dominant, node, prec_context,
                  follow_context, sentence, position_in_mentions,
-                 start_in_words, end_in_words, rarest, paragraph_id, sentence_id):
+                 start_in_words, end_in_words, rarest, paragraph_id, sentence_id,
+                 first_in_sentence, first_in_paragraph):
         self.id = mnt_id
         self.set = ''
         self.old_set = ''
@@ -37,7 +38,9 @@ class Mention:
         self.position_in_mentions = position_in_mentions
         self.start_in_words = start_in_words
         self.end_in_words = end_in_words
-        self.features = get_mention_features(self)
         self.rarest = rarest
         self.paragraph_id = paragraph_id
         self.sentence_id = sentence_id
+        self.first_in_sentence = first_in_sentence
+        self.first_in_paragraph = first_in_paragraph
+        self.features = get_mention_features(self)
@@ -39,7 +39,8 @@ def read_mentions(mentions_path, words_path):
  
         (prec_context, follow_context, sentence,
          mnt_start_position, mnt_end_position,
-         paragraph_id, sentence_id) = get_context(mention_words, words)
+         paragraph_id, sentence_id,
+         first_in_sentence, first_in_paragraph) = get_context(mention_words, words)
  
         head = get_head(head_orth, mention_words)
         mention = Mention(mnt_id=markable.attrib['id'],
@@ -59,7 +60,9 @@ def read_mentions(mentions_path, words_path):
                           end_in_words=mnt_end_position,
                           rarest=get_rarest_word(mention_words),
                           paragraph_id=paragraph_id,
-                          sentence_id=sentence_id)
+                          sentence_id=sentence_id,
+                          first_in_sentence=first_in_sentence,
+                          first_in_paragraph=first_in_paragraph)
         mentions.append(mention)
  
     return mentions
@@ -151,10 +154,16 @@ def get_context(mention_words, words):
     mnt_end_position = -1
     first_word = mention_words[0]
     last_word = mention_words[-1]
+    first_in_sentence = False
+    first_in_paragraph = False
     for idx, word in enumerate(words):
         if word['id'] == first_word['id']:
             prec_context = get_prec_context(idx, words)
             mnt_start_position = get_mention_start(first_word, words)
+            if idx == 0 or words[idx-1]['lastinsent']:
+                first_in_sentence = True
+            if idx == 0 or words[idx-1]['lastinpar']:
+                first_in_paragraph = True
         if word['id'] == last_word['id']:
             follow_context = get_follow_context(idx, words)
             sentence = get_sentence(idx, words)
@@ -164,7 +173,8 @@ def get_context(mention_words, words):
             sentence_id += 1
         if word['lastinpar']:
             paragraph_id += 1
-    return prec_context, follow_context, sentence, mnt_start_position, mnt_end_position, paragraph_id, sentence_id
+    return (prec_context, follow_context, sentence, mnt_start_position, mnt_end_position,
+            paragraph_id, sentence_id, first_in_sentence, first_in_paragraph)
  
  
 def get_prec_context(mention_start, words):
@@ -3,3 +3,10 @@ RESOLVERS = [&#39;entity_based&#39;, &#39;incremental&#39;]
 NOUN_TAGS = ['subst', 'ger', 'depr']
 PPRON_TAGS = ['ppron12', 'ppron3']
 ZERO_TAGS = ['fin', 'praet', 'bedzie', 'impt', 'winien', 'aglt']
+SIEBIE_TAGS = ['siebie']
+MASCULINE_TAGS = ['m1', 'm2', 'm3']
+
+FIRST_SECOND_PERSON = ['pri', 'sec']
+INDICATIVE_PRONS_BASES = [u'ten', u'ta', u'to', u'ci', u'te', u'tamten', u'tamta',
+                          u'tamto', u'tamci', u'tamte', u'ów', u'owa', u'owo', u'owi',
+                          u'owe']
+import math
 import numpy
 import random
+import re
  
-from conf import RANDOM_WORD_VECTORS, W2V_MODEL, W2V_SIZE
+import conf
 from corneferencer.resolvers import constants
  
  
@@ -10,63 +12,63 @@ def head_vec(mention):
     head_base = mention.head_orth
     if mention.head is not None:
         head_base = mention.head['base']
-    return list(get_wv(W2V_MODEL, head_base))
+    return list(get_wv(conf.W2V_MODEL, head_base))
  
  
 def first_word_vec(mention):
-    return list(get_wv(W2V_MODEL, mention.words[0]['base']))
+    return list(get_wv(conf.W2V_MODEL, mention.words[0]['base']))
  
  
 def last_word_vec(mention):
-    return list(get_wv(W2V_MODEL, mention.words[-1]['base']))
+    return list(get_wv(conf.W2V_MODEL, mention.words[-1]['base']))
  
  
 def first_after_vec(mention):
     if len(mention.follow_context) > 0:
-        vec = list(get_wv(W2V_MODEL, mention.follow_context[0]['base']))
+        vec = list(get_wv(conf.W2V_MODEL, mention.follow_context[0]['base']))
     else:
-        vec = [0.0] * W2V_SIZE
+        vec = [0.0] * conf.W2V_SIZE
     return vec
  
  
 def second_after_vec(mention):
     if len(mention.follow_context) > 1:
-        vec = list(get_wv(W2V_MODEL, mention.follow_context[1]['base']))
+        vec = list(get_wv(conf.W2V_MODEL, mention.follow_context[1]['base']))
     else:
-        vec = [0.0] * W2V_SIZE
+        vec = [0.0] * conf.W2V_SIZE
     return vec
  
  
 def first_before_vec(mention):
     if len(mention.prec_context) > 0:
-        vec = list(get_wv(W2V_MODEL, mention.prec_context[-1]['base']))
+        vec = list(get_wv(conf.W2V_MODEL, mention.prec_context[-1]['base']))
     else:
-        vec = [0.0] * W2V_SIZE
+        vec = [0.0] * conf.W2V_SIZE
     return vec
  
  
 def second_before_vec(mention):
     if len(mention.prec_context) > 1:
-        vec = list(get_wv(W2V_MODEL, mention.prec_context[-2]['base']))
+        vec = list(get_wv(conf.W2V_MODEL, mention.prec_context[-2]['base']))
     else:
-        vec = [0.0] * W2V_SIZE
+        vec = [0.0] * conf.W2V_SIZE
     return vec
  
  
 def preceding_context_vec(mention):
-    return list(get_context_vec(mention.prec_context, W2V_MODEL))
+    return list(get_context_vec(mention.prec_context, conf.W2V_MODEL))
  
  
 def following_context_vec(mention):
-    return list(get_context_vec(mention.follow_context, W2V_MODEL))
+    return list(get_context_vec(mention.follow_context, conf.W2V_MODEL))
  
  
 def mention_vec(mention):
-    return list(get_context_vec(mention.words, W2V_MODEL))
+    return list(get_context_vec(mention.words, conf.W2V_MODEL))
  
  
 def sentence_vec(mention):
-    return list(get_context_vec(mention.sentence, W2V_MODEL))
+    return list(get_context_vec(mention.sentence, conf.W2V_MODEL))
  
  
 def mention_type(mention):
@@ -84,6 +86,75 @@ def mention_type(mention):
     return type_vec
  
  
+def is_first_second_person(mention):
+    if mention.head['person'] in constants.FIRST_SECOND_PERSON:
+        return 1
+    return 0
+
+
+def is_demonstrative(mention):
+    if mention.words[0]['base'].lower() in constants.INDICATIVE_PRONS_BASES:
+        return 1
+    return 0
+
+
+def is_demonstrative_nominal(mention):
+    if is_demonstrative(mention) and mention.head['ctag'] in constants.NOUN_TAGS:
+        return 1
+    return 0
+
+
+def is_demonstrative_pronoun(mention):
+    if (is_demonstrative(mention) and
+            (mention.head['ctag'] in constants.PPRON_TAGS or mention.head['ctag'] in constants.ZERO_TAGS)):
+        return 1
+    return 0
+
+
+def is_refl_pronoun(mention):
+    if mention.head['ctag'] in constants.SIEBIE_TAGS:
+        return 1
+    return 0
+
+
+def is_first_in_sentence(mention):
+    if mention.first_in_sentence:
+        return 1
+    return 0
+
+
+def is_zero_or_pronoun(mention):
+    if mention.head['ctag'] in constants.PPRON_TAGS or mention.head['ctag'] in constants.ZERO_TAGS:
+        return 1
+    return 0
+
+
+def head_contains_digit(mention):
+    _digits = re.compile('\d')
+    if _digits.search(mention.head_orth):
+        return 1
+    return 0
+
+
+def mention_contains_digit(mention):
+    _digits = re.compile('\d')
+    if _digits.search(mention.text):
+        return 1
+    return 0
+
+
+def contains_letter(mention):
+    if any(c.isalpha() for c in mention.text):
+        return 1
+    return 0
+
+
+def post_modified(mention):
+    if mention.head['orth'] != mention.words[-1]['orth']:
+        return 1
+    return 0
+
+
 # pair features
 def distances_vec(ante, ana):
     vec = []
@@ -171,12 +242,207 @@ def same_sentence(ante, ana):
     return 0
  
  
+def neighbouring_sentence(ante, ana):
+    if ana.sentence_id - ante.sentence_id == 1:
+        return 1
+    return 0
+
+
+def cousin_sentence(ante, ana):
+    if ana.sentence_id - ante.sentence_id == 2:
+        return 1
+    return 0
+
+
+def distant_sentence(ante, ana):
+    if ana.sentence_id - ante.sentence_id > 2:
+        return 1
+    return 0
+
+
 def same_paragraph(ante, ana):
     if ante.paragraph_id == ana.paragraph_id:
         return 1
     return 0
  
  
+def flat_gender_agreement(ante, ana):
+    agr_vec = [0] * 3
+    if ante.head['gender'] == 'unk' or ana.head['gender'] == 'unk':
+        agr_vec[2] = 1
+    elif (ante.head['gender'] == ana.head['gender'] or
+              (ante.head['gender'] in constants.MASCULINE_TAGS and ana.head['gender'] in constants.MASCULINE_TAGS)):
+        agr_vec[0] = 1
+    else:
+        agr_vec[1] = 1
+    return agr_vec
+
+
+def left_match(ante, ana):
+    if (ante.text.lower().startswith(ana.text.lower()) or
+            ana.text.lower().startswith(ante.text.lower())):
+        return 1
+    return 0
+
+
+def right_match(ante, ana):
+    if (ante.text.lower().endswith(ana.text.lower()) or
+            ana.text.lower().endswith(ante.text.lower())):
+        return 1
+    return 0
+
+
+def abbrev2(ante, ana):
+    ante_abbrev = get_abbrev(ante)
+    ana_abbrev = get_abbrev(ana)
+    if ante.head_orth == ana_abbrev or ana.head_orth == ante_abbrev:
+        return 1
+    return 0
+
+
+def string_kernel(ante, ana):
+    s1 = ante.text
+    s2 = ana.text
+    return SK(s1, s2) / (math.sqrt(SK(s1, s1) * SK(s2, s2)))
+
+
+def head_string_kernel(ante, ana):
+    s1 = ante.head_orth
+    s2 = ana.head_orth
+    return SK(s1, s2) / (math.sqrt(SK(s1, s1) * SK(s2, s2)))
+
+
+def wordnet_synonyms(ante, ana):
+    ante_synonyms = set()
+    if ante.head['base'] in conf.LEMMA2SYNONYMS:
+        ante_synonyms = conf.LEMMA2SYNONYMS[ante.head['base']]
+
+    ana_synonyms = set()
+    if ana.head['base'] in conf.LEMMA2SYNONYMS:
+        ana_synonyms = conf.LEMMA2SYNONYMS[ana.head['base']]
+
+    if ana.head['base'] in ante_synonyms or ante.head['base'] in ana_synonyms:
+        return 1
+    return 0
+
+
+def wordnet_ana_is_hypernym(ante, ana):
+    ante_hypernyms = set()
+    if ante.head['base'] in conf.LEMMA2HYPERNYMS:
+        ante_hypernyms = conf.LEMMA2HYPERNYMS[ante.head['base']]
+
+    ana_hypernyms = set()
+    if ana.head['base'] in conf.LEMMA2HYPERNYMS:
+        ana_hypernyms = conf.LEMMA2HYPERNYMS[ana.head['base']]
+
+    if not ante_hypernyms or not ana_hypernyms:
+        return 0
+
+    if ana.head['base'] in ante_hypernyms:
+        return 1
+    return 0
+
+
+def wordnet_ante_is_hypernym(ante, ana):
+    ana_hypernyms = set()
+    if ana.head['base'] in conf.LEMMA2HYPERNYMS:
+        ana_hypernyms = conf.LEMMA2HYPERNYMS[ana.head['base']]
+
+    ante_hypernyms = set()
+    if ante.head['base'] in conf.LEMMA2HYPERNYMS:
+        ante_hypernyms = conf.LEMMA2HYPERNYMS[ante.head['base']]
+
+    if not ante_hypernyms or not ana_hypernyms:
+        return 0
+
+    if ante.head['base'] in ana_hypernyms:
+        return 1
+    return 0
+
+
+def wikipedia_link(ante, ana):
+    ante_base = ante.lemmatized_text.lower()
+    ana_base = ana.lemmatized_text.lower()
+    if ante_base == ana_base:
+        return 1
+
+    ante_links = set()
+    if ante_base in conf.TITLE2LINKS:
+        ante_links = conf.TITLE2LINKS[ante_base]
+
+    ana_links = set()
+    if ana_base in conf.TITLE2LINKS:
+        ana_links = conf.TITLE2LINKS[ana_base]
+
+    if ana_base in ante_links or ante_base in ana_links:
+        return 1
+
+    return 0
+
+
+def wikipedia_mutual_link(ante, ana):
+    ante_base = ante.lemmatized_text.lower()
+    ana_base = ana.lemmatized_text.lower()
+    if ante_base == ana_base:
+        return 1
+
+    ante_links = set()
+    if ante_base in conf.TITLE2LINKS:
+        ante_links = conf.TITLE2LINKS[ante_base]
+
+    ana_links = set()
+    if ana_base in conf.TITLE2LINKS:
+        ana_links = conf.TITLE2LINKS[ana_base]
+
+    if ana_base in ante_links and ante_base in ana_links:
+        return 1
+
+    return 0
+
+
+def wikipedia_redirect(ante, ana):
+    ante_base = ante.lemmatized_text.lower()
+    ana_base = ana.lemmatized_text.lower()
+    if ante_base == ana_base:
+        return 1
+
+    if ante_base in conf.TITLE2REDIRECT and conf.TITLE2REDIRECT[ante_base] == ana_base:
+        return 1
+
+    if ana_base in conf.TITLE2REDIRECT and conf.TITLE2REDIRECT[ana_base] == ante_base:
+        return 1
+
+    return 0
+
+
+def samesent_anapron_antefirstinpar(ante, ana):
+    if same_sentence(ante, ana) and is_zero_or_pronoun(ana) and ante.first_in_paragraph:
+        return 1
+    return 0
+
+
+def samesent_antefirstinpar_personnumbermatch(ante, ana):
+    if (same_sentence(ante, ana) and ante.first_in_paragraph
+        and agreement(ante, ana, 'number')[0] and agreement(ante, ana, 'person')[0]):
+        return 1
+    return 0
+
+
+def adjsent_anapron_adjmen_personnumbermatch(ante, ana):
+    if (neighbouring_sentence(ante, ana) and is_zero_or_pronoun(ana)
+        and ana.position_in_mentions - ante.position_in_mentions == 1
+        and agreement(ante, ana, 'number')[0] and agreement(ante, ana, 'person')[0]):
+        return 1
+    return 0
+
+
+def adjsent_anapron_adjmen(ante, ana):
+    if (neighbouring_sentence(ante, ana) and is_zero_or_pronoun(ana)
+        and ana.position_in_mentions - ante.position_in_mentions == 1):
+        return 1
+    return 0
+
+
 # supporting functions
 def get_wv(model, lemma, use_random_vec=True):
     vec = None
@@ -192,15 +458,15 @@ def get_wv(model, lemma, use_random_vec=True):
  
  
 def random_vec():
-    return numpy.asarray([random.uniform(-0.25, 0.25) for i in range(0, W2V_SIZE)], dtype=numpy.float32)
+    return numpy.asarray([random.uniform(-0.25, 0.25) for i in range(0, conf.W2V_SIZE)], dtype=numpy.float32)
  
  
 def get_context_vec(words, model):
-    vec = numpy.zeros(W2V_SIZE, dtype=numpy.float32)
+    vec = numpy.zeros(conf.W2V_SIZE, dtype=numpy.float32)
     unknown_count = 0
     if len(words) != 0:
         for word in words:
-            word_vec = get_wv(model, word['base'], RANDOM_WORD_VECTORS)
+            word_vec = get_wv(model, word['base'], conf.RANDOM_WORD_VECTORS)
             if word_vec is None:
                 unknown_count += 1
             else:
@@ -239,3 +505,65 @@ def check_one_way_acronym(acronym, expression):
     if acronym == initials:
         return 1
     return 0
+
+
+def get_abbrev(mention):
+    abbrev = u''
+    for word in mention.words:
+        if word['orth'][0].isupper():
+            abbrev += word['orth'][0]
+    return abbrev
+
+
+def SK(s1, s2):
+    LAMBDA = 0.4
+
+    p = len(s1)
+    if len(s2) < len(s1):
+        p = len(s2)
+
+    h, w = len(s1)+1, len(s2)+1
+    DPS = [[0.0] * w for i in range(h)]
+    DP = [[0.0] * w for i in range(h)]
+
+    kernel_mat = [0.0] * (len(s1) + 1)
+
+    for i in range(len(s1)+1):
+        if i == 0:
+            continue
+        for j in range(len(s2)+1):
+            if j == 0:
+                continue
+            if s1[i-1] == s2[j-1]:
+                DPS[i][j] = LAMBDA * LAMBDA
+                kernel_mat[0] += DPS[i][j]
+            else:
+                DPS[i][j] = 0.0
+
+    for l in range(p):
+        if l == 0:
+            continue
+
+        kernel_mat[l] = 0.0
+        for j in range(len(s2)+1):
+            DP[l-1][j] = 0.0
+
+        for i in range(len(s1)+1):
+            DP[i][l-1] = 0.0
+
+        for i in range(len(s1)+1):
+            if i < l:
+                continue
+            for j in range(len(s2)+1):
+                if j < l:
+                    continue
+                DP[i][j] = DPS[i][j] + LAMBDA * DP[i - 1][j] + LAMBDA * DP[i][j - 1] - LAMBDA * LAMBDA * DP[i - 1][j - 1]
+
+                if s1[i-1] == s2[j-1]:
+                    DPS[i][j] = LAMBDA * LAMBDA * DP[i - 1][j - 1]
+                    kernel_mat[l] += DPS[i][j]
+
+    K = 0.0
+    for l in range(p):
+        K += kernel_mat[l]
+    return K
@@ -27,6 +27,19 @@ def get_mention_features(mention):
     # cechy uzupelniajace
     vec.extend(features.mention_type(mention))
  
+    # cechy uzupelniajace 2
+    vec.append(features.is_first_second_person(mention))
+    vec.append(features.is_demonstrative(mention))
+    vec.append(features.is_demonstrative_nominal(mention))
+    vec.append(features.is_demonstrative_pronoun(mention))
+    vec.append(features.is_refl_pronoun(mention))
+    vec.append(features.is_first_in_sentence(mention))
+    vec.append(features.is_zero_or_pronoun(mention))
+    vec.append(features.head_contains_digit(mention))
+    vec.append(features.mention_contains_digit(mention))
+    vec.append(features.contains_letter(mention))
+    vec.append(features.post_modified(mention))
+
     return vec
  
  
@@ -46,4 +59,30 @@ def get_pair_features(ante, ana):
     vec.append(features.same_sentence(ante, ana))
     vec.append(features.same_paragraph(ante, ana))
  
+    # cechy uzupelniajace 2
+    vec.append(features.neighbouring_sentence(ante, ana))
+    vec.append(features.cousin_sentence(ante, ana))
+    vec.append(features.distant_sentence(ante, ana))
+    vec.extend(features.flat_gender_agreement(ante, ana))
+    vec.append(features.left_match(ante, ana))
+    vec.append(features.right_match(ante, ana))
+    vec.append(features.abbrev2(ante, ana))
+
+    vec.append(features.string_kernel(ante, ana))
+    vec.append(features.head_string_kernel(ante, ana))
+
+    vec.append(features.wordnet_synonyms(ante, ana))
+    vec.append(features.wordnet_ana_is_hypernym(ante, ana))
+    vec.append(features.wordnet_ante_is_hypernym(ante, ana))
+
+    vec.append(features.wikipedia_link(ante, ana))
+    vec.append(features.wikipedia_mutual_link(ante, ana))
+    vec.append(features.wikipedia_redirect(ante, ana))
+
+    # combined
+    vec.append(features.samesent_anapron_antefirstinpar(ante, ana))
+    vec.append(features.samesent_antefirstinpar_personnumbermatch(ante, ana))
+    vec.append(features.adjsent_anapron_adjmen_personnumbermatch(ante, ana))
+    vec.append(features.adjsent_anapron_adjmen(ante, ana))
+
     return vec
@@ -3,6 +3,8 @@ from __future__ import print_function
 import codecs
 import sys
  
+import javaobj
+
 from keras.models import Model
 from keras.layers import Input, Dense, Dropout, Activation, BatchNormalization
  
@@ -46,3 +48,29 @@ def load_freq_list(freq_path):
             if base not in freq_list:
                 freq_list[base] = freq
     return freq_list
+
+
+def load_one2many_map(map_path):
+    this_map = {}
+    marshaller = javaobj.JavaObjectUnmarshaller(open(map_path, 'rb'))
+    pobj = marshaller.readObject()
+    jmap_annotations = pobj.__dict__['annotations']
+    jmap_annotations_count = len(jmap_annotations)
+    for i in range(jmap_annotations_count):
+    	if i%2 == 1:
+    		mapped_elements = set(jmap_annotations[i+1].__dict__['annotations'])
+    		this_map[jmap_annotations[i]] = mapped_elements
+    return this_map
+
+
+def load_one2one_map(map_path):
+    this_map = {}
+    marshaller = javaobj.JavaObjectUnmarshaller(open(map_path, 'rb'))
+    pobj = marshaller.readObject()
+    jmap_annotations = pobj.__dict__['annotations']
+    jmap_annotations_count = len(jmap_annotations)
+    for i in range(jmap_annotations_count):
+    	if i%2 == 1:
+    		element = jmap_annotations[i+1]
+    		this_map[jmap_annotations[i]] = element
+    return this_map