Added closest resolve algorithm.

Bartłomiej Nitoń
1 parent cf3852f0
Showing 4 changed files with 39 additions and 43 deletions
conf.py
corneferencer/main.py
corneferencer/resolvers/constants.py
corneferencer/resolvers/resolve.py
@@ -12,9 +12,9 @@ W2V_SIZE = 50
 W2V_MODEL_NAME = 'w2v_allwiki_nkjpfull_50.model'
  
 # simple or siamese
-NEURAL_MODEL_ARCHITECTURE = 'siamese'
-NUMBER_OF_FEATURES = 625
-NEURAL_MODEL_NAME = 'weights_siamese_model.h5'
+NEURAL_MODEL_ARCHITECTURE = 'simple'
+NUMBER_OF_FEATURES = 1190
+NEURAL_MODEL_NAME = 'model_1190_features.h5'
  
 FREQ_LIST_NAME = 'base.lst'
 LEMMA2SYNONYMS_NAME = 'lemma2synonyms.map'
@@ -85,6 +85,8 @@ def process_file(inpath, outpath, informat, resolver, threshold):
             resolve.incremental(text, threshold)
         elif resolver == 'entity_based':
             resolve.entity_based(text, threshold)
+        elif resolver == 'closest':
+            resolve.closest(text, threshold)
         elif resolver == 'siamese':
             resolve.siamese(text, threshold)
         mmax.write(inpath, outpath, text)
 # -*- coding: utf-8 -*-
  
-RESOLVERS = ['entity_based', 'incremental', 'siamese']
+RESOLVERS = ['entity_based', 'incremental', 'closest', 'siamese']
  
 NOUN_TAGS = ['subst', 'ger', 'depr']
 PPRON_TAGS = ['ppron12', 'ppron3']
 import numpy
  
-from conf import NEURAL_MODEL#, THRESHOLD
+from conf import NEURAL_MODEL
 from corneferencer.resolvers import features
 from corneferencer.resolvers.vectors import get_pair_features, get_pair_vector
  
  
-# siamese resolve algorithm
-# def siamese(text):
-#     last_set_id = 0
-#     for i, ana in enumerate(text.mentions):
-#         if i > 0:
-#             best_prediction = 20.0
-#             best_ante = None
-#             for ante in text.mentions[:i]:
-#                 if not features.pair_intersect(ante, ana):
-#                     pair_features = get_pair_features(ante, ana)
-#
-#                     ante_vec = []
-#                     ante_vec.extend(ante.features)
-#                     ante_vec.extend(pair_features)
-#                     ante_sample = numpy.asarray([ante_vec], dtype=numpy.float32)
-#
-#                     ana_vec = []
-#                     ana_vec.extend(ana.features)
-#                     ana_vec.extend(pair_features)
-#                     ana_sample = numpy.asarray([ana_vec], dtype=numpy.float32)
-#
-#                     prediction = NEURAL_MODEL.predict([ante_sample, ana_sample])[0]
-#
-#                     print (ante.text, '--->', ana.text, '>>', prediction)
-#
-#                     if prediction < THRESHOLD and prediction < best_prediction:
-#                         best_prediction = prediction
-#                         best_ante = ante
-#             if best_ante is not None:
-#                 if best_ante.set:
-#                     ana.set = best_ante.set
-#                 else:
-#                     str_set_id = 'set_%d' % last_set_id
-#                     best_ante.set = str_set_id
-#                     ana.set = str_set_id
-#                     last_set_id += 1
-
-
 def siamese(text, threshold):
     last_set_id = 0
     for i, ana in enumerate(text.mentions):
@@ -152,3 +114,35 @@ def remove_singletons(sets):
     for s in sets:
         if len(s['mentions']) == 1:
             s['mentions'][0].set = ''
+
+
+# closest resolve algorithm
+def closest(text, threshold):
+    last_set_id = 0
+    for i, ana in enumerate(text.mentions):
+        if i > 0:
+            for ante in reversed(text.mentions[:i]):
+                if not features.pair_intersect(ante, ana):
+                    pair_features = get_pair_features(ante, ana)
+
+                    ante_vec = []
+                    ante_vec.extend(ante.features)
+                    ante_vec.extend(pair_features)
+                    ante_sample = numpy.asarray([ante_vec], dtype=numpy.float32)
+
+                    ana_vec = []
+                    ana_vec.extend(ana.features)
+                    ana_vec.extend(pair_features)
+                    ana_sample = numpy.asarray([ana_vec], dtype=numpy.float32)
+
+                    prediction = NEURAL_MODEL.predict([ante_sample, ana_sample])[0]
+
+                    if prediction > threshold:
+                        if ante.set:
+                            ana.set = ante.set
+                        else:
+                            str_set_id = 'set_%d' % last_set_id
+                            ante.set = str_set_id
+                            ana.set = str_set_id
+                            last_set_id += 1
+                        break