mark_potential_errors.py 19 KB

Edit Raw Blame History

#-*- coding:utf-8 -*-

import re
import sys
import time

import jsonpickle
import natsort

from operator import itemgetter

from django.core.management.base import BaseCommand
from multiservice.facade import Multiservice
from multiservice.facade.ttypes import *
from multiservice.types.ttypes import *
from thrift.transport import TSocket

from webapp.models import Meaning, MeaningStatus, Segment


PORT = 20000
HOST = 'test.multiservice.nlp.ipipan.waw.pl'

NOUN_TAGS = ['subst', 'ger', 'depr']
VERB_TAGS = ['pred', 'fin', 'praet', 'bedzie', 'inf', 'imps',
             'impt', 'winien', 'aglt']


class Command(BaseCommand):
    help = 'Mark potential errors in the database.'

    def handle(self, *args, **options):
        mark_potential_errors()


def mark_potential_errors():
    for meaning in Meaning.objects.all():
        expressions = meaning.expressions.filter(main_expression=None)
        for expression in expressions:
            if not missing_head(meaning, expression):
                head_is_not_nominal(meaning, expression)
                remove_kolega(meaning, expression)
                multiservice_checks(meaning, expression)
            first_word_is_prep(meaning, expression)
            first_word_is_verb(meaning, expression)
            contains_interp(meaning, expression)
            contains_owczesny(meaning, expression)
            contains_nazwisko(meaning, expression)
            contains_lub(meaning, expression)
            contains_itp(meaning, expression)
            contains_suspension_point(meaning, expression)
            contains_skrot(meaning, expression)
            contains_np(meaning, expression)
            starts_with_interp(meaning, expression)
            ends_with_interp(meaning, expression)


def missing_head(meaning, expression):
    is_missing = False
    try:
        expression.segments.get(is_head=True)
    except Segment.DoesNotExist:
        print (u'Missing head:', meaning, '---->', expression)
        if not meaning.status:
            meaning.comment = u'Brak głowy: %s' % expression.text
            meaning.status = MeaningStatus.objects.get(key='modify')
            meaning.save()
        elif meaning.status.key != 'ok':
            meaning.comment = u'%s\n\nBrak głowy: %s' % (meaning.comment, expression.text)
            meaning.save()
        is_missing = True
    return is_missing


def head_is_not_nominal(meaning, expression):
    head = expression.segments.get(is_head=True)
    if head.ctag not in NOUN_TAGS:
        print (u'Head is not nominal:', meaning, '---->', expression)
        if not meaning.status:
            meaning.comment = u'Głowa nie jest nominalna: %s --> %s' % (expression.text, head.orth)
            meaning.status = MeaningStatus.objects.get(key='check')
            meaning.save()
        elif meaning.status.key != 'ok':
            meaning.comment = u'%s\n\nGłowa nie jest nominalna: %s --> %s' % (meaning.comment,
                                                                            expression.text,
                                                                            head.orth)
            meaning.save()


def remove_kolega(meaning, expression):
    if expression.segments.get(is_head=True).base == 'kolega':
        print (u'Kolega:', meaning)
        if not meaning.status:
            meaning.comment = u'Głowa to "kolega": %s' % expression.text
            meaning.status = MeaningStatus.objects.get(key='check')
            meaning.save()
        elif meaning.status.key != 'ok':
            meaning.comment = u'%s\n\nGłowa to "kolega": %s' % (meaning.comment, expression.text)
            meaning.save()


def first_word_is_prep(meaning, expression):
    if expression.segments.order_by('position_in_expr')[0].ctag == 'prep':
        print (u'First word is prep:', meaning, '---->', expression)
        if not meaning.status:
            meaning.comment = u'Pierwsze słowo to przyimek: %s' % expression.text
            meaning.status = MeaningStatus.objects.get(key='check')
            meaning.save()
        elif meaning.status.key != 'ok':
            meaning.comment = u'%s\n\nPierwsze słowo to przyimek: %s' % (meaning.comment, expression.text)
            meaning.save()


def first_word_is_verb(meaning, expression):
    if expression.segments.order_by('position_in_expr')[0].ctag in VERB_TAGS:
        print (u'First word is verb:', meaning, '---->', expression)
        if not meaning.status:
            meaning.comment = u'Pierwsze słowo to czasownik: %s' % expression.text
            meaning.status = MeaningStatus.objects.get(key='check')
            meaning.save()
        elif meaning.status.key != 'ok':
            meaning.comment = u'%s\n\nPierwsze słowo to czasownik: %s' % (meaning.comment, expression.text)
            meaning.save()


def contains_interp(meaning, expression):
    if expression.segments.filter(ctag='interp').exclude(orth=',').exists():
        print (u'Contains interp:', meaning, '---->', expression)
        if not meaning.status:
            meaning.comment = u'Zawiera znak interpunkcyjny, nie przecinek: %s' % expression.text
            meaning.status = MeaningStatus.objects.get(key='check')
            meaning.save()
        elif meaning.status.key != 'ok':
            meaning.comment = u'%s\n\nZawiera znak interpunkcyjny, nie przecinek: %s' % (meaning.comment, expression.text)
            meaning.save()

# zamienic na "zawiera date"
# def contains_digit(meaning, expression):
#     _digits = re.compile('\d')
#     if _digits.search(expression.orth_text):
#         print (u'Contains digits:', meaning, '---->', expression)
#         if not meaning.status:
#             meaning.comment = u'Zawiera cyfrę: %s' % expression.text
#             meaning.status = MeaningStatus.objects.get(key='check')
#             meaning.save()
#         elif meaning.status.key != 'ok':
#             meaning.comment = u'%s\n\nZawiera cyfrę: %s' % (meaning.comment, expression.text)
#             meaning.save()


def contains_owczesny(meaning, expression):
    if expression.segments.filter(base='ówczesny').exists():
        print (u'Contains ówczesny:', meaning)
        if not meaning.status:
            meaning.comment = u'Zawiera słowo "ówczesny": %s' % expression.text
            meaning.status = MeaningStatus.objects.get(key='check')
            meaning.save()
        elif meaning.status.key != 'ok':
            meaning.comment = u'%s\n\nZawiera słowo "ówczesny": %s' % (meaning.comment, expression.text)
            meaning.save()


def contains_nazwisko(meaning, expression):
    if expression.segments.filter(base='nazwisko').exists():
        print (u'Contains nazwisko:', meaning)
        if not meaning.status:
            meaning.comment = u'Zawiera słowo "nazwisko": %s' % expression.text
            meaning.status = MeaningStatus.objects.get(key='check')
            meaning.save()
        elif meaning.status.key != 'ok':
            meaning.comment = u'%s\n\nZawiera słowo "nazwisko": %s' % (meaning.comment, expression.text)
            meaning.save()


def contains_lub(meaning, expression):
    if expression.segments.filter(orth='lub').exists():
        print (u'Contains lub:', meaning)
        if not meaning.status:
            meaning.comment = u'Zawiera słowo "lub": %s' % expression.text
            meaning.status = MeaningStatus.objects.get(key='check')
            meaning.save()
        elif meaning.status.key != 'ok':
            meaning.comment = u'%s\n\nZawiera słowo "lub": %s' % (meaning.comment, expression.text)
            meaning.save()


def contains_itp(meaning, expression):
    if expression.segments.filter(orth='itp').exists():
        print (u'Contains itp:', meaning)
        if not meaning.status:
            meaning.comment = u'Zawiera słowo "itp": %s' % expression.text
            meaning.status = MeaningStatus.objects.get(key='check')
            meaning.save()
        elif meaning.status.key != 'ok':
            meaning.comment = u'%s\n\nZawiera słowo "itp": %s' % (meaning.comment, expression.text)
            meaning.save()


def contains_suspension_point(meaning, expression):
    if '..' in expression.orth_text:
        print (u'Contains ...:', meaning)
        if not meaning.status:
            meaning.comment = u'Zawiera wielokropek: %s' % expression.text
            meaning.status = MeaningStatus.objects.get(key='check')
            meaning.save()
        elif meaning.status.key != 'ok':
            meaning.comment = u'%s\n\nZawiera wielokropek: %s' % (meaning.comment, expression.text)
            meaning.save()


def contains_skrot(meaning, expression):
    if expression.segments.filter(base='skrót').exists():
        print (u'Contains skrót:', meaning)
        if not meaning.status:
            meaning.comment = u'Zawiera słowo "skrót": %s' % expression.text
            meaning.status = MeaningStatus.objects.get(key='check')
            meaning.save()
        elif meaning.status.key != 'ok':
            meaning.comment = u'%s\n\nZawiera słowo "skrót": %s' % (meaning.comment, expression.text)
            meaning.save()


def contains_np(meaning, expression):
    if (expression.segments.filter(orth='np').exists() or
            expression.segments.filter(orth='Np').exists() or
            expression.segments.filter(orth='NP').exists()):
        print (u'Contains np:', meaning)
        if not meaning.status:
            meaning.comment = u'Zawiera słowo "np": %s' % expression.text
            meaning.status = MeaningStatus.objects.get(key='check')
            meaning.save()
        elif meaning.status.key != 'ok':
            meaning.comment = u'%s\n\nZawiera słowo "np": %s' % (meaning.comment, expression.text)
            meaning.save()


def starts_with_interp(meaning, expression):
    if expression.segments.order_by('position_in_expr')[0].ctag == 'interp':
        print (u'Interp at start:', meaning, '---->', expression)
        if not meaning.status:
            meaning.comment = u'Rozpoczyna się od znaku interpunkcyjnego: %s' % expression.text
            meaning.status = MeaningStatus.objects.get(key='check')
            meaning.save()
        elif meaning.status.key != 'ok':
            meaning.comment = u'%s\n\nRozpoczyna się od znaku interpunkcyjnego: %s' % (meaning.comment, expression.text)
            meaning.save()


def ends_with_interp(meaning, expression):
    if list(expression.segments.order_by('position_in_expr'))[-1].ctag == 'interp':
        print (u'Ends with interp:', meaning, '---->', expression)
        if not meaning.status:
            meaning.comment = u'Kończy się na znaku interpunkcyjnym: %s' % expression.text
            meaning.status = MeaningStatus.objects.get(key='check')
            meaning.save()
        elif meaning.status.key != 'ok':
            meaning.comment = u'%s\n\nKończy się na znaku interpunkcyjnym: %s' % (meaning.comment, expression.text)
            meaning.save()


def multiservice_checks(meaning, expression):
    process_chain = ['Concraft', 'Nerf', 'DependencyParser']
    expression_orth = expression.orth_text
    json_response = get_json_response(expression_orth, process_chain)

    forename_only(meaning, expression, json_response)
    head_marked_properly(meaning, expression, json_response)

    if expression.is_catchword:
        definition_structure(meaning, expression)


def get_json_response(expression, process_chain):
    transport, client = getThriftTransportAndClient(HOST, PORT)
    request = createRequest(expression, process_chain)
    jsonObj = None
    try:
        token = client.putObjectRequest(request)
        status = None
        while status not in [RequestStatus.DONE, RequestStatus.FAILED]:
            status = client.getRequestStatus(token)
            time.sleep(0.1)
        if status == RequestStatus.DONE:
            result = client.getResultObject(token)
            jsonStr = jsonpickle.encode(result, unpicklable=False)
            jsonObj = jsonpickle.decode(jsonStr)
        else:
            print (client.getException(token))
            sys.exit("Stopped loading data!")
    finally:
        transport.close()
        return jsonObj


def getThriftTransportAndClient(host, port):
    transport = TSocket.TSocket(host, port)
    try:
        transport = TTransport.TBufferedTransport(transport)
        protocol = TBinaryProtocol.TBinaryProtocol(transport)
        client = Multiservice.Client(protocol)
        transport.open()
        return (transport, client)
    except:
        transport.close()
        raise


def createRequest(text, serviceNames):
    ttext = TText(paragraphs=[TParagraph(text=chunk)
                              for chunk in re.split(r'\n\n+', text)])
    chain = [RequestPart(serviceName=name) for name in serviceNames]
    request = ObjectRequest(ttext, chain)
    return request


def forename_only(meaning, expression, json_response):
    if is_forename(expression, json_response):
        print (u'Is forename:', meaning)
        if not meaning.status:
            meaning.comment = u'Jest imieniem: %s' % expression.text
            meaning.status = MeaningStatus.objects.get(key='delete')
            meaning.save()
        elif meaning.status.key != 'ok':
            meaning.comment = u'%s\n\nJest imieniem: %s' % (meaning.comment, expression.text)
            meaning.save()


def is_forename(expression, json_response):
    for para in json_response['paragraphs']:
        for sent in para['sentences']:
            for ne in sent['names']:
                if (ne['subtype'] == 'forename' and
                            expression.orth_text.lower() == ne['orth'].lower()):
                    return True
    return False


def head_marked_properly(meaning, expression, json_response):
    tokens = get_tokens(json_response)
    root = get_root(tokens, json_response)
    if root['tok']['orth'].lower() != expression.segments.get(is_head=True).orth.lower():
        print (u'Head is not same as in dependency tree:', expression,
               u'dependency parser --> %s' % root['tok']['orth'],
               u'database --> %s' % expression.segments.get(is_head=True).orth)
        if not meaning.status:
            meaning.comment = u'Brak zgodności głów w wyrażeniu %s: ' \
                              u'parser zależnościowy --> %s, ' \
                              u'baza --> %s' % (expression.text,
                                                root['tok']['orth'],
                                                expression.segments.get(is_head=True).orth)
            meaning.status = MeaningStatus.objects.get(key='check')
            meaning.save()
        elif meaning.status.key != 'ok':
            meaning.comment = u'%s\n\n' \
                              u'Brak zgodności głów w wyrażeniu %s: ' \
                              u'parser zależnościowy --> %s, ' \
                              u'baza --> %s' % (meaning.comment,
                                                expression.text,
                                                root['tok']['orth'],
                                                expression.segments.get(is_head=True).orth)
            meaning.save()


def get_root(tokens, json_response):
    root = None
    for para in json_response['paragraphs']:
        for sent in para['sentences']:
            for link in sent['dependencyParse']:
                if link['label'] == 'root':
                    root = tokens[link['endTokenId']]
                    break
    return root


def definition_structure(meaning, catchword):
    process_chain = ['Concraft', 'DependencyParser']
    for definition in meaning.expressions.filter(main_expression=None).exclude(pk=catchword.pk):
        sentence = u'%s to %s.' % (definition.orth_text.capitalize(), catchword.orth_text)
        json_response = get_json_response(sentence, process_chain)
        if not is_definition(catchword, definition, json_response):
            print (u'Not a definition:', catchword, '-->', definition)
            if not meaning.status:
                meaning.comment = u'Nie jest definicją: %s' % sentence
                meaning.status = MeaningStatus.objects.get(key='check')
                meaning.save()
            elif meaning.status.key != 'ok':
                meaning.comment = u'%s\n\nNie jest definicją: %s' % (meaning.comment, sentence)
                meaning.save()


def is_definition(catchword, definition, json_response):
    tokens = get_tokens(json_response)
    root = get_root_and_add_links(tokens, json_response)
    if root['tok']['chosenInterpretation']['base'] != 'to' or root['tok']['chosenInterpretation']['ctag'] != 'pred':
        return False

    pd_head = get_pd_head(root)
    subj_head = get_subj_head(root)
    if not pd_head or not subj_head:
        return False

    pd_expr = get_subtree_expression(pd_head)
    subj_expr = get_subtree_expression(subj_head)

    pd_is_catchword = False
    pd_is_definition = False
    if (pd_expr.lower() == definition.orth_text.lower()):
        pd_is_definition = True
    elif (pd_expr.lower() == catchword.orth_text.lower()):
        pd_is_catchword = True

    subj_is_catchword = False
    subj_is_definition = False
    if (subj_expr.lower() == catchword.orth_text.lower()):
        subj_is_catchword = True

    if (subj_expr.lower() == definition.orth_text.lower()):
        subj_is_definition = True

    return ((pd_is_definition and subj_is_catchword) or
            (pd_is_catchword and subj_is_definition))


def get_tokens(json_response):
    tokens = {}
    for para in json_response['paragraphs']:
        for sent in para['sentences']:
            for tok in sent['tokens']:
                tokens[tok['id']] = {'tok': tok,
                                     'links': [],
                                     'root': False,
                                     'id': tok['id']}
    return tokens


def get_root_and_add_links(tokens, json_response):
    root = None
    for para in json_response['paragraphs']:
        for sent in para['sentences']:
            for link in sent['dependencyParse']:
                if link['label'] == 'root':
                    root = tokens[link['endTokenId']]
                else:
                    from_tok = tokens[link['startTokenId']]
                    from_tok['links'].append({'to': tokens[link['endTokenId']],
                                              'label': link['label']})
    return root


def get_pd_head(root):
    for link in root['links']:
        if link['label'] == 'pd':
            return link['to']
    return None


def get_subj_head(root):
    for link in root['links']:
        if link['label'] == 'subj':
            return link['to']
    return None


def get_subtree_expression(token):
    subtree_expression = ''

    subtree_tokens = get_subtree_tokens(token)
    subtree_tokens = natsort.natsorted(subtree_tokens, key=itemgetter('id'))

    for i, tok in enumerate(subtree_tokens):
        if i == 0 or tok['tok']['noPrecedingSpace'] == 'true':
            subtree_expression += tok['tok']['orth']
        else:
            subtree_expression += ' %s' % tok['tok']['orth']

    return subtree_expression


def get_subtree_tokens(token):
    subtree_tokens = []
    subtree_tokens.append(token)
    for link in token['links']:
        subtree_tokens.extend(get_subtree_tokens(link['to']))
    return subtree_tokens