Merge branch 'guesser' into integration

Wojciech Jaworski
2 parents 2667fa91 06d1a936
Showing 33 changed files with 508360 additions and 50 deletions
morphology/check_rule_compos.py
morphology/compare_morphosyn.py
morphology/compos_alt.py
morphology/data/interps_general.tab
morphology/doc/decyzje-scalanie.txt
morphology/doc/model.pdf
morphology/doc/model.tex
morphology/doc/multi_forms.txt
morphology/doc/prob_fsuf.txt
morphology/doc/prob_fsuf_cat.txt
morphology/doc/prob_itp_givencat.txt
morphology/doc/prob_lemmacat.txt
morphology/doc/przyklad.txt
morphology/doc/rules_productivity.txt
morphology/doc/rules_productivity_alt.txt
morphology/doc/rules_productivity_nalt.txt
morphology/doc/rules_productivity_nalt_root.txt
morphology/doc/traps.txt
morphology/freqListInterps.ml
morphology/freqProbs.ml
+# Blame Szymon Rutkowski - szymon@szymonrutkowski.pl - Oct 2016.
+# This file is intended to check the NKJP1M frequency list against rules derived from SGJP.
+# If you want to use this, review the end of this file (filenames, column structure) and run with python3.
+
+import re
+
+def load_rules_file(fname):
+    rule_list = []
+    contents = ''
+
+    with open(fname) as inp:
+        contents = inp.read()
+
+    contents = contents.split('\n')
+
+    for line in contents:
+        data = line.split('\t')
+        if len(data) != 7:
+            print('Skipped line in rules: '+line)
+        rule_list.append(tuple(data))
+
+    return rule_list
+
+def make_rules_table(rule_list):
+    "Given rule_list as list of tuples (name, freq, classification, prefix, suffix, stem ending, \
+    tag), create a dictionary: ending -> list of applicable rules, also as tuples. Indices are \
+    prefixes followed by - (hyphen) and suffixes preced by -, up to three characters; longer \
+    affixes are included in the lists for their outermost three-character parts. If both empty \
+    affixes are empty, rule gets listed under '-'."
+
+    rtable = dict()
+
+    for rl in rule_list:
+        if len(rl) != 7:
+            print("Skipped invalid rule: "+str(rl))
+            continue
+
+        index = '-'
+
+        if rl[3] != '':
+            index = rl[3] + '-'
+        elif rl[4] != '':
+            index = '-' + rl[4]
+
+        if len(index) > 4:
+            if index[0] == '-': # suffix
+                index = '-' + index[-3:]
+            else: # prefix
+                index = index[:3] + '-'
+        
+        if index in rtable:
+            rtable[index].append(rl)
+        else:
+            rtable[index] = [ rl ]
+
+    return rtable
+
+# just ripped from compare_morphosyn.py, guess it'll be better to keep those scripts self-contained
+# note that liberal_tagcomp is mainly suitable for checking NKJP against SGJP, when checking
+# a resource obeying more SJGP'ish tagging convention the strict_tagcomp will be better
+def strict_tagcomp(tag1, tag2):
+    tag1_items = tag1.split(':')
+    tag2_items = tag2.split(':')
+
+    if (tag1_items[0] != tag2_items[0] # POS
+            or len(tag1_items) != len(tag2_items)):
+        return False
+
+    for (i, item) in enumerate(tag1_items):
+        if not item in tag2_items[i].split('.'):
+            return False
+
+    return True
+
+def liberal_tagcomp(tag1, tag2):
+    tag1_items = tag1.split(':')
+    tag2_items = tag2.split(':')
+
+    if (tag1_items[0] != tag2_items[0] # POS
+            or len(tag1_items) != len(tag2_items)):
+        return False
+
+    for (i, item) in enumerate(tag1_items):
+        # remove tags n1, f1...
+        item = re.sub(r'(n1|n2|n3)', 'n', item)
+        model = re.sub(r'(n1|n2|n3|p2|p3)', 'n', tag2_items[i]).split('.')
+        if not item in model and model[0] != '_': # underscore as a catchall
+            return False
+
+    return True
+
+def is_recognizable(entry, rules_table):
+    "Check whether entry, given as triple (word_form, lemma, tags) is recognizable using \
+    rules_table as obtained from make_rules_table() function. Return the rule's class \
+    (third column, usually empty string)."
+
+    for chunk_size in range(3, -1, -1):
+        if len(entry[0]) < chunk_size:
+            continue
+
+        rule_candidates = []
+
+        pref_ind = entry[0][:chunk_size]+'-'
+        suf_ind = '-'+entry[0][-chunk_size:]
+        if pref_ind in rules_table:
+            rule_candidates += rules_table[ pref_ind ]
+        if suf_ind in rules_table:
+            rule_candidates += rules_table[ suf_ind ]
+
+        if len(rule_candidates) == 0:
+            continue
+        for rl in rule_candidates:
+            # check first the prefix and suffix (the above code just finds rules that are
+            # potentially relevant), and tag; then proceed to reconstructing the lemma
+            if (entry[0][:len(rl[3])] == rl[3] and
+                    # check for empty suffix, since string[-0:] returns the string unchanged
+                    (len(rl[4]) == 0 or entry[0][-len(rl[4]):] == rl[4]) and
+                    liberal_tagcomp(entry[2], rl[6])):
+                # trim the prefix and suffix, and glue the ending suggested by the rule;
+                # compare with the original lemma
+                if (entry[0][len(rl[3]):-len(rl[4])]+rl[5] == entry[1]
+                        # another corner case, str[:-0] would be ''
+                        or (len(rl[4]) == 0 and entry[0][len(rl[3]):]+rl[5] == entry[1])):
+                    return rl[2]
+
+    return False
+
+rlist = load_rules_file('../resources/SGJP/freq_rules.tab')
+rtable = make_rules_table(rlist)
+
+def esccurl(string) :
+    "Escape the curly brackets in the string, for using it with the string formatter."
+    return string.replace('{', '{{').replace('}', '}}')
+
+with open('../resources/NKJP1M/NKJP1M-tagged-frequency.tab') as inp:
+    with open('freq_with_rules.tab', 'w+') as out:
+        for line in inp:
+            line = line.strip()
+            data = line.split('\t')
+            if len(data) != 8: # column count of TAGGED frequency list
+                print('Skipped line in the list: '+line)
+                continue
+
+            # The following was added to work on partially done tagged frequency, to get rid of the
+            # previous COMPOS classification. Otherwise we'd want to use something like this:
+            # fmt = esccurl(line) + '\t{0}' # simple format string, applicable to raw frequency list
+            # previous COMPOS column is in data[4], so we skip it below
+            fmt = esccurl('\t'.join(data[0:4])) + '\t{0}\t' + esccurl('\t'.join(data[5:]))
+
+            rl_class = is_recognizable((data[0], data[1], data[2]), rtable)
+            if rl_class == '':
+                print(fmt.format('COMPOS'), file=out)
+            elif rl_class != False:
+                print(fmt.format('COMPOS-'+rl_class), file=out)
+            else:
+                # Try again, with lowered lemma and word form.
+                rl_class_low = is_recognizable((data[0].lower(), data[1].lower(), data[2]),
+                        rtable)
+                if rl_class_low == '':
+                    print(fmt.format('COMPOS-LWR'), file=out)
+                elif rl_class_low != False:
+                    print(fmt.format('COMPOS-LWR-'+rl_class_low), file=out)
+                else:
+                    print(fmt.format('NCOMPOS'), file=out)
+# Blame Szymon Rutkowski - szymon@szymonrutkowski.pl - Oct 2016.
+#
+# Given a frequency list and groundtruth dictionary, tag the entries on the frequency list with some
+# automatic tags (can be seen at the end of this file).
+#
+# Run from Python3, with -i (inspect option), eg. `python3 -i compare_morphosyn.py`.
+# Then invoke something like (with # representing Python prompt):
+# # sgjp = load_sgjp('../../NLP resources/sgjp-20160724.tab')
+# # nkjp = load_nkjp('../resources/NKJP1M/NKJP1M-frequency.tab')
+# # notmatching(nkjp, sgjp, liberal_tagcomp, 'raw_tagged_frequency.tab') # (may take a while)
+# # ^D # Ctrl-D when done
+# The last argument points the result file, liberal_tagcomp is the most sane tag comparing function.
+
+import functools
+import re
+import unicodedata
+
+def load_sgjp(fname):
+    sgjp = dict()
+    with open(fname) as inp:
+        for line in inp:
+            data = line.strip().split('\t')
+
+            if len(data) < 3:
+                print('Skipped line: ' + line.strip())
+                continue
+
+            word_form = data[0]
+
+            lemma = ''
+            lemma_sub = ''
+            if data[1] == ':':
+                lemma = [':']
+            else:
+                lemma = data[1].split(":")[0] # lemma subidentifier
+                if len(data[1].split(":")) > 1:
+                    lemma_sub = data[1].split(":")[1]
+            if word_form.find('_') == -1:
+                lemma = lemma.replace('_', ' ')
+
+            tags = data[2]
+
+            notes = ''
+            if len(data) == 4:
+                notes = data[3]
+
+            if lemma in sgjp:
+                sgjp[lemma].append([word_form, tags, notes])
+            else:
+                sgjp[lemma] = [ [word_form, tags, notes, lemma_sub] ]
+    return sgjp
+
+
+def load_nkjp(fname):
+    nkjp = []
+    with open(fname) as inp:
+        nkjp = inp.read().split('\n')
+    for (n, line) in enumerate(nkjp):
+        nkjp[n] = nkjp[n].split('\t') # word_form, lemma, tags, freq
+        if len(nkjp[n]) != 5:
+            print('Skipped line: ' + str(n))
+            del nkjp[n]
+    return nkjp
+
+def naive_tagcomp(tag1, tag2):
+    return (tag1 == tag2)
+
+def strict_tagcomp(tag1, tag2):
+    tag1_items = tag1.split(':')
+    tag2_items = tag2.split(':')
+
+    if (tag1_items[0] != tag2_items[0] # POS
+            or len(tag1_items) != len(tag2_items)):
+        return False
+
+    for (i, item) in enumerate(tag1_items):
+        if not item in tag2_items[i].split('.'):
+            return False
+
+    return True
+
+def liberal_tagcomp(tag1, tag2):
+    tag1_items = tag1.split(':')
+    tag2_items = tag2.split(':')
+
+    if (tag1_items[0] != tag2_items[0] # POS
+            or len(tag1_items) != len(tag2_items)):
+        return False
+
+    for (i, item) in enumerate(tag1_items):
+        # remove tags n1, f1...
+        item = re.sub(r'(n1|n2|n3)', 'n', item)
+        model = re.sub(r'(n1|n2|n3|p2|p3)', 'n', tag2_items[i]).split('.')
+        if not item in model and model[0] != '_': # underscore as a catchall
+            return False
+
+    return True
+
+def compare_entries(nkjp_entry, sgjp_forms, tagcomp_func):
+    found = False
+    case1 = False
+    case2 = False
+    case3 = False
+    for (s, sgjp_form) in enumerate(sgjp_forms):
+        nkjp_word = nkjp_entry[0]
+        nkjp_tag = re.sub(r':$', '', nkjp_entry[2])
+        if nkjp_tag !=  nkjp_entry[2]:
+            print("Corrected tag %s for %s %s" % (nkjp_entry[2], nkjp_entry[0], nkjp_entry[1]))
+        sgjp_word = sgjp_form[0]
+        sgjp_tag = sgjp_form[1]
+
+        tag_match = tagcomp_func(nkjp_tag, sgjp_tag) # do it once
+
+        if sgjp_word == nkjp_word and tag_match: # word_nkjp_word & tag
+            found = True
+            break
+
+        elif tag_match: # tag okay, try with other letter cases
+            if len(nkjp_word) > 1 and nkjp_word.lower().capitalize() == nkjp_word: # Aaaa -> aaaa
+                if sgjp_word == nkjp_word.lower():
+                    case1 = True
+            if not case1 and nkjp_word.lower() != nkjp_word:
+                if sgjp_word == nkjp_word.capitalize(): # AAAA -> Aaaa
+                    case2 = True
+                elif sgjp_word == nkjp_word.lower(): # AAAA -> aaaa, A -> a
+                    case3 = True
+    return (found, case1, case2, case3)
+
+def tab_format(collection, label):
+    "Convert a collection used by notmatching() function to a string of tabbed entries."
+    fmt = ''
+    for etr in collection:
+        fmt = fmt + '\t'.join(etr)+ '\t' + label + '\n'
+    #print("formatted for "+label+", "+str(len(fmt)) + " bytes")
+    return fmt
+
+def nonalphab(string):
+    for char in string:
+        if unicodedata.category(char)[0] == 'L': # 'letter'
+            return False
+    return True
+
+def notmatching(nkjp, sgjp, tagcomp_func, result_file):
+    notmatching = []
+    matching = []
+    case1_notmatching = [] # Aaaa -> aaaa
+    case2_notmatching = [] # AAAA -> Aaaa
+    case3_notmatching = [] # AAAA -> aaaa, A -> a
+    lower_matching = [] # matching with form and lemma converted to lowercase
+    symbols = []
+    notmatching_numeric = []
+
+    for (n, nkjp_entry) in enumerate(nkjp):
+
+        lemma = nkjp_entry[1].strip()
+        form = nkjp_entry[0].strip()
+        # Warn about stripped whitespaces.
+        if lemma != nkjp_entry[1]:
+            print("Stripped whitespaces in lemma: %s" % nkjp_entry[1])
+        if form != nkjp_entry[0]:
+            print("Stripped whitespaces in form: %s" % nkjp_entry[0])
+
+        # Abbreviations are automatically classified as symbols.
+        if nkjp_entry[2][:4] == 'brev':
+            symbols.append(nkjp_entry)
+            continue
+
+        sgjp_forms = []
+        lowered_lemma = False # indicates if lemma was converted to lowercase
+        if lemma in sgjp: # lemma matching
+            sgjp_forms = sgjp[lemma]
+        else:
+            if lemma.lower() in sgjp:
+                lowered_lemma = True
+                sgjp_forms = sgjp[lemma.lower()]
+            else:
+                # Continue when we can't find even lowered lemma in SGJP. 
+                if nonalphab(form) and nonalphab(lemma):
+                    symbols.append(nkjp_entry)
+                elif re.match(r"^[123456789]", form, flags=re.L) != None:
+                    notmatching_numeric.append(nkjp_entry)
+                    continue
+                else:
+                    notmatching.append(nkjp_entry)
+                continue
+
+        # The following is executed only if the lemma (maybe in lowercase) was found in SGJP.
+
+        # Go through the entry if it wasn't found in SGJP
+        found, case1, case2, case3 = 0, 1, 2, 3 # indices in boolean tuple below
+        case = compare_entries(nkjp_entry, sgjp_forms, tagcomp_func)
+
+        # one more desperate attempt at lowering the lemma, if nothing was found
+        if (not lowered_lemma) and not True in case:
+            if lemma.lower() in sgjp:
+                sgjp_forms = sgjp[lemma.lower()]
+                case = compare_entries(nkjp_entry, sgjp_forms, tagcomp_func)
+                if True in case:
+                    lowered_lemma = True
+                else: # revert for consistency 
+                    sgjp_forms = sgjp[lemma]
+
+        if lowered_lemma and (case[found] or case[case1] or case[case2] or case[case3]):
+            lower_matching.append(nkjp_entry)
+            continue
+
+        if case[found]:
+            matching.append(nkjp_entry)
+            continue
+
+        if nonalphab(form) and nonalphab(lemma):
+            symbols.append(nkjp_entry)
+            continue
+        if re.match(r"^[123456789]", form, flags=re.L) != None:
+            notmatching_numeric.append(nkjp_entry)
+            continue
+
+        if case[case1]:
+            case1_notmatching.append(nkjp_entry)
+            continue
+        if case[case2]:
+            case2_notmatching.append(nkjp_entry)
+            continue
+        if case[case3]:
+            case3_notmatching.append(nkjp_entry)
+            continue
+
+        # when everything failed:
+        notmatching.append(nkjp_entry)
+
+    collections = [nkjp, matching, case1_notmatching, case2_notmatching, case3_notmatching,
+                lower_matching, symbols, notmatching_numeric, notmatching]
+    # sort the entries in collections by frequency
+    collections = list(map((lambda coll: sorted(coll, reverse=True, key=(lambda etr: int(etr[3])))),
+                        collections))
+    freqs = list(map(lambda coll: functools.reduce((lambda x, y: x+y),
+        [int(etr[3]) for etr in coll]), # sum of sets' frequencies
+                    collections))
+    descs = ["Total:",
+            "Found:",
+            "Found when Aaa -> aaa (lemma):",
+            "Found when AAA -> Aaa (lemma):",
+            "Found when AAA -> aaa (lemma):",
+            "Found when word form and lemma are converted to lowercase:",
+            "Symbols:",
+            "Not found, numeric:",
+            "Not found, other:"]
+
+    for (i, _) in enumerate(collections):
+        info = (len(collections[i]), 100.0*(len(collections[i])/len(collections[0])),
+                 freqs[i], 100.0*(freqs[i]/freqs[0]))
+        print((descs[i]+" %d entries (%.2f%%), %d occurences (%.2f%%)") % info)
+    
+    # below we skip nkjp, which contains everything
+    labels = ['SGJP-EXACT\tNCH\tCORR', 'SGJP-LMM-UNCAPITAL\tNCH\tCORR',
+            'SGJP-LMM-CAPITAL\tNCH\tCORR', 'SGJP-LMM-LOWER\tNCH\tCORR',
+            'SGJP-BTH-LOWER\tNCH\tCORR', 'NON-SGJP\tSYMB\tCORR',
+            'NON-SGJP\tLATEK\tCORR', 'NON-SGJP\tCW\tCORR']
+    with open(result_file, 'w+') as out:
+        for (c, coll) in enumerate(collections[1:]):
+            print(tab_format(coll, labels[c]), file=out)
+# Blame Szymon Rutkowski - szymon@szymonrutkowski.pl - Nov 2016.
+# This file is intended to check the (partially tagged) NKJP1M frequency list against list of exce-
+# ptions from morphological rules derived from SGJP.
+# If you want to use this, review the end of this file (filenames, column structure) and run with python3.
+
+import re
+
+# just ripped from compare_morphosyn.py, guess it'll be better to keep those scripts self-contained
+# note that liberal_tagcomp is mainly suitable for checking NKJP against SGJP, when checking
+# a resource obeying more SJGP'ish tagging convention the strict_tagcomp will be better
+def strict_tagcomp(tag1, tag2):
+    tag1_items = tag1.split(':')
+    tag2_items = tag2.split(':')
+
+    if (tag1_items[0] != tag2_items[0] # POS
+            or len(tag1_items) != len(tag2_items)):
+        return False
+
+    for (i, item) in enumerate(tag1_items):
+        if not item in tag2_items[i].split('.'):
+            return False
+
+    return True
+
+def liberal_tagcomp(tag1, tag2):
+    tag1_items = tag1.split(':')
+    tag2_items = tag2.split(':')
+
+    if (tag1_items[0] != tag2_items[0] # POS
+            or len(tag1_items) != len(tag2_items)):
+        return False
+
+    for (i, item) in enumerate(tag1_items):
+        # remove tags n1, f1...
+        item = re.sub(r'(n1|n2|n3)', 'n', item)
+        model = re.sub(r'(n1|n2|n3|p2|p3)', 'n', tag2_items[i]).split('.')
+        if not item in model and model[0] != '_': # underscore as a catchall
+            return False
+
+    return True
+
+# the bulk of the following ripped from check_rule_compos.py
+def esccurl(string) :
+    "Escape the curly brackets in the string, for using it with the string formatter."
+    return string.replace('{', '{{').replace('}', '}}')
+
+alt_idx = dict() # indexed by data[0] - word form
+
+with open('../resources/SGJP/alt.tab') as alt_src:
+    for line in alt_src:
+            line = line.strip()
+            data = line.split('\t')
+            if len(data) != 3:
+                print('Skipped line in the alt list: '+line)
+                continue
+            # handle lemmas with subclassification after colon
+            if data[1].find(':') != -1 and data[1] != ':':
+                data[1] = data[1][: data[1].find(':')]
+            # each entry consists of 0 - list of lemmas, 1 - list of tags
+            if not data[0] in alt_idx:
+                alt_idx[data[0]] = [[data[1]], [data[2]]]
+            else:
+                alt_idx[data[0]][0].append(data[1])
+                alt_idx[data[0]][1].append(data[2])
+
+with open('../resources/NKJP1M/NKJP1M-tagged-frequency.tab') as inp:
+    with open('freq_with_alt.tab', 'w+') as out:
+        for line in inp:
+            line = line.strip()
+            data = line.split('\t')
+            if len(data) != 8: # column count of TAGGED frequency list
+                print('Skipped line in the list: '+line)
+                continue
+
+            # The following was added to work on partially done tagged frequency, to get rid of the
+            # previous COMPOS classification. Otherwise we'd want to use something like this:
+            # fmt = esccurl(line) + '\t{0}' # simple format string, applicable to raw frequency list
+            # previous COMPOS column is in data[4], so we skip it below
+            fmt = esccurl('\t'.join(data[0:4])) + '\t{0}\t' + esccurl('\t'.join(data[5:]))
+
+            matched = False
+            if data[0] in alt_idx:
+                tagcomps = list(map(lambda x: liberal_tagcomp(data[2], x), alt_idx[data[0]][1]))
+                tagnum = True in tagcomps and tagcomps.index(True)
+                # (make sure that if lemma is matching, it belongs to the matching tag)
+                if tagnum != -1 and tagnum != False and alt_idx[data[0]][0][tagnum] == data[1]:
+                    print(fmt.format('COMPOS-ALT'), file=out)
+                    matched = True
+            # try again with lowering word form and lemma:
+            if not matched and data[0].lower() in alt_idx:
+                tagcomps = list(map(lambda x: liberal_tagcomp(data[2], x), # data[2] - tag stays the same
+                                    alt_idx[data[0].lower()][1]))
+                tagnum = True in tagcomps and tagcomps.index(True)
+                if tagnum != -1 and tagnum != False and alt_idx[data[0].lower()][0][tagnum] == data[1].lower():
+                    print(fmt.format('COMPOS-LWR-ALT'), file=out)
+                    matched = True
+            if not matched:
+                print(line, file=out)
+adj-sup	adj:sg:nom.voc:n1.n2:sup	Ca
+adj-sup	adj:sg:nom.voc:m1.m2.m3:sup	Cb
+adj-sup	adj:sg:nom.voc:f:sup	Cc
+adj-sup	adj:sg:loc:m1.m2.m3.n1.n2:sup	Cd
+adj-sup	adj:sg:loc:f:sup	Ce
+adj-sup	adj:sg:inst:m1.m2.m3.n1.n2:sup	Cf
+adj-sup	adj:sg:inst:f:sup	Cg
+adj-sup	adj:sg:gen:m1.m2.m3.n1.n2:sup	Ch
+adj-sup	adj:sg:gen:f:sup	Ci
+adj-sup	adj:sg:dat:m1.m2.m3.n1.n2:sup	Cj
+adj-sup	adj:sg:dat:f:sup	Ck
+adj-sup	adj:sg:acc:n1.n2:sup	Cl
+adj-sup	adj:sg:acc:m3:sup	Cm
+adj-sup	adj:sg:acc:m1.m2:sup	Cn
+adj-sup	adj:sg:acc:f:sup	Co
+adj-sup	adj:pl:nom.voc:m2.m3.f.n1.n2.p2.p3:sup	Cp
+adj-sup	adj:pl:nom.voc:m1.p1:sup	Cq
+adj-sup	adj:pl:loc:m1.m2.m3.f.n1.n2.p1.p2.p3:sup	Cr
+adj-sup	adj:pl:inst:m1.m2.m3.f.n1.n2.p1.p2.p3:sup	Cs
+adj-sup	adj:pl:gen:m1.m2.m3.f.n1.n2.p1.p2.p3:sup	Ct
+adj-sup	adj:pl:dat:m1.m2.m3.f.n1.n2.p1.p2.p3:sup	Cu
+adj-sup	adj:pl:acc:m2.m3.f.n1.n2.p2.p3:sup	Cv
+adj-sup	adj:pl:acc:m1.p1:sup	Cw
+verb-neg	ppas:sg:nom.voc:m1.m2.m3:perf:neg	Ua
+verb-neg	ppas:sg:nom.voc:m1.m2.m3:imperf:neg	Ua
+verb-neg	ppas:sg:nom.voc:m1.m2.m3:imperf.perf:neg	Ua
+verb-neg	ppas:sg:nom.voc:f:perf:neg	Ub
+verb-neg	ppas:sg:nom.voc:f:imperf:neg	Ub
+verb-neg	ppas:sg:nom.voc:f:imperf.perf:neg	Ub
+verb-neg	ppas:sg:nom.acc.voc:n1.n2:perf:neg	Uc
+verb-neg	ppas:sg:nom.acc.voc:n1.n2:imperf:neg	Uc
+verb-neg	ppas:sg:nom.acc.voc:n1.n2:imperf.perf:neg	Uc
+verb-neg	ppas:sg:inst.loc:m1.m2.m3.n1.n2:perf:neg	Ud
+verb-neg	ppas:sg:inst.loc:m1.m2.m3.n1.n2:imperf:neg	Ud
+verb-neg	ppas:sg:inst.loc:m1.m2.m3.n1.n2:imperf.perf:neg	Ud
+verb-neg	ppas:sg:gen:m1.m2.m3.n1.n2:perf:neg	Ue
+verb-neg	ppas:sg:gen:m1.m2.m3.n1.n2:imperf:neg	Ue
+verb-neg	ppas:sg:gen:m1.m2.m3.n1.n2:imperf.perf:neg	Ue
+verb-neg	ppas:sg:gen.dat.loc:f:perf:neg	Uf
+verb-neg	ppas:sg:gen.dat.loc:f:imperf:neg	Uf
+verb-neg	ppas:sg:gen.dat.loc:f:imperf.perf:neg	Uf
+verb-neg	ppas:sg:dat:m1.m2.m3.n1.n2:perf:neg	Ug
+verb-neg	ppas:sg:dat:m1.m2.m3.n1.n2:imperf:neg	Ug
+verb-neg	ppas:sg:dat:m1.m2.m3.n1.n2:imperf.perf:neg	Ug
+verb-neg	ppas:sg:acc:m3:perf:neg	Uh
+verb-neg	ppas:sg:acc:m3:imperf:neg	Uh
+verb-neg	ppas:sg:acc:m3:imperf.perf:neg	Uh
+verb-neg	ppas:sg:acc:m1.m2:perf:neg	Ui
+verb-neg	ppas:sg:acc:m1.m2:imperf:neg	Ui
+verb-neg	ppas:sg:acc:m1.m2:imperf.perf:neg	Ui
+verb-neg	ppas:sg:acc.inst:f:perf:neg	Uj
+verb-neg	ppas:sg:acc.inst:f:imperf:neg	Uj
+verb-neg	ppas:sg:acc.inst:f:imperf.perf:neg	Uj
+verb-neg	ppas:pl:nom.voc:m1.p1:perf:neg	Uk
+verb-neg	ppas:pl:nom.voc:m1.p1:imperf:neg	Uk
+verb-neg	ppas:pl:nom.voc:m1.p1:imperf.perf:neg	Uk
+verb-neg	ppas:pl:nom.acc.voc:m2.m3.f.n1.n2.p2.p3:perf:neg	Ul
+verb-neg	ppas:pl:nom.acc.voc:m2.m3.f.n1.n2.p2.p3:imperf:neg	Ul
+verb-neg	ppas:pl:nom.acc.voc:m2.m3.f.n1.n2.p2.p3:imperf.perf:neg	Ul
+verb-neg	ppas:pl:inst:m1.m2.m3.f.n1.n2.p1.p2.p3:perf:neg	Um
+verb-neg	ppas:pl:inst:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf:neg	Um
+verb-neg	ppas:pl:inst:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf.perf:neg	Um
+verb-neg	ppas:pl:gen.loc:m1.m2.m3.f.n1.n2.p1.p2.p3:perf:neg	Un
+verb-neg	ppas:pl:gen.loc:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf:neg	Un
+verb-neg	ppas:pl:gen.loc:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf.perf:neg	Un
+verb-neg	ppas:pl:dat:m1.m2.m3.f.n1.n2.p1.p2.p3:perf:neg	Uo
+verb-neg	ppas:pl:dat:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf:neg	Uo
+verb-neg	ppas:pl:dat:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf.perf:neg	Uo
+verb-neg	ppas:pl:acc:m1.p1:perf:neg	Up
+verb-neg	ppas:pl:acc:m1.p1:imperf:neg	Up
+verb-neg	ppas:pl:acc:m1.p1:imperf.perf:neg	Up
+verb-neg	pact:sg:nom.voc:m1.m2.m3:imperf:neg	Va
+verb-neg	pact:sg:nom.voc:m1.m2.m3:imperf.perf:neg	Va
+verb-neg	pact:sg:nom.voc:f:imperf:neg	Vb
+verb-neg	pact:sg:nom.voc:f:imperf.perf:neg	Vb
+verb-neg	pact:sg:nom.acc.voc:n1.n2:imperf:neg	Vc
+verb-neg	pact:sg:nom.acc.voc:n1.n2:imperf.perf:neg	Vc
+verb-neg	pact:sg:inst.loc:m1.m2.m3.n1.n2:imperf:neg	Vd
+verb-neg	pact:sg:inst.loc:m1.m2.m3.n1.n2:imperf.perf:neg	Vd
+verb-neg	pact:sg:gen:m1.m2.m3.n1.n2:imperf:neg	Ve
+verb-neg	pact:sg:gen:m1.m2.m3.n1.n2:imperf.perf:neg	Ve
+verb-neg	pact:sg:gen.dat.loc:f:imperf:neg	Vf
+verb-neg	pact:sg:gen.dat.loc:f:imperf.perf:neg	Vf
+verb-neg	pact:sg:dat:m1.m2.m3.n1.n2:imperf:neg	Vg
+verb-neg	pact:sg:dat:m1.m2.m3.n1.n2:imperf.perf:neg	Vg
+verb-neg	pact:sg:acc:m3:imperf:neg	Vh
+verb-neg	pact:sg:acc:m3:imperf.perf:neg	Vh
+verb-neg	pact:sg:acc:m1.m2:imperf:neg	Vi
+verb-neg	pact:sg:acc:m1.m2:imperf.perf:neg	Vi
+verb-neg	pact:sg:acc.inst:f:imperf:neg	Vj
+verb-neg	pact:sg:acc.inst:f:imperf.perf:neg	Vj
+verb-neg	pact:pl:nom.voc:m1.p1:imperf:neg	Vk
+verb-neg	pact:pl:nom.voc:m1.p1:imperf.perf:neg	Vk
+verb-neg	pact:pl:nom.acc.voc:m2.m3.f.n1.n2.p2.p3:imperf:neg	Vl
+verb-neg	pact:pl:nom.acc.voc:m2.m3.f.n1.n2.p2.p3:imperf.perf:neg	Vl
+verb-neg	pact:pl:inst:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf:neg	Vm
+verb-neg	pact:pl:inst:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf.perf:neg	Vm
+verb-neg	pact:pl:gen.loc:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf:neg	Vn
+verb-neg	pact:pl:gen.loc:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf.perf:neg	Vn
+verb-neg	pact:pl:dat:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf:neg	Vo
+verb-neg	pact:pl:dat:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf.perf:neg	Vo
+verb-neg	pact:pl:acc:m1.p1:imperf:neg	Vp
+verb-neg	pact:pl:acc:m1.p1:imperf.perf:neg	Vp
+verb-neg	ger:sg:nom.acc:n2:perf:neg	Ta
+verb-neg	ger:sg:nom.acc:n2:imperf:neg	Ta
+verb-neg	ger:sg:nom.acc:n2:imperf.perf:neg	Ta
+verb-neg	ger:sg:inst:n2:perf:neg	Tb
+verb-neg	ger:sg:inst:n2:imperf:neg	Tb
+verb-neg	ger:sg:inst:n2:imperf.perf:neg	Tb
+verb-neg	ger:sg:gen:n2:perf:neg	Tc
+verb-neg	ger:sg:gen:n2:imperf:neg	Tc
+verb-neg	ger:sg:gen:n2:imperf.perf:neg	Tc
+verb-neg	ger:sg:dat.loc:n2:perf:neg	Td
+verb-neg	ger:sg:dat.loc:n2:imperf:neg	Td
+verb-neg	ger:sg:dat.loc:n2:imperf.perf:neg	Td
+verb-neg	ger:pl:nom.acc:n2:perf:neg	Te
+verb-neg	ger:pl:nom.acc:n2:imperf:neg	Te
+verb-neg	ger:pl:nom.acc:n2:imperf.perf:neg	Te
+verb-neg	ger:pl:loc:n2:perf:neg	Tf
+verb-neg	ger:pl:loc:n2:imperf:neg	Tf
+verb-neg	ger:pl:loc:n2:imperf.perf:neg	Tf
+verb-neg	ger:pl:inst:n2:perf:neg	Tg
+verb-neg	ger:pl:inst:n2:imperf:neg	Tg
+verb-neg	ger:pl:inst:n2:imperf.perf:neg	Tg
+verb-neg	ger:pl:gen:n2:perf:neg	Th
+verb-neg	ger:pl:gen:n2:imperf:neg	Th
+verb-neg	ger:pl:gen:n2:imperf.perf:neg	Th
+verb-neg	ger:pl:dat:n2:perf:neg	Ti
+verb-neg	ger:pl:dat:n2:imperf:neg	Ti
+verb-neg	ger:pl:dat:n2:imperf.perf:neg	Ti
+other	winien:sg:n1.n2:ter:imperf	W
+other	winien:sg:n1.n2:sec:imperf	W
+other	winien:sg:n1.n2:pri:imperf	W
+other	winien:sg:n1.n2:imperf	W
+other	winien:sg:m1.m2.m3:ter:imperf	W
+other	winien:sg:m1.m2.m3:sec:imperf	W
+other	winien:sg:m1.m2.m3:pri:imperf	W
+other	winien:sg:m1.m2.m3:imperf	W
+other	winien:sg:f:ter:imperf	W
+other	winien:sg:f:sec:imperf	W
+other	winien:sg:f:pri:imperf	W
+other	winien:sg:f:imperf	W
+other	winien:pl:m2.m3.f.n1.n2.p2.p3:ter:imperf	W
+other	winien:pl:m2.m3.f.n1.n2.p2.p3:sec:imperf	W
+other	winien:pl:m2.m3.f.n1.n2.p2.p3:imperf	W
+other	winien:pl:m1.p1:ter:imperf	W
+other	winien:pl:m1.p1:sec:imperf	W
+other	winien:pl:m1.p1:pri:imperf	W
+other	winien:pl:m1.p1:imperf	W
+noun	subst:sg:voc:n2	Gva
+noun	subst:sg:voc:n1	Gvb
+noun	subst:sg:voc:m3	Gvc
+noun	subst:sg:voc:m2	Gvd
+noun	subst:sg:voc:m1	Gve
+noun	subst:sg:voc:f	Gvf
+noun	subst:sg:nom:n2	Gna
+noun	subst:sg:nom:n1	Gnb
+noun	subst:sg:nom:m3	Gnc
+noun	subst:sg:nom:m2	Gnd
+noun	subst:sg:nom:m1	Gne
+noun	subst:sg:nom:f	Gnf
+noun	subst:sg:loc:n2	Gla
+noun	subst:sg:loc:n1	Glb
+noun	subst:sg:loc:m3	Glc
+noun	subst:sg:loc:m2	Gld
+noun	subst:sg:loc:m1	Gle
+noun	subst:sg:loc:f	Glf
+noun	subst:sg:inst:n2	Gia
+noun	subst:sg:inst:n1	Gib
+noun	subst:sg:inst:m3	Gic
+noun	subst:sg:inst:m2	Gid
+noun	subst:sg:inst:m1	Gie
+noun	subst:sg:inst:f	Gif
+noun	subst:sg:gen:n2	Gga
+noun	subst:sg:gen:n1	Ggb
+noun	subst:sg:gen:m3	Ggc
+noun	subst:sg:gen:m2	Ggd
+noun	subst:sg:gen:m1	Gge
+noun	subst:sg:gen:f	Ggf
+noun	subst:sg:dat:n2	Gda
+noun	subst:sg:dat:n1	Gdb
+noun	subst:sg:dat:m3	Gdc
+noun	subst:sg:dat:m2	Gdd
+noun	subst:sg:dat:m1	Gde
+noun	subst:sg:dat:f	Gdf
+noun	subst:sg:acc:n2	Gaa
+noun	subst:sg:acc:n1	Gab
+noun	subst:sg:acc:m3	Gac
+noun	subst:sg:acc:m2	Gad
+noun	subst:sg:acc:m1	Gae
+noun	subst:sg:acc:f	Gaf
+noun	subst:pl:voc:p3	Yvp
+noun	subst:pl:voc:p2	Yvq
+noun	subst:pl:voc:p1	Yvr
+noun	subst:pl:voc:n2	Yva
+noun	subst:pl:voc:n1	Yvb
+noun	subst:pl:voc:m3	Yvc
+noun	subst:pl:voc:m2	Yvd
+noun	subst:pl:voc:m1	Yve
+noun	subst:pl:voc:f	Yvf
+noun	subst:pl:nom:p3	Ynp
+noun	subst:pl:nom:p2	Ynq
+noun	subst:pl:nom:p1	Ynr
+noun	subst:pl:nom:n2	Yna
+noun	subst:pl:nom:n1	Ynb
+noun	subst:pl:nom:m3	Ync
+noun	subst:pl:nom:m2	Ynd
+noun	subst:pl:nom:m1	Yne
+noun	subst:pl:nom:f	Ynf
+noun	subst:pl:loc:p3	Ylp
+noun	subst:pl:loc:p2	Ylq
+noun	subst:pl:loc:p1	Ylr
+noun	subst:pl:loc:n2	Yla
+noun	subst:pl:loc:n1	Ylb
+noun	subst:pl:loc:m3	Ylc
+noun	subst:pl:loc:m2	Yld
+noun	subst:pl:loc:m1	Yle
+noun	subst:pl:loc:f	Ylf
+noun	subst:pl:inst:p3	Yip
+noun	subst:pl:inst:p2	Yiq
+noun	subst:pl:inst:p1	Yir
+noun	subst:pl:inst:n2	Yia
+noun	subst:pl:inst:n1	Yib
+noun	subst:pl:inst:m3	Yic
+noun	subst:pl:inst:m2	Yid
+noun	subst:pl:inst:m1	Yie
+noun	subst:pl:inst:f	Yif
+noun	subst:pl:gen:p3	Ygp
+noun	subst:pl:gen:p2	Ygq
+noun	subst:pl:gen:p1	Ygr
+noun	subst:pl:gen:n2	Yga
+noun	subst:pl:gen:n1	Ygb
+noun	subst:pl:gen:m3	Ygc
+noun	subst:pl:gen:m2	Ygd
+noun	subst:pl:gen:m1	Yge
+noun	subst:pl:gen:f	Ygf
+noun	subst:pl:dat:p3	Ydp
+noun	subst:pl:dat:p2	Ydq
+noun	subst:pl:dat:p1	Ydr
+noun	subst:pl:dat:n2	Yda
+noun	subst:pl:dat:n1	Ydb
+noun	subst:pl:dat:m3	Ydc
+noun	subst:pl:dat:m2	Ydd
+noun	subst:pl:dat:m1	Yde
+noun	subst:pl:dat:f	Ydf
+noun	subst:pl:acc:p3	Yap
+noun	subst:pl:acc:p2	Yaq
+noun	subst:pl:acc:p1	Yar
+noun	subst:pl:acc:n2	Yaa
+noun	subst:pl:acc:n1	Yab
+noun	subst:pl:acc:m3	Yac
+noun	subst:pl:acc:m2	Yad
+noun	subst:pl:acc:m1	Yae
+noun	subst:pl:acc:f	Yaf
+other	qub	W
+other	prep:nom	W
+other	prep:loc:wok	W
+other	prep:loc:nwok	W
+other	prep:loc	W
+other	prep:inst:wok	W
+other	prep:inst:nwok	W
+other	prep:inst	W
+other	prep:gen:wok	W
+other	prep:gen:nwok	W
+other	prep:gen	W
+other	prep:dat	W
+other	prep:acc:wok	W
+other	prep:acc:nwok	W
+other	prep:acc	W
+other	pred	W
+verb	praet:sg:n1.n2:ter:perf	Ja
+verb	praet:sg:n1.n2:ter:imperf.perf	Ja
+verb	praet:sg:n1.n2:ter:imperf	Ja
+verb	praet:sg:n1.n2:sec:perf	Jb
+verb	praet:sg:n1.n2:sec:imperf.perf	Jb
+verb	praet:sg:n1.n2:sec:imperf	Jb
+verb	praet:sg:n1.n2:pri:perf	Jc
+verb	praet:sg:n1.n2:pri:imperf.perf	Jc
+verb	praet:sg:n1.n2:pri:imperf	Jc
+verb	praet:sg:n1.n2:perf	Jd
+verb	praet:sg:n1.n2:imperf.perf	Jd
+verb	praet:sg:n1.n2:imperf	Jd
+verb	praet:sg:m1.m2.m3:ter:perf	Je
+verb	praet:sg:m1.m2.m3:ter:imperf.perf	Je
+verb	praet:sg:m1.m2.m3:ter:imperf	Je
+verb	praet:sg:m1.m2.m3:sec:perf	Jf
+verb	praet:sg:m1.m2.m3:sec:imperf.perf	Jf
+verb	praet:sg:m1.m2.m3:sec:imperf	Jf
+verb	praet:sg:m1.m2.m3:pri:perf	Jg
+verb	praet:sg:m1.m2.m3:pri:imperf.perf	Jg
+verb	praet:sg:m1.m2.m3:pri:imperf	Jg
+verb	praet:sg:m1.m2.m3:perf:nagl.agl	Jh
+verb	praet:sg:m1.m2.m3:imperf:nagl.agl	Jh
+verb	praet:sg:m1.m2.m3:imperf.perf	Jh
+verb	praet:sg:f:ter:perf	Ji
+verb	praet:sg:f:ter:imperf	Ji
+verb	praet:sg:f:sec:perf	Jj
+verb	praet:sg:f:sec:imperf	Jj
+verb	praet:sg:f:pri:perf	Jk
+verb	praet:sg:f:pri:imperf	Jk
+verb	praet:sg:f:perf	Jl
+verb	praet:sg:f:imperf	Jl
+verb	praet:pl:m2.m3.f.n1.n2.p2.p3:ter:perf	Jm
+verb	praet:pl:m2.m3.f.n1.n2.p2.p3:ter:imperf.perf	Jm
+verb	praet:pl:m2.m3.f.n1.n2.p2.p3:ter:imperf	Jm
+verb	praet:pl:m2.m3.f.n1.n2.p2.p3:sec:perf	Jn
+verb	praet:pl:m2.m3.f.n1.n2.p2.p3:sec:imperf.perf	Jn
+verb	praet:pl:m2.m3.f.n1.n2.p2.p3:sec:imperf	Jn
+verb	praet:pl:m2.m3.f.n1.n2.p2.p3:pri:perf	Jo
+verb	praet:pl:m2.m3.f.n1.n2.p2.p3:pri:imperf.perf	Jo
+verb	praet:pl:m2.m3.f.n1.n2.p2.p3:pri:imperf	Jo
+verb	praet:pl:m2.m3.f.n1.n2.p2.p3:perf	Jp
+verb	praet:pl:m2.m3.f.n1.n2.p2.p3:imperf.perf	Jp
+verb	praet:pl:m2.m3.f.n1.n2.p2.p3:imperf	Jp
+verb	praet:pl:m1.p1:ter:perf	Jq
+verb	praet:pl:m1.p1:ter:imperf	Jq
+verb	praet:pl:m1.p1:sec:perf	Jr
+verb	praet:pl:m1.p1:sec:imperf	Jr
+verb	praet:pl:m1.p1:pri:perf	Js
+verb	praet:pl:m1.p1:pri:imperf	Js
+verb	praet:pl:m1.p1:perf	Jt
+verb	praet:pl:m1.p1:imperf	Jt
+other	ppron3:sg:nom:n1.n2:ter:akc.nakc:praep.npraep	W
+other	ppron3:sg:nom:m1.m2.m3:ter:akc.nakc:praep.npraep	W
+other	ppron3:sg:nom:f:ter:akc.nakc:praep.npraep	W
+other	ppron3:sg:loc:n1.n2:ter:akc.nakc:praep.npraep	W
+other	ppron3:sg:loc:m1.m2.m3:ter:akc.nakc:praep.npraep	W
+other	ppron3:sg:loc:f:ter:akc.nakc:praep.npraep	W
+other	ppron3:sg:inst:n1.n2:ter:akc.nakc:praep.npraep	W
+other	ppron3:sg:inst:m1.m2.m3:ter:akc.nakc:praep.npraep	W
+other	ppron3:sg:inst:f:ter:akc.nakc:praep.npraep	W
+other	ppron3:sg:gen:n1.n2:ter:nakc:npraep	W
+other	ppron3:sg:gen:n1.n2:ter:akc:npraep	W
+other	ppron3:sg:gen:n1.n2:ter:akc.nakc:praep	W
+other	ppron3:sg:gen:m1.m2.m3:ter:nakc:praep	W
+other	ppron3:sg:gen:m1.m2.m3:ter:nakc:npraep	W
+other	ppron3:sg:gen:m1.m2.m3:ter:akc:praep	W
+other	ppron3:sg:gen:m1.m2.m3:ter:akc:npraep	W
+other	ppron3:sg:gen:f:ter:akc.nakc:praep	W
+other	ppron3:sg:gen:f:ter:akc.nakc:npraep	W
+other	ppron3:sg:dat:n1.n2:ter:nakc:npraep	W
+other	ppron3:sg:dat:n1.n2:ter:akc:npraep	W
+other	ppron3:sg:dat:n1.n2:ter:akc.nakc:praep	W
+other	ppron3:sg:dat:m1.m2.m3:ter:nakc:npraep	W
+other	ppron3:sg:dat:m1.m2.m3:ter:akc:npraep	W
+other	ppron3:sg:dat:m1.m2.m3:ter:akc.nakc:praep	W
+other	ppron3:sg:dat:f:ter:akc.nakc:praep	W
+other	ppron3:sg:dat:f:ter:akc.nakc:npraep	W
+other	ppron3:sg:acc:n1.n2:ter:akc.nakc:praep	W
+other	ppron3:sg:acc:n1.n2:ter:akc.nakc:npraep	W
+other	ppron3:sg:acc:m1.m2.m3:ter:nakc:praep	W
+other	ppron3:sg:acc:m1.m2.m3:ter:nakc:npraep	W
+other	ppron3:sg:acc:m1.m2.m3:ter:akc:praep	W
+other	ppron3:sg:acc:m1.m2.m3:ter:akc:npraep	W
+other	ppron3:sg:acc:f:ter:akc.nakc:praep	W
+other	ppron3:sg:acc:f:ter:akc.nakc:npraep	W
+other	ppron3:pl:nom:m2.m3.f.n1.n2.p2.p3:ter:akc.nakc:praep.npraep	W
+other	ppron3:pl:nom:m1.p1:ter:akc.nakc:praep.npraep	W
+other	ppron3:pl:loc:_:ter:akc.nakc:praep.npraep	W
+other	ppron3:pl:inst:_:ter:akc.nakc:praep.npraep	W
+other	ppron3:pl:gen:_:ter:akc.nakc:praep	W
+other	ppron3:pl:gen:_:ter:akc.nakc:npraep	W
+other	ppron3:pl:dat:_:ter:akc.nakc:praep	W
+other	ppron3:pl:dat:_:ter:akc.nakc:npraep	W
+other	ppron3:pl:acc:m2.m3.f.n1.n2.p2.p3:ter:akc.nakc:praep	W
+other	ppron3:pl:acc:m2.m3.f.n1.n2.p2.p3:ter:akc.nakc:npraep	W
+other	ppron3:pl:acc:m1.p1:ter:akc.nakc:praep	W
+other	ppron3:pl:acc:m1.p1:ter:akc.nakc:npraep	W
+other	ppron12:sg:voc:m1.m2.m3.f.n1.n2:sec	W
+other	ppron12:sg:voc:m1.m2.m3.f.n1.n2:pri	W
+other	ppron12:sg:nom:m1.m2.m3.f.n1.n2:sec	W
+other	ppron12:sg:nom:m1.m2.m3.f.n1.n2:pri	W
+other	ppron12:sg:loc:m1.m2.m3.f.n1.n2:sec	W
+other	ppron12:sg:loc:m1.m2.m3.f.n1.n2:pri	W
+other	ppron12:sg:inst:m1.m2.m3.f.n1.n2:sec	W
+other	ppron12:sg:inst:m1.m2.m3.f.n1.n2:pri	W
+other	ppron12:sg:gen:m1.m2.m3.f.n1.n2:sec:nakc	W
+other	ppron12:sg:gen:m1.m2.m3.f.n1.n2:sec:akc	W
+other	ppron12:sg:gen:m1.m2.m3.f.n1.n2:pri:nakc	W
+other	ppron12:sg:gen:m1.m2.m3.f.n1.n2:pri:akc	W
+other	ppron12:sg:dat:m1.m2.m3.f.n1.n2:sec:nakc	W
+other	ppron12:sg:dat:m1.m2.m3.f.n1.n2:sec:akc	W
+other	ppron12:sg:dat:m1.m2.m3.f.n1.n2:pri:nakc	W
+other	ppron12:sg:dat:m1.m2.m3.f.n1.n2:pri:akc	W
+other	ppron12:sg:acc:m1.m2.m3.f.n1.n2:sec:nakc	W
+other	ppron12:sg:acc:m1.m2.m3.f.n1.n2:sec:akc	W
+other	ppron12:sg:acc:m1.m2.m3.f.n1.n2:pri:nakc	W
+other	ppron12:sg:acc:m1.m2.m3.f.n1.n2:pri:akc	W
+other	ppron12:pl:voc:_:sec	W
+other	ppron12:pl:voc:_:pri	W
+other	ppron12:pl:nom:_:sec	W
+other	ppron12:pl:nom:_:pri	W
+other	ppron12:pl:loc:_:sec	W
+other	ppron12:pl:loc:_:pri	W
+other	ppron12:pl:inst:_:sec	W
+other	ppron12:pl:inst:_:pri	W
+other	ppron12:pl:gen:_:sec	W
+other	ppron12:pl:gen:_:pri	W
+other	ppron12:pl:dat:_:sec	W
+other	ppron12:pl:dat:_:pri	W
+other	ppron12:pl:acc:_:sec	W
+other	ppron12:pl:acc:_:pri	W
+verb	ppas:sg:nom.voc:m1.m2.m3:perf:aff	Ra
+verb	ppas:sg:nom.voc:m1.m2.m3:imperf:aff	Ra
+verb	ppas:sg:nom.voc:m1.m2.m3:imperf.perf:aff	Ra
+verb	ppas:sg:nom.voc:f:perf:aff	Rb
+verb	ppas:sg:nom.voc:f:imperf:aff	Rb
+verb	ppas:sg:nom.voc:f:imperf.perf:aff	Rb
+verb	ppas:sg:nom.acc.voc:n1.n2:perf:aff	Rc
+verb	ppas:sg:nom.acc.voc:n1.n2:imperf:aff	Rc
+verb	ppas:sg:nom.acc.voc:n1.n2:imperf.perf:aff	Rc
+verb	ppas:sg:inst.loc:m1.m2.m3.n1.n2:perf:aff	Rd
+verb	ppas:sg:inst.loc:m1.m2.m3.n1.n2:imperf:aff	Rd
+verb	ppas:sg:inst.loc:m1.m2.m3.n1.n2:imperf.perf:aff	Rd
+verb	ppas:sg:gen:m1.m2.m3.n1.n2:perf:aff	Re
+verb	ppas:sg:gen:m1.m2.m3.n1.n2:imperf:aff	Re
+verb	ppas:sg:gen:m1.m2.m3.n1.n2:imperf.perf:aff	Re
+verb	ppas:sg:gen.dat.loc:f:perf:aff	Rf
+verb	ppas:sg:gen.dat.loc:f:imperf:aff	Rf
+verb	ppas:sg:gen.dat.loc:f:imperf.perf:aff	Rf
+verb	ppas:sg:dat:m1.m2.m3.n1.n2:perf:aff	Rg
+verb	ppas:sg:dat:m1.m2.m3.n1.n2:imperf:aff	Rg
+verb	ppas:sg:dat:m1.m2.m3.n1.n2:imperf.perf:aff	Rg
+verb	ppas:sg:acc:m3:perf:aff	Rh
+verb	ppas:sg:acc:m3:imperf:aff	Rh
+verb	ppas:sg:acc:m3:imperf.perf:aff	Rh
+verb	ppas:sg:acc:m1.m2:perf:aff	Ri
+verb	ppas:sg:acc:m1.m2:imperf:aff	Ri
+verb	ppas:sg:acc:m1.m2:imperf.perf:aff	Ri
+verb	ppas:sg:acc.inst:f:perf:aff	Rj
+verb	ppas:sg:acc.inst:f:imperf:aff	Rj
+verb	ppas:sg:acc.inst:f:imperf.perf:aff	Rj
+verb	ppas:pl:nom.voc:m1.p1:perf:aff	Rk
+verb	ppas:pl:nom.voc:m1.p1:imperf:aff	Rk
+verb	ppas:pl:nom.voc:m1.p1:imperf.perf:aff	Rk
+verb	ppas:pl:nom.acc.voc:m2.m3.f.n1.n2.p2.p3:perf:aff	Rl
+verb	ppas:pl:nom.acc.voc:m2.m3.f.n1.n2.p2.p3:imperf:aff	Rl
+verb	ppas:pl:nom.acc.voc:m2.m3.f.n1.n2.p2.p3:imperf.perf:aff	Rl
+verb	ppas:pl:inst:m1.m2.m3.f.n1.n2.p1.p2.p3:perf:aff	Rm
+verb	ppas:pl:inst:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf:aff	Rm
+verb	ppas:pl:inst:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf.perf:aff	Rm
+verb	ppas:pl:gen.loc:m1.m2.m3.f.n1.n2.p1.p2.p3:perf:aff	Rn
+verb	ppas:pl:gen.loc:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf:aff	Rn
+verb	ppas:pl:gen.loc:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf.perf:aff	Rn
+verb	ppas:pl:dat:m1.m2.m3.f.n1.n2.p1.p2.p3:perf:aff	Ro
+verb	ppas:pl:dat:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf:aff	Ro
+verb	ppas:pl:dat:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf.perf:aff	Ro
+verb	ppas:pl:acc:m1.p1:perf:aff	Rp
+verb	ppas:pl:acc:m1.p1:imperf:aff	Rp
+verb	ppas:pl:acc:m1.p1:imperf.perf:aff	Rp
+verb	pcon:imperf	O
+verb	pant:perf	P
+verb	pact:sg:nom.voc:m1.m2.m3:imperf:aff	Qa
+verb	pact:sg:nom.voc:m1.m2.m3:imperf.perf:aff	Qa
+verb	pact:sg:nom.voc:f:imperf:aff	Qb
+verb	pact:sg:nom.voc:f:imperf.perf:aff	Qb
+verb	pact:sg:nom.acc.voc:n1.n2:imperf:aff	Qc
+verb	pact:sg:nom.acc.voc:n1.n2:imperf.perf:aff	Qc
+verb	pact:sg:inst.loc:m1.m2.m3.n1.n2:imperf:aff	Qd
+verb	pact:sg:inst.loc:m1.m2.m3.n1.n2:imperf.perf:aff	Qd
+verb	pact:sg:gen:m1.m2.m3.n1.n2:imperf:aff	Qe
+verb	pact:sg:gen:m1.m2.m3.n1.n2:imperf.perf:aff	Qe
+verb	pact:sg:gen.dat.loc:f:imperf:aff	Qf
+verb	pact:sg:gen.dat.loc:f:imperf.perf:aff	Qf
+verb	pact:sg:dat:m1.m2.m3.n1.n2:imperf:aff	Qg
+verb	pact:sg:dat:m1.m2.m3.n1.n2:imperf.perf:aff	Qg
+verb	pact:sg:acc:m3:imperf:aff	Qh
+verb	pact:sg:acc:m3:imperf.perf:aff	Qh
+verb	pact:sg:acc:m1.m2:imperf:aff	Qi
+verb	pact:sg:acc:m1.m2:imperf.perf:aff	Qi
+verb	pact:sg:acc.inst:f:imperf:aff	Qj
+verb	pact:sg:acc.inst:f:imperf.perf:aff	Qj
+verb	pact:pl:nom.voc:m1.p1:imperf:aff	Qk
+verb	pact:pl:nom.voc:m1.p1:imperf.perf:aff	Qk
+verb	pact:pl:nom.acc.voc:m2.m3.f.n1.n2.p2.p3:imperf:aff	Ql
+verb	pact:pl:nom.acc.voc:m2.m3.f.n1.n2.p2.p3:imperf.perf:aff	Ql
+verb	pact:pl:inst:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf:aff	Qm
+verb	pact:pl:inst:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf.perf:aff	Qm
+verb	pact:pl:gen.loc:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf:aff	Qn
+verb	pact:pl:gen.loc:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf.perf:aff	Qn
+verb	pact:pl:dat:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf:aff	Qo
+verb	pact:pl:dat:m1.m2.m3.f.n1.n2.p1.p2.p3:imperf.perf:aff	Qo
+verb	pact:pl:acc:m1.p1:imperf:aff	Qp
+verb	pact:pl:acc:m1.p1:imperf.perf:aff	Qp
+other	num:sg:nom.gen.dat.inst.acc.loc.voc:m1.m2.m3.n1.n2:rec	W
+other	num:sg:nom.gen.dat.inst.acc.loc.voc:m1.m2.m3.f.n1.n2:rec	W
+other	num:sg:nom.gen.dat.inst.acc.loc.voc:f:rec	W
+other	num:sg:nom.acc:m1.m2.m3.f.n1.n2:rec	W
+other	num:sg.pl:nom.acc:m1.m2.m3.f.n1.n2.p1.p2:rec	W
+other	num:pl:nom.voc:m1:rec	W
+other	num:pl:nom.voc:m1:congr	W
+other	num:pl:nom.gen.dat.inst.acc.loc.voc:m1.m2.m3.f.n1.n2.p1.p2:rec	W
+other	num:pl:nom.acc:m1.m2.m3.f.n1.n2.p1.p2:rec	W
+other	num:pl:nom.acc.voc:n1.p1.p2:rec	W
+other	num:pl:nom.acc.voc:m2.m3.n2:congr	W
+other	num:pl:nom.acc.voc:m2.m3.n2.f:congr	W
+other	num:pl:nom.acc.voc:m2.m3.f.n2:rec	W
+other	num:pl:nom.acc.voc:m2.m3.f.n1.n2.p1.p2:rec	W
+other	num:pl:nom.acc.voc:m1:rec	W
+other	num:pl:nom.acc.voc:f:congr	W
+other	num:pl:inst:n1.p1.p2:rec	W
+other	num:pl:inst:m1.m2.m3.n2:congr	W
+other	num:pl:inst:m1.m2.m3.n2.f:congr	W
+other	num:pl:inst:m1.m2.m3.f.n2:congr	W
+other	num:pl:inst:m1.m2.m3.f.n1.n2.p1.p2:congr	W
+other	num:pl:inst:f:congr	W
+other	num:pl:gen:n1.p1.p2:rec	W
+other	num:pl:gen.loc:m1.m2.m3.n2.f:congr	W
+other	num:pl:gen.loc:m1.m2.m3.f.n1.n2.p1.p2:congr	W
+other	num:pl:gen.dat.loc:m1.m2.m3.n2.f:congr	W
+other	num:pl:gen.dat.inst.loc:m1.m2.m3.f.n2:congr	W
+other	num:pl:gen.dat.inst.loc:m1.m2.m3.f.n1.n2.p1.p2:congr	W
+other	num:pl:dat:m1.m2.m3.n2.f:congr	W
+other	num:pl:dat.loc:n1.p1.p2:congr.rec	W
+other	num:pl:acc:m1:rec	W
+other	num:comp	W
+other	interj	W
+verb	inf:perf	I
+verb	inf:imperf.perf	I
+verb	inf:imperf	I
+verb	impt:sg:sec:perf	Ma
+verb	impt:sg:sec:imperf.perf	Ma
+verb	impt:sg:sec:imperf	Ma
+verb	impt:pl:sec:perf	Mb
+verb	impt:pl:sec:imperf.perf	Mb
+verb	impt:pl:sec:imperf	Mb
+verb	impt:pl:pri:perf	Mc
+verb	impt:pl:pri:imperf.perf	Mc
+verb	impt:pl:pri:imperf	Mc
+verb	imps:perf	N
+verb	imps:imperf.perf	N
+verb	imps:imperf	N
+verb	ger:sg:nom.acc:n2:perf:aff	Xa
+verb	ger:sg:nom.acc:n2:imperf:aff	Xa
+verb	ger:sg:nom.acc:n2:imperf.perf:aff	Xa
+verb	ger:sg:inst:n2:perf:aff	Xb
+verb	ger:sg:inst:n2:imperf:aff	Xb
+verb	ger:sg:inst:n2:imperf.perf:aff	Xb
+verb	ger:sg:gen:n2:perf:aff	Xc
+verb	ger:sg:gen:n2:imperf:aff	Xc
+verb	ger:sg:gen:n2:imperf.perf:aff	Xc
+verb	ger:sg:dat.loc:n2:perf:aff	Xd
+verb	ger:sg:dat.loc:n2:imperf:aff	Xd
+verb	ger:sg:dat.loc:n2:imperf.perf:aff	Xd
+verb	ger:pl:nom.acc:n2:perf:aff	Xe
+verb	ger:pl:nom.acc:n2:imperf:aff	Xe
+verb	ger:pl:nom.acc:n2:imperf.perf:aff	Xe
+verb	ger:pl:loc:n2:perf:aff	Xf
+verb	ger:pl:loc:n2:imperf:aff	Xf
+verb	ger:pl:loc:n2:imperf.perf:aff	Xf
+verb	ger:pl:inst:n2:perf:aff	Xg
+verb	ger:pl:inst:n2:imperf:aff	Xg
+verb	ger:pl:inst:n2:imperf.perf:aff	Xg
+verb	ger:pl:gen:n2:perf:aff	Xh
+verb	ger:pl:gen:n2:imperf:aff	Xh
+verb	ger:pl:gen:n2:imperf.perf:aff	Xh
+verb	ger:pl:dat:n2:perf:aff	Xi
+verb	ger:pl:dat:n2:imperf:aff	Xi
+verb	ger:pl:dat:n2:imperf.perf:aff	Xi
+verb	fin:sg:ter:perf	La
+verb	fin:sg:ter:imperf.perf	La
+verb	fin:sg:ter:imperf	La
+verb	fin:sg:sec:perf	Lb
+verb	fin:sg:sec:imperf.perf	Lb
+verb	fin:sg:sec:imperf	Lb
+verb	fin:sg:pri:perf	Lc
+verb	fin:sg:pri:imperf.perf	Lc
+verb	fin:sg:pri:imperf	Lc
+verb	fin:pl:ter:perf	Ld
+verb	fin:pl:ter:imperf.perf	Ld
+verb	fin:pl:ter:imperf	Ld
+verb	fin:pl:sec:perf	Le
+verb	fin:pl:sec:imperf.perf	Le
+verb	fin:pl:sec:imperf	Le
+verb	fin:pl:pri:perf	Lf
+verb	fin:pl:pri:imperf.perf	Lf
+verb	fin:pl:pri:imperf	Lf
+noun	depr:pl:voc:m2	Hv
+noun	depr:pl:nom:m2	Hn
+other	conj	W
+verb	cond:sg:n1.n2:ter:perf	Ka
+verb	cond:sg:n1.n2:ter:imperf.perf	Ka
+verb	cond:sg:n1.n2:ter:imperf	Ka
+verb	cond:sg:n1.n2:sec:perf	Kb
+verb	cond:sg:n1.n2:sec:imperf.perf	Kb
+verb	cond:sg:n1.n2:sec:imperf	Kb
+verb	cond:sg:n1.n2:pri:perf	Kc
+verb	cond:sg:n1.n2:pri:imperf.perf	Kc
+verb	cond:sg:n1.n2:pri:imperf	Kc
+verb	cond:sg:n1.n2:perf	Kd
+verb	cond:sg:n1.n2:imperf.perf	Kd
+verb	cond:sg:n1.n2:imperf	Kd
+verb	cond:sg:m1.m2.m3:ter:perf	Ke
+verb	cond:sg:m1.m2.m3:ter:imperf.perf	Ke
+verb	cond:sg:m1.m2.m3:ter:imperf	Ke
+verb	cond:sg:m1.m2.m3:sec:perf	Kf
+verb	cond:sg:m1.m2.m3:sec:imperf.perf	Kf
+verb	cond:sg:m1.m2.m3:sec:imperf	Kf
+verb	cond:sg:m1.m2.m3:pri:perf	Kg
+verb	cond:sg:m1.m2.m3:pri:imperf.perf	Kg
+verb	cond:sg:m1.m2.m3:pri:imperf	Kg
+verb	cond:sg:f:ter:perf	Kh
+verb	cond:sg:f:ter:imperf.perf	Kh
+verb	cond:sg:f:ter:imperf	Kh
+verb	cond:sg:f:sec:perf	Ki
+verb	cond:sg:f:sec:imperf.perf	Ki
+verb	cond:sg:f:sec:imperf	Ki
+verb	cond:sg:f:pri:perf	Kj
+verb	cond:sg:f:pri:imperf.perf	Kj
+verb	cond:sg:f:pri:imperf	Kj
+verb	cond:pl:m2.m3.f.n1.n2.p2.p3:ter:perf	Kk
+verb	cond:pl:m2.m3.f.n1.n2.p2.p3:ter:imperf.perf	Kk
+verb	cond:pl:m2.m3.f.n1.n2.p2.p3:ter:imperf	Kk
+verb	cond:pl:m2.m3.f.n1.n2.p2.p3:sec:perf	Kl
+verb	cond:pl:m2.m3.f.n1.n2.p2.p3:sec:imperf.perf	Kl
+verb	cond:pl:m2.m3.f.n1.n2.p2.p3:sec:imperf	Kl
+verb	cond:pl:m2.m3.f.n1.n2.p2.p3:pri:perf	Km
+verb	cond:pl:m2.m3.f.n1.n2.p2.p3:pri:imperf.perf	Km
+verb	cond:pl:m2.m3.f.n1.n2.p2.p3:pri:imperf	Km
+verb	cond:pl:m1.p1:ter:perf	Kn
+verb	cond:pl:m1.p1:ter:imperf.perf	Kn
+verb	cond:pl:m1.p1:ter:imperf	Kn
+verb	cond:pl:m1.p1:sec:perf	Ko
+verb	cond:pl:m1.p1:sec:imperf.perf	Ko
+verb	cond:pl:m1.p1:sec:imperf	Ko
+verb	cond:pl:m1.p1:pri:perf	Kp
+verb	cond:pl:m1.p1:pri:imperf.perf	Kp
+verb	cond:pl:m1.p1:pri:imperf	Kp
+other	comp	W
+other	burk	W
+other	brev:pun	W
+other	brev:npun	W
+other	bedzie:sg:ter:imperf	W
+other	bedzie:sg:sec:imperf	W
+other	bedzie:sg:pri:imperf	W
+other	bedzie:pl:ter:imperf	W
+other	bedzie:pl:sec:imperf	W
+other	bedzie:pl:pri:imperf	W
+other	aglt:sg:sec:imperf:wok	W
+other	aglt:sg:sec:imperf:nwok	W
+other	aglt:sg:pri:imperf:wok	W
+other	aglt:sg:pri:imperf:nwok	W
+other	aglt:pl:sec:imperf:wok	W
+other	aglt:pl:sec:imperf:nwok	W
+other	aglt:pl:pri:imperf:wok	W
+other	aglt:pl:pri:imperf:nwok	W
+adv-sup	adv:sup	W
+adv	adv:pos	W
+adv-com	adv:com	W
+adv	adv	W
+adj	adjp	F
+adj	adjc	E
+adj	adja	D
+adj	adj:sg:nom.voc:n1.n2:pos	Aa
+adj-com	adj:sg:nom.voc:n1.n2:com	Ba
+adj	adj:sg:nom.voc:m1.m2.m3:pos	Ab
+adj-com	adj:sg:nom.voc:m1.m2.m3:com	Bb
+adj	adj:sg:nom.voc:f:pos	Ac
+adj-com	adj:sg:nom.voc:f:com	Bc
+adj	adj:sg:loc:m1.m2.m3.n1.n2:pos	Ad
+adj-com	adj:sg:loc:m1.m2.m3.n1.n2:com	Bd
+adj	adj:sg:loc:f:pos	Ae
+adj-com	adj:sg:loc:f:com	Be
+adj	adj:sg:inst:m1.m2.m3.n1.n2:pos	Af
+adj-com	adj:sg:inst:m1.m2.m3.n1.n2:com	Bf
+adj	adj:sg:inst:f:pos	Ag
+adj-com	adj:sg:inst:f:com	Bg
+adj	adj:sg:gen:m1.m2.m3.n1.n2:pos	Ah
+adj-com	adj:sg:gen:m1.m2.m3.n1.n2:com	Bh
+adj	adj:sg:gen:f:pos	Ai
+adj-com	adj:sg:gen:f:com	Bi
+adj	adj:sg:dat:m1.m2.m3.n1.n2:pos	Aj
+adj-com	adj:sg:dat:m1.m2.m3.n1.n2:com	Bj
+adj	adj:sg:dat:f:pos	Ak
+adj-com	adj:sg:dat:f:com	Bk
+adj	adj:sg:acc:n1.n2:pos	Al
+adj-com	adj:sg:acc:n1.n2:com	Bl
+adj	adj:sg:acc:m3:pos	Am
+adj-com	adj:sg:acc:m3:com	Bm
+adj	adj:sg:acc:m1.m2:pos	An
+adj-com	adj:sg:acc:m1.m2:com	Bn
+adj	adj:sg:acc:f:pos	Ao
+adj-com	adj:sg:acc:f:com	Bo
+adj	adj:pl:nom.voc:m2.m3.f.n1.n2.p2.p3:pos	Ap
+adj-com	adj:pl:nom.voc:m2.m3.f.n1.n2.p2.p3:com	Bp
+adj	adj:pl:nom.voc:m1.p1:pos	Aq
+adj-com	adj:pl:nom.voc:m1.p1:com	Bq
+adj	adj:pl:loc:m1.m2.m3.f.n1.n2.p1.p2.p3:pos	Ar
+adj-com	adj:pl:loc:m1.m2.m3.f.n1.n2.p1.p2.p3:com	Br
+adj	adj:pl:inst:m1.m2.m3.f.n1.n2.p1.p2.p3:pos	As
+adj-com	adj:pl:inst:m1.m2.m3.f.n1.n2.p1.p2.p3:com	Bs
+adj	adj:pl:gen:m1.m2.m3.f.n1.n2.p1.p2.p3:pos	At
+adj-com	adj:pl:gen:m1.m2.m3.f.n1.n2.p1.p2.p3:com	Bt
+adj	adj:pl:dat:m1.m2.m3.f.n1.n2.p1.p2.p3:pos	Au
+adj-com	adj:pl:dat:m1.m2.m3.f.n1.n2.p1.p2.p3:com	Bu
+adj	adj:pl:acc:m2.m3.f.n1.n2.p2.p3:pos	Av
+adj-com	adj:pl:acc:m2.m3.f.n1.n2.p2.p3:com	Bv
+adj	adj:pl:acc:m1.p1:pos	Aw
+adj-com	adj:pl:acc:m1.p1:com	Bw
+verb	pacta	XYZ
+Plik freqListInterps.ml wykorzystuje plik data/interps_general.tab, skąd usunięte zostały niektóre wpisy,
+głównie dotyczące adj (powodujące dwuznaczności przy scalaniu).
+
+Pozostawione intepretacje:
+-siebie, numcol (nieobecne w SGJP) pozostają jak są
+-ppron12, ppron3 pozostają jak są
+(tzn. nie ma znalezionych odpowiedników, są pomijane)
+
+W przypadku praet, imps, imp, fin, inf, ger, pact, ppas wybrana została interpretacja najbardziej podobna
+do oryginalnej licząc od końca, co rozwiązuje problemy perf.impef, neg.aff
+
+Przekształcenia:
+-qub:wok, qub:nwok -> qub
+
+Co do num spoza SGJP:
+-jeżeli forma składa się wyłącznie z cyfr arabskich i rzymskich, wybierana jest najdłuższa interpretacja
+Zapewne w rzeczywistości powinny wtedy obejmować wszystkie możliwe tagi.
+-w przeciwnym wypadku wybierana jest najkrótsza (najwęższa) interpretacja
@@ -6,89 +6,162 @@
 \usepackage[polish]{babel}
 % \usepackage{tikz}
 % \usetikzlibrary{conceptgraph}
+\usepackage{amsthm}
  
 \parindent 0pt
 \parskip 4pt
  
-% \newcommand{\tensor}{\otimes}
-% \newcommand{\forward}{\operatorname{/}}
-% \newcommand{\backward}{\operatorname{\backslash}}
-% \newcommand{\both}{\mid}
-% \newcommand{\plus}{\oplus}
-% \newcommand{\zero}{0}
-% \newcommand{\one}{1}
-% \newcommand{\letin}[2]{{\bf let}\;#1\;{\bf in}\;#2}
-% \newcommand{\caseof}[2]{{\bf case}\;#1\;{\bf of}\;#2}
-% \newcommand{\emp}{{\bf emp}}
-% \newcommand{\inl}{{\bf inl}}
-% \newcommand{\inr}{{\bf inr}}
-% \newcommand{\coord}[1]{{#1}^\star}
-% \newcommand{\map}[2]{{\bf map}\;#1\;#2}
-% \newcommand{\concat}[1]{{\bf concat}\;#1}
-% \newcommand{\makeset}[1]{{\bf makeset}\;#1}
-% \newcommand{\maketerm}[1]{{\bf maketerm}\;#1}
-% \newcommand{\addlist}[2]{{\bf add}\;#1\;#2}
-% \newcommand{\ana}[1]{{\bf ana}(#1)}
-% \newcommand{\One}{\bullet}
-
-
-\title{Model probabilistyczny guessera dla języka polskiego}
+\newcommand{\form}{{\it form}}
+\newcommand{\lemma}{{\it lemma}}
+\newcommand{\cat}{{\it cat}}
+\newcommand{\interp}{{\it interp}}
+\newcommand{\fsuf}{{\it fsuf}}
+\newcommand{\lsuf}{{\it lsuf}}
+
+\newtheorem{task}{Zadanie}
+\newtheorem{answer}{Odpowiedź}
+
+\title{Model probabilistyczny fleksji języka polskiego}
 \author{Wojciech Jaworski}
 %\date{}
  
 \begin{document}
 \maketitle
  
-Zakładamy, że język jest rozkładem probabilistycznym na czwórkach (form,lemma,cat,interp),
+Zakładamy, że język jest rozkładem probabilistycznym na czwórkach (\form,\lemma,\cat,\interp),
 czyli, że wystąpienia kolejnych słów w tekście są od siebie niezależne.
-Interpretacja interp jest zbiorem tagów zgodnym a tagsetem SGJP.
-Kategoria $cat \in \{ noun, adj, adv, verb, other \}$
+Interpretacja \interp{} jest zbiorem tagów zgodnym a tagsetem SGJP.
+Kategoria $\cat \in \{ {\rm noun}, {\rm adj}, {\rm adv}, {\rm verb}, {\rm other} \}$
 Zakładamy też, że język jest poprawny, tzn. nie ma literówek, ani błędów gramatycznych.
  
 Dysponujemy następującymi danymi: 
 \begin{itemize}
 \item słownikiem gramatycznym S, czyli zbiorem czwórek, o których wiemy, że należą do języka;
-\item zbiorem reguł, czyli zbiorem czwórek (fsuf,lsuf,cat,interp)
+\item zbiorem reguł, czyli zbiorem czwórek (\fsuf,\lsuf,\cat,\interp)
 \item zbiorem wyjątków, czyli zbiorem czwórek, o których wiemy, że należą do języka, które nie są opisywane przez reguły
 \item otagowaną listą frekwencyjną.
 \end{itemize}
-Reguła przyłożona do formy ucina fsuf i przykleja lsuf.
+Reguła przyłożona do formy ucina \fsuf{} i przykleja \lsuf.
+
+Lista frekwencyjna wytworzona jest na podstawie NKJP1M. Usunięte zostały z niej symbole 
+(formy do których odczytania nie wystarczy znajomość reguł wymowy takie, jak liczby zapisane cyframi, oznaczenia godzin i lat,
+znaki interpunkcyjne, skróty, emotikony). Usunięte zostały również formy odmienialne z użyciem myślnika i apostrofu 
+(np. odmienione akronimy i nazwiska obce, formy takie jak ,,12-latek``). 
+Interpretacje na liście frekwencyjnej zostały skonwertowane do postaci takiej jaka występuje w SGJP, 
+łączącej interpretacje form identycznych. Na przykład interpretacje adj:pl:nom:m1:pos, adj:pl:voc:m1:pos, adj:pl:nom:p1:pos i adj:pl:voc:p1:pos 
+zostały złączone w adj:pl:nom.voc:m1.p1:pos, a frekwencje form zsumowane.
+
+Celem jest aproksymacja wartości P(\lemma,\cat,\interp|\form).
+
+%Jakość aproksymacji mierzymy licząc jak często wśród $k$ najbardziej prawdopodobnych trójek $\lemma,\cat,\interp$ 
+%wskazanych przez model dla zadanej formy znajduje się trójka poprawna. Wyniki dla poszczególnych form agregujemy 
+%za pomocą średniej ważonej po ich częstościach.
+
+%Pytanie 0: Ile wynosi powyższa miara liczona z użyciem p-stw wziętych z listy frekwencyjnej? (To jest ograniczenie górne dla modelu)
+
+%Pytanie 0': Ile wynosi powyższa miara liczona z użyciem częstości wziętych ze zbioru reguł? (To jest ograniczenie dolne dla modelu)
+
+Pierwszym kryterium jest przynależność formy do słownika S. 
+Jeśli forma należy do S zakładamy, że jedno z haseł S zawierające tę formę
+poprawnie opisuje jej lemat, kategorię i interpretację.
+
+\begin{task}
+Jakie jest prawdopodobieństwo trafienia na formę, której lemat, kategoria i interpretacja należy do słownika, czyli
+\[P((\form,\lemma,\cat,\interp) \in S)\]
+Jakie jest prawdopodobieństwo trafienia na formę, która należy do słownika, ale jej lemat, kategoria lub interpretacja należy do słownika, czyli
+\[P((\form,\lemma,\cat,\interp) \not\in S \wedge \form \in S)\]
+\end{task}
+
+\begin{answer}
+Prawdopodobieństwo natrafienia na formę należącą do słownika wynosi 95,67\%, zaś natrafienia na formę należącą do SGJP bez odpowiedniej
+interpretacji -- 3,92\% (lista tych form znajduje się w pliku traps.txt).
+\end{answer}
+
+W przypadku form należących do słownika różnorodność interpretacji będzie niewielka, 
+natomiast istotne będzie prawdopodobieństwo wystąpienia danego lematu.
+Zaś w przypadku form nie należących do słownika prawdopodobieństwo wystąpienia lematu
+będzie zawsze małe.
  
-Celem jest aproksymacja wartości P(lemma,cat,interp|form).
+Dzielimy teraz listę frekwencyjną na część należącą do S i nie należącą do S. 
+Od tej pory budujemy model osobno dla każdej z części.
  
-Pytanie 1: $P((form,lemma,cat,interp) \in S)$
+W przypadku cześci należącej do S zauważamy, że \[P(\lemma,\cat,\interp|\form)=P(\form|\lemma,\cat,\interp)\frac{P(\lemma,\cat,\interp)}{P(\form)}\]
  
-Pytanie 2: $P((form,lemma,cat,interp) \not\in S \wedge form \in S)$
+Zakładamy, że \interp{} jest niezależne od \lemma, pod warunkiem określonego \cat
+\[P(\lemma,\cat,\interp)=P(\lemma,\cat)P(\interp|\lemma,\cat)=P(\lemma,\cat)P(\interp|\cat)\]
  
-Załóżmy, że reguły i wyjątki mają postać taką, że do danej formy można zaaplikować tylko jedną z nich 
-(dla żadnej reguły sufix nie jest podciągiem innego sufixu). Wtedy
-\[P(lemma,cat,interp|form)\approx P(rule|form)=P(rule|fsuf)\]
-(W powyższym drzewie sufixowym w każdym węźle mamy dowiązania do sufixów o jeden znak dłuższych oraz kategorię pozostałe traktową łącznie
+$P(\form)$, $P(\lemma,\cat)$ i $P(\interp|\cat)$ szacujemy na podstawie listy frekwencyjnej,
+w przypadku pierwszych dwu stosując wygładzanie. Wyliczenie $P(\form)$ zawiera uogólniona lista frekwencyjna
+(ścieżka {\tt resources/NKJP1M/NKJP1M-generalized-frequency.tab} w repozytorium ENIAM), $P(\lemma,\cat)$ -- plik
+ {\tt prob\_lemmacat.txt}, zaś $P(\interp|\cat)$ -- {\tt prob\_itp\_givencat.txt} (oba zawarte w katalogu {\tt morphology/doc}).
  
-Pytanie 3: Czy faktycznie zachodzi powyższa zależność? Jak zmierzyć podobieństwo?
+$P(\form|\lemma,\cat,\interp)$ wynosi 0, gdy w S nie ma krotki postaci (\form,\lemma,\cat,\interp);
+1, gdy jest dokładnie jedna krotka z (\lemma,\cat,\interp). Gdy jest ich więcej oznacza to, że
+lemat ma przynajmniej dwa warianty odmiany. Są to przypadki rzadkie. Przypisujemy każdej z możliwości
+prawdopodobieństwo 1.
  
-Problem tu jest taki, że lista frekwencyjna jest zbyt mała by precyzyjnie określić p-stwo ok. 40000 reguł
+\begin{task}
+Przejrzeć SGJP i znaleźć wszystkie przykłady, w których dla ustalonego lematu, kategorii i interpretacji
+jest więcej niż jedna forma. Znaleźć wystąpienia tych krotek na liście frekwencyjnej.
+\end{task}
  
-\[P(rule|fsuf)=P(lsuf,cat,interp|fsuf)=P(fsuf|lsuf,cat,interp)\frac{P(lsuf,cat,interp)}{P(fsuf)}\]
+\begin{answer}
+Lista takich form znajduje się w pliku multi\_forms.txt.
+\end{answer}
  
-$P(fsuf)$ jest prawdopodobieństwem tego, że do języka należy słowo o zadanym sufixie. 
+Teraz zanalizujemy drugą część listy frekwencyjnej. 
+Załóżmy, że reguły mają postać taką, że sufiks żadnej reguły nie jest podciągiem sufixu innej z nich.
+Sufiksy reguł tworzą drzewo, które w każdym węźle ma dowiązania do sufixów o jeden znak dłuższych oraz kategorię pozostałe traktową łącznie.
+Przyjmujemy następujące założenie modelowe:
+\[P(\lemma,\cat,\interp|\form)\approx P(rule|\form)=P(rule|\fsuf)\]
+Wynika ono z tego, że mając nieznaną formę musimy oprzeć się na ogólnych regułach 
+odmiany i nie możemy korzystać z tego że ma ona jakieś konkretne brzmienie.
+Korzystamy tutaj tylko z reguł oznaczonych jako produktywne.
+
+Problem tu jest taki, że lista frekwencyjna jest zbyt mała by precyzyjnie określić p-stwo ok. 40000 reguł.
+Dlatego znowu stosujemy zabieg z prawdopodobieństwem warunkowym.
+
+\[P(rule|\fsuf)=P(\lsuf,\cat,\interp|\fsuf)=P(\fsuf|\lsuf,\cat,\interp)\frac{P(\lsuf,\cat,\interp)}{P(\fsuf)}\]
+
+$P(\fsuf)$ jest prawdopodobieństwem tego, że do języka należy słowo o zadanym sufixie. 
 Można je oszacować za pomocą listy frekwencyjnej.
  
-Zakładamy, że interp jest niezależne od lsuf, pod warunkiem określonego cat
-$P(lsuf,cat,interp)=P(lsuf,cat)P(interp|lsuf,cat)=P(lsuf,cat)P(interp|cat)$ 
+Zakładamy, że \interp{} jest niezależne od \lsuf, pod warunkiem określonego \cat
+\[P(\lsuf,\cat,\interp)=P(\lsuf,\cat)P(\interp|\lsuf,\cat)=P(\lsuf,\cat)P(\interp|\cat)\]
  
-$P(lsuf,cat)$ i $P(interp|cat)$ można oszacować na podstawie listy frekwencyjnej.
+$P(\lsuf,\cat)$ i $P(\interp|\cat)$ można oszacować na podstawie listy frekwencyjnej.
  
-$P(fsuf|lsuf,cat,interp)$ wynosi 0, gdy nie ma reguły postaci (fsuf,lsuf,cat,interp);
-1, gdy jest dokładnie jedna reguła z (lsuf,cat,interp), a gdy jest ich więcej trzeba
-oszacować z listy frekwencyjnej. 
+\begin{task}
+Oszacować $P(\fsuf)$ i $P(\lsuf,\cat)$ na podstawie listy frekwencyjnej.
+Sprawdzić dla jakich sufiksów próbka jest mała albo nie ma jej wcale. 
+\end{task}
  
-Pytanie 4: Czy powyższe przybliżenie jest poprawne, jak często jest więcej niż jedna reguła i ile wynoszą wówczas p-stwa?
+% w razie gdyby był problem można próbować dzielić sufiksy na części i założyć niezależność tych części
+
+$P(\fsuf|\lsuf,\cat,\interp)$ wynosi 0, gdy nie ma reguły postaci (\fsuf,\lsuf,\cat,\interp);
+1, gdy jest dokładnie jedna reguła z (\fsuf,\lsuf,\cat,\interp). Ustawiamy produktywność reguł tak 
+by nie pojawiało się więcej pasujących reguł. 
+
+\begin{task}
+Określić produktywność reguł i sprawdzić, czy nie ma niejednoznacznych dopasowań.
+\end{task}
  
-Pytanie 5: Co zrobić z niejednoznacznymi interpretacjami?
+\begin{task}
+Określić jakość modelu.
+\end{task}
  
-Zadania poboczne: wytworzenie otagowanej listy frekwencyjnej, wytworzenie zbioru reguł, wskazanie, które reguły opisują sytuacje wyjątkowe.
+\begin{answer}
+Wyliczona jakość modelu (stopień pokrycia listy frekwencyjnej przez co najmniej 95\% najbardziej prawdopodobnych interpretacji wg modelu) wyniosła 79,90\%.
+\end{answer}
+
+%czasowniki produktywne to te z lematem ać ować ywać, ić, yć, (nąć)
+
+Pytanie 4: Czy powyższe przybliżenie jest poprawne, jak często jest więcej niż jedna reguła i ile wynoszą wówczas p-stwa?
+
+Zadania poboczne: wytworzenie otagowanej listy frekwencyjnej, wytworzenie (uzupełnienie) zbioru reguł na podstawie SGJP i listy frekwencyjnej, wskazanie, które reguły opisują sytuacje wyjątkowe.
  
 Zadanie na przyszłość: reguły słowotwórstwa i ich interpretacja semantyczna.
  
-\end{document}
 \ No newline at end of file
+Do powyższego modelu trzeba jeszcze dodać prefixy nie i naj.
+
+\end{document}