Commit 13ac1d32d854c79d7b1eccc6a6a0e1994f417d28

Authored by Katarzyna Krasnowska
1 parent 0dfb2dfb

added the dataset

pdb_c_beta/pdb_c_beta.py 0 โ†’ 100644
  1 +# coding=utf-8
  2 +# Copyright 2020 HuggingFace Datasets Authors.
  3 +#
  4 +# Licensed under the Apache License, Version 2.0 (the "License");
  5 +# you may not use this file except in compliance with the License.
  6 +# You may obtain a copy of the License at
  7 +#
  8 +# http://www.apache.org/licenses/LICENSE-2.0
  9 +#
  10 +# Unless required by applicable law or agreed to in writing, software
  11 +# distributed under the License is distributed on an "AS IS" BASIS,
  12 +# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  13 +# See the License for the specific language governing permissions and
  14 +# limitations under the License.
  15 +
  16 +# Lint as: python3
  17 +"""PDB_C constituency treebank of Polish"""
  18 +
  19 +import datasets
  20 +import json
  21 +
  22 +
  23 +logger = datasets.logging.get_logger(__name__)
  24 +
  25 +
  26 +_CITATION = """\
  27 +@article{
  28 +}
  29 +"""
  30 +
  31 +_DESCRIPTION = """\
  32 +
  33 +"""
  34 +
  35 +_URLS = {
  36 + 'train': "treebank_train.jsonl.gz",
  37 + 'dev': "treebank_dev.jsonl.gz",
  38 + 'test': "treebank_test.jsonl.gz",
  39 +}
  40 +
  41 +
  42 +class TreebankConfig(datasets.BuilderConfig):
  43 + """BuilderConfig for Treebank"""
  44 +
  45 + def __init__(self, **kwargs):
  46 + """BuilderConfig forTreebank.
  47 +
  48 + Args:
  49 + **kwargs: keyword arguments forwarded to super.
  50 + """
  51 + super(TreebankConfig, self).__init__(**kwargs)
  52 +
  53 +
  54 +class Treebank(datasets.GeneratorBasedBuilder):
  55 + """Treebank dataset."""
  56 +
  57 + BUILDER_CONFIGS = [
  58 + TreebankConfig(name="pdb_c_beta",
  59 + version=datasets.Version("0.2.0"),
  60 + description="PDB_C treebank"),
  61 + ]
  62 +
  63 + def _info(self):
  64 + return datasets.DatasetInfo(
  65 + description=_DESCRIPTION,
  66 + features=datasets.Features(
  67 + {
  68 + "corp_id": datasets.Value("string"),
  69 + "sent_id": datasets.Value("string"),
  70 + "tokens": datasets.Sequence(datasets.Value("string")),
  71 + "lemmas": datasets.Sequence(datasets.Value("string")),
  72 + "cposes": datasets.Sequence(
  73 + datasets.features.ClassLabel(
  74 + names=[
  75 + 'A',
  76 + 'Adv',
  77 + 'Comp',
  78 + 'Conj',
  79 + 'Dig',
  80 + 'Interj',
  81 + 'Num',
  82 + 'Prep',
  83 + 'Punct',
  84 + 'S',
  85 + 'V',
  86 + 'X',
  87 + ]
  88 + )
  89 + ),
  90 + "poses": datasets.Sequence(
  91 + datasets.features.ClassLabel(
  92 + names=[
  93 + 'adj',
  94 + 'adja',
  95 + 'adjc',
  96 + 'adjp',
  97 + 'adv',
  98 + 'aglt',
  99 + 'bedzie',
  100 + 'brev',
  101 + 'comp',
  102 + 'conj',
  103 + 'depr',
  104 + 'dig',
  105 + 'fin',
  106 + 'frag',
  107 + 'ger',
  108 + 'imps',
  109 + 'impt',
  110 + 'inf',
  111 + 'interj',
  112 + 'interp',
  113 + 'num',
  114 + 'numcomp',
  115 + 'pact',
  116 + 'pacta',
  117 + 'pant',
  118 + 'part',
  119 + 'pcon',
  120 + 'ppas',
  121 + 'ppron12',
  122 + 'ppron3',
  123 + 'praet',
  124 + 'pred',
  125 + 'prep',
  126 + 'romandig',
  127 + 'siebie',
  128 + 'subst',
  129 + 'sym',
  130 + 'winien',
  131 + 'xxs',
  132 + 'xxx',
  133 + 'ign',
  134 + ])),
  135 + "tags": datasets.Sequence(
  136 + datasets.features.ClassLabel(
  137 + names=[ # TAGS START
  138 + 'adj:pl:acc:f:com',
  139 + 'adj:pl:acc:f:pos',
  140 + 'adj:pl:acc:f:sup',
  141 + 'adj:pl:acc:m1:com',
  142 + 'adj:pl:acc:m1:pos',
  143 + 'adj:pl:acc:m1:sup',
  144 + 'adj:pl:acc:m2:pos',
  145 + 'adj:pl:acc:m2:sup',
  146 + 'adj:pl:acc:m3:com',
  147 + 'adj:pl:acc:m3:pos',
  148 + 'adj:pl:acc:m3:sup',
  149 + 'adj:pl:acc:n:com',
  150 + 'adj:pl:acc:n:pos',
  151 + 'adj:pl:acc:n:sup',
  152 + 'adj:pl:dat:f:com',
  153 + 'adj:pl:dat:f:pos',
  154 + 'adj:pl:dat:m1:com',
  155 + 'adj:pl:dat:m1:pos',
  156 + 'adj:pl:dat:m1:sup',
  157 + 'adj:pl:dat:m2:pos',
  158 + 'adj:pl:dat:m3:com',
  159 + 'adj:pl:dat:m3:pos',
  160 + 'adj:pl:dat:n:pos',
  161 + 'adj:pl:dat:n:sup',
  162 + 'adj:pl:gen:f:com',
  163 + 'adj:pl:gen:f:pos',
  164 + 'adj:pl:gen:f:sup',
  165 + 'adj:pl:gen:m1:com',
  166 + 'adj:pl:gen:m1:pos',
  167 + 'adj:pl:gen:m1:sup',
  168 + 'adj:pl:gen:m2:pos',
  169 + 'adj:pl:gen:m2:sup',
  170 + 'adj:pl:gen:m3:com',
  171 + 'adj:pl:gen:m3:pos',
  172 + 'adj:pl:gen:m3:sup',
  173 + 'adj:pl:gen:n:com',
  174 + 'adj:pl:gen:n:pos',
  175 + 'adj:pl:gen:n:sup',
  176 + 'adj:pl:inst:f:com',
  177 + 'adj:pl:inst:f:pos',
  178 + 'adj:pl:inst:f:sup',
  179 + 'adj:pl:inst:m1:pos',
  180 + 'adj:pl:inst:m1:sup',
  181 + 'adj:pl:inst:m2:pos',
  182 + 'adj:pl:inst:m3:com',
  183 + 'adj:pl:inst:m3:pos',
  184 + 'adj:pl:inst:m3:sup',
  185 + 'adj:pl:inst:n:pos',
  186 + 'adj:pl:inst:n:sup',
  187 + 'adj:pl:loc:f:com',
  188 + 'adj:pl:loc:f:pos',
  189 + 'adj:pl:loc:f:sup',
  190 + 'adj:pl:loc:m1:pos',
  191 + 'adj:pl:loc:m1:sup',
  192 + 'adj:pl:loc:m2:pos',
  193 + 'adj:pl:loc:m3:com',
  194 + 'adj:pl:loc:m3:pos',
  195 + 'adj:pl:loc:m3:sup',
  196 + 'adj:pl:loc:n:com',
  197 + 'adj:pl:loc:n:pos',
  198 + 'adj:pl:loc:n:sup',
  199 + 'adj:pl:nom:f:com',
  200 + 'adj:pl:nom:f:pos',
  201 + 'adj:pl:nom:f:sup',
  202 + 'adj:pl:nom:m1:com',
  203 + 'adj:pl:nom:m1:pos',
  204 + 'adj:pl:nom:m1:sup',
  205 + 'adj:pl:nom:m2:com',
  206 + 'adj:pl:nom:m2:pos',
  207 + 'adj:pl:nom:m3:com',
  208 + 'adj:pl:nom:m3:pos',
  209 + 'adj:pl:nom:m3:sup',
  210 + 'adj:pl:nom:n:com',
  211 + 'adj:pl:nom:n:pos',
  212 + 'adj:pl:nom:n:sup',
  213 + 'adj:pl:voc:f:pos',
  214 + 'adj:pl:voc:m1:pos',
  215 + 'adj:sg:acc:f:com',
  216 + 'adj:sg:acc:f:pos',
  217 + 'adj:sg:acc:f:sup',
  218 + 'adj:sg:acc:m1:com',
  219 + 'adj:sg:acc:m1:pos',
  220 + 'adj:sg:acc:m1:sup',
  221 + 'adj:sg:acc:m2:com',
  222 + 'adj:sg:acc:m2:pos',
  223 + 'adj:sg:acc:m2:sup',
  224 + 'adj:sg:acc:m3:com',
  225 + 'adj:sg:acc:m3:pos',
  226 + 'adj:sg:acc:m3:sup',
  227 + 'adj:sg:acc:n:com',
  228 + 'adj:sg:acc:n:pos',
  229 + 'adj:sg:acc:n:sup',
  230 + 'adj:sg:dat:f:com',
  231 + 'adj:sg:dat:f:pos',
  232 + 'adj:sg:dat:f:sup',
  233 + 'adj:sg:dat:m1:pos',
  234 + 'adj:sg:dat:m2:pos',
  235 + 'adj:sg:dat:m3:com',
  236 + 'adj:sg:dat:m3:pos',
  237 + 'adj:sg:dat:n:com',
  238 + 'adj:sg:dat:n:pos',
  239 + 'adj:sg:gen:f:com',
  240 + 'adj:sg:gen:f:pos',
  241 + 'adj:sg:gen:f:sup',
  242 + 'adj:sg:gen:m1:com',
  243 + 'adj:sg:gen:m1:pos',
  244 + 'adj:sg:gen:m1:sup',
  245 + 'adj:sg:gen:m2:com',
  246 + 'adj:sg:gen:m2:pos',
  247 + 'adj:sg:gen:m2:sup',
  248 + 'adj:sg:gen:m3:com',
  249 + 'adj:sg:gen:m3:pos',
  250 + 'adj:sg:gen:m3:sup',
  251 + 'adj:sg:gen:n:com',
  252 + 'adj:sg:gen:n:pos',
  253 + 'adj:sg:gen:n:sup',
  254 + 'adj:sg:inst:f:com',
  255 + 'adj:sg:inst:f:pos',
  256 + 'adj:sg:inst:f:sup',
  257 + 'adj:sg:inst:m1:com',
  258 + 'adj:sg:inst:m1:pos',
  259 + 'adj:sg:inst:m1:sup',
  260 + 'adj:sg:inst:m2:pos',
  261 + 'adj:sg:inst:m3:com',
  262 + 'adj:sg:inst:m3:pos',
  263 + 'adj:sg:inst:m3:sup',
  264 + 'adj:sg:inst:n:com',
  265 + 'adj:sg:inst:n:pos',
  266 + 'adj:sg:inst:n:sup',
  267 + 'adj:sg:loc:f:com',
  268 + 'adj:sg:loc:f:pos',
  269 + 'adj:sg:loc:f:sup',
  270 + 'adj:sg:loc:m1:com',
  271 + 'adj:sg:loc:m1:pos',
  272 + 'adj:sg:loc:m2:com',
  273 + 'adj:sg:loc:m2:pos',
  274 + 'adj:sg:loc:m3:com',
  275 + 'adj:sg:loc:m3:pos',
  276 + 'adj:sg:loc:m3:sup',
  277 + 'adj:sg:loc:n:com',
  278 + 'adj:sg:loc:n:pos',
  279 + 'adj:sg:loc:n:sup',
  280 + 'adj:sg:nom:f:com',
  281 + 'adj:sg:nom:f:pos',
  282 + 'adj:sg:nom:f:sup',
  283 + 'adj:sg:nom:m1:com',
  284 + 'adj:sg:nom:m1:pos',
  285 + 'adj:sg:nom:m1:sup',
  286 + 'adj:sg:nom:m2:pos',
  287 + 'adj:sg:nom:m3:com',
  288 + 'adj:sg:nom:m3:pos',
  289 + 'adj:sg:nom:m3:sup',
  290 + 'adj:sg:nom:n:com',
  291 + 'adj:sg:nom:n:pos',
  292 + 'adj:sg:nom:n:sup',
  293 + 'adj:sg:voc:f:pos',
  294 + 'adj:sg:voc:m1:pos',
  295 + 'adj:sg:voc:m2:pos',
  296 + 'adj:sg:voc:m3:pos',
  297 + 'adj:sg:voc:n:pos',
  298 + 'adja',
  299 + 'adjc',
  300 + 'adjp:dat',
  301 + 'adjp:gen',
  302 + 'adv',
  303 + 'adv:com',
  304 + 'adv:pos',
  305 + 'adv:sup',
  306 + 'aglt:pl:pri:imperf:nwok',
  307 + 'aglt:pl:sec:imperf:nwok',
  308 + 'aglt:sg:pri:imperf:nwok',
  309 + 'aglt:sg:pri:imperf:wok',
  310 + 'aglt:sg:sec:imperf:nwok',
  311 + 'aglt:sg:sec:imperf:wok',
  312 + 'bedzie:pl:pri:imperf',
  313 + 'bedzie:pl:sec:imperf',
  314 + 'bedzie:pl:ter:imperf',
  315 + 'bedzie:sg:pri:imperf',
  316 + 'bedzie:sg:sec:imperf',
  317 + 'bedzie:sg:ter:imperf',
  318 + 'brev:npun',
  319 + 'brev:pun',
  320 + 'comp',
  321 + 'conj',
  322 + 'depr:pl:acc:m2',
  323 + 'depr:pl:nom:m2',
  324 + 'depr:pl:voc:m2',
  325 + 'depr:sg:acc:m2',
  326 + 'dig',
  327 + 'fin:pl:pri:imperf',
  328 + 'fin:pl:pri:perf',
  329 + 'fin:pl:sec:imperf',
  330 + 'fin:pl:sec:perf',
  331 + 'fin:pl:ter:imperf',
  332 + 'fin:pl:ter:perf',
  333 + 'fin:sg:pri:imperf',
  334 + 'fin:sg:pri:perf',
  335 + 'fin:sg:sec:imperf',
  336 + 'fin:sg:sec:perf',
  337 + 'fin:sg:ter:imperf',
  338 + 'fin:sg:ter:perf',
  339 + 'frag',
  340 + 'ger:pl:acc:n:imperf:aff',
  341 + 'ger:pl:acc:n:perf:aff',
  342 + 'ger:pl:dat:n:imperf:aff',
  343 + 'ger:pl:dat:n:perf:aff',
  344 + 'ger:pl:gen:n:imperf:aff',
  345 + 'ger:pl:gen:n:perf:aff',
  346 + 'ger:pl:inst:n:perf:aff',
  347 + 'ger:pl:loc:n:imperf:aff',
  348 + 'ger:pl:loc:n:perf:aff',
  349 + 'ger:pl:nom:n:imperf:aff',
  350 + 'ger:pl:nom:n:perf:aff',
  351 + 'ger:sg:acc:n:imperf:aff',
  352 + 'ger:sg:acc:n:imperf:neg',
  353 + 'ger:sg:acc:n:perf:aff',
  354 + 'ger:sg:acc:n:perf:neg',
  355 + 'ger:sg:dat:n:imperf:aff',
  356 + 'ger:sg:dat:n:perf:aff',
  357 + 'ger:sg:gen:n:imperf:aff',
  358 + 'ger:sg:gen:n:imperf:neg',
  359 + 'ger:sg:gen:n:perf:aff',
  360 + 'ger:sg:gen:n:perf:neg',
  361 + 'ger:sg:inst:n:imperf:aff',
  362 + 'ger:sg:inst:n:imperf:neg',
  363 + 'ger:sg:inst:n:perf:aff',
  364 + 'ger:sg:inst:n:perf:neg',
  365 + 'ger:sg:loc:n:imperf:aff',
  366 + 'ger:sg:loc:n:imperf:neg',
  367 + 'ger:sg:loc:n:perf:aff',
  368 + 'ger:sg:nom:n:imperf:aff',
  369 + 'ger:sg:nom:n:imperf:neg',
  370 + 'ger:sg:nom:n:perf:aff',
  371 + 'ger:sg:nom:n:perf:neg',
  372 + 'ign',
  373 + 'imps:imperf',
  374 + 'imps:perf',
  375 + 'impt:pl:pri:imperf',
  376 + 'impt:pl:pri:perf',
  377 + 'impt:pl:sec:imperf',
  378 + 'impt:pl:sec:perf',
  379 + 'impt:sg:sec:imperf',
  380 + 'impt:sg:sec:perf',
  381 + 'inf:imperf',
  382 + 'inf:perf',
  383 + 'interj',
  384 + 'interp',
  385 + 'num:pl:acc:f:congr',
  386 + 'num:pl:acc:f:congr:ncol',
  387 + 'num:pl:acc:f:rec',
  388 + 'num:pl:acc:f:rec:ncol',
  389 + 'num:pl:acc:m1:congr',
  390 + 'num:pl:acc:m1:rec',
  391 + 'num:pl:acc:m1:rec:col',
  392 + 'num:pl:acc:m1:rec:ncol',
  393 + 'num:pl:acc:m2:congr',
  394 + 'num:pl:acc:m2:congr:ncol',
  395 + 'num:pl:acc:m2:rec',
  396 + 'num:pl:acc:m2:rec:ncol',
  397 + 'num:pl:acc:m3:congr',
  398 + 'num:pl:acc:m3:congr:ncol',
  399 + 'num:pl:acc:m3:rec',
  400 + 'num:pl:acc:m3:rec:ncol',
  401 + 'num:pl:acc:m3:rec:nol',
  402 + 'num:pl:acc:n:congr',
  403 + 'num:pl:acc:n:congr:ncol',
  404 + 'num:pl:acc:n:rec',
  405 + 'num:pl:acc:n:rec:col',
  406 + 'num:pl:acc:n:rec:ncol',
  407 + 'num:pl:dat:f:congr',
  408 + 'num:pl:dat:f:congr:ncol',
  409 + 'num:pl:dat:m1:congr',
  410 + 'num:pl:dat:m1:congr:ncol',
  411 + 'num:pl:dat:m3:congr',
  412 + 'num:pl:dat:n:congr:ncol',
  413 + 'num:pl:gen:f:congr',
  414 + 'num:pl:gen:f:congr:ncol',
  415 + 'num:pl:gen:f:rec',
  416 + 'num:pl:gen:m1:congr',
  417 + 'num:pl:gen:m1:congr:ncol',
  418 + 'num:pl:gen:m1:rec:col',
  419 + 'num:pl:gen:m2:congr',
  420 + 'num:pl:gen:m2:congr:ncol',
  421 + 'num:pl:gen:m2:rec',
  422 + 'num:pl:gen:m3:congr',
  423 + 'num:pl:gen:m3:congr:ncol',
  424 + 'num:pl:gen:m3:rec',
  425 + 'num:pl:gen:n:congr',
  426 + 'num:pl:gen:n:congr:ncol',
  427 + 'num:pl:gen:n:rec',
  428 + 'num:pl:gen:n:rec:col',
  429 + 'num:pl:gen:n:rec:ncol',
  430 + 'num:pl:inst:f:congr',
  431 + 'num:pl:inst:f:congr:ncol',
  432 + 'num:pl:inst:m1:congr',
  433 + 'num:pl:inst:m1:congr:ncol',
  434 + 'num:pl:inst:m2:congr',
  435 + 'num:pl:inst:m2:congr:ncol',
  436 + 'num:pl:inst:m3:congr',
  437 + 'num:pl:inst:m3:congr:ncol',
  438 + 'num:pl:inst:m3:rec',
  439 + 'num:pl:inst:n:congr:ncol',
  440 + 'num:pl:inst:n:rec',
  441 + 'num:pl:inst:n:rec:col',
  442 + 'num:pl:loc:f:congr',
  443 + 'num:pl:loc:f:congr:ncol',
  444 + 'num:pl:loc:f:rec',
  445 + 'num:pl:loc:m1:congr',
  446 + 'num:pl:loc:m1:congr:col',
  447 + 'num:pl:loc:m3:congr',
  448 + 'num:pl:loc:m3:congr:ncol',
  449 + 'num:pl:loc:m3:rec',
  450 + 'num:pl:loc:n:congr',
  451 + 'num:pl:loc:n:congr:ncol',
  452 + 'num:pl:nom:f:congr',
  453 + 'num:pl:nom:f:congr:ncol',
  454 + 'num:pl:nom:f:rec',
  455 + 'num:pl:nom:f:rec:ncol',
  456 + 'num:pl:nom:m1:congr',
  457 + 'num:pl:nom:m1:congr:ncol',
  458 + 'num:pl:nom:m1:rec',
  459 + 'num:pl:nom:m1:rec:col',
  460 + 'num:pl:nom:m1:rec:ncol',
  461 + 'num:pl:nom:m2:congr',
  462 + 'num:pl:nom:m2:congr:ncol',
  463 + 'num:pl:nom:m2:rec',
  464 + 'num:pl:nom:m2:rec:ncol',
  465 + 'num:pl:nom:m3:congr',
  466 + 'num:pl:nom:m3:congr:ncol',
  467 + 'num:pl:nom:m3:rec',
  468 + 'num:pl:nom:m3:rec:ncol',
  469 + 'num:pl:nom:n:congr:ncol',
  470 + 'num:pl:nom:n:rec',
  471 + 'num:pl:nom:n:rec:col',
  472 + 'num:pl:nom:n:rec:ncol',
  473 + 'num:sg:acc:f:rec',
  474 + 'num:sg:acc:m3:rec',
  475 + 'num:sg:acc:n:rec',
  476 + 'num:sg:acc:n:rec:ncol',
  477 + 'num:sg:gen:f:rec',
  478 + 'num:sg:gen:m2:congr',
  479 + 'num:sg:gen:m3:congr',
  480 + 'num:sg:gen:m3:rec',
  481 + 'num:sg:gen:n:congr:ncol',
  482 + 'num:sg:gen:n:rec:ncol',
  483 + 'num:sg:loc:f:rec',
  484 + 'num:sg:loc:m3:rec',
  485 + 'num:sg:nom:f:rec',
  486 + 'num:sg:nom:m3:congr',
  487 + 'num:sg:nom:m3:rec',
  488 + 'num:sg:nom:n:rec',
  489 + 'num:sg:nom:n:rec:ncol',
  490 + 'pact:pl:acc:f:imperf:aff',
  491 + 'pact:pl:acc:m1:imperf:aff',
  492 + 'pact:pl:acc:m2:imperf:aff',
  493 + 'pact:pl:acc:m3:imperf:aff',
  494 + 'pact:pl:acc:m3:imperf:neg',
  495 + 'pact:pl:acc:n:imperf:aff',
  496 + 'pact:pl:acc:n:imperf:neg',
  497 + 'pact:pl:dat:f:imperf:aff',
  498 + 'pact:pl:dat:m1:imperf:aff',
  499 + 'pact:pl:dat:m3:imperf:aff',
  500 + 'pact:pl:dat:n:imperf:aff',
  501 + 'pact:pl:gen:f:imperf:aff',
  502 + 'pact:pl:gen:f:imperf:neg',
  503 + 'pact:pl:gen:m1:imperf:aff',
  504 + 'pact:pl:gen:m2:imperf:aff',
  505 + 'pact:pl:gen:m3:imperf:aff',
  506 + 'pact:pl:gen:m3:imperf:neg',
  507 + 'pact:pl:gen:n:imperf:aff',
  508 + 'pact:pl:inst:f:imperf:aff',
  509 + 'pact:pl:inst:m1:imperf:aff',
  510 + 'pact:pl:inst:m3:imperf:aff',
  511 + 'pact:pl:inst:n:imperf:aff',
  512 + 'pact:pl:loc:f:imperf:aff',
  513 + 'pact:pl:loc:m1:imperf:aff',
  514 + 'pact:pl:loc:m3:imperf:aff',
  515 + 'pact:pl:loc:n:imperf:aff',
  516 + 'pact:pl:nom:f:imperf:aff',
  517 + 'pact:pl:nom:m1:imperf:aff',
  518 + 'pact:pl:nom:m2:imperf:aff',
  519 + 'pact:pl:nom:m3:imperf:aff',
  520 + 'pact:pl:nom:n:imperf:aff',
  521 + 'pact:pl:nom:n:imperf:neg',
  522 + 'pact:sg:acc:f:imperf:aff',
  523 + 'pact:sg:acc:f:imperf:neg',
  524 + 'pact:sg:acc:m1:imperf:aff',
  525 + 'pact:sg:acc:m2:imperf:aff',
  526 + 'pact:sg:acc:m3:imperf:aff',
  527 + 'pact:sg:acc:n:imperf:aff',
  528 + 'pact:sg:dat:f:imperf:aff',
  529 + 'pact:sg:dat:m1:imperf:aff',
  530 + 'pact:sg:dat:m3:imperf:aff',
  531 + 'pact:sg:dat:n:imperf:aff',
  532 + 'pact:sg:gen:f:imperf:aff',
  533 + 'pact:sg:gen:m1:imperf:aff',
  534 + 'pact:sg:gen:m1:imperf:neg',
  535 + 'pact:sg:gen:m2:imperf:aff',
  536 + 'pact:sg:gen:m3:imperf:aff',
  537 + 'pact:sg:gen:n:imperf:aff',
  538 + 'pact:sg:inst:f:imperf:aff',
  539 + 'pact:sg:inst:m1:imperf:aff',
  540 + 'pact:sg:inst:m1:imperf:neg',
  541 + 'pact:sg:inst:m2:imperf:aff',
  542 + 'pact:sg:inst:m3:imperf:aff',
  543 + 'pact:sg:inst:n:imperf:aff',
  544 + 'pact:sg:loc:f:imperf:aff',
  545 + 'pact:sg:loc:m1:imperf:aff',
  546 + 'pact:sg:loc:m3:imperf:aff',
  547 + 'pact:sg:loc:n:imperf:aff',
  548 + 'pact:sg:nom:f:imperf:aff',
  549 + 'pact:sg:nom:m1:imperf:aff',
  550 + 'pact:sg:nom:m1:imperf:neg',
  551 + 'pact:sg:nom:m2:imperf:aff',
  552 + 'pact:sg:nom:m3:imperf:aff',
  553 + 'pact:sg:nom:n:imperf:aff',
  554 + 'pact:sg:voc:m1:imperf:aff',
  555 + 'pant:perf',
  556 + 'part',
  557 + 'part:wok',
  558 + 'pcon:imperf',
  559 + 'ppas:pl:acc:f:imperf:aff',
  560 + 'ppas:pl:acc:f:perf:aff',
  561 + 'ppas:pl:acc:f:perf:neg',
  562 + 'ppas:pl:acc:m1:imperf:aff',
  563 + 'ppas:pl:acc:m1:perf:aff',
  564 + 'ppas:pl:acc:m2:imperf:aff',
  565 + 'ppas:pl:acc:m2:perf:aff',
  566 + 'ppas:pl:acc:m3:imperf:aff',
  567 + 'ppas:pl:acc:m3:perf:aff',
  568 + 'ppas:pl:acc:m3:perf:neg',
  569 + 'ppas:pl:acc:n:imperf:aff',
  570 + 'ppas:pl:acc:n:perf:aff',
  571 + 'ppas:pl:dat:f:imperf:aff',
  572 + 'ppas:pl:dat:f:perf:aff',
  573 + 'ppas:pl:dat:m1:perf:aff',
  574 + 'ppas:pl:dat:n:imperf:aff',
  575 + 'ppas:pl:dat:n:perf:aff',
  576 + 'ppas:pl:gen:f:imperf:aff',
  577 + 'ppas:pl:gen:f:imperf:neg',
  578 + 'ppas:pl:gen:f:perf:aff',
  579 + 'ppas:pl:gen:f:perf:neg',
  580 + 'ppas:pl:gen:m1:imperf:aff',
  581 + 'ppas:pl:gen:m1:perf:aff',
  582 + 'ppas:pl:gen:m2:imperf:aff',
  583 + 'ppas:pl:gen:m2:perf:aff',
  584 + 'ppas:pl:gen:m3:imperf:aff',
  585 + 'ppas:pl:gen:m3:perf:aff',
  586 + 'ppas:pl:gen:m3:perf:neg',
  587 + 'ppas:pl:gen:n:imperf:aff',
  588 + 'ppas:pl:gen:n:imperf:neg',
  589 + 'ppas:pl:gen:n:perf:aff',
  590 + 'ppas:pl:gen:n:perf:neg',
  591 + 'ppas:pl:inst:f:imperf:aff',
  592 + 'ppas:pl:inst:f:perf:aff',
  593 + 'ppas:pl:inst:m1:perf:aff',
  594 + 'ppas:pl:inst:m2:perf:aff',
  595 + 'ppas:pl:inst:m3:imperf:aff',
  596 + 'ppas:pl:inst:m3:perf:aff',
  597 + 'ppas:pl:inst:n:imperf:aff',
  598 + 'ppas:pl:inst:n:perf:aff',
  599 + 'ppas:pl:loc:f:imperf:aff',
  600 + 'ppas:pl:loc:f:perf:aff',
  601 + 'ppas:pl:loc:m1:imperf:aff',
  602 + 'ppas:pl:loc:m2:perf:aff',
  603 + 'ppas:pl:loc:m3:imperf:aff',
  604 + 'ppas:pl:loc:m3:perf:aff',
  605 + 'ppas:pl:loc:n:imperf:aff',
  606 + 'ppas:pl:loc:n:perf:aff',
  607 + 'ppas:pl:nom:f:imperf:aff',
  608 + 'ppas:pl:nom:f:perf:aff',
  609 + 'ppas:pl:nom:f:perf:neg',
  610 + 'ppas:pl:nom:m1:imperf:aff',
  611 + 'ppas:pl:nom:m1:perf:aff',
  612 + 'ppas:pl:nom:m1:perf:neg',
  613 + 'ppas:pl:nom:m2:imperf:aff',
  614 + 'ppas:pl:nom:m2:perf:aff',
  615 + 'ppas:pl:nom:m3:imperf:aff',
  616 + 'ppas:pl:nom:m3:perf:aff',
  617 + 'ppas:pl:nom:m3:perf:neg',
  618 + 'ppas:pl:nom:n:imperf:aff',
  619 + 'ppas:pl:nom:n:perf:aff',
  620 + 'ppas:pl:nom:n:perf:neg',
  621 + 'ppas:sg:acc:f:imperf:aff',
  622 + 'ppas:sg:acc:f:imperf:neg',
  623 + 'ppas:sg:acc:f:perf:aff',
  624 + 'ppas:sg:acc:f:perf:neg',
  625 + 'ppas:sg:acc:m1:imperf:aff',
  626 + 'ppas:sg:acc:m1:perf:aff',
  627 + 'ppas:sg:acc:m2:perf:aff',
  628 + 'ppas:sg:acc:m3:imperf:aff',
  629 + 'ppas:sg:acc:m3:imperf:neg',
  630 + 'ppas:sg:acc:m3:perf:aff',
  631 + 'ppas:sg:acc:m3:perf:neg',
  632 + 'ppas:sg:acc:n:imperf:aff',
  633 + 'ppas:sg:acc:n:perf:aff',
  634 + 'ppas:sg:acc:n:perf:neg',
  635 + 'ppas:sg:dat:f:perf:aff',
  636 + 'ppas:sg:dat:m1:imperf:aff',
  637 + 'ppas:sg:dat:m1:perf:aff',
  638 + 'ppas:sg:dat:m3:imperf:aff',
  639 + 'ppas:sg:dat:m3:perf:aff',
  640 + 'ppas:sg:dat:n:imperf:aff',
  641 + 'ppas:sg:dat:n:perf:aff',
  642 + 'ppas:sg:gen:f:imperf:aff',
  643 + 'ppas:sg:gen:f:imperf:neg',
  644 + 'ppas:sg:gen:f:perf:aff',
  645 + 'ppas:sg:gen:f:perf:neg',
  646 + 'ppas:sg:gen:m1:imperf:aff',
  647 + 'ppas:sg:gen:m1:perf:aff',
  648 + 'ppas:sg:gen:m1:perf:neg',
  649 + 'ppas:sg:gen:m2:perf:aff',
  650 + 'ppas:sg:gen:m3:imperf:aff',
  651 + 'ppas:sg:gen:m3:imperf:neg',
  652 + 'ppas:sg:gen:m3:perf:aff',
  653 + 'ppas:sg:gen:m3:perf:neg',
  654 + 'ppas:sg:gen:n:imperf:aff',
  655 + 'ppas:sg:gen:n:imperf:neg',
  656 + 'ppas:sg:gen:n:perf:aff',
  657 + 'ppas:sg:inst:f:imperf:aff',
  658 + 'ppas:sg:inst:f:imperf:neg',
  659 + 'ppas:sg:inst:f:perf:aff',
  660 + 'ppas:sg:inst:f:perf:neg',
  661 + 'ppas:sg:inst:m1:imperf:aff',
  662 + 'ppas:sg:inst:m1:imperf:neg',
  663 + 'ppas:sg:inst:m1:perf:aff',
  664 + 'ppas:sg:inst:m1:perf:neg',
  665 + 'ppas:sg:inst:m2:perf:aff',
  666 + 'ppas:sg:inst:m3:imperf:aff',
  667 + 'ppas:sg:inst:m3:perf:aff',
  668 + 'ppas:sg:inst:n:imperf:aff',
  669 + 'ppas:sg:inst:n:perf:aff',
  670 + 'ppas:sg:inst:n:perf:neg',
  671 + 'ppas:sg:loc:f:imperf:aff',
  672 + 'ppas:sg:loc:f:perf:aff',
  673 + 'ppas:sg:loc:m1:perf:aff',
  674 + 'ppas:sg:loc:m2:imperf:aff',
  675 + 'ppas:sg:loc:m2:perf:aff',
  676 + 'ppas:sg:loc:m3:imperf:aff',
  677 + 'ppas:sg:loc:m3:perf:aff',
  678 + 'ppas:sg:loc:m3:perf:neg',
  679 + 'ppas:sg:loc:n:imperf:aff',
  680 + 'ppas:sg:loc:n:perf:aff',
  681 + 'ppas:sg:nom:f:imperf:aff',
  682 + 'ppas:sg:nom:f:imperf:neg',
  683 + 'ppas:sg:nom:f:perf:aff',
  684 + 'ppas:sg:nom:f:perf:neg',
  685 + 'ppas:sg:nom:m1:imperf:aff',
  686 + 'ppas:sg:nom:m1:perf:aff',
  687 + 'ppas:sg:nom:m1:perf:neg',
  688 + 'ppas:sg:nom:m2:imperf:aff',
  689 + 'ppas:sg:nom:m2:perf:aff',
  690 + 'ppas:sg:nom:m3:imperf:aff',
  691 + 'ppas:sg:nom:m3:imperf:neg',
  692 + 'ppas:sg:nom:m3:perf:aff',
  693 + 'ppas:sg:nom:m3:perf:neg',
  694 + 'ppas:sg:nom:n:imperf:aff',
  695 + 'ppas:sg:nom:n:perf:aff',
  696 + 'ppas:sg:nom:n:perf:neg',
  697 + 'ppron12:pl:acc:m1:pri',
  698 + 'ppron12:pl:acc:m1:sec',
  699 + 'ppron12:pl:acc:n:pri',
  700 + 'ppron12:pl:dat:m1:pri',
  701 + 'ppron12:pl:dat:m1:sec',
  702 + 'ppron12:pl:gen:m1:pri',
  703 + 'ppron12:pl:gen:m1:sec',
  704 + 'ppron12:pl:inst:m1:pri',
  705 + 'ppron12:pl:inst:m1:sec',
  706 + 'ppron12:pl:loc:m1:pri',
  707 + 'ppron12:pl:nom:m1:pri',
  708 + 'ppron12:pl:nom:m1:sec',
  709 + 'ppron12:sg:acc:f:pri:akc',
  710 + 'ppron12:sg:acc:f:sec:akc',
  711 + 'ppron12:sg:acc:f:sec:nakc',
  712 + 'ppron12:sg:acc:m1:pri',
  713 + 'ppron12:sg:acc:m1:pri:akc',
  714 + 'ppron12:sg:acc:m1:sec:akc',
  715 + 'ppron12:sg:acc:m1:sec:nakc',
  716 + 'ppron12:sg:acc:m2:pri:akc',
  717 + 'ppron12:sg:acc:m3:pri:akc',
  718 + 'ppron12:sg:dat:f:pri:akc',
  719 + 'ppron12:sg:dat:f:pri:nakc',
  720 + 'ppron12:sg:dat:f:sec:nakc',
  721 + 'ppron12:sg:dat:m1:pri:akc',
  722 + 'ppron12:sg:dat:m1:pri:nakc',
  723 + 'ppron12:sg:dat:m1:sec:akc',
  724 + 'ppron12:sg:dat:m1:sec:nakc',
  725 + 'ppron12:sg:gen:f:pri:akc',
  726 + 'ppron12:sg:gen:f:sec:akc',
  727 + 'ppron12:sg:gen:f:sec:nakc',
  728 + 'ppron12:sg:gen:m1:pri',
  729 + 'ppron12:sg:gen:m1:pri:akc',
  730 + 'ppron12:sg:gen:m1:sec:akc',
  731 + 'ppron12:sg:gen:m1:sec:nakc',
  732 + 'ppron12:sg:inst:f:pri',
  733 + 'ppron12:sg:inst:f:sec',
  734 + 'ppron12:sg:inst:m1:pri',
  735 + 'ppron12:sg:inst:m1:sec',
  736 + 'ppron12:sg:loc:f:pri',
  737 + 'ppron12:sg:loc:f:sec',
  738 + 'ppron12:sg:loc:m1:pri',
  739 + 'ppron12:sg:loc:m1:pri:akc',
  740 + 'ppron12:sg:loc:m1:sec',
  741 + 'ppron12:sg:loc:m3:pri',
  742 + 'ppron12:sg:nom:f:pri',
  743 + 'ppron12:sg:nom:f:sec',
  744 + 'ppron12:sg:nom:m1:pri',
  745 + 'ppron12:sg:nom:m1:sec',
  746 + 'ppron12:sg:nom:m2:sec',
  747 + 'ppron12:sg:voc:m1:sec',
  748 + 'ppron12:sg:voc:m2:sec',
  749 + 'ppron3:pl:acc:f:ter:akc:npraep',
  750 + 'ppron3:pl:acc:f:ter:akc:praep',
  751 + 'ppron3:pl:acc:f:ter:nakc:npraep',
  752 + 'ppron3:pl:acc:m1:ter:akc:npraep',
  753 + 'ppron3:pl:acc:m1:ter:akc:praep',
  754 + 'ppron3:pl:acc:m1:ter:nakc:npraep',
  755 + 'ppron3:pl:acc:m2:ter:akc:npraep',
  756 + 'ppron3:pl:acc:m3:ter:akc:npraep',
  757 + 'ppron3:pl:acc:m3:ter:akc:praep',
  758 + 'ppron3:pl:acc:m3:ter:nakc:npraep',
  759 + 'ppron3:pl:acc:n:ter:akc:npraep',
  760 + 'ppron3:pl:acc:n:ter:akc:praep',
  761 + 'ppron3:pl:acc:n:ter:nakc:npraep',
  762 + 'ppron3:pl:acc:n:ter:nakc:praep',
  763 + 'ppron3:pl:dat:f:ter:akc:npraep',
  764 + 'ppron3:pl:dat:f:ter:akc:praep',
  765 + 'ppron3:pl:dat:m1:ter:akc:npraep',
  766 + 'ppron3:pl:dat:m1:ter:akc:praep',
  767 + 'ppron3:pl:dat:m1:ter:nakc:npraep',
  768 + 'ppron3:pl:dat:m2:ter:akc:npraep',
  769 + 'ppron3:pl:dat:m3:ter:akc:npraep',
  770 + 'ppron3:pl:dat:n:ter:akc:npraep',
  771 + 'ppron3:pl:gen:f:ter:akc:npraep',
  772 + 'ppron3:pl:gen:f:ter:akc:praep',
  773 + 'ppron3:pl:gen:f:ter:nakc:npraep',
  774 + 'ppron3:pl:gen:m1:ter:akc:npraep',
  775 + 'ppron3:pl:gen:m1:ter:akc:praep',
  776 + 'ppron3:pl:gen:m1:ter:nakc:npraep',
  777 + 'ppron3:pl:gen:m2:ter:akc:npraep',
  778 + 'ppron3:pl:gen:m2:ter:akc:praep',
  779 + 'ppron3:pl:gen:m3:ter:akc:npraep',
  780 + 'ppron3:pl:gen:m3:ter:akc:praep',
  781 + 'ppron3:pl:gen:n:ter:akc:npraep',
  782 + 'ppron3:pl:gen:n:ter:akc:praep',
  783 + 'ppron3:pl:gen:n:ter:nakc:npraep',
  784 + 'ppron3:pl:inst:f:ter:akc:npraep',
  785 + 'ppron3:pl:inst:f:ter:akc:praep',
  786 + 'ppron3:pl:inst:m1:ter:akc:npraep',
  787 + 'ppron3:pl:inst:m1:ter:akc:praep',
  788 + 'ppron3:pl:inst:m2:ter:akc:npraep',
  789 + 'ppron3:pl:inst:m2:ter:akc:praep',
  790 + 'ppron3:pl:inst:m3:ter:akc:npraep',
  791 + 'ppron3:pl:inst:m3:ter:akc:praep',
  792 + 'ppron3:pl:inst:n:ter:akc:npraep',
  793 + 'ppron3:pl:inst:n:ter:akc:praep',
  794 + 'ppron3:pl:loc:f:ter:akc:praep',
  795 + 'ppron3:pl:loc:m1:ter:akc:praep',
  796 + 'ppron3:pl:loc:m3:ter:akc:praep',
  797 + 'ppron3:pl:loc:n:ter:akc:npraep',
  798 + 'ppron3:pl:loc:n:ter:akc:praep',
  799 + 'ppron3:pl:nom:f:ter:akc:npraep',
  800 + 'ppron3:pl:nom:m1:ter:akc:npraep',
  801 + 'ppron3:pl:nom:m2:ter:akc:npraep',
  802 + 'ppron3:pl:nom:m3:ter:akc:npraep',
  803 + 'ppron3:pl:nom:n:ter:akc:npraep',
  804 + 'ppron3:pl:nom:n:ter:nakc:npraep',
  805 + 'ppron3:sg:acc:f:ter:akc:npraep',
  806 + 'ppron3:sg:acc:f:ter:akc:praep',
  807 + 'ppron3:sg:acc:m1:ter:akc:npraep',
  808 + 'ppron3:sg:acc:m1:ter:akc:praep',
  809 + 'ppron3:sg:acc:m1:ter:nakc:npraep',
  810 + 'ppron3:sg:acc:m1:ter:nakc:praep',
  811 + 'ppron3:sg:acc:m2:ter:akc:praep',
  812 + 'ppron3:sg:acc:m2:ter:nakc:npraep',
  813 + 'ppron3:sg:acc:m3:ter:akc:npraep',
  814 + 'ppron3:sg:acc:m3:ter:akc:praep',
  815 + 'ppron3:sg:acc:m3:ter:nakc:npraep',
  816 + 'ppron3:sg:acc:n:ter:akc:npraep',
  817 + 'ppron3:sg:acc:n:ter:akc:praep',
  818 + 'ppron3:sg:acc:n:ter:nakc:npraep',
  819 + 'ppron3:sg:dat:f:ter:akc:npraep',
  820 + 'ppron3:sg:dat:f:ter:akc:praep',
  821 + 'ppron3:sg:dat:f:ter:nakc:npraep',
  822 + 'ppron3:sg:dat:m1:ter:akc:npraep',
  823 + 'ppron3:sg:dat:m1:ter:akc:praep',
  824 + 'ppron3:sg:dat:m1:ter:nakc:npraep',
  825 + 'ppron3:sg:dat:m2:ter:nakc:npraep',
  826 + 'ppron3:sg:dat:m3:ter:akc:praep',
  827 + 'ppron3:sg:dat:m3:ter:nakc:npraep',
  828 + 'ppron3:sg:dat:n:ter:akc:npraep',
  829 + 'ppron3:sg:dat:n:ter:nakc:npraep',
  830 + 'ppron3:sg:gen:f:ter:akc:npraep',
  831 + 'ppron3:sg:gen:f:ter:akc:praep',
  832 + 'ppron3:sg:gen:m1:ter:akc:npraep',
  833 + 'ppron3:sg:gen:m1:ter:akc:praep',
  834 + 'ppron3:sg:gen:m1:ter:nakc:npraep',
  835 + 'ppron3:sg:gen:m2:ter:akc:npraep',
  836 + 'ppron3:sg:gen:m2:ter:akc:praep',
  837 + 'ppron3:sg:gen:m2:ter:nakc:npraep',
  838 + 'ppron3:sg:gen:m3:ter:akc:npraep',
  839 + 'ppron3:sg:gen:m3:ter:akc:praep',
  840 + 'ppron3:sg:gen:m3:ter:nakc:npraep',
  841 + 'ppron3:sg:gen:m3:ter:nakc:praep',
  842 + 'ppron3:sg:gen:n:ter:akc:npraep',
  843 + 'ppron3:sg:gen:n:ter:akc:praep',
  844 + 'ppron3:sg:gen:n:ter:nakc:npraep',
  845 + 'ppron3:sg:inst:f:ter:akc:praep',
  846 + 'ppron3:sg:inst:m1:ter:akc:npraep',
  847 + 'ppron3:sg:inst:m1:ter:akc:praep',
  848 + 'ppron3:sg:inst:m2:ter:akc:praep',
  849 + 'ppron3:sg:inst:m3:ter:akc:npraep',
  850 + 'ppron3:sg:inst:m3:ter:akc:praep',
  851 + 'ppron3:sg:inst:n:ter:akc:npraep',
  852 + 'ppron3:sg:inst:n:ter:akc:praep',
  853 + 'ppron3:sg:loc:f:ter:akc:praep',
  854 + 'ppron3:sg:loc:m1:ter:akc:praep',
  855 + 'ppron3:sg:loc:m2:ter:akc:praep',
  856 + 'ppron3:sg:loc:m3:ter:akc:npraep',
  857 + 'ppron3:sg:loc:m3:ter:akc:praep',
  858 + 'ppron3:sg:loc:n:ter:akc:praep',
  859 + 'ppron3:sg:nom:f:ter:akc:npraep',
  860 + 'ppron3:sg:nom:m1:ter:akc:npraep',
  861 + 'ppron3:sg:nom:m2:ter:akc:npraep',
  862 + 'ppron3:sg:nom:m2:ter:akc:praep',
  863 + 'ppron3:sg:nom:m3:ter:akc:npraep',
  864 + 'ppron3:sg:nom:n:ter:akc:npraep',
  865 + 'praet:pl:f:imperf',
  866 + 'praet:pl:f:perf',
  867 + 'praet:pl:m1:imperf',
  868 + 'praet:pl:m1:imperf:agl',
  869 + 'praet:pl:m1:perf',
  870 + 'praet:pl:m2:imperf',
  871 + 'praet:pl:m2:perf',
  872 + 'praet:pl:m3:imperf',
  873 + 'praet:pl:m3:perf',
  874 + 'praet:pl:n:imperf',
  875 + 'praet:pl:n:perf',
  876 + 'praet:sg:f:imperf',
  877 + 'praet:sg:f:perf',
  878 + 'praet:sg:m1:imperf',
  879 + 'praet:sg:m1:imperf:agl',
  880 + 'praet:sg:m1:imperf:nagl',
  881 + 'praet:sg:m1:perf',
  882 + 'praet:sg:m1:perf:agl',
  883 + 'praet:sg:m1:perf:nagl',
  884 + 'praet:sg:m2:imperf',
  885 + 'praet:sg:m2:imperf:nagl',
  886 + 'praet:sg:m2:perf',
  887 + 'praet:sg:m2:perf:nagl',
  888 + 'praet:sg:m3:imperf',
  889 + 'praet:sg:m3:imperf:nagl',
  890 + 'praet:sg:m3:perf',
  891 + 'praet:sg:m3:perf:nagl',
  892 + 'praet:sg:n:imperf',
  893 + 'praet:sg:n:perf',
  894 + 'pred',
  895 + 'prep:acc',
  896 + 'prep:acc:nwok',
  897 + 'prep:acc:wok',
  898 + 'prep:dat',
  899 + 'prep:gen',
  900 + 'prep:gen:nwok',
  901 + 'prep:gen:wok',
  902 + 'prep:inst',
  903 + 'prep:inst:nwok',
  904 + 'prep:inst:wok',
  905 + 'prep:loc',
  906 + 'prep:loc:nwok',
  907 + 'prep:loc:wok',
  908 + 'prep:nom',
  909 + 'romandig',
  910 + 'siebie:acc',
  911 + 'siebie:dat',
  912 + 'siebie:gen',
  913 + 'siebie:inst',
  914 + 'siebie:loc',
  915 + 'subst:pl:acc:f',
  916 + 'subst:pl:acc:m1',
  917 + 'subst:pl:acc:m1:pt',
  918 + 'subst:pl:acc:m2',
  919 + 'subst:pl:acc:m3',
  920 + 'subst:pl:acc:n:col',
  921 + 'subst:pl:acc:n:ncol',
  922 + 'subst:pl:acc:n:pt',
  923 + 'subst:pl:dat:f',
  924 + 'subst:pl:dat:m1',
  925 + 'subst:pl:dat:m1:pt',
  926 + 'subst:pl:dat:m2',
  927 + 'subst:pl:dat:m3',
  928 + 'subst:pl:dat:n:col',
  929 + 'subst:pl:dat:n:ncol',
  930 + 'subst:pl:dat:n:pt',
  931 + 'subst:pl:gen:f',
  932 + 'subst:pl:gen:m1',
  933 + 'subst:pl:gen:m1:pt',
  934 + 'subst:pl:gen:m2',
  935 + 'subst:pl:gen:m3',
  936 + 'subst:pl:gen:n:col',
  937 + 'subst:pl:gen:n:ncol',
  938 + 'subst:pl:gen:n:pt',
  939 + 'subst:pl:inst:f',
  940 + 'subst:pl:inst:m1',
  941 + 'subst:pl:inst:m1:pt',
  942 + 'subst:pl:inst:m2',
  943 + 'subst:pl:inst:m3',
  944 + 'subst:pl:inst:n:col',
  945 + 'subst:pl:inst:n:ncol',
  946 + 'subst:pl:inst:n:pt',
  947 + 'subst:pl:loc:f',
  948 + 'subst:pl:loc:m1',
  949 + 'subst:pl:loc:m1:pt',
  950 + 'subst:pl:loc:m2',
  951 + 'subst:pl:loc:m3',
  952 + 'subst:pl:loc:n',
  953 + 'subst:pl:loc:n:col',
  954 + 'subst:pl:loc:n:ncol',
  955 + 'subst:pl:loc:n:pt',
  956 + 'subst:pl:nom:f',
  957 + 'subst:pl:nom:m1',
  958 + 'subst:pl:nom:m1:pt',
  959 + 'subst:pl:nom:m2',
  960 + 'subst:pl:nom:m3',
  961 + 'subst:pl:nom:n:col',
  962 + 'subst:pl:nom:n:ncol',
  963 + 'subst:pl:nom:n:pt',
  964 + 'subst:pl:voc:f',
  965 + 'subst:pl:voc:m1',
  966 + 'subst:pl:voc:n:ncol',
  967 + 'subst:pl:voc:n:pt',
  968 + 'subst:sg:acc:f',
  969 + 'subst:sg:acc:m1',
  970 + 'subst:sg:acc:m2',
  971 + 'subst:sg:acc:m3',
  972 + 'subst:sg:acc:n:col',
  973 + 'subst:sg:acc:n:ncol',
  974 + 'subst:sg:dat:f',
  975 + 'subst:sg:dat:m1',
  976 + 'subst:sg:dat:m2',
  977 + 'subst:sg:dat:m3',
  978 + 'subst:sg:dat:n:col',
  979 + 'subst:sg:dat:n:ncol',
  980 + 'subst:sg:gen:f',
  981 + 'subst:sg:gen:m1',
  982 + 'subst:sg:gen:m2',
  983 + 'subst:sg:gen:m3',
  984 + 'subst:sg:gen:m3:col',
  985 + 'subst:sg:gen:m3:ncol',
  986 + 'subst:sg:gen:n',
  987 + 'subst:sg:gen:n:col',
  988 + 'subst:sg:gen:n:ncol',
  989 + 'subst:sg:inst:f',
  990 + 'subst:sg:inst:m1',
  991 + 'subst:sg:inst:m2',
  992 + 'subst:sg:inst:m3',
  993 + 'subst:sg:inst:m3:ncol',
  994 + 'subst:sg:inst:n:col',
  995 + 'subst:sg:inst:n:ncol',
  996 + 'subst:sg:loc:f',
  997 + 'subst:sg:loc:m1',
  998 + 'subst:sg:loc:m2',
  999 + 'subst:sg:loc:m3',
  1000 + 'subst:sg:loc:m3:ncol',
  1001 + 'subst:sg:loc:n',
  1002 + 'subst:sg:loc:n:col',
  1003 + 'subst:sg:loc:n:ncol',
  1004 + 'subst:sg:nom:f',
  1005 + 'subst:sg:nom:m1',
  1006 + 'subst:sg:nom:m2',
  1007 + 'subst:sg:nom:m3',
  1008 + 'subst:sg:nom:m3:col',
  1009 + 'subst:sg:nom:m3:ncol',
  1010 + 'subst:sg:nom:n',
  1011 + 'subst:sg:nom:n:col',
  1012 + 'subst:sg:nom:n:ncol',
  1013 + 'subst:sg:voc:f',
  1014 + 'subst:sg:voc:m1',
  1015 + 'subst:sg:voc:m2',
  1016 + 'subst:sg:voc:m3',
  1017 + 'subst:sg:voc:n:col',
  1018 + 'subst:sg:voc:n:ncol',
  1019 + 'sym',
  1020 + 'winien:pl:f:imperf',
  1021 + 'winien:pl:m1:imperf',
  1022 + 'winien:pl:m2:imperf',
  1023 + 'winien:pl:m3:imperf',
  1024 + 'winien:pl:n:imperf',
  1025 + 'winien:sg:f:imperf',
  1026 + 'winien:sg:m1:imperf',
  1027 + 'winien:sg:m2:imperf',
  1028 + 'winien:sg:m3:imperf',
  1029 + 'winien:sg:n:imperf',
  1030 + ] # TAGS END
  1031 + )
  1032 + ),
  1033 + "heads": datasets.Sequence(datasets.Value("int16")),
  1034 + "deprels": datasets.Sequence(
  1035 + datasets.features.ClassLabel(
  1036 + names=[
  1037 + 'ROOT',
  1038 + 'abbrev_punct',
  1039 + 'adjunct',
  1040 + 'adjunct_abl',
  1041 + 'adjunct_adl',
  1042 + 'adjunct_attit',
  1043 + 'adjunct_attrib',
  1044 + 'adjunct_caus',
  1045 + 'adjunct_comment',
  1046 + 'adjunct_compan',
  1047 + 'adjunct_compar',
  1048 + 'adjunct_concess',
  1049 + 'adjunct_cond',
  1050 + 'adjunct_dur',
  1051 + 'adjunct_elect',
  1052 + 'adjunct_emph',
  1053 + 'adjunct_finit',
  1054 + 'adjunct_freq',
  1055 + 'adjunct_init',
  1056 + 'adjunct_instr',
  1057 + 'adjunct_locat',
  1058 + 'adjunct_measure',
  1059 + 'adjunct_mod',
  1060 + 'adjunct_other',
  1061 + 'adjunct_perl',
  1062 + 'adjunct_poss',
  1063 + 'adjunct_purp',
  1064 + 'adjunct_qt',
  1065 + 'adjunct_rc',
  1066 + 'adjunct_recip',
  1067 + 'adjunct_refer',
  1068 + 'adjunct_result',
  1069 + 'adjunct_substit',
  1070 + 'adjunct_temp',
  1071 + 'adjunct_title',
  1072 + 'aglt',
  1073 + 'app',
  1074 + 'aux',
  1075 + 'cneg',
  1076 + 'comp',
  1077 + 'comp_ag',
  1078 + 'comp_fin',
  1079 + 'comp_inf',
  1080 + 'comp_num๐Ÿ˜›',
  1081 + 'cond',
  1082 + 'conjunct',
  1083 + 'dep',
  1084 + 'imp',
  1085 + 'item',
  1086 + 'mark_rel',
  1087 + 'mwe',
  1088 + 'ne',
  1089 + 'ne_foreign',
  1090 + 'neg',
  1091 + 'obj',
  1092 + 'obj_attrib',
  1093 + 'obj_caus',
  1094 + 'obj_exper',
  1095 + 'obj_instr',
  1096 + 'obj_manner',
  1097 + 'obj_measure',
  1098 + 'obj_purp',
  1099 + 'obj_recip',
  1100 + 'obj_result',
  1101 + 'obj_stimul',
  1102 + 'obj_theme',
  1103 + 'orphan',
  1104 + 'passive',
  1105 + 'pd',
  1106 + 'pre_coord',
  1107 + 'punct',
  1108 + 'refl',
  1109 + 'subj',
  1110 + 'vocative',
  1111 + ]
  1112 + )
  1113 + ),
  1114 + # "nonterminals": datasets.Value("string"),
  1115 + "nonterminals": [{ # 'nid': datasets.Value("string"),
  1116 + 'cat': datasets.Value("string"),
  1117 + 'children': [datasets.Value("int16")],
  1118 + },
  1119 + ],
  1120 + }
  1121 + ),
  1122 + supervised_keys=None,
  1123 + homepage="http://zil.ipipan.waw.pl/PDB",
  1124 + citation=_CITATION,
  1125 + )
  1126 +
  1127 + def _split_generators(self, dl_manager):
  1128 + """Returns SplitGenerators."""
  1129 + downloaded_files = dl_manager.download_and_extract(_URLS)
  1130 + return [
  1131 + datasets.SplitGenerator(
  1132 + name=datasets.Split.TRAIN,
  1133 + gen_kwargs={"filepath": downloaded_files["train"]}),
  1134 + datasets.SplitGenerator(
  1135 + name=datasets.Split.VALIDATION,
  1136 + gen_kwargs={"filepath": downloaded_files["dev"]}),
  1137 + datasets.SplitGenerator(
  1138 + name=datasets.Split.TEST,
  1139 + gen_kwargs={"filepath": downloaded_files["test"]}),
  1140 + ]
  1141 +
  1142 + def _generate_examples(self, filepath):
  1143 + logger.info("โณ Generating examples from = %s", filepath)
  1144 + guid = 0
  1145 + with open(filepath, 'r', encoding="utf-8") as f:
  1146 + for line in f:
  1147 + datapoint = json.loads(line)
  1148 + # datapoint['id'] = guid
  1149 + guid += 1
  1150 + yield guid, datapoint
... ...
pdb_c_beta/treebank_dev.jsonl.gz 0 โ†’ 100644
No preview for this file type
pdb_c_beta/treebank_test.jsonl.gz 0 โ†’ 100644
No preview for this file type
pdb_c_beta/treebank_train.jsonl.gz 0 โ†’ 100644
No preview for this file type