Blame view

tokenizer/TODO 572 Bytes
Wojciech Jaworski authored
1
- liczba przed kropką kończącą zdanie jest interpretowana jako ordnum
Wojciech Jaworski authored
2
3

- przenieść ustalanie weight do następnego modułu
Wojciech Jaworski authored
4
5
6
7
8

- problem z kodowaniem utf:
Odkryłem gdzie jest problem z kodowaniem utf.
Mianowicie dla zdania "Fan: Niech nie straszą, Że to bomba jest kalorii." preprocesor zwraca segmentacje w której jeden z segmentów zawiera pole lemma z niepoprawnym znakiem.
Pole wygląda następująco: "Ż\BCe".
Wojciech Jaworski authored
9
10

- przecinek "," nie jest traktowany jako Symbol a jedynie jako Interp, co może stwarzać problemy przy parsowaniu MWE uwzględniającym fleksję.