|
1
|
- liczba przed kropką kończącą zdanie jest interpretowana jako ordnum - to WAŻNE !!!
|
|
2
3
|
- przenieść ustalanie weight do następnego modułu
|
|
4
5
6
7
8
|
- problem z kodowaniem utf:
Odkryłem gdzie jest problem z kodowaniem utf.
Mianowicie dla zdania "Fan: Niech nie straszą, Że to bomba jest kalorii." preprocesor zwraca segmentacje w której jeden z segmentów zawiera pole lemma z niepoprawnym znakiem.
Pole wygląda następująco: "Ż\BCe".
|
|
9
|
|
|
10
|
- przecinek "," nie jest traktowany jako Symbol a jedynie jako Interp, co może stwarzać problemy przy parsowaniu MWE uwzględniającym fleksję.
|
|
11
12
|
- lematy w hour-minute powinny mieć wiodące zera
|
|
13
14
15
16
|
- "(Proponuję:)" dwukropek nawias jest interpretowany jako emotikon.
- numery budynków ze slashem trzeba by dokonczyć i wstawić dodatkowe oznaczenia
|
|
17
|
- w 'dnia 30 maja 2017 o godzinie 20' było błędnie łączone '2017 o', teraz takie numery domów nie są wykrywane, podobnie z 'w'
|