README 1.91 KB

Edit Raw Blame History

Korba-Ameba

Generator segmentacji i morfoanalizy dla korpusu Korba


Podstawowe użycie:

./ameba.py [[ścieżka_do_słowników_morfeusza] nazwa_słownika_morfeusza] <ścieżka_do_katalogu_z_dokumentem>

Nazwa słownika morfeusza jest opcjonalna.
Ścieżka do katalogu ze słownikami morfeusza też jest opcjonalna, ale może wystąpić
tylko wtedy, gdy podamy też nazwę słownika.

Przykładowo:
./ameba.py Korba_eksport/BanHist

W przypadku, gdy chcemy wygenerować dane dla wiecej niż jednego dokumentu, należy
uruchomić Amebę kilkukrotnie, np. za pomocą pętli powłoki systemowej. Przykład dla bash-a:

for katalog in sciezka/do/katalogu/z/dokumentami/*; do ./ameba.py $katalog; done

DK: Aby przy grupowym przetwarzaniu przekierować stdout oraz stderr do pliku, należy wywołać:

for katalog in sciezka/do/katalogu/z/dokumentami/*; do ./ameba.py $katalog >> plik_bledow.txt 2>&1; done

W "katalogu_z_dokumentem" Ameba spodziewa się plików header.xml i text_structure.xml.
Po pomyślnym przetworzeniu zostają stworzone pliki ann_segmentation.xml i ann_morphosyntax.xml.

DK: dołożyłam plik 'settings', w którym można zdefiniować nazwę pliku oraz podfolder
(w stosunku do "katalogu z dokumentem"), w którym znajduje się plik do analizy oraz
header.xml (na potrzeby korpusu ręcznego próbka wrzucana jest do podfolderu "selection"
i nazywa się "text.xml" a nie "text_structure.xml").


Dodatkowe zasoby/ustawienia:

Działaniem segmentatora zdaniowego steruje plik z regułami segment.srx. Z tego pliku
aktywowane są reguły segmentacji dla języka polskiego. Proces segmentacji przebiega przed transkrybcją,
jeśli taka ma mieć miejsce w danym dokumencie.

Działaniem transkrybera sterują: plik z regułami new_rules.csv oraz plik z wyjątkami excepts.csv.
W przypadku, gdy w nagłówku w sekcji fileDesc/sourceDesc/bibl znajduje się tag
<note>Modernized publication</note>, transkrybcja nie jest wykonywana.