README 2.17 KB

Edit Raw Blame History

Korba-Ameba

Generator segmentacji i morfoanalizy dla korpusu Korba


Podstawowe użycie:

./ameba.py --morph_path ścieżka_do_słowników_morfeusza --morph_dict nazwa_słownika_morfeusza --tager <ścieżka_do_katalogu_z_dokumentem>

Nazwa słownika morfeusza jest opcjonalna (domyślnie 'sgjp').
Ścieżka do katalogu ze słownikami morfeusza też jest opcjonalna, ale może wystąpić
tylko wtedy, gdy podamy też nazwę słownika.
Opcja --tager powoduje dopisanie ujednoznacznienia ('disamb') uzyskanego tagerem. Przy korzystaniu z tej opcji konieczne jest, aby
w folderze z dokumentem xml obecny był plik 'text_transcr.txt.tagged' w formacie dag.

Przykładowo:
./ameba.py Korba_eksport/BanHist

W przypadku, gdy chcemy wygenerować dane dla wiecej niż jednego dokumentu, należy
uruchomić Amebę kilkukrotnie, np. za pomocą pętli powłoki systemowej. Przykład dla bash-a:

for katalog in sciezka/do/katalogu/z/dokumentami/*; do ./ameba.py $katalog; done

DK: Aby przy grupowym przetwarzaniu przekierować stdout oraz stderr do pliku, należy wywołać:

for katalog in sciezka/do/katalogu/z/dokumentami/*; do ./ameba.py $katalog >> plik_bledow.txt 2>&1; done

W "katalogu_z_dokumentem" Ameba spodziewa się plików header.xml i text_structure.xml.
Po pomyślnym przetworzeniu zostają stworzone pliki ann_segmentation.xml i ann_morphosyntax.xml.

DK: dołożyłam plik 'settings', w którym można zdefiniować nazwę pliku oraz podfolder
(w stosunku do "katalogu z dokumentem"), w którym znajduje się plik do analizy oraz
header.xml (na potrzeby korpusu ręcznego próbka wrzucana jest do podfolderu "selection"
i nazywa się "text.xml" a nie "text_structure.xml").


Dodatkowe zasoby/ustawienia:

Działaniem segmentatora zdaniowego steruje plik z regułami segment.srx. Z tego pliku
aktywowane są reguły segmentacji dla języka polskiego. Proces segmentacji przebiega przed transkrybcją,
jeśli taka ma mieć miejsce w danym dokumencie.

Działaniem transkrybera sterują: plik z regułami new_rules.csv oraz plik z wyjątkami excepts.csv.
W przypadku, gdy w nagłówku w sekcji fileDesc/sourceDesc/bibl znajduje się tag
<note>Modernized publication</note>, transkrypcja nie jest wykonywana.