Korba-Ameba Generator segmentacji i morfoanalizy dla korpusu Korba Podstawowe użycie: python3 ameba.py --morph_path ścieżka_do_słowników_morfeusza --morph_dict nazwa_słownika_morfeusza --tager <ścieżka_do_katalogu_z_dokumentem> Nazwa słownika morfeusza jest opcjonalna (domyślnie 'sgjp'). Ścieżka do katalogu ze słownikami morfeusza też jest opcjonalna, ale może wystąpić tylko wtedy, gdy podamy też nazwę słownika. Opcja --tager powoduje dopisanie ujednoznacznienia ('disamb') uzyskanego tagerem. Przy korzystaniu z tej opcji konieczne jest, aby w folderze z dokumentem xml obecny był plik 'text_transcr.txt.tagged' w formacie dag. Przykładowo: python3 ameba.py Korba_eksport/BanHist W przypadku, gdy chcemy wygenerować dane dla wiecej niż jednego dokumentu, należy uruchomić Amebę kilkukrotnie, np. za pomocą pętli powłoki systemowej. Przykład dla bash-a: for katalog in sciezka/do/katalogu/z/dokumentami/*; do python3 ameba.py $katalog; done DK: Aby przy grupowym przetwarzaniu przekierować stdout oraz stderr do pliku, należy wywołać: for katalog in sciezka/do/katalogu/z/dokumentami/*; do python3 ameba.py $katalog >> plik_bledow.txt 2>&1; done W "katalogu_z_dokumentem" Ameba spodziewa się plików header.xml i text_structure.xml. Po pomyślnym przetworzeniu zostają stworzone pliki ann_segmentation.xml i ann_morphosyntax.xml. DK: dołożyłam plik 'settings', w którym można zdefiniować nazwę pliku oraz podfolder (w stosunku do "katalogu z dokumentem"), w którym znajduje się plik do analizy oraz header.xml (na potrzeby korpusu ręcznego próbka wrzucana jest do podfolderu "selection" i nazywa się "text.xml" a nie "text_structure.xml"). Dodatkowe zasoby/ustawienia: Działaniem segmentatora zdaniowego steruje plik z regułami segment.srx. Z tego pliku aktywowane są reguły segmentacji dla języka polskiego. Proces segmentacji przebiega przed transkrypcją, jeśli taka ma mieć miejsce w danym dokumencie. Działaniem transkrybera sterują: plik z regułami new_rules.csv oraz plik z wyjątkami excepts.csv. W przypadku, gdy w nagłówku w sekcji fileDesc/sourceDesc/bibl znajduje się tag <note>Modernized publication</note>, transkrypcja jest wykonywana na podstawie plików rules_XIXw.csv oraz excepts_XIXw.csv.
K
korba-ameba
Narzędzie tworzące pliki z analizą fleksyjną w stylu NKJP dla korpusu barkowego
public