Name Last Update
README Loading commit data...
ameba.py Loading commit data...
excepts.csv Loading commit data...
largescale_segmentation.py Loading commit data...
morfosegment.py Loading commit data...
new_rules.csv Loading commit data...
normalize.py Loading commit data...
segment.srx Loading commit data...
settings.py Loading commit data...
srx_segmenter.py Loading commit data...
tei_writer.py Loading commit data...
transcription.py Loading commit data...
xml_utils.py Loading commit data...

README

Korba-Ameba

Generator segmentacji i morfoanalizy dla korpusu Korba



Podstawowe użycie:

./ameba.py [[ścieżka_do_słowników_morfeusza] nazwa_słownika_morfeusza] <ścieżka_do_katalogu_z_dokumentem>

Nazwa słownika morfeusza jest opcjonalna.
Ścieżka do katalogu ze słownikami morfeusza też jest opcjonalna, ale może wystąpić
tylko wtedy, gdy podamy też nazwę słownika.

Przykładowo:
./ameba.py Korba_eksport/BanHist

W przypadku, gdy chcemy wygenerować dane dla wiecej niż jednego dokumentu, należy
uruchomić Amebę kilkukrotnie, np. za pomocą pętli powłoki systemowej. Przykład dla bash-a:

for katalog in sciezka/do/katalogu/z/dokumentami/*; do ./ameba.py $katalog; done

DK: Aby przy grupowym przetwarzaniu przekierować stdout oraz stderr do pliku, należy wywołać:

for katalog in sciezka/do/katalogu/z/dokumentami/*; do ./ameba.py $katalog >> plik_bledow.txt 2>&1; done

W "katalogu_z_dokumentem" Ameba spodziewa się plików header.xml i text_structure.xml.
Po pomyślnym przetworzeniu zostają stworzone pliki ann_segmentation.xml i ann_morphosyntax.xml.

DK: dołożyłam plik 'settings', w którym można zdefiniować nazwę pliku oraz podfolder 
(w stosunku do "katalogu z dokumentem"), w którym znajduje się plik do analizy oraz
header.xml (na potrzeby korpusu ręcznego próbka wrzucana jest do podfolderu "selection"
i nazywa się "text.xml" a nie "text_structure.xml"). 


Dodatkowe zasoby/ustawienia:

Działaniem segmentatora zdaniowego steruje plik z regułami segment.srx. Z tego pliku
aktywowane są reguły segmentacji dla języka polskiego. Proces segmentacji przebiega przed transkrybcją,
jeśli taka ma mieć miejsce w danym dokumencie.

Działaniem transkrybera sterują: plik z regułami new_rules.csv oraz plik z wyjątkami excepts.csv.
W przypadku, gdy w nagłówku w sekcji fileDesc/sourceDesc/bibl znajduje się tag 
<note>Modernized publication</note>, transkrybcja nie jest wykonywana.