README
2.17 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
Korba-Ameba
Generator segmentacji i morfoanalizy dla korpusu Korba
Podstawowe użycie:
./ameba.py --morph_path ścieżka_do_słowników_morfeusza --morph_dict nazwa_słownika_morfeusza --tager <ścieżka_do_katalogu_z_dokumentem>
Nazwa słownika morfeusza jest opcjonalna (domyślnie 'sgjp').
Ścieżka do katalogu ze słownikami morfeusza też jest opcjonalna, ale może wystąpić
tylko wtedy, gdy podamy też nazwę słownika.
Opcja --tager powoduje dopisanie ujednoznacznienia ('disamb') uzyskanego tagerem. Przy korzystaniu z tej opcji konieczne jest, aby
w folderze z dokumentem xml obecny był plik 'text_transcr.txt.tagged' w formacie dag.
Przykładowo:
./ameba.py Korba_eksport/BanHist
W przypadku, gdy chcemy wygenerować dane dla wiecej niż jednego dokumentu, należy
uruchomić Amebę kilkukrotnie, np. za pomocą pętli powłoki systemowej. Przykład dla bash-a:
for katalog in sciezka/do/katalogu/z/dokumentami/*; do ./ameba.py $katalog; done
DK: Aby przy grupowym przetwarzaniu przekierować stdout oraz stderr do pliku, należy wywołać:
for katalog in sciezka/do/katalogu/z/dokumentami/*; do ./ameba.py $katalog >> plik_bledow.txt 2>&1; done
W "katalogu_z_dokumentem" Ameba spodziewa się plików header.xml i text_structure.xml.
Po pomyślnym przetworzeniu zostają stworzone pliki ann_segmentation.xml i ann_morphosyntax.xml.
DK: dołożyłam plik 'settings', w którym można zdefiniować nazwę pliku oraz podfolder
(w stosunku do "katalogu z dokumentem"), w którym znajduje się plik do analizy oraz
header.xml (na potrzeby korpusu ręcznego próbka wrzucana jest do podfolderu "selection"
i nazywa się "text.xml" a nie "text_structure.xml").
Dodatkowe zasoby/ustawienia:
Działaniem segmentatora zdaniowego steruje plik z regułami segment.srx. Z tego pliku
aktywowane są reguły segmentacji dla języka polskiego. Proces segmentacji przebiega przed transkrybcją,
jeśli taka ma mieć miejsce w danym dokumencie.
Działaniem transkrybera sterują: plik z regułami new_rules.csv oraz plik z wyjątkami excepts.csv.
W przypadku, gdy w nagłówku w sekcji fileDesc/sourceDesc/bibl znajduje się tag
<note>Modernized publication</note>, transkrypcja nie jest wykonywana.