validation-procedure.txt
1.8 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
SGJP-EXACT: 132267 pozycji, w tym:
- zawsze CORR
- NCH oprócz 84 pozycji COMPD, które są akronimami odmienionymi z myślnikiem
- NCOMPOS w 70 pozycjach z lematami: być:aglt, osiemset, tak, duży, wzejść, wejść, zejść
- COMPOS-ndm: 914 pozycji zawierających sporo akronimów
- COMPOS-LWR: 20 pozycji, tylko w wersji COMPOS-LWR-ALT, głównie akronimy
- COMPOS-*: 81 pozycji
cat NKJP1M-tagged-frequency.tab | grep -P "\tCOMPOS\tSGJP-EXACT\tNCH\tCORR" >NKJP1M-tagged-frequency-EXACT.tab
cat NKJP1M-tagged-frequency.tab | grep -v -P "\tCOMPOS\tSGJP-EXACT\tNCH\tCORR" >NKJP1M-tagged-frequency-NON-EXACT.tab
SGJP-LMM-UNCAPITAL: 21320 pozycji, w tym:
COMPOS / na później.
- zawsze CORR
- zawsze NCH
- NCOMPOS w 33 pozycjach z lematami: wejść, zejść, duży, wyjść,
cat NKJP1M-tagged-frequency-NON-EXACT.tab | grep -v -P "\tCOMPOS-LWR\tSGJP-LMM-UNCAPITAL\tNCH\tCORR" >NKJP1M-tagged-frequency-TAIL.tab
cat NKJP1M-tagged-frequency-NON-EXACT.tab | grep -P "\tCOMPOS-LWR\tSGJP-LMM-UNCAPITAL\tNCH\tCORR" >NKJP1M-tagged-frequency-LMM-UNCAPITAL.tab
cat NKJP1M-tagged-frequency-TAIL.tab | grep -P "\tSYMB\t" > NKJP1M-tagged-frequency-SYMB.tab
cat NKJP1M-tagged-frequency-TAIL.tab | grep -v -P "\tSYMB\t" > NKJP1M-tagged-frequency-TAIL2.tab
SYMB: 5703 pozycji, w tym:
- może zawierać trochę akronimów do odsiania
sort NKJP1M-tagged-frequency-TAIL2.tab >NKJP1M-tagged-frequency-FOR-VALIDATION.tab
NKJP1M-tagged-frequency-FOR-VALIDATION.tab ręcznie przetworzony w arkuszu kalkulacyjnym
posortować zwn COMPOS i przejrzeć.
posortować zwn UNK i przejrzeć.
gdzie umieszczać nazwy typu 125p
do analizy: COMPOS NON-SGJP UNK CORR
wyszukać w pierwszej kolumnie - i '
kryptonimy: COMPOS-ndm NON-SGJP PN CORR
demokraci.pl itp.
Uwaga do tagsetu: akronimy odmienione z myślnikiem należą do COMPD a nie ACRO