validation-procedure.txt 1.8 KB
SGJP-EXACT: 132267 pozycji, w tym:
  - zawsze CORR
  - NCH oprócz 84 pozycji COMPD, które są akronimami odmienionymi z myślnikiem
  - NCOMPOS w 70 pozycjach z lematami: być:aglt, osiemset, tak, duży, wzejść, wejść, zejść
  - COMPOS-ndm: 914 pozycji zawierających sporo akronimów
  - COMPOS-LWR: 20 pozycji, tylko w wersji COMPOS-LWR-ALT, głównie akronimy
  - COMPOS-*: 81 pozycji

cat NKJP1M-tagged-frequency.tab | grep -P "\tCOMPOS\tSGJP-EXACT\tNCH\tCORR" >NKJP1M-tagged-frequency-EXACT.tab
cat NKJP1M-tagged-frequency.tab | grep -v -P "\tCOMPOS\tSGJP-EXACT\tNCH\tCORR" >NKJP1M-tagged-frequency-NON-EXACT.tab

SGJP-LMM-UNCAPITAL: 21320 pozycji, w tym:

COMPOS /   na później.
  - zawsze CORR
  - zawsze NCH
  - NCOMPOS w 33 pozycjach z lematami: wejść, zejść, duży, wyjść,

cat NKJP1M-tagged-frequency-NON-EXACT.tab | grep -v -P "\tCOMPOS-LWR\tSGJP-LMM-UNCAPITAL\tNCH\tCORR" >NKJP1M-tagged-frequency-TAIL.tab
cat NKJP1M-tagged-frequency-NON-EXACT.tab | grep -P "\tCOMPOS-LWR\tSGJP-LMM-UNCAPITAL\tNCH\tCORR" >NKJP1M-tagged-frequency-LMM-UNCAPITAL.tab

cat NKJP1M-tagged-frequency-TAIL.tab | grep -P "\tSYMB\t" > NKJP1M-tagged-frequency-SYMB.tab
cat NKJP1M-tagged-frequency-TAIL.tab | grep -v -P "\tSYMB\t" > NKJP1M-tagged-frequency-TAIL2.tab

SYMB: 5703 pozycji, w tym:
  - może zawierać trochę akronimów do odsiania

sort NKJP1M-tagged-frequency-TAIL2.tab >NKJP1M-tagged-frequency-FOR-VALIDATION.tab

NKJP1M-tagged-frequency-FOR-VALIDATION.tab ręcznie przetworzony w arkuszu kalkulacyjnym


posortować zwn COMPOS i przejrzeć.
posortować zwn UNK i przejrzeć.
gdzie umieszczać nazwy typu 125p
do analizy: COMPOS	NON-SGJP	UNK	CORR
wyszukać w pierwszej kolumnie - i '

kryptonimy: COMPOS-ndm	NON-SGJP	PN	CORR
demokraci.pl itp.

Uwaga do tagsetu: akronimy odmienione z myślnikiem należą do COMPD a nie ACRO