Wiki spuštěna 24. 7. 2025

Sjednocení formátu anotovaných korpusů

Úprava ručně anotovaných textů

  • převést do vertikály s jedním lemmatem a tagem:
    $ cd .../korpus-export
    $ for ff in *; do echo $ff; prep-for-tag-comparison.sh < $ff \
      > ../../compare/anotatori/$ff; done
  • podobně u opravených (mergeovaných) souborů:
    $ cd .../merge-export
    $ prep-for-tag-comparison.sh < <file>-XX-YY > ../../compare/merge/<file>

Úprava textů anotovaných pravidly (morfologií, ...)

  • znormalizovat, post-disamb a odstranit duplicity:
    $ cd /corp/anotace/vert-rules-frazrl-rules
    $ for ff in *; do echo $ff; rules-for-tag-comparison.sh < $ff \
      > ~/PROJEKTY/GACR1012/compare/rules/$ff; done

Úprava automaticky tagovaných korpusů (pravidly + morčetem)

  • provést některé postdisambiguační kroky:
    $ cd .../korpus-export
    $ for ff in *; do echo ${ff%-??}; rules-for-tag-comparison.sh \
      < /corp/anotace/vert-rules-frazrl-rulh1-tag/${ff%-??} \
      > ../../compare/corp/${ff%-??}; done

Úprava korpusů otagovaných morčetem

  • zkopírovat soubory:
    $ cd .../korpus-export
    $ for ff in *; do echo ${ff%-??};
      cat -s /corp/anotace/vert-morf-tag/${ff%-??} \
      | post-disamb.pl \
      > ../../compare/morce/${ff%-??}; done

Výběr pouze nejednoznačných tagů

  • $ cd ~/PROJEKTY/GACR1012/comp-PDT/morf
    $ for ff in *; do echo $ff; mark-uniq < $ff | paste ../PDT/$ff - \
      | grep -v '!!!' | cut -f1-2 > ../multi-morf/PDT/$ff; done
    $ cd /corp/DTEST-PDT/vert-morf-full
    $ for ff in *; do echo $ff; mark-uniq < $ff \
      | paste ~/PROJEKTY/GACR1012/comp-PDT/PDT/$ff - \
      | grep -v '!!!' | cut -f1-2 > ~/PROJEKTY/GACR1012/comp-PDT/multi-full/PDT/$ff; done

Porovnávání 2 tagů

Sloučení výsledků

  • vert
    $ cd ~/PROJEKTY/GACR1012/compare/anotatori
    $ for ff in *; do echo $ff; vert-vert.sh $ff ../corp/${ff%-??} corp-; done
  • program vert-vert.sh má jako třetí nepovinný argument předponu výsledného souboru

Porovnání tagů

  • použít program compare-vert
    $ cd ~/PROJEKTY/GACR1012/compare
    $ compare-vert tag-table.txt < file
    $ compare-vert
    Usage: compare-vert [-CDFX] <table>
    
       -C	color output
    		CYAN: forms differ
    		GREEN: lemmas differ,
    		BLUE: general tag (>)
    		MAGENTA: detailed tag (<)
    		RED: tags differ (!)
      -D	debug
      -F	full output (including identical lines)
      -X	ignore unknown tags
    
    <table> is a table with differences between tagsets:
    // 0 - POS
    // 1 - SUBPOS
    = > n,l
    // 2 - GENDER
    H > F,N
    QW > FS,NP
    etc.
    
    In the output, lines with differencies are marked as follows:
      >	more general tag on the left side
      <	more general tag on the right side
      ~	both more and less general tags on both sides
      !	tags differ and cannot be compared
      |	identical tags

Porovnávání 3 tagů

Sloučení výsledků

  • vert
    $ cd ~/PROJEKTY/GACR1012/compare
    $ vert-vert-vert.sh merge/<file> anotatori/<file>-<A1> anotatori/<file>-<A2> \
      > cmp-3input/<file>-<A1>-<A2>

Porovnání tagů

  • použít program compare-3vert
    $ cd ~/PROJEKTY/GACR1012/compare
    $ compare-3vert tag-table.txt < file

Porovnání mnoha tagů ze 2 zdrojů

Sloučení výsledků

  • vert
    $ cd ~/PROJEKTY/GACR1012/compare
    $ paste merge/<file> <pref>/<file> | perl -pe 's/^[\t]+$//' > cmp-Minput/<pref>-<file>
  • <pref> je morf, rules apod.
  • porovnat programem compare-Mvert
    $ cd ~/PROJEKTY/GACR1012/compare
    $ compare-Mvert tag-table.txt < cmp-Minput/<file>
    $ compare-Mvert
    Usage: compare-Mvert [-CF] <table>
    
      -C	color output
      -F	full output (including identical lines)
    
    <table> is a table with differences between tagsets:
    // 0 - POS
    // 1 - SUBPOS
    = > n,l
    // 2 - GENDER
    H > F,N
    QW > FS,NP
    etc.
    
    In the output, lines with differencies are marked with >!<

QR Code
QR Code wiki:user:skoumal:compare (generated for current page)