Wiki spuštěna 24. 7. 2025

Opracovávání korpusů

vetne.pdf - Přísně tajné, důvěrné! Nikam dál neposkytovat!

Změny v tagsetu

rozdíly oproti původnímu Hajičovu tagsetu
2000
2005 + 16. pozice: vid - P (dokonavý), I (nedokonavý), B (obouvidé sloveso)
2006PUB + 16. pozice: vid - P, I, B
2009PUB + 16. pozice: vid - P, I, B
hodnoty na 3. (rod), 4. (číslo), 5. (pád) pozici jednoznačné (s výjimkou lemmatu oni)
2010 + 16. pozice: vid - P, I, B
hodnoty na 3. (rod), 4. (číslo), 5. (pád) pozici jednoznačné (s výjimkou lemmatu oni)
u zvratných zájmen se, si, sebe, sobě, sebou je číslo opět jako X
zkratky a cizí slova mají hodnoty pouze na 1., 2., příp, 15. pozici, např. <html>AA————8-</html>
2013PUB + 16. pozice: vid - P, I, B
zkratky a cizí slova mají hodnoty pouze na 1., 2., příp, 15. pozici, např. <html>AA————8-</html>
zvratná zájmena nemají číslo

Změny prováděné skripty, které je třeba zachovat

  • každý má být zájmeno
  • se a si nemají číslo

QR Code
QR Code utkl:korpus:korpus (generated for current page)