Ústav teoretické a komputační lingvistiky (ÚTKL)
http://utkl.ff.cuni.cz
HLAVNÍ OBLASTI VÝZKUMU. ZÁKLAD VĚDECKÉ ČINNOSTI ÚSTAVU VE SFÉŘE TEORETICKÉ I APLIKAČNÍ
Ústav se zabývá vědeckovýzkumnou činností v následujících lingvistických odvětvích:
A) obecná lingvistika a teoretická jazykověda
Formální a teoretický popis přirozeného jazyka, zejména češtiny.
V této oblasti ústav publikuje původní odborné články a věnuje se překladům významných děl souvisejících s tematikou Pražského lingvistického kroužku a též vydávání korespondence členů Kroužku. Rovněž se podílí na přípravě slovníkových hesel pro Nový encyklopedický slovník češtiny.
B) počítačové zpracování přirozeného jazyka (Natural Language Processing)
a. vývoj počítačových nástrojů pro automatické zpracování (především) českého jazyka, zvláště:
automatická morfologická a syntaktická analýza češtiny;
tvorba valenčního slovníku a slovníku kolokací;
výzkum gramatických formalismů.
V této oblasti ÚTKL publikuje odborné práce, vyvíjí lingvistický software a připravuje lingvistická data pro další počítačové zpracování.
b. korpusová lingvistika: Ústav
ve spolupráci s Ústavem Českého národního korpusu FF UK (ÚČNK) vytváří jazykové korpusy současné češtiny: zejména korpusy synchronní řady tvořící součást dlouhodobého projektu Český národní korpus: SYN2005, SYN2009PUB, SYN2010 a SYN. ÚTKL se zaměřuje na jejich gramatické značkování (zejména na značkování slovnědruhové a morfologické) a technickou přípravu; spolu s ÚČNK se podílí na budování paralelního korpusu (podprojekt InterCorp);
připravuje syntakticky anotovaný korpus češtiny SYNÁČEK;
připravuje korpus studentů češtiny jako druhého nebo cizího jazyka (CzeSl).
Mimoto v této oblasti publikuje lingvistické monografie a odborné články.
Ústav odborně spolupracuje se zahraničními stejně či obdobně zaměřenými pracovišti.
SOUČASNÉ PROFILOVÉ PROJEKTY
ÚTKL:
spolupracuje s Ústavem Českého národního korpusu FF UK na pětiletém projektu velké infrastruktury Český národní korpus (2012–2016, reg. č. LM2011023) a podle možností v projektu PRVOUK, a to ve spolupráci s ÚČNK.
řeší tříletý grant GAČR Treebank češtiny na základě gramatiky (1. 2. 2013–31. 12. 2015, reg. č. P406/13-27184S).
NEJVÝZNAMNĚJŠÍ PUBLIKAČNÍ PROJEKTY
ÚTKL se ve spolupráci s Ústavem Českého národního korpusu FF UK významně podílel na publikaci řady statí v edici Studie z korpusové lingvistiky, vydávané Nakladatelstvím Lidové noviny: Korpusová lingvistika: Stav a modelové přístupy (2006), Kolokace (2006), Mnohojazyčný korpus InterCorp: Možnosti studia (2010), InterCorp: Exploring a Multilingual Corpus (2010), Korpusová lingvistika Praha 2011.
V edici Korpusová lexikografie se ÚTKL podílel na těchto publikacích: Slovník Karla Čapka (2007), Slovník Bohumila Hrabala (2009), Slovník komunistické totality (2010).
ÚTKL se rovněž podílel na přípravě těchto publikací, jež vyšly v Nakladatelství Lidové noviny: Frekvenční slovník češtiny (2004) a Statistiky češtiny (2009).
Ústav se též významně podílel na přípravě českého překladu Lingvistického slovníku Pražské školy Josefa Vachka (2005) a překladu knihy Jindřicha Tomana (2011): Příběh jednoho moderního projektu. Pražský lingvistický kroužek 1926–1948.
SPOLUPRACUJÍCÍ DOMÁCÍ A ZAHRANIČNÍ INSTITUCE
Česká republika
Ústav spolupracuje zejména s těmito institucemi v České republice: Ústav Českého národního korpusu FF UK, Ústav formální a aplikované lingvistiky MFF UK, Ústav českého jazyka a teorie komunikace FF UK, Ústav pro jazyk český Akademie věd České republiky (AV ČR), Fakulta informatiky Masarykovy univerzity (FF MU) v Brně, Technická univerzita Liberec, Ústav pro českou literaturu AV ČR, Ústav českého jazyka a slovanské jazykovědy FF MU, Ústav jazykovědy a baltistiky FF MU, Katedra bohemistiky Filozofické fakulty Univerzity Palackého v Olomouci.
Mezinárodní spolupráce
Ústav spolupracuje s těmito zahraničními institucemi: Jazykovedný ústav Ľudovíta Štúra SAV Bratislava; Universytet Warszawski: Wydział Polonistyki, Instytut Badań Interdyscyplinarnych; Polska Akademia Nauk, Instytut Podstaw Informatyki, Warszawa; Sankt-Petěrburskij gosudarstvennyj universitět, Filosofskij fakultět; Russkaja Akademia Nauk, Institut Problem Peredači Informacij, Moskva; Universität Regensburg, Institut für Slavistik; Universität Tübingen, Seminar für Sprachwissenschaft; Universität Bern, Institut für slavische Sprachen und Literaturen; University of Toronto, Department of Computer Science; Freie Universität Berlin, Institut für Deutsche und Niederländische Philologie.
CHARAKTERISTIKA OBORU A STUDIA
Ústav se podílí na přípravě doktorandů v rámci akreditovaného doktorského studia Matematická lingvistika, a to ve spolupráci s Ústavem Českého národního korpusu FF UK.
Matematická lingvistika je integrovaný obor navazující na ukončené studium zpravidla některého filologického oboru, jehož předmětem je formalizované zpracování přirozených jazyků, a to obvykle na korpusových datech. Předmětem oboru matematická lingvistika je popis jazyka exaktními matematickými a počítačovými metodami. Jsou to metody symbolické (algebraické, formální) a/nebo statistické, často se při formálním zpracování přirozeného jazyka tyto metody kombinují. Další oblastí matematické lingvistiky je lingvistika korpusová, která se zabývá přípravou a využitím elektronických textových korpusů. Na obor matematická lingvistika se hlásí především absolventi filozofických a matematických či informatických fakult, ale i absolventi technických vysokých škol se zaměřením na informatiku.
Absolvent doktorského studia Matematická lingvistika je vybaven rozsáhlými znalostmi v oblasti počítačového zpracování jazyka: získává především přehled o jazykovědě a možnostech jejího matematického (a speciálně počítačového) zpracování. Novými formálními pohledy a metodami obohacuje své znalosti cizích jazyků a češtiny. Dokáže nalézt uplatnění kdekoli tam, kde se pracuje s počítačovou podobou textů přirozeného jazyka.
Kromě vyučování v doktorandském studiu oboru Matematická lingvistika ústav otevírá volitelné semináře a přednášky pro studenty ostatních oborů fakulty nebo se podílí na výuce v těchto seminářích/přednáškách. Jsou to:
Úvodní seminář matematické lingvistiky, Úvod do obecné jazykovědy, Základy jazykovědy, Deklarativní popis češtiny, Syntax bez transformací, Korpusová lingvistika: teorie a praxe.
Vědecko-výzkumný profil za ÚTKL zpracoval
doc. RNDr. Vladimír Petkevič, CSc.
vladimir.petkevic@ff.cuni.cz
tel.: 221 619 753