Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK

na období 1. 2. 2016 – 31. 1. 2019


1. Úvod


Ústav teoretické a komputační lingvistiky FF UK (dále ÚTKL) byl založen roku 1990 prof. PhDr. Petrem Sgallem, DrSc., jako sesterské pracoviště Ústavu formální a aplikované lingvistiky MFF UK (dále ÚFAL) a jeho obecné zaměření je zřejmé z názvu. Je to ústav zaměřený především vědecky, v oblasti pedagogické ústav zajišťuje (spolu s Ústavem Českého národního korpusu FF UK) výuku doktorského studia oboru matematická lingvistika. Ředitelem ústavu je od června roku 1994 doc. RNDr. Vladimír Petkevič, CSc., naposledy byl jmenován ředitelem dne 21. 1. 2013, a to na tříleté funkční období od 1. 2. 2013 do 31. 1. 2016.


2. Celkové obecné zaměření ÚTKL


2.1 VĚDECKÁ ČINNOST


Ústav pracuje v těchto lingvistických odvětvích a oborech:


A. Matematická lingvistika


A1. korpusová lingvistika:

Ústav se věnuje přípravě rozsáhlých korpusů současné češtiny, a to zejména v rámci projektu velké infrastruktury Český národní korpus (hlavní řešitel dříve prof. PhDr. František Čermák, DrSc., z Ústavu Českého národního korpusu FF UK, dále ÚČNK, nyní doc. PhDr. Václav Cvrček, Ph.D.) a v různých obdobích i projektů Grantové agentury České republiky (GAČR) a Evropského sociálního fondu (ESF). V projektu infrastruktury se ÚTKL konkrétně zabývá touto problematikou:

(a) gramatické (morfologické a syntaktické) značkování korpusů (tokenizace vstupního textu, větná segmentace, morfologická analýza, morfologická disambiguace včetně disambiguace slovnědruhové a lemmatizace, syntaktická analýza, zpracování frazémů);

(b) příprava různých typů korpusů, zejména cizojazyčných paralelních korpusů v rámci infrastrukturního podprojektu InterCorp; ÚTKL zde v součinnosti s ÚČNK konkrétně zajišťuje budování datové základny InterCorpu, automatické zarovnávání (alignment) a dále gramatické značkování a úkoly související; práce na podprojektu InterCorp navíc řídí ing. Alexandr Rosen, Ph.D. z ÚTKL. Dále se ÚTKL zabývá budováním syntakticky anotovaných korpusů (treebanks) umožňujícího mj. různé pohledy na táž jazyková data; a vytvářením žákovských korpusů češtiny nerodilých i rodilých mluvčích a jejich anotace (ve spolupráci s pracovníky Katedry českého jazyka a teorie komunikace FF UK, s pracovníky Technické univerzity Liberec a Matematicko-fyzikální fakulty UK)


A2. Formální lingvistika

Ústav pracuje v těchto oblastech:

B. Obecná lingvistika


Ústav se podílí na vydávání (překladových) publikací souvisejících hlavně s Pražskou školou strukturní lingvistiky.


C. Teoretická lingvistika


Ústav se věnuje výzkumu v oblasti morfologie a syntaxe přirozeného jazyka, především češtiny.2.2 PEDAGOGICKÁ ČINNOST


Pracovníci ústavu vyučují v seminářích oboru matematická lingvistika v těchto oblastech:


Pracovníci ÚTKL mimoto vyučují v oborech obecná lingvistika a jazykovědná bohemistika předmět: základy jazykovědy a úvod do obecné jazykovědy


I v letech 2016 až 2019 se ÚTKL soustředí na vědeckovýzkumnou a pedagogickou činnost ve výše uvedených odvětvích s tím, že bude zejména plnit úkoly stanovené ve zmíněném projektu velké infrastruktury Český národní korpus (2012–2016 a i v návazném období) a podle možností v projektu PRVOUK, a to ve spolupráci s ÚČNK. Mimoto bude řešit úkoly stanovené v jiných projektech (podrobněji v odst. 4).


3. Oblast personálního rozvoje


V ÚTKL pracuje v současnosti šest pracovníků, z toho pět na plný úvazek:V ústavu je tedy pět vědeckých pracovníků na plný úvazek a sekretářka na úvazek poloviční. Vědečtí pracovníci sice mají smlouvy až do roku 2019, ty jsou však bohužel podmíněny prostředky získávanými z grantů. Pracovníci jsou v současnosti, tj. na konci roku 2015, placeni jednak z prostředků přidělených přímo ústavu v podobě tzv. mzdového „balíčku“, jednak z projektu velké infrastruktury Český národní korpus, a téži z projektu GAČR Treebank češtiny na základě gramatiky (od 1. 2. 2013). Podrobněji o těchto projektech viz níže v odst. 4. „Balíček“ ÚTKL je ovšem nepřiměřeně nízký ve srovnání s tím, co ústav fakultě přináší granty a svou vědeckou produkcí.

Práci na uvedených projektech považuje ústav za svou vědeckovýzkumnou prioritu. Na projektu infrastruktury a grantů GAČR se podílejí a budou podílet též (zejména) mladí externisté, kteří jsou zaměstnáváni na dohody o provedení práce a na dohody o pracovní činnosti. Zvládnout vědeckou práci na uvedených projektech je ovšem velmi náročné, a v tomto směru proto plánujeme (pochopitelně v závislosti na finančních možnostech) takovéto personální posílení ústavu k řešení grantových úkolů:


Ústav úzce spolupracuje především s ÚČNK a dále pak s Ústavem formální a aplikované lingvistiky MFF UK, zčásti i s Ústavem pro jazyk český AV ČR, Filozofickou fakultou a Fakultou informatiky Masarykovy univerzity v Brně a Filozofickou fakultou Univerzity Palackého v Olomouci a dalšími obdobně zaměřenými pracovišti.


Za jednu z priorit považuje ústav kvalifikační postupy pracovníků ÚTKL, tj. profesury, docentury a úspěšné absolvování doktorského studia doktorandů ať už oboru matematická lingvistika, tak oborů jiných (pracovníci ústavu jsou školiteli i doktorandů jiných jazykových oborů).


4. Rozvoj vědecké činnosti


Hlavní náplní činnosti ÚTKL je vědeckovýzkumná práce v oboru matematická lingvistika.

Ústav se specializuje a v nejbližších třech letech také bude specializovat na tyto výzkumné oblasti:Během své existence obdržel ústav řadu českých a mezinárodních grantů, v nichž figuroval jako hlavní řešitelské nebo spoluřešitelské pracoviště, většinou s doc. Petkevičem jako hlavním odpovědným řešitelem. V posledních patnácti letech to byly zejména tyto granty:


Granty Grantové agentury České republiky (GAČR):Grant MŠMT:

Příprava testovacích dat a nástrojů pro testování lingvistického software (2005–2007) (hlavním řešitelským pracovištěm byl Ústav pro jazyk český AV ČR, ÚTKL se podílel na plnění úkolů projektu).


Výzkumný záměr:


Projekt typu ESF (Evropský sociální fond):


Pracovníci ÚTKL se též jako externí spolupracovníci podíleli na řešení projektů:


Z mezinárodních grantových projektů uvádíme tyto (za celé období existence ústavu):V současnosti pracuje ÚTKL na těchto projektech:


Vědecká činnost ÚTKL v nejbližším období bude probíhat především v rámci těchto projektů:


a také následujícího projektu, bude-li ústavu přidělen:

Pravopis a gramatika češtiny v éře počítačové gramotnosti (2016–2019)


Mimo uvedené oblasti činnosti pracovníci ústavu příležitostně přednášejí/vyučují v zahraničí. Zúčastňují se vědeckých konferencí doma i v zahraničí (z posledních jmenujme účast s referáty na konferencích ve Varšavě, Řezně, Sankt-Petěrburku, Dubrovníku, Istanbulu, Göttingen, Tübingen).

Ústav spolupracuje s obdobně zaměřenými zahraničními lingvistickými pracovišti, například s Univerzitou v Řezně (spolupráce v oblasti syntaxe slovanských jazyků a paralelních korpusů) s Univerzitou v Torontu (dlouhodobá spolupráce na vývoji topologického parseru a formalismu pro adekvátní popis slovosledu), s univerzitou ve Varšavě (gramatické formalismy). Ke kontaktům se zahraničím patří i návštěvy význačných zahraničních odborníků, kteří ústav navštívili v poslední době: byli to například prof. Zygmunt Saloni z Varšavské univerzity, dr. Ruprecht von Waldenfels z Univerzity v Bernu, prof. Leonid Iomdin z Ruské akademie věd, prof. Gerald Penn z Univerzity v Torontu, doc. Viktor Zacharov z Univerzity v Petrohradě.

Pracovníci ústavu odborně působí rovněž v oblasti obecné lingvistiky, zejména pečují o myšlenkové dědictví Pražské lingvistické školy. Roku 2005 vyšla česká verze publikace Lingvistického slovníku Pražské školy od Josefa Vachka (knihu připravil Vladimír Petkevič spolu s Jaromírem Tláskalem), v říjnu roku 2011 byla vydána publikace Jindřich Toman: Příběh jednoho moderního projektu. Pražský lingvistický kroužek 1926–1948 (knihu přeložil Vladimír Petkevič), na počátku roku 2015 byla vydána publikace Pražská škola v korespondenci. Dopisy z let 19241989 (knihu připravila Marie Havránková z Ústavu pro českou literaturu AV ČR spolu s Vladimírem Petkeviče). Připravuje se též sborník českých překladů klíčových statí významných protagonistů Pražské školy Prague School Reader in Linguistics, jehož redaktorem byl prof. Josef Vachek.


4.1 Zhodnocení realizace cílů dosavadní koncepce vědecké činnosti


V oblasti vědecké činnosti byly v posledním období, tj. v letech 2013–2015 (tedy v předcházejícím funkčním období ředitele ústavu Vladimíra Petkeviče) veškeré naplánované úkoly v rámci hlavního výzkumného projektu – výzkumného záměru Český národní korpus a korpusy jiných jazyků splněny. Dokončuje se projekt GAČR Treebank češtiny na základě gramatiky (1. 2. 2013 – 31. 12. 2015, reg. č. P406/13-27184S).5. Rozvoj pedagogické činnosti


ÚTKL zajišťuje (ve spolupráci s ÚČNK) na FF UK studijní obor: Filologie – matematická lingvistika (doktorské studium), nabízí výuku v kursech počítačové a formální lingvistiky, základů jazykovědy a obecné lingvistiky v podobě povinně volitelných a výběrových přednášek a seminářů pro pregraduální i postgraduální studenty. Takto se také podílí na výuce pro tyto obory: logika, srovnávací jazykověda, lingvistika a fonetika, český jazyk a literatura na FF UK a konečně počítačová a formální lingvistika na MFF UK. Na téže fakultě vyučuje také zahraniční studenty v rámci magisterského oboru jazyk a informační technologie programu Erasmus Mundus. Mimo vlastní přednášky a semináře se ústav rovněž podílí na výuce v semináři korpusové lingvistiky, který je organizován ÚČNK. Přednášky a semináře navštěvují nejen studenti (hlavně doktorandi) FF UK, ale i studenti z MFF UK a dalších fakult UK. Pracovníci ústavu vedli a vedou také doktorandy v oborech matematická lingvistika, český jazyk a literatura, obecná lingvistika a germanistika.

Členové ústavu dr. Skoumalová a dr. Rosen jsou členy oborové rady doktorského oboru matematická lingvistika, doc. Petkevič je jejím předsedou. Doc. Petkevič je rovněž členem oborové rady oboru logika a český jazyk a literatura na FF UK, obecný a indoevropský jazykozpyt na Filozofické fakultě Masarykovy univerzity v Brně (FF MU), oboru český jazyk na Filozofické fakultě Univerzity Palackého v Olomouci (FF UP) a oboru anglický jazyk na téže fakultě. Doc. Petkevič a dr. Rosen jsou též členy oborové rady oboru matematická lingvistika na MFF UK. Pracovníci ústavu bývají oponenty disertačních prací v oboru matematická lingvistika a dalších oborech (například český jazyk a literatura, germanistika), zasedají v komisích pro státní doktorské zkoušky v uvedených oborech na FF UK, MFF UK, Fakultě informatiky Masarykovy univerzity (FI MU), FF MU, FF UP. Píší také posudky na projekty podávané u Grantové agentury Univerzity Karlovy. Rovněž příležitostně přednášejí v semináři formální lingvistiky pořádaném Ústavem formální a aplikované lingvistiky MFF UK.

Doc. Petkevič a dr. Rosen se podílejí na výchově vědeckých pracovníků v rámci doktorského studia oboru matematická lingvistika, i oborů jiných (český jazyk a literatura, germanistika).


5.1 Zhodnocení realizace cílů dosavadní koncepce pedagogické činnosti


Cíle dosavadní koncepce byly splněny ve výše uvedeném smyslu.


6. Výhled dalších oblastí rozvoje základní součásti


Mimo plány uvedené výše se ÚTKL bude v příštích letech věnovat obecně těmto aktivitám:


(a) širší spolupráci s dalšími oborovými pracovišti, zejména pak s těmito: s ÚČNK a dalšími lingvisticky zaměřenými ústavy a katedrami FF UK, katedrou logiky FF UK, ÚFAL MFF UK, ÚJČ AV ČR, FI MU, FF MU a FF UP;

(b) prohlubování spolupráce se zahraničními oborovými pracovišti, s nimiž už má ÚTKL dlouhodobé kontakty, a navazování odborných kontaktů s novými pracovišti.7. Stručný profil kandidáta na ředitele doc. RNDr. Vladimíra Petkeviče, CSc.


Stručné odborné curriculum vitaeOdborná specializace:


matematická lingvistika a lingvistická bohemistika:


obecná jazykověda


Konkrétní pedagogická a odborná činnost v posledních pěti letech:
V Praze dne 1. prosince 2015doc. RNDr. Vladimír Petkevič, CSc., ředitel ÚTKL FF UK