Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK
1. Úvod
Ústav teoretické a komputační lingvistiky FF UK (dále ÚTKL) byl založen roku 1990 prof. PhDr. Petrem Sgallem, DrSc. jako sesterské pracoviště Ústavu formální a aplikované lingvistiky MFF UK a jeho obecné zaměření je zřejmé z názvu. Ústav zajišťuje výuku doktorského studia oboru matematická lingvistika. Ředitelem ústavu je od r. 1994 doc. RNDr. Vladimír Petkevič, CSc., který byl naposledy jmenován ředitelem dne 1. 12. 2006 na období do 30. 11. 2009. Od 1. 12. 2009 do 31. 1. 2010 byl Vladimír Petkevič jmenován pověřeným ředitelem ústavu.
2. Celkové obecné zaměření ÚTKL
Ústav pracuje v těchto vědeckých odvětvích a oborech:
1. matematická lingvistika
korpusová lingvistika
příprava rozsáhlých korpusů současné češtiny, a to zejména v rámci výzkumného záměru Český národní korpus a korpusy jiných jazyků (reg. č. MSM0021620823, hlavní řešitel prof. PhDr. František Čermák, DrSc.). ÚTKL konkrétně zabezpečuje gramatické značkování korpusů a související zpracování (tokenizace, větná segmentace, lemmatizace, slovnědruhová a morfologická analýza a disambiguace);
spolupráce s ÚČNK na koncepci a přípravě cizojazyčných, zejména paralelních korpusů; ÚTKL konkrétně zajišťuje automatické zarovnávání (alignment) a dále gramatické značkování a související zpracování (podobně jako výše a v rámci téhož výzkumného záměru);
spolupráce s Technickou univerzitou Liberec na tvorbě tzv. žákovských korpusů češtiny nerodilých mluvčích (v rámci projektu Inovace vzdělávání v oboru čeština jako druhý jazyk, reg. č. CZ.1.07/2.2.00/07.0259, hlavní řešitel prof. PhDr. Karel Šebesta, CSc.)
formální lingvistika
formální a teoretický popis přirozeného jazyka (zejména češtiny),
syntax přirozeného jazyka a její teoretické a počítačové zpracování (automatická syntaktická analýza češtiny)
tvorba valenčního slovníku a slovníku kolokací
gramatické formalismy
počítačová lexikografie
2. obecná lingvistika – spolupráce na vydávání publikací souvisejících s Pražskou školou strukturní lingvistiky
3. teoretická lingvistika, a to zvláště v oblasti syntaxe přirozeného jazyka a aktuálního členění věty
Pracovníci ústavu vyučují v seminářích matematické lingvistiky v těchto oblastech:
formální zpracování přirozeného jazyka
teoretická lingvistika, s důrazem na deklarativní (netransformační) teorie
gramatické formalismy a jejich aplikace na popis přirozeného jazyka
korpusová lingvistika
Mimoto také vyučují v předmětech:
matematika pro filology
základy jazykovědy a obecná lingvistika (od letního semestru 2009/2010).
I v letech 2010 a dále se ÚTKL soustředí na vědeckovýzkumnou a pedagogickou činnost ve výše uvedených odvětvích s tím, že bude zejména plnit úkoly stanovené ve výzkumném záměru Český národní korpus a korpusy jiných jazyků (do roku 2011 včetně) a v tzv. vnitřním výzkumném záměru Český národní korpus (od roku 2012), a to v úzké součinnosti především s Ústavem Českého národního korpusu FF UK (dále ÚČNK). Mimoto bude řešit úkoly stanovovené v grantech (podrobněji v odd. 4).
3. Oblast personálního rozvoje
V ÚTKL pracuje v současnosti šest pracovníků:
doc. RNDr. Vladimír Petkevič, CSc., ředitel – netermínovaná smlouva
ing. Alexandr Rosen, Ph.D., zástupce ředitele – smlouva do 30. 9. 2014
RNDr. Hana Skoumalová, Ph.D., tajemnice – smlouva do 30. 9. 2014
RNDr. Milena Hnátková, CSc. – smlouva do 30. 9. 2014
Mgr. Tomáš Jelínek – smlouva do 31. 12. 2014
Jiřina Kovaříková, sekretářka – smlouva na půl úvazku do 31. 12. 2010
V ústavu je tedy pět vědeckých pracovníků na plný úvazek a sekretářka na úvazek poloviční. Pracovníci jsou dnes placeni jednak z prostředků přidělených přímo ústavu v podobě tzv. mzdového „balíčku“, jednak z výzkumného záměru (dále VZ) Český národní korpus a korpusy jiných jazyků, jednak z prostředků projektu Inovace vzdělávání v oboru čeština jako druhý jazyk. Podrobněji o těchto a dalších projektech viz níže v odd. 4.
Práci na těchto projektech považuje ústav za svou vědeckovýzkumnou prioritu. Na výzkumném záměru a grantu se podílejí též mladí externisté, kteří jsou zaměstnáváni na dohody o provedení práce a na dohody o pracovní činnosti. Zvládnout vědeckou práci na uvedených projektech je ovšem velmi náročné, a v tomto směru plánujeme (pochopitelně v závislosti financích) takovéto personální posílení ústavu:
o programátora-počítačového lingvistu pro spolupráci na grantových projektech
nejméně o jednoho lingvistu k řešení grantových úkolů.
Ústav úzce spolupracuje především s ÚČNK a dále pak s Ústavem formální a aplikované lingvistiky MFF UK a s Ústavem pro jazyk český AV ČR.
Za jednu z priorit považuje ústav kvalifikační postupy pracovníků ÚTKL, tj. profesury, docentury a úspěšné absolvování doktorského studia našich doktorandů.
4. Rozvoj vědecké činnosti
Hlavní náplní činnosti ÚTKL je vědeckovýzkumná práce v oboru matematická lingvistika. Během své existence obdržel ústav řadu českých a mezinárodních grantů, v nichž figuroval jako hlavní řešitel nebo spoluřešitel většinou s doc. Petkevičem jako hlavním odpovědným řešitelem.
Byly to zejména tyto granty:
Granty Grantové agentury České republiky (GAČR):
Počítačový korpus českých psaných textů (Počítačový fond češtiny) (1993–1995) (ÚTKL byl hlavním řešitelem)
Počítačové nástroje pro komputační zpracování českých textů (1995–1997) (ÚTKL byl hlavním řešitelem)
Komplexní projekt GAČR Čeština ve věku počítačů (1996–2001) (hlavním řešitelem byl ÚFAL MFF UK, ÚTKL byl spoluřešitelem)
Elektronizace postupů diachronní lexikografie (1999–2001) (hlavním řešitelem byl Ústav pro jazyk český AV ČR, spoluřešitelem pak FF UK, konkrétně ÚTKL)
Možnosti a meze gramatiky češtiny ve světle Českého národního korpusu (2003–2005) (hlavní řešitel Ústav pro jazyk český AV ČR, spoluřešitel pak FF UK, konkrétně ÚTKL)
Slovní poklad češtiny v informační společnosti (2003–2005) (hlavní řešitel Ústav pro jazyk český AV ČR, spoluřešitelem pak FF UK, konkrétně ÚTKL)
Velké jazykové korpusy a jejich automatická analýza (2003–2005) (hlavní řešitel Ústav formální a aplikované lingvistiky MFF UK, ÚTKL se podílel na plnění úkolů projektu)
Grant MŠMT:
Příprava testovacích dat a nástrojů pro testování lingvistického software (2005–2007) (hlavní řešitel Ústav pro jazyk český AV ČR, ÚTKL se podílel na plnění úkolů projektu).
Z mezinárodních grantových projektů uvádíme tyto:
Mezinárodní projekt Language Technologies for Slavic Languages (LATESLAV) – PECO 2824 (1993–1995). ÚTKL se mimo Ústav formální a aplikované lingvistiky MFF UK podílel na plnění úkolů tohoto grantu za českou stranu.
Mezinárodní projekt MULTEXT–EAST. Multilingual Text Tools and Corpora for Central and Eastern European Languages (1995–1997) (COP106). ÚTKL byl hlavním řešitelem za českou stranu.
Mezinárodní projekt TELRI (Trans–European Language Resources Initiative) (1995–1997). ÚTKL se mimo další pracoviště v České republice podílel na plnění úkolů tohoto grantu za českou stranu.
Mezinárodní projekt CONCEDE. Consortium for Central European Dictionary Encoding (1998–2000) (PL-1142). ÚTKL byl hlavním řešitelem za českou stranu.
Shared formal grammar of Czech and Polish (program vědecko-technické spolupráce MŠMT KONTAKT 2004/23). ÚTKL byl spoluřešitelem.
Veškeré úkoly stanovené uvedenými projekty byly splněny.
V současnosti pracuje ÚTKL na těchto projektech:
výzkumný záměr Český národní korpus a korpusy jiných jazyků (2005–2011, reg. č. MSM0021620823, vedoucí záměru prof. PhDr. František Čermák, DrSc., ÚČNK FF UK) ve spolupráci s ÚČNK FFUK
projekt Inovace vzdělávání v oboru čeština jako druhý jazyk (červen 2009– květen 2012, reg. č. CZ.1.07/2.2.00/07.0259, vedoucí záměru prof. PhDr. Karel Šebesta, CSc., Katedra českého jazyka a komunikace FFUK [KČJ FFUK]) ve spolupráci s KČJ FFUK a s Technickou univerzitou Liberec.
Rovněž úkoly stanovené v těchto projektech ústav plní podle stanoveného rozvrhu.
Vědecká činnost ÚTKL v nejbližším období bude probíhat zejména v rámci těchto projektů:
Výzkumný záměr Český národní korpus a korpusy jiných jazyků. Na tomto záměru bude ÚTKL pracovat v součinnosti s ÚČNK podle stanoveného rozvrhu do konce roku 2011 včetně.
Projekt Inovace vzdělávání v oboru čeština jako druhý jazyk. Na tomto projektu bude ÚTKL pracovat v součinnosti s KČJ FFUK a Technickou univerzitou Liberec podle stanoveného rozvrhu do května roku 2012.
Grant GAČR Syntaktická anotace českých korpusů (P406/10/0434). V období 2010–2012 bude ÚTKL rovněž pracovat na grantu GAČR, který úspěšně obdržel 1. 12. 2009. Hlavním řešitelem tohoto grantu je dosavadní ředitel ÚTKL doc. RNDr. Vladimír Petkevič, CSc.
Vnitřní výzkumný záměr Český národní korpus. Na úkolech tomto záměru, jehož anotace byla podána k děkanovým rukám k 30. 11. 2009, se ÚTKL hodlá podílet v součinnosti s ÚČNK od počátku roku 2012.
Mimo uvedené oblasti činnosti pracovníci ústavu příležitostně přednášejí v zahraničí. Zúčastňují se vědeckých konferencí doma i v zahraničí (z posledních jmenujme účast s referáty na konferencích ve Varšavě, Postupimi, na Krymu, v Birminghamu, Aroně v Itálii, Bratislavě, Řezně, Sankt-Petěrburku).
Ústav spolupracuje s obdobně zaměřenými zahraničními lingvistickými pracovišti, například s Univerzitou v Řezně (spolupráce v oblasti syntaxe slovanských jazyků a paralelních korpusů) a s Univerzitou v Torontu (dlouhodobá spolupráce na vývoji topologického parseru a formalismu pro adekvátní popis slovosledu). Ke kontaktům se zahraničím patří i návštěvy význačných zahraničních odborníků, kteří ústav navštívili v poslední době: byli to například prof. Zygmunt Saloni z Varšavské univerzity, dr. Ruprecht von Waldenfels z Univerzity v Bernu, prof. Leonid Iomdin z Ruské akademie věd, prof. Gerald Penn z Univerzity v Torontu.
Pracovníci ústavu odborně působí rovněž v oblasti obecné lingvistiky, zejména se zabývají péčí o dědictví Pražské lingvistické školy. Poté, co vyšla česká verze publikace Lingvistického slovníku Pražské školy od Josefa Vachka (vyšel roku 2005), se připravuje sborník českých překladů nejstěžejnějších statí významných protagonistů Pražské školy Prague School Reader in Linguistics, jehož redaktorem byl rovněž prof. Josef Vachek. V plánu je také vydat český překlad knihy Magic of the Common Language od prof. Jindřicha Tomana.
4.1 Zhodnocení realizace cílů dosavadní koncepce
V oblasti vědecké činnosti byly veškeré naplánované úkoly v rámci výzkumného záměru splněny. Mimo plánovanou činnost se ÚTKL navíc zapojil do grantu Inovace vzdělávání v oboru čeština jako druhý jazyk, kde práce probíhají v souladu s plánem, a úspěšně získal grant Syntaktická anotace českých korpusů zaměřený na syntaktický popis češtiny (získávání grantových prostředků na projekty týkající se zejména syntaktického a morfologického popisu češtiny však ÚTKL obecně plánoval).
5. Rozvoj pedagogické činnosti
ÚTKL zajišťuje tyto studijní obory: Filologie – matematická lingvistika (doktorské studium), nabízí výuku v kursech počítačové a formální lingvistiky, matematiky a základů jazykovědy (od letního semestru akademického roku 2009/2010) v podobě povinně volitelných a výběrových přednášek a seminářů pro pregraduální i postgraduální studenty. Takto se také podílí na výuce pro tyto obory: logika, srovnávací jazykověda, lingvistika a fonetika, český jazyk a literatura, a konečně počítačová a formální lingvistika na MFF UK. Na téže fakultě vyučuje také zahraniční studenty v rámci magisterského oboru jazyk a informační technologie programu Erasmus Mundus. Mimo vlastní přednášky a semináře se ústav rovněž podílí na výuce v semináři korpusové lingvistiky, který je organizován ÚČNK. Přednášky a semináře nenavštěvují jen studenti FF UK, ale i studenti z MFF UK a dalších fakult UK. Pracovníci ústavu vedli a vedou také doktorandy v oboru matematická lingvistika, obecná lingvistika a germanistika.
Členové ústavu doc. Petkevič, dr. Skoumalová a dr. Rosen jsou členy oborové rady doktorského oboru matematická lingvistika, jejímž předsedou je prof. František Čermák z ÚČNK. Doc. Petkevič je rovněž členem oborové rady oboru logika a český jazyk a literatura a spolu s dr. Rosenem jsou též členy oborové rady oboru matematická lingvistika na MFF UK. Pracovníci ústavu bývají oponenty disertačních prací v oboru matematická lingvistika a dalších oborech (například slavistika) a zkoušejí u státních doktorských zkoušek v uvedených oborech na FFUK a MFF UK. Rovněž příležitostně přednášejí v semináři formální lingvistiky na MFF UK v úzké součinnosti s Ústavem formální a aplikované lingvistiky MFF UK.
ÚTKL má v delším výhledu v plánu akreditovat obor matematická lingvistika v podobě navazujícího magisterského studia. V dohledné budoucnosti však bude velmi vytížen vědeckovýzkumnou prací na výzkumných záměrech a grantových projektech (viz výše odd. 4) a v nejbližších třech letech s přípravou navazujícího magisterského studia oboru matematická lingvistika nepočítá.
5.1 Zhodnocení realizace cílů dosavadní koncepce
Vzhledem ke značnému vytížení vědeckovýzkumnou činností ÚTKL prozatím nepokročil v přípravě navazujícího magisterského studia oboru matematická lingvistika, i když to plánoval. Jinak byly cíle dosavadní koncepce splněny, zejména v oboru matematická lingvistika a germanistika úspěšně obhájili v období prosinec 2006 – listopad 2009 své disertace čtyři doktorandi, které vedl jako školitel doc. Vladimír Petkevič.
6. Výhled dalších oblastí rozvoje základní součásti
Mimo plány uvedené výše se ÚTKL bude v příštích letech věnovat obecně těmto aktivitám:
(a) ještě hlubší a širší spolupráci s dalšími oborovými pracovišti, zejména pak s těmito: ÚČNK FF UK a dalšími lingvisticky zaměřenými ústavy a katedrami FF UK, katedrou logiky FF UK, Ústav formální a aplikované lingvistiky MFF UK, ÚJČ AV ČR, případně i s a brněnskou Fakultou informatiky MU
(b) prohlubování spolupráce se zahraničními oborovými pracovišti, s nimiž už má ÚTKL dlouhodobé kontakty, a navazování odborných kontaktů s novými pracovišti.
7. Stručný profil kandidáta na ředitele doc. RNDr. Vladimíra Petkeviče, CSc.
Stručné odborné curriculum vitae
Narozen 2. 3. 1954 v Praze
vystudoval Matematicko-fyzikální fakultu Univerzity Karlovy (MFF UK), obor Matematické zabezpečení výpočetní techniky (1974–1979)
Doktorát z přírodních věd (RNDr.), obor: matematická informatika a teoretická kybernetika (1985)
Kandidát věd (CSc.), obor: matematická informatika a teoretická kybernetika (1992).
Zaměstnán ve Výzkumném ústavu matematických strojů (VÚMS). Podílel se na vývoji operačních systémů pro sálové (mainframe) počítače, dále na vývoji překladačů programovacích jazyků a na vývoji databázových programů (1979–1992).
ledna 1993 přijat jako samostatný vědecký pracovník do Ústavu teoretické a komputační lingvistiky FF UK v Praze
od 10. 6. 1994 dosud ředitelem ÚTKL FF UK
Habilitace v oboru matematická lingvistika (1996), název práce: Underlying Structure of Sentence Based on Dependency
Od r. 1996: vedoucí lingvistické sekce (pro synchronní jazyk) Ústavu Českého národního korpusu FF UK, a to do r. 2006
Přednášky na zahraničních univerzitách: Düsseldorf, Heidelberg, Erlangen, Tübingen (SRN), Bratislava; výuka na letní škole (Sozopol 2002)
Účast na mezinárodních konferencích (nejvýznamnější: COLING´88, ACL´93, EURALEX´94, COLING–ACL´98, EURALEX´2000, Corpus Linguistics 2005)
člen ACL (Association for Computational Linguistics)
člen Jazykovědného sdružení České republiky
člen Pražského lingvistického kroužku
člen těchto oborových rad: pro obor matematická lingvistika (FF UK), logika (FF UK), český jazyk a literatura (FF UK), matematická lingvistika (MFF UK)
předseda etické komise FFUK
Odborná specializace:
matematická lingvistika a lingvistická bohemistika:
korpusová lingvistika – lingvistické značkování jazykových korpusů (zejména korpusů synchronní češtiny v rámci projektu Český národní korpus), morfologická disambiguace jazykových korpusů
syntax a morfologie přirozeného jazyka a její formální a počítačové zpracování, automatická syntaktická analýza češtiny, gramatické formalismy
obecná jazykověda
Konkrétní pedagogická a odborná činnost období posledních pěti let:
výuka v oboru matematická lingvistika, konkrétně: základy oboru (formální popis přirozeného jazyka, korpusová lingvistika, matematické metody v lingvistice, gramatické formalismy); výuka v oboru matematika pro filology; od letního semestru akad. roku 2009/2010 výuka základů jazykovědy; občasné přednášky na semináři pořádaném na MFF UK
vedení 9 doktorandů v doktorském oboru matematická lingvistika, z nichž 4 doktorandi v období prosinec 2006 – listopad 2009 úspěšně absolvovali doktorské studium.
jazykové značkování jazykových korpusů češtiny (zejm. morfosyntaktické)
statistický výzkum současné češtiny
příprava žákovského korpusu nerodilých mluvčích
výzkum (morfo)syntaxe české věty na základě korpusů současné češtiny
překlady v oboru lingvistika a matematická lingvistika
redakční činnost při přípravě publikací v oboru
V Praze dne 11. prosince 2009
doc. RNDr. Vladimír Petkevič, CSc., kandidát na ředitele ÚTKL FF UK