Univerzita Karlova
Filozofická fakulta
Ústav teoretické a komputační lingvistiky
Czech syntactic lexicon
Hana Skoumalová
2001
Vedoucí: Prof. PhDr. Jarmila Panevová, DrSc.
Celý soubor si můžete stáhnout tady: .ps.gz,
.pdf.gz, nebo jednotlivé kousky
z obsahu.
Můžete se také podívat na slídy z mé
přednášky o slovníku (zde jsou v PDF).
Vybraní uživatelé, kteří znají heslo, si mohou prohlížet
hotové slovníky.
Abstrakt
V této práci se představuje elektronický slovník českých sloves.
Slovník obsahuje asi 15000 českých sloves a jeho účelem je rozšířit
informaci obsaženou v jiných elektronických slovnících. Trendem
posledních let se stává tvorba velkých znovuvyužitelných zdrojů, které
se dají kombinovat s jinými zdroji. Tato práce ukazuje, jak slovník
spolupracuje s existujícím morfologickým slovníkem a jak může být
využit v rozličných systémech zpracování přirozeného jazyka.
Kapitola 2 probírá různé teoretické přístupy ve srovnání s
funkčním generativním popisem (FGP), jenž je užit ve slovníku. Výklad
se soustřeďuje zejména na strukturu slovníku v jednotlivých teoriích.
Slovník zpravidla odpovídá určitým předem daným podmínkám, které
vyplývají z použité teorie, a proto se v práci zkoumá možnost
vytvoření slovníku, který by byl přenositelný mezi teoriemi.
V kapitole 3 se probírají možnosti využít existující zdroje
vzhledem k výsledkům, jichž má být dosaženo, a vzhledem k použité
teorii. V minulosti již bylo několik českých syntaktických slovníků
vytvořeno, ale bohužel jejich opětovné využití by bylo
problematické. Tato kapitola se zmiňuje o několika pokusech a poté
popisuje podrobně slovník, který byl nakonec použit.
V kapitole 4 se popisuje slovesný rámec. Nejdříve se popisuje
formát slovníkového hesla, dále se probírají různé typy reflexivních
konstrukcí v češtině a jejich zápis ve slovníku. V dalším oddíle se
vyjmenovávají možné diateze základního (aktivního) rámce a probírá se,
které z těchto diatezí mohou být zachyceny pravidly a s kterými je
třeba zacházet jako s výjimkami. V poslední části kapitoly se
probírají tzv. raising a equi slovesa.
V kapitole 5 je předvedena procedura pro automatický převod
zdrojového slovníku do žádoucího formátu. Za tímto účelem byl vyvinut
algoritmus, který přiřazuje funktory (sémantické role) jednotlivým
členům rámce. Výstup z této procedury poslouží jako vstup pro editor
rámců. Probírá se zde také, jaký objem dat se dá definitivně zpracovat
touto procedurou a jaké množství vyžaduje následnou editaci. V této
kapitole je také ukázáno, jak může být výsledný slovník využit při
zpracování přirozeného jazyka.
Kapitola 6 obsahuje závěr. Slovesa jsou utříděna do tříd podle
rámců a výsledky jsou porovnány s podobnými pracemi jiných badatelů. V
dalším oddíle se probírají perspektivy zpracování jazyka založeného na
symbolických metodách a možnost využití slovníku v korpusové
lingvistice.
-
- Acknowledgments . . . ii
- 1. Introduction . . . 1 (.ps, .pdf)
- 1.1. Terminological remarks . . . 2
- 2. Theoretical background . . . 3
- 2.1. An overview of FGD . . . 3
- 2.2. Comparing FGD with other theories . . . 6
- 2.2.1. Government Binding Theory . . . 6
- 2.2.2. Lexical Functional Grammar . . . 7
- 2.2.3. Head Driven Phrase Structure Grammar . . . 7
- 2.2.4. Comparison with FGD . . . 9
- 3. Using existing sources . . . 10 (.ps, .pdf)
- 3.1. Source data . . . 11
- 3.1.1. The attributes used in the lexicon and their values . . . 11
- 4. Content of the lexicon . . . 14 (.ps, .pdf)
- 4.1. Format of a lexical entry . . . 14
- 4.1.1. Voice . . . 15
- 4.1.2. Reflexivity . . . 16
- 4.1.3. Subject . . . 16
- 4.1.4. Functor . . . 17
- 4.1.5. Grammatemes . . . 17
- 4.1.6. Diatheses . . . 18
- 4.2. Reflexivity . . . 21
- 4.2.1. True reflexive with se. . . 21
- 4.2.2. True reflexive with si. . . 23
- 4.2.3. Reciprocal verbs with se. . . 23
- 4.2.4. Reciprocal verbs with si. . . 27
- 4.2.5. Reflexive tantum with se. . . 28
- 4.2.6. Derived reflexive verbs with se. . . 28
- 4.2.7. Reflexive tantum with si. . . 28
- 4.2.8. Derived reflexive verbs with si. . . 29
- 4.2.9. Reflexive with optional se. . . 29
- 4.2.10. Reflexive with optional si. . . 30
- 4.2.11. Reflexive passive . . . 31
- 4.2.12. Mediopassive . . . 31
- 4.2.13. Homonymy of reflexive verbs . . . 31
- 4.3. Diatheses . . . 33
- 4.3.1. Diatheses encoded in the lexicon . . . 40
- 4.3.2. Periphrastic passive . . . 41
- 4.3.3. Reflexive passive . . . 44
- 4.3.4. Mediopassive . . . 46
- 4.3.5. Constructions with mít and dostat . . . 47
- 4.3.6. Resultative construction with mít . . . 49
- 4.4. Verbs with the infinitive in their frames . . . 49
- 4.4.1. Raising verbs . . . 55
- 4.4.2. Equi verbs . . . 59
- 5. Algorithm for processing the surface frames . . . 66
(.ps, .pdf)
- 5.1. Identifying and merging frames, marking the obligatority . . . 66
- 5.2. Assigning functors . . . 68
- 5.3. Marking diatheses . . . 73
- 5.4. Usage of the final lexicon . . . 73
- 5.4.1. Generating frame instances from frames . . . 74
- 5.4.2. Extracting subcat lists . . . 76
- 6. Conclusions . . . 78
(.ps, .pdf)
- 6.1. Verb grouping . . . 78
- 6.2. Further perspectives . . . 80
- Bibliography . . . 81
- Subject index . . . 86
- Verbs used in examples . . . 88
- A. Abbreviations . . . 90
(.ps, .pdf)
- B. Symbols used in the dictionary . . . 92
- B.1. Voice . . . 92
- B.2. Reflexivity . . . 92
- B.3. Subject . . . 93
- B.4. Functors . . . 93
- B.5. Grammatemes . . . 94
- B.6. Obligatority . . . 96
- B.7. Passive and other diathesis . . . 96
|
- C. Possible functors assigned to grammatemes . . . 97
- C.1. Abbreviations used in lists of possible functors . . . 97
- C.2. Lists of functors attached to every surface realization . . . 98
- D. Algorithm for assigning functors . . . 102
- D.1. Prototypical and less typical surface forms . . . 102
- D.2. Assigning non prototypical frame . . . 103
- D.3. Results . . . 103
- D.3.1. Verbs processed fully automatically . . . 103
- D.3.2. Verbs with ambiguous frames . . . 108
- E. Classification of Czech frames . . . 115
- E.1. Automatically processed frames . . . 115
- E.2. Ambiguous frames . . . 116
- F. Experiment with LFG . . . 121
(.ps, .pdf)
- F.1. Verb lexicon . . . 121
- F.2. Templates . . . 122
- F.3. Lexical rules . . . 123
- F.4. Grammar . . . 125
- F.5. Test sentences . . . 126
- G. Web interface to the lexicon . . . 132
(.ps, .pdf)
-
2nd part (.ps, .pdf)
-
3rd part (.ps, .pdf)
List of Tables
- 4.1. Taxonomy of reflexive verbs . . . 21
- 4.2. Three types of reciprocal verbs . . . 24
- 4.3. Reciprocal verbs with si. . . 27
- 4.4. Subject diatheses . . . 39
- 4.5. Subject diatheses revisited . . . 40
- 5.1. Identifying single frames . . . 67
- 5.2. Merging frame variants . . . 67
- 5.3. Prototypical frames . . . 70
- 5.4. Non prototypical frames . . . 70
- 5.5. Merging frame of the verb čertit se (be angry) . . . 71
- 6.1. Classification of verbs . . . 78
- 6.2. Classification of verbs with adjuncts simplified . . . 79
List of Figures
- 4.1. Three level system . . . 36
- 4.2. Three level system revisited . . . 37
- 5.1. Mapping between TL and ML in active voice . . . 69
- 5.2. Mapping between TL and ML for verbs with at least three actants . . . 69
- D.1. The algorithm for assigning functors to non prototypical frame . . . 104
- F.1. Simple grammar in LFG . . . 125
- F.2. Testing sentences . . . 126
- F.3. C structure of sentence 140a . . . 127
- F.4. F structure of sentence 140a . . . 127
- F.5. C structure of sentence 140b . . . 128
- F.6. F structure of sentence 140b . . . 128
- F.7. C structure of sentence 140c . . . 129
- F.8. F structure of sentence 140c . . . 129
- F.9. C structure of sentence 140d . . . 130
| | | | | | | | | | | | | | |
| | | | | | | | | | | | |
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |