Description
| - There is an abundant evidence of research carried out in the domain of information structure, on anaphoric and coreferential relations and on discourse structure. However, there is not yet any systematic account published on the interplay of these aspects. At the same time, the intensive development of corpus linguistics resulting in the existence of very large monolingual and multilingual corpora of texts offers an unprecedented and easily available amount of empirical evidence. The aim of the project is thus twofold: (i) to examine the mentioned interplay on systematically annotated corpora with regard to the underlying syntactic sentence structure, the information structure as well as to the anaphoric links and to the discursive relations and to use the results in applicational tasks such as text segmentation and analysis, textual topic(s) identification and text modelling, and (ii) to approach these issues that are essential for the main language function, i.e. communication, as they are rendered by various means in different languages (especially in Czech, English and German). (en)
- V dnešní světové lingvistice se odráží velký zájem o otázky informační struktury věty, koreference a anafory a dalších aspektů textových vztahů, chybí v ní však pohled na jejich vzájemnou souhru. Zároveň se intenzívně vyvíjí korpusová lingvistika, která poskytuje dosud bezprecedentně široký a snadno dostupný empirický materiál. Cílem projektu je kontrastivní pohled na uvedené jevy ve dvojím smyslu slova kontrastivní: (i) Na základě výsledků dosavadního výzkumu v jednotlivých oblastech a na základě korpusového materiálu budeme sledovat jejich vzájemnou interakci, podmíněnost a vyvoditelnost, a také možnosti aplikace dosažených výzkumných výsledků při automatickém zpracování přirozeného jazyka, jako je segmentace a analýza textu, identifikace tématu textu a možnosti jeho modelování, (ii) Tyto jazykové jevy chápeme jako podstatné pro komunikativní funkci jazyka, a budeme proto sledovat různé prostředky jejího vyjádření v různých jazycích (hlavně čeština, angličtina a němčina), a to s využitím korpusových dat v multilingválních korpusech.
|