Cílem projektu je ve vzájemné spolupráci vytvořit ucelené počítačové zachycení textových vztahů jako podklad pro další automatické zpracování přirozeného jazyka a experimentálně ověřit kvalitu tohoto zpracování a odpovídajících počítačových nástrojů. (cs)
The project aims to create a computational model of the text structure in Czech and in English that will serve for the purposes of natural language processing (NLP). The present project is based on the data from two annotated corpora: Prague Dependency Treebank (Charles University in Prague, Czech Republic) and Penn Discourse Treebank (University of Pennsylvania, USA). In the first part of the project, the final part of the Czech annotation will be completed and the multilingual data will be used for testing and subsequent improvement of annotation systems. The results of the analysis will be available e.g. for automatic information retrieval, text summarization or computer translation. (en)
Computational linguistics; theoretical linguistics; automatic text (discourse) analysis; automatic text summarization; information retrieval; linguistic annotation; information science; annotated corpora; Penn Discourse TreeBank (en)