Projekt aplikovaného výzkumu %22Integrace jazykových zdrojů za účelem extrakce informací z přirozených textů%22 řeší problém nekompatibility současných jazykových dat určených k lingvistickému výzkumu. Výsledkem bude jednotný systém pro uchovávání a všestranné využívání jazykových zdrojů opatřený robustními nástroji pro efektivní práci s texty. Do nového systému budou převedeny veškeré dostupné jazykové zdroje pro český jazyk. Současně se projekt zabývá detekcí a klasifikací tzv. pojmenovaných entit v českých textech, které zatím nebyly zpracovány a jejichž zahrnutí do jednotného systému dat zlepší výsledky automatického zpracování jazyka, zejména v oblasti vyhledávání informací z velkých textových databází.
The project %22Integration of Language Resources for Information Extraction from Natural Texts%22 focuses on the problem of current heterogeneity of language data intended for linguistic research. The result of the project will be a unified system for storing and using language resources together with robust tools enabling effective text processing. All the available language resources will be converted into the new system. The project is concerned also with detection and classification of %22named entities%22 in Czech texts, a subject not yet resolved for the Czech language. Its inclusion into the unified data system will improve results of automatic language processing, especially in the field of information retrieval from large text databases. (en)
Named entity recognizer; manually annotated corpora for development and testing; digitalization of card catalogue of the ÚJČ onomastic archive; design of general unique format PML for storing linguistic data; implementation of querry system in PML. (en)
Rozpoznávač pojmenovaných entit; ručně anotované korpusy pro vývoj a testování; digitalizace lístkového katalogu onomastického archivu ÚJČ; návrh obecného jednotného formátu PML na ukládání lingvistických dat; implementace dotazovacího systému nad PML. (cs)