About: Harvesting big text data for under-resourced languages

Facets (new session)
Description
Metadata
Settings
- owl:sameAs
- Inference Rule:

About: Harvesting big text data for under-resourced languages Goto Sponge NotDistinct Permalink

An Entity of Type : http://linked.opendata.cz/ontology/domain/vavai/Projekt, within Data Space : linked.opendata.cz associated with source document(s)

Attributes	Values
rdf:type	http://linked.opendata.cz/ontology/domain/vavai/Projekt
rdfs:seeAlso	http://www.isvav.cz/projectDetail.do?rowId=7F14047
Description	The main goal of the project is to harvest from the Web big text data (corpora) for under-resourced languages, which includes Norwegian, partly Czech and also the major languages in Ethiopia (Amharic, Afaan Oromo, Tigrinya, Somali). The data will be annotated and parsed to make it usable in various language processing applications. The consortium will include a team from the Czech Republic (Masaryk University, Brno), which will use its existing tools for building Web corpora and coordinate the project, and a Norwegian team (NTNU, Trondheim), which will deal with processing and utilizing the compiled corpora. One of the project’s aims will be to build a multi-billion word Norwegian corpus using the tools co-developed by Masaryk University and utilized in a joint EU-funded project with NTNU (%22PRESEMT: Pattern REcognition-based Statistically Enhanced MT%22, 2010-2012). Second, NTNU collaborate with University of Oslo and two Ethiopian universities in a project to support linguistic resource building in Ethiopia funded by Norad (%22Linguistic Capacity Building – tools for the inclusive development of Ethiopia%22, NORHED 2013-2018). It is natural to link these activities and to include processing of the four major languages in Ethiopia in the present project: The HaBiT project would be able to feed into and leverage on the NORHED project, thoroughly testing the technologies and thus addressing also the call topics on technology assessment, verification and testing, as well as on ICT meeting societal challenges, hence obtaining a relevant added value also in the political respect through cooperation with a less-developed country. Third, shallow processing applications for Czech and Norwegian, and at least one Ethiopian language, would be built, for investigating and separating multiple senses of the words in the corpora - for word sense induction, as well as for creating multi-sense vector spaces and parallel multilingual vector spaces for word translation disambiguation. (en) Cílem projektu je získat z webu velká textová data (korpusy) pro jazyky s nedostatečnými zdroji, mezi něž patří norština, zčásti čeština a také některé etiopské jazyky (amharština, afaan oromština, tigrinština, somálština). Data budou anotována, parsována tak, aby byla použitelná pro různé aplikace v oblasti počítačového zpracování přirozeného jazyka, např. extrakce informací, strojový překlad a další. Konsorcium bude tvořeno jedním norským týmem (NTNU Trondheim), který se bude věnovat zpracování vzniklých korpusů, a jedním českým týmem (MU Brno), který využije svých již existujících nástrojů pro budování korpusů z webu. Projekt bude koordinován brněnským týmem. Jedním cílem projektu bude vytvoření velkého norského korpusu čítajícího miliardy slovních tvarů s použitím nástrojů vyvinutých v rámci spolupráce s NTNU v EU projektu PRESEMT (%22PRESEMT: Pattern REcognition-based Statistically Enhanced MT%22, 2010-2012). Za druhé, NTNU spolupracuje s Universitou v Oslo a dvěma etiopskými universitami v projektu na podporujícím budování jazykových zdrojů a fundovaném organizací Norad (%22Linguistic Capacity Building – tools for the inclusive development of Ethiopia%22, NORHED 2013-2018). Je tedy přirozené propojit tyto aktivity a zahrnout zpracování čtyř velkých etiopských jazyků do předkládaného projektu: projekt HaBiT tak může podpořit a posílit projekt NORHED důkladným testováním technologií a tím adresovat témata evaluace a verifikace a také splnit společenskou výzvu pro informační technologie (ICT). Takto získáme relevantní přidanou hodnotu rovněž po politické stránce prostřednictvím kooperace s méně rozvinutou zemí. Za třetí, budou vytvořeny aplikace pro povrchové zpracování češtiny a norštiny a aspoň jednoho etiopského jazyka, umožňující vyčlenění a zkoumání mnohoznačnosti slov v korpusech, tj. indukci slovních významů a také tvorbu vícevektorových prostorů a paralelních multilinguálních prostorů pro desambiguaci významů slov při překladu.
Title	Harvesting big text data for under-resourced languages Harvesting big text data for under-resourced languages (en)
skos:notation	7F14047
http://linked.open...avai/cep/aktivita	EEA/Norwegian Financial Mechanism
http://linked.open...kovaStatniPodpora	http://linked.opendata.cz/resource/domain/vavai/projekt/7F14047/celkovaStatniPodpora
http://linked.open...ep/celkoveNaklady	http://linked.opendata.cz/resource/domain/vavai/projekt/7F14047/celkoveNaklady
http://linked.open...datumDodatniDoRIV	2015-05-28 (xsd:date)
http://linked.open...i/cep/druhSouteze	VS - Veřejná soutěž ve výzkumu a vývoji
http://linked.open...ep/duvernostUdaju	S - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů
http://linked.open.../cep/fazeProjektu	101135609
http://linked.open...ai/cep/hlavniObor	IN - Informatika
http://linked.open...vai/cep/kategorie	ZV - Základní výzkum
http://linked.open.../cep/klicovaSlova	Big text data; Web; parallel corpora; taggers; parsers; corpus managers; Word Sketch Engine; annotation of textual data; collocations; disambiguation; Czech; Norwegian; Amharic; Afaan Oromo; Tigrinya; Somali; Natural Language Processing; vector-space mo… (en)
http://linked.open...ep/partnetrHlavni	Fakulta informatiky
http://linked.open...inujicichPrijemcu	0 (xsd:int)
http://linked.open...cep/pocetPrijemcu	1 (xsd:int)
http://linked.open...ocetSpoluPrijemcu	1 (xsd:int)
http://linked.open.../pocetVysledkuRIV	7 (xsd:int)
http://linked.open...enychVysledkuVRIV	7 (xsd:int)
http://linked.open...lneniVMinulemRoce	2014-10-27 (xsd:date)
http://linked.open.../prideleniPodpory	http://linked.opendata.cz/resource/domain/vavai/cep/prideleniPodpory/MSMT-28477%2F2014
http://linked.open...iciPoslednihoRoku	2015
http://linked.open...atUdajeProjZameru	2015
http://linked.open.../vavai/cep/soutez	SMSM20147F1
http://linked.open...usZobrazovaneFaze	DRRVB
http://linked.open...ai/cep/typPojektu	P - Projekt výzkumu a vývoje financovaný ze státního rozpočtu
http://linked.open...ep/ukonceniReseni	2017-04-30 (xsd:date)
http://linked.open.../cep/vedlejsiObor	AI - Jazykověda
http://linked.open...ep/zahajeniReseni	2014-07-15 (xsd:date)
http://linked.open...tniCyklusProjektu	ZB
http://linked.open.../cep/klicoveSlovo	Czech Afaan Oromo Amharic Natural Language Processing Norwegian Somali Tigrinya Web Word Sketch Engine annotation of textual data collocations corpus managers disambiguation parallel corpora parsers taggers Big text data
is http://linked.open...vavai/riv/projekt of	Low Inter-Annotator Agreement = An Ill-Defined Problem? Intelligent Search and Replace for Czech Phrases Text Tokenisation Using unitok Finding the Best Name for a Set of Words Automatically Mapping Czech and English Valency Lexicons: Preliminary Report SkELL: Web Interface for English Language Learning SQAD: Simple Question Answering Database
is http://linked.open...vavai/cep/projekt of	http://linked.opendata.cz/resource/domain/vavai/cep/ucast/7F14047/2014/ocs%3ANO%3ANorges+teknisk-naturvitenskapelig http://linked.opendata.cz/resource/domain/vavai/cep/ucast/7F14047/2014/orjk%3A14330 http://linked.opendata.cz/resource/domain/vavai/cep/ucast/7F14047/2015/ocs%3ANO%3ANorges+teknisk-naturvitenskapelig http://linked.opendata.cz/resource/domain/vavai/cep/ucast/7F14047/2015/orjk%3A14330 http://linked.opendata.cz/resource/domain/vavai/cep/ucast/7F14047/2016/ocs%3ANO%3ANorges+teknisk-naturvitenskapelig http://linked.opendata.cz/resource/domain/vavai/cep/ucast/7F14047/2016/orjk%3A14330 http://linked.opendata.cz/resource/domain/vavai/cep/ucast/7F14047/2017/ocs%3ANO%3ANorges+teknisk-naturvitenskapelig http://linked.opendata.cz/resource/domain/vavai/cep/ucast/7F14047/2017/orjk%3A14330

Faceted Search & Find service v1.16.118 as of Jun 21 2024

Alternative Linked Data Documents: ODE Content Formats:

RDF

ODATA

Microdata

About

OpenLink Virtuoso version 07.20.3240 as of Jun 21 2024, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (126 GB total memory, 46 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software