About: Harvesting big text data for under-resourced languages     Goto   Sponge   NotDistinct   Permalink

An Entity of Type : http://linked.opendata.cz/ontology/domain/vavai/Projekt, within Data Space : linked.opendata.cz associated with source document(s)

AttributesValues
rdf:type
rdfs:seeAlso
Description
  • The main goal of the project is to harvest from the Web big text data (corpora) for under-resourced languages, which includes Norwegian, partly Czech and also the major languages in Ethiopia (Amharic, Afaan Oromo, Tigrinya, Somali). The data will be annotated and parsed to make it usable in various language processing applications. The consortium will include a team from the Czech Republic (Masaryk University, Brno), which will use its existing tools for building Web corpora and coordinate the project, and a Norwegian team (NTNU, Trondheim), which will deal with processing and utilizing the compiled corpora. One of the project’s aims will be to build a multi-billion word Norwegian corpus using the tools co-developed by Masaryk University and utilized in a joint EU-funded project with NTNU (%22PRESEMT: Pattern REcognition-based Statistically Enhanced MT%22, 2010-2012). Second, NTNU collaborate with University of Oslo and two Ethiopian universities in a project to support linguistic resource building in Ethiopia funded by Norad (%22Linguistic Capacity Building – tools for the inclusive development of Ethiopia%22, NORHED 2013-2018). It is natural to link these activities and to include processing of the four major languages in Ethiopia in the present project: The HaBiT project would be able to feed into and leverage on the NORHED project, thoroughly testing the technologies and thus addressing also the call topics on technology assessment, verification and testing, as well as on ICT meeting societal challenges, hence obtaining a relevant added value also in the political respect through cooperation with a less-developed country. Third, shallow processing applications for Czech and Norwegian, and at least one Ethiopian language, would be built, for investigating and separating multiple senses of the words in the corpora - for word sense induction, as well as for creating multi-sense vector spaces and parallel multilingual vector spaces for word translation disambiguation. (en)
  • Cílem projektu je získat z webu velká textová data (korpusy) pro jazyky s nedostatečnými zdroji, mezi něž patří norština, zčásti čeština a také některé etiopské jazyky (amharština, afaan oromština, tigrinština, somálština). Data budou anotována, parsována tak, aby byla použitelná pro různé aplikace v oblasti počítačového zpracování přirozeného jazyka, např. extrakce informací, strojový překlad a další. Konsorcium bude tvořeno jedním norským týmem (NTNU Trondheim), který se bude věnovat zpracování vzniklých korpusů, a jedním českým týmem (MU Brno), který využije svých již existujících nástrojů pro budování korpusů z webu. Projekt bude koordinován brněnským týmem. Jedním cílem projektu bude vytvoření velkého norského korpusu čítajícího miliardy slovních tvarů s použitím nástrojů vyvinutých v rámci spolupráce s NTNU v EU projektu PRESEMT (%22PRESEMT: Pattern REcognition-based Statistically Enhanced MT%22, 2010-2012). Za druhé, NTNU spolupracuje s Universitou v Oslo a dvěma etiopskými universitami v projektu na podporujícím budování jazykových zdrojů a fundovaném organizací Norad (%22Linguistic Capacity Building – tools for the inclusive development of Ethiopia%22, NORHED 2013-2018). Je tedy přirozené propojit tyto aktivity a zahrnout zpracování čtyř velkých etiopských jazyků do předkládaného projektu: projekt HaBiT tak může podpořit a posílit projekt NORHED důkladným testováním technologií a tím adresovat témata evaluace a verifikace a také splnit společenskou výzvu pro informační technologie (ICT). Takto získáme relevantní přidanou hodnotu rovněž po politické stránce prostřednictvím kooperace s méně rozvinutou zemí. Za třetí, budou vytvořeny aplikace pro povrchové zpracování češtiny a norštiny a aspoň jednoho etiopského jazyka, umožňující vyčlenění a zkoumání mnohoznačnosti slov v korpusech, tj. indukci slovních významů a také tvorbu vícevektorových prostorů a paralelních multilinguálních prostorů pro desambiguaci významů slov při překladu.
Title
  • Harvesting big text data for under-resourced languages
  • Harvesting big text data for under-resourced languages (en)
skos:notation
  • 7F14047
http://linked.open...avai/cep/aktivita
http://linked.open...kovaStatniPodpora
http://linked.open...ep/celkoveNaklady
http://linked.open...datumDodatniDoRIV
http://linked.open...i/cep/druhSouteze
http://linked.open...ep/duvernostUdaju
http://linked.open.../cep/fazeProjektu
http://linked.open...ai/cep/hlavniObor
http://linked.open...vai/cep/kategorie
http://linked.open.../cep/klicovaSlova
  • Big text data; Web; parallel corpora; taggers; parsers; corpus managers; Word Sketch Engine; annotation of textual data; collocations; disambiguation; Czech; Norwegian; Amharic; Afaan Oromo; Tigrinya; Somali; Natural Language Processing; vector-space mo… (en)
http://linked.open...ep/partnetrHlavni
http://linked.open...inujicichPrijemcu
http://linked.open...cep/pocetPrijemcu
http://linked.open...ocetSpoluPrijemcu
http://linked.open.../pocetVysledkuRIV
http://linked.open...enychVysledkuVRIV
http://linked.open...lneniVMinulemRoce
http://linked.open.../prideleniPodpory
http://linked.open...iciPoslednihoRoku
http://linked.open...atUdajeProjZameru
http://linked.open.../vavai/cep/soutez
http://linked.open...usZobrazovaneFaze
http://linked.open...ai/cep/typPojektu
http://linked.open...ep/ukonceniReseni
http://linked.open.../cep/vedlejsiObor
http://linked.open...ep/zahajeniReseni
http://linked.open...tniCyklusProjektu
http://linked.open.../cep/klicoveSlovo
  • Czech
  • Afaan Oromo
  • Amharic
  • Natural Language Processing
  • Norwegian
  • Somali
  • Tigrinya
  • Web
  • Word Sketch Engine
  • annotation of textual data
  • collocations
  • corpus managers
  • disambiguation
  • parallel corpora
  • parsers
  • taggers
  • Big text data
is http://linked.open...vavai/riv/projekt of
is http://linked.open...vavai/cep/projekt of
Faceted Search & Find service v1.16.118 as of Jun 21 2024


Alternative Linked Data Documents: ODE     Content Formats:   [cxml] [csv]     RDF   [text] [turtle] [ld+json] [rdf+json] [rdf+xml]     ODATA   [atom+xml] [odata+json]     Microdata   [microdata+json] [html]    About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data] Valid XHTML + RDFa
OpenLink Virtuoso version 07.20.3240 as of Jun 21 2024, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (126 GB total memory, 46 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software