Attributes | Values |
---|
rdf:type
| |
rdfs:seeAlso
| |
Description
| - The main goal of the project is to harvest from the Web big text data (corpora) for under-resourced languages, which includes Norwegian, partly Czech and also the major languages in Ethiopia (Amharic, Afaan Oromo, Tigrinya, Somali). The data will be annotated and parsed to make it usable in various language processing applications. The consortium will include a team from the Czech Republic (Masaryk University, Brno), which will use its existing tools for building Web corpora and coordinate the project, and a Norwegian team (NTNU, Trondheim), which will deal with processing and utilizing the compiled corpora. One of the project’s aims will be to build a multi-billion word Norwegian corpus using the tools co-developed by Masaryk University and utilized in a joint EU-funded project with NTNU (%22PRESEMT: Pattern REcognition-based Statistically Enhanced MT%22, 2010-2012). Second, NTNU collaborate with University of Oslo and two Ethiopian universities in a project to support linguistic resource building in Ethiopia funded by Norad (%22Linguistic Capacity Building – tools for the inclusive development of Ethiopia%22, NORHED 2013-2018). It is natural to link these activities and to include processing of the four major languages in Ethiopia in the present project: The HaBiT project would be able to feed into and leverage on the NORHED project, thoroughly testing the technologies and thus addressing also the call topics on technology assessment, verification and testing, as well as on ICT meeting societal challenges, hence obtaining a relevant added value also in the political respect through cooperation with a less-developed country. Third, shallow processing applications for Czech and Norwegian, and at least one Ethiopian language, would be built, for investigating and separating multiple senses of the words in the corpora - for word sense induction, as well as for creating multi-sense vector spaces and parallel multilingual vector spaces for word translation disambiguation. (en)
- Cílem projektu je získat z webu velká textová data (korpusy) pro jazyky s nedostatečnými zdroji, mezi něž patří norština, zčásti čeština a také některé etiopské jazyky (amharština, afaan oromština, tigrinština, somálština). Data budou anotována, parsována tak, aby byla použitelná pro různé aplikace v oblasti počítačového zpracování přirozeného jazyka, např. extrakce informací, strojový překlad a další. Konsorcium bude tvořeno jedním norským týmem (NTNU Trondheim), který se bude věnovat zpracování vzniklých korpusů, a jedním českým týmem (MU Brno), který využije svých již existujících nástrojů pro budování korpusů z webu. Projekt bude koordinován brněnským týmem. Jedním cílem projektu bude vytvoření velkého norského korpusu čítajícího miliardy slovních tvarů s použitím nástrojů vyvinutých v rámci spolupráce s NTNU v EU projektu PRESEMT (%22PRESEMT: Pattern REcognition-based Statistically Enhanced MT%22, 2010-2012). Za druhé, NTNU spolupracuje s Universitou v Oslo a dvěma etiopskými universitami v projektu na podporujícím budování jazykových zdrojů a fundovaném organizací Norad (%22Linguistic Capacity Building – tools for the inclusive development of Ethiopia%22, NORHED 2013-2018). Je tedy přirozené propojit tyto aktivity a zahrnout zpracování čtyř velkých etiopských jazyků do předkládaného projektu: projekt HaBiT tak může podpořit a posílit projekt NORHED důkladným testováním technologií a tím adresovat témata evaluace a verifikace a také splnit společenskou výzvu pro informační technologie (ICT). Takto získáme relevantní přidanou hodnotu rovněž po politické stránce prostřednictvím kooperace s méně rozvinutou zemí. Za třetí, budou vytvořeny aplikace pro povrchové zpracování češtiny a norštiny a aspoň jednoho etiopského jazyka, umožňující vyčlenění a zkoumání mnohoznačnosti slov v korpusech, tj. indukci slovních významů a také tvorbu vícevektorových prostorů a paralelních multilinguálních prostorů pro desambiguaci významů slov při překladu.
|
Title
| - Harvesting big text data for under-resourced languages
- Harvesting big text data for under-resourced languages (en)
|
skos:notation
| |
http://linked.open...avai/cep/aktivita
| |
http://linked.open...kovaStatniPodpora
| |
http://linked.open...ep/celkoveNaklady
| |
http://linked.open...datumDodatniDoRIV
| |
http://linked.open...i/cep/druhSouteze
| |
http://linked.open...ep/duvernostUdaju
| |
http://linked.open.../cep/fazeProjektu
| |
http://linked.open...ai/cep/hlavniObor
| |
http://linked.open...vai/cep/kategorie
| |
http://linked.open.../cep/klicovaSlova
| - Big text data; Web; parallel corpora; taggers; parsers; corpus managers; Word Sketch Engine; annotation of textual data; collocations; disambiguation; Czech; Norwegian; Amharic; Afaan Oromo; Tigrinya; Somali; Natural Language Processing; vector-space mo… (en)
|
http://linked.open...ep/partnetrHlavni
| |
http://linked.open...inujicichPrijemcu
| |
http://linked.open...cep/pocetPrijemcu
| |
http://linked.open...ocetSpoluPrijemcu
| |
http://linked.open.../pocetVysledkuRIV
| |
http://linked.open...enychVysledkuVRIV
| |
http://linked.open...lneniVMinulemRoce
| |
http://linked.open.../prideleniPodpory
| |
http://linked.open...iciPoslednihoRoku
| |
http://linked.open...atUdajeProjZameru
| |
http://linked.open.../vavai/cep/soutez
| |
http://linked.open...usZobrazovaneFaze
| |
http://linked.open...ai/cep/typPojektu
| |
http://linked.open...ep/ukonceniReseni
| |
http://linked.open.../cep/vedlejsiObor
| |
http://linked.open...ep/zahajeniReseni
| |
http://linked.open...tniCyklusProjektu
| |
http://linked.open.../cep/klicoveSlovo
| - Czech
- Afaan Oromo
- Amharic
- Natural Language Processing
- Norwegian
- Somali
- Tigrinya
- Web
- Word Sketch Engine
- annotation of textual data
- collocations
- corpus managers
- disambiguation
- parallel corpora
- parsers
- taggers
- Big text data
|
is http://linked.open...vavai/riv/projekt
of | |
is http://linked.open...vavai/cep/projekt
of | |