About: Technologie pro multimediální archiv a jazykové modelování     Goto   Sponge   NotDistinct   Permalink

An Entity of Type : http://linked.opendata.cz/ontology/domain/vavai/Vysledek, within Data Space : linked.opendata.cz associated with source document(s)

AttributesValues
rdf:type
Description
  • The technology integrates a large number of algorithms and modules for a multimedia archive (textual and audio-visual). It also supports data-mining from web to build a large-scale language model of Czech. The language model is used in the task of automatic subtitling of television shows. The technology offers a universal platform, which is extensible, modular and scalable. It contains text processing modules, such as text cleaning, tokenization and normalization, modules for storing audio and video records and algorithms for conversion of such formats. An included scheduler supports on-demand execution of these modules. The innovation of this technology consists of an adaptation of language model to a given time span and topic of subtitles. (en)
  • Technologie v režimu poloprovoz je výstupem projektu FR-TI1/486 a integruje velké množství algoritmů a modulů usnadňujících vybudování multimediálního archivu (text, audio, video) a vytěžování existujících informačních zdrojů za účelem jazykového modelování českého jazyka. Slovníky a jazykové modely mají univerzální použití, prioritně jsou využívány k průběžné a tematické aktualizaci diktovacího systému MegaWord, jehož aktivní slovník pracuje s více než 1 milionem slov; technologie je využívána též pro podporu systému automatického podtitulkování TV pořadů zajišťovaných řešiteli projektu pro Českou televizi. Technologie nabízí univerzální platformou, vykazuje rozšiřitelnost, modularitu, škálovatelnost i přenositelnost. Skládá se z modulů čištění, tokenizace a normalizace textu, modulů pro uchovávání audio a video záznamů spolu s algoritmy pro jejich konverzi. Součástí je i plánovač umožňující volání těchto modulů na vyžádání. Inovativní řešení poloprovozu umožňuje adaptaci jazykového modelu na konkrétní časové období a téma.
  • Technologie v režimu poloprovoz je výstupem projektu FR-TI1/486 a integruje velké množství algoritmů a modulů usnadňujících vybudování multimediálního archivu (text, audio, video) a vytěžování existujících informačních zdrojů za účelem jazykového modelování českého jazyka. Slovníky a jazykové modely mají univerzální použití, prioritně jsou využívány k průběžné a tematické aktualizaci diktovacího systému MegaWord, jehož aktivní slovník pracuje s více než 1 milionem slov; technologie je využívána též pro podporu systému automatického podtitulkování TV pořadů zajišťovaných řešiteli projektu pro Českou televizi. Technologie nabízí univerzální platformou, vykazuje rozšiřitelnost, modularitu, škálovatelnost i přenositelnost. Skládá se z modulů čištění, tokenizace a normalizace textu, modulů pro uchovávání audio a video záznamů spolu s algoritmy pro jejich konverzi. Součástí je i plánovač umožňující volání těchto modulů na vyžádání. Inovativní řešení poloprovozu umožňuje adaptaci jazykového modelu na konkrétní časové období a téma. (cs)
Title
  • Technologie pro multimediální archiv a jazykové modelování
  • Technologie pro multimediální archiv a jazykové modelování (cs)
  • Technology for multimedia archive and language modeling (en)
skos:prefLabel
  • Technologie pro multimediální archiv a jazykové modelování
  • Technologie pro multimediální archiv a jazykové modelování (cs)
  • Technology for multimedia archive and language modeling (en)
skos:notation
  • RIV/49777513:23520/11:43897069!RIV12-MPO-23520___
http://linked.open...avai/predkladatel
http://linked.open...avai/riv/aktivita
http://linked.open...avai/riv/aktivity
  • P(FR-TI1/486)
http://linked.open...vai/riv/dodaniDat
http://linked.open...aciTvurceVysledku
http://linked.open.../riv/druhVysledku
http://linked.open...iv/duvernostUdaju
http://linked.open...onomickeParametry
  • Výsledek je plánovaným výstupem projektu FR-TI1/486. Systém provádí automatickou archivaci dat a aktualizaci jazykového modelu, dochází k zásadní úspoře pracovních sil, která by jinak byla nutná k ručnímu zpracování archivovaných dat. Výstupy technologie jsou využívány v rámci plnění Smlouvy o provozu systému automatického podtitulkování záznamů z jednání schůze PS PČR uzavřené dne 7.1.2011 se společností SpeechTech s.r.o., IČ 25247930. Bližší informace Jan Švec, honzas@kky.zcu.cz, tel. 377632582, http://www.kky.zcu.cz/cs/sw/jmzw
http://linked.open...titaPredkladatele
http://linked.open...dnocenehoVysledku
  • 234456
http://linked.open...ai/riv/idVysledku
  • RIV/49777513:23520/11:43897069
http://linked.open...terniIdentifikace
  • JMZW2011
http://linked.open...riv/jazykVysledku
http://linked.open...vai/riv/kategorie
http://linked.open.../riv/klicovaSlova
  • audiovisual processing; text processing; language modeling; multimedia archive (en)
http://linked.open.../riv/klicoveSlovo
http://linked.open...ontrolniKodProRIV
  • [5A74CE791FAA]
http://linked.open.../licencniPoplatek
http://linked.open...okalizaceVysledku
  • Katedra kybernetiky, Fakulta aplikovaných věd, Západočeská univerzita v Plzni; softwarový produkt je používán společností SpeechTech s.r.o., Plzeň, bližší info http://www.kky.zcu.cz/cs/sw/jmzw
http://linked.open...in/vavai/riv/obor
http://linked.open...ichTvurcuVysledku
http://linked.open...cetTvurcuVysledku
http://linked.open...vavai/riv/projekt
http://linked.open...UplatneniVysledku
http://linked.open...echnickeParametry
  • Výsledek umožňuje automatickou archivaci multimediálních dat a generování jazykového modelu (LM). Postup zpracování dat: Textová data spolu s audiovizuálním obsahem jsou automaticky vyčištěna od nežádoucího textu, následně zpracována v jednotlivých modulech. Modul tokenizace provádí automatické dělení textu na slova a interpunkční znaménka. Modul normalizace nahrazuje číslovky vyjádřené pomocí cifer za odpovídající slovní zápis. Modul náhrad využívá expertní znalosti reprezentované formalismem ke sjednocení výslovností a zápisů slov/sousloví. Audiovizuální data jsou zpracována v modulu konverze formátů, kde jsou převedena do podoby vhodné k archivaci a případně je extrahována pouze audio složka. Textová data jsou mj. využívána pro automatické generování LM pro úlohu automatického podtitulkování pořadů pro Českou televizi. Jedná se o zcela nový a inovativní přístup díky automatické časové a tematické adaptaci slovníků a jazykových modelů.
http://linked.open...iv/tvurceVysledku
  • Ircing, Pavel
  • Kanis, Jakub
  • Lehečka, Jan
  • Pražák, Aleš
  • Skorkovská, Lucie
  • Švec, Jan
  • Hoidekr, Jan
  • Pressl, Dan
  • Soutner, Daniel
  • Stanislav, Petr
  • Vavruška, Jan
http://linked.open...avai/riv/vlastnik
http://linked.open...itiJinymSubjektem
http://localhost/t...ganizacniJednotka
  • 23520
is http://linked.open...avai/riv/vysledek of
Faceted Search & Find service v1.16.118 as of Jun 21 2024


Alternative Linked Data Documents: ODE     Content Formats:   [cxml] [csv]     RDF   [text] [turtle] [ld+json] [rdf+json] [rdf+xml]     ODATA   [atom+xml] [odata+json]     Microdata   [microdata+json] [html]    About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data] Valid XHTML + RDFa
OpenLink Virtuoso version 07.20.3240 as of Jun 21 2024, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (126 GB total memory, 58 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software