About: Technologie pro multimediální archiv a jazykové modelování

Facets (new session)
Description
Metadata
Settings
- owl:sameAs
- Inference Rule:

About: Technologie pro multimediální archiv a jazykové modelování Goto Sponge NotDistinct Permalink

An Entity of Type : http://linked.opendata.cz/ontology/domain/vavai/Vysledek, within Data Space : linked.opendata.cz associated with source document(s)

Attributes	Values
rdf:type	skos:Concept http://linked.opendata.cz/ontology/domain/vavai/Vysledek
Description	The technology integrates a large number of algorithms and modules for a multimedia archive (textual and audio-visual). It also supports data-mining from web to build a large-scale language model of Czech. The language model is used in the task of automatic subtitling of television shows. The technology offers a universal platform, which is extensible, modular and scalable. It contains text processing modules, such as text cleaning, tokenization and normalization, modules for storing audio and video records and algorithms for conversion of such formats. An included scheduler supports on-demand execution of these modules. The innovation of this technology consists of an adaptation of language model to a given time span and topic of subtitles. (en) Technologie v režimu poloprovoz je výstupem projektu FR-TI1/486 a integruje velké množství algoritmů a modulů usnadňujících vybudování multimediálního archivu (text, audio, video) a vytěžování existujících informačních zdrojů za účelem jazykového modelování českého jazyka. Slovníky a jazykové modely mají univerzální použití, prioritně jsou využívány k průběžné a tematické aktualizaci diktovacího systému MegaWord, jehož aktivní slovník pracuje s více než 1 milionem slov; technologie je využívána též pro podporu systému automatického podtitulkování TV pořadů zajišťovaných řešiteli projektu pro Českou televizi. Technologie nabízí univerzální platformou, vykazuje rozšiřitelnost, modularitu, škálovatelnost i přenositelnost. Skládá se z modulů čištění, tokenizace a normalizace textu, modulů pro uchovávání audio a video záznamů spolu s algoritmy pro jejich konverzi. Součástí je i plánovač umožňující volání těchto modulů na vyžádání. Inovativní řešení poloprovozu umožňuje adaptaci jazykového modelu na konkrétní časové období a téma. Technologie v režimu poloprovoz je výstupem projektu FR-TI1/486 a integruje velké množství algoritmů a modulů usnadňujících vybudování multimediálního archivu (text, audio, video) a vytěžování existujících informačních zdrojů za účelem jazykového modelování českého jazyka. Slovníky a jazykové modely mají univerzální použití, prioritně jsou využívány k průběžné a tematické aktualizaci diktovacího systému MegaWord, jehož aktivní slovník pracuje s více než 1 milionem slov; technologie je využívána též pro podporu systému automatického podtitulkování TV pořadů zajišťovaných řešiteli projektu pro Českou televizi. Technologie nabízí univerzální platformou, vykazuje rozšiřitelnost, modularitu, škálovatelnost i přenositelnost. Skládá se z modulů čištění, tokenizace a normalizace textu, modulů pro uchovávání audio a video záznamů spolu s algoritmy pro jejich konverzi. Součástí je i plánovač umožňující volání těchto modulů na vyžádání. Inovativní řešení poloprovozu umožňuje adaptaci jazykového modelu na konkrétní časové období a téma. (cs)
Title	Technologie pro multimediální archiv a jazykové modelování Technologie pro multimediální archiv a jazykové modelování (cs) Technology for multimedia archive and language modeling (en)
skos:prefLabel	Technologie pro multimediální archiv a jazykové modelování Technologie pro multimediální archiv a jazykové modelování (cs) Technology for multimedia archive and language modeling (en)
skos:notation	RIV/49777513:23520/11:43897069!RIV12-MPO-23520___
http://linked.open...avai/predkladatel	Fakulta aplikovaných věd
http://linked.open...avai/riv/aktivita	P
http://linked.open...avai/riv/aktivity	P(FR-TI1/486)
http://linked.open...vai/riv/dodaniDat	2012
http://linked.open...aciTvurceVysledku	Lehečka, Jan Skorkovská, Lucie Kanis, Jakub Pražák, Aleš Ircing, Pavel Švec, Jan Hoidekr, Jan Soutner, Daniel Stanislav, Petr Pressl, Dan Vavruška, Jan
http://linked.open.../riv/druhVysledku	Z/A - Poloprovoz
http://linked.open...iv/duvernostUdaju	S - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů
http://linked.open...onomickeParametry	Výsledek je plánovaným výstupem projektu FR-TI1/486. Systém provádí automatickou archivaci dat a aktualizaci jazykového modelu, dochází k zásadní úspoře pracovních sil, která by jinak byla nutná k ručnímu zpracování archivovaných dat. Výstupy technologie jsou využívány v rámci plnění Smlouvy o provozu systému automatického podtitulkování záznamů z jednání schůze PS PČR uzavřené dne 7.1.2011 se společností SpeechTech s.r.o., IČ 25247930. Bližší informace Jan Švec, honzas@kky.zcu.cz, tel. 377632582, http://www.kky.zcu.cz/cs/sw/jmzw
http://linked.open...titaPredkladatele	Západočeská univerzita v Plzni / Fakulta aplikovaných věd
http://linked.open...dnocenehoVysledku	234456
http://linked.open...ai/riv/idVysledku	RIV/49777513:23520/11:43897069
http://linked.open...terniIdentifikace	JMZW2011
http://linked.open...riv/jazykVysledku	cze - čeština
http://linked.open...vai/riv/kategorie	A - Do 5 mil. Kč
http://linked.open.../riv/klicovaSlova	audiovisual processing; text processing; language modeling; multimedia archive (en)
http://linked.open.../riv/klicoveSlovo	language modeling audiovisual processing multimedia archive text processing
http://linked.open...ontrolniKodProRIV	[5A74CE791FAA]
http://linked.open.../licencniPoplatek	A - Poskytovatel licence na výsledek požaduje licenční poplatek
http://linked.open...okalizaceVysledku	Katedra kybernetiky, Fakulta aplikovaných věd, Západočeská univerzita v Plzni; softwarový produkt je používán společností SpeechTech s.r.o., Plzeň, bližší info http://www.kky.zcu.cz/cs/sw/jmzw
http://linked.open...in/vavai/riv/obor	JD
http://linked.open...ichTvurcuVysledku	11 (xsd:int)
http://linked.open...cetTvurcuVysledku	11 (xsd:int)
http://linked.open...vavai/riv/projekt	*MegaWord.cz
http://linked.open...UplatneniVysledku	2011
http://linked.open...echnickeParametry	Výsledek umožňuje automatickou archivaci multimediálních dat a generování jazykového modelu (LM). Postup zpracování dat: Textová data spolu s audiovizuálním obsahem jsou automaticky vyčištěna od nežádoucího textu, následně zpracována v jednotlivých modulech. Modul tokenizace provádí automatické dělení textu na slova a interpunkční znaménka. Modul normalizace nahrazuje číslovky vyjádřené pomocí cifer za odpovídající slovní zápis. Modul náhrad využívá expertní znalosti reprezentované formalismem ke sjednocení výslovností a zápisů slov/sousloví. Audiovizuální data jsou zpracována v modulu konverze formátů, kde jsou převedena do podoby vhodné k archivaci a případně je extrahována pouze audio složka. Textová data jsou mj. využívána pro automatické generování LM pro úlohu automatického podtitulkování pořadů pro Českou televizi. Jedná se o zcela nový a inovativní přístup díky automatické časové a tematické adaptaci slovníků a jazykových modelů.
http://linked.open...iv/tvurceVysledku	Ircing, Pavel Kanis, Jakub Lehečka, Jan Pražák, Aleš Skorkovská, Lucie Švec, Jan Hoidekr, Jan Pressl, Dan Soutner, Daniel Stanislav, Petr Vavruška, Jan
http://linked.open...avai/riv/vlastnik	Katedra kybernetiky, Fakulta aplikovaných věd, Západočeská univerzita v Plzni
http://linked.open...itiJinymSubjektem	A - Nabytí licence je nutné vždy
http://localhost/t...ganizacniJednotka	23520
is http://linked.open...avai/riv/vysledek of	Technologie pro multimediální archiv a jazykové modelování Technologie pro multimediální archiv a jazykové modelování

Faceted Search & Find service v1.16.118 as of Jun 21 2024

Alternative Linked Data Documents: ODE Content Formats:

RDF

ODATA

Microdata

About

OpenLink Virtuoso version 07.20.3240 as of Jun 21 2024, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (126 GB total memory, 58 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software