About: Structural metadata annotation of speech corpora: Comparing broadcast news and broadcast conversations     Goto   Sponge   NotDistinct   Permalink

An Entity of Type : http://linked.opendata.cz/ontology/domain/vavai/Vysledek, within Data Space : linked.opendata.cz associated with source document(s)

AttributesValues
rdf:type
Description
  • Structural metadata extraction (MDE) research aims to develop techniques for automatic conversion of raw speech recognition output to forms that are more useful to humans and to downstream automatic processes. It may be achieved by inserting boundaries of syntactic/semantic units to the flow of speech, labeling non-content words like filled pauses and discourse markers for optional removal, and identifying sections of disfluent speech. This paper compares two Czech MDE speech corpora, one in the domain of broadcast news and the other in the domain of broadcast conversations. A variety of statistics about fillers, edit disfluencies, and syntactic/semantic units are presented. In addition, it is reported that disfluent portions of speech show differences in the distribution of parts of speech (POS) of their content in comparison with the general POS distribution.
  • Structural metadata extraction (MDE) research aims to develop techniques for automatic conversion of raw speech recognition output to forms that are more useful to humans and to downstream automatic processes. It may be achieved by inserting boundaries of syntactic/semantic units to the flow of speech, labeling non-content words like filled pauses and discourse markers for optional removal, and identifying sections of disfluent speech. This paper compares two Czech MDE speech corpora, one in the domain of broadcast news and the other in the domain of broadcast conversations. A variety of statistics about fillers, edit disfluencies, and syntactic/semantic units are presented. In addition, it is reported that disfluent portions of speech show differences in the distribution of parts of speech (POS) of their content in comparison with the general POS distribution. (en)
  • V úlohách extrakce strukturálních metadat (MDE) je cílem vyvinout techniky pro automatickou konverzi nestrukturovaného výstupu z automatického rozpoznávače řeči do formy více čitelné a vhodnější pro následné zpracování. Toho může být dosaženo vložením hranic syntaktických celků a označením výplňkových a opravených slov pro jejich případné vymazání. Tento článek srovnává dva české řečové MDE korpusy, jeden v doméně zpráv a druhý v doméně živě přenášených diskuzí. Je zde prezentováno množství statistik o výplňových slovech a frázích, editačních neplynulostech a syntakticko-sémantických jednotkách. Mimo jiné uvádíme statistiky ukazující, že neplynulé části řeči mají významně jiné rozdělení slovních druhů než celý korpus. Dva popisované české korpusy nejsou pouze srovnány mezi sebou, ale také s dostupnými anglickými korpusy. (cs)
Title
  • Structural metadata annotation of speech corpora: Comparing broadcast news and broadcast conversations
  • Anotace strukturálních metadat v řečových korpusech: Srovnání rozhlasových zpráv a rozhlasových diskuzí (cs)
  • Structural metadata annotation of speech corpora: Comparing broadcast news and broadcast conversations (en)
skos:prefLabel
  • Structural metadata annotation of speech corpora: Comparing broadcast news and broadcast conversations
  • Anotace strukturálních metadat v řečových korpusech: Srovnání rozhlasových zpráv a rozhlasových diskuzí (cs)
  • Structural metadata annotation of speech corpora: Comparing broadcast news and broadcast conversations (en)
skos:notation
  • RIV/49777513:23520/08:00500384!RIV09-MSM-23520___
http://linked.open...avai/riv/aktivita
http://linked.open...avai/riv/aktivity
  • P(2C06020), P(ME 909)
http://linked.open...vai/riv/dodaniDat
http://linked.open...aciTvurceVysledku
http://linked.open.../riv/druhVysledku
http://linked.open...iv/duvernostUdaju
http://linked.open...titaPredkladatele
http://linked.open...dnocenehoVysledku
  • 397781
http://linked.open...ai/riv/idVysledku
  • RIV/49777513:23520/08:00500384
http://linked.open...riv/jazykVysledku
http://linked.open.../riv/klicovaSlova
  • structural metadata; MDE; disfluencies; fillers; sentence segmentation (en)
http://linked.open.../riv/klicoveSlovo
http://linked.open...ontrolniKodProRIV
  • [794C887F4EB7]
http://linked.open...v/mistoKonaniAkce
  • Marrakech
http://linked.open...i/riv/mistoVydani
  • Paris
http://linked.open...i/riv/nazevZdroje
  • Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)
http://linked.open...in/vavai/riv/obor
http://linked.open...ichTvurcuVysledku
http://linked.open...cetTvurcuVysledku
http://linked.open...vavai/riv/projekt
http://linked.open...UplatneniVysledku
http://linked.open...iv/tvurceVysledku
  • Kolář, Jáchym
  • Švec, Jan
http://linked.open...vavai/riv/typAkce
http://linked.open.../riv/zahajeniAkce
number of pages
http://purl.org/ne...btex#hasPublisher
  • ELRA
https://schema.org/isbn
  • 2-9517408-4-0
http://localhost/t...ganizacniJednotka
  • 23520
is http://linked.open...avai/riv/vysledek of
Faceted Search & Find service v1.16.118 as of Jun 21 2024


Alternative Linked Data Documents: ODE     Content Formats:   [cxml] [csv]     RDF   [text] [turtle] [ld+json] [rdf+json] [rdf+xml]     ODATA   [atom+xml] [odata+json]     Microdata   [microdata+json] [html]    About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data] Valid XHTML + RDFa
OpenLink Virtuoso version 07.20.3240 as of Jun 21 2024, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (126 GB total memory, 58 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software