About: Příprava a analýza Českého Web 1T 5-gram korpusu pro použití v jazykovém modelu     Goto   Sponge   Distinct   Permalink

An Entity of Type : http://linked.opendata.cz/ontology/domain/vavai/Vysledek, within Data Space : linked.opendata.cz associated with source document(s)

AttributesValues
rdf:type
Description
  • V této práci je popsán postup analýzy českého Web 1T 5-gram korpusu. Korpus byl analyzován a byly vyhodnoceny jeho základní charakteristiky před a v průběhu zpracování. Při zpracování byl slovník korpusu filtrován různými metodami, tak aby pokud možno obsahoval pouze smysluplná slova. Z pročištěného korpusu byly vygenerovány jazykové modely pro Large Vocabulary Continuous Speech Recognition (LVCSR) a spočítána jejich perplexita. Pro srovnání stejnými filtrovacími postupy byl také zpracovaný 5- gramový korpusu založený na SYN2006PUB korpusu který sestavil Český národní korpus (ČNK).
  • V této práci je popsán postup analýzy českého Web 1T 5-gram korpusu. Korpus byl analyzován a byly vyhodnoceny jeho základní charakteristiky před a v průběhu zpracování. Při zpracování byl slovník korpusu filtrován různými metodami, tak aby pokud možno obsahoval pouze smysluplná slova. Z pročištěného korpusu byly vygenerovány jazykové modely pro Large Vocabulary Continuous Speech Recognition (LVCSR) a spočítána jejich perplexita. Pro srovnání stejnými filtrovacími postupy byl také zpracovaný 5- gramový korpusu založený na SYN2006PUB korpusu který sestavil Český národní korpus (ČNK). (cs)
  • This paper describes an approach to analysis of Czech Web 1T 5-gram corpus. This corpus was analyzed and its basic characteristics were evaluated. Various filtering methods were used during processing, so only meaningful words are included in vocabulary. From this cleaned corpus language models for Large Vocabulary Continuous Speech Recognition (LVCSR) were created and theirs perplexities were counted. For comparison, same filtering methods were used for processing 5-gram corpus based on SYN2006PUB corpus, assembled by Czech National Corpus (CNC). (en)
Title
  • Příprava a analýza Českého Web 1T 5-gram korpusu pro použití v jazykovém modelu
  • Příprava a analýza Českého Web 1T 5-gram korpusu pro použití v jazykovém modelu (cs)
  • Preparation and analysis of Czech Web 1T 5-gram corpus for language model creation (en)
skos:prefLabel
  • Příprava a analýza Českého Web 1T 5-gram korpusu pro použití v jazykovém modelu
  • Příprava a analýza Českého Web 1T 5-gram korpusu pro použití v jazykovém modelu (cs)
  • Preparation and analysis of Czech Web 1T 5-gram corpus for language model creation (en)
skos:notation
  • RIV/68407700:21230/10:00172256!RIV11-GA0-21230___
http://linked.open...avai/riv/aktivita
http://linked.open...avai/riv/aktivity
  • P(GA102/08/0707), Z(MSM6840770014)
http://linked.open...vai/riv/dodaniDat
http://linked.open...aciTvurceVysledku
http://linked.open.../riv/druhVysledku
http://linked.open...iv/duvernostUdaju
http://linked.open...titaPredkladatele
http://linked.open...dnocenehoVysledku
  • 281808
http://linked.open...ai/riv/idVysledku
  • RIV/68407700:21230/10:00172256
http://linked.open...riv/jazykVysledku
http://linked.open.../riv/klicovaSlova
  • n-gram corpus; corpus filtering; Web 1T 5-gram; SYN2006PUB (en)
http://linked.open.../riv/klicoveSlovo
http://linked.open...ontrolniKodProRIV
  • [5D2305AD7FFD]
http://linked.open...v/mistoKonaniAkce
  • Praha
http://linked.open...i/riv/mistoVydani
  • Praha
http://linked.open...i/riv/nazevZdroje
  • Analýza a zpracování řečových a biologických signálů - sborník prací 2010
http://linked.open...in/vavai/riv/obor
http://linked.open...ichTvurcuVysledku
http://linked.open...cetTvurcuVysledku
http://linked.open...vavai/riv/projekt
http://linked.open...UplatneniVysledku
http://linked.open...iv/tvurceVysledku
  • Pollák, Petr
  • Procházka, Václav
http://linked.open...vavai/riv/typAkce
http://linked.open.../riv/zahajeniAkce
http://linked.open...n/vavai/riv/zamer
number of pages
http://purl.org/ne...btex#hasPublisher
  • České vysoké učení technické v Praze
https://schema.org/isbn
  • 978-80-01-04680-7
http://localhost/t...ganizacniJednotka
  • 21230
is http://linked.open...avai/riv/vysledek of
Faceted Search & Find service v1.16.118 as of Jun 21 2024


Alternative Linked Data Documents: ODE     Content Formats:   [cxml] [csv]     RDF   [text] [turtle] [ld+json] [rdf+json] [rdf+xml]     ODATA   [atom+xml] [odata+json]     Microdata   [microdata+json] [html]    About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data] Valid XHTML + RDFa
OpenLink Virtuoso version 07.20.3240 as of Jun 21 2024, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (126 GB total memory, 58 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software