This HTML5 document contains 44 embedded RDF statements represented using HTML+Microdata notation.

The embedded RDF content will be recognized by any processor of HTML5 Microdata.

Namespace Prefixes

PrefixIRI
dctermshttp://purl.org/dc/terms/
n13http://localhost/temp/predkladatel/
n20http://linked.opendata.cz/resource/domain/vavai/projekt/
n11http://linked.opendata.cz/resource/domain/vavai/riv/tvurce/
n16http://linked.opendata.cz/resource/domain/vavai/subjekt/
n15http://linked.opendata.cz/ontology/domain/vavai/
n4http://linked.opendata.cz/resource/domain/vavai/vysledek/RIV%2F00216224%3A14330%2F11%3A00056802%21RIV12-MSM-14330___/
skoshttp://www.w3.org/2004/02/skos/core#
rdfshttp://www.w3.org/2000/01/rdf-schema#
n3http://linked.opendata.cz/ontology/domain/vavai/riv/
n21http://linked.opendata.cz/ontology/domain/vavai/riv/licencniPoplatek/
n2http://linked.opendata.cz/resource/domain/vavai/vysledek/
rdfhttp://www.w3.org/1999/02/22-rdf-syntax-ns#
n18http://linked.opendata.cz/ontology/domain/vavai/riv/vyuzitiJinymSubjektem/
n5http://linked.opendata.cz/ontology/domain/vavai/riv/klicoveSlovo/
n17http://linked.opendata.cz/ontology/domain/vavai/riv/duvernostUdaju/
xsdhhttp://www.w3.org/2001/XMLSchema#
n12http://linked.opendata.cz/ontology/domain/vavai/riv/aktivita/
n8http://linked.opendata.cz/ontology/domain/vavai/riv/jazykVysledku/
n19http://linked.opendata.cz/ontology/domain/vavai/riv/obor/
n14http://linked.opendata.cz/ontology/domain/vavai/riv/druhVysledku/
n6http://reference.data.gov.uk/id/gregorian-year/

Statements

Subject Item
n2:RIV%2F00216224%3A14330%2F11%3A00056802%21RIV12-MSM-14330___
rdf:type
skos:Concept n15:Vysledek
rdfs:seeAlso
http://nlp.fi.muni.cz/projects/chared/
dcterms:description
Chared is a software tool which can detect character encoding of a text document provided the language of the document is known. The language of the text has to be specified as an input parameter so that the corresponding language model can be used. The package contains models for a wide range of languages (currently 57 --- covering all major languages). Furthermore, it provides a training script to learn models for additional languages using a set of user supplied sample html pages in the given language. The detection algorithm is based on determining similarity of byte trigrams vectors. In general, chared should be more accurate than other character encoding detection tools with no language constraints. This is an important advantage allowing precise character decoding needed for building large textual corpora. The tool has been used for building corpora in American Spanish, Arabic, Czech, French, Japanese, Russian, Tajik, and six Turkic languages consisting of 70 billions tokens altogether. Chared is a software tool which can detect character encoding of a text document provided the language of the document is known. The language of the text has to be specified as an input parameter so that the corresponding language model can be used. The package contains models for a wide range of languages (currently 57 --- covering all major languages). Furthermore, it provides a training script to learn models for additional languages using a set of user supplied sample html pages in the given language. The detection algorithm is based on determining similarity of byte trigrams vectors. In general, chared should be more accurate than other character encoding detection tools with no language constraints. This is an important advantage allowing precise character decoding needed for building large textual corpora. The tool has been used for building corpora in American Spanish, Arabic, Czech, French, Japanese, Russian, Tajik, and six Turkic languages consisting of 70 billions tokens altogether.
dcterms:title
Chared Chared
skos:prefLabel
Chared Chared
skos:notation
RIV/00216224:14330/11:00056802!RIV12-MSM-14330___
n15:predkladatel
n16:orjk%3A14330
n3:aktivita
n12:S n12:P
n3:aktivity
P(LC536), S
n3:dodaniDat
n6:2012
n3:domaciTvurceVysledku
n11:8884439 n11:4980190
n3:druhVysledku
n14:R
n3:duvernostUdaju
n17:S
n3:ekonomickeParametry
Díky vyvinutí tohoto nástroje je dosahováno přesnější detekce kódování textových dokumentů ve velkých textových korpusech sestavovaných v Centru zpracování přirrozeného jazyka na Fakultě informatiky Masarykovy univerzity. V případě nasazení méně specializovaného méně přesného nástroje by bylo nutno procházet data ručně a odstraňovat nebo opravovat chybně kódované dokumenty, což by při rozsahu běžně zpracovávaných korpusů v řádu jednotek až desítek miliard slov znamenalo dodatečné náklady na školení a práci kvalifikovaného personálu. Zdrojový kód, dokumentace a další materiály jsou udržovány v anglickém jazyce, čímž je umožněna univerzální přístupnost nástroje. Software byl (v podobě instalačního balíku pro Python) stažen celkem 37 krát (viz http://code.google.com/p/chared/downloads/list, navštíveno 12. 4. 2012) a dále zpřístupněn v podobě kompletního zdrojového kódu a všech natrénovaných modelů. Lze tedy usuzovat, že je testován nebo nasazen dalšími uživateli i mimo Masarykovu univerzitu.
n3:entitaPredkladatele
n4:predkladatel
n3:idSjednocenehoVysledku
190065
n3:idVysledku
RIV/00216224:14330/11:00056802
n3:interniIdentifikace
Chared
n3:jazykVysledku
n8:eng
n3:klicovaSlova
character encoding; character encoding detection; charset; Unicode
n3:klicoveSlovo
n5:character%20encoding n5:character%20encoding%20detection n5:Unicode n5:charset
n3:kontrolniKodProRIV
[F9EA4AE7B483]
n3:licencniPoplatek
n21:N
n3:lokalizaceVysledku
http://nlp.fi.muni.cz/projects/chared/
n3:obor
n19:AI
n3:pocetDomacichTvurcuVysledku
2
n3:pocetTvurcuVysledku
2
n3:projekt
n20:LC536
n3:rokUplatneniVysledku
n6:2011
n3:technickeParametry
Software pro detekci kódování znaků textových dokumentů. Implementace v jazyce Python. Licence: New BSD License. Odpovědná osoba pro jednání: doc. PhDr. Karel Pala, CSc.; email: pala@fi.muni.cz; telefon: 549495616; adresa: Karel Pala, Fakulta informatiky Masarykovy univerzity, Botanická 68a, 602 00 Brno.
n3:tvurceVysledku
Pomikálek, Jan Suchomel, Vít
n3:vlastnik
n4:vlastnikVysledku
n3:vyuzitiJinymSubjektem
n18:A
n13:organizacniJednotka
14330