This HTML5 document contains 43 embedded RDF statements represented using HTML+Microdata notation.

The embedded RDF content will be recognized by any processor of HTML5 Microdata.

Namespace Prefixes

PrefixIRI
dctermshttp://purl.org/dc/terms/
n12http://localhost/temp/predkladatel/
n17http://linked.opendata.cz/resource/domain/vavai/riv/tvurce/
n8http://linked.opendata.cz/resource/domain/vavai/projekt/
n18http://linked.opendata.cz/resource/domain/vavai/subjekt/
n4http://linked.opendata.cz/ontology/domain/vavai/
n5http://linked.opendata.cz/ontology/domain/vavai/riv/
rdfshttp://www.w3.org/2000/01/rdf-schema#
skoshttp://www.w3.org/2004/02/skos/core#
n13http://linked.opendata.cz/ontology/domain/vavai/riv/licencniPoplatek/
n2http://linked.opendata.cz/resource/domain/vavai/vysledek/
rdfhttp://www.w3.org/1999/02/22-rdf-syntax-ns#
n19http://linked.opendata.cz/ontology/domain/vavai/riv/vyuzitiJinymSubjektem/
n7http://linked.opendata.cz/ontology/domain/vavai/riv/klicoveSlovo/
n6http://linked.opendata.cz/resource/domain/vavai/vysledek/RIV%2F00216224%3A14330%2F11%3A00056803%21RIV12-MSM-14330___/
n14http://linked.opendata.cz/ontology/domain/vavai/riv/duvernostUdaju/
xsdhhttp://www.w3.org/2001/XMLSchema#
n21http://linked.opendata.cz/ontology/domain/vavai/riv/jazykVysledku/
n20http://linked.opendata.cz/ontology/domain/vavai/riv/aktivita/
n16http://linked.opendata.cz/ontology/domain/vavai/riv/druhVysledku/
n15http://linked.opendata.cz/ontology/domain/vavai/riv/obor/
n10http://reference.data.gov.uk/id/gregorian-year/

Statements

Subject Item
n2:RIV%2F00216224%3A14330%2F11%3A00056803%21RIV12-MSM-14330___
rdf:type
n4:Vysledek skos:Concept
rdfs:seeAlso
http://nlp.fi.muni.cz/projects/onion/
dcterms:description
onion (ONe Instance ONly) is a tool for removing duplicate parts from large collections of texts. The tool has been implemented in Python, licensed under New BSD License and made an open source software (available for download including the source code at http://code.google.com/p/onion/). It is being successfuly used for cleaning large textual corpora at Natural language processing centre at Faculty of informatics, Masaryk university Brno and it's industry partners. The research leading to this piece of software was published in author's Ph.D. thesis %22Removing Boilerplate and Duplicate Content from Web Corpora%22. The deduplication algorithm is based on comparing n-grams of words of text. onion (ONe Instance ONly) is a tool for removing duplicate parts from large collections of texts. The tool has been implemented in Python, licensed under New BSD License and made an open source software (available for download including the source code at http://code.google.com/p/onion/). It is being successfuly used for cleaning large textual corpora at Natural language processing centre at Faculty of informatics, Masaryk university Brno and it's industry partners. The research leading to this piece of software was published in author's Ph.D. thesis %22Removing Boilerplate and Duplicate Content from Web Corpora%22. The deduplication algorithm is based on comparing n-grams of words of text.
dcterms:title
onion onion
skos:prefLabel
onion onion
skos:notation
RIV/00216224:14330/11:00056803!RIV12-MSM-14330___
n4:predkladatel
n18:orjk%3A14330
n5:aktivita
n20:S n20:P
n5:aktivity
P(LC536), S
n5:dodaniDat
n10:2012
n5:domaciTvurceVysledku
n17:4980190
n5:druhVysledku
n16:R
n5:duvernostUdaju
n14:S
n5:ekonomickeParametry
Díky vyvinutí tohoto nástroje je dosahováno účinného odstranění duplicitních částí textových dokumentů ve velkých textových korpusech sestavovaných v Centru zpracování přirozeného jazyka na Fakultě informatiky Masarykovy univerzity. V případě nasazení méně účinného nástroje by výsledné korpusy nedosahovaly požadovaných kvalit a nebylo by možné provádět úspěšně jazykové analýzy v rámci Centra, ani poskytovat kvalitní data v rámci spolupráce s průmyslovými partnery Fakulty informatiky MU. Zdrojový kód, dokumentace a další materiály jsou udržovány v anglickém jazyce, čímž je umožněna univerzální přístupnost nástroje. Software byl (v podobě instalačního balíku pro Python) stažen celkem 23 krát (viz http://code.google.com/p/onion/downloads/list, navštíveno 12. 4. 2012) a dále zpřístupněn v podobě kompletního zdrojového kódu a všech natrénovaných modelů. Lze tedy usuzovat, že je testován nebo nasazen dalšími uživateli kromě Masarykovy univerzity.
n5:entitaPredkladatele
n6:predkladatel
n5:idSjednocenehoVysledku
218358
n5:idVysledku
RIV/00216224:14330/11:00056803
n5:interniIdentifikace
onion
n5:jazykVysledku
n21:eng
n5:klicovaSlova
deduplication; corpora; text deduplication; n-gram deduplication; n-gram model
n5:klicoveSlovo
n7:deduplication n7:n-gram%20model n7:corpora n7:text%20deduplication n7:n-gram%20deduplication
n5:kontrolniKodProRIV
[B4282612B5C0]
n5:licencniPoplatek
n13:N
n5:lokalizaceVysledku
http://nlp.fi.muni.cz/projects/onion/
n5:obor
n15:AI
n5:pocetDomacichTvurcuVysledku
1
n5:pocetTvurcuVysledku
1
n5:projekt
n8:LC536
n5:rokUplatneniVysledku
n10:2011
n5:technickeParametry
Software k odstraňování duplicitních částí v rozsáhlých souborech textových dokumentů. Implementace v jazyce Python. Licence: New BSD License. Odpovědná osoba pro jednání: doc. PhDr. Karel Pala, CSc.; email: pala@fi.muni.cz; telefon: 549495616; adresa: Karel Pala, Fakulta informatiky Masarykovy univerzity, Botanická 68a, 602 00 Brno.
n5:tvurceVysledku
Pomikálek, Jan
n5:vlastnik
n6:vlastnikVysledku
n5:vyuzitiJinymSubjektem
n19:A
n12:organizacniJednotka
14330