About: onion     Goto   Sponge   NotDistinct   Permalink

An Entity of Type : http://linked.opendata.cz/ontology/domain/vavai/Vysledek, within Data Space : linked.opendata.cz associated with source document(s)

AttributesValues
rdf:type
rdfs:seeAlso
Description
  • onion (ONe Instance ONly) is a tool for removing duplicate parts from large collections of texts. The tool has been implemented in Python, licensed under New BSD License and made an open source software (available for download including the source code at http://code.google.com/p/onion/). It is being successfuly used for cleaning large textual corpora at Natural language processing centre at Faculty of informatics, Masaryk university Brno and it's industry partners. The research leading to this piece of software was published in author's Ph.D. thesis %22Removing Boilerplate and Duplicate Content from Web Corpora%22. The deduplication algorithm is based on comparing n-grams of words of text.
  • onion (ONe Instance ONly) is a tool for removing duplicate parts from large collections of texts. The tool has been implemented in Python, licensed under New BSD License and made an open source software (available for download including the source code at http://code.google.com/p/onion/). It is being successfuly used for cleaning large textual corpora at Natural language processing centre at Faculty of informatics, Masaryk university Brno and it's industry partners. The research leading to this piece of software was published in author's Ph.D. thesis %22Removing Boilerplate and Duplicate Content from Web Corpora%22. The deduplication algorithm is based on comparing n-grams of words of text. (en)
Title
  • onion
  • onion (en)
skos:prefLabel
  • onion
  • onion (en)
skos:notation
  • RIV/00216224:14330/11:00056803!RIV12-MSM-14330___
http://linked.open...avai/riv/aktivita
http://linked.open...avai/riv/aktivity
  • P(LC536), S
http://linked.open...vai/riv/dodaniDat
http://linked.open...aciTvurceVysledku
http://linked.open.../riv/druhVysledku
http://linked.open...iv/duvernostUdaju
http://linked.open...onomickeParametry
  • Díky vyvinutí tohoto nástroje je dosahováno účinného odstranění duplicitních částí textových dokumentů ve velkých textových korpusech sestavovaných v Centru zpracování přirozeného jazyka na Fakultě informatiky Masarykovy univerzity. V případě nasazení méně účinného nástroje by výsledné korpusy nedosahovaly požadovaných kvalit a nebylo by možné provádět úspěšně jazykové analýzy v rámci Centra, ani poskytovat kvalitní data v rámci spolupráce s průmyslovými partnery Fakulty informatiky MU. Zdrojový kód, dokumentace a další materiály jsou udržovány v anglickém jazyce, čímž je umožněna univerzální přístupnost nástroje. Software byl (v podobě instalačního balíku pro Python) stažen celkem 23 krát (viz http://code.google.com/p/onion/downloads/list, navštíveno 12. 4. 2012) a dále zpřístupněn v podobě kompletního zdrojového kódu a všech natrénovaných modelů. Lze tedy usuzovat, že je testován nebo nasazen dalšími uživateli kromě Masarykovy univerzity.
http://linked.open...titaPredkladatele
http://linked.open...dnocenehoVysledku
  • 218358
http://linked.open...ai/riv/idVysledku
  • RIV/00216224:14330/11:00056803
http://linked.open...terniIdentifikace
  • onion
http://linked.open...riv/jazykVysledku
http://linked.open.../riv/klicovaSlova
  • deduplication; corpora; text deduplication; n-gram deduplication; n-gram model (en)
http://linked.open.../riv/klicoveSlovo
http://linked.open...ontrolniKodProRIV
  • [B4282612B5C0]
http://linked.open.../licencniPoplatek
http://linked.open...okalizaceVysledku
http://linked.open...in/vavai/riv/obor
http://linked.open...ichTvurcuVysledku
http://linked.open...cetTvurcuVysledku
http://linked.open...vavai/riv/projekt
http://linked.open...UplatneniVysledku
http://linked.open...echnickeParametry
  • Software k odstraňování duplicitních částí v rozsáhlých souborech textových dokumentů. Implementace v jazyce Python. Licence: New BSD License. Odpovědná osoba pro jednání: doc. PhDr. Karel Pala, CSc.; email: pala@fi.muni.cz; telefon: 549495616; adresa: Karel Pala, Fakulta informatiky Masarykovy univerzity, Botanická 68a, 602 00 Brno.
http://linked.open...iv/tvurceVysledku
  • Pomikálek, Jan
http://linked.open...avai/riv/vlastnik
http://linked.open...itiJinymSubjektem
http://localhost/t...ganizacniJednotka
  • 14330
Faceted Search & Find service v1.16.118 as of Jun 21 2024


Alternative Linked Data Documents: ODE     Content Formats:   [cxml] [csv]     RDF   [text] [turtle] [ld+json] [rdf+json] [rdf+xml]     ODATA   [atom+xml] [odata+json]     Microdata   [microdata+json] [html]    About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data] Valid XHTML + RDFa
OpenLink Virtuoso version 07.20.3240 as of Jun 21 2024, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (126 GB total memory, 48 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software