onion (ONe Instance ONly) is a tool for removing duplicate parts from large collections of texts. The tool has been implemented in Python, licensed under New BSD License and made an open source software (available for download including the source code at http://code.google.com/p/onion/). It is being successfuly used for cleaning large textual corpora at Natural language processing centre at Faculty of informatics, Masaryk university Brno and it's industry partners. The research leading to this piece of software was published in author's Ph.D. thesis "Removing Boilerplate and Duplicate Content from Web Corpora". The deduplication algorithm is based on comparing n-grams of words of text.

Software k odstraňování duplicitních částí v rozsáhlých souborech textových dokumentů. Implementace v jazyce Python. Licence: New BSD License.

Díky vyvinutí tohoto nástroje je dosahováno účinného odstranění duplicitních částí textových dokumentů ve velkých textových korpusech sestavovaných v Centru zpracování přirozeného jazyka na Fakultě informatiky Masarykovy univerzity. V případě nasazení méně účinného nástroje by výsledné korpusy nedosahovaly požadovaných kvalit a nebylo by možné provádět úspěšně jazykové analýzy v rámci Centra, ani poskytovat kvalitní data v rámci spolupráce s průmyslovými partnery Fakulty informatiky MU. Zdrojový kód, dokumentace a další materiály jsou udržovány v anglickém jazyce, čímž je umožněna univerzální přístupnost nástroje.