Attributes | Values |
---|
rdf:type
| |
Description
| - V úlohách zpracování přirozeného jazyka jsou k reprezentaci textových dokumentů nejčastěji používána jednotlivá slova. Celkové výsledky lze však často vylepšit použitím dalších, sofistikovanějších položek. Mezi ně patří i N-gramy, pro jejichž extrakci byly publikovány algoritmy založené na různých principech. Existující techniky však nejsou primárně určeny pro zpracování velkého objemu dat, což je v současné době zásadní požadavek. V tomto článku prezentujeme lagoritmus pro exttrakci N-gramů z rozsáhlých textových korpusů. Srovnání s jinými přístupy naznačují, že naše řešení dosahuje výrazně lepších výsledků s ohledem na čas a množství zpracovaných dat.
- V úlohách zpracování přirozeného jazyka jsou k reprezentaci textových dokumentů nejčastěji používána jednotlivá slova. Celkové výsledky lze však často vylepšit použitím dalších, sofistikovanějších položek. Mezi ně patří i N-gramy, pro jejichž extrakci byly publikovány algoritmy založené na různých principech. Existující techniky však nejsou primárně určeny pro zpracování velkého objemu dat, což je v současné době zásadní požadavek. V tomto článku prezentujeme lagoritmus pro exttrakci N-gramů z rozsáhlých textových korpusů. Srovnání s jinými přístupy naznačují, že naše řešení dosahuje výrazně lepších výsledků s ohledem na čas a množství zpracovaných dat. (cs)
- In this paper, we present an algotihm for N-gram extraction from large datasets. To examine the overall time and memory complexities of our algorithm we employed the %22Web 1T 5-gram Version 1%22 corpus released by Google. The experiments indicate that our approach reaches outstanding results among other available solutions in terms of speed and amount of processed data. (en)
|
Title
| - Extrakce N-gramů z rozsáhlých textů
- Extrakce N-gramů z rozsáhlých textů (cs)
- N-gram Extraction from Large Datasets (en)
|
skos:prefLabel
| - Extrakce N-gramů z rozsáhlých textů
- Extrakce N-gramů z rozsáhlých textů (cs)
- N-gram Extraction from Large Datasets (en)
|
skos:notation
| - RIV/49777513:23520/08:00500256!RIV09-MSM-23520___
|
http://linked.open...avai/riv/aktivita
| |
http://linked.open...avai/riv/aktivity
| |
http://linked.open...vai/riv/dodaniDat
| |
http://linked.open...aciTvurceVysledku
| |
http://linked.open.../riv/druhVysledku
| |
http://linked.open...iv/duvernostUdaju
| |
http://linked.open...titaPredkladatele
| |
http://linked.open...dnocenehoVysledku
| |
http://linked.open...ai/riv/idVysledku
| - RIV/49777513:23520/08:00500256
|
http://linked.open...riv/jazykVysledku
| |
http://linked.open.../riv/klicovaSlova
| - large datasets; batch processing; N-gram extraction (en)
|
http://linked.open.../riv/klicoveSlovo
| |
http://linked.open...ontrolniKodProRIV
| |
http://linked.open...v/mistoKonaniAkce
| |
http://linked.open...i/riv/mistoVydani
| |
http://linked.open...i/riv/nazevZdroje
| |
http://linked.open...in/vavai/riv/obor
| |
http://linked.open...ichTvurcuVysledku
| |
http://linked.open...cetTvurcuVysledku
| |
http://linked.open...vavai/riv/projekt
| |
http://linked.open...UplatneniVysledku
| |
http://linked.open...iv/tvurceVysledku
| - Tesař, Roman
- Hanák, Ivo
- Češka, Zdeněk
|
http://linked.open...vavai/riv/typAkce
| |
http://linked.open.../riv/zahajeniAkce
| |
number of pages
| |
http://purl.org/ne...btex#hasPublisher
| - Slovenská technická univerzita v Bratislave. Vydavateľstvo STU
|
https://schema.org/isbn
| |
http://localhost/t...ganizacniJednotka
| |
is http://linked.open...avai/riv/vysledek
of | |