About: Information Extraction from WWW based on the data structure knowledge     Goto   Sponge   NotDistinct   Permalink

An Entity of Type : http://linked.opendata.cz/ontology/domain/vavai/Vysledek, within Data Space : linked.opendata.cz associated with source document(s)

AttributesValues
rdf:type
Description
  • S rostoucím množstvím dat, která jsou přístupná prostředictvím WWW je stále aktuálnější problém jejich dalšího zpracování, například za účelem jejich integrace do většího informačního celku, nebo za účelem získávání znalostí z těchto dat. Současné techniky automatické extrakce informace z HTML dokumentů ve většině případů vycházejí z předpokladu, že existuje množina dokumentů generovaných stejným způsobem ze společné báze dat. Na základě analýzy této množiny jsou pomocí různých postupů, ať již za asistence uživatele či automaticky, určena pravidla pro extrakci konkrétních dat z HTML dokumentu. V praxi však tento předpoklad často není splněn, mnoho dokumentů se buď vyskytuje pouze v jedné instanci (např. osobní stránky) nebo podobné dokumenty nejsou generovány zcela identickým způsobem. V tomto příspěvku navrhujeme nový přístup, který je založen na popisu logické struktury obsahu HTML dokumentu pomocí XML
  • S rostoucím množstvím dat, která jsou přístupná prostředictvím WWW je stále aktuálnější problém jejich dalšího zpracování, například za účelem jejich integrace do většího informačního celku, nebo za účelem získávání znalostí z těchto dat. Současné techniky automatické extrakce informace z HTML dokumentů ve většině případů vycházejí z předpokladu, že existuje množina dokumentů generovaných stejným způsobem ze společné báze dat. Na základě analýzy této množiny jsou pomocí různých postupů, ať již za asistence uživatele či automaticky, určena pravidla pro extrakci konkrétních dat z HTML dokumentu. V praxi však tento předpoklad často není splněn, mnoho dokumentů se buď vyskytuje pouze v jedné instanci (např. osobní stránky) nebo podobné dokumenty nejsou generovány zcela identickým způsobem. V tomto příspěvku navrhujeme nový přístup, který je založen na popisu logické struktury obsahu HTML dokumentu pomocí XML (cs)
  • This paper deals with the matter of modelling the logical structure of a Web site and using such model for information extraction. It proposes an algorithm for creating a site model based on the HTML code analysis and a XML/XSL based system for information extraction from this model. Furthermore, the possibility of the usage of tree matching algorithms for automating the extraction process is discussed. (en)
Title
  • Information Extraction from WWW based on the data structure knowledge (en)
  • Extrakce informace z WWW na základě znalosti struktury dat
  • Extrakce informace z WWW na základě znalosti struktury dat (cs)
skos:prefLabel
  • Information Extraction from WWW based on the data structure knowledge (en)
  • Extrakce informace z WWW na základě znalosti struktury dat
  • Extrakce informace z WWW na základě znalosti struktury dat (cs)
skos:notation
  • RIV/00216305:26230/03:PU42508!RIV11-MSM-26230___
http://linked.open...avai/riv/aktivita
http://linked.open...avai/riv/aktivity
  • N, V, Z(MSM 262200012)
http://linked.open...vai/riv/dodaniDat
http://linked.open...aciTvurceVysledku
http://linked.open.../riv/druhVysledku
http://linked.open...iv/duvernostUdaju
http://linked.open...titaPredkladatele
http://linked.open...dnocenehoVysledku
  • 606966
http://linked.open...ai/riv/idVysledku
  • RIV/00216305:26230/03:PU42508
http://linked.open...riv/jazykVysledku
http://linked.open.../riv/klicovaSlova
  • Information Extraction, HTML, XML (en)
http://linked.open.../riv/klicoveSlovo
http://linked.open...ontrolniKodProRIV
  • [095C1A523545]
http://linked.open...v/mistoKonaniAkce
  • Ostrava
http://linked.open...i/riv/mistoVydani
  • Ostrava
http://linked.open...i/riv/nazevZdroje
  • Sborník příspěvků 2. ročníku konference Znalosti 2003
http://linked.open...in/vavai/riv/obor
http://linked.open...ichTvurcuVysledku
http://linked.open...cetTvurcuVysledku
http://linked.open...UplatneniVysledku
http://linked.open...iv/tvurceVysledku
  • Burget, Radek
http://linked.open...vavai/riv/typAkce
http://linked.open.../riv/zahajeniAkce
http://linked.open...n/vavai/riv/zamer
number of pages
http://purl.org/ne...btex#hasPublisher
  • Vysoká škola báňská - Technická univerzita Ostrava. Fakulta elektrotechniky a informatiky
https://schema.org/isbn
  • 80-248-0229-5
http://localhost/t...ganizacniJednotka
  • 26230
Faceted Search & Find service v1.16.118 as of Jun 21 2024


Alternative Linked Data Documents: ODE     Content Formats:   [cxml] [csv]     RDF   [text] [turtle] [ld+json] [rdf+json] [rdf+xml]     ODATA   [atom+xml] [odata+json]     Microdata   [microdata+json] [html]    About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data] Valid XHTML + RDFa
OpenLink Virtuoso version 07.20.3240 as of Jun 21 2024, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (126 GB total memory, 84 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software