About: Information Extraction from WWW based on the data structure knowledge

Facets (new session)
Description
Metadata
Settings
- owl:sameAs
- Inference Rule:

About: Information Extraction from WWW based on the data structure knowledge Goto Sponge NotDistinct Permalink

An Entity of Type : http://linked.opendata.cz/ontology/domain/vavai/Vysledek, within Data Space : linked.opendata.cz associated with source document(s)

Attributes	Values
rdf:type	skos:Concept http://linked.opendata.cz/ontology/domain/vavai/Vysledek
Description	S rostoucím množstvím dat, která jsou přístupná prostředictvím WWW je stále aktuálnější problém jejich dalšího zpracování, například za účelem jejich integrace do většího informačního celku, nebo za účelem získávání znalostí z těchto dat. Současné techniky automatické extrakce informace z HTML dokumentů ve většině případů vycházejí z předpokladu, že existuje množina dokumentů generovaných stejným způsobem ze společné báze dat. Na základě analýzy této množiny jsou pomocí různých postupů, ať již za asistence uživatele či automaticky, určena pravidla pro extrakci konkrétních dat z HTML dokumentu. V praxi však tento předpoklad často není splněn, mnoho dokumentů se buď vyskytuje pouze v jedné instanci (např. osobní stránky) nebo podobné dokumenty nejsou generovány zcela identickým způsobem. V tomto příspěvku navrhujeme nový přístup, který je založen na popisu logické struktury obsahu HTML dokumentu pomocí XML S rostoucím množstvím dat, která jsou přístupná prostředictvím WWW je stále aktuálnější problém jejich dalšího zpracování, například za účelem jejich integrace do většího informačního celku, nebo za účelem získávání znalostí z těchto dat. Současné techniky automatické extrakce informace z HTML dokumentů ve většině případů vycházejí z předpokladu, že existuje množina dokumentů generovaných stejným způsobem ze společné báze dat. Na základě analýzy této množiny jsou pomocí různých postupů, ať již za asistence uživatele či automaticky, určena pravidla pro extrakci konkrétních dat z HTML dokumentu. V praxi však tento předpoklad často není splněn, mnoho dokumentů se buď vyskytuje pouze v jedné instanci (např. osobní stránky) nebo podobné dokumenty nejsou generovány zcela identickým způsobem. V tomto příspěvku navrhujeme nový přístup, který je založen na popisu logické struktury obsahu HTML dokumentu pomocí XML (cs) This paper deals with the matter of modelling the logical structure of a Web site and using such model for information extraction. It proposes an algorithm for creating a site model based on the HTML code analysis and a XML/XSL based system for information extraction from this model. Furthermore, the possibility of the usage of tree matching algorithms for automating the extraction process is discussed. (en)
Title	Information Extraction from WWW based on the data structure knowledge (en) Extrakce informace z WWW na základě znalosti struktury dat Extrakce informace z WWW na základě znalosti struktury dat (cs)
skos:prefLabel	Information Extraction from WWW based on the data structure knowledge (en) Extrakce informace z WWW na základě znalosti struktury dat Extrakce informace z WWW na základě znalosti struktury dat (cs)
skos:notation	RIV/00216305:26230/03:PU42508!RIV11-MSM-26230___
http://linked.open...avai/riv/aktivita	N V Z
http://linked.open...avai/riv/aktivity	N, V, Z(MSM 262200012)
http://linked.open...vai/riv/dodaniDat	2011
http://linked.open...aciTvurceVysledku	Burget, Radek
http://linked.open.../riv/druhVysledku	D - Článek ve sborníku
http://linked.open...iv/duvernostUdaju	S - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů
http://linked.open...titaPredkladatele	Vysoké učení technické v Brně / Fakulta informačních technologií
http://linked.open...dnocenehoVysledku	606966
http://linked.open...ai/riv/idVysledku	RIV/00216305:26230/03:PU42508
http://linked.open...riv/jazykVysledku	cze - čeština
http://linked.open.../riv/klicovaSlova	Information Extraction, HTML, XML (en)
http://linked.open.../riv/klicoveSlovo	Information Extraction XML HTML
http://linked.open...ontrolniKodProRIV	[095C1A523545]
http://linked.open...v/mistoKonaniAkce	Ostrava
http://linked.open...i/riv/mistoVydani	Ostrava
http://linked.open...i/riv/nazevZdroje	Sborník příspěvků 2. ročníku konference Znalosti 2003
http://linked.open...in/vavai/riv/obor	JC
http://linked.open...ichTvurcuVysledku	1 (xsd:int)
http://linked.open...cetTvurcuVysledku	1 (xsd:int)
http://linked.open...UplatneniVysledku	2003
http://linked.open...iv/tvurceVysledku	Burget, Radek
http://linked.open...vavai/riv/typAkce	CST - Celostátní
http://linked.open.../riv/zahajeniAkce	2003-02-19 (xsd:date)
http://linked.open...n/vavai/riv/zamer	http://linked.opendata.cz/resource/domain/vavai/zamer/MSM%20262200012
number of pages	10 (xsd:int)
http://purl.org/ne...btex#hasPublisher	Vysoká škola báňská - Technická univerzita Ostrava. Fakulta elektrotechniky a informatiky
https://schema.org/isbn	80-248-0229-5
http://localhost/t...ganizacniJednotka	26230

Faceted Search & Find service v1.16.118 as of Jun 21 2024

Alternative Linked Data Documents: ODE Content Formats:

RDF

ODATA

Microdata

About

OpenLink Virtuoso version 07.20.3240 as of Jun 21 2024, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (126 GB total memory, 84 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software