About: Corpus PSP: introduction and possibilities of data mining for the pruposes of corpus stylistics

Facets (new session)
Description
Metadata
Settings
- owl:sameAs
- Inference Rule:

About: Corpus PSP: introduction and possibilities of data mining for the pruposes of corpus stylistics Goto Sponge NotDistinct Permalink

An Entity of Type : http://linked.opendata.cz/ontology/domain/vavai/Vysledek, within Data Space : linked.opendata.cz associated with source document(s)

Attributes	Values
rdf:type	skos:Concept http://linked.opendata.cz/ontology/domain/vavai/Vysledek
Description	In the first part of our paper, we introduce a newly founded PSP corpus. This corpus comprise cahiers of the Chamber of Deputies of the Parliament of the Czech Republic collected during the life of Parliament 2006-2010. The corpus include 7 million text words. We take advantage of publicly known informations about speakers. Thus we can recognize objective characteristics as gender, age, level of education and others - that allows us to distinguish between the influence of genre, author and theme. Also, we discuss certain trends observable in corpus linguistics, especially the expansion of corpus based methods to other branches of linguistics, which is connected to the following creation of small specialized corpora. Small corpora are intended for a very special usage and they need a specific approach to data-mining. Since not all linguists have access to a team of programmers and technicians, we suggest alternative methods for their use in linguistic research. The primary goal of the PSP corpus is collecting material that will be used for a corpus based stylistic analysis. We demonstrate several methods of corpus based stylistic analysis in the second part of our paper. For the analysis, two speakers with similar parameters were chosen and lists of types of word forms and 2-5grams were extracted from the PSP corpus. Our method is based on the comparsion of the most frequent types of word forms that are common for both speakers. We focused on signs which distinguish one speaker from the other. It was possible to identify preferences regarding the usage of certain invariant structures. Furthermore, we compare the frequency of several highest-ranking 5grams and certain structural and content similarities between individual chunks of text could be identified as well. Such a similarity could be used for their automatic recognition in the future. We suggest using metrics from information theory for measuring the difference between n-grams. (en) V první části studie jsme představili nově vznikající korpus PSP a prodiskutovali jsme některé trendy v oblasti korpusové lingvistiky, především tendenci k přenesení metod do ostatních odvětví lingvistiky a s tím spojenou tendenci k vytváření malých korpusů. Tyto korpusy jsou budovány ke specifickým účelům a často vyžadují alternativní metody vytěžování. Protože není možno při zpracování takto specifických korpusů těžit z rozsáhlého technického zázemí, naznačujeme alternativní přístup. Primárním cílem korpusu PSP je shromáždění materiálu za účelem stylistického výzkumu prováděného korpusovými metodami, které se snažíme naznačit v druhé části studie. Zvolili jsme dva mluvčí s podobnými charakteristikami a extrahovali jsme z korpusu seznamy všech typů slovních tvarů a 2-5gramy. Vycházeli jsme z frekvenčního srovnání nejčastějších společných typů slovních tvarů, přičemž jsme se zaměřili na znaky, které zřetelně odlišují oba dva mluvčí. (Určili jsme např. preferenci při užití invariantních jazykových prostředků.) V závěru studie jsme srovnali frekvenční špičku 5gramů a konstatovali jsme, že se dají vydělit strukturně i obsahově podobné sekvence textu, jejichž stejnorodost může v budoucnosti sloužit k jejich automatickému rozlišování. K měření podobnosti / rozdílnosti mezi n-gramy navrhujeme užívat metriky pocházející z teorie informace. V první části studie jsme představili nově vznikající korpus PSP a prodiskutovali jsme některé trendy v oblasti korpusové lingvistiky, především tendenci k přenesení metod do ostatních odvětví lingvistiky a s tím spojenou tendenci k vytváření malých korpusů. Tyto korpusy jsou budovány ke specifickým účelům a často vyžadují alternativní metody vytěžování. Protože není možno při zpracování takto specifických korpusů těžit z rozsáhlého technického zázemí, naznačujeme alternativní přístup. Primárním cílem korpusu PSP je shromáždění materiálu za účelem stylistického výzkumu prováděného korpusovými metodami, které se snažíme naznačit v druhé části studie. Zvolili jsme dva mluvčí s podobnými charakteristikami a extrahovali jsme z korpusu seznamy všech typů slovních tvarů a 2-5gramy. Vycházeli jsme z frekvenčního srovnání nejčastějších společných typů slovních tvarů, přičemž jsme se zaměřili na znaky, které zřetelně odlišují oba dva mluvčí. (Určili jsme např. preferenci při užití invariantních jazykových prostředků.) V závěru studie jsme srovnali frekvenční špičku 5gramů a konstatovali jsme, že se dají vydělit strukturně i obsahově podobné sekvence textu, jejichž stejnorodost může v budoucnosti sloužit k jejich automatickému rozlišování. K měření podobnosti / rozdílnosti mezi n-gramy navrhujeme užívat metriky pocházející z teorie informace. (cs)
Title	Corpus PSP: introduction and possibilities of data mining for the pruposes of corpus stylistics (en) Korpus PSP: představení a možnosti vytěžování pro účely korpusové stylistiky Korpus PSP: představení a možnosti vytěžování pro účely korpusové stylistiky (cs)
skos:prefLabel	Corpus PSP: introduction and possibilities of data mining for the pruposes of corpus stylistics (en) Korpus PSP: představení a možnosti vytěžování pro účely korpusové stylistiky Korpus PSP: představení a možnosti vytěžování pro účely korpusové stylistiky (cs)
skos:notation	RIV/00216208:11210/11:10109787!RIV12-MSM-11210___
http://linked.open...avai/riv/aktivita	Z
http://linked.open...avai/riv/aktivity	Z(MSM0021620823)
http://linked.open...vai/riv/dodaniDat	2012
http://linked.open...aciTvurceVysledku	Mácha, Jiří
http://linked.open.../riv/druhVysledku	C - Kapitola v knize
http://linked.open...iv/duvernostUdaju	S - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů
http://linked.open...titaPredkladatele	Univerzita Karlova v Praze / Filozofická fakulta
http://linked.open...dnocenehoVysledku	208212
http://linked.open...ai/riv/idVysledku	RIV/00216208:11210/11:10109787
http://linked.open...riv/jazykVysledku	cze - čeština
http://linked.open.../riv/klicovaSlova	stylistics; corpus; pruposes; for; mining; data; possibilities; introduction; PSP; Corpus (en)
http://linked.open.../riv/klicoveSlovo	stylistics corpus data for mining possibilities Corpus PSP introduction pruposes
http://linked.open...ontrolniKodProRIV	[DFBCF0CED2FA]
http://linked.open...i/riv/mistoVydani	Praha
http://linked.open...vEdiceCisloSvazku	2
http://linked.open...i/riv/nazevZdroje	Korpusová lingvistika Praha 2011: 2 Výzkum a výstavba korpusů
http://linked.open...in/vavai/riv/obor	AI
http://linked.open...ichTvurcuVysledku	1 (xsd:int)
http://linked.open...v/pocetStranKnihy	323 (xsd:int)
http://linked.open...cetTvurcuVysledku	1 (xsd:int)
http://linked.open...UplatneniVysledku	2011
http://linked.open...iv/tvurceVysledku	Mácha, Jiří
http://linked.open...n/vavai/riv/zamer	Czech National Corpus and Corpora of Other Languages
number of pages	16 (xsd:int)
http://purl.org/ne...btex#hasPublisher	Nakladatelství Lidové noviny
https://schema.org/isbn	978-80-7422-115-6
http://localhost/t...ganizacniJednotka	11210

Faceted Search & Find service v1.16.118 as of Jun 21 2024

Alternative Linked Data Documents: ODE Content Formats:

RDF

ODATA

Microdata

About

OpenLink Virtuoso version 07.20.3240 as of Jun 21 2024, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (126 GB total memory, 48 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software