About: Corpus PSP: introduction and possibilities of data mining for the pruposes of corpus stylistics     Goto   Sponge   Distinct   Permalink

An Entity of Type : http://linked.opendata.cz/ontology/domain/vavai/Vysledek, within Data Space : linked.opendata.cz associated with source document(s)

AttributesValues
rdf:type
Description
  • In the first part of our paper, we introduce a newly founded PSP corpus. This corpus comprise cahiers of the Chamber of Deputies of the Parliament of the Czech Republic collected during the life of Parliament 2006-2010. The corpus include 7 million text words. We take advantage of publicly known informations about speakers. Thus we can recognize objective characteristics as gender, age, level of education and others - that allows us to distinguish between the influence of genre, author and theme. Also, we discuss certain trends observable in corpus linguistics, especially the expansion of corpus based methods to other branches of linguistics, which is connected to the following creation of small specialized corpora. Small corpora are intended for a very special usage and they need a specific approach to data-mining. Since not all linguists have access to a team of programmers and technicians, we suggest alternative methods for their use in linguistic research. The primary goal of the PSP corpus is collecting material that will be used for a corpus based stylistic analysis. We demonstrate several methods of corpus based stylistic analysis in the second part of our paper. For the analysis, two speakers with similar parameters were chosen and lists of types of word forms and 2-5grams were extracted from the PSP corpus. Our method is based on the comparsion of the most frequent types of word forms that are common for both speakers. We focused on signs which distinguish one speaker from the other. It was possible to identify preferences regarding the usage of certain invariant structures. Furthermore, we compare the frequency of several highest-ranking 5grams and certain structural and content similarities between individual chunks of text could be identified as well. Such a similarity could be used for their automatic recognition in the future. We suggest using metrics from information theory for measuring the difference between n-grams. (en)
  • V první části studie jsme představili nově vznikající korpus PSP a prodiskutovali jsme některé trendy v oblasti korpusové lingvistiky, především tendenci k přenesení metod do ostatních odvětví lingvistiky a s tím spojenou tendenci k vytváření malých korpusů. Tyto korpusy jsou budovány ke specifickým účelům a často vyžadují alternativní metody vytěžování. Protože není možno při zpracování takto specifických korpusů těžit z rozsáhlého technického zázemí, naznačujeme alternativní přístup. Primárním cílem korpusu PSP je shromáždění materiálu za účelem stylistického výzkumu prováděného korpusovými metodami, které se snažíme naznačit v druhé části studie. Zvolili jsme dva mluvčí s podobnými charakteristikami a extrahovali jsme z korpusu seznamy všech typů slovních tvarů a 2-5gramy. Vycházeli jsme z frekvenčního srovnání nejčastějších společných typů slovních tvarů, přičemž jsme se zaměřili na znaky, které zřetelně odlišují oba dva mluvčí. (Určili jsme např. preferenci při užití invariantních jazykových prostředků.) V závěru studie jsme srovnali frekvenční špičku 5gramů a konstatovali jsme, že se dají vydělit strukturně i obsahově podobné sekvence textu, jejichž stejnorodost může v budoucnosti sloužit k jejich automatickému rozlišování. K měření podobnosti / rozdílnosti mezi n-gramy navrhujeme užívat metriky pocházející z teorie informace.
  • V první části studie jsme představili nově vznikající korpus PSP a prodiskutovali jsme některé trendy v oblasti korpusové lingvistiky, především tendenci k přenesení metod do ostatních odvětví lingvistiky a s tím spojenou tendenci k vytváření malých korpusů. Tyto korpusy jsou budovány ke specifickým účelům a často vyžadují alternativní metody vytěžování. Protože není možno při zpracování takto specifických korpusů těžit z rozsáhlého technického zázemí, naznačujeme alternativní přístup. Primárním cílem korpusu PSP je shromáždění materiálu za účelem stylistického výzkumu prováděného korpusovými metodami, které se snažíme naznačit v druhé části studie. Zvolili jsme dva mluvčí s podobnými charakteristikami a extrahovali jsme z korpusu seznamy všech typů slovních tvarů a 2-5gramy. Vycházeli jsme z frekvenčního srovnání nejčastějších společných typů slovních tvarů, přičemž jsme se zaměřili na znaky, které zřetelně odlišují oba dva mluvčí. (Určili jsme např. preferenci při užití invariantních jazykových prostředků.) V závěru studie jsme srovnali frekvenční špičku 5gramů a konstatovali jsme, že se dají vydělit strukturně i obsahově podobné sekvence textu, jejichž stejnorodost může v budoucnosti sloužit k jejich automatickému rozlišování. K měření podobnosti / rozdílnosti mezi n-gramy navrhujeme užívat metriky pocházející z teorie informace. (cs)
Title
  • Corpus PSP: introduction and possibilities of data mining for the pruposes of corpus stylistics (en)
  • Korpus PSP: představení a možnosti vytěžování pro účely korpusové stylistiky
  • Korpus PSP: představení a možnosti vytěžování pro účely korpusové stylistiky (cs)
skos:prefLabel
  • Corpus PSP: introduction and possibilities of data mining for the pruposes of corpus stylistics (en)
  • Korpus PSP: představení a možnosti vytěžování pro účely korpusové stylistiky
  • Korpus PSP: představení a možnosti vytěžování pro účely korpusové stylistiky (cs)
skos:notation
  • RIV/00216208:11210/11:10109787!RIV12-MSM-11210___
http://linked.open...avai/predkladatel
http://linked.open...avai/riv/aktivita
http://linked.open...avai/riv/aktivity
  • Z(MSM0021620823)
http://linked.open...vai/riv/dodaniDat
http://linked.open...aciTvurceVysledku
http://linked.open.../riv/druhVysledku
http://linked.open...iv/duvernostUdaju
http://linked.open...titaPredkladatele
http://linked.open...dnocenehoVysledku
  • 208212
http://linked.open...ai/riv/idVysledku
  • RIV/00216208:11210/11:10109787
http://linked.open...riv/jazykVysledku
http://linked.open.../riv/klicovaSlova
  • stylistics; corpus; pruposes; for; mining; data; possibilities; introduction; PSP; Corpus (en)
http://linked.open.../riv/klicoveSlovo
http://linked.open...ontrolniKodProRIV
  • [DFBCF0CED2FA]
http://linked.open...i/riv/mistoVydani
  • Praha
http://linked.open...vEdiceCisloSvazku
  • 2
http://linked.open...i/riv/nazevZdroje
  • Korpusová lingvistika Praha 2011: 2 Výzkum a výstavba korpusů
http://linked.open...in/vavai/riv/obor
http://linked.open...ichTvurcuVysledku
http://linked.open...v/pocetStranKnihy
http://linked.open...cetTvurcuVysledku
http://linked.open...UplatneniVysledku
http://linked.open...iv/tvurceVysledku
  • Mácha, Jiří
http://linked.open...n/vavai/riv/zamer
number of pages
http://purl.org/ne...btex#hasPublisher
  • Nakladatelství Lidové noviny
https://schema.org/isbn
  • 978-80-7422-115-6
http://localhost/t...ganizacniJednotka
  • 11210
is http://linked.open...avai/riv/vysledek of
Faceted Search & Find service v1.16.118 as of Jun 21 2024


Alternative Linked Data Documents: ODE     Content Formats:   [cxml] [csv]     RDF   [text] [turtle] [ld+json] [rdf+json] [rdf+xml]     ODATA   [atom+xml] [odata+json]     Microdata   [microdata+json] [html]    About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data] Valid XHTML + RDFa
OpenLink Virtuoso version 07.20.3240 as of Jun 21 2024, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (126 GB total memory, 116 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software