Attributes | Values |
---|
rdf:type
| |
Description
| - In the first part of our paper, we introduce a newly founded PSP corpus. This corpus comprise cahiers of the Chamber of Deputies of the Parliament of the Czech Republic collected during the life of Parliament 2006-2010. The corpus include 7 million text words. We take advantage of publicly known informations about speakers. Thus we can recognize objective characteristics as gender, age, level of education and others - that allows us to distinguish between the influence of genre, author and theme. Also, we discuss certain trends observable in corpus linguistics, especially the expansion of corpus based methods to other branches of linguistics, which is connected to the following creation of small specialized corpora. Small corpora are intended for a very special usage and they need a specific approach to data-mining. Since not all linguists have access to a team of programmers and technicians, we suggest alternative methods for their use in linguistic research. The primary goal of the PSP corpus is collecting material that will be used for a corpus based stylistic analysis. We demonstrate several methods of corpus based stylistic analysis in the second part of our paper. For the analysis, two speakers with similar parameters were chosen and lists of types of word forms and 2-5grams were extracted from the PSP corpus. Our method is based on the comparsion of the most frequent types of word forms that are common for both speakers. We focused on signs which distinguish one speaker from the other. It was possible to identify preferences regarding the usage of certain invariant structures. Furthermore, we compare the frequency of several highest-ranking 5grams and certain structural and content similarities between individual chunks of text could be identified as well. Such a similarity could be used for their automatic recognition in the future. We suggest using metrics from information theory for measuring the difference between n-grams. (en)
- V první části studie jsme představili nově vznikající korpus PSP a prodiskutovali jsme některé trendy v oblasti korpusové lingvistiky, především tendenci k přenesení metod do ostatních odvětví lingvistiky a s tím spojenou tendenci k vytváření malých korpusů. Tyto korpusy jsou budovány ke specifickým účelům a často vyžadují alternativní metody vytěžování. Protože není možno při zpracování takto specifických korpusů těžit z rozsáhlého technického zázemí, naznačujeme alternativní přístup. Primárním cílem korpusu PSP je shromáždění materiálu za účelem stylistického výzkumu prováděného korpusovými metodami, které se snažíme naznačit v druhé části studie. Zvolili jsme dva mluvčí s podobnými charakteristikami a extrahovali jsme z korpusu seznamy všech typů slovních tvarů a 2-5gramy. Vycházeli jsme z frekvenčního srovnání nejčastějších společných typů slovních tvarů, přičemž jsme se zaměřili na znaky, které zřetelně odlišují oba dva mluvčí. (Určili jsme např. preferenci při užití invariantních jazykových prostředků.) V závěru studie jsme srovnali frekvenční špičku 5gramů a konstatovali jsme, že se dají vydělit strukturně i obsahově podobné sekvence textu, jejichž stejnorodost může v budoucnosti sloužit k jejich automatickému rozlišování. K měření podobnosti / rozdílnosti mezi n-gramy navrhujeme užívat metriky pocházející z teorie informace.
- V první části studie jsme představili nově vznikající korpus PSP a prodiskutovali jsme některé trendy v oblasti korpusové lingvistiky, především tendenci k přenesení metod do ostatních odvětví lingvistiky a s tím spojenou tendenci k vytváření malých korpusů. Tyto korpusy jsou budovány ke specifickým účelům a často vyžadují alternativní metody vytěžování. Protože není možno při zpracování takto specifických korpusů těžit z rozsáhlého technického zázemí, naznačujeme alternativní přístup. Primárním cílem korpusu PSP je shromáždění materiálu za účelem stylistického výzkumu prováděného korpusovými metodami, které se snažíme naznačit v druhé části studie. Zvolili jsme dva mluvčí s podobnými charakteristikami a extrahovali jsme z korpusu seznamy všech typů slovních tvarů a 2-5gramy. Vycházeli jsme z frekvenčního srovnání nejčastějších společných typů slovních tvarů, přičemž jsme se zaměřili na znaky, které zřetelně odlišují oba dva mluvčí. (Určili jsme např. preferenci při užití invariantních jazykových prostředků.) V závěru studie jsme srovnali frekvenční špičku 5gramů a konstatovali jsme, že se dají vydělit strukturně i obsahově podobné sekvence textu, jejichž stejnorodost může v budoucnosti sloužit k jejich automatickému rozlišování. K měření podobnosti / rozdílnosti mezi n-gramy navrhujeme užívat metriky pocházející z teorie informace. (cs)
|
Title
| - Corpus PSP: introduction and possibilities of data mining for the pruposes of corpus stylistics (en)
- Korpus PSP: představení a možnosti vytěžování pro účely korpusové stylistiky
- Korpus PSP: představení a možnosti vytěžování pro účely korpusové stylistiky (cs)
|
skos:prefLabel
| - Corpus PSP: introduction and possibilities of data mining for the pruposes of corpus stylistics (en)
- Korpus PSP: představení a možnosti vytěžování pro účely korpusové stylistiky
- Korpus PSP: představení a možnosti vytěžování pro účely korpusové stylistiky (cs)
|
skos:notation
| - RIV/00216208:11210/11:10109787!RIV12-MSM-11210___
|
http://linked.open...avai/predkladatel
| |
http://linked.open...avai/riv/aktivita
| |
http://linked.open...avai/riv/aktivity
| |
http://linked.open...vai/riv/dodaniDat
| |
http://linked.open...aciTvurceVysledku
| |
http://linked.open.../riv/druhVysledku
| |
http://linked.open...iv/duvernostUdaju
| |
http://linked.open...titaPredkladatele
| |
http://linked.open...dnocenehoVysledku
| |
http://linked.open...ai/riv/idVysledku
| - RIV/00216208:11210/11:10109787
|
http://linked.open...riv/jazykVysledku
| |
http://linked.open.../riv/klicovaSlova
| - stylistics; corpus; pruposes; for; mining; data; possibilities; introduction; PSP; Corpus (en)
|
http://linked.open.../riv/klicoveSlovo
| |
http://linked.open...ontrolniKodProRIV
| |
http://linked.open...i/riv/mistoVydani
| |
http://linked.open...vEdiceCisloSvazku
| |
http://linked.open...i/riv/nazevZdroje
| - Korpusová lingvistika Praha 2011: 2 Výzkum a výstavba korpusů
|
http://linked.open...in/vavai/riv/obor
| |
http://linked.open...ichTvurcuVysledku
| |
http://linked.open...v/pocetStranKnihy
| |
http://linked.open...cetTvurcuVysledku
| |
http://linked.open...UplatneniVysledku
| |
http://linked.open...iv/tvurceVysledku
| |
http://linked.open...n/vavai/riv/zamer
| |
number of pages
| |
http://purl.org/ne...btex#hasPublisher
| - Nakladatelství Lidové noviny
|
https://schema.org/isbn
| |
http://localhost/t...ganizacniJednotka
| |
is http://linked.open...avai/riv/vysledek
of | |