About: Quantitative delimitation of a core lexicon     Goto   Sponge   NotDistinct   Permalink

An Entity of Type : http://linked.opendata.cz/ontology/domain/vavai/Vysledek, within Data Space : linked.opendata.cz associated with source document(s)

AttributesValues
rdf:type
Description
  • Využití tzv. hapax legomenon, tj. jazykových jednotek, které se v korpusu vyskytují právě jednou, je v lingvistickém popisu povětšinou (a nutno dodat, že právem) přehlíženo. Důvodem je fakt, že izolovaná evidence neposkytuje rámec pro jakýkoli typ zobecnění. Příspěvek se věnuje možnostem využití informace o počtu hapax legomenon k celkové velikosti textu nebo korpusu pro empirické vymezení jaderného lexikonu.
  • Využití tzv. hapax legomenon, tj. jazykových jednotek, které se v korpusu vyskytují právě jednou, je v lingvistickém popisu povětšinou (a nutno dodat, že právem) přehlíženo. Důvodem je fakt, že izolovaná evidence neposkytuje rámec pro jakýkoli typ zobecnění. Příspěvek se věnuje možnostem využití informace o počtu hapax legomenon k celkové velikosti textu nebo korpusu pro empirické vymezení jaderného lexikonu. (cs)
  • The exploitation of hapax legomena, i.e. word or lemma types which occur in a corpus only once, in language description is usually overlooked. These types cannot be systematically used for vast majority of analyses as they do not provide a base for any type of generalization. On the other hand, the overall number of hapaxes can be used as an indicator of lexical periphery of the language system. This paper suggests that ratio between number of hapaxes and number of all types in relation to the growing corpus size (hapax-type ratio, HTR) can be used for delimitation of lexical core of a language. It has been shown by previous research (Fengxiang 2010) that HTR in English has a shape of a pipe or chibouque, which means that the pace of emerging new hapaxes and new types in a process of building a corpus differ before and after reaching certain size. In a hypothetically small corpus (a few sentences) the hapax-type ratio will be equal to one (each word-type is also a hapax). As we add texts to a corpus (up to a few million words), the hapax-type ratio decreases (the number of new words including hapaxes is continuously increasing but the majority of added tokens are new instances of words already present in the corpus) from its maximal value (=1) to the local minimum. After reaching this turning point, extending the corpus increases the ratio because the amount of hapaxes grows at a faster pace than the number of non-hapaxes (i.e. types with frequency higher than one). This empirical finding tested on corpora of Czech and English brings us closer to an exact determination of the range of the core lexicon. Subsequently, we can deduce the approximate size of a corpus sufficient for compiling a dictionary that covers the core lexicon. (en)
Title
  • Quantitative delimitation of a core lexicon (en)
  • Kvantitativní určení lexikálního jádra jazyka
  • Kvantitativní určení lexikálního jádra jazyka (cs)
skos:prefLabel
  • Quantitative delimitation of a core lexicon (en)
  • Kvantitativní určení lexikálního jádra jazyka
  • Kvantitativní určení lexikálního jádra jazyka (cs)
skos:notation
  • RIV/00216208:11210/14:10286215!RIV15-MSM-11210___
http://linked.open...avai/riv/aktivita
http://linked.open...avai/riv/aktivity
  • I
http://linked.open...iv/cisloPeriodika
  • 1
http://linked.open...vai/riv/dodaniDat
http://linked.open...aciTvurceVysledku
http://linked.open.../riv/druhVysledku
http://linked.open...iv/duvernostUdaju
http://linked.open...titaPredkladatele
http://linked.open...dnocenehoVysledku
  • 25416
http://linked.open...ai/riv/idVysledku
  • RIV/00216208:11210/14:10286215
http://linked.open...riv/jazykVysledku
http://linked.open.../riv/klicovaSlova
  • quantitative linguistics; hapax legomenon; lexicon; corpus (en)
http://linked.open.../riv/klicoveSlovo
http://linked.open...odStatuVydavatele
  • CZ - Česká republika
http://linked.open...ontrolniKodProRIV
  • [67D905AA0BDC]
http://linked.open...i/riv/nazevZdroje
  • Časopis pro moderní filologii
http://linked.open...in/vavai/riv/obor
http://linked.open...ichTvurcuVysledku
http://linked.open...cetTvurcuVysledku
http://linked.open...UplatneniVysledku
http://linked.open...v/svazekPeriodika
  • 96
http://linked.open...iv/tvurceVysledku
  • Cvrček, Václav
issn
  • 0008-7386
number of pages
http://localhost/t...ganizacniJednotka
  • 11210
Faceted Search & Find service v1.16.118 as of Jun 21 2024


Alternative Linked Data Documents: ODE     Content Formats:   [cxml] [csv]     RDF   [text] [turtle] [ld+json] [rdf+json] [rdf+xml]     ODATA   [atom+xml] [odata+json]     Microdata   [microdata+json] [html]    About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data] Valid XHTML + RDFa
OpenLink Virtuoso version 07.20.3240 as of Jun 21 2024, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (126 GB total memory, 48 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software