语料库索引行

    语料库索引行 :

索引行的中心词可以是特定的单词、短语、句式等,可取自一个文本的开头、中间或结尾,也可以由一个完整句子或句子的一部分,或两个句子的部分内容组成。每个索引行占据一行空间,中心词总是位于句子中间,其前后的共现词项数目可以按需设定。这样,用户在浏览一组索引行时,就可根据关键词所处的上下文或其前后的单词来分析和概括语言实例所蕴含的规律,如意义、搭配、类联结和构式等内容。

具体分析过程为:①运行索引分析工具,输入检索项,得到索引行列表;②确定关键词前后出现频率最高的相邻词,分析该词特点;③由索引方式切换到搭配分析,观察节点词的前后搭配语境,根据需要灵活调整跨距;④将语境搭配分析扩展到语义上,分析搭配词的意义特征;⑤对索引行多次重新抽样,重复上述过程寻求更多的实例支撑。总之,索引行分析的整个过程十分强调中心性和典型性,但与此同时也不应排斥大量语言数据中的例外情况,这些例外情况可能反映了一种新的语言规律发展轨迹。

在词典编纂中,检索一些高频词项时往往会生成数目庞大的索引行,导致信息过载,词典编纂效率低下。这时,可运用专门的工具软件对索引行进行再加工。如利用例句生成器在语料库中生成调取同一分布结构的自然语句,减少“噪声信息”,也可利用如词汇速描引擎生成基于语法搭配关系的数据库集,辅助语义消歧,还可利用数据挖掘技术来进一步挖掘提取有价值的语言信息,提高词典编纂效率。

为您推荐

编码词典

编码词典 : 编码词典既包括一般的学习词典又包括专门的口语词典、写作词典和翻译词典。侧重于解释语言的具体用法,因此释义较详细,例证也相对丰富,往往还带有括注、参见等附加信息,用于说明词目词的细微..

方言词典

方言词典 : 《方言》书影按照收录条目的地域,方言词典可以分为两类。一类是综合性方言词典,收录多地方言的词汇,汉代扬雄编写的《..

类语词典

类语词典 : 《尔雅》(台湾故宫博物院藏)把类似语义和类似书写、发音形式等容易混淆的语言单位分类编排,并给予简单解释的词典。类语词典的收词包括单词、复合词或短语,按照范畴的相互关联程度进行分类编..

词典

电子词典界面功能

电子词典界面功能 : 界面功能直接反映电子词典的用途,包括信息查询功能、媒体浏览功能、信息显示功能、发音和朗读功能、文本翻译功能、写作助理功能、人机互动功能、系统设置功能,前三项为词典的主要..

《牛津英语学习词典》

《牛津英语学习词典》 : 英文初版由A.S.霍恩比编纂,牛津大学出版社于1948年出版,1963年、1974年、1989年、1995年、2000年、2005年、2010年、2015年、2020年分别修订出2~10版。至今已成为全球销量最大的..

有限词典

有限词典 : 有限词典的限制主要体现在两个方面,①语言层面,仅收录语言某一部分语词,譬如方言词典,以及俚语、谚语、成语、俗语等词典;或某一方面的语词,譬如发音词典、笔顺词典、同义词词典、反义词词典、..