语料库索引行 :
索引行的中心词可以是特定的单词、短语、句式等,可取自一个文本的开头、中间或结尾,也可以由一个完整句子或句子的一部分,或两个句子的部分内容组成。每个索引行占据一行空间,中心词总是位于句子中间,其前后的共现词项数目可以按需设定。这样,用户在浏览一组索引行时,就可根据关键词所处的上下文或其前后的单词来分析和概括语言实例所蕴含的规律,如意义、搭配、类联结和构式等内容。
具体分析过程为:①运行索引分析工具,输入检索项,得到索引行列表;②确定关键词前后出现频率最高的相邻词,分析该词特点;③由索引方式切换到搭配分析,观察节点词的前后搭配语境,根据需要灵活调整跨距;④将语境搭配分析扩展到语义上,分析搭配词的意义特征;⑤对索引行多次重新抽样,重复上述过程寻求更多的实例支撑。总之,索引行分析的整个过程十分强调中心性和典型性,但与此同时也不应排斥大量语言数据中的例外情况,这些例外情况可能反映了一种新的语言规律发展轨迹。
在词典编纂中,检索一些高频词项时往往会生成数目庞大的索引行,导致信息过载,词典编纂效率低下。这时,可运用专门的工具软件对索引行进行再加工。如利用例句生成器在语料库中生成调取同一分布结构的自然语句,减少“噪声信息”,也可利用如词汇速描引擎生成基于语法搭配关系的数据库集,辅助语义消歧,还可利用数据挖掘技术来进一步挖掘提取有价值的语言信息,提高词典编纂效率。