词频分布定律

    词频分布定律 : 关于单词在文献中出现频次的分布规律。亦称省力法则。1948年由美国哈佛大学语言学教授G.K.齐普夫对英语文献中单词出现的频次进行大量统计以检验前人的定量化公式而提出的。该定律指出文章中单词的频次(f)与其排列的序号(r)之间存在着下述定量的关系,齐普夫认为:如果有一个包含n 个词的文章,将这些词按其出现的频次递减地排序,那么序号r和其出现频次f之积fr,将近似地为一个常数,即fr=b,(式中r=1,2,3....),即词频分布定律最普通而又最典型的表达。 此后, 许多工具书大 都采用类似观点和说法 。如英国著名的语言学著作《语言与语言词典》 中的释义是:"(词频分布定律) 是指谈话者或写作者使用的词的分布和频次的总描述。F×R=C,方程式中F=频次,R=序号,即频率表上的位置;C=常数。方程式表示词使用的总次数和词频表上的位置之间有一个固定比率。"但是齐普夫的表达仅适宜于中频词的情况,高频与低频词与该表述偏差较大。于是对词频分布规律又有许多补充和深化的研究。
  词频分布规律是有较为丰富内涵的,学术界认为正态分布是描述自然科学的典型分布,而齐普夫分布将成为揭示社会科学规律的典型分布,所以社会科学界一直很重视这个定律。讨论词频分布何以呈现那种特殊的形状,对其成因提出假说,建立适当的理论模型描绘其分布过程是当前研究工作的热点,目前较重要的假说有2个:①"省力法则"假说。提出这一假说的是齐普夫。他认为,在语言交流过程中,"省力法则"同时体现在说话人和听话人身上。说话人希望组成语言的词少,而且一词多义,以节省其精力。听话人认为最好是一词一义,使听到的词与其确切涵义容易匹配,减少他理解的功夫。这2种节省精力的倾向最后平衡的结果,便是词频的那种双曲线型分布。②"成功产生成功"假说。这方面以H.A.西蒙的研究最为著名。西蒙构造了一个概率模型,他所作的一个重要假说是:在文献中,一词使用的次数越多,则再次使用的可能性越大。该模型最后导出的分布与齐普夫分布相当接近,D.J.de S.普赖斯后来建立了一个相类似的模型,又明确地提出了"成功产生成功"的假说。
  研究词频分布对编制词表,制定标引规则,进行词汇分析与控制,分析作者著述特征具有一定意义。经验表明,中频词往往是包含大量有检索意义的关键词。而一篇文献全文输入计算机后,计算机是很容易检出中频词的。因此,词频分布也是文献自动分类、自动标引的研究对象。

为您推荐

长泽规矩也

长泽规矩也 :   日本中国学家、目录学家。字士伦,号静庵。神奈川人。1902年6月4日生于小田原市。1980年11月21日逝世。1925年东京帝国大学中国哲学文学科毕业后,任静嘉堂文库嘱托,同时在东京帝国大学继续学..

部际图书情报工作协调委员会

部际图书情报工作协调委员会 : 中国全国性图书馆和情报事业发展协调机构。1987年10月22日成立于北京。由国家科学技术委员会和文化部发起,国家科委、文化部、国家教育委员会、中国科学院、中国社会科学院、..

崇文院

崇文院 : 中国宋代贮藏图书的官署。唐太宗贞观中设崇文馆,为太子学馆,置学士等官,掌管东宫经籍图书,以教授诸生。北宋建立后,沿袭唐代旧制,以汴京(今开封市)之昭文馆、史馆、集贤院等总为崇文院。院内东廊为昭文..

重庆图书馆

藏书章

藏书章 : 图书收藏者用以标明图书所有权和表达其个性爱好的一种印迹。又称藏书印。中国西汉时期就已出现藏书章。古代藏书家为辨明图书的归属,征信于人,常在自己的藏书上盖上印章。章上通常刻有姓名、字、号..

传是楼

传是楼 : 中国清代徐乾学的藏书楼。设在江苏昆山。徐乾学(1631~1694)字原一,号健庵。江苏昆山人。康熙九年(1670)进士,历任内阁学士、刑部尚书等职。曾奉命编纂《大清一统志》、《清会典》及《明史》,编刻《通..

测绘档案

测绘档案 : 在大地测量和地图绘制活动中形成并归档的科学技术文件材料。按内容、精度和比例尺可分为全国性测绘档案、地方性测绘档案和专业性测绘档案。全国性测绘档案是按照国家统一的规范测绘形成的下列..