语料库词频统计

    语料库词频统计 :

词频统计方式分为全量统计、指定统计和字/词频统计三种。全量统计是计算出特定文档中所有词汇出现的频率,指定统计是计算出某些或某类词汇出现的频率,字/词频统计是计算出特定词项出现的频率。词频分为形频与类频两种,前者指某一语言单位(单词、短语或搭配)在语言文本中出现的次数,它决定该语言单位的固化程度;后者指某一语言型式在文本中的语言使用频率,它反映该型式的能产性。为便于不同容量的语料库之间进行词频对比统计,还可对词频进行标准化处理,处理前的词频称为“频数”,处理后的词频称为“频率”

在一个语料库中,可以运用检索工具的词表生成功能形成词频表,表内通常包括整个检索语料的形符数、类符数以及单个词的频数、百分比等信息,使用者可根据需要选择将词频表从高频到低频、或是从低频到高频,从A到Z或是从Z到A进行排列,以满足各种语言研究、语言教学和词典编纂调用。

为您推荐

心理词典

心理词典 : 许多学者认为储存于记忆中的词汇就像保存在人脑中的一部词典,因此称为心理词典。是心理语言学和认知科学中的一个重要概念。心理学家们倾向于认为,学会了语言和阅读的人都具有一部心理词典..

江永

江永 : 他精通三礼、长于算学、乐律和音韵之学,是经学皖派的开创者,一生著述甚多,重要者有《礼书纲目》《周礼疑义举要》《礼记训义释言》《仪礼释义》《春秋地理考实》《群经补义》等。江永精于音理,开..

自然语言语音理解系统

自然语言语音理解系统 : 指人和计算机之间用自然语言口语语音对话的通信系统。这是令人向往的前景。因为人用口语语音传输信息最快,最方便;而双手又是自由的,可以同时进行其他操作。   自然语言语音理解系统,从..

视角

袁子让

袁子让 : 湖南郴州人。万历二十九年(1601)进士,历官嘉定(今属四川)、眉州知州,兵部郎中,官有政声,死祀乡贤祠。著有《字学元元》《注易图》《全蜀边域考》《五先堂文市榷酤》《嘉州二山志》等书。《字学元元..

郑庠

郑庠 : 浙江开化人,官至从政郎。著有《古音辨》,已失传。郑庠据《诗经》以归纳其韵部,凡《诗经》押韵之处,即合为一部。据宋代熊朋来《熊先生说经》记载,他将《广韵》韵部合并为古韵六部:真谆臻文欣元魂痕..

字族

字族 : ..