语言的熵(语言)

语言的熵(语言):

在语言交际过程中测量语言符号出现的不定度大小的量度。语言的熵因语言符号的数目和出现概率的不同而不同。数目越多,出现概率越均等,熵越高。语言符号出现后,不定度被消除,熵等于零,该符号所负载的信息被获知。可见在语言交际过程中,语言接收者所得到的信息量恰恰等于被消除的熵。因此可以用语言符号的熵的大小来衡量该符号所负载的信息量的大小。计算语言符号熵的公式为:。其中n为某语言中语言符号的数目;Pi为语言符号的出现概率;K是常数;H1则为符号的熵。当K=1,对数的底为2时,熵的单位就是比特(bit)。实验测得英语二十六字母的熵H1为4.03比特;俄语三十二字母的熵H1为4.35比特;汉字的熵H1为9.65比特(按总数为两万汉字计算)。

为您推荐

基于框架或语义网络的知识表示(语言)

基于框架或语义网络的知识表示(语言):标准的知识表示方式之一。语义网络由结点、连接这些结点的弧组成。结点代表对象、概念或事件;弧用来描述结点之间的关系。描述关系的弧,其定义方式取决于被表示的知识种类。用于表达..

齐夫定律(语言)

齐夫定律(语言):在按频率递减顺序排列的频率词典中,词的序号和词的频率之间存在着一定的数量关系。可以公式化为:。其中r为词的序号;k和γ都是常数;Pr则是序号为r的词的频率。美国语文学家齐夫(G.K.Zipf)通过实验测出γ=1,K=0..

从属分析法(语言)

从属分析法(语言):把法国语言学家特思尼耶尔(Lucien Tesnière)提出的从属关系语法运用于句法自动分析所得出的一种方法。其基本思想是认为在词结合成句子的时候,词与词之间的关系不是这些词的简单相加,而是由核心成分和..

洪堡特主义(语言)

基于规则的知识表示(语言)

基于规则的知识表示(语言):标准的知识表示方式之一。主要是使用”if〈条件〉then〈动作〉”这样的语句来组织和表示语言知识或其他知识。如:⑴if某个短语是由一个动词后接一个名词所组成,then这个短语就是动名短语。⑵if..

语言年代学(语言)

语言年代学(语言):也叫“词源统计分析法”。以每一种语言中都存在的某些基本词汇(如人称代词、身体各部分的名称等)的变化速度为尺度,测定语言存在年代或亲属语言分化年代的学说。经过对二百来个适用于各种语言的基本词..

扩充转移网络(语言)

扩充转移网络(语言):简称ATN。自然语言自动分析或生成的模式之一。在递归转移网络(RTN)的基础上加以扩充而成。RTN的缺陷有二:一是只能分析出输入句的句法结构,不能理解句中各成分的语义关系;二是不能排除诸如英语中的不..