在语言交际过程中测量语言符号出现的不定度大小的量度。语言的熵因语言符号的数目和出现概率的不同而不同。数目越多,出现概率越均等,熵越高。语言符号出现后,不定度被消除,熵等于零,该符号所负载的信息被获知。可见在语言交际过程中,语言接收者所得到的信息量恰恰等于被消除的熵。因此可以用语言符号的熵的大小来衡量该符号所负载的信息量的大小。计算语言符号熵的公式为:。其中n为某语言中语言符号的数目;Pi为语言符号的出现概率;K是常数;H1则为符号的熵。当K=1,对数的底为2时,熵的单位就是比特(bit)。实验测得英语二十六字母的熵H1为4.03比特;俄语三十二字母的熵H1为4.35比特;汉字的熵H1为9.65比特(按总数为两万汉字计算)。
语言的熵(语言)
语言的熵(语言):