情报应用数学 : 把数学应用到情报科学各领域研究中而形成的一门学科分支。主要研究情报数学有关概念的定量描述,情报过程中各现象的定量表示,以及它们之间的关系。采用的研究步骤一般是:数学问题的形成,选择研究方法,进行推导,对所得结果进行分析和机理解释。由于情报依赖人的认识、判断,致使情报数学研究问题较为复杂。情报数学研究历史较短,但它关系到一些科学部门的发展,意义是深远的。
情报测度 情报是客观存在。最初,按载体度量情报。例如 ,一份报告 、一条文摘等。这种度量很粗糙。根据情报概念的内涵和外延,情报与信息的关系是信息叾情报,即情报是信息的一个子集。于是可以用代表子集元素的概念或概念词计算情报量。为了反映情报的特征,定义情报为域U上的一个模糊子集峎,以信息对模糊集合峎的隶属度计算情报量。
情报空间 一份情报含有若干概念,概念与主题词相关联。如果用ri表示情报r与主题词表中的第I个主题词的关联程度,则称r=(r1,r2,r3,...,rm)为情报r的情报向量,其中т 是主题词表中主题词的个数。在情报向量集合中,按某种方法定义两向量间的距离,可构成情报向量空间,简称情报空间。在情报空间中,n 个情报向量组成的情报矩阵定义为
其中rij表示第i份情报与第j个主题的关联程度。引入这些概念之后,可以利用情报向量、情报矩阵进行各种运算,研究情报间的关系。
情报集合理论 情报集合是由若干条情报所组成的集合。集合中的元素是一条条情报。每条情报也是一个集合,其中的元素是一个个概念词。为揭示和查询情报而编制的主题词索引也组成一个集合 - -主题词集合。主题词集合与情报集合存在着对应关系,即存在一个映射F,使主题词集合完成到情报集合的映射:
F:主题词集合→情报集合
常用大写字母A,B,...,X,Y,...表示集合,而用小写字母а,b,...,x,y,...表示集合的元素,对于集合A来说,某一元素x或者是A的元素,记作xA,或者不是A的元素,记作x媂A。只有这两种可能。
利用L.查德建立的模糊集合理论把情报定义为论域U上的一个模糊集合峎。用隶属函数μ描述元素x属于情报集A的程度。μ峎称为x关于峎的隶属度。μ峎(x)=1 表示元素x完全属于峎,μ峎 (x)=0表示元素x完全不属于峎。μ峎(x)越接近于1,x属于峎的程度就越大。在情报检索中,用μ峎(x)表示提问式x与情报集A的主题词的匹配程度。μ峎 (x)=1,完全匹配;μ峎 (x)=0完全不匹配;0<μ峎 (x)<1,部分匹配。
情报集合理论包括情报集的运算,情报映射及映射函数,情报的模糊测度理论等。
情报数理统计分析 情报过程中的事件多为随机事件,例如情报用户需求,情报分布等。对这类问题,常采用数理统计方法进行研究。情报数理统计分析包括情报分布统计分析,情报用户需求统计分析,情报统计分析与预测,情报检索概率模型等。
情报系统分析 情报系统主要研究情报流的变化规律。情报系统分析的基本想法是:建立情报系统的一个数学模型,然后把一种数学分析运用到这个模型,再把分析的结果应用到情报系统中。
进行情报系统分析,采用常用数学技巧时有3 个主要困难,即维数,"硬"和"软"变数的存在,以及目标之间的冲突。维数即系统用多少状态变数去描述;在情报系统中,诸如存储于计算机中的数据库是硬变数,人们的认识、需求是软变数;情报系统一般不是一个单独的实施判据。幸而由于计算机时代的促进,使情报系统研究得到了发展。
情报编码理论 用抽象符号表示情报称为情报编码。情报编码理论主要研究怎样用最少的符号表示有限情报集合中的元素。相应的问题是解决情报保密问题。
情报检索数学模型 有集合论模型,代数模型,概率模型等。这些模型在使用计算机后得到令人满意的处理。
①G.索尔顿集合论模型 设提问语句集合为R ,情报集合为D ,主题词集合为C ;从D 到C 的映射为X :D →C ;从R 到2C 的映射如下:R →2C ;从R 到2D 的映射为T :R →2D 。于是检索过程T (r )为
T (r )={d |x(d )F (r )} d D ,r R
提问语言r 检索得到一个情报集合, 该集合的元素满足提问语言。
②A.布克斯坦和W.库珀集合论模型 把情报检索系统用一个4元组描述:
S =(I ,R ,V ,T )
其中I 是情报集合,R 是提问集合,V 是检索状态值集合,T 是把R ×I 映射到V 上去的函数。检索过程描述为:对每个提问r R ,T 定义一个函数
T r 在I 上产生一个弱序结构。根据这个结构,用户可以找到自己所需要的情报。
③情报检索代数模型设情报矩阵为A,对每个提问用提问向量Q =(q1 , q2 ,..., qn)表示。计算R =AQ =(r1,r2,...,r n),则r i超过某一阈值的情报为命中情报输出。
另一种情报检索代数模型是计算R =D C T Q ,设R 的超过阈值的P 个分量为i1 ,i2 ,...,iP ,则第i1 ,i2 , ..., iP 条情报为检索命中情报。这里D =(d ij )为情报相关矩阵,d ij为第i 条情报与第j 条情报所含主题词重复面的大小;T =(tji ) 表示标引词相关矩阵;C =(cji )表示情报矩阵,Ci =(Ci1 ,C i2,...,C in)为第i 条情报的情报向量。
不少情报教育单位相继开设了情报数学课程初,确立了它的应有的学科位置。但是,情报与人的认识、判断有关,与政府的政策、法令有关,使情报数学研究变得有趣而复杂,现在还不能象传统数学那样精细而严密地研究它。随着时间的推移,问题将会逐步得到改善。