【摘要】对信息检索模型研究的主要内容和构建策略进行了描述,给出了几种常用的信息检索模型相关性算法,分析了它们的优缺点,并就存在的问题进行了探讨,总结了信息检索模型的研究现状和发展趋势。
【关键词】信息检索模型;相关性;查询;搜索引擎 电子类核心期刊
当前,随着互联网的普及和网上信息的爆炸式增长,信息检索系统及其核心技术搜索引擎的性能和效率问题已成为人们研究和关注的焦点。影响一个搜索引擎系统的性能有很多因素,但最主要的是信息检索模型,其研究内容包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。本文从研究文档与用户查询“相关性”匹配的角度出发,对信息检索模型研究的主要内容和构建策略进行了详细的描述,并给出了几种常用的信息检索模型相关性算法,分析了它们的优缺点及存在的问题,总结了当前信息检索模型的研究现状和发展趋势,其目的在于提高信息检索、查询的性能和效率。
一、构建信息检索模型的策略
当前,构建信息检索模型的主要策略有以下两个:
(一)通用的信息检索模型
构建一个通用的信息检索模型,研究优化的匹配算法,提高查询速度、查全率和查准率,最大程度地满足一般用户的查询需求。
(二)用户兴趣模型
根据特定用户查询兴趣要求构建用户兴趣模型或共同兴趣模型,能够尽可能地满足特殊用户查询的需求。它可以构建一个适合行业或专业应用语义要求信息获取模型。如google就能推断用户的使用意图,提供动态的、即时的用户“个性化定制”信息,帮助用户快速、准确地定位到所需要的信息。
二、常用的信息检索相关性算法
(一)布尔模型
布尔模型是基于特征项的严格匹配模型,文本查询的匹配规则遵循布尔运算的法则。用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索引擎则根据事先建立的倒排文件结构,确定查询结果。标准的布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关。查询结果一般不进行相关性排序。
在布尔模型中,一个文档通过一个关键词条的集合来表示,这些词条都来自一个词典。在查询与文档匹配的过程中,主要看该文档中的词条是否满足查询条件。布尔模型用文档的检索状态值作为一种评价查询和文档相似性的一种方法。这里,首先定义关键词集合S,关键词为t1,t2,…,tn。
这些关键词可以和逻辑操作符AND,OR和NOT形成不同的条件查询。如果得到条件表达式的值为True,该文档相对于此条查询的检索状态值为1;如果若干文档相对于此条查询的检索状态值都为1,则可以认为,这些文档与此用户的查询是相关的。
布尔模型的主要优点有两点:一是实现起来比较容易,速度快,计算的代价相对较少。二是查询语言表达简单,用户可以使用任意复杂的查询表达式,易于表示同义关系(如:聋教育OR特殊教育)和词组(如:计算机AND基础AND课程改革)。它的缺点是,由于所有检索到的与用户查询条件相关的文档具有相同的检索状态值,则不能对查询结果按照相关性进行排序;另外关键词也没有考虑权重的影响,缺乏定量分析和灵活性以及不能表述模糊匹配。而为了克服布尔型信息获取模型查询结果的无序性,在查询结果处理中引进了模糊逻辑运算,将所检索的数据库文档信息与用户的查询要求进行模糊逻辑比较,按照相关的优先次序排列查询结果。
(二)向量空间模型
向量空间模型把信息库中的文本以及用户的查询都表示成向量空间中的点(向量),用它们之间夹角的余弦作为相似性度量。向量空间模型是现在的文本检索系统以及网络搜索引擎的基础。
在向量空间模型中,信息检索系统如果涉及n个关键词Term,则建立n维的向量空间,每一维都代表不同的关键词Term。首先要建立文本和用户查询的向量,一个n元组的文档向量Di的每个坐标都通过对应关键字的权重来表示,查询向量中的权重表示对应关键词对于用户来说的重要程度。然后进行查询向量和文本向量的相似性计算。并可以在匹配结果的基础上进行相关反馈,优化用户的查询。在知道了文档向量与查询向量后,查询与文档的相似性就可以通过公式(2)求解。
(2)
在公式(2)中,文档Di可以用n维的向量表示,其中每个分量表示某一Term在整篇文档中的权重。Q = (q1,q2,…,qn)中ql表示Terml在Q中的权重。
向量空间模型的优点在于:1.检索词加权改进了检索效果。2.部分匹配策略允许检索出与查询条件相近的文献。3.可以根据相似度对文献进行排序。
它的缺点是,在这种模型中的基本假设,关键词Term向量之间被假设为相互无关的,而实际是有时它们之间大多是依赖关系,如在自然语言中,词或短语之间存在着十分密切的联系。所以这一假设对计算结果的可靠性造成一定的影响。另外,在查询中,也不能像布尔模型一样使用关键词之间的逻辑运算关系。
(三)概率模型
概率模型主要是基于概率排序原则:即如果文档按照与查询的概率相关性的大小排序,那么排在最前面的是最有可能被获取的文档。它主要针对信息检索中相关性判断的不确定性以及查询信息表示的模糊性。
在前面的向量模型中,我们假定关键词Term向量是正交的,不考虑Term向量之间的依赖关系。而在概率模型中,可以通过概率计算表达关键词Term之间,以及关键词Term和文档之间的依赖关系,预测文档与用户查询的相关概率,并可以对获取的结果按照相关度概率的大小进行排序(简称PRP)。
概率模型有两个主要的参数:一个文档和用户查询的相关概率Pr(rel)及不相关概率Pr(nonrel),并且Pr(rel)=1-Pr(nonrel)。即
Pr[term t in document|document is relevant]=Rt/R (3)
Pr[term t in document | document is irrelevant]= (ft-Rt)/(N- Rt) (4)
其中:R表示与用户查询相关的文档数;Rt表示在相关R中出现关键词Term t的文档数;N表示文档数;ft表示在N个文档中出现关键词Term t的文档数。由式(3)和(4),可以
得到:
Pr[term t is not in document| document is relevant]= (R- Rt)/R (5)
Pr[term t is not in document | document is irrelevant]=(N-ft-(R- Rt))/(N- Rt) (6)
根据上面所给的“条件概率”,可以计算出关键词Term t的权重:
在公式(7)中,如果wt>0,表明词Term t出现的文档与用户查询相关;如果wt<0,出现Term t的文档与用户查询无关。
概率模型的主要缺点是对文本集的依赖性过强,而且条件概率值很难估计。概率模型的一个特例是贝叶斯网络,该网络以概率的方式定义了关键词的权重随着与其相关的关键词的权重的改变而改变方式。由于该模型适用于超文本信息系统,因而该模型的应用越来越广泛。但是该模型的缺点是,计算复杂度很大,因而该模型不适合很大的网络。
三、结束语
目前,大多数信息检索模型都依赖于布尔模型,而在实验环境中用的最多并居于主导地位的是传统的向量空间模型。信息检索模型还有许多其他变种,如基于布尔模型的变种有:模糊集合模型、扩展布尔模型;基于矢量空间模型的变种有:通用矢量空间模型、潜在语义索引模型、神经网络模型;基于概率模型的变种有:推理网模型、可信网模型。而总体上来看,这些模型及其变种都是“语法”层次的信息检索模型,没有具有“语义”特征的规范的词汇集。今后,进一步研究基于“概念语义空间”的文本信息组织与检索,建立基于本体的信息检索模型,则能有效地代表文档和用户信息需求,使信息检索更加精确、有效。未来的搜索引擎应该信息量更大、搜索速度更快、搜索精度更高和最大限度地满足用户个性化的要求。
参考文献:
[1]Ricardo Baeza-Yates,Berthier Riberiro-neto等著.王知津等译.现代信息检索[M].北京:机械工业出版社,2005
[2]吴丽华,罗云锋,张宏斌.信息检索模型及相关性算法的研究[J].情报杂志,2006(12)25-27
转载请注明来自:http://www.lunwencheng.com/lunwen/dzi/7401.html