首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 789 毫秒
1.
为了满足基于Web的XML数据信息的近似搜索、数据挖掘、信息分类以及数据交换的需求,分析了XML文档相似性度量方法一集合度量方法、线性度量方法和代价度量方法。提出基于权重代价的机器学习的XML文档相似性度量算法。实验表明该算法扩展了XML文档查询范围,提高了文档的查全率和查准率。  相似文献   

2.
基于HTML的传统搜索引擎限制了信息检索的查准率,XML(可扩展性标记语言)不仅支持自定义标记,还能表达语义,因而为提高网络搜索的准确性提供了可能。文章介绍了一种XML搜索引擎模型,研究了基于XML的搜索引擎实现的核心技术-索引技术,重点分析了一种基于DTD的XML索引技术及其优化算法。  相似文献   

3.
用于改善web搜索的结构化数据抽取技术   总被引:1,自引:0,他引:1  
为了提高web文本搜索质量,提出了基于语义结构化数据的查询扩展方法.通过分析属性的语义特征(文档频率特征和辨识能力特征)将属性分为概念属性、背景属性和无用属性3类,并且提出了衡量属性语义相关度的标准.设计了trie-bitmap和pair pointer table数据结构来实现发掘属性语义特征和检测属性语义相关度的有效算法.通过使用合适的属性和它们的语义关系,可以为查询关键字生成扩展词并将它们嵌入到具有插值参数的向量空间模型中.实验使用IMDB电影数据库和真实文本数据集来比较所提方法和原始向量空间模型的性能.实验结果证明所提出的查询扩展方法可以有效地提高文本搜索性能,同时属性语义特征和属性语义相关度都具有良好的分类能力.  相似文献   

4.
介绍了网络爬虫的工作原理,分析了传统的两种启发式算法——基于有限空间的A*搜索算法和局部搜索的爬山算法在网络爬虫中应用的可行性及局限性。并详细阐述了应用了模拟退火算法的网络爬虫网页搜索的过程,并结合一个搜索实验说明了基于模拟退火算法的网络爬虫搜索性能的优越性。  相似文献   

5.
为了提高聚类结果和允许在结果中进行选择,将本体语义与文档聚类相结合,在文档处理过程中提出了基于WordNet的新的文档聚类算法.首先通过tf-idf对文档进行了表示,为了将WordNet的概念出现在文档集合中,通过新的实体对每一个单词向量进行扩展.其次,运用特征提取算法对文档进行特征提取.最后提出了本体集合聚类算法用以提高文本的聚类效果.实验构建在Reuters20新闻组的数据基础上,应用互信息作为试验结果的比较.结果表明:与已经存在的一些算法如MNB,CLU-TO,co-clustering等相比,基于本体的聚类算法在文本聚类上有很明显的提高.  相似文献   

6.
k均值算法是一个常用的局部搜索算法,它的主要缺陷是容易陷入局部极小,并且该局部极小解与全局最优解往往有很大的偏差。本文提出一个基于K-均值的迭代局部搜索文档聚类算法。该算法以k均值算法所得到的解作为初始解,从该初始解开始作局部搜索。在搜索过程中接受部分劣解。当解无法改进时,算法对所得到的局部极小解做适当强度的扰动后进行下一次的迭代,以跳出局部极小,从而拓展了搜索的范围。实验结果表明该算法对文档数据集聚类的正确性迭99%以上。  相似文献   

7.
选用SAWSDL规范对Web服务描述文档进行了语义标注,并研究了Web服务匹配度的算法,开发了一个Web服务发现和匹配的框架体系,从执行语义、功能、IO和服务质量4个方面完成了服务匹配的算法,并实现了服务发现和匹配。实验表明,该语义标注和服务匹配算法快捷简单,能较好地满足用户的服务请求,从而为Web服务自动组合打下了基础。  相似文献   

8.
基于Lucene架构全文搜索引擎具有高效、简易等特点,但经分析研究基于lucene架构的搜索得分排序算法存在不足,提出了结合词项位置、文档浏览量、更新时间等因素的AHP二次检索公式.设计一种基于B/S的全文搜索系统,实现了对文本的索引、存储与搜索排序.实验证明,改进后的搜索系统为用户提供了个性化搜索服务,更有效地提高信息检索的准确度.  相似文献   

9.
基于语义Web的关键词相关度的搜索模型,是通过计算搜索关键词在各类教学资源网页主要内容文档块中出现的条件概率,来描述该网页与搜索关键词的相关度,同时利用教学资源网页与资源库课程的归属关系,修正计算的相关度结果。该智能搜索系统能够有效地解决用户搜索资源库时返回过多不相关页面的现状,同时根据媒体、课程与关键词的相关度进行排序,使用户能够从系统返回的近似媒体簇中迅速得到有用信息,从而提高检索准确率。  相似文献   

10.
传统的采用主题词和关键词对文档进行标引的方法,不能提供语义推理,因而越来越不适合目前的网络环境。本体具有良好的概念层次结构和对逻辑推理的支持,在信息检索领域有很大的应用价值。将本体应用于GIS语料库的信息检索中,构建了GIS本体库,提出了一个基于本体的GIS语料库信息检索算法的基本思路。  相似文献   

11.
提出了一种基于四元数的彩色图像匹配算法.该算法将彩色图像用四元数矩阵模型描述,抽取四元数矩阵的奇异值作为匹配特征.对奇异值进行去噪处理,增+了匹配算法的抗噪能力.采用分层搜索策略,减少运算量,提高了匹配速度.实验结果验证了方法的有效性.  相似文献   

12.
模式匹配算法已广泛应用于各个领域,针对如何减少匹配次数,提高算法效率,提出两种改进的QS快速匹配算法。第一种算法通过检测匹配窗口的末字符是否出现于模式串中,并依据情况滑动模式串。第二种算法通过构造BM及QS算法两个坏字符滑动表,经查表比较后确定每一次的滑动距离,使得模式串的滑动距离达到最大,从而大大减少了尝试的次数。实验结果表明,UCD与MSD算法的尝试匹配次数明显优于QS及其他算法。具有更高的效率。  相似文献   

13.
预计参数反演是利用概率积分法预计煤矿开采后地表移动与变形的关键。总结分析了预计参数反演的最小二乘法、模式法和遗传算法,利用Matlab软件中的最优化算法工具箱,在缓倾斜煤层非充分开采条件下,对3种反演方法的计算结果进行比较。结果表明,最小二乘法计算结果准确性较好,但初始点选择不当会导致计算失败;模式法和遗传算法都无需计算函数的梯度信息,遗传算法的初值是种群,其计算结果比模式法更加准确;在各参数中,开采影响传播角θ的误差较大,通过采用遗传算法工具箱和fminbnd函数联合走向断面和倾向断面的数据进行反演,可以提高预计参数的准确性。  相似文献   

14.
针对用户使用搜索引擎输入关键词查询信息时,由于输入法的原因或者不小心输入错误关键词等,致使搜索结果不符合用户预期的问题,提出基于搜索引擎日志的中文纠错方法。首先对用户网络日志展开研究,对数据进行预处理,将用户常见错误分为两大类:一类为拼音引起的错误,针对该类错误,参考并改进了基于拼音索引的中文模糊匹配算法进行纠错;另一类为多字、少字、异位及别字引起的错误,针对该类错误,设计了模糊匹配方法结合最小编辑距离方法进行纠错。经过实验验证,证明了该纠错方法的有效性,该方法能够一定程度上提升用户体验,满足实际工程需要。  相似文献   

15.
搜索策略是人工智能研究的主攻方向之一,采用不同的搜索策略在求解问题的过程中也会存在差异.通过对于八数码的搜索求解分析,采用盲目搜索中的广度优先搜索算法和启发式搜索中的A*算法进行实现,将广度优先搜索算法与A*算法进行比较,从而评价这两种搜索算法的优劣性.  相似文献   

16.
介绍了两种启发式搜索算法:禁忌搜索(Tabo search)和分散搜索(Scatter search),主要说明两个算法的基本要素、算法流程和目前的研究情况。  相似文献   

17.
模式匹配算法比较成熟,但是传统的模式匹配算法对提高Snort检测性能的效果不是十分有效。Snort采用的BM算法是一种单模式匹配算法,目前研究者对Snort模式匹配算法的研究和改进主要是采用多模式匹配算法来替换原有的BM算法。本文主要介绍了BM算法和WM算法,分析了这两种算法的基本原理并进行了一些相关的比较。  相似文献   

18.
欧龙 《柳州师专学报》2014,(1):117-120,116
在测量控制网数据自动化处理过程中,搜索闭合环是平差程序设计首先要解决的问题.探讨最小独立闭合环自动搜索的一种新算法——"余枝搜索法",并提出"正向搜索,反向提取"的方法来解决在搜索时不易记录路线的问题.基于MATLAB编写闭合环自动搜索的函数,经过实践验证,该算法切实可行.  相似文献   

19.
Motion estimation is an important part of the MPEG-4 encoder, due to its significant impact on the bit rate and the output quality of the encoder sequence. Unfortunately this feature takes a significant part of the encoding time especially when the straightforward full search(FS) algorithm is used. In this paper, a new algo-rithm named diamond block based gradient descent search (DBBGDS) algorithm, which is significantly faster than FS and gives similar quality of the output sequence, is proposed. At the same time, some other algo-rithms, such as three step search (TSS), improved three step search (ITSS), new three step search (NTSS),four step search (4SS) , cellular search (CS) , diamond search (DS) and block based gradient descent search (BBGDS) , are adopted and compared with DBBGDS. As the experimental results show, DBBGDS has its own advantages. Although DS has been adopted by the MPEG-4 VM, its output sequence quality is worse than that of the proposed algorithm while its complexity is similar to the proposed one. Compared with BBGDS, the proposed algorithm can achieve a better output quality.  相似文献   

20.
给出了一般有序表的随机查找算法和一类特殊有序表(单词)的分块查找算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号