首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 296 毫秒
1.
基于本体和DOM相结合的Web信息抽取器   总被引:1,自引:0,他引:1  
针对基于Web页面信息本体的信息抽取不能准确划定抽取区域的缺点,设计基于本体和DOM相结合的Web信息抽取器。利用DOM树设计对样本页面信息项路径进行归纳学习的算法,该算法能准确划定信息抽取区域,降低页面噪声,实现对Web页面的预处理。实验表明,改进后的抽取方法提高了Web信息的抽准率。  相似文献   

2.
基于用户信息检索相关性反馈模型的研究   总被引:1,自引:0,他引:1  
程娟 《图书馆杂志》2008,27(4):52-55
提出通过获取用户建立和更新信息相关反馈模型的思想.通过观察用户在浏览Web页面时所采取的动作来获取的反馈信息,利用检索算法将用户信息量化,并利用这些信息建立与更新用户模型.一方面用户对检索结果的评价输入到用户模型上,另一方面,检索系统通过机器学习跟踪用户信息并优化用户模型.  相似文献   

3.
基于序列模式的个性化Web页面推荐模型*   总被引:1,自引:1,他引:0  
基于数据挖掘中的序列模式方法,提出一种个性化Web页面推荐模型。该模型首先利用Web使用数据预处理提取Web交易事务集,然后应用序列模式算法挖掘频繁(连续)序列,最后通过构建频繁(连续)序列树生成用户偏好视图以生成个性化Web页面推荐集。  相似文献   

4.
Web抽取技术在数字图书馆中的应用   总被引:2,自引:0,他引:2  
从Web页面中挖掘有价值的信息是数字图书馆技术应用的一个重要方式。目前Web页面信息描述大多教是用XML表示的,Web数据抽取技术是Web信息挖掘的关键,文章提出了一种面向HTML或XML描述的web页面的web数据抽取模型并阐述了实现过程。  相似文献   

5.
Web使用挖掘下的Web页面层次分类技术研究   总被引:1,自引:0,他引:1  
Web使用挖掘研究用户访问行为所体现的行为特征,Web站点结构分析对于Web使用挖掘具有重要意义.本文讨论如何结合Web站点内页面间的超链结构和关键页面分析技术实现对Web站点的链接结构分析,得到清晰的站点拓扑结构和页面层次分类,进而以此为Web页面进行层次编码,和Web用户行为向量的建立方法,为准确表述用户的访问行为提供数据支持;用一种新的方式进一步有效的挖掘用户的行为特征.最后,把它同一些重要的页面分类方法,从算法的计算效率和页面分类的准确率上进行了比较,试验数据的分析表明,该方法在效率和准确率上有一定提高.  相似文献   

6.
基于ID3分类算法的深度网络爬虫设计   总被引:1,自引:0,他引:1  
针对目前Web信息挖掘中存在的信息覆盖率较低的问题,对网络爬虫系统进行研究,提出一种针对深度网络的、基于ID3分类算法的Web页面收集方法。对Web页面的特征进行分析、处理和分类,提取包含深度网页的表单,通过自动提交这些表单来进行更深和更广的页面获取,实验表明该方法可以有效减少现有搜索引擎的盲区,改善搜索结果。  相似文献   

7.
主题抽取是自然语言处理研究的重要问题之一.目前流行的方法是"词典 匹配",但该方法用于处理动态变化的网页信息时,词典难于及时更新等弊病就表现出来.本文作者在研究中文新闻网页内容、结构特点的基础上,提出了一种利用Web页面结构无需词典的主题抽取算法.我们使用该方法对新华网财经新闻语料1000篇进行主题抽取实验,并与手工抽取的主题进行比较,结果表明,重合率高达93%以上.  相似文献   

8.
宋丹  林鸿飞  杨志豪 《情报学报》2007,26(4):555-560
话题跟踪属于话题识别与跟踪(TDT)的一项子任务,是一种基于事件的信息组织技术.话题跟踪任务就是根据某一话题的训练报道,在后续报道中找出讨论该话题的所有报道.虽然传统的基于内容计算的话题跟踪方法也可以应用于Web话题跟踪,但它并没有利用Web的页面特征.文章针对Web页面的特点,提出了一种利用链接分析和内容计算相结合来进行Web话题跟踪的方法.实验证明这种方法是有效的.  相似文献   

9.
树编辑距离在Web信息抽取中的应用与实现*   总被引:1,自引:0,他引:1  
引入编辑距离的概念,探讨如何构造标签树,并利用标签树匹配算法来量化网页结构相似度。该算法被应用于Web信息抽取,通过URL相似度算法进行样本网页的粗聚类,进一步采用树的相似度匹配算法实现细聚类,从而获取模板网页。在模板网页的基础上,再次引入结构相似度算法并结合基于模板网页的抽取规则实现网页的自动化抽取。实验证明,该算法的引入能够有效提高包装器的抽取精度和半自动化能力。  相似文献   

10.
"链接工厂"欺骗(Link farm spam)和重复链接严重地损坏了像HITS这样基于链接排序的算法性能.为了检测与抑制Web"链接工厂"欺骗和重复链接,本文充分利用页面之间的复制信息,尤其是利用完全超链接信息识别可疑链接目标.提出一种由页面文档和完全链接构成的二部图结构,通过对二部图进行构建与分析,搜寻共享锚文本和链接目标的Web页面,在此过程中标识链接工厂和重复链接,并通过带惩罚因子的权重邻接矩阵减小可疑链接的影响.实时实验和用户仿真测试结果显示,本文算法能显著改善传统HITS类方法的信息搜索质量.  相似文献   

11.
蔡盈芳 《图书情报工作》2012,56(23):108-112,134
在现有的实例知识模型表示与检索的基础上,针对现有实例知识检索的不足,就具有多层属性关系的实例知识的检索技术进行研究。将多层属性实例知识表示为一个树状结构的多层属性模型,在检索算法中综合运用数值类属性相似度算法、模糊值属性相似度算法、词语类属性值相似度计算算法等,对算法步骤顺序进行调整优化,使检索效率得到提高。  相似文献   

12.
基于语义网技术构造知识服务系统   总被引:7,自引:0,他引:7  
曾铮 《情报学报》2005,24(3):336-340
语义网的兴起,为知识服务系统的发展提供了巨大的动力。而知识管理的思想运用于语义网建设,又将为用户提供基于知识的Web服务。因此,语义网技术作为下一代Web的核心技术,知识服务作为信息服务的发展趋势,两者的相互结合将是可行而必要的,肯定会为知识服务的研究与发展开辟新的道路。本文阐述了语义网技术在知识服务中的角色,探讨了语义网与知识服务系统结合的应用前景,并论述了基于语义网技术构造知识服务系统的主要实现模式  相似文献   

13.
Web2.0信息传播思想在知识管理中的应用   总被引:10,自引:0,他引:10  
指出Web2.0在信息传播思想方面有三大革新:将六度关系理论应用于信息传播、以微内容为信息传播的基础、在大众信息传播中着眼于用户个体。基于知识管理模型分析知识管理中隐性知识转化显性知识的障碍,认为在知识管理中运用Web2.0的思想和方法是消除障碍的一种方案。提出基于Web2.0的知识管理框架并分析其KMS应该具备的功能。  相似文献   

14.
基于领域本体的信息抽取模式生成与系统实现   总被引:1,自引:0,他引:1  
马静  吴一占  刘思峰 《情报学报》2008,27(2):193-198
面对情报工作者日益增长的从Internet中及时获取特定信息或知识的需求,本文展开了web信息抽取技术在情报领域的应用研究.目前,信息抽取模式的自动获取成为一个技术难点,本文尝试引入基于领域本体的半自动抽取模式获取算法,该方法在领域本体的概念层次关系、属性特征和实例的结构本体指导下,选择其主要特征属性为匹配目标,自动学习并获取抽取模式.利用该算法到直升机产品信息抽取,运行结果验证:该算法简单有效,获得了较高的抽取效率和较准确的抽取结果.  相似文献   

15.
[目的/意义] 为解决现有网页文本缺乏起源标注的问题,提出一种借助PROV本体发现相似网页文本起源关系的方法。[方法/过程] 通过聚类算法、自动语义标注和关联数据构建等技术的综合应用,结合PROV-POL溯源模型,检测网页文本实体的演变过程,实现文本级和属性级两级溯源方案。[结果/结论] 实验验证了借助语义网技术和数据溯源模型实现网页文本数据溯源的可行性,但实验过程中聚类算法的召回率有待提高。  相似文献   

16.
提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,在一定程度上考虑了网页的语义因素。该算法具有更高的准确度,同时具有很低的时间复杂度。实验结果表明,在对海量网页进行净化处理时,算法具有良好的效果。  相似文献   

17.
在分析传统网络爬行器爬行算法的基础上,通过将隧道算法和网页页面分块技术相结合,指导专题爬行器进行爬行。通过4所高校门户网站的教育资源搜索实验表明,新的算法可以有效提高搜索效率。  相似文献   

18.
严海兵  崔志明 《情报学报》2007,26(3):361-365
基于关键字匹配的搜索引擎排序网页时仅仅考虑评价网页的重要性,而忽视分类;基于分类目录的搜索引擎很难动态分析Web信息。本文在分析它们不足的前提下,提出利用模糊聚类的方法对搜索引擎的检索结果进行动态分类,依据超链分析算法PageRank和Web文档隶属度相结合进行分类排序,并给出具有调节值的结合公式。实验证明,该算法能够更有效地满足用户的需要,提高检索效率。  相似文献   

19.
省级政府网站兼容一致性组合评价方法研究   总被引:2,自引:0,他引:2  
从评价方法内在机理角度,依据评价方法兼容一致性的属性,分析多方法评价值组合。先应用三种单一评价方法对政府网站进行实证分析,增加Spearman检验,依据组合方程评选出最优组合,使得评价结果更具有科学性和实用性。通过深入调查研究及分析,发现我国省级城市政府网站建设中存在的问题并提出发展策略。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号