首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
面向Deep Web的动态竞争情报智能采集策略   总被引:1,自引:0,他引:1  
企业间竞争互动的高强度与高速度,突显出竞争情报的时效性,动态竞争情报是企业在复杂多变的环境下取得成功的关键.Web资源可分为surface Web和Deep Web.Surface Web由静态网页构成,Deep Web信息资源由动态页面、商业数据库、实时数据和企业内部数据库组成,具有质量高、实时性强、易于深度分析的特点,是企业动态竞争情报的重要来源,但常规网络信息采集工具不能直接获得这些信息.针对动态竞争情报采集中存在的信息源选择、信息抽取、信息分析中存在的障碍,提出面向Deep Web的动态竞争情报智能采集策略,详细探讨了动态数据源的智能选择、查询结果的智能抽取、智能化的数据集成和智能分析策略.  相似文献   

2.
结合基于查询接口模式的Deep Web标注方法,提出一种基于网页视觉信息的Deep Web标注方法,用本体词组去替换原有标注信息,这种替换确保标注信息的一致性,可以很好地弥补原有方法的许多缺陷,并且有效提高原有方法的准确率和召回率.  相似文献   

3.
提出了Web页面信息的自动抽取思想,并使用WebBrowser和DOM技术实现了Web页面上网页元素查找、表单自动填写、表单自动提交、自动获得查询结果并自动抽取所需信息的技术,从而实现了Web页面信息的自动抽取。文中还给出了这一方法的实现细节和示例代码。  相似文献   

4.
基于本体和DOM相结合的Web信息抽取器   总被引:1,自引:0,他引:1  
针对基于Web页面信息本体的信息抽取不能准确划定抽取区域的缺点,设计基于本体和DOM相结合的Web信息抽取器。利用DOM树设计对样本页面信息项路径进行归纳学习的算法,该算法能准确划定信息抽取区域,降低页面噪声,实现对Web页面的预处理。实验表明,改进后的抽取方法提高了Web信息的抽准率。  相似文献   

5.
基于本体的Web信息抽取就是以所构建的本体为核心,利用本体中已定义的概念、分类层次、关系、函数、公理和实例及一些必需的外部资料对Web页面进行信息提取,得到结构化的知识并保存的过程,这一技术已经成为国内外研究的热点之一。文章介绍了信息抽取的历史,给出了基于本体的Web信息抽取一般体系结构模型及相关实现,系统地分析比较了各种基于本体的Web信息抽取方法,指出了目前这些方法实现的关键、得到的结果及其不足之处,展望了Web信息抽取发展的方向。  相似文献   

6.
提出一种结合全局分析和局部分析从单篇文档中抽取查询信息的算法。利用全局分析提取用户的查询兴趣,通过局部分析消除查询词的歧义性。实验结果表明,该方法能较全面反映用户查询的上下文信息,提高查询的相关度。  相似文献   

7.
Web表格信息抽取研究综述   总被引:4,自引:0,他引:4  
介绍Web表格的特点与结构、Web表格信息抽取及其过程,分析Web表格信息抽取的4个关键技术:Web表格定位、Web表格结构识别、Web表格内容整合和抽取结果表示,以及Web表格信息抽取的应用。最后指出目前国内外该项研究的不足之处及未来发展方向。  相似文献   

8.
【目的】论述Web信息抽取技术在新闻舆情分析中的应用,为舆情虚假信息甄别、舆论引导提供新方法,从而避免对大众的思维、想法等造成不良影响。【方法】研究提出了基于行块分布函数和基于统计与网页结构两种不同的新闻正文信息抽取方法,使得在对Web新闻数据采集和存储的基础上,正文信息抽取更加高效和准确。【结果】两种Web信息抽取技术可以广泛应用于海量新闻数据分析、舆情监测等应用场景。【结论】通过基于行块分布函数的抽取方法和基于统计信息与网页结构的抽取方法,能够分别对轻量网页和大流量网页抽取信息时表现更优。  相似文献   

9.
Deep Web中包含着大量高质量内容,当前的搜索引擎技术还不能对其进行搜索,研究Deep Web的大小、质量及分布情况将有助于找到对其进行有效搜索的方法和技术.以网络蜘蛛采集的2006年10月的数据为样本,利用统计、概率等定量方法和定性方法,首次对中文Deep Web的大小、质量及分布情况进行调查,得出概况如下:① Deep Web大小比Surface Web 的大240倍以上;②包含的文件总数量和总存储量分别为507亿、11 700TB;③可搜索数据库数量超过3万个;④内容质量较高;⑤内容主题分布不均匀.  相似文献   

10.
一种本体驱动的Web信息检索模型及实现   总被引:7,自引:0,他引:7  
本文提出一个本体驱动的Web信息检索模型以解决当前Web信息检索中存在的问题(如查准率低),并分析了该模型的关键组件用户提问分析组件、查询组件。在实验中,选择抽水蓄能领域资源简单地实现了该模型,向用户提供基于抽水蓄能本体的概念查询和语义扩充查询、语义缩小查询三种查询途径。该模型能够改善用户查准率和满意度,实现对该领域资源的智能化检索。  相似文献   

11.
为了较好地解决基础教育用户搜索教育资源难、不能直接链入基础教育网站等问题,主要研究解决基础教育资源及网站的自动发现和分类等核心技术。提出发现Deep Web的启发式规则及多重特征选择方法。通过该系统将实现基础教育相关资源及网站的自动发现与分类,并以多种分类方式供教育用户检索。  相似文献   

12.
[目的/意义]数据源描述(又称数据源摘要)是Deep Web集成检索领域存在的关键问题之一,数据源描述的质量直接影响着集成检索系统的检索效率和效果。本文提出一种基于领域特征和用户查询取样的数据源描述方法,以期为非合作环境下资源集成应用与研究提供参考和借鉴。[方法/过程]该方法为异构非合作型数据源的离线取样方法,通过分析数据源和用于查询的领域主题属性,依次构建领域特征词集、初始特征词集和高频特征词集,并最终获得以高频特征词查询取样的数据源描述信息。结合流行的CORI算法,深入分析基于推理网络的用户查询与数据源描述的相关度计算方法,并基于此方法设计基于Lemur工具集的集成检索系统,验证了上述方法的有效性。[结果/结论]所提方法在查全率和查准率方面均得到很好的表现。与其他方法相比,该方法在样本数据自动更新和运维管理方面具有明显成本优势和实用价值。  相似文献   

13.
Web整合技术研究   总被引:1,自引:0,他引:1  
根据信息整合操作的不同对象,认为Web整合技术可分为信息整合和功能整合两大类,信息整合涉及的主要技术包括资源描述、资源检索、信息抽取、结果呈现等;功能整合涉及的关键技术包括Portlet技术、适配器与消息队列技术、流技术等。在重点讨论每种技术的组成、特点的基础上,概述Web整合技术的发展趋势。  相似文献   

14.
引入数据挖掘和信息抽取技术,提出网络课程资源量化评价指标,构建网络课程资源量化评价系统模型,对资源实时跟踪监测,输出数据作为专家主观评价的补充,初步实验表明该量化评价方案具有较强的客观性和可行性。  相似文献   

15.
清华大学图书馆为了更好地利用新技术服务读者,推出馆藏书目信息自助短信推送服务。该服务通过在OPAC网页上进行信息抽取,自建网页采集读者手机号码,建立结构化数据库,利用"企信通"短信平台的数据库同步功能,实现将读者需要的书目信息发送到指定的手机终端的功能。  相似文献   

16.
17.
为了减少或根除新闻网站中大量非主题信息的干扰,提出一种新闻网页抽取方法,采用基于熵的计算和DOM树的知识,从新闻网页中抽取主题文档和相关链接。  相似文献   

18.
信息资源开放利用研究   总被引:1,自引:0,他引:1  
信息资源开放利用是解决图书馆在现代网络环境下逐渐被边缘化的重要途径之一,是实践图书馆泛在服务的重要基础和手段。文章在对信息资源开放利用的层次、类型、关键技术和在语义网中的地位进行分析和研究的基础上,指出信息资源开放利用将在以下几个方面改变图书馆的未来:信息资源建设的泛在化、信息服务平台的泛在化和信息服务对象的泛在化。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号