首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
基于超链分析的Web资源自动发现技术   总被引:2,自引:0,他引:2  
传统的Web资源自动发现是基于Web页面内容实现的。本文试图从超链分析的角度探讨Web资源的自动发现技术。超链分析技术起源于社会网络分析和科学引文分析理论,它只分析页面之间的关系,而不关心页面本身的属性。通过试验证明,单纯使用超链,根据用户提供的网页实例,我们能够自动发现与学科资源相关的网站。该技术可以有效的减少网络爬行器的无谓爬行,提高采集效率,减轻网络负担,在学科资源建设中起了重要的作用。  相似文献   

2.
提出了Web页面信息的自动抽取思想,并使用WebBrowser和DOM技术实现了Web页面上网页元素查找、表单自动填写、表单自动提交、自动获得查询结果并自动抽取所需信息的技术,从而实现了Web页面信息的自动抽取。文中还给出了这一方法的实现细节和示例代码。  相似文献   

3.
在数字图书馆Web 学术信息资源的优化采集中,有效结合网页空间特征、内容特征和标签信息对网页进 行分块,研究对分块结果进行识别和合并,然后输出网页的主题文本和相关链接块集合,最后通过实验分析该方法能 够进一步去除页面中噪音、准确地分析页面的主题相关性和提高Web 主题信息采集的质量。  相似文献   

4.
刘念  齐巍  李名选 《北京档案》2015,(10):28-30
传统的档案鉴定、整编方式,不仅浪费大量的物力、人力,而且给档案工作者带来了繁重的负担.对此,本文提出档案资源自动收集、鉴定和整编方法,在设定档案自动整编规则后,按照档案实体整编的实际业务流程,对采集的电子档案信息进行自动鉴定、整编,并辅之手动整编.  相似文献   

5.
Web资源的采集是目前业界讨论的焦点问题之一 ,各国都在积极探索Web资源采集的策略。本文围绕Web空间的划定、采集方式、采集频率等三个问题 ,对国际Web资源采集的各种策略进行了评析 ,并对制定我国Web资源采集策略提出了几点建议  相似文献   

6.
在分析当前基于Web服务技术的数字资源长期保存迁移系统存在缺点的基础上,结合语义Web服务技术构建数字资源自动评估系统和迁移系统。迁移系统具体包括服务代理、迁移请求和服务提供等组件。  相似文献   

7.
面对搜索引擎基于关键词全文检索导致检索准确度低和学科信息门户加工描述只到站点级别的问题,作者提出了将搜索引擎和学科信息门户结合构建智能学科门户搜索引擎的建议--在经过学科专家筛选的、学科信息门户目录中的高质量网站中自动收集网页,形成网页索引,利用自动标引与自动分类方法对收集到的网页进行标引和分类,最后通过分类浏览目录与主题词检索的方式,向用户提供学术资源网页的查找.文章重点介绍了智能学科门户搜索引擎的网页采集、网页自动标引与自动分类及用户接口的设计与实现,并对该搜索引擎存在的问题进行了分析和讨论.  相似文献   

8.
为了较好地解决基础教育用户搜索教育资源难、不能直接链入基础教育网站等问题,主要研究解决基础教育资源及网站的自动发现和分类等核心技术。提出发现Deep Web的启发式规则及多重特征选择方法。通过该系统将实现基础教育相关资源及网站的自动发现与分类,并以多种分类方式供教育用户检索。  相似文献   

9.
杜芸 《图书馆学刊》2007,29(1):118-119
对自动编目的定义、优点、内容及中美文献信息资源自动编目的实践进行了总结,为更好地开展我国文献信息资源自动编目工作提出建议。  相似文献   

10.
Web资源采集策略评析与思考   总被引:1,自引:0,他引:1  
Web资源的采集是目前业界讨论的焦点问题之一,各国都在积极探索Web资源采集的策略。本文围绕Web空间的划定、采集方式、采集频率等三个问题,对国际Web资源采集的各种策略进行了评析,并对制定我国Web资源采集策略提出了几点建议。  相似文献   

11.
面向Deep Web的动态竞争情报智能采集策略   总被引:1,自引:0,他引:1  
企业间竞争互动的高强度与高速度,突显出竞争情报的时效性,动态竞争情报是企业在复杂多变的环境下取得成功的关键.Web资源可分为surface Web和Deep Web.Surface Web由静态网页构成,Deep Web信息资源由动态页面、商业数据库、实时数据和企业内部数据库组成,具有质量高、实时性强、易于深度分析的特点,是企业动态竞争情报的重要来源,但常规网络信息采集工具不能直接获得这些信息.针对动态竞争情报采集中存在的信息源选择、信息抽取、信息分析中存在的障碍,提出面向Deep Web的动态竞争情报智能采集策略,详细探讨了动态数据源的智能选择、查询结果的智能抽取、智能化的数据集成和智能分析策略.  相似文献   

12.
网络信息资源的急剧增加使网络专题信息的获取管理愈加困难。本文将Web2.0与网络专题管理系统WTMS结合起来,研究如何利用Web2.0的理念和技术来实现专题信息的采集、管理、订阅、交流和共享等问题,力图为WTMS的发展提供新的思路。  相似文献   

13.
作为全球最大的信息资源库,Web资源日益成为我们文化遗产的重要组成部分.然而,Web资源的寿命是极其短暂的,在新的网页不断产生的同时,旧的网页也在不断地消失.因此,如何采集与保存Web文化遗产是我们共同面临的严峻挑战.  相似文献   

14.
学生学历证明和成绩的翻译是一项繁琐的工作,基于Web的学生学历证明、成绩自动翻译系统,能够快速、准确地为学生提供成绩和证书的英文翻译,大大缩减了办理时间,提高了工作效率。本文对基于Web的学生学历证明、成绩自动翻译系统的设计原则、开发模式、系统功能模块、数据库设计和主要的关键技术进行了介绍和分析。  相似文献   

15.
Web农业实用技术自动问答系统设计实现   总被引:2,自引:0,他引:2  
在农业实用技术数据库的基础上,通过对自然语言提问理解、修正向量空间模型检索及系统效率优化,在Web环境下开发基于自动问答并辅以专家解答信息服务模式的农业实用技术自动问答系统.系统提问方式简单、回答准确、答案专业、满意度较高,较好地满足农户生产技术需求.  相似文献   

16.
网络科技信息具有开源、发布及时等特点,目前已成为战略情报监测的重要资源。但这类资源又具有非结构化、无语义描述等特点,如何将Web信息从非结构的自由信息转为可分析的结构化、语义化信息成为一个亟需解决的问题。针对这一问题,笔者提出了网络科技信息结构化监测的思路方法。这一方法通过知识抽取技术,从网络信息资源中抽取出嵌在其中的知识对象以及对象间的相互关系,将自由文本转换为结构化的可计算的知识单元,在此基础上构建各类监测模型,进而实现对研究领域的态势监测。基于这一思路,笔者开发了“网络科技信息自动监测系统”,并基于监测数据所形成的语义资源,进行了监测态势分析实验。图 6。表1。参考文献16。  相似文献   

17.
自动主题搜索的应用研究 陈定权(中国科学院文献情报中心2000级博士生) 专业:图书馆学 研究方向:信息检索与数据库技术 导师:朱献有研究馆员(中国科学院文献情报中心) 本论文的研究目的是希望通过对主题搜索的应用进行研究,探索Web主题资源的建设方法。Web主题资源自动搜索技术可以充分利用Web上大量的免费资源,自动搜集Web主题资源,摆脱对专家的依赖,降低建设成本,提高Web主题资源建设的速度、效率和质量。本论文的研究工作主要包含以下四个方面: (1)研究了主题搜索的基本理论和Web主题资源的建设  相似文献   

18.
<正>为实现企业档案信息化建设的目标,应建立一个档案信息资源丰富,现代化水平较高的档案管理体系,实现信息的全面、自动、实时采集,根据完整性、准确性、适应性等标准及时对系统自动采集到的信息进行鉴别和筛选,将文件保存在相应的档案信息数据库中,电子档案正式形成。  相似文献   

19.
论文阐述了利用《中图法》自动组织网络信息资源的必要性,以及如何利用《中图法》自动组织网络信息资源。  相似文献   

20.
网络信息资源构建与维护方法研究   总被引:2,自引:0,他引:2  
基于Web的信息资源组织与构建是当今IT产业面临的重大课题。设计优化的组织模型及自动构建和维护网络信息资源是一项基本建设。本文阐述了网络信息的组织原理与构建方法,认为利用网络机器人是组织与维护网络信息资源的有效模式,并具体讨论了Crawler选择和更新网络信息资源的方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号