共查询到10条相似文献,搜索用时 15 毫秒
1.
基于超链分析的Web资源自动发现技术 总被引:2,自引:0,他引:2
传统的Web资源自动发现是基于Web页面内容实现的。本文试图从超链分析的角度探讨Web资源的自动发现技术。超链分析技术起源于社会网络分析和科学引文分析理论,它只分析页面之间的关系,而不关心页面本身的属性。通过试验证明,单纯使用超链,根据用户提供的网页实例,我们能够自动发现与学科资源相关的网站。该技术可以有效的减少网络爬行器的无谓爬行,提高采集效率,减轻网络负担,在学科资源建设中起了重要的作用。 相似文献
2.
提出了Web页面信息的自动抽取思想,并使用WebBrowser和DOM技术实现了Web页面上网页元素查找、表单自动填写、表单自动提交、自动获得查询结果并自动抽取所需信息的技术,从而实现了Web页面信息的自动抽取。文中还给出了这一方法的实现细节和示例代码。 相似文献
3.
在数字图书馆Web 学术信息资源的优化采集中,有效结合网页空间特征、内容特征和标签信息对网页进
行分块,研究对分块结果进行识别和合并,然后输出网页的主题文本和相关链接块集合,最后通过实验分析该方法能
够进一步去除页面中噪音、准确地分析页面的主题相关性和提高Web 主题信息采集的质量。 相似文献
4.
5.
Web资源的采集是目前业界讨论的焦点问题之一 ,各国都在积极探索Web资源采集的策略。本文围绕Web空间的划定、采集方式、采集频率等三个问题 ,对国际Web资源采集的各种策略进行了评析 ,并对制定我国Web资源采集策略提出了几点建议 相似文献
6.
7.
学科门户智能搜索引擎的设计与构建——农业史门户搜索引擎的实验 总被引:1,自引:0,他引:1
面对搜索引擎基于关键词全文检索导致检索准确度低和学科信息门户加工描述只到站点级别的问题,作者提出了将搜索引擎和学科信息门户结合构建智能学科门户搜索引擎的建议--在经过学科专家筛选的、学科信息门户目录中的高质量网站中自动收集网页,形成网页索引,利用自动标引与自动分类方法对收集到的网页进行标引和分类,最后通过分类浏览目录与主题词检索的方式,向用户提供学术资源网页的查找.文章重点介绍了智能学科门户搜索引擎的网页采集、网页自动标引与自动分类及用户接口的设计与实现,并对该搜索引擎存在的问题进行了分析和讨论. 相似文献
8.
Web资源采集策略评析与思考 总被引:1,自引:0,他引:1
Web资源的采集是目前业界讨论的焦点问题之一,各国都在积极探索Web资源采集的策略。本文围绕Web空间的划定、采集方式、采集频率等三个问题,对国际Web资源采集的各种策略进行了评析,并对制定我国Web资源采集策略提出了几点建议。 相似文献
9.
对自动编目的定义、优点、内容及中美文献信息资源自动编目的实践进行了总结,为更好地开展我国文献信息资源自动编目工作提出建议。 相似文献
10.
为了较好地解决基础教育用户搜索教育资源难、不能直接链入基础教育网站等问题,主要研究解决基础教育资源及网站的自动发现和分类等核心技术。提出发现Deep Web的启发式规则及多重特征选择方法。通过该系统将实现基础教育相关资源及网站的自动发现与分类,并以多种分类方式供教育用户检索。 相似文献