共查询到20条相似文献,搜索用时 421 毫秒
1.
基于本体和DOM相结合的Web信息抽取器 总被引:1,自引:0,他引:1
针对基于Web页面信息本体的信息抽取不能准确划定抽取区域的缺点,设计基于本体和DOM相结合的Web信息抽取器。利用DOM树设计对样本页面信息项路径进行归纳学习的算法,该算法能准确划定信息抽取区域,降低页面噪声,实现对Web页面的预处理。实验表明,改进后的抽取方法提高了Web信息的抽准率。 相似文献
2.
提出了Web页面信息的自动抽取思想,并使用WebBrowser和DOM技术实现了Web页面上网页元素查找、表单自动填写、表单自动提交、自动获得查询结果并自动抽取所需信息的技术,从而实现了Web页面信息的自动抽取。文中还给出了这一方法的实现细节和示例代码。 相似文献
3.
Web抽取技术在数字图书馆中的应用 总被引:2,自引:0,他引:2
从Web页面中挖掘有价值的信息是数字图书馆技术应用的一个重要方式。目前Web页面信息描述大多教是用XML表示的,Web数据抽取技术是Web信息挖掘的关键,文章提出了一种面向HTML或XML描述的web页面的web数据抽取模型并阐述了实现过程。 相似文献
4.
网络舆情搜索引擎与通常的网络信息搜索不同,其最终结果要深入到站点和页面内部采集与抽取有效数据,给情报界提出了许多新的研究内容和方法.在对网页信息抽取的模板和页面分析两种方式、基于自然语言处理、包装器归纳和Ontology抽取方法的分析基础上,使用基于包装器归纳方式并在规则生成模块中采用专家模式,设计一种基于样本学习的新闻抽取方法,通过人工分析网页源代码制定和修改抽取规则,然后根据抽取规则进行信息自动抽取,以提高舆情搜索引擎的精度和质量. 相似文献
5.
提出一种从搜索引擎返回结果页面上自动抽取结果记录及后续页面链接信息并生成Wrapper的方法:对于一个有效的结果页面,通过比较其HTML标签树上节点的相似度从而识别出潜在记录块,利用启发式规则从潜在记录块中将结果记录块和后续页面链接分别识别出来,然后利用其在标签树上的位置信息分别构造Wrapper。实验结论及与已有方法的比较表明,该方法简单可行且高效。 相似文献
6.
基于本体的Web信息抽取就是以所构建的本体为核心,利用本体中已定义的概念、分类层次、关系、函数、公理和实例及一些必需的外部资料对Web页面进行信息提取,得到结构化的知识并保存的过程,这一技术已经成为国内外研究的热点之一。文章介绍了信息抽取的历史,给出了基于本体的Web信息抽取一般体系结构模型及相关实现,系统地分析比较了各种基于本体的Web信息抽取方法,指出了目前这些方法实现的关键、得到的结果及其不足之处,展望了Web信息抽取发展的方向。 相似文献
7.
8.
9.
基于CPN网络的Web正文抽取技术研究 总被引:1,自引:0,他引:1
通过研究使用CPN神经网络进行页面正文抽取,针对传统抽取技术在通用性、可扩展性和可维护性方面的不足提出一种解决问题的思路。 相似文献
10.
线上藏品不同的图文布局方式会影响观众的注意过程,进而影响观众对相应图文信息的获取效果。本文通过眼动实验,研究了观众浏览藏品页面文物图片与说明文字时上图下文、上文下图、左图右文、左文右图四种页面布局方式对观众注意行为的影响,同时关注了四种形式下观众对页面中所包含的文物大小、形制、纹饰、工艺、历史文化意义等多项信息的获取情况,从而探究线上藏品图文布局对观众信息获取的影响,进而为线上藏品页面的设置提供借鉴,使其更好地以观众的注意特点为导向促进藏品信息的传播。 相似文献
11.
12.
基于GATE语义标注的Web信息的自动抽取 总被引:1,自引:0,他引:1
14.
15.
Midori Kanazawa 《Public Library Quarterly》2014,33(4):279-295
This study is the first investigation into the types of contents in young adult (YA) web pages in public library websites in Japan. The study reveals that YA web pages, in general, place more emphasis on providing guidance on YA services, on helping young adults with regular learning, on the use of information resources for reference services, and on improving the communication abilities for young adults, rather than on providing research assistance to adults on YA services. Furthermore, an IRIS (Information Reference Instructional Sharing) Contents Model is proposed for YA web pages, whereas an IRIR (Information Reference Instructional Research) Contents Model is presented for children’s web pages, based on the differences between the contents of YA web pages and those of children’s web pages. 相似文献
16.
互联网上免费的中文学术资源数量庞大,但实用的专门检索工具仍然或缺.文章以网络中文学术文献的识别与检索为目标,调查分析网络学术文献网页的特征,并以非学术文献网页作为参照,验证所发现特征的可靠性.研究结果显示,学术文献网页在关键词词频、链接数量和相关链接比例等特征方面与非学术文献网页具有明显差别,差异程度都大于75%,属于程度明显,能较好地用于区分学术文献网页与非学术文献网页,为今后系统开发学术文献网页的自动化识别工具提供了依据和理论支持. 相似文献
17.
基于领域本体实现Web文本挖掘研究 总被引:1,自引:0,他引:1
18.
我国期刊网页渴望个性与互动 总被引:8,自引:1,他引:8
对中国期刊网、万方数字化期刊为各入编期刊提供的网页的应用情况进行了调查,同时在新浪等门户网站上用"学报"等关键词进行检索,并点击检索结果,以了解我国期刊网页的现状.指出我国期刊网页存在缺乏个性、与作者和读者互动不够2大问题,认为编辑对期刊品牌效应认识不够是产生上述问题的主要原因.通过对几个成功网站的分析,认为合作办网,逐步建成专业期刊和行业信息互相依托、大学学报与大学科研信息互相依托的综合网站是建设特色期刊网站的发展趋势. 相似文献
19.
黄黄 《图书馆工作与研究》2012,(2):33-36
本文借助网页调查的方式,收集整理了美国16所公共图书馆的志愿者网页信息,分析了其整体框架结构、具体信息组织、内部链接结构等内容,并归纳了6个共同点和3个特色,阐述了对我国公共图书馆网站志愿者网页建设的参考和借鉴意义。 相似文献
20.
一种基于网页分割的Web信息检索方法 总被引:2,自引:0,他引:2
提出一种基于网页内容分割的Web信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用了的内容相似性和视觉相似性进行节点的整合。在检索和排序中,根据用户的查询,充分利用了区域信息来对相关的检索结果进行排序。 相似文献