首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,在一定程度上考虑了网页的语义因素。该算法具有更高的准确度,同时具有很低的时间复杂度。实验结果表明,在对海量网页进行净化处理时,算法具有良好的效果。  相似文献   

2.
科学有效的网页归档项目政策能够指导机构组织规范开展网页归档工作,促进实现网页信息的有序归档和长期保存。基于Web生命周期管理模型,以11个美国网页归档项目政策为样本,通过查阅政策文本分析美国网页归档项目政策的优势与不足,并对我国网页归档项目政策提出建议。分析结果显示,美国网页归档项目政策存在归档目标明确、重视前端控制、科学设置资源和工作流程、网页档案获取途径多样合理、综合使用保存策略、实施风险管理等优势,同时存在未主动跟踪用户检索利用情况、未深入开发利用网页档案和未全面开展质量分析等不足之处。基于以上分析,对我国网页归档项目政策提出了五点建议。  相似文献   

3.
数字图书馆面临着进一步提高信息检索质量的问题,基于都柏林核心集的知识集成和检索能够发挥重要作用。结合Web网页的特点和本体知识,给出一种都柏林核心集网页文本的数据模型。词义扩展的相似匹配是当前知识检索采用的较为实用的方法,基于该模型采用词素匹配的技术并结合词义扩展的信息检索的一些技术,能使信息有效地存储集成和提高信息利用质量,能使开发的知识检索系统有更好的应用性。图1。参考文献7。  相似文献   

4.
Web多媒体网页中多媒体资源的相关文本对于描述Web多媒体资源具有重要意义,利用Web多媒体网页搜集器搜集网络中包含多媒体资源的网页,对网页进行区域分析.根据多媒体资源所在网页中的嵌入形式,设计Web多媒体资源相关文本信息提取系统,准确提取Web页面中多媒体资源的相关文本.实验结果表明,该系统提取Web多媒体资源的相关文本准确率较高,有助于提高多媒体信息检索系统的查全率与查准率.  相似文献   

5.
互联网的蓬勃发展使得文本数据呈指数型增长态势,如何实现文本内容的高效分类成为信息资源管理工作面临的紧要问题。本文以维普学术期刊资源与百度新闻网页作为基础语料集,基于LDA模型抽取文档主题、切分文本内容,融合集成学习Catboost算法获得文档在主题上的概率分布,然后利用训练集提取出的隐含主题-文本矩阵进行分类器训练,最终构建文本分类系统。研究结果显示,该系统能够有效完成文本混合自动分类,分类误差率较低,分类性能明显优于传统的文本分类方法。  相似文献   

6.
针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法.该方法首先利用DOM树计算文本结点的文本密度,即文本长度与HTML源码长度之比,再利用贝叶斯判别准则计算密度区分阈值,最后根据文本密度与密度区分阈值的比较结果抽取正文,即大于密度区分阈值的结点就判定为正文文本结点,小于或等于密度区分阈值的结点则判定为非正文文本结点,将所有判定为正文文本结点的文本连接起来即为要抽取的网页正文.通过使用中文新闻类网页对该方法的有效性进行验证,结果表明:该方法虽然简单,但是抽取准确率极高且易于实现.  相似文献   

7.
Web多媒体网页中多媒体资源的相关文本对于描述Web多媒体资源具有重要意义,利用Web多媒体资源所在的网页中的嵌入形式,设计Web多媒体资源相关文本信息提取系统,准确提取Web页面中多媒体资源的相关文本。实验结果表明,该系统提取Web多美资源的相关文本准确率较高,有助于提高多媒体信息检索系统的查全率与查准率。  相似文献   

8.
基于P2P的分布式主题爬虫系统的设计与实现   总被引:1,自引:0,他引:1  
本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程.系统基于锚文本上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的特性来动态地扩展系统的规模,提高系统的整体吞吐能力,以满足现在和将来的用户对日益增长的大数据量检索需求.实验结果表明,可根据用户给定的主题对网页链接上下文进行主题相关性判定以引导爬虫的爬行路径,能够有效地获取相关主题信息.  相似文献   

9.
当前 ,几乎所有重要的机构乃至个人都在WWW上制作自己的网页 ,因为网页图文并茂、生动活泼 ,并能与浏览者实现越来越复杂的交互。目前 ,除了一些商业用途之外 ,新闻、教育、出版、科研活动等也都在Internet上以网页的形式迅速活跃起来。本文以开发“山西科技出版社网页”为例 ,就这方面的技术问题进行讨论。   一、网页制作技术简述通常 ,网页的设计要用到一种超文本标记语言HTML(Hy perTextMarkupLanguage)。之所以称其为超文本标记语言 ,是因为用它编写的代码其实是一种带格式的文本 ,这种文本可…  相似文献   

10.
利用web文档的半结构化信息,提出一种基于DOM的web文本分割算法。该算法充分挖掘web网页中控制网页内容结构和显示的HTML标签信息,构建HTML DOM树。首先通过改进传统的平面文本分割方法,使之适用于web文本分割;然后利用DOM树中的节点平滑平面文本分割的结果,初步实验表明该算法能有效提高web文本分割的精确度。  相似文献   

11.
Anchor texts complement Web page content and have been used extensively in commercial Web search engines. Existing methods for anchor text weighting rely on the hyperlink information which is created by page content editors. Since anchor texts are created to help user browse the Web, browsing behavior of Web users may also provide useful or complementary information for anchor text weighting. In this paper, we discuss the possibility and effectiveness of incorporating browsing activities of Web users into anchor texts for Web search. We first make an analysis on the effectiveness of anchor texts with browsing activities. And then we propose two new anchor models which incorporate browsing activities. To deal with the data sparseness problem of user-clicked anchor texts, two features of user’s browsing behavior are explored and analyzed. Based on these features, a smoothing method for the new anchor models is proposed. Experimental results show that by incorporating browsing activities the new anchor models outperform the state-of-art anchor models which use only the hyperlink information. This study demonstrates the benefits of Web browsing activities to affect anchor text weighting.  相似文献   

12.
在数字图书馆Web 学术信息资源的优化采集中,有效结合网页空间特征、内容特征和标签信息对网页进 行分块,研究对分块结果进行识别和合并,然后输出网页的主题文本和相关链接块集合,最后通过实验分析该方法能 够进一步去除页面中噪音、准确地分析页面的主题相关性和提高Web 主题信息采集的质量。  相似文献   

13.
[目的/意义] 为解决现有网页文本缺乏起源标注的问题,提出一种借助PROV本体发现相似网页文本起源关系的方法。[方法/过程] 通过聚类算法、自动语义标注和关联数据构建等技术的综合应用,结合PROV-POL溯源模型,检测网页文本实体的演变过程,实现文本级和属性级两级溯源方案。[结果/结论] 实验验证了借助语义网技术和数据溯源模型实现网页文本数据溯源的可行性,但实验过程中聚类算法的召回率有待提高。  相似文献   

14.
杜彦峰 《图书馆论坛》2012,32(3):158-161
运用符号学的原理,对网页和纸质印刷品的版面布局、字体、线条、色彩、图表、插图、照片等阅读符号进行多层次比较,分析了网页特有的动态设计即交互式导航、隐喻设计和故事叙述,提出了相对于纸质印刷品传递的阅读符号来说,网页传递的阅读符号是有形的、立体的,是符号互动理论的延伸。  相似文献   

15.
"链接工厂"欺骗(Link farm spam)和重复链接严重地损坏了像HITS这样基于链接排序的算法性能.为了检测与抑制Web"链接工厂"欺骗和重复链接,本文充分利用页面之间的复制信息,尤其是利用完全超链接信息识别可疑链接目标.提出一种由页面文档和完全链接构成的二部图结构,通过对二部图进行构建与分析,搜寻共享锚文本和链接目标的Web页面,在此过程中标识链接工厂和重复链接,并通过带惩罚因子的权重邻接矩阵减小可疑链接的影响.实时实验和用户仿真测试结果显示,本文算法能显著改善传统HITS类方法的信息搜索质量.  相似文献   

16.
提出人才网页自动识别系统设计,实现对Nutch定向采集系统抓取的高校网站页面进行人才描述网页自动识别。识别过程中使用自动获取的网页的URL特征、网页Title标签特征、链接文字特征以及网页文本内容特征,使用人名词表、正面特征词表、负面特征词表对各项识别特征进行匹配以计算特征值,借助开源软件LibSVM实现基于多特征值的人才网页自动识别。  相似文献   

17.
第一代搜索引擎注重网站自身的特征分析,第二代搜索引擎注重网站间的链接关系分析,都缺乏对终端用户使用互联网情况的分析。Google通过Toolbar产品,实现用户使用互联网情况的统计分析,标志其进入新一代搜索引擎的行列。  相似文献   

18.
 针对农产品市场行情信息的精确采集,综合运用WebClient类和开源类库HtmlParser.NET,自动生成行情信息动态网页的分页下载链接,将每个分页下载转换为静态网页。建立基于HTML结构特征的网页数据精确提取通用方法,实现循环提取所有行情信息数据。  相似文献   

19.
为了将长期保存的网络信息资源提供给用户利用,保存机构需要对这些资源进行一定的组织与质量控制。文章介绍了网络资源保存编目研究的发展现状,介绍了目前几种常用的编目方法:延续传统编目方法、基于web2.0标签技术的信息组织方法、基于大规模Web archive自动编目方法。并对两个新型的编目系统进行了深入的剖析:一个是瑞士的电子资源长期保存工程e-Helvetica,它将图书馆编目系统与长期保存系统的摄入流程进行集成整合,利用编目系统对长期保存资源进行组织与控制;另外一种是新加坡的网页标注系统WAWI,借鉴web2.0标签技术为长期保存系统中的网络资源添加标签,实现对资源内容语义层面上的控制。希望能为国内网络信息资源保存的相关研究与实践提供一些参考。该文为2009年第七期“网络信息资源保存”专题文章之一。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号