首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
在数字图书馆Web 学术信息资源的优化采集中,有效结合网页空间特征、内容特征和标签信息对网页进 行分块,研究对分块结果进行识别和合并,然后输出网页的主题文本和相关链接块集合,最后通过实验分析该方法能 够进一步去除页面中噪音、准确地分析页面的主题相关性和提高Web 主题信息采集的质量。  相似文献   

2.
张艳 《图书情报工作》2010,54(14):107-130
提出一个RSS级别的网页主题内容抽取方法与系统,利用RSS feed中的少量entry信息训练得到主题内容模板,通过模板可以对RSS feed下的所有网页进行主题内容抽取。该方法支持分别抽取网页的标题、正文、类别等信息;另外,该方法有自适应机制,能实时侦测模板的变化。从实验结果来看,该方法和系统有很高的召回率和准确率。  相似文献   

3.
主要介绍了设计开发Web主题信息采集系统的一个核心算法——超链接主题预测算法。文章在已有理论的基础上,通过实验分析,发现超链接的主题主要取决于三个因素:父网页的主题相关度、锚文本的主题相关度和Web子图的链接结构特性,从而提出了基于Web页面内容和链接结构的超链接主题预测算法,系统评价结果显示该算法有很好的效果。  相似文献   

4.
提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,在一定程度上考虑了网页的语义因素。该算法具有更高的准确度,同时具有很低的时间复杂度。实验结果表明,在对海量网页进行净化处理时,算法具有良好的效果。  相似文献   

5.
一种Web多维分析模型及应用   总被引:1,自引:0,他引:1  
朱家稷  闫宏飞 《情报学报》2004,23(5):553-560
Web上的网页正以惊人的速度增长和变化 ,给传统搜索引擎的效率和质量带来了许多新的问题和挑战。我们迫切需要一种研究方法 ,能够对搜索引擎收集来的海量网页进行有效的分析 ,以便对Web保持完整清晰的认识来指导搜索引擎进行更有效的服务。本文提出一种基于时间、空间和内容的三维Web分析模型 ,通过它可以对海量的网页数据进行多维度、多层次的分析工作 ,为我们认识Web提供一种全新的视角。在实验中我们简单地实现了该模型 ,并通过对 3批网页数据进行分析 ,得到网页变化率、网页空间分布、复制强度大的网页特点等数据 ,以及Internet作为“第四媒体”在信息传播上的一些特点。  相似文献   

6.
Web网页信息变化的时间局部性规律及其验证   总被引:6,自引:0,他引:6  
孟涛  闫宏飞  王继民 《情报学报》2005,24(4):398-406
掌握Web网页信息变化的时间规律可以更有针对性的指导搜索引擎等Web应用系统更有效地进行搜集。本文旨在研究中国范围内Web网页变化的时间规律,针对网页变化的频率和间隔两项指标,随机选取数百万网页作为样本,设计试验在一个月内对上述两项指标进行考察。从结论中,我们发现网页变化的若干规律,并发现其中可能存在时间局部性规律。因此,我们引入了堆栈距离模型,在针对Web网页的变化特性和具体实验方法对其修正之后,再次设计实验对网页变化的时间局部性规律进行考察。结果表明,网页的变化存在明显的时间局部性。最后,介绍了这种时间局部性规律在网页搜集中的实际应用。  相似文献   

7.
主要介绍了我们设计的Web主题信息采集系统的一项核心工作——Web信息主题的识别,主题识别算法从构造专业性较强的主题词典着手,充分分析和考虑Web网页文本的特点,从而大大提高了主题信息采集的效率和精度,该算法同样适用于其他领域的主题信息识别。  相似文献   

8.
Web 信息检索(Information Retrieval)技术研究是应用文本检索研究的成果,它结合Web图论的思想,研究Web上的信息检索,是行之有效的Web知识发现的途径。传统HITS方法所获得的信息精确度相当低,而PageRank作为一通用的搜索方法,不能够应用于特定主题的信息获取。在充分分析了PageRank、HITS等现有算法和Web文档的相似度计算方法的基础上,提出了Web上查询特定主题相关信息发现的RG-HITS算法。它结合了Web超链接、网页知识表示的信息相关度以及HITS方法来搜索Web上特定主题的相关知识。  相似文献   

9.
基于语义爬虫的商品信息主题采集研究*   总被引:2,自引:0,他引:2  
结合网页主题链接分析和网页主题内容语义分析,提出一个以主题爬虫实现采集商品信息的方法。在爬行过程中通过对本体的统计学习,使主题本体参照物不断得到优化。实验结果表明,该方法较其他传统爬行算法更有效,并能防止主题漂移的发生,带来较高的主题收获率。  相似文献   

10.
主题抽取是自然语言处理研究的重要问题之一.目前流行的方法是"词典 匹配",但该方法用于处理动态变化的网页信息时,词典难于及时更新等弊病就表现出来.本文作者在研究中文新闻网页内容、结构特点的基础上,提出了一种利用Web页面结构无需词典的主题抽取算法.我们使用该方法对新华网财经新闻语料1000篇进行主题抽取实验,并与手工抽取的主题进行比较,结果表明,重合率高达93%以上.  相似文献   

11.
网页重现是利用相关技术方法、工具来恢复网页原貌。文章结合Warrick和Past Web Browser等实际案例分析了基于网络资源长期保存的网页重现技术在网站恢复、网站重建、历史页面重现应用的方法、过程、效果,为相关研究提供了参考价值。该文为2009年第七期“网络信息资源保存”专题文章之一。  相似文献   

12.
网络信息检索展望   总被引:34,自引:3,他引:31  
概括性地分析了目前一些新兴的网络检索摸式, 综合性地介绍了一些资深网络服务和技术专家的观点, 从而对网络检索未来进行了一定程度的描绘和预测。  相似文献   

13.
网德教育:网络信息安全新课题   总被引:10,自引:0,他引:10  
人为因素已成为网络安全问题最直接最具影响的重要方面, 种种网德失范行为警示人们必须关注人类的网德建设。重视网德理论研究, 制订具体的网络行为准则和规范, 加强网德教育是深化网德建设的主要措施, 也是网络安全的有力保障。  相似文献   

14.
本文以web2.0时代下的网络信息自组织现象为研究对象,以自组织的基础理论为研究方法论,证明其自我组织的决定因素是其"社会性"所在。文章具体围绕着网络循环圈自组织的过程,从宏观、中观、微观三个层次上,探讨了网络信息自组织的各种表现、产生机理、变化过程等。  相似文献   

15.
如何利用搜索引擎检索网络信息   总被引:23,自引:1,他引:22  
从搜索引擎的工作机理, 评价标准, 分类, 使用方法, 使用技巧等五个方面介绍如何利用搜索引擎检索网络信息。  相似文献   

16.
Web表格信息抽取研究综述   总被引:4,自引:0,他引:4  
介绍Web表格的特点与结构、Web表格信息抽取及其过程,分析Web表格信息抽取的4个关键技术:Web表格定位、Web表格结构识别、Web表格内容整合和抽取结果表示,以及Web表格信息抽取的应用。最后指出目前国内外该项研究的不足之处及未来发展方向。  相似文献   

17.
Web整合系统的分析与研究   总被引:3,自引:1,他引:2  
概述Web整合系统的发展历程,针对国外210个Web整合系统和项目研究,从系统分布、研究团体、不同研究领域等方面总结国外Web整合系统的研究现状,并从系统的集成模式、功能侧重点、整合程度、自动化程度等方面分析Web整合系统的特点,最后指Web整合系统的发展趋势。  相似文献   

18.
从用户接受到用户体验——谈图书馆用户角色变化   总被引:2,自引:0,他引:2  
在图书馆服务中,用户的角色一直都处在变化之中,从消费者、参与者到建设者再到现阶段的体验者.作者通过观察、比较这些角色变化,发现现阶段重视用户体验的环境下,图书馆需要转变思维,迎合用户,加强用户体验.  相似文献   

19.
Web数据应用的利器--Web数据挖掘   总被引:1,自引:0,他引:1  
张娥  冯耕中  战子玉 《情报学报》2002,21(6):686-690
Web已经成为世界上最大的信息仓库之一 ,但是随着信息量的增长 ,人们有效使用Web信息也越来越困难。Web数据挖掘为人们使用Web中的显性和隐性信息提供了一把利器。本文介绍了Web挖掘提出的背景、领域内研究分支学科状况、研究内容、研究难点和国内外的研究现状。  相似文献   

20.
针对如何在linux环境下构建Web mail系统,详细介绍了在linux平台上如何配置Web server及Web mail系统的一种方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号