共查询到20条相似文献,搜索用时 62 毫秒
1.
在数字图书馆Web 学术信息资源的优化采集中,有效结合网页空间特征、内容特征和标签信息对网页进
行分块,研究对分块结果进行识别和合并,然后输出网页的主题文本和相关链接块集合,最后通过实验分析该方法能
够进一步去除页面中噪音、准确地分析页面的主题相关性和提高Web 主题信息采集的质量。 相似文献
2.
3.
主要介绍了设计开发Web主题信息采集系统的一个核心算法——超链接主题预测算法。文章在已有理论的基础上,通过实验分析,发现超链接的主题主要取决于三个因素:父网页的主题相关度、锚文本的主题相关度和Web子图的链接结构特性,从而提出了基于Web页面内容和链接结构的超链接主题预测算法,系统评价结果显示该算法有很好的效果。 相似文献
4.
提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,在一定程度上考虑了网页的语义因素。该算法具有更高的准确度,同时具有很低的时间复杂度。实验结果表明,在对海量网页进行净化处理时,算法具有良好的效果。 相似文献
5.
一种Web多维分析模型及应用 总被引:1,自引:0,他引:1
Web上的网页正以惊人的速度增长和变化 ,给传统搜索引擎的效率和质量带来了许多新的问题和挑战。我们迫切需要一种研究方法 ,能够对搜索引擎收集来的海量网页进行有效的分析 ,以便对Web保持完整清晰的认识来指导搜索引擎进行更有效的服务。本文提出一种基于时间、空间和内容的三维Web分析模型 ,通过它可以对海量的网页数据进行多维度、多层次的分析工作 ,为我们认识Web提供一种全新的视角。在实验中我们简单地实现了该模型 ,并通过对 3批网页数据进行分析 ,得到网页变化率、网页空间分布、复制强度大的网页特点等数据 ,以及Internet作为“第四媒体”在信息传播上的一些特点。 相似文献
6.
Web网页信息变化的时间局部性规律及其验证 总被引:6,自引:0,他引:6
掌握Web网页信息变化的时间规律可以更有针对性的指导搜索引擎等Web应用系统更有效地进行搜集。本文旨在研究中国范围内Web网页变化的时间规律,针对网页变化的频率和间隔两项指标,随机选取数百万网页作为样本,设计试验在一个月内对上述两项指标进行考察。从结论中,我们发现网页变化的若干规律,并发现其中可能存在时间局部性规律。因此,我们引入了堆栈距离模型,在针对Web网页的变化特性和具体实验方法对其修正之后,再次设计实验对网页变化的时间局部性规律进行考察。结果表明,网页的变化存在明显的时间局部性。最后,介绍了这种时间局部性规律在网页搜集中的实际应用。 相似文献
7.
主要介绍了我们设计的Web主题信息采集系统的一项核心工作——Web信息主题的识别,主题识别算法从构造专业性较强的主题词典着手,充分分析和考虑Web网页文本的特点,从而大大提高了主题信息采集的效率和精度,该算法同样适用于其他领域的主题信息识别。 相似文献
8.
丁一 《现代图书情报技术》2005,21(6):26-29
Web 信息检索(Information Retrieval)技术研究是应用文本检索研究的成果,它结合Web图论的思想,研究Web上的信息检索,是行之有效的Web知识发现的途径。传统HITS方法所获得的信息精确度相当低,而PageRank作为一通用的搜索方法,不能够应用于特定主题的信息获取。在充分分析了PageRank、HITS等现有算法和Web文档的相似度计算方法的基础上,提出了Web上查询特定主题相关信息发现的RG-HITS算法。它结合了Web超链接、网页知识表示的信息相关度以及HITS方法来搜索Web上特定主题的相关知识。 相似文献
9.
基于语义爬虫的商品信息主题采集研究* 总被引:2,自引:0,他引:2
黄炜张李义 《现代图书情报技术》2010,26(1):3-8
结合网页主题链接分析和网页主题内容语义分析,提出一个以主题爬虫实现采集商品信息的方法。在爬行过程中通过对本体的统计学习,使主题本体参照物不断得到优化。实验结果表明,该方法较其他传统爬行算法更有效,并能防止主题漂移的发生,带来较高的主题收获率。 相似文献
10.
11.
12.
13.
网德教育:网络信息安全新课题 总被引:10,自引:0,他引:10
人为因素已成为网络安全问题最直接最具影响的重要方面, 种种网德失范行为警示人们必须关注人类的网德建设。重视网德理论研究, 制订具体的网络行为准则和规范, 加强网德教育是深化网德建设的主要措施, 也是网络安全的有力保障。 相似文献
14.
本文以web2.0时代下的网络信息自组织现象为研究对象,以自组织的基础理论为研究方法论,证明其自我组织的决定因素是其"社会性"所在。文章具体围绕着网络循环圈自组织的过程,从宏观、中观、微观三个层次上,探讨了网络信息自组织的各种表现、产生机理、变化过程等。 相似文献
15.
如何利用搜索引擎检索网络信息 总被引:23,自引:1,他引:22
王启云 《现代图书情报技术》2001,17(4):40-43
从搜索引擎的工作机理, 评价标准, 分类, 使用方法, 使用技巧等五个方面介绍如何利用搜索引擎检索网络信息。 相似文献
16.
Web表格信息抽取研究综述 总被引:4,自引:0,他引:4
介绍Web表格的特点与结构、Web表格信息抽取及其过程,分析Web表格信息抽取的4个关键技术:Web表格定位、Web表格结构识别、Web表格内容整合和抽取结果表示,以及Web表格信息抽取的应用。最后指出目前国内外该项研究的不足之处及未来发展方向。 相似文献
17.
Web整合系统的分析与研究 总被引:3,自引:1,他引:2
概述Web整合系统的发展历程,针对国外210个Web整合系统和项目研究,从系统分布、研究团体、不同研究领域等方面总结国外Web整合系统的研究现状,并从系统的集成模式、功能侧重点、整合程度、自动化程度等方面分析Web整合系统的特点,最后指Web整合系统的发展趋势。 相似文献
18.
从用户接受到用户体验——谈图书馆用户角色变化 总被引:2,自引:0,他引:2
在图书馆服务中,用户的角色一直都处在变化之中,从消费者、参与者到建设者再到现阶段的体验者.作者通过观察、比较这些角色变化,发现现阶段重视用户体验的环境下,图书馆需要转变思维,迎合用户,加强用户体验. 相似文献
19.
20.