首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对中医药多媒体资源在网上的分布特点,采用链接类型过滤、链接内容过滤、网页内容过滤三层过滤和临时页面存储、目标页面存储,中间链接存储、更新存储四层存储机制,设计并实现了一个对包含中医药多媒体资源(包括音频、视频和Flash动画)的网页进行采集的定题采集系统;结果显示,可以大大提高查准率。  相似文献   

2.
文阳  陈文宇  袁野  朱建 《图书情报工作》2014,58(20):125-130
认为传统的基于主题的链接过滤算法虽然在某一领域的主题爬虫中使用广泛,但该方法只关心抓取的网页与主题之间的相关性,忽略了网站自身链接的结构特点。提出基于域名的链接过滤算法,该方法对基于网页链接中域名的结构特点进行比较,同时以基于主题的链接过滤算法作为辅助,判断出无用的垃圾链接。与单一基于主题的链接过滤算法相比较,基于域名的链接过滤算法的判断方式更为全面,链接过滤效率更高,从而能有效地提高网络爬虫的抓取效率和情报检索的效率。最后,通过仿真实验证明该算法的有效性。  相似文献   

3.
通过本节的研究我们发现:①网站各层在规模、文件类型和所拥有的网络链接数量等方面的变化具有明显的规律性,它取决于各层的功能定位;②对于链接密度和页面平均链接数在网站各层之间的变化,本研究未能给予精确的描述,仅就其变化趋势和原因进行了分析。从网站各层功能及其在链接上所表现出的特点来看,功能定位不同的层次,链接出现的频率是不同的,甚至应该能以链接出现频率的变化确切地判断其相应的功能定位,但依靠链接密度和页面平均链接数难以实现这个目标,必须考虑建立与页面功能和链接频率都相关的新的度量指标;③本研究结果证实,我们通过比较网站的网络影响因子筛选出的9个研究对象,其信息组织是比较合理的。这暗示我们,网站信息资源组织的合理程度与其网络影响力可能具有一定的联系。  相似文献   

4.
网络信息计量学研究(Ⅳ)--网站链接特征的分层研究   总被引:3,自引:1,他引:2  
通过本节的研究我们发现①网站各层在规模、文件类型和所拥有的网络链接数量等方面的变化具有明显的规律性,它取决于各层的功能定位;②对于链接密度和页面平均链接数在网站各层之间的变化,本研究未能给予精确的描述,仅就其变化趋势和原因进行了分析.从网站各层功能及其在链接上所表现出的特点来看,功能定位不同的层次,链接出现的频率是不同的,甚至应该能以链接出现频率的变化确切地判断其相应的功能定位,但依靠链接密度和页面平均链接数难以实现这个目标,必须考虑建立与页面功能和链接频率都相关的新的度量指标;③本研究结果证实,我们通过比较网站的网络影响因子筛选出的9个研究对象,其信息组织是比较合理的.这暗示我们,网站信息资源组织的合理程度与其网络影响力可能具有一定的联系.  相似文献   

5.
Ajax站点数据采集研究综述*   总被引:1,自引:0,他引:1  
从Ajax链接元素的识别、页面状态标识、页面状态可控性转换、页面状态内容动态获取和状态重复检测5个方面介绍Ajax数据采集所取得的最新研究进展,总结系统的整体处理流程和支撑技术,探讨新的发展趋势,推动Ajax数据采集问题展开更为深入的研究。  相似文献   

6.
在数字图书馆Web 学术信息资源的优化采集中,有效结合网页空间特征、内容特征和标签信息对网页进 行分块,研究对分块结果进行识别和合并,然后输出网页的主题文本和相关链接块集合,最后通过实验分析该方法能 够进一步去除页面中噪音、准确地分析页面的主题相关性和提高Web 主题信息采集的质量。  相似文献   

7.
MPEG-7促进多媒体信息检索领域的革命   总被引:3,自引:0,他引:3       下载免费PDF全文
“多媒体内容描述接口”标准的核心是其定义的描述符、描述方案和描述定义语言 ,通过它们可以对各种形式存储的多媒体内容进行结构化的描述。这种描述使用户在资源的检索过程中具有更加灵活的资源过滤方式。参考文献 4。  相似文献   

8.
网络写作与报纸、杂志写作的差异,来源于网络媒体和纸质媒体的不同,以及读者浏览网页和阅读报纸、杂志的差异。网络媒体不仅有纸质媒体页面的“长”“宽”“高”,还有立体物体的“深”,笔者认为网络一般分为5层。网络写作,就要用活网络的可点击性(超时空链接)、版面的无限性、文本的多媒体性。  相似文献   

9.
基于协作过滤的Web智能信息推荐方法   总被引:1,自引:0,他引:1  
何波 《图书情报工作》2010,54(19):115-110
传统的协作过滤方法存在的主要问题是需要人为地提供评价,论文设计的协作过滤方法对其进行了改进,根据用户模式自动获取用户评价,构建评价矩阵。将设计的协作过滤方法应用到个性化信息推荐,提出一种基于协作过滤的Web智能信息推荐方法(WIIRM)。WIIRM考虑用户访问页面的时间特性,不需要用户注册,在推荐时考虑页面的新颖性,同时实现离线处理与在线推荐的结合。实验结果表明,WIIRM是有效的。
  相似文献   

10.
针对多媒体链接在网页中分布的特点,对PageRank、Shark-Search 两种典型的主题搜索策略进行相关参数的改进,并从网页内容和网页链接的角度计算了多媒体链接与主题的相似度。实验结果表明,改进的Shark-Search多媒体主题搜索策略比改进后的PageRank搜索策略更能有效地提高多媒体主题搜索的效率,同时也更适合网络多媒体资源的主题搜索。  相似文献   

11.
针对多媒体链接在网页中分布的特点,对PageRank、shark-Search两种典型的主题搜索策略进行相关参数的改进,并从网页内容和网页链接的角度计算了多媒体链接与主题的相似度.实验结果表明,改进的Shark-Search多媒体主题搜索策略比改进后的PageRank搜索策略更能有效地提高多媒体主题搜索的效率,同时也更适合网络多媒体资源的主题搜索.  相似文献   

12.
图书馆学术资源推荐系统是一种为了解决信息过载、提高搜索效率而提出的基于信息过滤机制的知识服务系统。系统的改进,可以从用户Web日志、搜索习惯、浏览行为、图书馆学术关联数据等多角度进行数据挖掘和数据分析,以构建读者信息需求库及关联数据仓库,采用基于内容过滤推荐和规则过滤推荐相结合的混和推荐技术来实现推荐系统,以提高资源推荐的精度和覆盖率。  相似文献   

13.
Web多媒体网页中多媒体资源的相关文本对于描述Web多媒体资源具有重要意义,利用Web多媒体资源所在的网页中的嵌入形式,设计Web多媒体资源相关文本信息提取系统,准确提取Web页面中多媒体资源的相关文本。实验结果表明,该系统提取Web多美资源的相关文本准确率较高,有助于提高多媒体信息检索系统的查全率与查准率。  相似文献   

14.
基于Nutch的专题网页资源采集服务系统的设计与实现   总被引:1,自引:0,他引:1  
在数字图书馆系统集成应用的框架下,提出基于Nutch的专题网页资源采集服务系统设计方案。该方案引入信息过滤模块、基于计算机通信领域专业词典的中文分词模块、GUI信息定制模块、词典和关键词管理模块等,保证采集和获取过程中资源的专题性和系统的可管理性以及易用性。重点对文本解析过滤、Plugin插件开发以及搜索结果的层次化自动聚类等相关技术进行深入研究。通过基于Webservice的服务接口,实现其在数字图书馆资源层的集成应用。  相似文献   

15.
"链接工厂"欺骗(Link farm spam)和重复链接严重地损坏了像HITS这样基于链接排序的算法性能.为了检测与抑制Web"链接工厂"欺骗和重复链接,本文充分利用页面之间的复制信息,尤其是利用完全超链接信息识别可疑链接目标.提出一种由页面文档和完全链接构成的二部图结构,通过对二部图进行构建与分析,搜寻共享锚文本和链接目标的Web页面,在此过程中标识链接工厂和重复链接,并通过带惩罚因子的权重邻接矩阵减小可疑链接的影响.实时实验和用户仿真测试结果显示,本文算法能显著改善传统HITS类方法的信息搜索质量.  相似文献   

16.
Web多媒体网页中多媒体资源的相关文本对于描述Web多媒体资源具有重要意义,利用Web多媒体网页搜集器搜集网络中包含多媒体资源的网页,对网页进行区域分析.根据多媒体资源所在网页中的嵌入形式,设计Web多媒体资源相关文本信息提取系统,准确提取Web页面中多媒体资源的相关文本.实验结果表明,该系统提取Web多媒体资源的相关文本准确率较高,有助于提高多媒体信息检索系统的查全率与查准率.  相似文献   

17.
基于Dexter模型的超文本检索系统的研究   总被引:6,自引:2,他引:4  
本文介绍了超文本系统的Dexter 参考模型, 分析了模型的三层结构: 存储层、运行层和部件内部层, 以及存储层分别与运行层和部件内部层之间的接口机制: 显示说明和锚。并讨论了将Dexter 模型应用于超文本检索系统中, 使原文和倒排文件与超文本网络相对分离, 并利用单汉字检索技术实现超文本的动态链接。  相似文献   

18.
网络竞争情报主题采集技术研究   总被引:2,自引:0,他引:2  
文章设计与实现了一种网络竞争情报的主题采集系统。该系统在进行主题预测时采用的基于改进的朴素贝叶斯算法提高了主题判断准确率,在进行链接预测时采用的基于规则与锚文本主题相似度结合的算法,避免了URL锚文本较短和噪声的问题。与宽度优先的采集技术相比,通过实验验证该方法具有明显的优越性。  相似文献   

19.
1 需求分析   信息时代,最为重要的莫过于数据.数据是图书馆最重要、最宝贵的资源,也是建设数字图书馆的基础工程,图书馆数字化的核心在于海量的数据存储,包括馆藏资源数字化全文存储、多媒体资源存储、全文数据库镜像、光盘镜像存储和其他数字化资源的存储.……  相似文献   

20.
基于内容和协作的信息过滤方法研究   总被引:7,自引:0,他引:7  
白丽君 《情报学报》2005,24(3):304-308
随着互联网上信息的迅速增长,信息过滤技术得到越来越广泛的应用。本文论述了内容过滤和协作过滤两种信息过滤技术,针对它们存在的问题,提出一种结合两种过滤技术的方法。实验结果表明,该方法能较好地解决问题,提高过滤结果的准确性,是一种更好的信息过滤方法  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号