首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
针对中医药多媒体资源在网上的分布特点,采用链接类型过滤、链接内容过滤、网页内容过滤三层过滤和临时页面存储、目标页面存储,中间链接存储、更新存储四层存储机制,设计并实现了一个对包含中医药多媒体资源(包括音频、视频和Flash动画)的网页进行采集的定题采集系统。结果显示,可以大大提高查准率。  相似文献   

2.
文阳  陈文宇  袁野  朱建 《图书情报工作》2014,58(20):125-130
认为传统的基于主题的链接过滤算法虽然在某一领域的主题爬虫中使用广泛,但该方法只关心抓取的网页与主题之间的相关性,忽略了网站自身链接的结构特点。提出基于域名的链接过滤算法,该方法对基于网页链接中域名的结构特点进行比较,同时以基于主题的链接过滤算法作为辅助,判断出无用的垃圾链接。与单一基于主题的链接过滤算法相比较,基于域名的链接过滤算法的判断方式更为全面,链接过滤效率更高,从而能有效地提高网络爬虫的抓取效率和情报检索的效率。最后,通过仿真实验证明该算法的有效性。  相似文献   

3.
网络信息计量学研究(Ⅳ)--网站链接特征的分层研究   总被引:3,自引:1,他引:2  
通过本节的研究我们发现①网站各层在规模、文件类型和所拥有的网络链接数量等方面的变化具有明显的规律性,它取决于各层的功能定位;②对于链接密度和页面平均链接数在网站各层之间的变化,本研究未能给予精确的描述,仅就其变化趋势和原因进行了分析.从网站各层功能及其在链接上所表现出的特点来看,功能定位不同的层次,链接出现的频率是不同的,甚至应该能以链接出现频率的变化确切地判断其相应的功能定位,但依靠链接密度和页面平均链接数难以实现这个目标,必须考虑建立与页面功能和链接频率都相关的新的度量指标;③本研究结果证实,我们通过比较网站的网络影响因子筛选出的9个研究对象,其信息组织是比较合理的.这暗示我们,网站信息资源组织的合理程度与其网络影响力可能具有一定的联系.  相似文献   

4.
通过本节的研究我们发现:①网站各层在规模、文件类型和所拥有的网络链接数量等方面的变化具有明显的规律性,它取决于各层的功能定位;②对于链接密度和页面平均链接数在网站各层之间的变化,本研究未能给予精确的描述,仅就其变化趋势和原因进行了分析。从网站各层功能及其在链接上所表现出的特点来看,功能定位不同的层次,链接出现的频率是不同的,甚至应该能以链接出现频率的变化确切地判断其相应的功能定位,但依靠链接密度和页面平均链接数难以实现这个目标,必须考虑建立与页面功能和链接频率都相关的新的度量指标;③本研究结果证实,我们通过比较网站的网络影响因子筛选出的9个研究对象,其信息组织是比较合理的。这暗示我们,网站信息资源组织的合理程度与其网络影响力可能具有一定的联系。  相似文献   

5.
Ajax站点数据采集研究综述*   总被引:1,自引:0,他引:1  
从Ajax链接元素的识别、页面状态标识、页面状态可控性转换、页面状态内容动态获取和状态重复检测5个方面介绍Ajax数据采集所取得的最新研究进展,总结系统的整体处理流程和支撑技术,探讨新的发展趋势,推动Ajax数据采集问题展开更为深入的研究。  相似文献   

6.
在数字图书馆Web 学术信息资源的优化采集中,有效结合网页空间特征、内容特征和标签信息对网页进 行分块,研究对分块结果进行识别和合并,然后输出网页的主题文本和相关链接块集合,最后通过实验分析该方法能 够进一步去除页面中噪音、准确地分析页面的主题相关性和提高Web 主题信息采集的质量。  相似文献   

7.
MPEG-7促进多媒体信息检索领域的革命   总被引:3,自引:0,他引:3       下载免费PDF全文
“多媒体内容描述接口”标准的核心是其定义的描述符、描述方案和描述定义语言 ,通过它们可以对各种形式存储的多媒体内容进行结构化的描述。这种描述使用户在资源的检索过程中具有更加灵活的资源过滤方式。参考文献 4。  相似文献   

8.
网络写作与报纸、杂志写作的差异,来源于网络媒体和纸质媒体的不同,以及读者浏览网页和阅读报纸、杂志的差异。网络媒体不仅有纸质媒体页面的“长”“宽”“高”,还有立体物体的“深”,笔者认为网络一般分为5层。网络写作,就要用活网络的可点击性(超时空链接)、版面的无限性、文本的多媒体性。  相似文献   

9.
基于协作过滤的Web智能信息推荐方法   总被引:1,自引:0,他引:1  
何波 《图书情报工作》2010,54(19):115-110
传统的协作过滤方法存在的主要问题是需要人为地提供评价,论文设计的协作过滤方法对其进行了改进,根据用户模式自动获取用户评价,构建评价矩阵。将设计的协作过滤方法应用到个性化信息推荐,提出一种基于协作过滤的Web智能信息推荐方法(WIIRM)。WIIRM考虑用户访问页面的时间特性,不需要用户注册,在推荐时考虑页面的新颖性,同时实现离线处理与在线推荐的结合。实验结果表明,WIIRM是有效的。
  相似文献   

10.
针对多媒体链接在网页中分布的特点,对PageRank、shark-Search两种典型的主题搜索策略进行相关参数的改进,并从网页内容和网页链接的角度计算了多媒体链接与主题的相似度.实验结果表明,改进的Shark-Search多媒体主题搜索策略比改进后的PageRank搜索策略更能有效地提高多媒体主题搜索的效率,同时也更适合网络多媒体资源的主题搜索.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号