首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于Heritrix的网络学术文献获取研究
引用本文:白如江,王效岳,亢丽芸.基于Heritrix的网络学术文献获取研究[J].图书情报工作,2012,56(11):99-108.
作者姓名:白如江  王效岳  亢丽芸
作者单位:山东理工大学科技信息研究所
基金项目:山东省自然科学基金项目“大规模学术文献并行处理与语义分类研究”,山东理工大学青年教师发展支持计划研究成果之一
摘    要:通过分析研究网络学术文献的主要来源、常用文件格式及Heritrix的工作原理,制定基于Heritrix的网络学术文献获取方案,从种子站点选择或抓取任务配置、文件类型和大小过滤以及学术文献判定等方面对整体方案进行具体设计和分析,并搭建实验平台,编写相关程序进行实验以验证该方案的可行性,最后指出后续研究方向。

关 键 词:Heritrix  学术文献  文件格式  PDF  文档抓取  
收稿时间:2011-12-15

Accessing to Online Academic Literature with Heritrix
Bai Rujiang Wang Xiaoyue Kang Liyun.Accessing to Online Academic Literature with Heritrix[J].Library and Information Service,2012,56(11):99-108.
Authors:Bai Rujiang Wang Xiaoyue Kang Liyun
Institution:Institute of Scientific and Technical Information, Shandong University of Technology,
Abstract:Through the analysis of main sources and popular file formats of online academic literature,and Heritrix’s work principles,this paper develops a program to access to online academic literature based on Heritrix.Then it designs and analyses the overall program specifically from seed websites selection,crawl tasks configuration,file type and file size filtration,academic literature determination.This paper also does experiments by building experimental platform and writing programs to verify the feasibility of this program,and points out the future research direction.
Keywords:Heritrix academic literature file format PDF document crawl
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《图书情报工作》浏览原始摘要信息
点击此处可从《图书情报工作》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号