首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于Python的健康数据爬虫设计与实现
引用本文:程增辉,夏林旭,刘茂福.基于Python的健康数据爬虫设计与实现[J].教育技术导刊,2019,18(2):60-63.
作者姓名:程增辉  夏林旭  刘茂福
作者单位:武汉科技大学 计算机科学与技术学院,湖北 武汉 430065
摘    要:在网络健康资讯研究中,数据获取是首先要解决的问题,但传统抓取工具无法满足多变的数据源,研究高效爬取健康资讯内容新方法迫在眉睫。基于Python的网络健康资讯抓取方案,整合多个数据源,抓取内容更为全面;利用WebDriver和Python的Selenium库,能够较好地应对复杂网络状况,通过多线程技术极大提高爬虫效率。对抓取的癌症数据进行统计分析,对多线程效率进行对比分析,显示爬虫具有良好的适应性。基于Python的网络健康咨询抓取方案能快速抓取网络资讯,为后续科研打下基础。

关 键 词:爬虫  多数据源  Python  网页解析  
点击此处可从《教育技术导刊》浏览原始摘要信息
点击此处可从《教育技术导刊》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号