基于Python的健康数据爬虫设计与实现 |
| |
引用本文: | 程增辉,夏林旭,刘茂福.基于Python的健康数据爬虫设计与实现[J].教育技术导刊,2019,18(2):60-63. |
| |
作者姓名: | 程增辉 夏林旭 刘茂福 |
| |
作者单位: | 武汉科技大学 计算机科学与技术学院,湖北 武汉 430065 |
| |
摘 要: | 在网络健康资讯研究中,数据获取是首先要解决的问题,但传统抓取工具无法满足多变的数据源,研究高效爬取健康资讯内容新方法迫在眉睫。基于Python的网络健康资讯抓取方案,整合多个数据源,抓取内容更为全面;利用WebDriver和Python的Selenium库,能够较好地应对复杂网络状况,通过多线程技术极大提高爬虫效率。对抓取的癌症数据进行统计分析,对多线程效率进行对比分析,显示爬虫具有良好的适应性。基于Python的网络健康咨询抓取方案能快速抓取网络资讯,为后续科研打下基础。
|
关 键 词: | 爬虫 多数据源 Python 网页解析 |
|
| 点击此处可从《教育技术导刊》浏览原始摘要信息 |
| 点击此处可从《教育技术导刊》下载免费的PDF全文 |
|