基于Viterbi算法的网页分类排序动态爬虫策略 |
| |
引用本文: | 张鸿飞,邵玉斌,龙华,杜庆治.基于Viterbi算法的网页分类排序动态爬虫策略[J].教育技术导刊,2018,17(4):47-50. |
| |
作者姓名: | 张鸿飞 邵玉斌 龙华 杜庆治 |
| |
作者单位: | 昆明理工大学 信息与自动化学院,云南 昆明 650500 |
| |
摘 要: | Viterbi算法是一种基于图的动态规划算法,用于解决最短路径问题。针对当前网站排序算法对网站排名存在忽略网站主题、新站点排名无法超越旧站点等问题,提出了一种改进算法。改进算法利用网站入链数量以及网站内容与主题相关度两个参量,结合Viterbi算法思想,在逐层访问过程中选取综合条件最优的网站,优胜劣汰,形成Viterbi过程,提高分类网站排序的效率和准确性。实验验证了动态爬虫策略的有效性。
|
关 键 词: | 网页排名 爬虫策略 Viterbi算法 |
|
| 点击此处可从《教育技术导刊》浏览原始摘要信息 |
| 点击此处可从《教育技术导刊》下载免费的PDF全文 |
|