首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于领域向量模型的新闻网页分类算法
引用本文:潘澄.基于领域向量模型的新闻网页分类算法[J].教育技术导刊,2015,14(7):57-60.
作者姓名:潘澄
作者单位:合肥工业大学 计算机与信息学院,安徽 合肥 230009
摘    要:随着互联网中网页数量的激增,网页自动分类已经成为互联网技术中亟待解决的问题。提出一种领域向量模型的设计与构建方法,设计并实现一种针对新闻网页的基于领域向量模型的网页分类TSC(Topic Sensitive Classify)算法,从新的角度解决网页自动分类问题。首先,对大量的新闻网页URL进行分析,提取新闻网页的URL特征;然后,设计一个领域向量模型,对特定领域的新闻网页内容特征进行提取;最后,结合新闻网页URL特征和内容特征对新闻网页进行自动分类。实验结果表明,TSC算法分类效果比传统SVM和ID3等文本分类算法更优。

关 键 词:领域模型  网页信息模型  网页分类  
本文献已被 万方数据 等数据库收录!
点击此处可从《教育技术导刊》浏览原始摘要信息
点击此处可从《教育技术导刊》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号