基于领域向量模型的新闻网页分类算法 |
| |
引用本文: | 潘澄.基于领域向量模型的新闻网页分类算法[J].教育技术导刊,2015,14(7):57-60. |
| |
作者姓名: | 潘澄 |
| |
作者单位: | 合肥工业大学 计算机与信息学院,安徽 合肥 230009 |
| |
摘 要: | 随着互联网中网页数量的激增,网页自动分类已经成为互联网技术中亟待解决的问题。提出一种领域向量模型的设计与构建方法,设计并实现一种针对新闻网页的基于领域向量模型的网页分类TSC(Topic Sensitive Classify)算法,从新的角度解决网页自动分类问题。首先,对大量的新闻网页URL进行分析,提取新闻网页的URL特征;然后,设计一个领域向量模型,对特定领域的新闻网页内容特征进行提取;最后,结合新闻网页URL特征和内容特征对新闻网页进行自动分类。实验结果表明,TSC算法分类效果比传统SVM和ID3等文本分类算法更优。
|
关 键 词: | 领域模型 网页信息模型 网页分类 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《教育技术导刊》浏览原始摘要信息 |
| 点击此处可从《教育技术导刊》下载免费的PDF全文 |
|