首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 359 毫秒
1.
本文在中文维基百科知识库的基础上,对文本语义相关度计算进行了研究.实验选取了2014年12月15日在中文维基百科网站下载的主题文章,进行处理后作为语义概念知识库.在Words-240测试集上的实验结果表明,该方法比基于Word Net的LSA算法的效果要好.  相似文献   

2.
提出一种基于中心核对齐的模糊支持向量机(Centered kernel alignment-based fuzzy support vector machine, CKA-FSVM)算法并应用于中文农业文本分类.首先通过爬虫技术获取2 246个中文农业文本并进行数据预处理,然后进行文本向量化和特征处理,最后构建分类器模型,实现中文农业文本的自动分类.实验结果显示CKA-FSVM算法在中文农业文本分类上的平均准确率为91.69%,平均F1值为94.96%,比5个对比算法中的最好结果分别提升了0.04和0.24个百分点,表明该模型在中文农业文本分类领域具有较好的性能.  相似文献   

3.
KNN算法是文本分类技术中比较常用的算法。但是,当训练集容量较大时,KNN算法分类的效率大大降低。在对中文短信文本的分类时,结合中文短信文本的特点,给出了先由LAS算法进行降维,然后利用KNN算法进行分类的算法。实验结果表明,该算法提高了中文短信文本的分类质量和分类速度。  相似文献   

4.
提出了一种基于投影寻踪改进KNN中文文本分类方法,与现有的中文文本分类算法相比,该方法具有较高的计算效率。给出了具体实现过程并将其用于文本分类中,实验证明了该算法用于文本分类的有效性及其高效率。  相似文献   

5.
对基于中文的Web文本分类技术进行了研究,介绍了web文本分类的基本过程和Web文本预处理及文本特征选取的方法,重点介绍了一种常用的基于内容的分类算法KNN。最后通过实验测试了使用KNN算法的中文Web文本分类技术的效果。  相似文献   

6.
中文文本分类是对中文按类别来进行分类。基于交叉覆盖算法的文本分类运用交叉覆盖算法作为分类器,能够实现对中文文本的分类。通过它和SVM(Support Vector Machine)分类器的对比实验,说明了交叉覆盖算法,相比于SVM分类器对中文文本分类效果更好。  相似文献   

7.
本文提出了一种基于主题采集的Web文档自动分类算法,该算法对朴素贝叶斯分类模型进行了改进。利用该算法,我们实现了一个基于主题信息采集的网页分类系统。文中着重对该系统的页面解析、中文分词和文本分类模块进行了论述,并对改进后的贝叶斯分类方法进行了评估。实验结果表明,该算法对网页分类有较高的准确性。  相似文献   

8.
针对短语文本的分类、聚类、信息查询问题,提出了一种新的中文短语文本相似度计算方法.用该方法计算出的文本相似度及一个比较文本与多个被比较文本所得相似度变化趋势是合理的,因此可以满足短语文本分类/聚类和信息查询的需要.  相似文献   

9.
如今文本自动分类技术发展已较为成熟,中文网页的分类也是自动分类技术的应用之一.分类精度依赖于分类算法,贝叶斯算法在网页分类中有很广泛的使用,但它需要大量且已标记的训练集,而获得大量带有类别标注的样本代价很高.本文以中文网页信息增量式的学习作为研究对象,利用网页已验信息处理训练集增量问题,提出一种改进的增量式的贝叶斯分类算法,研究利用未标记的中文网页来提高分类器的性能,并进行相关实验对比和评价.  相似文献   

10.
为弥补目前国内学者只做单一算法研究且语料单一的缺陷,使用Word2vec词向量模型结合支持向量机(SVM)、卷积神经网络(CNN)和长短期记忆网络(LSTM)3种不同分类算法,研究了不同中文文本分类问题,包括微博语料的多维细粒度情感分类、酒店评价的倾向性分析和新闻文本的主题分类。将3种分类模型在不同文本中的分类效果进行对比,结果显示这3种算法对于不同的中文分类效果各有不同:不同维度的词向量对准确率等评价指标影响很大;支持向量机模型更适合于细粒度的微博情感分类;卷积神经网络、长短期记忆网络算法更适合于噪声小、文本长且规范的新闻主题分类任务。分类粒度会对算法准确性产生影响,粒度越细、任务越复杂,算法准确性越低。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号