首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 203 毫秒
1.
基于SVM与KNN的中文文本分类比较实证研究   总被引:1,自引:0,他引:1  
本文详细介绍了中文文本分类过程以及SVM和KNN两种方法在中文文本分类中的具体步骤,给出了中文文本分类的模型。通过实验对SVM算法和传统的KNN算法应用于文本分类效果进行了比较性实证研究。研究表明,SVM分类器较KNN在处理中文文本分类问题上有更良好的分类效果,有较高的查全率和查准率。  相似文献   

2.
比较了ICA方法进行面部表情识别的两种架构ICA1和ICA2。采用欧式、城区、余弦KNN和6种核函数的SVM算法进行识别,比较了不同的距离函数和核函数对整体识别率和单个表情识别率的影响。实验表明:ICA1整体上优于ICA2;对于KNN算法,在ICA1下KNN+城区距最优,t检验不显著,在ICA2下,KNN+余弦距最优,t检验显著;SVM算法对ICA1有效,对ICA2失效;在ICA1下,对SVM算法,线性、径向基和Sigmoid核取得相同的识别率;惊奇是最好识别的表情,高兴是最难识别的表情。最后利用神经科学对视觉脑区的最新研究,得出稀疏的特征比稀疏的编码能够取得更好的表情识别率。  相似文献   

3.
借助文本分类系统软件,采用来自10个大类的中文文本数据,按照训练集与测试集2:1的比例,使用KNN和SVM分类算法,对数据集进行自动分类的实验。旨在通过具体的语料库实验,探讨文本自动分类的关键技术,分析、比较与评价实验结果,探讨文本分类中具体参数的设置和不同分类算法之优劣。  相似文献   

4.
渔业文本分类是充分利用渔业信息资源的有效途径。针对中文文献资料的结构特点,提出一种结合特征词权值和支持向量机(Support Vector Machine,SVM)的渔业文本分类方法,利用向量空间模型(Vector Space Model,VSM)构建文本向量空间,并结合特征词权值计算文本特征向量中的各特征项,将构建的文本向量送入SVM进行渔业文本分类。采用中国知网下载的标准文档进行了实验测试,并考察了准确率和召回率两个指标,实验结果表明,文章提出的渔业文本分类方法具有较好的分类效果。  相似文献   

5.
为了提高文本分类的准确性和效率,提出了一种基于潜在语义分析和超球支持向量机的文本分类模型.针对SVM对大规模文本分类时收敛速度较慢这一缺点,本文将超球支持向量机应用于文本分类,采用基于增量学习的超球支持向量机分类学习算法进行训练和分类.实验结果表明,超球支持向量机是一种解决SVM问题的有效方法,在文本分类应用中具有与SVM相当的精度,但是明显降低了模型复杂度和训练时间.  相似文献   

6.
目的:利用SVM对新疆高发病哈萨克族食管癌X线医学图像进行分类研究。方法:随机选取正常食管和缩窄型食管癌X线医学图像各120张,运用灰度直方图法和灰度共生矩阵法提取图像的特征,采用Lib-SVM工具箱,在SVM类型设置上选择C-SVC,选择4种核函数,通过调整核函数的参数与C-SVC分类器的参数进行实验。结果:利用灰度直方图法提取的特征量进行分类时,线性核函数和RBF核函数的分类准确率较高,均可达92.5%;利用灰度共生矩阵法提取的特征量进行分类时,线性核函数、RBF核函数、Sigmoid核函数的分类准确率较高,均可达87.5%;利用灰度直方图特征和灰度共生矩阵特征组成的综合特征进行分类时,多项式核函数和RBF核函数的准确率较高,均可达97.5%。结论:灰度直方图特征的分类能力优于灰度共生矩阵特征;综合特征的分类能力优于单一特征的分类能力;RBF核函数的分类性能较其他核函数突出。SVM对食管癌X线医学图像具有较高的分类识别率,为新疆高发病哈萨克族食管癌的计算机辅助诊断系统的研究奠定了基础。  相似文献   

7.
KNN算法是文本分类技术中比较常用的算法。但是,当训练集容量较大时,KNN算法分类的效率大大降低。在对中文短信文本的分类时,结合中文短信文本的特点,给出了先由LAS算法进行降维,然后利用KNN算法进行分类的算法。实验结果表明,该算法提高了中文短信文本的分类质量和分类速度。  相似文献   

8.
针对传统的竞争情报分析模型无法有效地对情报源进行深入挖掘分析,获取企业所需的深层情报内容,本文构建了基于语义空间和SVM的竞争情报分类分析模型.该模型利用语义空间来表示文本,提高文本表示的精度;利用基于语义核函数的SVM分类分析算法进行学习和训练,实现语义层面的竞争情报分类分析.实验结果表明,该模型取得了很好的预期效果,显著提高了竞争情报分析的准确率和效率.  相似文献   

9.
黄莉  李湘东 《情报杂志》2012,31(7):177-181,176
KNN最邻近算法是文本自动分类中最基本且常用的算法,该算法中需要计算文本之间的相似度.以Jensen-Shannon散度为例,在推导和说明其基本原理的基础之上,将其用于计算文本之间的相似度;作为对比,也使用常规的余弦值方法计算文本之间的相似度,并进而使用KNN最邻近算法对文本进行分类,以探讨不同的相似度计算方法对使用KNN最邻近算法进行文本自动分类效果的影响.多种试验材料的实证研究说明,较之于余弦值方法,基于Jensen-Shannon散度计算文本相似度的自动分类会使分类正确率更高,但会花费更长的时间.  相似文献   

10.
应用于中文文本分类的改进KNN算法   总被引:1,自引:0,他引:1  
本文介绍了文本分类的基本流程及涉及到的相关技术,详细介绍了传统KNN方法并分析了它存在的不足之处,在此基础上提出了一种改进的KNN方法,该方法在相似度计算上进行了改进,通过实验证明了改进的KNN方法在宏召回率、宏准确率、宏F1值以及微F1上都有所提高。  相似文献   

11.
LDA模型在专利文本分类中的应用   总被引:1,自引:0,他引:1  
对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果:与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。  相似文献   

12.
In order to solve the problem of the low leakage recognition rate of water pipes due to operating conditions influence in practice, a multi-source information fusion recognition method based on VMD and SVM is proposed. In this method, it firstly uses VMD to decompose the acoustic vibration signal of water pipes, and then a principle of IMF component selection is proposed. The IMF component selection is selected to extract the kurtosis vector of VMD, the sample entropy vector of VMD, the center frequency vector of VMD. Because the different eigenvectors to the sensitivity of different operating conditions have a great gap, the three eigenvectors become a new eigenvector by multi-source information fusion, which is finally input into SVM classifier for leak recognition. The comparison of experimental results show that this method can effectively recognize the signals of water pipes leak and other operating conditions. The recognition accuracy rate reach 98.75%, which is 1.04 times higher than SVM sorting technique, 1.18 times higher than that SVM classification recognition accuracy based on the sample entropy vector of VMD,1.14 times higher than that SVM classification recognition accuracy based on the kurtosis vector of VMD, and 1.11 times higher than SVM classification recognition accuracy based on the center frequency vector of VMD.  相似文献   

13.
王和勇  崔蓉 《现代情报》2015,35(9):63-69
在线用户评论是电子商务网站中的一个重要板块,找出在线用户评论的关注点有利于网站、商家及时有效地查看用户的反馈信息。本文在对在线用户评论进行分词的基础上,分别使用拉普拉斯评分(LS,Laplacian Score)及信息增益(IG,Information Gain)对所得到的分词结果进行文本主题挖掘,并使用支持向量机(SVM,Support Vector Machine)进行分类精度的检验。实证结果表明,主题选择的结果是有效的,分类的效果与选择的关键词个数和核函数有关。  相似文献   

14.
基于支持向量机的土地覆被遥感分类   总被引:4,自引:0,他引:4  
遥感图像的分类是研究土地变化的基础。传统的遥感图像分类存在着精度不高,不确定性强的特点。本文使用支持向量机(SVM,Support Vector Machine)技术对遥感图像分类,并与传统的最大似然分类进行对比试验。结果表明不同参数组合下SVM的分类总精度和Kappa指数普遍高于最大似然分类的结果,其最高总精度高出最大似然分类0.9779%。SVM和最大似然分类结果都存在着类别混分,但是SVM混分程度远小于最大似然分类,其精度保持在可接受的范围内,如对于低密度草而言,最大似然分类的用户精度下降到84.68%,而支持向量机的用户精度虽然也有下降但还是保持在92.31%。SVM在样本数目很少的情况下表现出了出色的学习能力,是机器学习领域很有希望的一种学习方法。  相似文献   

15.
李海蓉 《情报科学》2012,(6):852-857
简要介绍语义模板的概念,提出基于语义模板向量空间的文档自动分类模型。利用支持向量机(SVM,Support Vector Machine)分类算法对文档测试集进行基于语义模板空间、词向量空间的分类实验,实验结果表明,基于语义模板空间的文本分类性能比基于词向量空间的分类性能要高。  相似文献   

16.
【目的/意义】政府机构的数据规模在数字时代得到了空前的增长,这也为多类目政务数据的自动化处理工 作带来了挑战。在此背景下,本文通过引入多层次文本分类方法,对进出口商品的自动归类问题进行了探索。【方 法/过程】基于HS编码的层次结构,构建了一个包含三个层次的分类模型,通过逐层判别进而累加的方式进行文本 分类;同时,对SVM与TextRNN等算法的分类效果进行了对比。【结果/结论】多层次分类模型对于解决商品归类问 题的总体效果较好;在数据充分的情况下,TextRNN 比 SVM 的效果相对较好(第 1 层 93.00%>92.90%,第 2 层 96.46%>96.38%),而在学习不充分的环境下,SVM具有较大优势(第3层92.49%<95.92%);SVM取得了85.88%的最 佳叠加正确率。【创新/局限】本研究尝试基于多层次分类方法解决商品自动归类问题,但数据规模及应用场景仍有 待拓展。  相似文献   

17.
高晓琴 《科技通报》2012,28(4):70-71
主要研究了文本分类精度问题。介绍了文本分类的基本过程,提出了一种改进的支持向量机文本分类技术,设计并实现了一个开放的中文文档自动分类系统。实验结果表明,提出的方法不仅具有较高的训练效率,同时也能得到很高的分类准确率和查全率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号