首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
C-均值算法是一种普遍使用的聚类实现方法,在此基础上,针对时序数据的特点,使用统计理论对其进行改进,使改进后算法可以自动进行模式分类;并且,可以在可能的生产模式中,发现近似最优解,从而达到减少模式分类次数,提高效率的效果。通过选择数据测试,达到了较好的效果。  相似文献   

2.
芦鸿雁 《黑龙江科技信息》2013,(4):89+133-89,133
针对医学中癌细胞与正常细胞的正确分类率不高的问题,提出BP神经网络对其进行分类。本文介绍了BP神经网络的基本算法及几种改进算法。为了提高癌细胞的检测正确率,本文分别采用四种改进算法训练BP神经网络并进行测试。通过分析其训练效果的关键数据及测试结果,可以得到较高的癌细胞分类准确率。实验表明,采取合适的算法对BP网络进行训练,可以达到较好的分类效果。  相似文献   

3.
提出了一种特征选择和特征抽取相结合的特征降维方法.首先使用改进的k-means聚类算法对特征进行选择,然后使用SVD方法在基于语义层面上对特征空间进行压缩,试验结果表明,这种特征降维模式在文本分类的准确性方面效果较好.  相似文献   

4.
"新浪爱问"和"百度知道"这类问答服务系统的主要任务之一是对问题进行分类,以便于组织用户产生的问题数据,并进行进一步的分析处理。问答服务系统的实际应用需求对问题分类算法在分类效果、计算复杂度以及对噪声数据敏感度等方面提出了较高的要求。基于信息检索思想,本文提出一种基于类文档排名的分类算法,并从语言模型的角度对该算法进行分析和改进。通过在一个大尺度的问题数据集合进行的一系列实验,表明本文提出的算法在问题分类任务中可以取得优于传统算法的分类效果;同时,该算法计算量较小,适用于处理大规模数据,可以很好的满足问答服务系统中对于问题分类算法的要求。  相似文献   

5.
引入粒子群算法对k-means算法进行改进,用信息熵去验证所聚类的效果,并将改进后的算法用于人才培养模式的制定中,可以为高校计算机专业创新型人才培养方案的制定提供比较科学、客观的决策支持。  相似文献   

6.
研究了中文文本分类中的文本表示方法,提出了对中文文本表示因素的分析框架,并通过对3个数据集实验结果的分析,确定了各种文本表示因素对分类效果的影响.直接使用汉字进行划分也可以获得较好的分类效果;简单的不使用很大词库的分词和使用大词库的分词,以及复杂的分词对分类效果影响不大;仅使用01表示特征是否出现也可以获得比较好的分类效果;采用综合了合理的向量取值(如使用合适的归一化算法)可以较大幅度地提高分类准确率等.这些结论为后续的应用提供了指导原则.  相似文献   

7.
研究针对海量数据流的分类方法,构建分类结果评判数学模型,保证分类系统的稳定性。与静态数据相比,数据流具有动态变化性、传输高速性、高维有序性以及规模宏大性,且存在概念漂移的现象,采用传统的分类方法进行数据流分类,很难处理其中大量的不确定性信息,分类的准确率较低、耗费时间长,无法达到理想的分类效果。为此,提出基于改进决策树算法的海量数据流分类方法。针对原始数据中的冗余进行预处理,去除冗余,提高分类效率,采用改进决策树算法,建立海量数据流决策树分类模型,并依据模糊粗糙集理论构建评判数学模型,对分类结果进行评价。实验结果表明,采用改进的分类方法进行海量数据流分类,能够有效的提高分类系统的稳定性与运行效率,保证分类结果的准确性,能够满足实际的应用需求。  相似文献   

8.
罗琴 《黑龙江科技信息》2009,(28):101-101,156
在朴素贝叶斯算法的基础上,采用多变量贝努里事件模型对该算法进行改进,并基于改进的算法建立了一个垃圾邮件过滤系统。分别在Spam Assassin、CCERT2005-Jul语料集上用cost-sensitive评价法对该系统进行评价,考虑到特征数量选取对结果的影响,先实验选取最佳性能时的特征数量。可以看到,该过滤系统可以达到很好的过滤效果。  相似文献   

9.
这篇文章研究的是文本分类中的特征词提取部分的算法中的二元正态分离法的改进。文章分析了原有算法未加入词频统计的概念和因此产生的不足,提出了分散度的概念,并设计了加入分散度概念的改进算法公式,通过具体的文本分类实验表明该算法的改进在中文文本分类应用中较原算法和其他特征词选择算法在分类效果上比较具有优势。  相似文献   

10.
在朴素贝叶斯算法的基础上,采用多变量贝努里事件模型对该算法进行改进,并基于改进的算法建立了一个垃圾邮件过滤系统.分别在Spam Assassin、CCERT 2005-Jul语料集上用cost-sensitive评价法对该系统进行评价,考虑到特征数量选取对结果的影响,先实验选取最佳性能时的特征数量.可以看到,该过滤系统可以达到很好的过滤效果.  相似文献   

11.
关联分类及其改进算法综述   总被引:1,自引:0,他引:1  
关联分类算法是分类中一个重要的方法,但是基于支持度—置信度框架的传统关联分类算法会产生很多质量不高的规则。为了提高传统关联分类算法的准确率,以提出大量改进算法,综述关联分类及其改进算法。首先介绍关联分类算法及其改进算法所涉及的基本概念,其次就关联分类算法的三个步骤规则生成、规则度量与剪枝、未知实例预测综述关联分类及其改进算法。最后对关联分类及其改进算法进行总结与展望。  相似文献   

12.
针对传统RSA算法在对网络信息进行加密的时候还存在运算速度不快、加密效果不好的问题,本文提出有关改进SMM算法的RSA网络信息加密算法,第一步是针对SMM算法的求模运算量以及乘法时间进行优化操作,第二步是使用改进的SMM算法对RSA算法进行优化,针对其算法的二进制指数中的汉明重量进行改良,目的是为了减少迭代数,最终提升原来算法的加密功能。通过算法仿真实验结果可以看出,本文提出的基于改进SMM算法的RSA网络信息加密算法以及传统RSA加密算法,再与SMM算法进行比较,加密以及解密过程的速度更快,并且加密效果更强。  相似文献   

13.
云计算中的资源具有实时性、动态性、随机性等特点,传统的数据挖掘方法已经达到满意的预测效果。本文提出了一种基于云计算的数据挖掘方法,首先收集云计算中的数据资源,通过关联规则对其分类,然后将分类后的云计算资源作为学习样本进行支持向量机的输入,利用改进的粒子群算法来选择向量机的最优参数,建立优化的模型。仿真平台说明本文的算法有效的提高云计算下的数据挖掘效果。  相似文献   

14.
当可燃气体浓度含量达到一定程度时,遇到火源就会引起爆炸造成经济损失。通过对可燃气体爆炸风险的特征变化能预测在浓度达到极值前,进行危险判断。提出基于对痕量多组分可燃气体浓度变化图谱特征提取改进算法,对可燃气体浓度图谱特征进行处理,获得归一化后的图谱灰度图像信息;利用局部而知模式提取Gabor图谱纹理特征;最后通过迭代计算采集后的特征。利用卷积运算对不同气体的特征进行分类,利用分类后的结果实现痕量多组分可燃气体浓度的图谱识别。实验证明运用气体图谱特征改进算法对可燃气体浓度特征提取后,通过卷积运算对痕量多组分气体浓度特征识别,能预测出可燃气爆炸的风险趋势变化。  相似文献   

15.
基于改进SVM的网络异常数据优化分类方法研究   总被引:1,自引:0,他引:1  
对网络异常数据进行准确分类能够为网络入侵分类、保障网络安全提供准确的依据。传统算法没有考虑网络异常数据分布的不均衡性和高动态变化性,从而降低了分类的准确率和效率。为此,提出一种基于改进SVM的网络异常数据分类方法。在确定网络异常数据隶属度的时候考虑到其与类中心的关系,对传统的SVM进行了改进,在构建SVM分类器的过程中,引入了模糊隶属度函数,并将网络异常数据的分类问题转换为二次规划问题,最终实现网络异常数据的准确分类。仿真实验结果表明,利用改进算法进行网络异常数据分类,能够提高网络异常数据分类的准确率和分类效率,效果令人满意。  相似文献   

16.
黄莉  李湘东 《情报杂志》2012,31(7):177-181,176
KNN最邻近算法是文本自动分类中最基本且常用的算法,该算法中需要计算文本之间的相似度.以Jensen-Shannon散度为例,在推导和说明其基本原理的基础之上,将其用于计算文本之间的相似度;作为对比,也使用常规的余弦值方法计算文本之间的相似度,并进而使用KNN最邻近算法对文本进行分类,以探讨不同的相似度计算方法对使用KNN最邻近算法进行文本自动分类效果的影响.多种试验材料的实证研究说明,较之于余弦值方法,基于Jensen-Shannon散度计算文本相似度的自动分类会使分类正确率更高,但会花费更长的时间.  相似文献   

17.
线性分类器作为理解最简单表现最直观的算法之一,在众多更新更复杂的算法的涌现之后,依然在模式识别的应用中有一席之地,有被学习的必要。本文首先建立了一个完整的线性分类器进行手写数字识别,使用MATLAB的研究环境和MNIST的手写数据库样本。首先对于待识别的样本进行预处理,建立线性分类器,使用样本集进行训练并分类,再使用测试集得到其分类效果的数据。为了不同模式识别样本的性能,本文选取了K均值聚类,BP神经网络和SVM算法,分别建立了分类器后,使用相同的样本集进行训练并测试其性能,从识别速度和准确性进行比较。最后本文对不同算法的测试效果进行比较,总结,分析各个识别算法的优劣。建立用户界面直观反映各个分类器的优劣和使用效果。  相似文献   

18.
本文受流形学习思想的启发,提出了一种改进的最大方差展开算法,该算法在最大方差展开算法(MVU,maximumvarianceunfolding)基础上引入了拉普拉斯特征映射(LE,Laplacian Eigenmap)的保持局部流形结构不变的特性,在保持局部几何结构的同时考虑类别信息将不同类的数据尽可能远地在子空间中进行映射,该算法兼具流形和监督特性。通过在多个人脸库中的实验表明,该算法具有一定的鲁棒性和较高的识别性能,达到了较高的提取分类信息和压缩特征空间维数的效果。  相似文献   

19.
针对向量空间模型中语义缺失问题,将语义词典(知网)应用到文本分类的过程中以提高文本分类的准确度。对于中文文本中的一词多义现象,提出改进的词汇语义相似度计算方法,通过词义排歧选取义项进行词语的相似度计算,将相似度大于阈值的词语进行聚类,对文本特征向量进行降维,给出基于语义的文本分类算法,并对该算法进行实验分析。结果表明,该算法可有效提高中文文本分类效果。  相似文献   

20.
本文采用数据挖掘技术和情报语言学方法 ,构建了一个可以用于从因特网上提取信息、进行自动标引和自动分类的系统 ,提供了一种创建自动分类知识库的新方法 ;提出了一种用于主题抽取的位置加权算法 ,研制了一种改进汉语同义词识别性能的新方法 ,并在自动分类时运用了这种语义相似度识别算法。最后还对该系统性能进行了测试  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号