首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
传统的K最近邻算法(KNN)是机器学习领域中思想简单、易于学习、对低维数据处理效率较高的分类方法之一,但是在高维数据的分类中效率不高、性能会降低。针对传统KNN算法在处理多维数据集上的不足,提出了一种新的KNN改进算法:将线性回归方法引入该算法中,利用属性间的决定系数选择合适的属性集合,降低高维数据集的维数,并采用卡方距离作为KNN算法的距离度量函数,克服欧式距离不能体现特征向量之间相对关系的不足。实验结果分析表明,在标准数据集的测试中,基于线性回归方法的改进KNN算法达到了较高的分类准确度,相对于传统KNN算法在属性识别度上有了一定的提高。  相似文献   

2.
电类实验教学过程中人工评判学生所测数据工作烦琐,影响了教学质量和效率。该文提出了改进的K近邻(K-nearest neighbors,KNN)分类算法,即基于均值漂移、安全间隔和核主成分分析(KPCA)的M-KPCA-KNN(KNN based on margin and KPCA)算法,以判断学生测量数据正确与否和错误原因。首先利用KPCA对高维实验数据进行降维,然后利用均值漂移向量找到不同类别数据的最密集位置,并在不同类别数据的边界设置安全间隔,最后,将与待测样本距离最近的k个数据设置权重,计算每个类别的权重和,权重和最大的类别为待测样本的类别。与现有的KNN算法相比,M-KPCA-KNN算法不仅提高了分类正确率,而且降低了时间复杂度。  相似文献   

3.
对海量数据的处理能力是数据挖掘最关注的问题。决策树作为一种分类器,是数据挖掘中用到的一种基本方法之一。基于C4.5的决策树改进算法,是在一些典型的决策树分类算法的基础上提出的,基本思想是在建树过程中,用属性依赖度替代信息增益率来确定划分条件属性的顺序。该算法借鉴MedGen算法的阈值设定方法,在简化决策树剪枝和优化过程的同时,可优化C4.5算法中使用信息熵率的时间复杂度,避免了使用信息熵带来的不当划分。简述了该改进算法的执行过程,证明了算法的正确性。  相似文献   

4.
周靖 《茂名学院学报》2011,21(4):56-58,66
在文本分类过程中,为解决传统支持向量机(SVM)多类分类的不可分区域问题及提高分类性能,提出了一种改进的偏二叉树多类SVM算法。算法依据根据样本的分布情况计算训练集文本特征参数的信息熵,并将熵值结合欧式距离公式以确定各类文本间的相似性测度;以相似性测度作为偏二叉树结构的分类走向,对训练集进行学习,构建各个二类子SVM分类器。实验结果表明,该算法具有较高的分类性能,能更好地解决实际文本分类过程中的问题。  相似文献   

5.
应用K-最邻近方法数据挖掘技术,研究数据挖掘技术在就业预测中的应用。同时,针对传统的K-最邻近方法的几个不足之处提出了相应的改进办法,主要包括特征属性的加权处理及K值选择问题的解决。最后,通过实验结果对传统的KNN算法与改进的KNN算法进行比较,以验证改进的KNN算法的有效性。  相似文献   

6.
针对传统KNN算法计算量大、识别率低的问题,提出一种加权K最近邻法(KNN)结合随机森林(RF)的表情识别方法。首先通过监督下降方法(SDM)提取人脸特征点,然后计算样本间的平均距离,并借此划分测试样本,结合加权KNN与随机森林的特点,对不同样本采用不同的分类器,最后采用JAFFE表情数据库进行实验。结果表明,改进后的方法不仅识别率更高,而且简化了计算复杂度。  相似文献   

7.
对经典决策树算法ID3的分类属性信息熵进行简化计算,主要使用等价无穷小概念和2阶麦克劳林展开公式实现简化,结果较粗糙。针对这一不足,在介绍ID3算法的基础上,使用数学分析方法对此类算法进行讨论和分析,并作出了相应改进。  相似文献   

8.
k近邻多标签学习算法是多标签学习领域经典算法之一,为处理多标签问题提供了新思想。将PCA改进算法应用到k近邻多标签学习算法中,提出信息损耗率,并实现动态降维;根据PCA算法计算样本的属性重要度;采用属性重要度作为权重改进距离计算方法。与已有多标签学习算法相比,该算法各评价指标明显优于已有算法。  相似文献   

9.
针对文本类型数据的分类进行研究,用VSM模型和TF IDF技术对文本文件进行了数据样本抽取加权,得到文本相似度矩阵;采用不同样本距离计算方法和K-Means算法对数据进行了聚类实验,获得聚类结果并进行了分析和总结;基于实验结论,研究了不同距离计算方法之间的区别以及适用的数据类型。  相似文献   

10.
现有的增量聚类算法虽然解决了数据增量和类簇重叠问题,但在距离度量时没有考虑属性重要度不同,且普遍拥有较高的时间复杂度。针对以上问题,提出一种基于属性重要度的加权三支决策增量软聚类算法(W-TIOC-TWD算法),将属性重要度考虑到距离度量中,弥补了现有算法在聚类过程中将所有属性的重要程度视为相等的不足。该算法还引入离群点概念,降低了算法的时间复杂度。基于人工数据集和UCI数据集的实验结果表明,W-TIOC-TWD算法的聚类准确率优于比较算法。  相似文献   

11.
Most of the existing classification accuracy indices of attribute patterns lose effectiveness when the response data is absent in diagnostic testing. To handle this issue, this article proposes new indices to predict the correct classification rate of a diagnostic test before administering the test under the deterministic noise input “and” gate (DINA) model. The new indices include an item‐level expected classification accuracy (ECA) for attributes and a test‐level ECA for attributes and attribute patterns, and both of them are calculated based solely on the known item parameters and Q ‐matrix. Theoretical analysis showed that the item‐level ECA could be regarded as a measure of correct classification rates of attributes contributed by an item. This article also illustrates how to apply the item‐level ECA for attributes to estimate the correct classification rate of attributes patterns at the test level. Simulation results showed that two test‐level ECA indices, ECA_I_W (an index based on the independence assumption and the weighted sum of the item‐level ECAs) and ECA_C_M (an index based on Gaussian Copula function that incorporates the dependence structure of the events of attribute classification and the simple average of the item‐level ECAs), could make an accurate prediction for correct classification rates of attribute patterns.  相似文献   

12.
粗糙集属性约简就是在保持信息系统的分类和决策能力不变的条件下,删除不相关或不重要的属性,使原有系统得到简化。利用一种基于粗糙集的属性约简算法,通过计算属性在可分辨矩阵中出现的频率来定义属性的重要性,可使约简结果保持近似精度。实验表明该算法可以简化评教指标体系,降低信息系统所需存储空间。  相似文献   

13.
传统图像特征提取具有较高维度缺陷,造成算法分类效率低、复杂度高、分类速度慢、计算开销大等问题。为此提出AAM算法,定位关键点提取人脸表情几何特征。将朴素贝叶斯分类器结合特征属性重要度调节高斯核函数,使用K近邻算法实现分类决策,提出一种WNBC-KNN分类方法,从降低数据维度和分类算法两方面优化人脸表情分类。在CK+数据和JAFFE数据集上实验,识别率分别达到90%和86%。与传统的朴素贝叶斯算法比较,改进后的算法识别率分别提高6%和30%。  相似文献   

14.
提出了一种改进的基于粗集和Tabu搜索的属性约简算法。首先利用粗集中的一般约简算法,确定开始进行Tabu搜索的属性个数;然后逐渐减少属性个数,利用。Tabu搜索搜寻含有较少属性个数的属性约简。在进行Tabu搜索时,利用任一属性约简必包含属性核来减少算法的计算时间和搜索空间。实例表明,改进后的算法既具有较高的算法效率,又能以较大的概率得到最小属性约简。  相似文献   

15.
BP神经网络是目前应用最广泛的人工神经网络模型之一,在分类和识别上表现出良好的特性,因此被研究者用于认知诊断评估以对被试进行诊断分类。通过模拟研究,考查属性个数、属性层级关系、测验长度、题目质量、测试样本量5个因素对BP神经网络在认知诊断中分类准确性的影响。结果表明:1)基于BP神经网络的认知诊断分类准确率不依赖于测试样本量;2)题目质量和测验长度对BP神经网络的诊断准确率有显著的积极影响;3)属性个数对BP神经网络的分类准确率有消极影响;4)题目质量一定程度上会影响BP诊断方法在不同属性层级结构上的分类准确率。  相似文献   

16.
针对传统信用评价方法分类精度较低、数据集属性变量间存在相关性等问题,提出基于主成分分析的稀疏贝叶斯学习(PCA-SBL)算法。首先对数据集特征变量进行主成分分析,使降维后的变量无相关性|其次,对主成分分析后的数据进行稀疏贝叶斯分类|最后将 PCA-SBL 分类方法分类精度与传统分类方法精度进行比较。分析发现,在 German Credit Data 和 Australian Credit Data 上,与传统 KNN、朴素贝叶斯、SVM、随机森林、决策树相比,改进的 SBL 算法分类精度平均提高了 5.26%、4.65%、2.11%、2.125%、4.66%,与稀疏贝叶斯学习算法(SBL)相比,平均提高 0.965%,从而证明 PCA-SBL 算法具有更高的分类效果。  相似文献   

17.
针对(αi,k)—匿名算法使用有损链接思想无法对用户身份进行保护的问题,引入属性分区置换概念,提出基于属性分区的(αi,k)-p匿名算法,对桶中QI属性采取分区、置换的方式保护用户身份信息。在人口真实数据集21 956条数据上对两种算法进行敏感值保护和会员身份保护有效性对比实验。结果表明,敏感值泄露概率最高时只刚好超过0.05,接近传统方法的1/4;在会员身份保护方面,FOR值在0.7以上。相对于(αi,k)—匿名算法,该算法能更好地保护敏感值信息和会员身份信息。  相似文献   

18.
针对银行CRM中的数据冗余大、数据挖掘效率低的问题,将基于属性约简的数据预处理方法应用在银行CRM中.使用决策表属性重要度属性约简算法简化客户贡献度决策表,实现决策表条件属性的归约.通过该算法在某商业银行CRM数据预处理过程中的实际应用,证实约简算法应用在银行CRM系统是有效可行的.  相似文献   

19.
本文以作文语料为基础,考察西班牙学生汉语定语使用情况。研究发现:中级I阶段西班牙学生单定语结构使用率和正确率均显著高于双定语结构。该阶段的主要偏误是“的”的误加、遗漏与错位,其次是量词充当定语成分时误代、遗漏与误加,再次是定语的错位。偏误原因主要是母语负迁移。本文针对以上偏误特点,提出了教学建议。  相似文献   

20.
针对服装推荐方法推荐精度不高、覆盖率低,不能充分挖掘用户潜在兴趣的问题,提出一种基于用户图像内容属性偏好与时间因子的服装推荐(UIACF)算法。通过构建深度卷积神经网络,提取服装图像中的服装属性,并据此形成用户属性向量,将基于用户属性偏好的相似度与基于时间因子的用户兴趣偏好相似度融合,构建用户偏好模型。将其与基于用户的协同过滤(UCF)算法、基于项目的协同过滤(ICF)算法及基于项目偏好的协同过滤(UCSVD)算法进行比较,结果显示,UIACF 算法准确率提高 14%。该算法为基于用户的服装协同过滤个性化推荐提供了一种新思路,用户潜在兴趣挖掘效率更高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号