首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
常用的网页分类技术大多基于普通文本分类方法,没有充分考虑到网页分类的特殊性--网页本身的半结构化特征以及网页中存在大量干扰分类的噪音信息,同时多数网页分类的测试集和训练集采源于同一个样本集而忽视了测试集中可能包含无类别样本的可能.基于向量空间模型,将样本集看成由有类别样本和无类别样本两部分组成,同时选择了样本集来自于相同的网站,在去除网页噪音基础上结合文本相似度算法和最优截尾法,提出了一种基于不完整数据集的网页分类技术LUD(Learning by Unlabeled Data)来改善分类效果,提高分类精度.实验证明:LUD算法与传统的分类方法相比较而言,不但可以提高已有类别样本的分类精度,更主要的是提供了一种发现新类别样本的方法.  相似文献   

2.
电类实验教学过程中人工评判学生所测数据工作烦琐,影响了教学质量和效率。该文提出了改进的K近邻(K-nearest neighbors,KNN)分类算法,即基于均值漂移、安全间隔和核主成分分析(KPCA)的M-KPCA-KNN(KNN based on margin and KPCA)算法,以判断学生测量数据正确与否和错误原因。首先利用KPCA对高维实验数据进行降维,然后利用均值漂移向量找到不同类别数据的最密集位置,并在不同类别数据的边界设置安全间隔,最后,将与待测样本距离最近的k个数据设置权重,计算每个类别的权重和,权重和最大的类别为待测样本的类别。与现有的KNN算法相比,M-KPCA-KNN算法不仅提高了分类正确率,而且降低了时间复杂度。  相似文献   

3.
为了改善传统线性插值算法产生的图像模糊和边缘锯齿化现象,提出了一种改进的自适应逆梯度插值算法。该算法根据图像局部梯度特征,对已有的基于逆梯度插值算法中的逆梯度权值进行自适应加权,然后与经典的WaDi插值算法融合,得到改进的插值算法。实验结果表明,改进算法插值图像视觉效果和客观评价准则(峰值信噪比上)都有明显提高。  相似文献   

4.
将边缘Fisher分析引入到MAED算法中,通过构建类内紧凑图和类间分离图,来描述样本点间的几何特征,形成一种新的主动学习方法.该算法利用两个图同时对流形数据局部结构和类鉴别信息进行建模,从而更好地保持了数据的内在几何特征.基于图像数据集的实验结果,证实了该方法的有效性.  相似文献   

5.
提出了一种基于级联投影的高斯混合模型算法.首先,针对不同的特征维度计算高斯混合模型的边缘概率,依据边缘概率模型构造出多个子分类器,每个子分类器包含不同的特征组合.采用级联结构的框架对子分类器进行动态融合,从而获得对样本的自适应能力.其次,在心电情感信号和语音情感信号上验证了算法的有效性,通过实验诱发手段,采集了烦躁、喜悦、悲伤等情感数据.最后,探讨了情感特征参数(心率变异性、心电混沌特征,语句级静态特征等)的提取方法.研究了情感特征的降维方法,包括主分量分析、顺序特征选择、Fisher区分度和最大信息系数等方法.实验结果显示,所提算法能够在2种不同的场景中有效地提高情感识别的准确率.  相似文献   

6.
张磊 《教育技术导刊》2015,14(11):36-39
为提高特征选择算法的分类精度,使特征子集尽快达到全局最优,提出了一种基于教与学优化算法的特征选择方法。该方法首先将最大相关最小冗余的过滤式特征选择算法融入其中,然后利用教与学优化算法对特征子集进行迭代寻优,构造一个混合式特征选择框架。经UCI数据集试验,证明了该算法的收敛速度与分类精度均优于其它算法。  相似文献   

7.
农业文本分类旨在对主流的农业信息网抽取的文本数据集进行分类.在样本充足的情形下,经典的支持向量机方法能取得较好的效果,然而在样本较少或者样本矩阵很稀疏的情形下效果较差.提出了一种基于特征族群语义扩散核(它是语义扩散核的一种)和支持向量机的半监督农业文本分类方法.该方法在经典的支持向量机方法基础上结合特征族群语义扩散核,使得农业文本分类准确率得到一个显著的提升,在训练集样本数量只有原来一半的数量情况下预测原来的测试样本,预测准确率几乎与原来的相同.  相似文献   

8.
极端学习机(ELM)训练速度快、分类率高,已被广泛应用于人脸识别领域,但是在实际问题中由于数据具有较高维数,导致ELM在有限样本下存在学习不充分的问题。传统对数据进行有效维数约简的方法,没有考虑到数据之间判别信息和小样本问题。为此,提出一种强制性保留算法(FLPP),以保持全部样本与局部样本之间的几何结构,同时类间离散度矩阵加入判别信息,因此避免了样本点重叠和小样本问题。实验结果表明,该算法有效提高了极端学习机的泛化性能和分类准确率。  相似文献   

9.
针对传统无人机遥感图像信息提取与分类算法准确率低、稳定性差、无法有效应对大规模复杂遥感图像数据集等问题,提出一种基于RF-SVM的遥感图像处理算法。RF-SVM算法将RF数据集分类性能较强的优势与经典SVM算法数据降维能力相融合,引入随机变量和示性函数扩大样本集的边界,提升对复杂大规模数据集的处理能力,有效控制泛化误差。在对无人机遥感图像的预处理过程中,借助Brovey变换完成对光谱和高分辨率遥感图像的像素级融合,引入核函数并根据获取到的遥感图像特征和后验概率值,实现对遥感图像内部标的物的准确分类。实验结果显示,在RF-SVM算法下,无人机遥感图像信息提取准确率分类平均准确率达到99.81%,且在RF-SVM算法下的样本点感受性曲线稳定性更好。  相似文献   

10.
优化特征加权的FCM算法   总被引:1,自引:0,他引:1  
模糊聚类是一种重要数据分析和建模的无监督方法.在FCM算法中,考虑到样本矢量中各维特征对模式分类的不同影响,本文提出一种优化特征加权的模糊聚类算法,该算法利用主成分分析法提取主要特征向量并根据其对方差的贡献率不同赋予相应权重进行聚类分析.  相似文献   

11.
Fuzzy C-Means(FCM)模糊c均值聚类算法是一个应用广泛、有效的无监督聚类算法。但传统FCM算法存在对所有样本等划分的缺点,导致聚类精度不高、鲁棒性不强。针对上述问题,从整体上引入点密度关系,从局部上引入点邻域信息,用以标记每个样本点,提出基于点密度和邻域信息的模糊c均值算法(DLFCM)。该算法能标记每个不同的样本,克服了FCM算法等划分的缺点,提高了算法的聚类精度和鲁棒性。人造数据集和UCI真实数据集实验验证了该算法的有效性。  相似文献   

12.
近年来Adaboost算法被成功地用于人脸检测中,本文给出了一种基于加权最小平方误差boosting算法的人脸检测。首先本方法在每一次循环中用加权最小平方误差准则训练弱假设,与原始Adaboost算法不同的是弱假设的生成不仅用于预测分类,而且用于估计每次预测的自信率,然后由这组合自信率的弱假设集成构造出强分类器。实践表明基于加权最小平方误差boosting算法的分类器有较高的检测率和较低的正样本误检率。  相似文献   

13.
提出了一种基于改进的模糊C均值算法的分类器设计方法。该方法解决了分类过程中样本点分散和样本错分的问题。其基本思想是:在样本决策函数中引入隶属度函数,为了避免传统的隶属度函数归一化问题,引入放松的归一化条件,利用决策函数根据条件求偏导,得到经过训练的分类器。采用UCI标准进行数据集实验,实验结果表明,该算法具有一定的优越性。  相似文献   

14.
为提高光照估计的精度并保持相对较快的运行速度,提出了一种新的基于颜色边缘矩和锚定邻域正则化回归的色彩恒常算法.首先提取不同阶数的颜色边缘矩作为场景图像特征.然后,在锚定样本的邻域内采用一种迭代的平方F-范数正则化回归来学习颜色边缘矩特征与光照间的映射矩阵.最后,对测试样本的光照估计可基于与其最近邻的锚定样本的关联映射矩阵获得,该映射矩阵在训练阶段已被预先计算并存储.在2个标准图像数据集上的实验结果表明,所提算法性能明显优于现有相关算法,其中值角度误差较现有算法至少分别下降了10.35%和7.44%.  相似文献   

15.
提出了基于在线被动-主动学习的多视觉特征自主加权组合算法。该算法在模型训练阶段预先依据视觉特征与图像类别之间的相互关系赋予恰当的权值,减少了多特征组合的计算复杂度。通过推导出在线被动-主动学习算法的闭式解,提出的算法在满足确保图像分类准确度的同时,提高了多特征组合的执行效率,降低了基于直方图交核学习算法的计算复杂度。与多核学习算法相比,基于在线被动-主动学习的多特征融合图像分类算法在保持图像分类准确度的情况下,所需的计算时间只有多核学习算法的10%左右。  相似文献   

16.
为解决不同光照条件下皮肤难以检测的问题,提出一种基于代价敏感性CS-AdaBoost算法的皮肤分类器。通过对皮肤像素提取6个基于亮度值的像素特征,并循环选取特征,使用基于CS-AdaBoost算法程序训练最佳弱分类器,通过对所有最佳弱分类器的加权线性组合得到最终的皮肤分类器。由于在算法程序中引入了代价因子θ,使分类结果偏向总错分代价较小,即提高了皮肤样本的分类正确率。使用SDD皮肤数据库评估该皮肤分类器性能,结果表明,该皮肤分类器分类正确率达到了85%,比传统皮肤分类方法提高了5%。  相似文献   

17.
如何从小样本、高维度特性的功能磁共振成像(fMRI)数据中识别出内在的脑区活动模式,对理解人脑意义重大。随着模式识别技术和机器学习算法的发展,fMRI的分类研究也引起了人们的重视。提出一种对fMRI数据分类的加权随机SVM集群(WRSVMC)算法。该算法分为两步,首先通过随机选择样本和特征建立多个SVM,以构建集成分类器;然后在投票过程中,对每个SVM赋权重,以优化模型的集成性能。结合fMRI数据和图论特征,采用WRSVMC算法对轻度认知障碍(MCI)患者数据展开分类研究。结果表明,准确率最高可达87.67%。该方法能帮助医师对MCI患者进行辅助诊断。  相似文献   

18.
当前的茶叶分级研究主要基于纹理特征构造分类器,但易受采样过程中的光照、噪声影响.本文提出了结合经典的SIFT(Scale-invariant feature transform)特征描述子在自然光条件下的茶叶分级问题,并使用多类AdaBoost算法对样本进行分类.单幅图像的提取结果显示,SIFT特征对带瑕疵的图片仍具有很好的描述能力.在采集的90幅3级茶叶样本上的实验结果显示,纹理特征+SIFT特征取得了比单组特征更好的分类性能.  相似文献   

19.
针对文本类型数据的分类进行研究,用VSM模型和TF IDF技术对文本文件进行了数据样本抽取加权,得到文本相似度矩阵;采用不同样本距离计算方法和K-Means算法对数据进行了聚类实验,获得聚类结果并进行了分析和总结;基于实验结论,研究了不同距离计算方法之间的区别以及适用的数据类型。  相似文献   

20.
利用构造性学习(CML)算法训练分类器需要大量已标记样本,然而获取大量已标记的样本较为困难.为此,提出了一种人脑半监督的构造性学习算法(HPSS-CML).根据已标记样本,通过覆盖算法构造分类网络,对未标记样本进行有选择的标记,并将其加入训练集,调整分类网络参数.重复进行上述过程,直到没有新标记的样本为止,得到最终的分类器.测试阶段再次利用未标记样本对"拒认状态"的测试样本进行标记.最后选取UCI数据集进行实验,结果表明,与CML算法及Tri-CML算法相比,该方法的分类更为有效.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号