共查询到20条相似文献,搜索用时 78 毫秒
1.
基于量子自组织网络的Web文本自动分类方法 总被引:3,自引:0,他引:3
针对Web信息挖掘中的文本自动分类问题,提出了一种基于模糊特征向量和量子自组织特征映射网络的分类方法.该方法在特征提取时充分考虑了特征项在文档中的Web位置信息,构造出模糊特征向量,使自动分类原则更接近手工分类方法. 相似文献
2.
网页文本特征数常高达上万个,无用和冗余特征相当多,为提高网页文本分类精度,提出一种混合智能算法的网页文本分类方法。首先采用遗传算法对网页文本特征初步选择,然后采用蚁群算法对初步选择特征进行精细选择,最后采用K近邻算法建立文本分类器。结果表明,混合智能算法很好消除无用和冗余特征,提高了网页文本分类的精度,加快分类速度。 相似文献
3.
提出一种基于改进TFIDF算法的海量文本分类识别方法,将特征之间的信息熵与特征内信息熵作为文本分类识别的加权因子,采用神经网络的非线性映射能力实现权值计算和TFIDF算法的模糊化,从而解决文本分类不准确和海量文本的分类问题。采用5个类别文档,每个类别5个文档,3个特征项来进行实际试验验证,结果表明,改进的TFIDF算法能够更好的实现文本识别分类,具有更小的方差特性,对随机文本分布具有更强的鲁棒性,收敛速度更快,具有很好的应用价值。 相似文献
4.
文本提出了一种基于语义的特征降维方法。通过依存关系抽取实现一次降维;通过计算类别和依存关系特征项的语义相似度,结合互信息方法进行特征选择实现二次降维。对中文文本分类的实验结果表明,提出的特征降维方法具有较好的分类效果。 相似文献
5.
自动文本分类技术研究 总被引:1,自引:0,他引:1
文本分类是数据挖掘的重要内容之一,在很多领域经常需要对文本信息进行处理、抽取、分类。通过分析了文本分类过程中涉及的文本表示、特征抽取、分类等方法,指出文本分类的基本特点。 相似文献
6.
由于传统的数据分类查询方法查询失效所承担的额外操作代价不同,无法有效实现优化分类查询,提出一种基于变异遗传散布的云计算环境下海量数据优化分类查询方法,对于含有云计算环境下海量数据的数据库,给出遗传迭代查询散布及数据间的查询响应函数,获取云计算环境下海量数据灰度散布值,融入遗传执行算子数据,获取遗传变异散布分类查询系数,在充分宽的尺度和平移区域中获取最大类别之间的匹配值,得到数据查询响应函数,将其转换成变异遗传散布控制量,从而实现云计算环境下海量数据的优化分类查询。仿真实验结果表明,所提方法具有很高的精度。 相似文献
7.
8.
本文阐述了一种基于特征词聚类的降维方式,其主要思想就是把词在文本中的出现看成一个事件,先通过搜索算法计算每一个特征词的分布,合并对分类有相似作用的特征词,从而起到了特征降维的作用。最后通过实验测试分析,提出了一种改进的、考虑全局簇信息的相似度计算公式,将其应用到文本分类中,实验表明提高了文本分类的精度。 相似文献
9.
文本分类是中文信息处理的热点研究内容,而语义是文本类别归属的依据。提出一种基于语义引导的特征选择方法,在特征选择的同时,对典型类别区分词进行加权,提高该类词在分类中的作用;采用支持向量机技术进行试验,实验表明建立语义知识库的特征选择改善了文本的分类性能。 相似文献
10.
研究了中文文本分类中的文本表示方法,提出了对中文文本表示因素的分析框架,并通过对3个数据集实验结果的分析,确定了各种文本表示因素对分类效果的影响.直接使用汉字进行划分也可以获得较好的分类效果;简单的不使用很大词库的分词和使用大词库的分词,以及复杂的分词对分类效果影响不大;仅使用01表示特征是否出现也可以获得比较好的分类效果;采用综合了合理的向量取值(如使用合适的归一化算法)可以较大幅度地提高分类准确率等.这些结论为后续的应用提供了指导原则. 相似文献
11.
12.
13.
14.
KNN最邻近算法是文本自动分类中最基本且常用的算法,该算法中需要计算文本之间的相似度.以Jensen-Shannon散度为例,在推导和说明其基本原理的基础之上,将其用于计算文本之间的相似度;作为对比,也使用常规的余弦值方法计算文本之间的相似度,并进而使用KNN最邻近算法对文本进行分类,以探讨不同的相似度计算方法对使用KNN最邻近算法进行文本自动分类效果的影响.多种试验材料的实证研究说明,较之于余弦值方法,基于Jensen-Shannon散度计算文本相似度的自动分类会使分类正确率更高,但会花费更长的时间. 相似文献
15.
16.
17.
自动文本分类方法是文本分类中非常重要的一种分类方法,本文着重从模型与方法的角度进行探讨。首先给出了一个自动文本分类的形式化定义,然后提出了自动文本分类的流程模型。接着,对流程中的四个部分进行具体讨论。自动文本分类的应用非常广泛,为了叙述方便,以商务数据为例进行讨论,并且选择实例作为典型案例对自动文本分类后的可视化进行分析和具体研究。 相似文献
18.
变异遗传散布控制执行算子的数据库分类查询 总被引:1,自引:0,他引:1
为提高数据查询的寻优能力和查询准确度,对数据库查询进行优化改进。提出一种新型的变异遗传散布控制执行算子数据库分类查询算法。设计遗传散布执行算子,实现对遗传算法数据库查询中的迭代控制,通过定义数据库查询散布值,通过对数据文本的最佳特征提取,通过散布分类查询系数的控制遗传迭代循环,对遗传算法的变异处理,实现最优数据信息相关匹配,可以很好地指导数据查询结果,实现数据库查询的准确性和有效性。仿真实验表明,新算法可以提高半连接下分布式数据库查询的效率,特征呈现高聚敛性匹配,数据查询特征相关匹配度达到97.3%,比传统算法提高了25.6%,寻优时间较传统算法大幅缩短。算法有效提高了数据库查询准确率和效率,具有较强的应用价值。 相似文献
19.
基于VSM的文本分类挖掘算法综述 总被引:2,自引:0,他引:2
简要介绍了VSM和文本分类挖掘的流程,分析了基于统计方法和基于机器学习的6种常用构造文本分类挖掘分类器的算法,指出了利用各种算法构造的分类器的特点,同时给出了这些算法的优化方向,为使用者选择、学习、改进算法提供依据。 相似文献
20.
提出一种基于向量空间模型的科技文献自动分类方法.首先构建分类代表文本,计算单文本与分类代表文本之间的相似度;然后利用训练集计算出分类归属度,以判断某一文本分类的可能性,实现科技文献的自动分类.以3个学科的文献为例,验证该方法的可用性. 相似文献