首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
在自动文本分类中,TF IDF算法是最为常用的特征权重计算方法。该算法运用广泛,但是存在不足:只考虑了特征词的频率和包含特征词的文档数量,没有考虑到特征词在类内和类间对权重的影响。对特征词权重计算方法进行了改进。为了解决特征词在类内均匀分布以及在类间的比重问题,提出了修正函数TF DFI DFO。实验比较发现,新的特征词权重算法能够更加精确地反映出特征词的分布情况,该算法与传统的TF IDF算法相比,在召回率、查准率和宏平均值上都有较大的提升。  相似文献   

2.
文本分类问题中,卡方特征选择是一种效果较好的特征选择方法。计算单词的卡方值时,先计算单词针对每个类别的卡方值,再通过类别概率将卡方值调和平均,作为单词相对于整个训练集合的卡方值,这种全局方法忽视了单词和类别间的相关性。针对这一问题,提出基于类别的卡方特征选择方法。基于类别的方法针对每个类别遴选特征词,特征词数量根据事先设定的阈值、类别的文档数和整个训练集合文档数计算得到,不同类别的特征空间可能包含相同的特征词。采用KNN分类方法,将基于类别的方法与全局方法进行比较,实验结果表明,基于类别的方法能够提高分类器的总体性能。  相似文献   

3.
TF-IDF是文档特征权重表示常用方法,但不能真正地反映特征词对区分每个类的贡献。故针对网页分类中特征选择方法存在的问题,加入网页标签特征权重改进TF-IDF公式,提出了一种比较有效的网页分类算法,实验结果表明该方法具有较好的特征选择效果,能够有效地提高分类精度。  相似文献   

4.
针对短文本信息篇幅短、信息量少、特征稀疏的特点,提出一种基于LDA(Laten Dirichlet Allocation)主题模型特征扩展的短文本分类方法。该方法利用LDA模型得到文档的主题分布,然后将对应主题下的词扩充到原来短文本的特征中,作为新的部分特征词,最后利用SVM分类方法进行分类。实验结果表明,相比于传统的基于VSM模型的分类方法,基于LDA特征扩展的短文本分类方法克服了特征稀疏的问题,在各个类别上的查准率、查全率和F1值都有所提高,充分验证了该方法对短文本分类的可行性。  相似文献   

5.
对文本分类技术进行研究,首先介绍文档频数特征词评价方法;然后提出一种词分布均衡度评价的特征词选取方法,最后分析基于词分布均衡度评价的支持向量机文本分类算法,并实验证明其优越性.  相似文献   

6.
TFID作为文本特征权重计算常用方法,其不足之处是忽略了特征词在文本中的分布情况和文本长度。修正特征词后的改进TFIDF算法召回率和准确率都优于改进前TFIDF。  相似文献   

7.
邢翠鹃 《文教资料》2014,(29):131-133
本文主要用向量空间模型(Vector Space Model,VSM)来分析女性文学代表作家的作品,通过TF-IDF计算文本特征项的权重,最后根据计算结果来分析这些女性文学作家作品的文本风格相似度。并以此证明同时代不同作家或不同时代同类作家(女性文学作家)的文本是同中有异,异中有同,此外还分析了部分特征词的分布情况。  相似文献   

8.
针对不同类别文档可能被表示为相同向量的问题,在研究常用文档特征权重计算方法的基础上,分析文档中特征项之间的相对位置关系,引入文档结构矩阵DS。将DS与3种常用权重算法相结合,构造3种新模型,并利用6种模型在实际语料上进行分类实验。结果表明,基于DS的权重算法与原始权重算法相比,能够提高文本分类效果。  相似文献   

9.
吉志薇 《文教资料》2014,(31):120-124
TF-IDF算法在文本相似性的度量中有着广泛地应用,但也存在着明显的缺陷。本文运用一种综合考虑词频、逆向文本频率、类间信息熵和类内信息熵四个方面的改进的TF-IDF算法计算了郭敬明的《梦里花落知多少》和庄羽的《圈里圈外》的相似性,从定量的角度判定了前者的确抄袭了后者。  相似文献   

10.
特征降维是文本分类的关键步骤之一.传统互信息特征选择方法只关注了文档频,未考虑词频因素,并且忽视了负相关特征对文本分类的重要作用,导致其在不平衡语料集上的分类效果较差.针对传统互信息方法存在的不足,提出一种改进的互信息特征选择方法,综合考虑词频因素及正、负相关特征对文本分类的影响,引入平均词频率和绝对值最大因子,克服传统互信息倾向于选择低频词、忽视负相关特征的缺陷.在不平衡语料集上的实验结果表明,改进的互信息能够有效提高文本分类性能.  相似文献   

11.
互信息未考虑单个特征词发生的频率,不仅造成了互信息评价函数倾向于选择特征的稀有词,而且还过滤掉了经常出现的高频词。当特征关键词和类别都增多时,得到的特征关键词与类别之间的平均互信息变小,说明数据在处理过程中去掉了信息,不会创造出新的信息。为此把文档频引进平均互信息,使其对平均互信息的缺点进行修正。实验证明,该方法具有训练和测试速度快,特征提取速度非常快等特点。  相似文献   

12.
垃圾短信过滤是文本分类的一种,将用户收到的短信分为正常短信和垃圾短信,从而实现对垃圾短信的屏蔽。在朴素贝叶斯分类算法的基础上进行改进,针对短信内容较短包含信息不足的特点,引入同义词集对短信中特征词进行扩展,降低同义特征词分散给分类带来的负面影响。同时针对垃圾短信自身包含的特殊信息,提出模式概念,采用模式概念替换具有相同模式的特征词,使垃圾短信的特征更加集中,增强分类算法对垃圾短信的鉴别能力,最后通过实验对朴素贝叶斯算法以及改进后算法的分类性能进行了分析,验证了改进后算法的有效性。  相似文献   

13.
结合蚁群算法在解决分类问题方面的优势,以及中文网页内容特征值的离散性特点,提出一种改进的基于蚁群算法的网页分类方法。该算法通过携带类别信息的种群蚂蚁的爬行,在迭代过程中寻找一条最佳路径与之匹配,实现了Web页面的分类。最佳路径通过计算测试文档与每一类别的覆盖集合,进而比较最优覆盖集合得到。其中类别权重计算中引入了文字链接比和标签权值,进一步提高了分类精度。实验证明,引入类别覆盖集的蚁群分类算法能够取得更好的分类效果。  相似文献   

14.
改进了传统的信噪比文本分类方法。提出了一种改进的基于信噪比的文本分类方法。它考虑了禁用词的排除、近义词和同义词的合并以及特征项在文本中不同位置对文章分类的贡献不同。  相似文献   

15.
针对微博短文本特征难以提取的特点,结合微博文本的3种专属特殊符号:“@”、“//”和“#”分析微博文本的特点,从而对TF IDF算法进行改进,并且考虑用户兴趣时间的长短来进行微博短文本特征词的选取。实验结果表明,相对于原有算法,该算法能够有效提高微博短文本特征词提取的准确度。  相似文献   

16.
结合目前从音频和歌词角度对歌曲情感分析的研究以及歌词文本独有特点,提出一种基于文本标题与位置权重相结合的歌词情感分析方法。该方法考虑到出现在不同位置的特征词权值对于歌词分类的影响程度,采用层次分析法计算文本标题、歌词文本前、中、后不同位置特征词的位置权重。通过朴素贝叶斯、最大熵模型、支持向量机等不同分类器的训练实现歌曲快乐、伤感、安静、激昂4种情感分类。实验表明,加入文本标题与位置权重后的最优F1值相比之前提升了4个百分点,证明了该方法在提升歌词情感分类性能方面的有效性。  相似文献   

17.
政府公文数量巨大,不同政府网站公文分类规则不一 ,在引用和参考公文时可能发生混淆 。针对该问题,基于政府公文题目、摘要和正文内容,采用 K-means 算法对公文进行分类。首先对政府公文进行分词及去停用词等数据预处理操作,再通过词频—逆文档频率(TF-IDF)权值计算方法,将处理后的政府文本信息转换成二维矩阵,然后采用 K-means 算法进行聚类。使用清华大学 THUCTC 文本分类系统对公文聚类结果进行测试。实验结果表明,采用 K-means 算法对公文进行聚类,准确率达到 82.93%,远高于政府网站公文分类准确率。  相似文献   

18.
在网络教学环境中,由于其特殊的教学模式,提供高效智能、方便实用的自动答疑系统成了网络学习者的迫切需要。针对答疑系统的资源建设,通过对网络以及其他方式得到的资源进行格式的解析后得到其文本内容,然后使用文本分类的技术来对这些文档进行分类处理,构成系统的答疑资源,这样就可以根据具体的问题类别在不同的答案资源中找到答案。文中阐述了答疑系统资源建设涉及的关键技术,以及存在的问题和可行的改进方法。  相似文献   

19.
特征权值的选择是文本分类的基础环节,TFIDF是文档特征权值表示常用方法之一。但其过于简单的词频和反文档频率表迭式会忽略在一个类中频繁出现的特征,导致了特征预测能力相互削弱。文中提出了一种改进的特征选择算法(I—TFIDF),能更好的体现特征词条的权重,从而有效提高分类的正确率。实验结果表明I—TFIDF比传统的TFIDF算法具有更好的性能。  相似文献   

20.
针对信息增益特征选择方法没有很好考虑多标记的分布,在多标记文本分类中表现不佳的问题,用标记矩阵的协方差改善特征选择时标记之间的关联产生的影响,提高分类效果。最后通过实验证明,改进的信息增益特征选择方法具有可行性和有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号