首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
特征权值的选择是文本分类的基础环节,TFIDF是文档特征权值表示常用方法之一。但其过于简单的词频和反文档频率表迭式会忽略在一个类中频繁出现的特征,导致了特征预测能力相互削弱。文中提出了一种改进的特征选择算法(I—TFIDF),能更好的体现特征词条的权重,从而有效提高分类的正确率。实验结果表明I—TFIDF比传统的TFIDF算法具有更好的性能。  相似文献   

2.
TF-IDF是文本分类中计算特征权重的经典方法,但其本身并未考虑特征词在文档集合中的分布情况,从而导致类别区分度不大。通过计算特征词类内密度与特征词在样本中均匀分布时整体平均密度的比值对IDF函数进行改进。实验结果表明,改进后的TF-IDF考虑了特征词内分布与在整体文档集中的分布,提升了对类别的区分能力,有效改善了文本分类效果。  相似文献   

3.
在自动文本分类中,TF IDF算法是最为常用的特征权重计算方法。该算法运用广泛,但是存在不足:只考虑了特征词的频率和包含特征词的文档数量,没有考虑到特征词在类内和类间对权重的影响。对特征词权重计算方法进行了改进。为了解决特征词在类内均匀分布以及在类间的比重问题,提出了修正函数TF DFI DFO。实验比较发现,新的特征词权重算法能够更加精确地反映出特征词的分布情况,该算法与传统的TF IDF算法相比,在召回率、查准率和宏平均值上都有较大的提升。  相似文献   

4.
针对微博短文本特征难以提取的特点,结合微博文本的3种专属特殊符号:“@”、“//”和“#”分析微博文本的特点,从而对TF IDF算法进行改进,并且考虑用户兴趣时间的长短来进行微博短文本特征词的选取。实验结果表明,相对于原有算法,该算法能够有效提高微博短文本特征词提取的准确度。  相似文献   

5.
垃圾短信过滤是文本分类的一种,将用户收到的短信分为正常短信和垃圾短信,从而实现对垃圾短信的屏蔽。在朴素贝叶斯分类算法的基础上进行改进,针对短信内容较短包含信息不足的特点,引入同义词集对短信中特征词进行扩展,降低同义特征词分散给分类带来的负面影响。同时针对垃圾短信自身包含的特殊信息,提出模式概念,采用模式概念替换具有相同模式的特征词,使垃圾短信的特征更加集中,增强分类算法对垃圾短信的鉴别能力,最后通过实验对朴素贝叶斯算法以及改进后算法的分类性能进行了分析,验证了改进后算法的有效性。  相似文献   

6.
采用新的关键字的获得方法,并基于DHP算法提出一种新的高效的文本关联规则算法.根据 TF‘IDF 公式计算特征词的权重,特征词的平均权重作为阈值,权重大于阈值的特征词作为该文本的关键词,将关键词的权重用到本文的算法ARTREE中,抽取出文本的关联规则.本文算法和Apriori算法相比,具有运算效率高、规则的精度高的优点.实验验证本算法的有效性.  相似文献   

7.
对文本分类技术进行研究,首先介绍文档频数特征词评价方法;然后提出一种词分布均衡度评价的特征词选取方法,最后分析基于词分布均衡度评价的支持向量机文本分类算法,并实验证明其优越性.  相似文献   

8.
关键词抽取技术能从海量产品评论文本中挖掘出用户关注的焦点,方便后续为用户推荐合适的产品。经典关键词抽取算法TextRank在迭代计算词汇节点的重要性得分时,忽略了邻近词汇节点的影响力差异。为此,提出一种融合TFIDF与TextRank算法(简称TFTR)抽取评论中的关键词。首先,通过引入用户浏览评论后给出的评论有用性反馈,提高有效评论中出现的重要词语权重,对TFIDF算法进行改进。然后将改进后的词频逆文档频率作为词节点特征权重引入到TextRank算法中,以改进词汇节点的重要性得分分配过程。实验结果表明,相比传统的TextRank算法,TFTR算法提取出的产品评论关键词准确性在P@10标准下提高了15.7%,证明了该算法的有效性。  相似文献   

9.
文章考虑特征项的概率信息又结合文本的语义信息来计算特征项的权值,提出一种新的用于文本分类的特征项权值计算方法(FreSem),采用支持向量机(SVM)分类器进行实验,与传统的频率、TFIDF两种方法相比,能有效地提高文本分类的正确率。  相似文献   

10.
结合目前从音频和歌词角度对歌曲情感分析的研究以及歌词文本独有特点,提出一种基于文本标题与位置权重相结合的歌词情感分析方法。该方法考虑到出现在不同位置的特征词权值对于歌词分类的影响程度,采用层次分析法计算文本标题、歌词文本前、中、后不同位置特征词的位置权重。通过朴素贝叶斯、最大熵模型、支持向量机等不同分类器的训练实现歌曲快乐、伤感、安静、激昂4种情感分类。实验表明,加入文本标题与位置权重后的最优F1值相比之前提升了4个百分点,证明了该方法在提升歌词情感分类性能方面的有效性。  相似文献   

11.
从对突发事件新闻结构特点的分析出发,进行了特定领域文本分类方法的探讨。其中根据文本特点,摒除信息量小的部分,将标题、首部等作为标引源,提高了分类速度。在特征抽取中综合考虑字与词对于文本分类的作用,提高了分类精度。  相似文献   

12.
通过介绍文本分类的过程及其关键技术,讨论了文本表示、分类算法、分类器性能评价原理和方法;最后,指出了当前文本分类过程中存在的问题,并对今后的发展进行了展望.  相似文献   

13.
高等师范院校音乐系如何强化师范性,是一个非常值得探讨的问题。分析当前高等师范院校音乐系教学过程中师范性缺乏的现状及成因并提出相应的措施。  相似文献   

14.
文本分类问题中,卡方特征选择是一种效果较好的特征选择方法。计算单词的卡方值时,先计算单词针对每个类别的卡方值,再通过类别概率将卡方值调和平均,作为单词相对于整个训练集合的卡方值,这种全局方法忽视了单词和类别间的相关性。针对这一问题,提出基于类别的卡方特征选择方法。基于类别的方法针对每个类别遴选特征词,特征词数量根据事先设定的阈值、类别的文档数和整个训练集合文档数计算得到,不同类别的特征空间可能包含相同的特征词。采用KNN分类方法,将基于类别的方法与全局方法进行比较,实验结果表明,基于类别的方法能够提高分类器的总体性能。  相似文献   

15.
在分析现有文本水印方法的基础上,提出一种新方案.该方案中文档看成是句子的集合.利用密钥K1,K2和特征函数返回值选择特征词汇子集和可变序的句子子集合,改变该子集合中的句子顺序来嵌入水印信息.为提高方案对水印攻击的抵御性,在多个句子中嵌入相同的水印信息.阐述了该方案的模型和句子变序算法,通过对主要句子层次上的攻击方法的分析,给出了本方案的优势.  相似文献   

16.
童谣在广义上指主要传唱于儿童口中的音节和谐的歌谣。根据保存下来的文本,由于社会观念的不同,不同时期记载的童谣作品表现出不同的特色:明代以前保存下来的童谣主要是作为神学和政治附庸而存在,政治预言性是其主要特征;明代以后表现儿童现实生活和真实性情的童谣文本开始增多,并逐渐成为主流地位;当代记载的童谣作品则呈现出多元化倾向。  相似文献   

17.
古龙文本体现着明显的男权化特征,文本语言的男权化,使女性成为失去话语权利的边缘人;叙事模式的男权化,使男女在极度不公平的待遇中,实现了男性权利的极度膨胀;创作观念的男权化,使女性的灵魂无法安顿。然而,在女权主义高涨的今天,男权最终会走向终结。  相似文献   

18.
敦煌《甘棠集》88篇表、状、书、启中,贺冬状占21篇(其中一篇有目无辞),比例几达25%。《甘棠集》的贺冬状是冬至节文化的直接产物,体现了将天德与人德相配的观念。这些贺状有两个显著的文本特征,其一是结构的模式化,即:指出时变节至(天)——称誉对方盛德(人)——感谢提携之恩(己),3个部分环环相扣;其二是语句的程式化,一般都是以典雅的语句来表情达意,每篇的用词也具有高度的相似性。  相似文献   

19.
后现代主义的诞生对诸多文化理论领域提出了挑战,“互文性”作为后现代主义的一个重要的美学特征,正在为文化评论家们所关注和认可。“互文性”文本是不同文本间的组合。任何一个文本置于一个庞大的网络中,构成一个文本对另一个文本的引证参照体系,“互文性”呈现了一种非线性的、开放的、多向的、呈辐射状展开。“互文性”具有文本的“破坏美”、意蕴的“播撒美”、体系的“开放美”三个美学特征。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号