首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
针对当前基于LDA模型扩展的文本情感分析方法未能考虑同一词语在不同语境下其情感极性的差异及非特征情感词对微博文本情感极性的影响这两个问题,提出一种基于语境分类和遗传算法的微博情感分析方法。该方法首先利用LDA模型构造微博主题集及微博主题词集,然后用微博标签数据逐一对各微博主题词集应用遗传算法自动迭代计算得出词集中词语的情感值,最后利用词集词语的情感值计算微博文本情感极性。实验结果表明,该方法精确度比LDA提升3.12%,召回率达87.32%,F1达73.79%,能够从语境和非特征情感词获取微博情感信息,有效提高情感分类准确率。  相似文献   

2.
为弥补目前国内学者只做单一算法研究且语料单一的缺陷,使用Word2vec词向量模型结合支持向量机(SVM)、卷积神经网络(CNN)和长短期记忆网络(LSTM)3种不同分类算法,研究了不同中文文本分类问题,包括微博语料的多维细粒度情感分类、酒店评价的倾向性分析和新闻文本的主题分类。将3种分类模型在不同文本中的分类效果进行对比,结果显示这3种算法对于不同的中文分类效果各有不同:不同维度的词向量对准确率等评价指标影响很大;支持向量机模型更适合于细粒度的微博情感分类;卷积神经网络、长短期记忆网络算法更适合于噪声小、文本长且规范的新闻主题分类任务。分类粒度会对算法准确性产生影响,粒度越细、任务越复杂,算法准确性越低。  相似文献   

3.
针对信息增益特征选择方法没有很好考虑多标记的分布,在多标记文本分类中表现不佳的问题,用标记矩阵的协方差改善特征选择时标记之间的关联产生的影响,提高分类效果。最后通过实验证明,改进的信息增益特征选择方法具有可行性和有效性。  相似文献   

4.
针对现有乐器分类研究中存在的使用特征量过多、分类准确率有待提高等问题,提出了一种特征量少、准确度高的乐器分类方法。基于Relief算法的主成分特征提取方法,计算出各特征量的权重,设计3层的神经网络分类器。根据所提算法和分类器,使用8项音频特征与传统的24项MFCC特征,分别对中西方9种乐器进行了分类实验,并分别使用权重最高的4、5、6项特征进行分类实验。结果表明,所提出的音频特征相比于传统MFCC特征对乐器分类的平均准确率更高,达到94.84%,且特征量更少,说明基于Relief算法的主成分特征提取方法能有效减小低相关性特征对分类准确率的影响。  相似文献   

5.
针对不同类别文档可能被表示为相同向量的问题,在研究常用文档特征权重计算方法的基础上,分析文档中特征项之间的相对位置关系,引入文档结构矩阵DS。将DS与3种常用权重算法相结合,构造3种新模型,并利用6种模型在实际语料上进行分类实验。结果表明,基于DS的权重算法与原始权重算法相比,能够提高文本分类效果。  相似文献   

6.
利用深度学习方法进行情感分析时,将文本作为一个整体进行编码,缺乏对表情符号与情感词的有效关注。而传统基于词典的方法则过分依赖于情感词典与判断规则的质量,不能充分考虑文本深层语义关系。针对该问题,构建融合表情符号与情感词的自注意力模型。通过BLSTM训练得到情感符号,并与文本特征向量融合,同时引入结构化自注意力机制识别文本中不同情感符号的情感信息。在NLPCC2014和微博公开语料数据集上的实验表明,相较传统情感分析方法,该模型可有效提高情感分类准确率。  相似文献   

7.
为了提高网络教育资源库建设的质量和效率,文章采用文本自动分类方法实现资源的自动归类,而特征选择是文本自动分类系统的关键步骤。文章以基础教育资源为样本,重点研究了网络教育资源的特征选择方法,实验结果表明,改进型互信息(MIPW)方法要好于其他方法,并且单字词的去除使得分类效果提高,说明词特征更能够比较完整地表达语义信息。  相似文献   

8.
如何从小样本、高维度特性的功能磁共振成像(fMRI)数据中识别出内在的脑区活动模式,对理解人脑意义重大。随着模式识别技术和机器学习算法的发展,fMRI的分类研究也引起了人们的重视。提出一种对fMRI数据分类的加权随机SVM集群(WRSVMC)算法。该算法分为两步,首先通过随机选择样本和特征建立多个SVM,以构建集成分类器;然后在投票过程中,对每个SVM赋权重,以优化模型的集成性能。结合fMRI数据和图论特征,采用WRSVMC算法对轻度认知障碍(MCI)患者数据展开分类研究。结果表明,准确率最高可达87.67%。该方法能帮助医师对MCI患者进行辅助诊断。  相似文献   

9.
TFID作为文本特征权重计算常用方法,其不足之处是忽略了特征词在文本中的分布情况和文本长度。修正特征词后的改进TFIDF算法召回率和准确率都优于改进前TFIDF。  相似文献   

10.
针对文本分类算法的选择问题,使用二十新闻组数据集在开源的数据挖掘软件Weka上进行了仿真实验。通过实验结果综合评价了朴素贝叶斯算法、IB1算法和ZeroR算法的性能。实验结果表明在三种算法中朴素贝叶斯算法的准确率最高,ZeroR算法的运算速度最快。研究表明文本分类的效率受所选算法的影响较大,合适的算法可以显著地提高文本分类的准确率。  相似文献   

11.
包装印刷行业的产品设计与众多设计要素相关。传统的产品设计依赖于设计者的主观判断,设计效率较低。可以通过对网络数据的分析提供相应的支持。需在进行文本分析时,现有主题词提取算法中,特征项的选择往往只与文本本身的特点有关,而与包装印刷行业的产品设计要素无关,导致主题词提取效率较低。通过增加设计要素权重因子,构建CF-TF-IDF权重函数,可提高特征项选择效率,并降低提取时文本的特征项维度。实验表明,基于CF-TF-IDF的设计要素主题词提取算法具有更高的准确率和处理效率。  相似文献   

12.
社交网络的快速发展,微博成为主要的社交媒体平台,针对如何预测微博文本的未来互动数,对微博进行有效的分发控制的问题,提出一种基于并行决策树的微博互动数所属级数预测的方法。首先,对用户以往发表的微博进行用户特征和微博文本特征的处理;然后,使用并行决策树分类算法对训练数据进行分类模型的构建;最后使用得到的分类模型对新微博文本的互动数所属级数进行分类预测。通过对比算法的实验,验证了所提方法具有较高的分类精度和较好的可扩展性,能够对微博所属级数进行有效的分类预测。  相似文献   

13.
特征权值的选择是文本分类的基础环节,TFIDF是文档特征权值表示常用方法之一。但其过于简单的词频和反文档频率表迭式会忽略在一个类中频繁出现的特征,导致了特征预测能力相互削弱。文中提出了一种改进的特征选择算法(I—TFIDF),能更好的体现特征词条的权重,从而有效提高分类的正确率。实验结果表明I—TFIDF比传统的TFIDF算法具有更好的性能。  相似文献   

14.
从符号学角度出发,采用定量与定性相结合的研究方法,探讨微博文本符号的特征是研究微博的一种新思路.微博文本符号在组合关系上的特征表现为,以“文字符号+图片符号”为主要组合方式;组合方式的改变对组合关系基本上没有影响.微博文本符号在聚合关系上的特征表现为,文字符号呈现出明显的对话性;图片符号多为高感官情态.  相似文献   

15.
根据短信文本长度有限的特点,分别从句法、句式、语义等不同角度选取特征属性,然后设定属性权重,最后用平衡权重与大量实验总结得出的阈值相比较,实现短信文本分类。此方法计算量小,提高了分类速度和准确率,同时为实现用户过滤的个I}生化要求提供了方便的途径。  相似文献   

16.
《滨州学院学报》2020,(4):74-79
微博突发话题检测是当前网络舆情的重要研究领域,从海量的微博数据中快速准确的检测出突发话题是个亟待解决的问题。针对微博特征词提取不全问题,提出基于突发词共现的微博突发话题检测方法。首先根据文档和词语频次抽取候选突发词;然后根据微博影响力、文本信息及词权重增长率抽取突发词;最后,通过突发词共现法完成突发话题检测。实验结果表明突发词共现法提高了微博突发话题检测的查准率、查全率及F值。  相似文献   

17.
TF-IDF是文档特征权重表示常用方法,但不能真正地反映特征词对区分每个类的贡献。故针对网页分类中特征选择方法存在的问题,加入网页标签特征权重改进TF-IDF公式,提出了一种比较有效的网页分类算法,实验结果表明该方法具有较好的特征选择效果,能够有效地提高分类精度。  相似文献   

18.
基于机器学习的情感分类方法已经取得了较大进展,但在大量情感分类方法中,往往都是结合词嵌入和传统的机器学习方法,缺乏对文本主题以及时序关系等因素的有效利用。针对上述问题,提出了一种基于主题流与深度学习的情感分类算法,通过分析文本的主题分布,并引入时序关系,在此基础上利用适合的长短记忆神经网络的深度学习方法进行情感分类。实验证明,基于主题流与深度学习的情感分类算法性能较好。  相似文献   

19.
近年来,电子商务发展迅速,对电商商品评论进行情感分析可为消费者购物、商家调整销售策略与电商平台个性化推荐提供重要参考意见,因此提出双通道卷积记忆神经网络文本情感分析模型。首先,通过词向量与由特征词典构造的扩展特征矩阵两个不同的通道进行卷积运算,再利用卷积神经网络提取文本局部最优信息,最后利用长短期记忆神经网络学习长距离的上下文情感,完成文本情感分析任务。实验结果表明,与多种文本情感分析方法相比,双通道卷积记忆神经网络文本分析算法具有较高的精度,达到95%,且考虑了文本语义信息与文本情感信息,可获得更好的文本表示,同时兼顾文本局部特征与上下文信息的学习,可有效提高文本情感分析准确率。  相似文献   

20.
对具有字数少、噪声多、特征稀疏等特点的中文产品评论数据建立了一种基于机器学习的情感分类模型,旨在提高情感倾向性判别的综合评价指标F值。结合知网(HowNet)情感词典提出了一种通过增加情感词比重的C-TF-IDF权重计算方法,弥补了词频-逆向文档频率IF-IDF仅依靠词频来衡量特征项权重的缺点。先对一步三分法和二步二分法的情感分类策略进行了实验对比分析;然后选取了一步三分法对不同特征提取数量下的情感分类效果进行了研究。实验结果表明,C-TF-IDF比TF-IDF更适合于中文产品评论数据的情感分类任务,F值可最低提高1.584%,最大提高2.267%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号