共查询到18条相似文献,搜索用时 203 毫秒
1.
2.
针对目前国内外学者对微博情感只作二分类研究,仅仅从正面和负面研究微博情感不足的问题,选取NLPCC2013-2014年多情感的微博数据集,重点研究常用的3种机器学习算法、3种特征选择以及特征权重方法对中文微博情感多分类的影响。实验表明:不管选择哪种特征权重,使用SVM的微博文本分类准确率都最高,KNN的准确率最低;不同特征权重下,信息增益作为特征选择的方法时,3个算法各自准确率都是最高的;当信息增益为特征选择,TF-IDF为特征权重时,支持向量机的文本分类准确率最高。由于微博简短、口语化,词袋模型忽视了词与词间的联系,导致微博情感分类准确率不高。 相似文献
3.
针对短文本信息篇幅短、信息量少、特征稀疏的特点,提出一种基于LDA(Laten Dirichlet Allocation)主题模型特征扩展的短文本分类方法。该方法利用LDA模型得到文档的主题分布,然后将对应主题下的词扩充到原来短文本的特征中,作为新的部分特征词,最后利用SVM分类方法进行分类。实验结果表明,相比于传统的基于VSM模型的分类方法,基于LDA特征扩展的短文本分类方法克服了特征稀疏的问题,在各个类别上的查准率、查全率和F1值都有所提高,充分验证了该方法对短文本分类的可行性。 相似文献
4.
根据依存句法,分析出句子中词语间的依存关系,找出词语级情感影响因子-副词、否定词,并建立情感元素模型,计算情感元素模型分值。对微博中每句话的情感进行分类,根据粒度分别求和,将最大值所对应的细粒度作为句子的情感的策略,对整条微博则采用句子得分最大的前两句所对应的细粒度作为微博的主副情感策略。在第三届自然语言处理与中文计算会议(NLP&CC2014) 的微博情绪判别及分类的评测任务中,应用该方法取得了较好效果。 相似文献
5.
6.
7.
8.
基于〈产品特征,情感词〉关联对的缺点,讨论了情感词与否定性副词搭配的必要性,提出了〈Pfeature,FIag,sword〉关联三元组,能够更准确地表达文本中相关评论句对产品特征的情感倾向。采用两个步骤来提取关联三元组:首先,利用已训练好的最大熵模型作为分类器,结合Bootstrapping方法完成了产品特征与情感词语关联对的抽取;其次,将情感词前的否定性副词抽取出来,合成关联三元组。 相似文献
9.
不同情感词语之间存在着诸多差异,如果不加选择地以情感词语为基础考察情感词语的语法模式和语义特征,会影响研究结果的有效性。通过分析从9种语义分类词典中选择的情感词语,发现它们至少在语体、音节、构词方式、词性、级差、极性和释解方式7个维度上存在差异。这些词语以这7个维度为基础可以构成一个情感意义的词语表达系统;该系统能够为情感词语选择提供理论框架。 相似文献
10.
情感分析是目前人工智能与社交媒体研究的热门领域,具有重要的理论意义和实用价值。为了解决由于社交媒体具有随意性、情感主观性等特点造成文本与图像之间的情感互斥问题,提出一种基于图文融合的跨模态社交媒体情感分析方法。该方法不仅可以学习到文本与图像之间的情感互补特性,而且通过引入模态贡献计算,可避免情感表达不一致问题。在Veer和Weibo数据集上的实验结果显示,相比于现有融合方法,采用该方法的情感分类准确率平均提高了约4%。基于图文融合的跨模态社交媒体情感分析方法能够很好地处理模态间的情感互斥问题,具有较强的情感识别能力。 相似文献
11.
近年来,电子商务发展迅速,对电商商品评论进行情感分析可为消费者购物、商家调整销售策略与电商平台个性化推荐提供重要参考意见,因此提出双通道卷积记忆神经网络文本情感分析模型。首先,通过词向量与由特征词典构造的扩展特征矩阵两个不同的通道进行卷积运算,再利用卷积神经网络提取文本局部最优信息,最后利用长短期记忆神经网络学习长距离的上下文情感,完成文本情感分析任务。实验结果表明,与多种文本情感分析方法相比,双通道卷积记忆神经网络文本分析算法具有较高的精度,达到95%,且考虑了文本语义信息与文本情感信息,可获得更好的文本表示,同时兼顾文本局部特征与上下文信息的学习,可有效提高文本情感分析准确率。 相似文献
12.
中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质文本分词的准确率和未登录词识别率,提出一种基于统计的中文地质词语识别方法。该方法基于质串思想构建了地质基本词典库,用以改善统计分词方法在地质文本分词上的适应性。采用重复串查找方法得到地质词语候选集,并使用上下文邻接以及基于位置成词的概率词典,对地质词语候选集进行过滤,最终实现地质词语识别。实验结果表明,使用该方法对地质专业词语识别准确率达到81.6%,比通用统计分词方法提高了近60%。该方法能够识别地质文本中的未登录词,并保证地质分词的准确率,可以应用到地质文本分词工作中。 相似文献
13.
采用用户历史查询词构建用户画像时,现有向量空间模型存在特征稀疏和上下文依赖性强的问题。针对该问题,通过引入 LDA 主题模型,首先提取查询词潜在主题,得到查询词对应的主题分布;然后将概率最大的主题对应的词扩充到原始特征空间中,丰富用户特征;最后采用 SVM 分类算法对用户基本属性进行分类,构建用户画像。实验表明,利用 LDA 模型对用户特征进行扩展比传统向量空间模型用户画像精度提高了 1.6%。 相似文献
14.
为确定歌词隐含的情感主题对音乐分类的作用,在传统主题模型中融入情感、语义元素,定义基于情感主题的音乐分类标准并进行音乐分类。结合文本情感词典、Word2vec词向量空间,将主题模型的基础主题进一步归类为情感主题,并通过爬取网易云音乐歌曲信息进行模型训练及测试。实验证明,该模型具有较好的分类效果,对音乐情感分类平均准确率达到80%。 相似文献
15.
Web文本挖掘是数据挖掘技术在网络信息处理中的一个重要应用,如何将web文档转换成数据挖掘所要求的格式,即web文档预处理是一项很重要的研究课题.本文的方法是:从Internet网上下载了大量的网页文件,将网页文件转换成文本文件,然后通过算法对这些文本文件中的数据进行词频统计,删除非用词,去掉高频词,对单词进行词根处理,建立用词词表,从而抽取用词,按字母排序生成词频索引,和字典文件进行对照,获取单词的ID,最后生成Reuters-21578的Database数据格式.这样就将web文档数据转换成标准的数据集,以便为数据挖掘中分类、聚类作好准备. 相似文献
16.
为了深入挖掘与分析在线课程评论文本,探索学习者参与在线课程学习时关注的话题及其情感态度,为提高在线课程质量提供帮助。首先采用词频分析方法,实现对学习者在线课程评论内容的整体认识|然后利用非监督学习方法潜在狄利克雷分布主题模型对评论文本信息的特征结构、语义内容进行自动挖掘和分析,得到学习者的关注话题|最后对每个话题的课程评论文本进行情感倾向分析,得到学习者的情感倾向分布。实验结果表明,在参与课程学习的过程中,学习者主要关注教师授课、课程内容和学习资源 3 个话题。情感分析结果显示,学习者对于该课程普遍表示满意和赞赏,但是对于该课程学习资源表达了较多负面情感。 相似文献
17.
情感分析在业界被广泛应用于产品分析、商品推荐等方面,具有很高的商业价值。目前常用的研究方法主要基于机器学习算法和基于词典的方法,该类方法通常需依赖复杂的人工规则和特征工程。针对传统情感分类方法需要人工干预的问题,总结目前已有可用于情感分析的深度学习方法,提出将卷积神经网络(CNN)和双向长短时记忆网络(BLSTM)进行组合,并将融合后的特征添加至注意力机制,设计出CBLSTM-Attention模型。实验表明,该模型在中文数据集上准确率达0.965 0,在NLPCC英文数据集上准确率达0.942 2,证明该方法不仅可提高文本情感倾向性分析的准确率,而且可有效解决人工干预问题。 相似文献
18.
词相似度计算在文本分类等自然语言处理众多任务中有广泛应用,为了提高准确率并将其应用于文本分类任务中,提出基于知网与同义词林以及基于nGram训练大规模语料相结合的方法,通过词义演化技术检测词义变化确定两种方法的权重,利用皮尔逊相关系数对比人工定义词语相似度。通过实验将该方法与基于知网和同义词林的方法进行对比,根据随时间改变而词义有无变化选取15对词语进行测试,结果表明后者比前者提高了28%。由此可以看出,基于语料与语义词典的方法明显比单纯基于语义词典的方法好,但仍有较大改进空间。 相似文献