首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 550 毫秒
1.
运用非结构化信息挖掘,对网络评论情感进行分析是一个非常重要的方法。本文基于Web客户评论情感文本,在情感文本预处理过程中使用四种不同的停用词表,采用两种不同的特征选择方法,选用著名的TF-IDF权重计算方法,使用基于RBF核函数的支持向量机方法的分类器实现了对携程网上采集的4000个酒店客户评论情感文本的分类研究。通过实验,分析了不同特征选择方和停用词表的使用对客户评论文本情感分类的影响,提出了基于情感文本分类的有效的停用词表。  相似文献   

2.
王煜  白石  王正欧 《情报学报》2007,26(5):643-647
本文提出了一种基于权重优化的样本相似度测量的距离公式,改进了KNN文本分类算法.KNN算法通常采用传统的VSM模型,各个特征具有相同的权重,使其不适应于文本处理的环境.本文首先根据神经网络理论,采用灵敏度方法对文本特征向量的每个特征的权重进行修正,并且采用降低运算量的神经网络特征选择方法进行第二次降维处理.然后根据同一特征对不同类别的文本类的分类作用不同,对距离公式中的特征权重进行进一步改进,从而进一步提高了KNN文本分类算法的精度.  相似文献   

3.
将自动文本分类引入竞争情报系统,并结合民航客服业的实际应用场景展开研究。在对文本分类的理论基础进行研究与分析的基础上,设计一种自动分类策略,其核心是针对传统机器学习方法依赖历史数据的局限,优化特征选择和学习样本获取方法。选用SVM算法,详细描述分类词表构建、分类规则提取、分类模型训练等过程,最终取得较为理想的实际效果。  相似文献   

4.
宋灵超  黄崑 《图书情报工作》2016,60(21):103-112
[目的/意义] 提出利用社会标签自动分类图片情感类型的方法,服务基于情感特征的图像检索与利用。[方法/过程] 以Flickr图片为例,利用PMI算法对WordNet-Affect词表进行预处理形成典型情感词表;结合Ekman提出的6类基本情感类型,利用标签对图片情感类型进行标注;并且,通过实验对分类标注效果进行验证;最后,讨论图片特点、标注意图、非情感标签数量对分类标注效果的影响。[结果/结论] 研究发现,一幅图片的非情感标签与情感标签在表现图片整体情感类型的倾向性上具有较高一致性;结合PMI算法,利用预处理后的典型情感词表标注图片的结果优于未处理的WordNet-Affect词表;并且,分类标注效果与人工标注结果也具有较好的一致性,其中,快乐类(Happy)和忧伤类(Sad)图片的分类标注一致性最高,惊讶类(Surprise)的分类标注一致性最低;分析发现,仅通过标签标注图片情感类型的过程中,分类标注效果与图片情感的典型性、单一性以及图片发布方和欣赏者意图、动机的差异、图片的非情感标签个数都有关系。  相似文献   

5.
若要有效地实现文本分类,关键是对高维特征空间进行降维,降维方法分为特征选择和特征提取.本文对已有特征选择方法分析后发现,这些方法仅利用文档数来选择特征,没有考虑特征项的权重.为了找出本质特征,我们提出了一种基于特征项与类之间模糊关系的特征选择方法,引入特征项权重来确定其隶属度.采用KNN分类器,在Reuters-21578标准文本数据集上进行了训练和测试.实验表明,宏平均和微平均都达到了最高,分别为81.82%和94.88%,宏平均比IG,CHI提高了4.73%和1.12%,微平均比IG,CHI提高了1.56%和0.21%.  相似文献   

6.
文本特征降维对文本分类的精确性有着非常重要的影响.本文针对传统的TF-IDF没有考虑特征项的类间分布状况以及对类属低频词的抑制现象、MI在训练样本类别分布偏斜条件下的不足问题分别进行了改进,进而提出了一种基于类别的组合型文本特征选择算法.随后的文本分类试验表明,本文提出的加权模型相比较于传统的TF-IDF以及MI方法可以有效提高文本分类的精度.  相似文献   

7.
Web文本分类技术研究现状述评   总被引:1,自引:0,他引:1  
本文在分析国内外Web文本分类方法研究现状的基础上,对新近出现的基于群的分类方法、基于模糊—粗糙集的文本分类模型、多分类器融合的方法、基于RBF网络的文本分类模型、潜在语义分类模型等新方法,以及K—近邻算法和支持向量机的新发展等进行了深入探讨;并对Web文本分类过程的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法进行了分析;最后总结了Web文本分类技术存在着新分类方法不断涌现、传统分类方法的进一步发展、文本、语音和图像分类技术的融合等几种发展趋势,以及存在着分词问题、目前还没有发现"最佳"的特征选择等研究的不足之处。  相似文献   

8.
[目的/意义] 微博平台产品评论的特征级情感分析问题具有其特殊性,为了对特征分类,解决隐式特征的识别问题,并分析特征情感,提出一种基于特征本体的产品评论情感分析方法。[方法/过程] 该方法利用构建的特征本体对特征词分类,通过计算情感词与特征的搭配权重来识别隐式特征,并构建领域情感词典和微博表情符号词典,计算微博产品评论的特征情感极性和强度。[结果/结论] 构建方法模型,通过采集微博评论数据设计实验,验证了提出方法的有效性。  相似文献   

9.
本文提出了一种对中文文本摘要中抽取出的句子进行重述的方法.首先使用基于统计的方法对文本进行特征统计,计算词和句子的权重,摘取出权值较高的句子;然后对这些句子应用一种基于向量相似度计算的算法进行指代消解,同时提出一种新的句子向量相似度的计算方法去除冗余;最后利用启发式规则进行加工,从而得到文本摘要.实验结果显示,系统修改后的文摘具有较好的连贯性和流畅性,与修改之前的文摘相比,文摘质量有明显提高.  相似文献   

10.
本文将潜在语义索引理论与支持向量机方法相结合,对文本向量各维与文本的语义联系进行特征抽取,建立了完整的基于潜在语义索引的支持向量机文本分类模型,分析了该方法与分词的维数以及SVM惩罚因子选择之间的关系.并在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离来修剪混淆点,提出了一种改进的NN-SVM算法:KCNN-SVM算法.利用该算法对降维后的训练集进行修剪.实验表明,用新的模型进行文本分类,与单纯支持向量机相比,受到文本分词维数以及支持向量机惩罚因子的影响更小,其分类正确率更高.  相似文献   

11.
With the growth of social media, document sentiment classification has become an active area of research in this decade. It can be viewed as a special case of topical classification applied only to subjective portions of a document (sources of sentiment). Hence, the key task in document sentiment classification is extracting subjectivity. Existing approaches to extract subjectivity rely heavily on linguistic resources such as sentiment lexicons and complex supervised patterns based on part-of-speech (POS) information. This makes the task of subjective feature extraction complex and resource dependent. In this work, we try to minimize the dependency on linguistic resources in sentiment classification. We propose a simple and statistical methodology called review summary (RSUMM) and use it in combination with well-known feature selection methods to extract subjectivity. Our experimental results on a movie review dataset prove the effectiveness of the proposed methodology.  相似文献   

12.
三种文档语义倾向性识别方法的分析与比较*   总被引:2,自引:0,他引:2  
研究并实现三种文档倾向性识别的方法:基于情感词加权的方法、基于语义模式分析的方法和基于文本分类的方法。第一种方法利用特征词汇的情感语义倾向性。第二种方法对自然语言的句法结构进行简化,以获取合适粒度的倾向性语义模式。第三种方法则直接利用传统的基于文本分类的方法。通过在网络舆情分析系统中的具体实现,探讨这三种方法各自的不足和优势。  相似文献   

13.
[目的/意义] 考察在线问答社区信息中的情感特征以及其对在线问答社区信息质量自动化评价的影响。[方法/过程] 综合以往研究,提取Yahoo! Answers中的回答信息的文本特征、用户特征、时序特征等,并提出附加情感标注的回答特征,利用Weka机器学习的方法进行信息质量自动化分类预测。[结果/结论] 结果显示,在线问答社区信息中具有一定的情感特征且情感特征的加入能够提高分类预测的准确率。  相似文献   

14.
文本分类中一种基于选择的二次特征降维方法   总被引:4,自引:2,他引:2  
特征选择和特征抽取是文本分类中特征降维的主要方法.目前各种特征选择方法主要致力于度量特征与文本类别的相关性,却很少考虑特征之间的冗余性问题,从而影响特征降维的效果.本文提出一种基于选择的两步特征选择方法,既考虑一些类别信息较强的特征的选取,又减少一些类别判定方面的冗余特征,在尽量减少信息损失的前提下达到有效缩减特征维数的目的.对中文文本的分类实验结果表明,本文提出的特征降维方法在文本分类的准确率方面效果较好.  相似文献   

15.
细粒度情感分析研究综述   总被引:2,自引:0,他引:2  
[目的/意义] 对细粒度情感分析研究进展进行调研和总结,探讨其关键问题、关键技术及未来研究趋势。[方法/过程] 采用文献调研方法,从不同粒度层次的情感分析视角,对粗粒度情感分析到细粒度情感分析的演进过程进行阐述,对细粒度情感分析的实现技术和方法进行归类总结。[结果/结论] 总结细粒度情感分析的两个重要问题:情感词抽取和评价对象属性抽取。本研究有助于了解现阶段细粒度情感分析研究的关键问题及关键方法。  相似文献   

16.
由于自然语言的复杂性,使得情感挖掘仍存在一些问题需要解决,如情感词的领域依赖性、隐式特征识别、同指特征处理和特征极性计算等。为解决这些问题,提出一种基于语义的情感挖掘方法,该方法以主题图为指导进行特征及情感词的识别和情感极性强度计算,充分利用特征之间及其特征与情感词之间的语义关系,可以在一定程度上提高意见挖掘的准确性。  相似文献   

17.
句子情感分析及其关键问题   总被引:2,自引:0,他引:2  
情感分析关注具有情感倾向的评价性信息,具有广泛的应用。情感分析按照粒度的不同分为三种:词汇情感分析、句子情感分析和文档情感分析。文中对句子情感分析及其关键问题进行介绍,首先简要描述句子情感分析的任务,然后介绍句子情感分析中主客观句分类方法及两种主观句情感分类方法--基于情感词的方法和机器学习方法,最后对情感分析中的三个关键问题--词汇上下文极性判定、评价主题识别、意见持有者识别进行总结。  相似文献   

18.
文本分类是信息检索领域的重要应用之一,由于采用统一特征向量形式表示所有文档,导致针对每个文档的特征向量具有高维性和稀疏性,从而影响文档分类的性能和精度。为有效提升文本特征选择的准确度,本文首先提出基于信息增益的特征选择函数改进方法,提高特征选择的精度。KNN(K-Nearest Neighbor)算法是文本分类中广泛应用的算法,本文针对经典KNN计算量大、类别标定函数精度不高的问题,提出基于训练集裁剪的加权KNN算法。该算法通过对训练集进行裁剪提升了分类算法的计算效率,通过模糊集的隶属度函数提升分类算法的准确性。在公开数据上的实验结果及实验分析证明了算法的有效性。  相似文献   

19.
TF-IDF是一种常用的文本特征选择方法。基于该模型的特征选择思想,以特征项的类内分布、类间分布信息为依据,通过引入类内分布及类间分布权重因子对模型的TF及IDF部分进行加权,提出一种基于类别分布信息的文本特征选择模型。新模型使得TF部分含有类内文本频数信息,同时IDF部分含有特征项的类间频数信息。随后的文本分类试验表明,平均查全率、查准率分别提高6.4%、7.8%,F1值提高约7%,验证了本研究提出的基于类别分布的文本特征选择模型的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号