首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
停用词表对中文文本情感分类的影响   总被引:6,自引:2,他引:4  
王素格  魏英杰 《情报学报》2008,27(2):175-179
本文利用三种特征选择方法、两种权重计算方法、五种停用词表以及支持向量机分类器对汽车语料的文本情感类别进行了研究.实验结果表明,不同特征选择方法、权重计算以及停用词表,对文本情感分类的影响也不尽相同;除形容词、动词和副词外的其余词语作为停用词表以及不使用停用词表对情感分类作用较大,得到的分类结果比较好;总体上,采用信息增益和布尔型权重进行中文文本情感分类的效果较好.  相似文献   

2.
一种基于类别信息的文本自动分类模型   总被引:2,自引:0,他引:2  
从理论角度分析基于互信息的特征选择方法的不足,提出一种改进的互信息特征选择方法;针对向量空间模型在文本表示方面的问题,使用类别空间模型将文本表示为矩阵,有效利用文本的类别信息,实现一种基于类别信息的文本分类算法。对中文文本的分类实验结果表明,该文本分类方法具有良好的分类效果。  相似文献   

3.
[目的/意义] 微博平台产品评论的特征级情感分析问题具有其特殊性,为了对特征分类,解决隐式特征的识别问题,并分析特征情感,提出一种基于特征本体的产品评论情感分析方法。[方法/过程] 该方法利用构建的特征本体对特征词分类,通过计算情感词与特征的搭配权重来识别隐式特征,并构建领域情感词典和微博表情符号词典,计算微博产品评论的特征情感极性和强度。[结果/结论] 构建方法模型,通过采集微博评论数据设计实验,验证了提出方法的有效性。  相似文献   

4.
从文本特征对文本分类结果的整体影响的角度出发,提出一种基于粒子群优化的文本特征选择方法(PSOTFS),使用粒子群算法来挖掘文本特征选择规则。PSOTFS首先使用开方检验对文本特征进行预选择,然后使用粒子群算法对预选择得到的文本特征进行精选。PSOTFS以一个粒子表示一条特征选择规则,特征选择规则集对应某个粒子群,采用分类准确率作为适应度函数,采用分组的方式对粒子的维度进行降维。实验结果表明,PSOTFS比开方检验、信息增益、文档频率和互信息方法能得到更好的分类效果。  相似文献   

5.
Web文本情感分类研究综述   总被引:6,自引:1,他引:5  
对用户发表在Web上的评论进行分析,能够识别出隐含在其中的情感信息,并发现用户情感的演变规律.为此,本文对Web文本情感分类的研究进行综述.将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结.其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法.分析了情感分类中的语料库选择和研究难点.最后总结了情感分类的应用现状,并指出今后的研究方向.  相似文献   

6.
基于Word2vec的情感分析在品牌认知中的应用研究   总被引:2,自引:0,他引:2  
[目的/意义]通过基于Word2vec的文本情感分析技术对某显示器品牌的产品与服务的在线评论进行分析,研究消费者的品牌认知和品牌口碑,为管理者建立更科学的品牌管理体系提供有针对性的建议。[方法/过程]首先利用自然语言处理技术,对评论语料库进行预处理,结合深度学习的Word2vec词向量技术构建产品特征词和情感词词库,进一步构造情感概念对进行情感评分,并将其用于分析品牌产品特定特征的用户情感。[结果/结论]通过Word2vec构建的情感词典相较于传统方法(例如一般的情绪词表)进行情感分析,在情感分析的准确率上有所提高,再结合有效的情感概念对构造与情感评分,可以有效地理解用户的品牌认知。  相似文献   

7.
将自动文本分类引入竞争情报系统,并结合民航客服业的实际应用场景展开研究。在对文本分类的理论基础进行研究与分析的基础上,设计一种自动分类策略,其核心是针对传统机器学习方法依赖历史数据的局限,优化特征选择和学习样本获取方法。选用SVM算法,详细描述分类词表构建、分类规则提取、分类模型训练等过程,最终取得较为理想的实际效果。  相似文献   

8.
特征降维是文本分类面临的主要问题之一。首先通过 分布对特征项进行选择,然后使用一种改进的基于密度聚类方法对选择后的特征项进行聚类,借助类别分布信息,在尽量减少信息缺失的前提下先后两次对文本特征维数进行了压缩;在基于类别概率分布的模式下实现文本的矩阵表示,借助矩阵理论进行文本分类。试验结果表明,该方法的分类效率较高。  相似文献   

9.
三种文档语义倾向性识别方法的分析与比较*   总被引:2,自引:0,他引:2  
研究并实现三种文档倾向性识别的方法:基于情感词加权的方法、基于语义模式分析的方法和基于文本分类的方法。第一种方法利用特征词汇的情感语义倾向性。第二种方法对自然语言的句法结构进行简化,以获取合适粒度的倾向性语义模式。第三种方法则直接利用传统的基于文本分类的方法。通过在网络舆情分析系统中的具体实现,探讨这三种方法各自的不足和优势。  相似文献   

10.
宋灵超  黄崑 《图书情报工作》2016,60(21):103-112
[目的/意义] 提出利用社会标签自动分类图片情感类型的方法,服务基于情感特征的图像检索与利用。[方法/过程] 以Flickr图片为例,利用PMI算法对WordNet-Affect词表进行预处理形成典型情感词表;结合Ekman提出的6类基本情感类型,利用标签对图片情感类型进行标注;并且,通过实验对分类标注效果进行验证;最后,讨论图片特点、标注意图、非情感标签数量对分类标注效果的影响。[结果/结论] 研究发现,一幅图片的非情感标签与情感标签在表现图片整体情感类型的倾向性上具有较高一致性;结合PMI算法,利用预处理后的典型情感词表标注图片的结果优于未处理的WordNet-Affect词表;并且,分类标注效果与人工标注结果也具有较好的一致性,其中,快乐类(Happy)和忧伤类(Sad)图片的分类标注一致性最高,惊讶类(Surprise)的分类标注一致性最低;分析发现,仅通过标签标注图片情感类型的过程中,分类标注效果与图片情感的典型性、单一性以及图片发布方和欣赏者意图、动机的差异、图片的非情感标签个数都有关系。  相似文献   

11.
The deployment of Web 2.0 technologies has led to rapid growth of various opinions and reviews on the web, such as reviews on products and opinions about people. Such content can be very useful to help people find interesting entities like products, businesses and people based on their individual preferences or tradeoffs. Most existing work on leveraging opinionated content has focused on integrating and summarizing opinions on entities to help users better digest all the opinions. In this paper, we propose a different way of leveraging opinionated content, by directly ranking entities based on a user’s preferences. Our idea is to represent each entity with the text of all the reviews of that entity. Given a user’s keyword query that expresses the desired features of an entity, we can then rank all the candidate entities based on how well opinions on these entities match the user’s preferences. We study several methods for solving this problem, including both standard text retrieval models and some extensions of these models. Experiment results on ranking entities based on opinions in two different domains (hotels and cars) show that the proposed extensions are effective and lead to improvement of ranking accuracy over the standard text retrieval models for this task.  相似文献   

12.
Web文本分类技术研究现状述评   总被引:1,自引:0,他引:1  
本文在分析国内外Web文本分类方法研究现状的基础上,对新近出现的基于群的分类方法、基于模糊—粗糙集的文本分类模型、多分类器融合的方法、基于RBF网络的文本分类模型、潜在语义分类模型等新方法,以及K—近邻算法和支持向量机的新发展等进行了深入探讨;并对Web文本分类过程的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法进行了分析;最后总结了Web文本分类技术存在着新分类方法不断涌现、传统分类方法的进一步发展、文本、语音和图像分类技术的融合等几种发展趋势,以及存在着分词问题、目前还没有发现"最佳"的特征选择等研究的不足之处。  相似文献   

13.
提出人才网页自动识别系统设计,实现对Nutch定向采集系统抓取的高校网站页面进行人才描述网页自动识别。识别过程中使用自动获取的网页的URL特征、网页Title标签特征、链接文字特征以及网页文本内容特征,使用人名词表、正面特征词表、负面特征词表对各项识别特征进行匹配以计算特征值,借助开源软件LibSVM实现基于多特征值的人才网页自动识别。  相似文献   

14.
回顾Web服务语义描述的发展过程,详细介绍自OWL-S和WSDL-S之后Web 服务语义描述标准的发展状况,对各种语义描述机制包括SAWSDL、WSMO-Lite以及 RESTfulWeb服务的描述方法SA-REST、hREST、MicroWSMO的特点及应用状况做出研究和评述,并在此基础上分析语义技术在Web上的应用发展方向。  相似文献   

15.
传统的Web文本分类方法将文本中关键词的相似度作为分类的依据,丢失了很多重要的语义信息,导致分类结果不够准确且计算量大。基于此,文章提出了一种基于语义相似度的Web文本分类方法,利用领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量集,定义Web文本相似度的计算公式,设计并实现基于语义相似度的KNN算法。实验结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少了计算量,提高了分类精确度。  相似文献   

16.
侯丽  李姣  侯震  陈松景 《图书情报工作》2015,59(23):115-123
[目的/意义] 从互联网公众查询数据中发现公众使用的健康术语,为建立公众健康术语与医学专业术语的映射提供基础,进而优化健康类知识服务平台的知识组织与管理性能。[方法/过程] 设计规则与N-Gram相结合的健康术语新词的识别模型,采集公众查询数据,开展实验验证,通过多次实验,逐步完善过滤语料集合,结合人工判读,不断优化并验证方案的有效性。[结果/结论] 从互联网中公众提问句抽取出规则,结合统计算法进行公众使用的健康类新词抽取,该技术方法对识别公众使用的健康术语具有一定的通用性,能为建立公众术语与医学术语映射提供数据基础。实验结果表明:基于规则进行公众日志数据预处理,能为后续的实验方案提供较好的预处理文本,而采用N-Gram及各种过滤规则结合的术语识别方法,能较好地识别发现短文本中的新词。  相似文献   

17.
构建基于Web数据挖掘技术的信息服务系统   总被引:5,自引:0,他引:5  
介绍Web数据挖掘的种类和方法,提出一个基于Web数据挖掘的信息服务系统结构,该结构以数据挖掘模块为中心,处理数据库、智能代理、Web服务器日志和用户接口多数据源的信息,以改善文献情报机构的服务质量。  相似文献   

18.
Anchor texts complement Web page content and have been used extensively in commercial Web search engines. Existing methods for anchor text weighting rely on the hyperlink information which is created by page content editors. Since anchor texts are created to help user browse the Web, browsing behavior of Web users may also provide useful or complementary information for anchor text weighting. In this paper, we discuss the possibility and effectiveness of incorporating browsing activities of Web users into anchor texts for Web search. We first make an analysis on the effectiveness of anchor texts with browsing activities. And then we propose two new anchor models which incorporate browsing activities. To deal with the data sparseness problem of user-clicked anchor texts, two features of user’s browsing behavior are explored and analyzed. Based on these features, a smoothing method for the new anchor models is proposed. Experimental results show that by incorporating browsing activities the new anchor models outperform the state-of-art anchor models which use only the hyperlink information. This study demonstrates the benefits of Web browsing activities to affect anchor text weighting.  相似文献   

19.
基于结构对Web网页区域分割与语义识别,实现网页语义理解,给出Web多媒体相关文本的定义,并结合其分布特点,采用个体级、区域级、网页级三级分析方法分别进行提取,从而实现Web多媒体相关文本准确提取。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号