首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
针对中文短文本自身词汇个数少、描述信息弱的缺陷,引入特征扩展的方法辅助分类。借助网络知识库维基百科抽取相关概念,并采用统计规律与类别信息相结合的方式计算概念间相关度,建立语义相关概念集合,对短文本的特征向量进行扩展,从而有效补充短文本的语义特征。对比实验表明,基于维基百科的短文本分类方法能够提高短文本分类的效果。  相似文献   

2.
以提高领域概念相关性判断的准确度为研究宗旨, 提出综合利用中文维基百科的分类体系结构和概念释义内容进行概念间语义相关度计算的方法.选取中文维基百科分类体系下的图书情报领域的概念为实验对象, 将基于分类信息和文本信息的加权算法与单独基于分类信息的语义距离算法和信息量算法, 以及基于文本信息的文本重叠算法进行对比分析.实验结果表明:加权算法能取得更好的效果, 可为实现面向领域的信息检索、领域本体构建等应用提供重要技术支持.  相似文献   

3.
为减少一词多义现象及训练样本的类偏斜问题对分类性能的影响,提出一种基于语义网络社团划分的中文文本分类算法。通过维基百科知识库对文本特征词进行消歧,构建出训练语义复杂网络以表示文本间的语义关系,再次结合节点特性采用K-means算法对训练集进行社团划分以改善类偏斜问题,进而查找待分类文本的最相近社团并以此为基础进行文本分类。实验结果表明,本文所提出的中文文本分类算法是可行的,且具有较好的分类效果。  相似文献   

4.
整合中文维基语义的网络论坛话题追踪方法研究   总被引:1,自引:0,他引:1  
研究中文维基语义图上的网络论坛话题追踪,对于提高舆情分析系统获取情报的效率及信息处理质量有很大价值.以涉军主题帖子为背景,借鉴维基百科语义相关度与词语共现关系,构建反映词语间静态与动态关联的文本概念图,改进PR算法的关键词挖掘方法,利用维基知识解决论坛文本中的语义特征稀疏问题,减少噪音以提高论坛文本语义相关度计算的准确性.最后实验证明该方法的优越性.  相似文献   

5.
为解决向量空间模型中文本结构和语义信息的缺失问题,本文提出将复杂网络应用到中文文本分类过程中,将文本表示为以特征词为节点,以词语语义相关关系为边,以其相关关系强弱作为边权重的加权复杂网络,利用网络节点的综合特性对文本进行特征选择,以降低文本网络的复杂性.给出基于复杂网络的中文文本分类算法并对其进行实验验证.结果表明,该算法是可行的,且有较好的分类效果.  相似文献   

6.
[目的/意义] 针对SAO结构短文本分类时面临的语义特征短缺和领域知识不足问题,提出一种融合语义联想和BERT的SAO分类方法,以期提高短文本分类效果。[方法/过程] 以图情领域SAO短文本为数据源,首先设计了一种包含"扩展-重构-降噪"三环节的语义联想方案,即通过语义扩展和SAO重构延展SAO语义信息,通过语义降噪解决扩展后的噪声干扰问题;然后利用BERT模型对语义联想后的SAO短文本进行训练;最后在分类部分实现自动分类。[结果/结论] 在分别对比了不同联想值、学习率和分类器后,实验结果表明当联想值为10、学习率为4e-5时SAO短文本分类效果达到最优,平均F1值为0.852 2,与SVM、LSTM和单纯的BERT相比,F1值分别提高了0.103 1、0.153 8和0.140 5。  相似文献   

7.
文章分析维基百科中的文档、目录、超链接、重定向以及消歧义等基本元素与结构关系特点,围绕维基百科在信息检索、文本分类、文本聚类、歧义消解、查询扩展与信息抽取以及本体构建等信息处理任务中的典型解决方法与相关项目,综述和评析基于维基百科的语义知识挖掘的研究与应用方法,从整体上把握基于维基百科的知识挖掘研究现状与进展,为当前知识服务系统建设提供借鉴。  相似文献   

8.
基于图结构的中文文本表示方法研究   总被引:2,自引:0,他引:2  
为解决基于统计的文本表示模型的信息缺失问题,本文提出了一种考虑词间语义和语序信息的基于图结构的中文文本表示方法,其思想是将文本的特征项表示成图结构中的节点,特征项间的关系表示成节点间的有向边,据此可将文本表示成由节点和有向边组成的图结构,并且将边赋予权重信息,该模型较大程度地保留了原文本的结构信息及语义信息.中文语料测试结果表明,基于图结构的文本表示方法对复杂文本语料的分类问题十分有效.对于简短文本语料,本文提出扩展特征项共现单元的修正方法,提高了图结构中文文本表示方法的普遍适用性.  相似文献   

9.
[目的/意义] 微博转发是实现微博信息传播的重要方式,对用户转发行为进行研究可以更好地理解微博信息传播机制,对热点话题检测、舆情监控、微博营销等具有重要意义。针对以往研究中用户兴趣表示不够全面准确以及未考虑情感差异对用户转发行为的影响,提出一个融入情感差异和用户兴趣的微博转发预测模型。[方法/过程] 该模型首先从维基百科中提取概念语义关系构建维基知识库,将其作为语义知识源对微博文本进行语义扩展,解决语义稀疏问题;对语义扩展后的用户历史微博进行聚类,提取用户兴趣主题和主题对用户的影响力;然后计算微博中各类情感的情感强度,提取情感差异特征;最后结合用户行为特征、用户交互特征、微博特征、用户兴趣特征和情感差异特征,运用SVM实现微博转发预测。[结果/结论] 在新浪微博真实数据集上进行实验,验证了所提模型的有效性。  相似文献   

10.
李毅  庞景安 《情报学报》2003,22(4):403-411
为了提高中文医学信息检索效率,本文应用语义学研究成果,深入剖析统一医学语言系统(UMLS),从理论上对多层次概念语义网络结构进行了探讨,以此设计了适用于中文医学信息特点的三层概念语义网络结构,并分别确定了各个概念语义网络层次的语义类型和语义关系,进一步完善了医学信息语义网络.以信息检索的认知理论为依据,建立了基于三层概念语义网络结构的中文医学信息语义标引体系和语义检索模型.对扩展检索和语义检索进行统计学Kappa检验,认为两种检索方法的一致性非常显著(p<0.01);与扩展检索中的任何一种方法相比,语义检索方法具有更高的检索效率.  相似文献   

11.
为了有效处理文本中的复杂语义问题,提出了一种基于领域本体的SOM文本逐层聚类方法.该方法基于领域本体的概念及其逻辑语义关系,将文本向量的表示从词的层面上升到主题概念层面,大大消减了文本向量的维数,提高了聚类效率.基于领域本体的概念层次关系,采用SOM算法实现文本的逐层聚类,以分层方式组织文档,方便用户由粗到精、由总体到局部地查阅文本集.通过无人机领域的Web文本聚类实验,验证了该方法的有效性.  相似文献   

12.
基于概念向量空间的文档语义分类模型研究   总被引:1,自引:0,他引:1  
针对传统文档自动分类方法和目前语义分类方法中存在的问题,提出一种新的基于概念向量空间的文档语义分类模型,该模型通过字符匹配算法将原文档高维词向量空间中相互独立的词项匹配到描述本体概念的属性集合,进而映射成属性集合对应的本体概念,形成低维的、语义丰富的文档概念向量空间。采用目前非常流行的数据集“20Newsgroups”作为实验数据集,对基于概念向量空间的文档语义分类模型进行实验验证。实验结果表明:提出的文档语义分类方法与传统基于词向量空间的文档分类方法相比,能够极大地降低向量空间维度,提高文档分类的性能。   相似文献   

13.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。  相似文献   

14.
李向阳  张亚非 《情报学报》2005,24(1):100-106
简单分析了语法上界定汉语短语的困扰,提出一种利用语义搭配关系界定汉语短语的方法。首先,借助同义词词林实现语义知识的编码,用这种语义编码来表示语义搭配关系;其次,在此基础上,定义短语与已知语义搭配关系的相似性,计算词语搭配的合理性;最后,利用短语内部的语义搭配合理性优于其他搭配这一性质,用算法实现了基于语义的汉语短语界定过程。该方法应用于军事文本,从中界定出描述作战单位等信息的短语,取得较好的效果。此外,经该方法界定出的短语具有较强的语义信息,对信息抽取等实际应用具有一定的适用性。  相似文献   

15.
一种面向用户兴趣的个性化语义查询扩展方法   总被引:1,自引:0,他引:1  
在基于本体的语义查询扩展研究的基础上,结合用户模型的研究,提出要将用户的兴趣模型与查询扩展相结合,实现个性化的语义查询扩展,并把个性化的语义查询扩展过程分为两个阶段——检索关键词向用户模型中的个性化领域本体概念的映射以及在本体层次对映射概念的语义扩展,给出每一阶段的实现算法。实验表明该方法能够提高信息检索的查准率和查全率,在一定程度上满足个性化的查询需求。  相似文献   

16.
[目的/意义]利用关联数据名称唯一性特点,对书目数据进行语义化关联组织,使不同图书馆资源通过文献版本关系发现实现语义聚集。[方法/过程]分析书目关系类型及文献不同版本的特点,提出文献不同版本类型对应的版本关系,然后采用属性值顺序匹配方法,经过同种文献确定、版本关系发现两个步骤发现文献之间的版本关系,并利用美国国会图书馆、德国国家图书馆相关数据以及维基关联数据进行实证研究。[结果/结论]构建基于关联数据、书目数据的文献版本关系发现方法,实现同种文献不同版本的语义关联,发现实证数据间的版本关系,并指出其应用方向。通过该方法可以提供基于关联数据的知识检索服务,满足用户阅读、科研需求。  相似文献   

17.
张倩  刘怀亮 《图书情报工作》2013,57(21):126-132
为了解决基于向量空间模型构建短文本分类器时造成的文本结构信息的缺失以及大量样本存在的标注瓶颈问题,提出一种基于图结构的半监督学习分类方法,这种方法既能保留短文本的结构语义关系,又能实现未标注样本的充分利用,提高分类器的性能。通过引入半监督学习的思想,将数量规模较大的未标注样本与少量已标注样本相结合进行基于图结构的自训练学习,不断迭代实现训练样本集的扩充,从而构建最终短文本分类器。经对比实验证明,这种方法能够获得较好的分类效果。  相似文献   

18.
In this article we present Supervised Semantic Indexing which defines a class of nonlinear (quadratic) models that are discriminatively trained to directly map from the word content in a query-document or document-document pair to a ranking score. Like Latent Semantic Indexing (LSI), our models take account of correlations between words (synonymy, polysemy). However, unlike LSI our models are trained from a supervised signal directly on the ranking task of interest, which we argue is the reason for our superior results. As the query and target texts are modeled separately, our approach is easily generalized to different retrieval tasks, such as cross-language retrieval or online advertising placement. Dealing with models on all pairs of words features is computationally challenging. We propose several improvements to our basic model for addressing this issue, including low rank (but diagonal preserving) representations, correlated feature hashing and sparsification. We provide an empirical study of all these methods on retrieval tasks based on Wikipedia documents as well as an Internet advertisement task. We obtain state-of-the-art performance while providing realistically scalable methods.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号