首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
词汇集聚提供了文本的结构启示,因而在许多自然语言处理中有极为重要的应用。介绍基于知网分析词汇集聚的方法,首先利用语义网络的形式将知网知识表示出来;然后在文本概念间有引导地建立推理路径;最后基于路径搜索形成体现集聚的词汇链。测试表明,基于知网推理形成的词汇链基本符合人的直觉,准确率较高。  相似文献   

2.
基于词汇链的应急预案主题抽取方法研究   总被引:1,自引:0,他引:1  
本文针对应急预案自动主题抽取的需求,采用词汇语义相关度计算的方法,构建了一个基于词汇链算法且符合人的主观感受的主题抽取模型.模型根据应急预案文本的特点,运用了自然语言处理技术,改进了原始的词汇链生成算法,提出了一种多因素词语权重算法.通过与人工抽取主题词的实验结果相比较,该主题提取模型在查全率和查准率上都取得了较好的效果.  相似文献   

3.
基于概念空间方法的信息检索技术研究   总被引:14,自引:0,他引:14  
为了解决词汇差异问题,词表构造在信息检索系统中有着重要意义。概念空间方法是利用计算机自动构造概念语义网络(词表)并以此为基础进行概念检索的一种方法。由词语作为语义网络的节点,词语之间的关联权重以一个给定文档集合中词语的共现率来计算,其大小代表它们之间的相似性。检索时系统采用人工智能方法激活与检索入口词相关的术语或概念,为用户提供交互式的检索用语建议。方法的具体步骤包括文档和对象列表收集、对象过滤和自动标引、共现分析和联想检索四个阶段。这种方法多用于英文检索系统,但对我国的信息检索系统也有重要的借鉴意义。  相似文献   

4.
[目的/意义]以公共图书馆、博物馆、美术馆和群众艺术馆数字资源整合为例,探讨通过赋予受控词汇"身份",提高资源检索的效率的方法。[方法/过程]定义多维坐标系统空间面、主题坐标轴和坐标点;通过为词汇概念赋予标识符,建立概念与词汇的关联,按一定规则为词汇赋予"身份",以概念优选机制、关联数据技术与索引表构建作为其辅助。此外,通过解析用户检索词语义,构建语义标识符,并对概念标识符进行拆分、组合,利用测算标识符点距的方法建立语义标识符与概念标识符之间的映射关系,实现检索维度优选。[结果/结论]多维坐标系统的坐标关系模型以"面-线-点"的坐标关系处理层次为基础,以"概念定位-词汇定位-资源定位"的检索层次为依据,并结合优选、关联与索引,拆分、组合与点距等相关实现机制,通过量化方法来处理词汇关系,能够提高机器对词汇的理解。  相似文献   

5.
为解决向量空间模型中文本结构和语义信息的缺失问题,本文提出将复杂网络应用到中文文本分类过程中,将文本表示为以特征词为节点,以词语语义相关关系为边,以其相关关系强弱作为边权重的加权复杂网络,利用网络节点的综合特性对文本进行特征选择,以降低文本网络的复杂性.给出基于复杂网络的中文文本分类算法并对其进行实验验证.结果表明,该算法是可行的,且有较好的分类效果.  相似文献   

6.
分析文本中词语关联规律对于解决信息检索与文本语义研究中许多问题具有重要的价值和意义。首先建立测试平台,对词对语义与构成词对的两词在文本中语义的相符性进行人工判断,然后依据两词语在文本中所处位置差异、文本类型、分句长度、词频等标准,对数据进行分组统计和聚类分析得出两词在文本中的关联规律,最后指出不足及下一步研究的方向。  相似文献   

7.
为提高引文网络社区划分的准确性,以文档之间的语义关系以及引文之间的引用关系为基础,结合词汇在文档中的位置关系等信息,构建基于词汇语义加权的引文网络。通过GloVe模型对词汇向量化以充分利用词汇语义信息,结合WMD模型度量文献之间的相似度,把文档相似度的计算转变为在约束条件下求线性规划最优解的问题,结合文本的内容及结构特征对网络中的边进行赋权,以Louvain社区发现算法对加权后的引文网络进行社区划分,并对划分后的社区进行分析与检验,实验证明GloVe-WMD模型可提高引文网络社区划分的准确度。  相似文献   

8.
网络词汇的语义生成是词内理据与词外理据共同作用的结果,新兴网络词语"雷"字也不例外。从词内理据和词外理据两个层面来探讨"雷"字的语义生成模式,不仅能够对"雷"字新的语义作出更科学、更本质的诠释,而且也能够给网络词汇的研究提供一种新思路。  相似文献   

9.
提出一种基于词汇链的关键词抽取方法。该方法通过构造词汇链来描述技术路线图的技术领域主题内容,并将词汇链作为表征技术路线图中领域关键词、核心技术关键词及其语义关系的词汇序列。实验表明该方法抽取的关键词能够更全面地揭示技术路线图的技术领域主题内容,其抽词结果的准确率和召回率较TF-IDF方法有明显的提高。  相似文献   

10.
[目的/意义]衍生性网络健康谣言生成门槛低,周期性强,危害影响深远,是网络健康谣言识别与治理中需要优先解决的重点问题之一,也是重要突破口。[方法/过程]借助深度语义表征和聚合方法,探索衍生性网络健康谣言文本内容的六要素特征;通过结合网络健康谣言的分布式语义特征预训练模型,构建包括六个类别、6287个词汇的网络健康谣言文本内容要素词库;在将健康谣言标题特征、内容文本六要素特征以及主体内容文本特征进行统一的向量空间表示与融合后,构建面向多源文本特征融合的网络健康谣言识别模型。[结果/结论]模型的实证研究表明:与已有的对照模型相比,本文所提出的文本特征融合模型使衍生性网络健康谣言识别的准确率有较好的提升,且丰富的可拓展健康谣言要素词库可为后续的研究提供较好的资源支持。  相似文献   

11.
传统的关键词自动抽取常以候选词的出现频次、位置等非语义信息构建特征,并未考虑关键词在学术文献中承担的特定语义角色,即词汇功能。通过对现有数据统计,本文发现作者标注关键词中约有67.99%是研究问题或研究方法词。因此,本文将关键词的词汇功能分为三类:“研究问题”“研究方法”和“其他”,在传统的词频特征以及位置特征基础上,融合词汇功能特征,使用计算机领域的学术文献基于分类和排序两种思想进行关键词抽取实验。实验结果表明,融合词汇功能后,关键词抽取效果得到明显提升。相较于基准实验,二分类模型的准确率Acc和F值分别相对提升24.63%和25.19%,达到了0.840和0.666;排序模型的MAP、NDCG@5和P@5分别相对提升168.32%、189.50%和148.30%,提升至0.813、0.828和0.447,证明了学术文献词汇功能特征在关键词自动抽取中具有重要作用。  相似文献   

12.
��[Purpose/significance] The abstract of scientific papers is a vital indexing object within information organization. Meanwhile, indexing the abstract according to certain rules is conducive for not only scientific communication or knowledge discovery, and intelligence analysis as well. Thus, how to realize auto-index accurately and quickly, for millions of unstructured abstracts existed nowadays is a crucial problem to be addressed.[Method/process] This study assumed that different categories of abstract are inherently consistent, that is, the study of structured abstract can provide a method and technical reference for unstructured abstract auto-indexing. Acting in accordance with this assumption and based on the US National Library of Medicine's structural element labeling terminology, this study accomplished mapping across abstract element classifications and proposed BOMRC system, a normalization indexing method for structured abstract. Then we collected research sample and used text mining method to analyze multiple features of structured abstract quantitatively and statistically, such as word frequency, TF-IDF value, as for dimension of words, verbs, three-word lexical chunks and four-word lexical chunks, which enabled us propose a semantic feature dictionary for structured elements. Finally, we used unstructured abstract to test the validity of the semantic feature dictionary.[Result/conclusion] The results show that the semantic feature dictionary method can effectively identify various structural elements of scientific paper abstract, and it can be used to optimize the automatic recognition model, which may be based on machine learning methods.  相似文献   

13.
[目的/意义] 论文摘要是信息组织的重要标引对象,将论文摘要按一定结构进行标引有利于科学传播、知识发现和情报分析。如何对现有非结构式摘要进行精准快速的自动标引是亟待解决的现实问题。[方法/过程] 假定不同类别的摘要具有内在一致性,即对结构式摘要的研究可为非结构式摘要自动标引提供方法和技术参考。据此,基于美国国家医学图书馆结构要素标签术语集和标签分类映射关系,提出结构要素BOMRC体系和结构式摘要的识别与规范化标引方法。其次选取研究样本并采用文本挖掘方法对样本语料中的单词、动词、三词词块、四词词块等词汇进行词频、TFIDF值等多个指标的定量统计分析,构建能够进行结构要素识别的语义特征词典。最后利用非结构式摘要测试集进行语义特征词典有效性检验。[结果/结论] 结果显示,利用语义特征词典方法能够有效识别非结构式摘要的各类要素,并可用于优化以机器学习方法为核心的自动识别模型。  相似文献   

14.
基于词向量扩展的学术资源语义检索技术   总被引:1,自引:0,他引:1  
[目的/意义] 尝试以统计的方法为指导思想,探究基于词向量扩展的语义检索技术来提升学术资源的语义检索能力。[方法/过程] 利用自然语言处理、文本挖掘技术,对采集来的学术资源(主要是学术论文)元数据进行预处理,结合word2vec词向量生成工具和elasticsearch全文检索引擎搭建语义检索系统,对学术资源进行语义检索的探索研究。[结果/结论] 本文提出的方法能够有效提升学术信息的检索效果,一定程度上实现学术资源的语义检索,并为后续语义检索的进一步研究提供借鉴。  相似文献   

15.
针对网页文本结构信息少、噪声大的特点,将句子看作点,将句子间的相似性看作边,用句子关系图描述文本中句子间的关系。抽取文本主题句的任务转化为搜索图中边最多的点。利用语义词典,将句子相似度定义为句子语义相似度,解决短文本词频相似度低的问题。选用互联网公开语料进行测试,抽取的主题句达到平均80.6%的可接受性。  相似文献   

16.
作为文本内容理解的媒介与载体,词汇语义知识库已被广泛应用于信息检索、信息提取、问答系统、自动文摘等方面,成为自然语言处理不可或缺的基础资源.本文介绍词汇语义知识库研究与开发的现状,重点分析了WordNet、Sinica BOW、HowNet及CCD等具有代表性的词汇语义知识库的具体情况.在此基础上,盘点各种需求和解决方案,提出词汇语义知识库研究面临新的挑战和机遇,即本体化和多语化的大趋势,它们将从不同方面弥补词汇语义知识库在知识共享和知识交流上的不足,使其更好地为自然语言处理服务.本文最后探讨了词汇语义知识库未来发展中可能存在的问题和新的课题.  相似文献   

17.
关于文本概念语义规范的思考   总被引:1,自引:0,他引:1  
文本概念在西语中是一个多义词,在当代多学科的语用环境中呈普适化趋势。因此,文本概念语义规范具有消除文本术语语用失范的重要意义。当前文本概念语义规范研究的重点是:文本与文献化信息、客观化知识的概念整合,文本与文献概念的区别与联系,正确区分本体论文本与认识论文本,科学建构符号学意义上的文本范畴和语义意义上的文本范畴。参考文献34。  相似文献   

18.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号