首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
计算机自动语义分析是当前制约自然语言信息检索、信息抽取与机器翻译等应用技术发展的一个瓶颈问题.语义角色标注是语义分析的一种主要实现方式,而目前语义角色的自动标注主要采用基于统计的方法,由于训练数据的规模有限、语义角色类型多,面临严重的数据稀疏问题,处理结果一致性差.本文则采取基于规则的方法,选择汉语框架语义知识库(CFN)所提供的框架和框架元素作为语义标注体系,利用CFN的语义标注句子库,根据短语类型、句法功能以及短语内部构成和外部语境等其他句法语义特征分析框架元素的实现规律,构建语义标注规则,经测试取得了令人满意的结果,为解决语义分析问题探索了一条可行的路线.  相似文献   

2.
[目的/意义]针对医学文本的特点,提出一种基于语义图的多文档自动摘要方法,并利用其中的语义信息实现摘要主题的识别。[方法/过程]利用SemRep实现源文档概念及其语义关系的规范化抽取并构建语义图,从概念-关系-社区3个层次对网络图中的关键信息进行抽取并生成摘要,利用概念-语义类型-类型分组三级映射实现对概念的归类,结合语义搭配模式对摘要主题进行划分。[结果/结论]通过对5种疾病数据集进行测试,结果显示该方法能有效识别出文献集中的核心内容,语义图中所富含的语义信息能准确地对摘要进行主题划分。  相似文献   

3.
基于Web的情报知识元挖掘与语义集成地图   总被引:4,自引:2,他引:2  
温有奎  孙明  温浩  焦玉英 《情报学报》2008,27(2):163-168
Web广泛使用的信息组织与表示语言HTML将显示方式内嵌在数据中,这使得应用程序很难将内容与显示方式分离开来.本文提出一个基于网页信息的知识元挖掘方法,通过汉语分词、词性标注预处理,用软件实现了具有三元组语义关系的知识元结构的挖掘,利用 Protégé本体开发工具实现了基于知识元集成的军事情报语义网地图.试验表明,这是一种快速获取情报知识元的有效方法.  相似文献   

4.
鉴于节点知识地图有助于语义对等网环境中的节点用户更好地管理和利用信息资源,提出一种语义对等网环境下知识地图的构建方法并进行实例验证。该方法把传统对等网上知识地图构建的思想引入到语义对等网中,依据语义对等网环境特有的节点资源语义标注信息,利用自然语言处理技术与本体技术进行知识抽取,并使用OWL语言进行知识的描述,同时引入具有语义的三元组方式对知识概念之间的关系进行管理,最终动态生成可视化节点知识地图,实现节点资源有序化管理。  相似文献   

5.
基于本体的语义检索技术研究与实现   总被引:3,自引:0,他引:3  
在本体基础上通过语义相似度和相关度的计算,利用语义推理将描述的隐含语义显式化,以充分挖掘出与检索内容相关的信息,实现相关信息的语义融合,提高查准率和查全率。研究基于本体的语义相似度和相关度的计算方法,并通过该语义检索方法的实现,证明该方法在语义检索系统开发中的可行性。  相似文献   

6.
歧义字段的处理是汉语自动分词系统中重要而困难的问题之一.歧义处理正确率的高低直接影响着分词的质量.为了解决汉语自动分词系统中的歧义问题,本文基于<知网>的义原关系,在分析了影响词语语义相关度的主要因素后,引入相关度计算,利用<知网>中义原之间的纵向和横向关系及实例因素计算出不同词性的相关度,根据相似度的对称性计算实例的影响因素,由此来提高语义相关度的准确率,同时针对所提出的方法给出了实例验证.实验结果表明,该方法计算得到的语义相关度结果更加合理,为消除汉语自动分词中的歧义问题提供了良好的支撑依据,也使得汉语自动分词系统处理歧义字段更有效.  相似文献   

7.
在汉语框架网(CFN)的基础上,介绍语义角色自动标注的步骤和流程,提出基于文本匹配和最大熵分类器的语义角色自动标注方法。在文本匹配算法中,综合考虑短语类型、短语相对于目标词位置、句法功能三个因素及其对句子相似度影响的权重;在最大熵算法中,也尝试一些新的特征及其组合,最后利用例子对该方法进行有效性验证。  相似文献   

8.
基于概念外延的Folksonomy语义关系挖掘方法   总被引:4,自引:0,他引:4  
为改善Folksonomy中的资源利用效率,对Tag间的语义关系挖掘进行研究,提出一种利用大众标引关系、通过界定概念外延挖掘Tag间语义关系的方法。在del.icio.us真实数据上所进行的实验验证该方法是可行的。  相似文献   

9.
结合语义相似度与相关度的概念扩展   总被引:6,自引:0,他引:6  
聂卉  龙朝晖 《情报学报》2007,26(5):728-732
本文研究在本体构建的语义网环境下,量化领域概念的关联程度扩展概念,实现概念检索的问题.利用语义的层次结构和蕴涵关联计算语义相似度和相关度,并结合二者,提出语义扩展度的概念及计算方法,由此控制调整扩展概念集的范围和大小.经过实例计算与分析,验证并阐明了该方法的合理性、有效性及其特点.  相似文献   

10.
李毅  庞景安 《情报学报》2003,22(4):403-411
为了提高中文医学信息检索效率,本文应用语义学研究成果,深入剖析统一医学语言系统(UMLS),从理论上对多层次概念语义网络结构进行了探讨,以此设计了适用于中文医学信息特点的三层概念语义网络结构,并分别确定了各个概念语义网络层次的语义类型和语义关系,进一步完善了医学信息语义网络.以信息检索的认知理论为依据,建立了基于三层概念语义网络结构的中文医学信息语义标引体系和语义检索模型.对扩展检索和语义检索进行统计学Kappa检验,认为两种检索方法的一致性非常显著(p<0.01);与扩展检索中的任何一种方法相比,语义检索方法具有更高的检索效率.  相似文献   

11.
Relevance feedback methods generally suffer from topic drift caused by word ambiguities and synonymous uses of words. Topic drift is an important issue in patent information retrieval as people tend to use different expressions describing similar concepts causing low precision and recall at the same time. Furthermore, failing to retrieve relevant patents to an application during the examination process may cause legal problems caused by granting an existing invention. A possible cause of topic drift is utilizing a relevance feedback-based search method. As a way to alleviate the inherent problem, we propose a novel query phrase expansion approach utilizing semantic annotations in Wikipedia pages, trying to enrich queries with phrases disambiguating the original query words. The idea was implemented for patent search where patents are classified into a hierarchy of categories, and the analyses of the experimental results showed not only the positive roles of phrases and words in retrieving additional relevant documents through query expansion but also their contributions to alleviating the query drift problem. More specifically, our query expansion method was compared against relevance-based language model, a state-of-the-art query expansion method, to show its superiority in terms of MAP on all levels of the classification hierarchy.  相似文献   

12.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。  相似文献   

13.
[目的/意义]针对目前医学领域基于主题的语义相似度计算研究较少,尚不足以揭示主题间在语义层面的关系,提出一套用于主题间语义相似度计算的方法,进而从语义角度判断主题间关系,为主题新颖性判断、主题关联研究等提供参考。[方法/过程]以MeSH词表为语义计算的基础,剖析词表结构与现有研究成果,从入口词、语义距离、注释3个维度综合测度主题间的语义相似度,利用PubMed中2011-2014年干细胞领域的文献进行实证研究。[结果/结论]利用通用验证主题词对,验证了本文所提3个测度维度的有效性。通过主题间语义相似度的计算,发现干细胞领域2011-2014年较为新颖的主题为未成年人干细胞研究。后续研究中还需融入基于统计的主题相似度,从而更加全面地揭示主题间的关系,发现语义层面领域的新颖性研究主题。  相似文献   

14.
文章明晰技术功效间的多种语义联系,设计技术实现路径的自动化构建方法,实现其即时更新和可视化。结合专利数据特点,基于规则从专利标题中抽取技术词,利用BiLSTM-CRF深度学习模型从专利摘要中抽取专利功效短语,并设计规则从功效短语中自动识别出功效词以及表示技术功效间语义联系的关系词,构建“技术词-关系词-功效词”结构的技术功效语义关联,通过计算实体间语义相似度实现技术词对齐和功效词对齐,优化技术功效关联,依此构建技术实现路径,并以知识网络的形式对其进行可视化。在5G技术领域的实证结果表明,该方法能有效揭示技术功效间的多种语义联系和自动构建技术实现路径,并实现路径的即时更新和清晰展示。  相似文献   

15.
[目的/意义]以主题短语识别为研究对象,提出基于PhraseLDA模型的主题短语挖掘方法,为快速理解文本内容、准确抽取文本主题提供借鉴思路。[方法/过程]对低频词进行量化定义,提出一种合理的短语重要度计算方法,最终利用PhraseLDA主题模型推理出主题短语。[结果/结论]实验结果表明该方法在多种数据集中挖掘出的主题短语质量较高,主题一致性较强。  相似文献   

16.
自然语言语义分析研究进展   总被引:5,自引:0,他引:5  
按照自然语言的构成层次——词语、句子和篇章,分析各层次语义分析的内涵、现有的研究策略、理论依据及存在的主要方法,并对现存的两类主要研究策略进行对比分析.认为词语语义分析是指确定词语意义,衡量两个词之间的语义相似度或相关度;句子语义分析研究包含句义分析和句义相似度分析两方面;文本语义分析就是识别文本的意义、主题、类别等语义信息的过程.当前的自然语言语义分析主要存在两种主要的研究策略:基于知识或语义学规则的语义分析和基于统计学的语义分析.基于统计与规则相融合的语义分析方法是未来自然语言语义分析的主流方法,本体语义学是自然语言语义分析的重要基础.  相似文献   

17.
基于词典和统计的语料库词汇级对齐算法   总被引:5,自引:0,他引:5  
语料库词汇一级的对齐,对于充分发挥语料库的作用意义重大。本文对汉英句子一级对齐的语料库,提出了借助于词典和语料库统计信息的有效的对齐算法。首先利用词典的词的译文及其同义词在目标语中寻找对齐;其次利用汉语词汇与英语单词的共现统计信息以最大的互信息寻找对齐词汇以及相邻短语。实践证明该方法是行之有效的  相似文献   

18.
针对海量信息的冲击,专家提出了语义技术的概念,作者在文章中主要讨论了语义技术在分词算法、知识库建设、输出排序算法中的应用。  相似文献   

19.
基于领域本体实现全网信息的智能搜索方法研究   总被引:2,自引:2,他引:0  
为了克服基于关键词匹配的传统搜索引擎不能有效处理复杂语义的问题,提出了一种基于领域本体实现面向整个网络空间的信息智能搜索方法.首先研究了支持网络信息搜索的领域本体结构和表示方法;重点研究了基于领域本体对用户的检索关键词进行语义处理技术,并且设计了一个算法提高语义推理效率;探究了自动调用搜索引擎,按照语义处理后的检索表达式完成全网信息搜索的方法.实验证明,本方法在略有提高查准率的同时,显著提高了网络信息搜索的查全率.  相似文献   

20.
基于统计的常用词搭配(Collocation)的发现方法   总被引:9,自引:0,他引:9  
孙健  王伟  钟义信 《情报学报》2002,21(1):12-16
常用词搭配 (collocation)是指一些常用的用来表达某些事情或事物的短语 ,一般是二元组或三元组等。常用词搭配的自动发现在自然语言处理中起着很重要的作用 ,它能够丰富词典的容量 ,提高系统的性能。本文提出 4种判断一个二元组是否是常用词搭配的方法 ,并对各种方法的结果进行了比较。然后在已知二元组的基础上 ,提出了统计和发现三元或多元组的方法。这种利用二元组来构造三元组的方法 ,比统计所有三元组的计算量大大减少。实验证明这种方法的结果较好  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号