首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 296 毫秒
1.
学术资源本体非等级关系抽取研究   总被引:1,自引:1,他引:0  
蒋婷  孙建军 《图书情报工作》2016,60(20):112-122
[目的/意义] 概念非等级关系抽取是本体构建的必要步骤,学术文献作为一种重要的学术资源类型,本文主要利用其结构特点来进行本体概念非等级关系的抽取。[方法/过程] 首先,在本体概念抽取的基础上,对文献中概念的类型进行分类,以便于后期关系动词搭配的概念类型来排除不符合条件的三元组;其次,确定学术文献中的关系类型,并采用C-value方法抽取表示关系的动词,进行本体关系的表示;再次,评价概念对的关联性,利用互信息法对概念对进行排序并去除非相关概念对,实验表明该方法非常有效;最后评价概念对与关系动词的关联,分析影响三元组关联的因素,再采用实验确定模型挖掘三元组,实验比较现有的关联规则挖掘的方法。[结果/结论] 结果表明本文提出的三元组选择模型效果明显超过现有的关联规则挖掘方法,并且在语料集扩大的情况下这种优势更为明显。  相似文献   

2.
典型关系抽取系统的技术方法解析   总被引:3,自引:0,他引:3  
实体关系抽取是信息抽取领域中的一项重要任务.文章在对当前关系抽取的相关文献、系统和项目进行分析研究的基础上,将基于非结构化文本的实体关系抽取技术方法归纳为:以模式构造和匹配为主线进行关系抽取、以词典驱动关系抽取、运用机器学习算法进行关系抽取、借助Ontology进行关系抽取以及多种方法有机结合进行关系抽取.从技术应用特点、核心模块的实现细节以及系统评测结果等方面深入分析了典型的关系抽取系统,它们包括EEES关系抽取系统、SVM关系抽取系统、T-Rex关系抽取系统、KMI语义网络门户的混合关系抽取系统,旨在为进一步构建实体关系抽取系统提供良好借鉴.该文为2008年第9期本期话题"知识抽取"的文章之一.  相似文献   

3.
面向科技文献的混合语义信息抽取方法研究   总被引:1,自引:0,他引:1  
针对目前知识抽取技术无法精确抽取学术文献中提及的具体理论方法和性能指标参数等问题,综合运用语义标注技术、规则抽取技术以及正则表达式技术,提出一种面向科技文献的混合语义信息抽取方法。该方法首先对科技文献进行语义标注,得到相关学术术语。然后,构造抽取规则,抽取文献提及的与具体性能指标相关的句子。最后,采用正则表达式技术从相关句子中精确抽取出关键性能指标。对碳纳米管研究领域科技文献语义的信息抽取证明,该方法能迅速、有效和准确地抽取科技文献主要创新研究内容和性能指标。  相似文献   

4.
实体关系抽取的技术方法综述*   总被引:3,自引:0,他引:3  
对实体关系抽取研究以MUC和ACE评测为主线的发展进行总结,并指出实体关系抽取任务普遍存在的三个问题是特定领域标引数据集的获取、模式的获取以及共指消解。在对当前关系抽取的相关文献、系统和项目进行分析研究的基础上,将基于非结构化文本的实体关系抽取技术方法归纳为:基于模式匹配的关系抽取、基于词典驱动的关系抽取、基于机器学习的关系抽取、基于Ontology的关系抽取以及混合抽取方法,旨在为进一步构建实体关系抽取系统提供良好借鉴。  相似文献   

5.
深度学习在自然语言处理方面取得了显著成效,为生物医学领域的信息抽取带来新的研究范式。本研究旨在系统调研生物医学语义关系抽取方法、分析其发展历程,为深度学习方法的进一步运用提供基础和启示。通过检索Pub Med、Web of Science和IEEE数据库,以及Bio Creative、Sem Eval等重要测评网站,遴选出具有代表性的抽取方法,并从目的、方法、数据集和效果四个维度进行分析。经过系统梳理,可将生物医学语义关系抽取方法分为三个阶段:基于知识、传统机器学习和深度学习。将先验知识和领域资源恰当地融入到深度学习模型中,是进一步提升语义关系抽取效果的探索方向。  相似文献   

6.
标签形式的社会性语义越来越占据主导地位,使元数据界在这种新形式的信息内容表达和检索方面面临机遇和挑战。其中,主要的挑战是与标签相关的语境信息的缺失。以Flickr标签为例,对如何利用社会性语义资源来丰富主题元数据进行了实验。实验过程包含4个步骤:收集Flickr标签样本;通过共有信息计算标签间的同现情况;通过Google检索结果来追踪标签对的语境信息;用自然语言处理和机器学习技术来抽取标签间的语义关系。本实验能够利用Google搜索结果构建语境库,并且以自然语言处理和机器学习算法对这些语句进行处理。这种新方法对于赋予标签对以一定语义关系有相当高的准确率。也探讨该方法在利用社会性语义丰富的主题元数据方面的意义。  相似文献   

7.
李向阳  张亚非 《情报学报》2005,24(1):100-106
简单分析了语法上界定汉语短语的困扰,提出一种利用语义搭配关系界定汉语短语的方法。首先,借助同义词词林实现语义知识的编码,用这种语义编码来表示语义搭配关系;其次,在此基础上,定义短语与已知语义搭配关系的相似性,计算词语搭配的合理性;最后,利用短语内部的语义搭配合理性优于其他搭配这一性质,用算法实现了基于语义的汉语短语界定过程。该方法应用于军事文本,从中界定出描述作战单位等信息的短语,取得较好的效果。此外,经该方法界定出的短语具有较强的语义信息,对信息抽取等实际应用具有一定的适用性。  相似文献   

8.
近年来,知识抽取技术在非结构化文本的处理中起到很重要的作用.文章在对当前知识抽取的相关文献、系统和项目分析研究的基础之上,提出了当前知识抽取研究中的主要抽取内容对象的分类,并对这些主要内容对象抽取的相关技术方法进行综述.主要总结了Web对象识别和集成、术语识别和抽取、主题发现和识别、概念层次关系的抽取、非概念层次关系的抽取、事实抽取、观点抽取和倾向识别等7种内容对象抽取的技术方法.并在此基础之上,对未来知识抽取的发展趋势进行了分析.该文为2008年第9期本期话题"知识抽取"的文章之一.  相似文献   

9.
为了提高信息抽取过程中的语义深层次的理解和准确率,本文提出了一种基于领域本体和语块分析的语义信息抽取方法,在详细说明其信息抽取模型的基础上,重点针对命名实体识别、词性组合模板、基于本体的三元组和二元组规则等关键问题进行了深入的分析和研究,提出了相应的解决方法,并进行了相关试验性研究.结果表明:采用本文所述的系统结构及其技术构建文本信息抽取系统是可行的,其能在深层次语义理解的基础上进一步提高信息抽取的准确率.  相似文献   

10.
[目的/意义]针对医学文本的特点,提出一种基于语义图的多文档自动摘要方法,并利用其中的语义信息实现摘要主题的识别。[方法/过程]利用SemRep实现源文档概念及其语义关系的规范化抽取并构建语义图,从概念-关系-社区3个层次对网络图中的关键信息进行抽取并生成摘要,利用概念-语义类型-类型分组三级映射实现对概念的归类,结合语义搭配模式对摘要主题进行划分。[结果/结论]通过对5种疾病数据集进行测试,结果显示该方法能有效识别出文献集中的核心内容,语义图中所富含的语义信息能准确地对摘要进行主题划分。  相似文献   

11.
[目的/意义]面对海量专利文献,如何使用户快速、精准地掌握知识,是优化专利服务的关键课题.中文专利文献中大量存在的零形回指现象,严重影响了知识的自动识别与提取,但由于专利文献零形回指识别与消解涉及到众多文本分析技术及特定资源建设,因此,目前尚未发现针对性研究.[方法/过程]在物性结构理论、语义角色及修辞结构关系理论的指导下,展开相关规则的研究,开发句法及语义角色标注工具和篇章标注工具两种工具,并构建了4个资源库:①"专利动词物性角色库",将专利的动词归纳为4类;②"专利知识论元结构库",用于自动标注专利动词物性角色及其论元结构;③"专利动词论元结构规则库",用于分析零形回指的先行语;④"零形回指修辞结构类型库",用于分析当零形回指搭配"功能角色"和"部件角色"的情况.[结果/结论]通过资源库的建设,得出5条消解规则.初步成果已成功应用于机械领域专利文献的自动处理工作.  相似文献   

12.
基于知网和术语相关度的本体关系抽取研究*   总被引:1,自引:0,他引:1  
 提出一种基于知网和术语相关度的关系抽取方法。首先通过句法分析提取术语的上下文特征,结合自然语言特征和互信息的方法计算术语之间的相关度,然后使用术语的义原和动态角色作为关键词,在知网语义关系框架中定位关系,并为关系指定明确的语义标签。实验结果表明该方法具有较好的实用效果。  相似文献   

13.
本文从微观层面设计了馆藏资源语义化模型,描述了馆藏资源语义化的关键技术,并利用武汉大学图书馆馆藏资源“美洲各国军事”类目的数据对模型进行了检验。从馆藏资源到语义资源需要经过信息提取技术、语义关系提取技术和形式化技术的支持。实验分析发现馆藏资源语义化模型所述的流程可用,后续研究可以着眼于资源统一化。图5。表3。参考文献53。  相似文献   

14.
基于语义模型的数字图书馆知识组织信息抽取策略   总被引:1,自引:1,他引:0  
简述语义模型是实现数字资源语义关系形式化描述的方式,是数字图书馆知识组织语义互联的重要影响因素。作为数字图书馆知识组织语义互联的重要环节,信息抽取需要本体提供语义知识依据,同时产生的文档也可以作为设计和丰富本体的知识资源。构建数字图书馆知识组织语义互联的语义模型以“元数据、领域本体、桥本体、本体解析体系”为核心要素,在此基础上探讨信息抽取的策略。  相似文献   

15.
基于NLP的知识抽取系统架构研究*   总被引:1,自引:0,他引:1  
在参考自然语言处理平台及知识抽取系统的系统结构的基础上,提出一个基于NLP的知识抽取系统的详细设计方案。自然语言处理过程包括分词、词性标注、句法分析、语义分析等8大模块;知识抽取过程包括论文类型分析、篇章结构分析、知识抽取、知识表示4大模块。通过对基于NLP的知识抽取系统架构的研究,明确自然语言处理与知识抽取的关系,分析出知识抽取的系统流程及关键技术。  相似文献   

16.
本体中同种语义关系间的可传递规律研究   总被引:2,自引:2,他引:0  
语义传递是研究知识组织、语义相关度以及知识挖掘与推理等信息科学领域的关键因素,但是由于缺乏语义传递判断的计算机模拟限制了其在信息科学领域的应用.语义关系间的可传递性是语义传递判断的关键因素,其规律性特质反映出了语义传递的相对稳定性,这种稳定性使得语义传递判断的计算机模拟成为可能.本文主要围绕同种语义关系间的可传递性规律获取方法,基本获取方法的经典型语义关系的传递规律,规律检测以及传递规律应用四个方面展开了研究,目的在于为语义传递判断的计算机模拟以及语义传递在信息领域中的应用提供基础.  相似文献   

17.
文本分类中的特征降维方法综述   总被引:42,自引:7,他引:42  
陈涛  谢阳群 《情报学报》2005,24(6):690-695
文本分类的关键是对高维的特征集进行降维。降维的主要方法是特征选择和特征提取。本文综述了已有的特征选择和特征抽取方法,评价了它们的优缺点和适用范围。  相似文献   

18.
文本分类特征降维研究综述   总被引:5,自引:0,他引:5  
特征降维是文本分类的关键技术之一,包括特征选择与特征抽取两类,其中特征选择按特征子集获取范围、特征子集搜索策略、特征子集评价策略等方式进行不同划分。归纳出当前特征选择与特征抽取所用的常用方法,分析各种方法的原理、指出每种方法的优势与不足,总结出相应改进算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号