首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
对学术论文中的算法实体进行研究,能够促进深入了解算法对科学研究的作用,而从全文数据中抽取算法实体是相关研究的基础。学术论文全文内容中算法实体的抽取可以看作一种特殊的命名实体识别。本文通过人工识别的方法,从4641篇论文中抽取出977种算法实体并构建算法实体词列表,以此为基础构建标注语料,训练算法实体自动抽取模型,在剩余语料上抽取得到221种新算法实体,并将自动抽取结果与人工抽取结果进行整合得到全部算法实体1198种。研究结果表明:人工抽取法的结果能够为自动抽取法构建一定数量的标注语料,所构建的算法实体自动抽取模型能够有效地抽取出人工方法中遗漏的新算法实体,同时还能够抽取出已有算法实体的全新表达形式,进一步对人工抽取结果进行扩充和完善。  相似文献   

2.
综述命名实体识别与翻译研究现状,提出基于信息抽取的命名实体识别与翻译方法,以及对该方法进行一系列集成优化处理,并实现了基于命名实体识别与翻译的跨语言信息检索实验。实验结果显示出命名实体识别与翻译在跨语言信息检索中的重要性,并证明了所提出的翻译加权和网络挖掘未登录命名实体方法的应用能显著提高跨语言信息检索的性能。  相似文献   

3.
本文通过研究开源自然语言处理平台GATE和条件随机场模型,提出一种高效的电子产品领域命名实体识别策略,为实习项目中的初步工作--通过计算机智能方法识别出电子产品领域的产品品牌、属性等命名实体提出解决方案,并为下一步可能开展的领域内自动问答系统等高层应用提供底层支撑.该方法是基于层叠模型的规则与统计相结合的新的方法,分别继承了基于规则和基于统计识别方法的优点.最终,通过分析电子产品领域自身的领域特点实现了如品牌、重量等二十余种命名实体的识别.对比实验结果表明,该系统达到了令人满意的识别效果.  相似文献   

4.
为了提高信息抽取过程中的语义深层次的理解和准确率,本文提出了一种基于领域本体和语块分析的语义信息抽取方法,在详细说明其信息抽取模型的基础上,重点针对命名实体识别、词性组合模板、基于本体的三元组和二元组规则等关键问题进行了深入的分析和研究,提出了相应的解决方法,并进行了相关试验性研究.结果表明:采用本文所述的系统结构及其技术构建文本信息抽取系统是可行的,其能在深层次语义理解的基础上进一步提高信息抽取的准确率.  相似文献   

5.
典型关系抽取系统的技术方法解析   总被引:3,自引:0,他引:3  
实体关系抽取是信息抽取领域中的一项重要任务.文章在对当前关系抽取的相关文献、系统和项目进行分析研究的基础上,将基于非结构化文本的实体关系抽取技术方法归纳为:以模式构造和匹配为主线进行关系抽取、以词典驱动关系抽取、运用机器学习算法进行关系抽取、借助Ontology进行关系抽取以及多种方法有机结合进行关系抽取.从技术应用特点、核心模块的实现细节以及系统评测结果等方面深入分析了典型的关系抽取系统,它们包括EEES关系抽取系统、SVM关系抽取系统、T-Rex关系抽取系统、KMI语义网络门户的混合关系抽取系统,旨在为进一步构建实体关系抽取系统提供良好借鉴.该文为2008年第9期本期话题"知识抽取"的文章之一.  相似文献   

6.
随着互联网经济的飞速发展,信息抽取领域的产品命名实体识别在商务智能领域有着广泛的应用。本文采用条件随机场(CRF)模型,选取词汇、词法和词形上一系列的特征进行训练,通过交叉验证对识别效果进行评价,并通过识别效果指导特征的选取。实验中比较了两种标注方式(BRAND/TYPE和PROD),并取得了令人满意的识别效果。在与最大熵模型对比中,验证了CRF模型对于产品实体识别的优越性。  相似文献   

7.
古籍数字化整理是推动我国汉语古籍数据库建设及相关资源整合和利用的基础性工作。作为关键的技术环节之一,面向古籍命名实体的自动化抽取备受国内外学界和业界的关注。但是一些制约汉语古籍实体抽取方法的“卡脖子”问题仍未得到有效解决,包括少样本学习问题、标注成本管理问题和数据质量控制问题。本研究提出了一个面向古籍资源命名实体自动化抽取的通用框架——HanNER,包括“基于规则的实体预标注”“基于深度主动学习的迭代实体抽取”以及“人机交互模式下的标注决策”三个主要部分。多组实验比较证明了HanNER的可行性和优势,包括基于深度主动学习模型CNN-BiLSTM-CRF+margin的优势、多功能标注模块“标注查询”与“自动推荐”的积极作用以及ZenCrowd-II算法的优势。最后,本研究基于优化后的BERT-CNN-BiLSTM-CRF模型开发了在线的汉语古籍的实体自动抽取系统。HanNER的提出有利于推进汉语古籍实体抽取工作及相关任务在方法与技术上的发展,而且从工程化角度为古籍实体抽取产品的落地提供了借鉴和启发。  相似文献   

8.
方志类古籍地名识别及系统构建   总被引:4,自引:0,他引:4  
以地方志资料汇编<方志物产>(广东分卷)为语料,设计并构建了古籍地名识别系统.采用规则与统计相结合的命名实体识别方法,实现了物产地名的自动识别.分析了命名实体识别技术在中国方志类古籍整理中的应用前景,为方志类古籍进行数字化整理、挖掘物产分布、物产引进和传播等相关研究提供了新的途径.  相似文献   

9.
介绍命名实体识别的基本概念,分析两种命名实体识别的基本方法:基于规则的命名实体识别方法和基于统计的命名实体识别方法,并以最大熵模型为理论基础,对中文菜名识别进行实证研究。根据中文命名实体的特点,设计6种特征模板。实验结果表明,在简单特征模板的基础上增加标注特征能有效提高命名实体的识别效果。对改进识别效果有用的特征依次为:标注特征、词性组合特征、后向词性依赖特征和词形特征。  相似文献   

10.
基于本体的汉语领域命名实体识别   总被引:1,自引:0,他引:1  
命名实体识别是众多自然语言处理任务的核心内容之一,也是近年来的领域研究热点.本文将命名实体分为两大类:常规命名实体和领域命名实体.基于已经构建的领域本体MPO,本文提出一种基于本体知识规则与统计方法相结合的领域命名实体识别方法.该方法通过本体化实例,获取实体构成词性规则模板,结合CRFs机器学习模型,进行领域命名实体识别.实验结果表明:相比运用单一统计方法而言,该方法能使领域实体的识别性能显著提高,F值达到92.36%.同时表明本体化知识规则的有效运用,能够在领域实体边界和特殊形式领域实体识别的准确率上发挥积极作用.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号