首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 468 毫秒
1.
本文通过研究开源自然语言处理平台GATE和条件随机场模型,提出一种高效的电子产品领域命名实体识别策略,为实习项目中的初步工作--通过计算机智能方法识别出电子产品领域的产品品牌、属性等命名实体提出解决方案,并为下一步可能开展的领域内自动问答系统等高层应用提供底层支撑.该方法是基于层叠模型的规则与统计相结合的新的方法,分别继承了基于规则和基于统计识别方法的优点.最终,通过分析电子产品领域自身的领域特点实现了如品牌、重量等二十余种命名实体的识别.对比实验结果表明,该系统达到了令人满意的识别效果.  相似文献   

2.
介绍命名实体识别的基本概念,分析两种命名实体识别的基本方法:基于规则的命名实体识别方法和基于统计的命名实体识别方法,并以最大熵模型为理论基础,对中文菜名识别进行实证研究。根据中文命名实体的特点,设计6种特征模板。实验结果表明,在简单特征模板的基础上增加标注特征能有效提高命名实体的识别效果。对改进识别效果有用的特征依次为:标注特征、词性组合特征、后向词性依赖特征和词形特征。  相似文献   

3.
为了提高信息抽取过程中的语义深层次的理解和准确率,本文提出了一种基于领域本体和语块分析的语义信息抽取方法,在详细说明其信息抽取模型的基础上,重点针对命名实体识别、词性组合模板、基于本体的三元组和二元组规则等关键问题进行了深入的分析和研究,提出了相应的解决方法,并进行了相关试验性研究.结果表明:采用本文所述的系统结构及其技术构建文本信息抽取系统是可行的,其能在深层次语义理解的基础上进一步提高信息抽取的准确率.  相似文献   

4.
针对现有的命名实体识别方法不能很好地处理专业领域特定命名抽取的问题,提出一种基于启发式规则的专业命名识别方法。以中文文本中化学物质命名为研究对象,分析其领域特征及统计语言特征,建立适用于化学领域文献命名识别的启发式规则,为专业领域的命名实体识别提供新的解决方案。对比实验证明本文的方法能有效提升专业命名识别的效率。  相似文献   

5.
命名实体分类和识别是自然语言处理中的关键任务,其识别效果将会影响许多下游任务的性能。文章基于现有知识图谱,提出图情领域九大类实体,构建适用于图情领域实体识别的LISERNIE+BiGRU+CRF模型。其中,LISERNIE模型的训练以ERNIE为基础,增加了注入图情领域知识的预训练阶段训练。通过开展广泛的实验,发现LISERNIE+BiGRU+CRF模型能有效识别出命名实体,且在小规模标注数据集上具有明显的性能优势;当应用到后续的开放域关系抽取实验时,其准确率远高于CORE系统,可为进一步构建知识图谱、问答系统、机器阅读等提供模型和数据支撑。  相似文献   

6.
张新  党延忠 《情报学报》2007,26(6):813-820
为获取中文领域本体的概念提出了基于规则匹配和统计方法相结合的学习模型,充分利用现有的自然语言处理技术和统计学习方法,从领域文本中通过语义串切分、规则匹配、领域归属度分析和概念约简算法自动获取领域概念.该方法解决了现有中文本体学习方法对领域词典的依赖以及无法获得短语式特定领域概念的问题,同时解决了领域概念筛选问题.实验证明了该方法的有效性.  相似文献   

7.
随着计算机的普及与快速发展,如何通过在批量数据中提取有效规则实现机器智能分类与推理,提高知识推理的有效性与准确率,成为当前知识服务领域的难题之一.文章基于本体(Ontology)的知识组织方式和粗糙集(Rough Set)理论的知识获取技术,针对批量数据的规则提取实现知识推理,提出知识推理模型ORSKM.ORSKM模型利用九元组构建领域本体,实现实例数据的语义化描述;从领域本体的属性中提取粗糙集的决策表,由决策表对领域本体关系进行领域知识知识库归约,获取领域知识相关的属性规则;通过粗糙集知识推理算法实现知识获取,最后通过实验对该知识推理模型进行验证.  相似文献   

8.
综述命名实体识别与翻译研究现状,提出基于信息抽取的命名实体识别与翻译方法,以及对该方法进行一系列集成优化处理,并实现了基于命名实体识别与翻译的跨语言信息检索实验。实验结果显示出命名实体识别与翻译在跨语言信息检索中的重要性,并证明了所提出的翻译加权和网络挖掘未登录命名实体方法的应用能显著提高跨语言信息检索的性能。  相似文献   

9.
命名实体识别为推动智能系统建设和科技情报服务起到重要作用.针对领域实体识别存在的标注成本高、识别准确率不高问题,从引入通用领域信息、削减孤立点影响的角度出发,设计基于语义相似度与不确定性度量的主动迁移学习方法.该方法结合预训练迁移学习模型来提高分类准确性,通过融合主动学习采样策略来减少标注成本.利用金融科技和通用领域语...  相似文献   

10.
近年上海图书馆通过数字人文搭建多个知识服务平台,通过关联数据,以知识图谱、GIS等展示方式提供服务。基于关联数据的专业服务对基础数据提出新要求,如数据本体化须具体到人名、地名、时间等实体;数据保留关联性,以关联数据形式存储。在新的数据要求与数据量日益增加的背景下,传统通过人力来加工数据的方法,或提取简单的实体,无法满足需求。为此,研发命名实体识别工具,以上图关联数据为词典,结合HANLP技术,实现文本的实体挖掘。工具投入使用后,可对数据批量进行实体识别,改进了数据处理流程,缩短了数据加工周期。  相似文献   

11.
命名实体识别研究进展综述   总被引:5,自引:0,他引:5  
介绍命名实体识别的研究背景和意义,总结国内外命名实体识别研究历史,详细介绍目前主流的技术方法和评估方法,讨论命名实体识别技术的发展趋势。  相似文献   

12.
重点讨论非结构化中文文本中表达式命名实体(ENE)的抽取和分类过程,尝试构造匹配模式集合,建立基于层次模式匹配的ENE识别模型(HPM_ENE_EM),作为竞争情报系统、用户兴趣度获取等情报学应用研究的基础,并以学术论文中的术语缩略语识别为例探讨该模型的具体应用。  相似文献   

13.
Accurate automated identification of named places is a major concern for scholars in the digital humanities, and especially for those engaged in research that depends upon the gazetteer-led recognition of specific aspects. The field of onomastics examines the linguistic roots and historical development of names, which have for the most part only standardized into single officially recognized forms since the late nineteenth century. Even slight spelling variations can introduce errors in geotagging techniques, and these differences in place-name spellings are thus vital considerations when seeking high rates of correct geospatial identification in historical texts. This article offers an overview of typical name-based variation that can cause issues in the accurate geotagging of any historical resource. The article argues that careful study and documentation of these variations can assist in the development of more complete onymic records, which in turn may inform geo-taggers through a cycle of variational recognition. It demonstrates how patterns in regional naming variation and development, across both specific and generic name elements, can be identified through the historical records of each known location. The article uses examples taken from a digitized corpus of writing about the English Lake District, a collection of 80 texts that date from between 1622 and 1900. Four of the more complex spelling-based problems encountered during the creation of a manual gazetteer for this corpus are examined. Specifically, the article demonstrates how and why such variation must be expected, particularly in the years preceding the standardization of place-name spellings. It suggests how procedural developments may be undertaken to account for such geo-referential issues in the Named Entity Recognition (NER) strategies employed by future projects. Similarly, the benefits of such multigenre corpora to assist in completing onomastic records is also shown via examples of new name forms discovered for prominent sites in the Lake District. This focus is accompanied by a discussion of the influence of literary works on place-name standardization—an aspect not typically accounted for in traditional onomastic study—to illustrate the extent to which authorial interests in regional toponymic histories can influence linguistic development.  相似文献   

14.
英国电子图书馆及大学图书馆发展概况与特点   总被引:2,自引:0,他引:2  
介绍英国电子图书馆项目(eLib)的发展阶段、特点,以及作为eLib后续的分布式国家电子资源计划(DNER)和信息环境计划(IE)的内容。  相似文献   

15.
[目的/意义]现有新闻文档实体排序研究大多以文档或实体为中心,如文本分类、实体链接等,关注实体在文本中的重要性的研究较少,本研究探讨基于重要性的新闻文档实体排序。[方法/过程]给定一篇文档,判断文档中实体相对文档而言的重要性,并基于此对实体进行排序。在搜狗全网新闻数据集上进行实验,并利用NDCG和逆序对比率两个指标对实体排序结果进行评价。[结果/结论]实验结果表明,基于实体频率、TF*IDF、信息熵、TextRank等的方法以及集成方法都达到了较好的效果,基于聚集系数的方法效果一般。其中基于TF*IDF的方法NDCG值为95.86%,是该指标下的最好结果;基于集成方法的逆序对比率值为84.46%,是该指标下的最好结果。  相似文献   

16.
于晶 《情报学报》2021,(2):213-222
领域热点识别是科技情报与文献计量领域研究的关键问题之一,其能够为科技、教育部门的政策制定及科研人员的研究决策提供参考和依据。现有领域热点识别的研究主要基于文献计量学方法,并没有利用丰富的Web数据。本文提出了一种基于涌现模式挖掘的框架,利用社会化问答社区中的问答内容来识别领域研究热点。首先,提取问答内容中的关键词,并基于关键词的共现性进行聚类;然后,基于聚类结果构建候选研究热点模式集合,利用涌现模式挖掘方法识别领域研究热点并分析其发展趋势。本文基于知乎社区的“机器学习”话题数据集进行实验,利用卡方检验与领域前沿进行对比,结果表明该框架能够有效识别领域研究热点。该方法利用关键词聚类较好的缓解了涌现模式识别方法计算复杂度大等问题,具有良好的可行性;同时,该方法在线社区热点识别等问题中具有潜在的应用价值。  相似文献   

17.
基于条件随机场的英文地理行政实体识别*   总被引:3,自引:0,他引:3  
采用基于条件随机场的方法,对ACE评测的英文语料中的地理行政类型实体(Geographical Political Entities, GPE)及其子类型进行识别。提出一种从ACE语料中选取的特征集,并根据不同的特征组合对GPE识别的贡献与其它特征集进行比较,实验表明该特征集能取得较高的召回率和准确率。  相似文献   

18.
分布式数字图书馆机制   总被引:41,自引:1,他引:40  
张晓林 《情报学报》2002,21(1):63-70
本文在简要分析分布式数字图书馆体系的现实性、互操作性要求、互操作性实现方式后 ,探讨了基于分布式数字对象和基于外部协调体系的分布式数字图书馆模式 ,并简要介绍NCSTRL、OAI、DNER、NSDL等具体分布式数字图书馆系统  相似文献   

19.
实体关系抽取的技术方法综述*   总被引:3,自引:0,他引:3  
对实体关系抽取研究以MUC和ACE评测为主线的发展进行总结,并指出实体关系抽取任务普遍存在的三个问题是特定领域标引数据集的获取、模式的获取以及共指消解。在对当前关系抽取的相关文献、系统和项目进行分析研究的基础上,将基于非结构化文本的实体关系抽取技术方法归纳为:基于模式匹配的关系抽取、基于词典驱动的关系抽取、基于机器学习的关系抽取、基于Ontology的关系抽取以及混合抽取方法,旨在为进一步构建实体关系抽取系统提供良好借鉴。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号