首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
李枫林  柯佳 《情报科学》2018,36(3):169-176
【目的/意义】从大量非结构化文本中抽取出结构化的实体及其关系,是优化搜索引擎、建立知识图谱、开发 智能问答系统的基础工作。【方法/过程】介绍了深度学习框架下不同神经网络模型实现实体关系抽取的方法,比较 了各种模型的优劣势,结合远程监督和注意力机制进一步提高关系抽取性能,最后指出了深度学习模型的不足及 未来发展方向。【结果/结论】实验发现,卷积神经网络擅长捕获句子局部关键信息,循环神经网络擅长捕获句子的 上下文信息,能反映句子多个实体之间的高阶关系,递归神经网络适合短文本的关系抽取。如果模型能结合自然 语言的先验知识,实体关系抽取将会取得更好的效果。  相似文献   

2.
柯佳 《情报科学》2021,39(10):165-169
【目的/意义】实体关系抽取是构建领域本体、知识图谱、开发问答系统的基础工作。远程监督方法将大规 模非结构化文本与已有的知识库实体对齐,自动标注训练样本,解决了有监督机器学习方法人工标注训练语料耗 时费力的问题,但也带来了数据噪声。【方法/过程】本文详细梳理了近些年远程监督结合深度学习技术,降低训练 样本噪声,提升实体关系抽取性能的方法。【结果/结论】卷积神经网络能更好的捕获句子局部、关键特征、长短时记 忆网络能更好的处理句子实体对远距离依赖关系,模型自动抽取句子词法、句法特征,注意力机制给予句子关键上 下文、单词更大的权重,在神经网络模型中融入先验知识能丰富句子实体对的语义信息,显著提升关系抽取性能。 【创新/局限】下一步的研究应考虑实体对重叠关系、实体对长尾语义关系的处理方法,更加全面的解决实体对关系 噪声问题。  相似文献   

3.
李白 《科技风》2024,(8):1-3
尽管现代照明技术在煤矿井下得到广泛应用,但由于信息碎片化和内容繁杂,导致大量数据和知识未能充分利用。为解决这一问题,本文构建了基于本体的煤矿井下照明知识图谱。通过定义核心概念、关系和属性,进行知识建模,然后利用命名实体识别、关系抽取和属性抽取将非结构化数据转化为结构化数据。最后,使用Neo4j图数据库存储知识,实现了煤矿井下照明知识图谱的构建。该图谱提高了数据整合和管理效率,为煤矿行业数字化转型提供了有力的知识支持。  相似文献   

4.
随着大数据时代的来临,审计作为一个综合的经济监督部门也必将面临其带来的巨大挑战,在企业系统中产生了海量的非结构化数据,仅靠人工进行审计,成效杯水车薪,针对非结构化数据的审计已经成为审计业务的盲区,利用高科技手段与工具实现非结构化数据的分析与挖掘为审计业务提供数据支撑的需求已迫在眉睫。本文基于文本挖掘技术,采用信息抽取方法从非结构化文档中提取关键信息,进行结构化存储,然后进行自动稽核,既大大减少因人工操作耗费的大量人力、财力成本,又避免了因人为疏忽造成审计问题遗漏的情况,更加全面的审计各种问题。  相似文献   

5.
本文阐述了利用XML将半结构化Web数据转化为结构化的XML数据,介绍了目前Web数据抽取的最新技术及特点,并对无监督学习网页重复模式发现网页内在模板抽取方法进行了深入的研究和探讨。  相似文献   

6.
《科技风》2016,(16)
随着互联网技术的飞速发展和极大普及,以及相关领域研究的不断深入,可用信息资源得到了极大丰富。人们迫切需要从海量的非结构化文本中获取有用的信息。在这一背景下,信息抽取技术应运而生。命名实体识别自诞生之日起,就被看作信息抽取系统的一个重要子任务,受到广大国内外学者的广泛关注。本文探讨了命名实体识别的基本概念和意义,并对现有的命名实体识别技术、特征、评估方法进行了总结。  相似文献   

7.
大数据环境下微信公众平台非结构化数据融合研究   总被引:1,自引:0,他引:1  
微信公众平台具有开源、发布及时的特点,目前它已经成为各机构发布信息的重要渠道。但这类数据又具有非结构化、无语义描述的特点,如何将微信公众平台从非结构化数据转化为可分析、判断的结构化数据,成为一个亟须解决的问题。针对该问题,本文提出一个对微信公众平台结构化数据监测的层次体系。这一方法将通过数据融合方式,从平台资源中抽取数据,构建结构化数据库,进行权重比较,判断情报价值,进而实现对研究领域的态势监测。  相似文献   

8.
[目的/意义]实体语义关系分类是信息抽取重要任务之一,将非结构化文本转化成结构化知识,是构建领域本体、知识图谱、开发问答系统、信息检索系统的基础工作。[方法/过程]本文详细梳理了实体语义关系分类的发展历程,从技术方法、应用领域两方面回顾和总结了近5年国内外的最新研究成果,并指出了研究的不足及未来的研究方向。[结果/结论]热门的深度学习方法抛弃了传统浅层机器学习方法繁琐的特征工程,自动学习文本特征,实验发现,在神经网络模型中融入词法、句法特征、引入注意力机制能有效提升关系分类性能。  相似文献   

9.
【目的/意义】金融领域实体关系抽取是构造金融知识库的基础,对金融领域的文本信息利用具有重要作 用。本文提出金融领域实体关系联合抽取模型,增加了对金融文本复杂重叠关系的识别,可以有效避免传统的流 水线模型中识别错误在不同任务之间的传递。【方法/过程】本文构建了高质量金融文本语料,提出一种新的序列 标注模式和实体关系匹配规则,在预训练语言模型BERT(Bidirectional Encoder Representations from Transformers) 的基础上结合双向门控循环单元 BiGRU(Bidirectional Gated Recurrent Units)与条件随机场 CRF(Conditional Random Field)构建了端到端的序列标注模型,实现了实体关系的联合抽取。【结果/结论】针对金融领域文本数据 进行实验,实验结果表明本文提出的联合抽取模型在关系抽取以及重叠关系抽取上的F1值分别达到了0.627和 0.543,初步验证了中文语境下本文模型对金融领域实体关系抽取的有效性。【创新/局限】结合金融文本特征提出 了新的序列标注模式并构建了基于BERT的金融领域实体关系联合抽取模型,实现了对金融文本中实体间重叠关 系的识别。  相似文献   

10.
关系抽取是文本挖掘的一项重要研究内容,它能够反映命名实体之间的关系,有助于发现隐含在大量数据和文本中的知识。以生物信息学为例,重点论述了国内外关系抽取技术的研究进展、常用技术与方法及应用,并对未来关系抽取技术的发展进行了展望。  相似文献   

11.
针对在线医疗社区问答文本复杂程度高、结构化程度低的特点,结合卷积神经网络(CNN)和双向长短期记忆神经网络(BiLSTM)两种深度学习模型以及条件随机场(CRF)模型,提出一套适用于在线医疗问答文本的实体识别方法并进行验证.将问答文本进行清洗和BIO标注后,分别用CNN和BiLSTM进行字级别的特征抽取,将通过两种模型抽取到的特征进行融合后放入CRF中训练出实体预测模型,再将问答文本放入训练好的模型中,得到最终的实体识别结果.以关于乳腺癌疾病问答文本为例,研究结果表明,运用该方法得到的识别结果优于其他模型,且识别准确率达到92.3%、召回率达到89.3%、F值达到90.8%.  相似文献   

12.
鲍玉来  耿雪来  飞龙 《现代情报》2019,39(8):132-136
[目的/意义]在非结构化语料集中抽取知识要素,是实现知识图谱的重要环节,本文探索了应用深度学习中的卷积神经网络(CNN)模型进行旅游领域知识关系抽取方法。[方法/过程]抓取专业旅游网站的相关数据建立语料库,对部分语料进行人工标注作为训练集和测试集,通过Python语言编程实现分词、向量化及CNN模型,进行关系抽取实验。[结果/结论]实验结果表明,应用卷积神经网络对非结构化的旅游文本进行关系抽取时能够取得满意的效果(Precision 0.77,Recall 0.76,F1-measure 0.76)。抽取结果通过人工校对进行优化后,可以为旅游知识图谱构建、领域本体构建等工作奠定基础。  相似文献   

13.
实体关系抽取和实体关系分类是信息抽取中重要的研究领域,不仅要识别文本中的实体,还要确定这些实体之间的关系,能够辅助机器对文本语义的理解。提出了一种基于关系相似度计算的实体关系分类模型,并针对7种常见实体关系进行了分类实验。  相似文献   

14.
一种基于XML的Web信息抽取方法   总被引:4,自引:2,他引:4  
目前Web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。针对这一问题,出现了Web信息抽取技术。在论述了半结构化Web信息抽取技术总体解决方案的基础上,研究了Web信息抽取的实现技术,并从应用的角度提出一种新的半结构化信息获取方法。该方法包括网页分析过程、映射的自动生成和信息抽取过程。在Web信息抽取的实现部分,提出了抽取规则执行算法,为进一步满足Web信息检索提供了一种新的高效的检索方法。  相似文献   

15.
根据领域文本数据自身的特点,首先对领域文本样本建立文本向量空间模型,使用词频与DF相结合的方法,缩小特征词候选集,再依据基于图的半监督学习算法,迭代地学习一个基于领域特征关联度的图的半监督分类器,利用少量的标记数据,获得更好的领域文本特征信息抽取。在机械制造等多个领域的语料集上进行测试,对实验结果进行分析,实验证明,该方法是可行的。  相似文献   

16.
曹进军 《情报杂志》2007,26(7):55-58
信息抽取器在信息抽取领域是一个很重要的部分,而抽取器的研制通常要依靠抽取规则来实现。以前是利用使用者的使用模式或记录,找出相关的抽取规则。而利用PAT Tree可以直接从半结构化的Web的资料中,找出抽取规则。  相似文献   

17.
首先分析了互联网文本中命名实体分布特征;然后使用UIMASDK构建一个文本分析引擎在文档中寻找命名实体,将结果写入抽取信息数据库EIDB中;最后对文本中包含的命名实体的强关联关系进行了关联分析。实验证明该框架非常有效。  相似文献   

18.
[目的/意义]为了解决互联网时代信息过载的问题,尝试从海量的新闻报道中自动抽取新闻事件,并按照事件发生的时间进行排序,向用户展示结果。[方法/过程]利用网络爬虫自动获取新闻文本,使用中心事件句判定和RoBERTa+MRC的方法进行实体抽取,从非结构化文本中抽取语义信息并生成结构化的新闻摘要。在此基础上,对摘要中的时间信息进行标准化处理,并按照时间顺序生成新闻时间线。[结果/结论]实验结果表明,中心事件句判定和RoBERTa+MRC相较于传统方法有更好的事件抽取效果,文章设计的新闻时间线展示系统能够帮助用户了解新闻事件的发展脉络,解释新闻主题的事件走向与演化规律。  相似文献   

19.
[目的/意义]针对在线医疗社区问答文本复杂程度高、结构化程度低的特点,结合卷积神经网络(CNN)和双向长短记忆神经网络(BiLSTM)两种深度学习模型以及条件随机场(CRF)模型,提出一套适用于在线医疗问答文本的实体识别方法并进行验证。 [过程/方法] 将问答文本进行清洗和BIO标注后,分别用CNN和BiLSTM进行字级别的特征抽取,将两种模型抽取到的特征进行融合,后放入CRF中训练出实体预测模型,再将问答文本放入训练好的模型中得到最终的实体识别结果。[结果/结论]在所选取的乳腺癌医疗社区问答文本数据集上,所提出的方法结果优于其他模型,且识别准确率达到92.3%,召回率达到89.3%,F值达到90.8%。  相似文献   

20.
网络是一个巨大的资源宝库,在提供丰富资源的同时也给查找和获取有效信息带来了难度.传统的数据挖掘涉及的主要是结构化及半结构化的数据库,而网上的信息变化频繁且具有动态性,是一个巨大而又复杂的异构数据库,对网上的信息进行挖掘要比面向单个数据库复杂得多. 网络知识挖掘是指利用数据挖掘技术,自动地从异构数据组成的网络文档中发现和抽取知识,从概念及相关因素的延伸比较上找出用户需要的深层知识的过程.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号