首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
李枫林  柯佳 《情报科学》2018,36(3):169-176
【目的/意义】从大量非结构化文本中抽取出结构化的实体及其关系,是优化搜索引擎、建立知识图谱、开发 智能问答系统的基础工作。【方法/过程】介绍了深度学习框架下不同神经网络模型实现实体关系抽取的方法,比较 了各种模型的优劣势,结合远程监督和注意力机制进一步提高关系抽取性能,最后指出了深度学习模型的不足及 未来发展方向。【结果/结论】实验发现,卷积神经网络擅长捕获句子局部关键信息,循环神经网络擅长捕获句子的 上下文信息,能反映句子多个实体之间的高阶关系,递归神经网络适合短文本的关系抽取。如果模型能结合自然 语言的先验知识,实体关系抽取将会取得更好的效果。  相似文献   

2.
李枫林  柯佳 《情报科学》2019,37(5):155-165
【目的/意义】词是语言的最小单元,词的向量表示决定了机器学习模型的构建方法。深度学习的神经网络 训练得到的词向量,通过无监督的机器学习方法从海量数据中自动学习词汇的语义特征,无需人工标注和复杂繁 琐的特征工程,端到端的完成各种自然语言处理任务,带来了一种新的研究范式,成为学术界的研究热点。【方法/ 过程】介绍了词向量语义表示及优化方法,存在的问题及解决方法,最后指出了词向量未来的研究方向。【结果/结 论】将句法特征、词形特征、(知识库)先验语义知识融入到神经网络模型能增强词向量的语义表示能力,针对词向 量存在的一词多义、解释性差等问题,总结了最新的研究成果。  相似文献   

3.
【目的/意义】本文基于颜色、纹理等外部特征与局部视觉特征构成的底层语义特征数据并采用随机森林的 方法对医学图像信息进行语义自动标注,为医务工作者提供临床决策参考,便于普通公众理解医学知识和了解个 人健康情况,也可以在大数据环境下扩展图书情报领域研究人员对信息组织与处理的范围,促进学科交叉与融合, 提升智慧医学的发展,为健康中国战略提供智力与技术支持。【方法/过程】融合图书情报领域知识与医学知识,将 图像语义标注看作为一个多类分类问题,首先,抽取颜色、纹理等外部特征及局部视觉特征等底层语义特征;然后, 运用随机森林的方法,设计了基于随机森林的医学图像自动标注方案。【结果/结论】融合底层语义特征的医学图像 信息自动标注的方案与随机树标注方案相比较,具有较好的效果。【创新/局限】将视觉语义词典作为医学图像的底 层语义特征引入到图像标注中;运用随机森林构建的医学图像标注方案;局限在于仅采用BreaKHis数据集为实验 数据。  相似文献   

4.
谭荧  唐亦非 《情报科学》2020,38(4):23-27
【目的/意义】将知识抽取的粒度细化到知识构成的最小单元--知识元,能提高知识获取的效率和精准度。【方法/过程】本文利用命名实体识别和事件抽取技术,探索了在科学文献中自动抽取事实知识元的方法。【结果/结论】实验结果表明,该方法能有效识别科学文献中的事实知识元,自动抽取效果出色。  相似文献   

5.
【目的/意义】金融领域实体关系抽取是构造金融知识库的基础,对金融领域的文本信息利用具有重要作 用。本文提出金融领域实体关系联合抽取模型,增加了对金融文本复杂重叠关系的识别,可以有效避免传统的流 水线模型中识别错误在不同任务之间的传递。【方法/过程】本文构建了高质量金融文本语料,提出一种新的序列 标注模式和实体关系匹配规则,在预训练语言模型BERT(Bidirectional Encoder Representations from Transformers) 的基础上结合双向门控循环单元 BiGRU(Bidirectional Gated Recurrent Units)与条件随机场 CRF(Conditional Random Field)构建了端到端的序列标注模型,实现了实体关系的联合抽取。【结果/结论】针对金融领域文本数据 进行实验,实验结果表明本文提出的联合抽取模型在关系抽取以及重叠关系抽取上的F1值分别达到了0.627和 0.543,初步验证了中文语境下本文模型对金融领域实体关系抽取的有效性。【创新/局限】结合金融文本特征提出 了新的序列标注模式并构建了基于BERT的金融领域实体关系联合抽取模型,实现了对金融文本中实体间重叠关 系的识别。  相似文献   

6.
[目的/意义]实体语义关系分类是信息抽取重要任务之一,将非结构化文本转化成结构化知识,是构建领域本体、知识图谱、开发问答系统、信息检索系统的基础工作。[方法/过程]本文详细梳理了实体语义关系分类的发展历程,从技术方法、应用领域两方面回顾和总结了近5年国内外的最新研究成果,并指出了研究的不足及未来的研究方向。[结果/结论]热门的深度学习方法抛弃了传统浅层机器学习方法繁琐的特征工程,自动学习文本特征,实验发现,在神经网络模型中融入词法、句法特征、引入注意力机制能有效提升关系分类性能。  相似文献   

7.
刘振 《情报科学》2018,36(9):115-117
【目的/意义】为了帮助科研人员从海量信息中发现热点和重大研究进展,抽取出有用的事件信息。【方法/ 过程】采用条件随机场方法和语义角色标注技术,构建了模型进行训练和学习。【结果/结论】提出了科技事件抽取 框架,实现了科技事件抽取系统,取得了一定的抽取效果,该系统的可扩展性和可移植性有待提高。  相似文献   

8.
【目的/意义】互联网上的信息资源日益丰富,开放信息源成为一些领域知识获取的重要渠道。本文以中医 领域为例,为向本体和知识图谱的构建提供数据,提出了一种基于开放信息源的知识挖掘方法。【方法/过程】在缺 乏领域训练语料的情况下,先获取一部分语料,使用规则模板、词向量结合词分类的方法获取部分领域实体词,通 过回标文本语料得到训练集,再使用条件随机场进行实体的识别和抽取。【结果/结论】本文提出的规则结合 SVM-CRF实体抽取模型具有较高的有效性和通用性。在所使用的中医实体中,方剂和症型实体的抽取准确率仍 待进一步提升。  相似文献   

9.
丁亮  何彦青 《情报科学》2017,35(10):125-132
【目的/意义】无论是统计机器翻译,还是神经机器翻译,训练数据通常来源复杂,主题多样,文体不一,与待 翻译目标文本的领域不能保证完全一致,导致领域自适应问题。目前机器翻译的领域自适应方法大多用主题模型 得到主题信息,将数据粗略划分为领域内(in-domain)和领域外(out-domain),缺乏更为明确的领域标签。【方法/过 程】本研究采用中图分类号作为领域标签,采用两种方法对汉语句子进行自动领域标注领域: 利用论文关键词和科 技词系统等知识组织构建领域知识库的领域标注方法;训练卷积神经网络的深度学习的领域标注方法,通过神经 网络深度融合模型将这两种方法融合起来得到效果更佳的领域标注器,利用机器翻译的测试集获取领域标签集合 筛选其训练数据。【结果/结论】经过在神经机器翻译系统上进行测试,针对两个特定领域测试集,仅利用部分训练 数据就获取了比原始训练数据高约1.3BLEU得分(相对5.4%)的翻译结果,证明了本研究方法的有效性和可行性。  相似文献   

10.
【目的/意义】爆发式增长的文献资源为传统的阅读活动带来了困难,也给STM图书的组织与服务提出了 新的要求。图书标注框架是图书内容与形式的规范化表示,对于解决图书的深度标引和知识关联具有重要意义。 【方法/过程】首先从用户需求出发明确了STM图书资源标注框架的构建原则,而后从图书的物理特征、内容特征、 增强特征和使用特征4个维度设计了本文框架包含的实体对象及其语义关系,最后展现了利用该框架进行STM图 书知识建模表示的过程,并通过应用案例验证了本文框架的可用性。【结果/结论】该标注框架具有需求驱动、多维 揭示、深度描述和语义关联等特征,对于支持STM图书资源的上层服务具有参考价值。【创新/局限】本文设计了 STM图书资源的标注框架,并选取应用实例探究其知识揭示与表达能力,但未能从知识服务视角对标注结果开展 进一步的应用研究。  相似文献   

11.
【目的/意义】从海量论文元数据中抽取算法术语并构建它们之间的创新演化关系,有利于对算法的有效管 理和运用,以帮助科研工作者提升研究效率、采纳前沿成果。【方法/过程】首先,以GAN算法论文摘要为语料,通过 人工标注与规则抽取相结合的方式进行算法术语标注,并利用BERT-BiLSTM-CRF模型实现算法术语的自动抽 取。然后,将建立的模型应用于LDA算法论文的被引文献元数据中抽取算法术语,依据规则判断和引文关系,从被 引内容中抽取LDA算法的创新演化路径并构建。【结果/结论】以GAN论文为实例的算法术语实验中,精确率、召回 率与F1分数分别达到了0.81、0.63与0.71,并应用关系抽取方法成功构建了LDA算法的创新演化路径,该方法可以 有效推动算法进化网络构建和算法检索与追踪等方面的工作,丰富创新扩散理论的相关研究。【创新/局限】拓展了 命名实体识别技术的应用领域,为计算机算法管理提供了良好的思路。后续可优化创新演化路径的构建方法。  相似文献   

12.
王仁武  孟现茹  孔琦 《现代情报》2018,38(10):57-64
[目的/意义]研究利用深度学习的循环神经网络GRU结合条件随机场CRF对标注的中文文本序列进行预测,来抽取在线评论文本中的实体-属性。[方法/过程]首先根据设计好的文本序列标注规范,对评论语料分词后进行实体及其属性的命名实体标注,得到单词序列、词性序列和标注序列;然后将单词序列、词性序列转为分布式词向量表示并用于GRU循环神经网络的输入;最后输出层采用条件随机场CRF,输出标签即是实体或属性。[结果/结论]实验结果表明,本文的方法将实体-属性抽取简化为命名实体标注,并利用深度学习的GRU捕获输入数据的上下文语义以及条件随机场CRF获取输出标签的前后关系,比传统的基于规则或一般的机器学习方法具有较大的应用优势。  相似文献   

13.
【目的/意义】针对非物质文化遗产(简称“非遗”)视频资源难以入库与管理的难题,提出了一种非遗视频资 源的管理和语义组织的语义标注方法。【方法/过程】首先对非遗视频采用基于SURF算法和窗口阈值的镜头分割方 法,将非遗视频解构成不同颗粒度的逻辑单元;其次构建了非遗视频语义标注的本体模型;最后通过视频语义标注 过程,实现领域知识概念与视频资源间的语义关联,赋予视频单元丰富的语义信息。【结果/结论】非遗视频综合语 义标注方法可对非遗视频资源实现有效管理,为用户提供结构化、语义化的视频浏览及知识可视化等知识服务,对 非遗数字化保护与传播具有重要的意义和价值。  相似文献   

14.
【目的/意义】本文提出了借助知识图谱的知识互联和可视化分析等功能,为公共危机事件智能治理提供知 识支撑的观点。【方法/过程】以“港独”为例,从新华网、人民网、中国新闻网等“港独”新闻语料中抽取实体,构建公 共危机事件知识图谱模型。从知识图谱本体构建和实体数据填充两个方面,对“港独”知识图谱的实体抽取、关系 抽取、知识融合、知识加工和知识推理等构建环节进行重点论述和实践,最后,利用Neo4j数据库实现知识存储,生 成的“港独”知识图谱。【结果/结论】通过Cypher语句对“港独”知识图谱进行查询,能够呈现可视化语义网结构图, 利于知识隐重发现。【创新/局限】本文的创新之处在于把知识图谱技术应用于公共危机事件治理中,为其智能查 询和决策分析提供数据支持。在今后实践中,数据源的选取不必局限于网络新闻语料,还可以适当对“港独”人员 的微博、微信、论坛中的信息进行采集和抽取,以此扩大知识关联,从而更为全面、高效地进行公共危机事件智能 治理。  相似文献   

15.
基于BERT的领域本体分类关系自动识别研究   总被引:1,自引:0,他引:1       下载免费PDF全文
【目的/意义】实现对领域本体分类关系的自动学习识别,解决领域本体知识框架结构体系的自动化构建问 题。【方法/过程】通过对领域本体分类关系自动识别的国内外研究现状及存在问题进行分析总结,以当前开源的先 进的深度学习文本预训练模型BERT为基础,研究构建了基于BERT的领域本体分类关系自动识别模型,并以资源 环境学科领域为例进行了实验研究和评估分析。【结果/结论】基于BERT构建的分类模型能够实现对领域本体分类 关系的自动识别,识别方法和流程具有极大地通用性和可移植性,识别精度比传统方法有了较大提升。【创新/局 限】微调与泛化了BERT,提高了领域本体分类关系识别模型的通用性和精度。但由于受分类标注语料的质量限 制,模型精度尚未达到峰值,有待进一步优化提升。  相似文献   

16.
李旭晖  周怡 《情报科学》2022,40(3):99-108
【目的/意义】关键词抽取的本质是找到能够表达文档核心语义信息的关键词汇,因此使用语义代替词语进 行分析更加符合实际需求。本文基于TextRank词图模型,利用语义代替词语进行分析,提出了一种基于语义聚类 的关键词抽取方法。【方法/过程】首先,将融合知网(HowNet)义原信息训练的词向量聚类,把词义相近的词语聚集 在一起,为各个词语获取相应的语义类别。然后,将词语所属语义类别的窗口共现频率作为词语间的转移概率计 算节点得分。最后,将TF-IDF值与节点得分进行加权求和,对关键词抽取结果进行修正。【结果/结论】从整体的关 键词抽取结果看,本文提出的关键词抽取方法在抽取效果上有一定提升,相比于TextRank算法在准确率P,召回率 R以及 F值上分别提升了 12.66%、13.77%、13.16%。【创新/局限】本文的创新性在于使用语义代替词语,从语义层面 对相关性网络进行分析。同时,首次引入融合知网义原信息的词向量用于关键词抽取工作。局限性在于抽取方法 依赖知网信息,只适用于中文文本抽取。  相似文献   

17.
[目的/意义]为促进健康UGC的利用、共享以及规范化管理,提出一种符合用户认知的知识标注方法。[方法/过程]首先,从健康UGC中抽取认知概念,将其归纳到认知情感、认知需求、认知风格、认知内容4个类目;其次,分析各类目下认知概念间的关联关系以构建个体认知图式,并通过图式筛选和特征融合生成群体认知图式;再次,依据群体认知图式确定知识标注的实体及其关系,进而设计健康UGC的知识标注框架;最后,利用OWL语言对健康UGC的知识标注框架进行语义描述。[结果/结论]本研究方法与大众标注法相比,在查全率、查准率、F1值方面更具优势,能更好地满足用户对健康知识的获取需求。  相似文献   

18.
唐晓波  翟夏普 《情报科学》2019,37(4):97-102
【目的/意义】如何识别文本中的知识片段进行标引,使检索系统能检索文本知识内容是提高用户信息利 用效率的关键。【方法/过程】在文献调查的基础上,文章基于本体概念模型和Word2Vec词向量模型阐述了文本片 段语义标引的流程框架,并对本体语义扩展、神经网络模型训练、文本片段标引、文本片段权重获取四个部分的关 键环节及技术做了详细说明。最后通过实验验证了该流程框架。【结果/结论】实验结果显示该方法在文本知识片 段识别上是有效的,知识识别的准确率达到80%,能够实现对文本知识内容进行标引。该方法为自动化实现基于知 识的文本信息组织提供了有益的参考。  相似文献   

19.
【目的/意义】通过概念层次关系自动抽取可以快速地在大数据集上进行细粒度的概念语义层次自动划分, 为后续领域本体的精细化构建提供参考。【方法/过程】首先,在由复合术语和关键词组成的术语集上,通过词频、篇 章频率和语义相似度进行筛选,得到学术论文评价领域概念集;其次,考虑概念共现关系和上下文语义信息,前者 用文献-概念矩阵和概念共现矩阵表达,后者用word2vec词向量表示,通过余弦相似度进行集成,得到概念相似度 矩阵;最后,以关联度最大的概念为聚类中心,利用谱聚类对相似度矩阵进行聚类,得到学术论文评价领域概念层 次体系。【结果/结论】经实验验证,本研究提出的模型有较高的准确率,构建的领域概念层次结构合理。【创新/局限】 本文提出了一种基于词共现与词向量的概念层次关系自动抽取模型,可以实现概念层次关系的自动抽取,但类标 签确定的方法比较简单,可以进一步探究。  相似文献   

20.
廖建军 《情报科学》2018,36(7):123-129
【目的/意义】为给数字出版知识服务系统提供高质量的文本语料以供知识抽取,本文提出了基于标签样式 和密度模型来抽取网页正文的方法。【方法/过程】该方法先根据标签样式将网页文本进行分块,再根据各块文本内 容的文本密度、标点密度、非超链接密度计算出综合密度,最后通过阈值判断抽取出网页中信息含量高的正文。【结 果/结论】该方法简单高效无需人工编写规则或训练,能完整地抽取出网页正文。通过随机选取新闻网页进行实 验,结果表明该方法能有效地自动抽取网页正文,适用于不同设计风格的网站,而且准确率和召回率优于基于统计 的 CEPR抽取方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号