首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 250 毫秒
1.
[目的/意义]近年来,科技文献资源呈爆炸性增长,海量科技文献中依旧存在大量非结构化摘要。非结构化摘要一方面不利于学者阅读与理解;另一方面不利于对摘要内部信息进行知识的自动化抽取和相应的检索。研究科技文献非结构化摘要的知识表示模型及其自动化抽取方法,对学者快速阅读和机器自动化处理具有重要意义。[方法/过程]文章在分析科技文献非结构化摘要结构的基础上,结合知识元本体理论,构建了一个面向科技文献非结构化摘要的知识元本体模型。通过分析非结构化摘要的写作特征,将文本按句子级划分为目的、方法、结果或结论三个要素,统计每个要素句中的线索词、句型和位置,建立相关规则库,根据本体模型和规则库构建相关抽取算法。最后,下载《计算机技术与发展》中的部分文献进行实验。[结果/结论]通过增加句型集和线索词集,完善了非结构化摘要的要素,构建了非结构化摘要知识元本体模型。实验结果表明,根据本文提出的模型能有效地对非结构化摘要中的知识元进行抽取。[局限]实验的不足之处是需要人工对摘要中的句型和线索词进行归纳总结。  相似文献   

2.
李枫林  柯佳 《情报科学》2018,36(3):169-176
【目的/意义】从大量非结构化文本中抽取出结构化的实体及其关系,是优化搜索引擎、建立知识图谱、开发 智能问答系统的基础工作。【方法/过程】介绍了深度学习框架下不同神经网络模型实现实体关系抽取的方法,比较 了各种模型的优劣势,结合远程监督和注意力机制进一步提高关系抽取性能,最后指出了深度学习模型的不足及 未来发展方向。【结果/结论】实验发现,卷积神经网络擅长捕获句子局部关键信息,循环神经网络擅长捕获句子的 上下文信息,能反映句子多个实体之间的高阶关系,递归神经网络适合短文本的关系抽取。如果模型能结合自然 语言的先验知识,实体关系抽取将会取得更好的效果。  相似文献   

3.
[目的/意义]实体语义关系分类是信息抽取重要任务之一,将非结构化文本转化成结构化知识,是构建领域本体、知识图谱、开发问答系统、信息检索系统的基础工作。[方法/过程]本文详细梳理了实体语义关系分类的发展历程,从技术方法、应用领域两方面回顾和总结了近5年国内外的最新研究成果,并指出了研究的不足及未来的研究方向。[结果/结论]热门的深度学习方法抛弃了传统浅层机器学习方法繁琐的特征工程,自动学习文本特征,实验发现,在神经网络模型中融入词法、句法特征、引入注意力机制能有效提升关系分类性能。  相似文献   

4.
[目的/意义]针对在线医疗社区问答文本复杂程度高、结构化程度低的特点,结合卷积神经网络(CNN)和双向长短记忆神经网络(BiLSTM)两种深度学习模型以及条件随机场(CRF)模型,提出一套适用于在线医疗问答文本的实体识别方法并进行验证。 [过程/方法] 将问答文本进行清洗和BIO标注后,分别用CNN和BiLSTM进行字级别的特征抽取,将两种模型抽取到的特征进行融合,后放入CRF中训练出实体预测模型,再将问答文本放入训练好的模型中得到最终的实体识别结果。[结果/结论]在所选取的乳腺癌医疗社区问答文本数据集上,所提出的方法结果优于其他模型,且识别准确率达到92.3%,召回率达到89.3%,F值达到90.8%。  相似文献   

5.
柯佳 《情报科学》2021,39(10):165-169
【目的/意义】实体关系抽取是构建领域本体、知识图谱、开发问答系统的基础工作。远程监督方法将大规 模非结构化文本与已有的知识库实体对齐,自动标注训练样本,解决了有监督机器学习方法人工标注训练语料耗 时费力的问题,但也带来了数据噪声。【方法/过程】本文详细梳理了近些年远程监督结合深度学习技术,降低训练 样本噪声,提升实体关系抽取性能的方法。【结果/结论】卷积神经网络能更好的捕获句子局部、关键特征、长短时记 忆网络能更好的处理句子实体对远距离依赖关系,模型自动抽取句子词法、句法特征,注意力机制给予句子关键上 下文、单词更大的权重,在神经网络模型中融入先验知识能丰富句子实体对的语义信息,显著提升关系抽取性能。 【创新/局限】下一步的研究应考虑实体对重叠关系、实体对长尾语义关系的处理方法,更加全面的解决实体对关系 噪声问题。  相似文献   

6.
[目的/意义]为满足船舶领域科研或工程人员在知识问答、质量分析等方面的业务分析需求,提升科研工作效率与知识获取便利性、精准性。[方法/过程]围绕结构化、半结构化、非结构化等船舶领域多源异构数据,文章从质和量两方面提出了船舶领域知识图谱构建方法,基于船舶领域概念图谱与实体图谱构建,实现知识图谱“质”的描述;通过对实体间关联关系进行统计分析与建模分析,建立面向业务应用场景的量化分析模型;最终以问答推理为例,展示了从质和量两方面开展面向业务场景知识图谱构建的通用过程。[结果/结论]通过以舰艇涂料失效知识图谱构建为例,验证了在质和量两个方面构建知识图谱的正确性,该方法能够为业务场景分析提供有效支撑。  相似文献   

7.
王志宇  刘雨薇 《现代情报》2024,(3):47-58+119
[目的/意义]利用政务微博信息构建自然灾害知识图谱,旨在为相关部门加强自然灾害事件的管理提供知识层面的参考价值。[方法/过程]以森林火灾事件为例,选取政务微博信息资源,首先使用LDA主题模型划分微博资源主题;其次构建自然灾害知识图谱的模式层和数据层,包括本体构建、实体抽取、关系抽取和数据融合等环节;最后使用Neo4j图数据库实现自然灾害知识图谱的存储与检索,实现自然灾害信息的组织与可视化。[结果/结论]构建了基于主题划分的自然灾害知识图谱,实现了自然灾害信息的主题知识关联与规范化处理,对提升政府部门防范与管理自然灾害的科学决策水平具有积极作用。  相似文献   

8.
[研究目的]为提高专利知识图谱构建的自动化水平,并实现知识服务与交易服务的融合,提出了面向供需信息挖掘的供需知识图谱(PSD-KG)的构建思路。[研究方法]知识图谱规划方面,对专利交易涉及实体及关系进行了拓展,规划了共由12类实体和14类关系组成的PSD-KG。知识图谱构建方法上,建立专利领域词典以实现语料自动化标注,并提出了基于BERT-BiLSTM-CRF模型的语义实体识别方法。[研究结论]与传统的CRF、BiLSTM-CRF模型对比发现,该文模型的准确率、召回率和F1指数均高于85%,验证了方法的有效性;以燃料电池领域为例构建PSD-KG,通过技术供需热点识别及演化研究,识别出三类技术热点,包括:持续热门技术点、新兴热门技术点和潜在热点技术;并在交易网络分析、供需信息检索等方面挖掘新应用场景。研究成果也为专利交易推荐提供了知识库。  相似文献   

9.
[目的/意义] 借助知识图谱对区域政务微博内容进行知识组织与可视化展示,能够提升用户的知识阅读及获取效率。[方法/过程] 首先,基于LDA模型对区域政务微博进行主题建模,通过依存句法分析对微博内容进行语义三元组抽取。其次,构建了区域政务微博知识模型,形成了知识图谱的语义架构。最后,借助图数据库Neo4j及D3.js插件实现了区域政务微博的知识图谱可视化及关联化保存。[结果/结论] 经理论构型与实际验证,本研究构建了基于主题划分的区域政务微博知识图谱,为社交媒体内容的知识图谱构建提供了一定的思路及方法。  相似文献   

10.
[目的/意义]知识图谱作为近年来大数据、人工智能技术飞速发展背景下出现的知识探索、推理发现的新兴技术,对专利检索新业务形态开展,提升业务效率减轻人工负担有着广阔的应用前景。[方法/过程]通过对知识图谱构建流程、技术架构与专利文献业务特点分析结合,对知识图谱语义模型在低质量专利检索和可视化等场景应用进行了探讨。[结果/结论]知识图谱在专利检索场景中适用性较强,相关技术环境/工具成熟,同时其垂直领域多知识体系特点,其语义模型构建还需要高质量文献和专家进行协助和迭代。  相似文献   

11.
[目的/意义]研究智能情报分析模式特点、发展方向及研究建设策略。[方法/过程]在分析神经网络、知识工程两类人工智能核心技术演变过程及发展趋势的基础上,提出支撑智能情报分析服务的大数据资源体系框架结构及建设原则,并分析数据驱动和知识驱动方法在情报分析中的单独应用与融合发展问题。[结果/结论]认为数据和知识双轮驱动是智能情报分析未来发展的一个方向;而实现智能情报分析的关键,一是加强一次数据资源和二次数据资源建设,二是加强深度学习技术与知识图谱技术在科技情报分析中应用的研究,三是建立数据驱动与知识驱动相融合的分析模式。  相似文献   

12.
[目的/意义]针对在线旅游平台,提出一种挖掘游记主题标签,以代表性游记以及其中相关内容进行旅游信息推荐的新策略。[方法/过程]在利用文本挖掘技术,构建LDA主题模型,形成游记文本主题标签的基础上,通过游记代表度算法,筛选出针对相应标签的高描述度与高忠诚度游记进行旅游信息推荐,以客观表达文本聚类结果以及主题词之间的语义关系,并以蚂蜂窝旅游网中的"杭州游记"为例,加以验证。[结果/结论]结果表明,这种方式能挖掘出旅游者在历史旅游经历中真实的旅游热点及重点信息需求,针对高相似度游记的识别与聚类具有良好效果,对旅游信息细粒度推荐具有指导意义与实践意义。  相似文献   

13.
徐彤阳  滕琦 《情报杂志》2021,(4):163-169
[目的/意义]作为科研人员知识获取、交流与利用的重要场所,虚拟学术社区资源具有数量多、价值高等特征,探索智能问答服务在社区的理论、方法与应用,对推动学术资源高效检索与利用,促进知识服务创新具有重要意义。[方法/过程]梳理虚拟学术社区研究现状与目前知识服务存在的不足,联合双向长短期记忆网络(BiLSTW)、文本相似度等技术作为支撑,基于注意力机制的CNN的智能问答方式构建学术社区内资源的智能问答模型,增加注意力分支以抽取细粒度特征,提高检索速度,提升科研效率。[结果/结论]智能化技术的应用实现学术资源的深度聚合,实现传统信息交互与智能化新技术的协同发展,提升了学术资源利用率,扩大信息资源共建共享。  相似文献   

14.
[目的/意义]随着大数据和人工智能时代的来临,基于数据驱动的医疗辅助决策以及医疗健康知识挖掘受到人们的极大关注。医疗知识图谱是医疗信息分析和知识服务的基础,在医疗人工智能和医疗信息检索中发挥着重要作用。[方法/过程]本文以医疗领域的实际应用需求为出发点,从医疗大数据获取、医疗实体及关系标注、医疗实体识别、医疗实体链接、医疗实体关系挖掘、中文医疗知识图谱表示和存储等关键技术入手,提出了多数据源融合的医疗知识图谱构建的理论框架。[结果/结论]面向医疗领域的知识图谱构建是一项非常重要的基础任务,同时也是人工智能领域的重要发展方向。  相似文献   

15.
[目的]为了克服传统视觉词袋方法(Bag-of-Visual-Words)中忽略视觉单词间的空间关系和语义信息等问题。[方法]本文提出一种与视觉语言模型相结合的基于LDA主题模型,并采用查询似然模型实现检索。[结果]实验数据表明,本文所提出的基于LDA的表示方法可以高效、准确地解决蒙古文古籍的关键词检索问题。[结论]同时,该方法的性能比BoVW方法有显著提高。  相似文献   

16.
张晓丹 《情报杂志》2021,(1):184-188
[目的/意义]随着互联网数字资源的剧增,如何从海量数据中挖掘出有价值的信息成为数据挖掘领域研究的热点问题。文本大数据分类是这一领域的关键问题之一。随着深度学习的发展,使得基于深度学习的文本大数据分类成为可能。[方法/过程]针对近年来出现的图神经网络文本分类效率低的问题,提出改进的方法。利用文本、句子及关键词构建拓扑关系图和拓扑关系矩阵,利用马尔科夫链采样算法对每一层的节点进行采样,再利用多级降维方法实现特征降维,最后采用归纳式推理的方式实现文本分类。[结果/结论]为了测试该文所提方法的性能,利用常用的公用语料库和自行构建的NSTL科技期刊文献语料库对本文提出的方法进行实验,与当前常用的文本分类模型进行准确率和推理时间的比较。实验结果表明,所提出的方法可在保证文本及文献大数据分类准确率的前提下,有效提高分类的效率。  相似文献   

17.
基于多数据源的机构知识可视化研究与应用   总被引:1,自引:0,他引:1  
[目的/意义]单一数据源下机构知识可视化存在信息的缺失,基于多数据源的可视化可以相辅相成,互为补充。[方法/过程]分析了多数据源下机构知识动态可视化的关键技术,并针对知识节点的巨星问题给出一种多粒度数据采样和属性值加权的知识构造方法,对平台的系统架构进行了详细讨论和设计,最后基于Echarts可视化套件对平台中合作关系、研究热点、机构分布等进行了实现。[结果/结论]多数据源知识可视化平台能弥补单一数据源中可能丢失的各种关系,多粒度采样让可视化结果整体美观协调,为机构的学术发展状况、研究方向的确立、研究团队的组建等决策提供了信息支持。  相似文献   

18.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号