首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于深度学习的领域本体概念自动获取方法研究
引用本文:王思丽,祝忠明,刘巍,杨恒.基于深度学习的领域本体概念自动获取方法研究[J].情报理论与实践,2020,43(3):145-152,144.
作者姓名:王思丽  祝忠明  刘巍  杨恒
作者单位:中国科学院西北生态环境资源研究院文献情报中心,甘肃 兰州 730000;中国科学院兰州文献情报中心,甘肃 兰州 730000;中国科学院大学,北京 100049;中国科学院西北生态环境资源研究院文献情报中心,甘肃 兰州 730000;中国科学院兰州文献情报中心,甘肃 兰州 730000
基金项目:中国科学院兰州文献情报中心2018年主任基金项目“基于深度学习的领域本体自动构建方法研究”(项目编号:Y8AJ012005);中国科学院2019年西部之光项目“开放学术资源的情景化组织与服务研究”(项目编号:Y9AX011001)的成果。
摘    要:目的/意义]实现对领域概念的自动学习抽取,解决领域本体自动化构建的首要基础任务。方法/过程]以无监督的学习方法和端到端的识别模式为理论技术基础,首先通过对主流词嵌入模型进行对比分析,设计提出了基于Word2Vec和Skip-Gram的领域文本特征词嵌入模型的自动生成方法;其次研究构建了以IOB格式的标注文本作为输入,基于自注意力机制的BLSTM-CRF领域概念自动抽取模型;最后以资源环境学科领域为例进行了实验研究与评估分析。结果/结论]模型能够实现对领域概念的自动抽取,对领域新概念或术语的自动识别也具有一定的健壮性。局限]模型精度尚未达到峰值,有待进一步优化提升。

关 键 词:深度学习  领域本体  概念自动获取  词嵌入  自注意力

Method of Domain Ontology Concept Automatic Extraction Based on Deep Learning
Abstract:Purpose/significance] Realize the automatic learning extraction of domain concepts and solve the primary basic tasks of domain ontology automation construction.Method/process] The unsupervised learning method and the end-to-end recognition mode are the theoretical and technical foundations.Firstly,through the comparative analysis of the mainstream word embedding model,the paper designs an automatic generation method of domain text feature word embedding model based on Word2 Vec and Skip-Gram.Secondly,the paper constructs a domain concept automatic extraction model named BLSTM-CRF based on self-attention mechanism,using annotated text in IOB format as input.Finally,the paper takes the field of resources and environment as an example to carry out experimental research and evaluation analysis.Result/conclusion] The model can realize the automatic extraction of the domain concepts,and it also has certain robustness to the automatic identification of new domain concepts or terms.Limitations] The accuracy of the model has not yet reached the top value and needs to be further optimized.
Keywords:deep learning  domain ontology  concept automatic extraction  word embedding  self-attention
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号