首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
大规模中国历代存世典籍知识图谱构建研究   总被引:2,自引:1,他引:1  
[目的/意义]探索构建中国历代存世典籍知识图谱,以为研究者挖掘海量古籍书目数据背后隐藏的知识提供一站式平台,拓展古籍知识服务内涵,同时,大规模的典籍知识图谱也是机器智能的重要基础。[方法/过程]通过知识图谱技术对中国历代存世典籍进行知识组织,从需求层、模型层、应用层3部分构建一个典籍知识图谱框架模型,通过人机协作进行典籍数据抽取及多源数据融合,完成数据的整理,并对典籍知识图谱实体类型及属性、典籍知识图谱实体关系及类型进行分析与定义。[结果/结论]所构建的典籍知识图谱包含649549种古籍实体、221783位典籍责任者、1498383个古籍版本、13960个地名节点,形成了一个立体、多维、多用途的古籍知识关联网络,对全球目前存世的主要中国历代典籍书目信息进行了较全面描述。  相似文献   

2.
[目的/意义] 先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法/过程] 通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍的词性自动标注算法模型。[结果/结论] 在先秦典籍自动分词的整个流程基础上,得到简单特征模板、组合特征模板下的词性自动标注模型,基于组合特征模板的词性标注模型调和平均值F达到94.79%,具有较强的推广和应用价值。在构建词性自动标注模型的过程中,通过融入字词结构、词语拼音和字词长度的特征知识,使得模型的精确率和召回率得到有效提升。  相似文献   

3.
范涛  王昊  陈玥彤 《情报学报》2022,(4):412-423
地方志作为中华文化的组成部分,是建设文化强国的重要一环,对其进行挖掘研究具有重要意义;同时,有效识别实体对地方志知识组织和知识图谱构建有着重要影响。当前地方志命名实体识别研究主要基于文本,缺乏文本对应的图片,而图片中的内容能够为识别文本中的实体提供额外的信息,从而提升模型识别实体的性能,并且实体识别还面临着已标注语料匮乏的问题。基于此,本文提出了利用深度迁移学习方法,结合地方志中的文本和图片进行多模态命名实体识别。首先,基于人民日报语料库和中文推特多模态数据集,分别预训练结合了自注意力机制的BiLSTM-attention-CRF模型和自适应联合注意力模型,利用基于神经网络的深度迁移学习方法将权重迁移至地方志多模态命名识别模型中,使模型获得提取文本和图片语义特征的能力;然后,结合过滤门对多模态融合特征去噪;最后,将融合后的多模态特征输入CRF (conditional random fields)层进行解码。本文将提出的模型在地方志多模态数据中进行了实证研究,并同相关基线模型作对比,实验结果表明,本文所提出的模型具有一定优势。  相似文献   

4.
[目的/意义] 在数字人文研究这一大趋势下,基于先秦古汉语语料库和条件随机场模型,构建古汉语地名自动识别模型。[方法/过程] 对《春秋左氏传》中的地名的内部和外部特征进行统计分析,构建模型的特征模板。在规模为187, 901个词汇的训练和测试语料上,对比条件随机场模型和最大熵模型的地名识别效果,把调和平均数为90.94%的条件随机场训练模型确定为最佳,作为本文所要构建的模型,并在《国语》语料上进行验证。[结果/结论] 在古汉语地名自动识别中,条件随机场模型优于最大熵模型,基于人工标注过的语料构建条件随机场自动识别模型能取得较好的识别效果。  相似文献   

5.
[目的/意义]从学术期刊中抽取其中的理论是对文献进行内容分析的前提,实现理论名称识别的自动化可以提高内容分析的效率。[方法/过程]将理论识别视为一类命名实体识别问题,总结现有的命名实体识别的常用方法,提出一个基于语义泛化思想的命名实体识别方法,选取词性、知网义原等外部知识,采用CRF模型对《情报学报》1822篇论文的标题和摘要进行实验。[结果/结论]实验表明,识别准确率最高达到95.38%,但召回率较低;训练语料规模对性能影响较大,不同程度的语义泛化方法对准确率和召回率有复杂影响。如何选择语义特征、语义标注和语义消歧是需要解决的新问题。  相似文献   

6.
命名实体分类和识别是自然语言处理中的关键任务,其识别效果将会影响许多下游任务的性能。文章基于现有知识图谱,提出图情领域九大类实体,构建适用于图情领域实体识别的LISERNIE+BiGRU+CRF模型。其中,LISERNIE模型的训练以ERNIE为基础,增加了注入图情领域知识的预训练阶段训练。通过开展广泛的实验,发现LISERNIE+BiGRU+CRF模型能有效识别出命名实体,且在小规模标注数据集上具有明显的性能优势;当应用到后续的开放域关系抽取实验时,其准确率远高于CORE系统,可为进一步构建知识图谱、问答系统、机器阅读等提供模型和数据支撑。  相似文献   

7.
[目的/意义]典籍是我国传统文化、思想和智慧的载体,结合数字人文的数据获取、标注和分析方法对典籍进行实体自动识别,对于后续应用研究具有重要意义。[方法/过程]基于经过自动分词与人工标注的25本先秦典籍构建古籍语料库,分别基于不同规模的语料库和Bi-LSTM、Bi-LSTM-Attention、Bi-LSTM-CRF、Bi-LSTM-CRF-Attention、Bi-RNN和Bi-RNN-CRF、BERT等7种深度学习模型,从中抽取构成历史事件的相应实体并进行效果对比。[结果/结论]在全部语料上训练得到的Bi-LSTM-Attention与Bi-RNN-CRF模型的准确率分别达到89.79%和89.33%,证实了深度学习应用于大规模文本数据集的可行性。  相似文献   

8.
[目的/意义] 构建面向典籍文本的语义本体,能够促进典籍文本的挖掘与分析。然而由于典籍文本与现代文本在语法上存在较大差异,给面向典籍的语义本体构建带来了困难。[方法/过程] 本文运用自然语言处理技术探讨针对先秦典籍的本体构建方法。以国际上文化遗产领域通用的CIDOC CRM为框架,设计先秦典籍本体模型。针对典籍文本内容的特点及句法特征,将规则抽取与条件随机场方法相结合,提出一套本体实例自动获取技术,并以《左传》为实验语料进行测试。[结果/结论] 实验表明,本文所提出的本体实例抽取技术能够较好地提高面向典籍文本的本体构建效率。基于规则的本体实例抽取实验F值在93%左右,基于条件随机场的本体实例抽取最佳特征模板的F值为82.51%。在本体实例获取中,词性信息和位置信息具有重要作用。  相似文献   

9.
[目的/意义]事件自动识别抽取是当前典籍主题挖掘研究中一个新的重要课题,其中事件触发词的识别是一项基础的工作,本研究旨在探索古代典籍中事件触发词自动识别和分类的通用方法。[方法/过程]首先运用LDA模型对动词进行主题聚类,归纳典籍事件触发动词的分类体系;并依据聚类结果与分类体系,初步构建触发动词的种子词集。在此基础上,通过语义相似度计算,对种子词集进行扩展,构建典籍事件触发词语义数据集。在实验阶段,以先秦时期的重要典籍《左传》为例,对分类体系构建和种子词集扩展的方法进行验证。[结果/结论]结果表明,本文所提出的典籍事件触发词识别方法可行有效,据此构建的事件触发词集具有较高可信度,未来可进一步扩大实验的样本数量及范围。  相似文献   

10.
[目的/意义]从知识主题的角度切入,建立全面的课程知识体系,解决现有课程体系设计和教学中的课程间知识点重复及"知识孤岛"问题,从而有效开展专业知识服务。[方法/过程]以临床医学专业主干课程为研究对象,基于医学主题词表、电子教材、电子教案等医学教育数据,通过LDA模型挖掘课程中的知识主题,利用关联分析揭示课程间、知识主题间及课程与知识主题间的细粒度关联,从而构建临床医学课程知识主题图谱。[结果/结论]研究从专业课程体系与知识主题视角构建出领域知识图谱,有助于教学管理人员及师生掌握专业知识体系,开展知识导向型教学活动,推进医学领域知识组织与服务及智慧医学教育发展。  相似文献   

11.
[目的/意义]吐蕃时期的金石铭刻是了解吐蕃社会政治制度、宗教信仰、对外交往、社会关系、语言状况等的重要依据。本研究致力于构建吐蕃藏文金石铭刻知识图谱,探索民族古文献数字化新途径。[方法/过程]借助数字人文和知识图谱构建技术,通过本体建模分别构建吐蕃金石铭刻概况、研究现状、刻文内容和语法范畴4种本体,抽取概念、属性、关系,并以三元组方式表示;把刻文中的每一个词作为实例,构建实例之间异体、简缩、变形等链接关系以及命名实体之间的各种关联关系,以高度结构化的形式存储知识,形成吐蕃金石铭刻知识图谱。[结果/结论]吐蕃藏文金石铭刻知识图谱是藏文古文献数字人文研究的有益探索。以藏汉双语词级对齐形式呈现实例,使更多的研究者利用该材料开展研究,更好地挖掘吐蕃藏文金石铭刻的学术价值。  相似文献   

12.
[目的/意义] 在人文计算兴起这一背景下,针对先秦诸子典籍进行自动分类的探究,以更加深入和精准地从古代典籍中挖掘出相应的知识。[方法/过程] 基于《论语》《老子》《管子》《庄子》《孙子》《韩非子》《孟子》《荀子》和《墨子》9种先秦诸子典籍构成的训练和测试语料,采用支持向量机技术,提取TF-IDF、信息增益、卡方统计和互信息为特征,完成针对先秦诸子典籍的自动分类实验。[结果/结论] 基于先秦诸子典籍得到的自动分类模型调和平均值能达到99.21%,效果较好,具有较强的推广和应用价值。  相似文献   

13.
[目的/意义] 在人文计算兴起这一背景下, 为了更加深入和精准地从古代典籍中挖掘出相应的知识, 针对先秦文献进行自动分词的探究。[方法/过程] 基于《汉学引得丛刊》中的《春秋经传注疏引书引得》制定词汇表, 在由《春秋左氏传》和《晏子春秋》所构成的训练和测试语料上, 通过条件随机场模型, 结合使用统计和人工内省方法确定的特征模板, 完成对先秦典籍进行自动分词的探究。[结果/结论] 在先秦典籍自动分词的整个流程基础上, 得到简单特征模板、内部特征模板和组合特征模板下的自动分词模型, 最好的分词模型调和平均值达到97.47%, 具有较强的推广和应用价值。在构建自动分词模型的过程中, 通过融入内部和外部的特征知识, 模型的精确率和召回率得到有效的提升。  相似文献   

14.
[目的 /意义]针对历史古籍事件识别问题,对比序列标注方法和文本生成方法,探究两种方法在古汉语上的表现,构建模型实现历史古籍事件识别自动化,以提高面向历史古籍构建知识图谱的效率。[方法 /过程]选取《三国志》为原始语料,序列标注实验对《三国志》事件数据集进行BMES标注,构建BBCN-SG模型,文本生成实验构建T5-SG模型,对比两种方法的表现。接下来,构建RoBERTa-SG、NEZHA-SG模型展开生成模型的对比实验。最后,结合三个文本生成模型,融入Stacking集成学习的思想,构建Stacking-TRN-SG模型。[结果 /结论 ]在历史古籍事件识别建模问题上,文本生成方法的表现明显优于序列标注方法。而在文本生成方法中,RoBERTaSG模型的识别效果综合最好。Stacking集成学习能够大大提高生成模型的识别效果,构建的Stacking-TRN-SG模型达到70.35%的召回率,初步实现历史古籍的自动事件识别。  相似文献   

15.
[目的/意义]古诗是我国古典文学的宝贵遗产,从语义关联的视角对领域信息资源中显性知识(人物、时间、地点等)、隐喻知识(物象、情感等)以及用于解释隐喻文化背景的文化图式进行语义组织,对于新时代下我国文脉的内涵式传承与认知服务具有重要意义。[方法/过程]提出基于知识本体的隐喻知识及其文化图式组织模型。从古诗的物象与情感概念切入,剖析物象与意象隐喻知识的概念内涵与作用机制;对古诗文本进行特征解析以归纳核心的元数据,以构建融合显性与隐喻概念的古诗知识本体;获取领域显性与隐喻知识构建古诗知识图谱进而开展图谱解析。采取语义推理逻辑从图谱三元组数据中发掘古诗隐喻文化图式;将文化图式的图谱数据作为古诗表示特征进行计算,从族性和特性的角度探索古诗分类编目和个性化推荐等知识服务应用。[结果/结论]所构建的古诗知识本体能够从语言层面和诗人心理层面对隐喻知识及其文化图式进行有效知识组织,真正实现从语言、语义、情感及隐喻等层面对古诗进行知识挖掘与数据关联,以提升读者对古诗文化的感知、理解与认知能力。  相似文献   

16.
[目的/意义] 中医药是中华文化的传承,对现代医学发展具有重要作用,应受到高度重视。利用数字技术组织中医古籍,对其进行保护与重用具有重要意义。[方法/过程] 以简帛医药文献为研究对象,分别构建简帛医药书目本体和内容本体,并通过书目本体和内容本体的连接形成简帛医药文献本体模型;利用命名实体识别模型抽取实体概念,利用依存句法分析和规则的方法抽取实体关系,最终将简帛医药文献数据存入图数据库,实现简帛医药文献知识图谱可视化与检索查询结果呈现。[结果/结论] 利用本体和知识图谱,提出简帛医药知识组织方法,建立具有逻辑关系的简帛医药知识链,形成中医药领域知识的语义网络,在中医古籍的智能化方面做出有益的探索,有助于中药知识的普及与传承。  相似文献   

17.
[目的/意义]知识图谱对于重构数字人文资源、促进资源共享重用和深度开发具有重要意义。通过协作智能充分结合人类智慧和机器智能,有助于实现高效、优质的知识图谱构建。[方法/过程]提出基于协作智能构建数字人文领域知识图谱的PDC工作模式,结合数字人文领域知识图谱构建中的核心任务,分析人与AI的分工与协作,并总结在这一过程中协作智能逐渐由人类主导转向AI主导的趋势。[结果/结论]进一步展示基于协作智能的家谱知识图谱构建的可行性和有效性,重点探索家谱知识抽取中的协作智能,并通过定性和定量的评价展示协作智能的优势。协作智能不仅是未来数字人文知识图谱构建的发展趋势,对于其他领域的数字资源组织和知识图谱构建的实践亦具有一定的参考价值。  相似文献   

18.
俞琰  陈磊  赵乃瑄 《图书情报工作》2019,63(10):134-142
[目的/意义] 为帮助高校师生充分利用网络招聘信息,提出基于大数据量网络招聘文本挖掘的课程知识模型及其自动构建方法。[方法/过程] 本文提出包含"岗位-课程-知识点"的三级课程知识模型,利用自然语言文本挖掘技术实现课程知识点模型的自动构建,并通过实验对其构建过程进行验证和分析。[结果/结论] 实验结果表明本文提出的模型及方法具有高度的可行性与有效性,可为高校和学生提供教学和学习参考。  相似文献   

19.
[目的/意义]基于大量专利文献数据的核心技术主题识别有助于识别某技术领域的关键技术、分析关键技术的发展方向,是进行技术创新的基础情报工作,对于研究人员、企业乃至国家层面都具有一定的意义。[方法/过程]提出基于Chunk-LDAvis的核心技术主题识别方法,首先基于经典LDA模型进行主题识别,然后利用名词组块对初始LDA主题识别结果进行标注,构建Chunk-LDA主题识别结果,提高其可解读性;然后基于社会网络分析方法构建主题网络,识别核心技术主题;基于R语言的LDAvis工具包绘制可交互的Chunk-LDAvis核心技术主题关联分析图谱,发现核心技术主题的隐含联系,辅助进行核心技术主题识别。[结果/结论]通过对纳米农业领域进行实证研究,验证了本文提出方法的准确性和可行性。  相似文献   

20.
[目的/意义] 梳理基于知识图谱的实体检索的研究脉络和重点,探索未来该领域的发展方向。[方法/过程] 概述基于知识图谱的实体检索的形式化定义、实现路径以及主要的数据源;根据检索任务,将实体检索划分为匹配检索、扩展检索和推荐检索3种实现场景,并对其实现方法进行综述。[结果/结论] 随着应用的不断深入,基于知识图谱的实体检索研究开始关注如何优化用户的检索体验和提供多样性的检索结果,未来将在检索结果可解释性、跨领域知识图谱检索等多个方面展开深入的研究。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号