首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 156 毫秒
1.
[目的/意义] 先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法/过程] 通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍的词性自动标注算法模型。[结果/结论] 在先秦典籍自动分词的整个流程基础上,得到简单特征模板、组合特征模板下的词性自动标注模型,基于组合特征模板的词性标注模型调和平均值F达到94.79%,具有较强的推广和应用价值。在构建词性自动标注模型的过程中,通过融入字词结构、词语拼音和字词长度的特征知识,使得模型的精确率和召回率得到有效提升。  相似文献   

2.
[目的/意义] 在人文计算兴起这一背景下,针对先秦诸子典籍进行自动分类的探究,以更加深入和精准地从古代典籍中挖掘出相应的知识。[方法/过程] 基于《论语》《老子》《管子》《庄子》《孙子》《韩非子》《孟子》《荀子》和《墨子》9种先秦诸子典籍构成的训练和测试语料,采用支持向量机技术,提取TF-IDF、信息增益、卡方统计和互信息为特征,完成针对先秦诸子典籍的自动分类实验。[结果/结论] 基于先秦诸子典籍得到的自动分类模型调和平均值能达到99.21%,效果较好,具有较强的推广和应用价值。  相似文献   

3.
[目的/意义] 在数字人文研究这一大趋势下,基于先秦古汉语语料库和条件随机场模型,构建古汉语地名自动识别模型。[方法/过程] 对《春秋左氏传》中的地名的内部和外部特征进行统计分析,构建模型的特征模板。在规模为187, 901个词汇的训练和测试语料上,对比条件随机场模型和最大熵模型的地名识别效果,把调和平均数为90.94%的条件随机场训练模型确定为最佳,作为本文所要构建的模型,并在《国语》语料上进行验证。[结果/结论] 在古汉语地名自动识别中,条件随机场模型优于最大熵模型,基于人工标注过的语料构建条件随机场自动识别模型能取得较好的识别效果。  相似文献   

4.
[目的/意义] 构建面向典籍文本的语义本体,能够促进典籍文本的挖掘与分析。然而由于典籍文本与现代文本在语法上存在较大差异,给面向典籍的语义本体构建带来了困难。[方法/过程] 本文运用自然语言处理技术探讨针对先秦典籍的本体构建方法。以国际上文化遗产领域通用的CIDOC CRM为框架,设计先秦典籍本体模型。针对典籍文本内容的特点及句法特征,将规则抽取与条件随机场方法相结合,提出一套本体实例自动获取技术,并以《左传》为实验语料进行测试。[结果/结论] 实验表明,本文所提出的本体实例抽取技术能够较好地提高面向典籍文本的本体构建效率。基于规则的本体实例抽取实验F值在93%左右,基于条件随机场的本体实例抽取最佳特征模板的F值为82.51%。在本体实例获取中,词性信息和位置信息具有重要作用。  相似文献   

5.
[目的/意义]典籍是我国传统文化、思想和智慧的载体,结合数字人文的数据获取、标注和分析方法对典籍进行实体自动识别,对于后续应用研究具有重要意义。[方法/过程]基于经过自动分词与人工标注的25本先秦典籍构建古籍语料库,分别基于不同规模的语料库和Bi-LSTM、Bi-LSTM-Attention、Bi-LSTM-CRF、Bi-LSTM-CRF-Attention、Bi-RNN和Bi-RNN-CRF、BERT等7种深度学习模型,从中抽取构成历史事件的相应实体并进行效果对比。[结果/结论]在全部语料上训练得到的Bi-LSTM-Attention与Bi-RNN-CRF模型的准确率分别达到89.79%和89.33%,证实了深度学习应用于大规模文本数据集的可行性。  相似文献   

6.
[目的/意义]挖掘和组织先秦典籍中的植物知识,构建先秦典籍植物知识图谱,对认识我国古代人民社会和生活状态等具有重要意义。[方法/过程]对先秦典籍中植物词进行详尽标注与计量分析;基于条件随机场(CRF)和多种深度学习模型构建古汉语植物命名实体识别模型,比较分析各模型性能以确定最优模型;设计面向知识图谱的古汉语植物知识组织模式。[结果/结论]基于古汉语预训练语言模型SikuRoBERTa构建的古汉语植物命名实体识别模型性能最优,调和平均值达85.44%,为基于实体的植物知识挖掘提供了有效方法;所构建的先秦典籍植物知识图谱可实现对先秦典籍中植物实体及其关联知识的聚合与可视化呈现。  相似文献   

7.
[目的/意义] 在新时代人民日报分词语料库的基础上构建的深度学习自动分词模型,不仅有助于为高性能分词模型的构建提供经验,也可以借助具体的自然语言处理研究任务验证深度学习相应模型的性能。[方法/过程] 在介绍双向长短时记忆模型(Bi-LSTM)和双向长短时记忆与条件随机场融合模型(Bi-LSTM-CRF)的基础上,阐明汉语分词语料预处理、评价指标和参数与硬件平台的过程、种类和情况,分别构建Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型,并对模型的整体性能进行分析。[结果/结论] 从精准率、召回率和调和平均值3个指标上看,所构建的Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型的整体性能相对较为合理。在具体性能上,Bi-LSTM分词模型优于Bi-LSTM-CRF分词模型,但这一差距非常细微。  相似文献   

8.
[目的/意义]文章旨在探究将不同语义知识融入机器翻译模型能否增强机器翻译的效果以及何种语义知识的作用更为显著,以助力机器翻译研究与中华优秀传统文化的传承与传播。[方法/过程]研究选取了30万对精加工的《二十四史》“古代汉语-现代汉语”平行语料作为实验数据,基于神经机器翻译OpenNMT模型,通过三种不同的特征融合方法,将词边界知识、词性知识、实体知识和依存句法知识分别融入机器翻译模型的训练过程中。[结果/结论]不同语义知识与模型的融合对典籍翻译效果有不同的影响,词边界知识、词性知识、实体知识对机器翻译任务有一定的贡献且实体知识的贡献最大,依存句法知识无明显作用。  相似文献   

9.
[目的/意义] 揭示哈佛燕京学社引得编纂处成立的过程,总结引得编纂处在索引编纂领域的影响,有助于为古籍知识库构建经验。[方法/过程] 文章通过文献分析法和演绎法,总结引得编纂处成立前东西方文化交流和中国传统知识分子转型的社会背景,分析"整理国故"运动、"索引运动"影响下引得编纂处取得的索引成就。[结果/结论] 哈佛燕京学社引得编纂处是民国时期"西学东渐"整理国故"及"索引运动"等众多因素影响下的产物;引得编丛刊的问世对中国索引事业发展起到了巨大的推动作用。《哈佛燕京学社汉学引得丛刊》成功的经验对当下的古籍知识挖掘与人文计算研究具有启发作用。  相似文献   

10.
[目的/意义] 构建与新时代相适应的人民日报分词语料库,为中文信息处理提供最新的精标注语料,也为从历时的角度分析现代汉语提供新的语言资源。[方法/过程] 在分析已有汉语分词语料库的基础上,描述所构建新时代人民日报语料库的数据源、标注规范和流程,通过构建分词自动标注模型测评语料库的性能,并与已有语料库进行对比。[结果/结论] 新时代人民日报语料库遵循现代汉语语料库基本加工规范,规模大,时间跨度长。选取其中的2018年1月部分,基于条件随机场构建分词模型,与1998年1月人民日报语料进行性能测评与对比,所得到的各项具体测评指标表明,新时代人民日报语料整体性能突出,1998年语料无法替代,当前构建该语料库非常必要。  相似文献   

11.
[目的/意义] 中国拥有海量的古代典籍,利用计算机对古籍文本进行自动断句与标点有助于加快古籍资源的转化利用。现有研究主要存在两个亟待解决的问题。首先,将古籍断句与标点分为两个串行任务,会引起错误传递。其次,自动标注的标点也较为混乱,对长距离可嵌套的成对引号标注研究较少。[方法/过程] 通过对大规模古籍语料库的标点符号频率统计,结合现有标点符号用法标准,明确古文自动标点的符号体系。根据点号含有断句信息,提出断句标点一体化处理方案,直接在没有断句的古籍文本上进行自动标点。并通过设计多元引号标记集和段首填充占位符,解决长距离可嵌套成对引号的自动标注难题。算法上根据序列标注方法,采用SikuRoBRETa-BiLSTM-CRF在1亿多字的繁体古籍文本语料上完成模型训练。[结果/结论] 在开放测试集《左传》上,点号标注的F1值为77.09%,断句达到91.72%;对单个引号的标注F1值达到89.28%,成对引号为83.88%。结果表明本文的方法有效地提升了古籍文本的自动断句与自动标点效果,有效地解决了引号的自动标注问题。  相似文献   

12.
[目的/意义]为帮助用户检索到完整的、粒度大小适当的知识单元,满足用户多粒度的知识需求。[方法/过程]提出一种基于知识元的文本层级分割方法。该方法首先对知识元的类型及其描述规则进行分析;然后依据知识元描述规则识别实体资源中的各类型知识元,并将所有的知识元和知识元之间的衔接句视为一个类;最后基于fisher分割算法对该类进行逐级二分,直到识别出所有的主题为止,确定分割边界,实现文本层级分割。[结果/结论]基于知识元的中文文本层级分割方法,一方面使得文本分割单元从句子扩展为知识元,提高分割时的效率,另一方面将知识服务的控制单元从文献深入到以知识元、知识元集合为单位的知识块,按需为用户提供相关知识服务,使数据检索、信息检索向知识检索迈进,提高知识获取效率,实现信息服务向知识服务的转型。  相似文献   

13.
[目的/意义]针对中文语言表达特点,提出一种含分词标签的字粒度词语特征提取方法,有效提升了中文临床病历命名实体识别任务的F1值,同时该方法可以为其他中文序列标注模型所借鉴。[方法/过程]选取汉语词语的词性标注、关键词权值、依存句法分析三个特征,构筑字粒度序列标注模型的临床病历训练文本,语料来源CCKS2017:Task2。在不同特征组合方式下,采用条件随机场算法验证两种字粒度词语特征提取方案Method1与Method2。[结果/结论]在四种不同词语特征组合下,Method2相对于Method1在临床病历命名实体识别任务中性能均有所提升,四折交叉测试中F1值平均提升了0.23%。实验表明在中文分词技术日趋成熟的环境下,Method2相对Method1能够获得更好的词语特征表示,对中文字粒度序列标注模型的处理性能具有提升作用。  相似文献   

14.
[目的/意义] 研究双元创新平衡战略下企业知识耦合的过程、机理与保障,为促进企业知识创新提供新视角。[方法/过程] 以知识耦合和双元创新理论为基础,构建基于双元创新平衡战略的知识耦合模型,揭示知识耦合机理,并提出企业知识耦合的保障措施。[结果/结论] 原领域知识与新领域知识均是企业知识创新的重要因素,企业知识耦合过程包括知识搜寻、知识关联、知识融合与知识存储4个阶段,原有领域知识耦合与新旧领域知识耦合的平衡,是双元创新战略下实现知识创新的关键。  相似文献   

15.
[目的/意义] 在知识社会时代,智库需要充分利用内外部资源进行知识开发和利用,才能适应复杂多变的外部环境与日益高端专业的决策咨询需求。构建智库知识管理模型能为我国新型智库的知识管理实践提出参考,增强智库知识服务能力。[方法/过程] 采用概念模型法,基于开放式创新范式,结合智库知识活动的基本流程,构建智库知识管理模型;采用实例验证法重点调研15个国际知名智库的知识管理实践,对模型进行验证,并结合我国智库建设对该模型进行应用分析。[结果/结论] 基于开放式创新的智库知识管理是利用内外部显性和隐性知识资源,嵌入智库知识活动全流程,以知识内外部流动促进知识创新的过程;模型是由知识基础设施、知识生产、知识创新三部分组成,具备开放性、网络性、动态性特征,验证表明该模型具有可行性和有效性。我国新型智库建设的知识管理应深度整合开放性知识内容,注重专家隐性知识转化;建立广泛的研究合作网络,促进知识流动与共享;増强知识再转化,提升知识服务能力。  相似文献   

16.
中文超声文本结构化与知识网络构建方法研究   总被引:1,自引:0,他引:1  
[目的/意义]超声检查是判断患者病情的重要依据,目前主要检查数据是以文本形式存在。本文提出一种基于超声检查数据的文本结构化和知识网络构建方法,为进一步挖掘临床知识奠定数据基础。[方法/过程]对自然语言处理技术在超声文本环境下的应用进行改进,包括分词处理、内容定位、结构化识别三个主要步骤,实现对超声文本的切分与标记,并且在此基础上建立其结构化知识网络。[结果/结论]真实数据测试结果显示,本文提出的面向超声检查文本的结构化方法具有较好的性能表现。该方法可以实现对批量超声文本结构化网络的自动构建,能够反映超声文本中结构化内容的层次关系与属性结构等潜在知识。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号