首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 225 毫秒
1.
随着深度学习的迅速发展和领域数据的快速积累,领域化的预训练模型在知识组织和挖掘中发挥了越来越重要的支撑作用。面向海量的中文政策文本,结合相应的预训练策略构建中文政策文本预训练模型,不仅有助于提升中文政策文本智能化处理的水平,而且为政策文本数据驱动下的精细化和多维度分析与探究奠定了坚实的基础。面向国家级、省级和市级平台上的政策文本,通过自动抓取和人工辅助相结合的方式,在去除非政策文本的基础上,确定了131390份政策文本,总字数为305648206。面向所构建的中文政策文本语料库,基于BERT-base-Chinese和Chinese-RoBERTa-wwm-ext,本研究利用MLM (masked language model)和WWM (whole word masking)任务构建了中文政策文本预训练模型(ChpoBERT),并在Github上对该模型进行了开源。在困惑度评价指标和政策文本自动分词、词性自动标注、命名实体识别下游任务上,ChpoBERT系列模型均表现出了较优的性能,可为政策文本的智能知识挖掘提供领域化的基础计算资源支撑。  相似文献   

2.
文章通过学习扩展的机器学习和深度学习,提出针对非物质文化遗产项目语料的术语抽取及新词发现方法,形成领域术语库并探讨在数字人文领域的应用。首先使用自然语言处理方法对非遗陶瓷语料进行预处理,结合领域术语词表对语料进行标注;然后针对Random-CRFs模型,研究词表特征(DICT)、词性特征(POS)、部首特征(Radical)、拼音特征(Pinyin)对术语抽取效果的影响,再对比Random-CRFs、Random-BiLSTM、Random-BiLSTM-CRFs、BERT-BiLSTMCRFs等4个模型对术语抽取效果的影响;最后使用训练完成的模型对测试集语料进行新词识别,对抽取出的候选词进行人工判断,构建包含1,173个术语的非物质文化遗产陶瓷工艺领域术语库,将其应用于非遗项目画像、非遗陶瓷工艺知识图谱和非遗陶瓷工艺术语检索。  相似文献   

3.
[目的/意义] 政府网络问政平台是政府部门知晓民意的重要途径之一,为提高问政留言分类的精度以及处理留言数据质量差、数量少等问题,对比多种基于BERT改进模型与文本增强技术结合的分类效果并探究其差异原因。[方法/过程] 设计网络问政留言分类集成对比模型,文本增强方面采用EDA技术与SimBERT文本增强技术进行对比实验,文本分类模型方面则采用多种基于BERT改进的预训练语言模型(如ALBERT、RoBERTa)进行对比实验。[结果/结论] 实验结果表明,基于RoBERTa与SimBERT文本增强的文本分类模型效果最佳,在测试集上的F1值高达92.05%,相比于未进行文本增强的BERT-base模型高出2.89%。同时,SimBERT文本增强后F1值相比未增强前平均提高0.61%。实验证明了基于RoBERTa与SimBERT文本增强模型能够有效提升多类别文本分类的效果,在解决同类问题时具有较强可借鉴性。  相似文献   

4.
非物质文化遗产领域蕴含着丰富的知识,是中华传统文化的重要组成部分,对非遗知识的有效组织与管理,是非遗文化保护、传播与传承的前提和基础。本体与关联数据技术为非遗知识的组织与管理提供了新的方法和实现路径。本文首先分析梳理了非遗领域知识的要素与语义关系,设计构建了非遗知识本体模型,以规范和揭示非遗领域知识的概念、属性和关联关系;其次,基于关联数据技术,研究非遗知识组织与关联数据集构建的过程,包括实体RDF化、实体关联、关联数据存储与发布等关键步骤;最后以湖北省非遗项目为例,构建了非遗知识关联数据集与知识服务平台。关联数据技术在非遗知识组织与管理领域的应用,能够促进非遗知识管理的规范化和标准化,对我国非遗文化的保护与传承具有重要的意义。图13。表4。参考文献25。  相似文献   

5.
[目的/意义] 在新时代人民日报分词语料库的基础上构建的深度学习自动分词模型,不仅有助于为高性能分词模型的构建提供经验,也可以借助具体的自然语言处理研究任务验证深度学习相应模型的性能。[方法/过程] 在介绍双向长短时记忆模型(Bi-LSTM)和双向长短时记忆与条件随机场融合模型(Bi-LSTM-CRF)的基础上,阐明汉语分词语料预处理、评价指标和参数与硬件平台的过程、种类和情况,分别构建Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型,并对模型的整体性能进行分析。[结果/结论] 从精准率、召回率和调和平均值3个指标上看,所构建的Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型的整体性能相对较为合理。在具体性能上,Bi-LSTM分词模型优于Bi-LSTM-CRF分词模型,但这一差距非常细微。  相似文献   

6.
我国非物质文化遗产保护工作已进入"后申遗时代",数字化是非遗保护与传承的重要手段,构建科学、合理、符合用户需求的分类体系,是非遗网站建设的基础。在分析和继承非遗现有分类体系基础上,结合网络信息资源分类特点,构建了适用于非遗数字资源特点的网状分类方案。  相似文献   

7.
非遗数字资源的元数据规范与应用研究   总被引:1,自引:0,他引:1  
对现有非遗元数据标准研究进行分析归纳,以国际通用的DC元数据标准为基础,结合我国《国家级非物质文化遗产代表作申报书》和政府非物质文化遗产数据库的实际情况,从资源内容及属性、管理规范两个角度提炼出非遗资源的核心元数据集,再根据非遗特点进行元素扩展,从而构建一套更具兼容性、互操作性和非遗特色的元数据规范体系。在此基础上,通过RDF/XML实现该元数据方案的实例化,以瓯塑为例探讨其在非物质文化遗产数字资源组织中的应用。  相似文献   

8.
本文通过研究现有中文分词技术的理论和工具,提出一种面向未登录领域词识别的中文自动分词算法。首先,利用已有的中文自然语言处理技术对中文文本进行自动分词,并用一种改良的串频统计方法自动识别出语料中的未登录领域词汇,从而有效提高了中文分词的准确性。  相似文献   

9.
非物质文化遗产是珍贵的民族文化资源,传承与保护非物质文化遗产不仅仅是地方政府的职责,也是地方高校,尤其是高校图书馆的重要使命。在介绍天津非物质文化遗产项目以及传承人概况的基础上,分析了天津市非物质文化遗产宣传保护现状,提出了高校图书馆参与非遗传承保护的实现途径:地方高校图书馆应在做好地方非遗文化调研的基础上,结合本馆资源、人员等特点,加强与地方各部门的合作,丰富宣传手段,设立文化推广部、建立非遗平台,提高大学生非遗传承与保护的意识,激发他们热爱中华优秀传统文化的热情。  相似文献   

10.
本文以南京博物院非物质文化遗产馆为案例,从话语研究的视角阐释了综合性博物馆非遗活态展的策展理念,并探讨了非遗活态展对综合性博物馆打造多元文化空间的促进作用。该馆在策展过程中,紧紧围绕"以人为本,活态保护"的非遗保护原则,开展"活态展"的创造性展陈实践,试图贯通联合国教科文组织建构的非遗话语体系和我国传统文化语境对非遗项目的文化阐释;化解了传统博物馆以专家为主导的策展传统和非物质文化遗产自身活态叙事之间的矛盾;加强了社群和非遗传承人之间的关联;形成了物质文化遗产和非物质文化遗产在综合性博物馆中的互补,助推了综合性博物馆朝着"全遗产观"下的现代博物馆转型,打造与区域、社群深度互动的文化传承空间。  相似文献   

11.
孟志军 《今传媒》2023,(8):100-103
目前,影像技术已经成为非物质文化遗产保护的重要技术工具之一,在传承传播、记录保存非物质文化遗产以及承载文献价值等方面具有重要意义。非遗影像保护的工作流程包括前期调研、团队组建、拍摄与采访和素材整理等,本文针对非遗影像保护在信息共享、影像质量把控、法律意识和影像资料保存等方面存在的问题,提出了解决方法,旨在为非遗影像保护提供一定的参考。  相似文献   

12.
利用条件随机场模型进行自动标引研究,对文本分词性能、训练集的规模、特征的个数、模型本身的参数设置等影响模型标引性能的因素进行实验和分析。  相似文献   

13.
王亮 《编辑之友》2015,(6):47-50
非物质文化遗产是国家的宝贵资源,对非遗的研究涉及众多领域.文章从媒介视域视角对非物质文化遗产进行研究,探讨其作为媒介的合法性,并分析其媒介形态和传播类型,从而在媒介环境下,树立非遗的科学传承保护观,推进国家软实力建设.  相似文献   

14.
赵跃  周耀林 《图书馆》2017,(8):59-68
近些年来,非物质文化遗产(以下简称"非遗")数字化保护引起国际社会的关注。文章从非遗数字化采集、保存和开发三个层面对国际非遗数字化保护研究进展进行了系统梳理,指出非遗数字化保护研究领域已经形成,图书情报与档案管理学科将发挥重要作用;非遗数字化保护研究主题相对分散,非遗数字信息组织、管理成为关注的焦点;非遗数字化保护研究内容不断深入,非遗数字化保护理论与知识体系亟待构建等特点。  相似文献   

15.
多类多标签汉语文本自动分类的研究   总被引:9,自引:0,他引:9  
本文提出了一种高效的汉语文本分类方法 ,并在实验中收到了良好的效果。由于汉语文本的特殊性 ,在训练前对训练文本进行自动分词和降维预处理。许多文本往往可能归到多个类 ,分类算法采用改进的Boosting算法。实验表明 ,在多类多标签的汉语文本特征提取和文档分类中 ,该算法收敛快、准确性高、综合效果较好  相似文献   

16.
[目的/意义]典籍是我国传统文化、思想和智慧的载体,结合数字人文的数据获取、标注和分析方法对典籍进行实体自动识别,对于后续应用研究具有重要意义。[方法/过程]基于经过自动分词与人工标注的25本先秦典籍构建古籍语料库,分别基于不同规模的语料库和Bi-LSTM、Bi-LSTM-Attention、Bi-LSTM-CRF、Bi-LSTM-CRF-Attention、Bi-RNN和Bi-RNN-CRF、BERT等7种深度学习模型,从中抽取构成历史事件的相应实体并进行效果对比。[结果/结论]在全部语料上训练得到的Bi-LSTM-Attention与Bi-RNN-CRF模型的准确率分别达到89.79%和89.33%,证实了深度学习应用于大规模文本数据集的可行性。  相似文献   

17.
非物质文化遗产APP已成为政府部门、出版社、文化机构保护和传承非物质文化遗产的创新途径.非遗APP想要拥有更大的用户规模、更强的用户黏性,应解决非遗APP的痛点.文章从UCD视角切入,解决非遗APP设计与使用中用户关注的问题,增强非遗APP的市场生存能力,以数字化的传承方式进一步提升非物质文化遗产的影响力.  相似文献   

18.
汉语自动分词与内容分析法研究   总被引:9,自引:0,他引:9  
汉语自动分词是计算机中文信息处理中的难题,也是文献内容分析中必须解决的关键问题之一。本文通过对已有自动分词方法及其应用研究的分析,指出了今后汉语自动分词研究的三个发展方向:克服汉语文本切分中的困难,继续研究传统文本切分的有效方法;将人工智能技术与汉语自动分词技术有机结合起来;改造汉语文本书写规则使之利于计算机切分。并分析了汉语自动分词和内容分析法之间的密切关系,以及汉语自动分词对内容分析法的影响  相似文献   

19.
非物质文化遗产存在形态的改变对非遗保护制度提出了时代要求,非遗在个人生活领域和社会经济领域的交叉发展是现代社会非遗的全新样态,合理的制度构建是实现非遗保护与经济社会协调发展良性互动的前提。基于非遗的社会性和公共性特征,开明利己主义指导下的非遗财产权保护符合经济理性和道德理性的双重要求。以利益平衡为前提,在非遗类型化的条件下对适配市场化发展的非遗进行财产权保护,在为其提供经济秩序保障的同时还能激发其内生性发展动力,以实现非遗的创造性转化和创新性发展。  相似文献   

20.
非物质文化遗产是各族人民世代相传的文化表现形式及相关实物和场所。非遗的分类体系完善对相关数字资源组织与建设、促进非遗保护工作具有重要意义。通过对已有的非遗分类方法进行分析,提出以分面分类法构建非遗数据资源概念模型的研究思路。最终通过非遗项目相关概念的梳理,结合已有研究成果,划分了主面与类目,构建了非遗项目的分面分类概念模型,以期为非遗数字资源组织提供借鉴。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号