数字人文视角下的非物质文化遗产文本自动分词及应用研究北大核心CSSCI |
| |
引用本文: | 胡昊天,邓三鸿,张逸勤,张琪,孔嘉,王东波.数字人文视角下的非物质文化遗产文本自动分词及应用研究北大核心CSSCI[J].图书馆杂志,2022(8):76-83. |
| |
作者姓名: | 胡昊天 邓三鸿 张逸勤 张琪 孔嘉 王东波 |
| |
作者单位: | 1. 南京大学信息管理学院;2. 江苏省数据工程与知识服务重点实验室;3. 南京农业大学信息管理学院 |
| |
基金项目: | 国家社科基金重点项目“大数据环境下领域知识加工与组织模式研究”(项目编号:20ATQ006)的研究成果之一; |
| |
摘 要: | 文本自动分词是非物质文化遗产相关数字人文研究的基础与关键步骤,是深度发掘非遗内在信息的前提。文章构建了国家级非物质文化遗产项目申报文本自动分词模型,探究了融入领域知识的机器学习模型CRF、深度学习模型Bi-LSTM-CRF和预训练语言模型BERT、RoBERTa、ALBERT在非遗文本上的分词性能,并对比了通用分词工具HanLP、Jieba、NLPIR的效果。在全部14种模型中,RoBERTa模型效果最佳,F值达到了97.28%,预训练模型中ALBERT在同等条件下训练速度最快。调用分词模型,构建了非遗文本领域词表和全文分词语料库,对非遗文本词汇分布情况进行了分析挖掘。开发了中国非物质文化遗产文本自动分词系统(CITS),为非遗文本自动分词及分词结果的多维可视化分析提供了工具。
|
关 键 词: | 非物质文化遗产 数字人文 预训练模型 中文分词 RoBERTa ALBERT |
本文献已被 维普 等数据库收录! |
|