首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   2篇
  免费   0篇
信息传播   2篇
  2022年   2篇
排序方式: 共有2条查询结果,搜索用时 31 毫秒
1
1.
文本自动分词是非物质文化遗产相关数字人文研究的基础与关键步骤,是深度发掘非遗内在信息的前提。文章构建了国家级非物质文化遗产项目申报文本自动分词模型,探究了融入领域知识的机器学习模型CRF、深度学习模型Bi-LSTM-CRF和预训练语言模型BERT、RoBERTa、ALBERT在非遗文本上的分词性能,并对比了通用分词工具HanLP、Jieba、NLPIR的效果。在全部14种模型中,RoBERTa模型效果最佳,F值达到了97.28%,预训练模型中ALBERT在同等条件下训练速度最快。调用分词模型,构建了非遗文本领域词表和全文分词语料库,对非遗文本词汇分布情况进行了分析挖掘。开发了中国非物质文化遗产文本自动分词系统(CITS),为非遗文本自动分词及分词结果的多维可视化分析提供了工具。  相似文献   
2.
利用关键词抽取技术可以帮助读者提取高度凝练的文本主题,快速获得古籍文本的中心内容,对普及古汉语知识和传播中华优秀传统文化有着重要意义。文章以先秦两汉时期的“儒家”“史书”数据库语料为分析对象,测试SikuBERT预训练模型在古汉语文本关键词抽取任务中的性能。实验结果表明,从两类语料中分别抽取的20个关键词基本能体现出相应典籍类别的主题内容:前者与所抽儒家典籍文本的相似度为76%~78%,后者与所抽史书文本的相似度为75%~78%。实验验证了SikuBERT模型在古籍文本关键词抽取中的适用性,能为开展古汉语文本主题分类、聚类和知识深度开发提供参考。  相似文献   
1
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号