首页 | 本学科首页   官方微博 | 高级检索  
     检索      

面向数字人文的古诗文本情感术语抽取与应用研究
引用本文:张卫,王昊,邓三鸿,张宝隆.面向数字人文的古诗文本情感术语抽取与应用研究[J].中国图书馆学报,2021,47(4):113-131.
作者姓名:张卫  王昊  邓三鸿  张宝隆
作者单位:南京大学信息管理学院 江苏 南京 210023
基金项目:本文系国家自然科学基金面上项目“关联数据驱动下我国非遗文本的语义解析与人文计算研究”(编号:72074108)和中央高校基本科研业务费项目“面向人文计算的方志文本的语义分析和知识图谱研究”(编号:010814370113)的研究成果之一
摘    要:在跨学科知识范式下,数字人文的研究范畴随着自身学科体系的拓展而不断泛化,采取关键语义技术解析文化对象中的人文内涵与情感知识对于重拾学科“人文性”与“计算性”特质具有重要意义。本文以古诗文本为例,面向汉语诗文及其鉴赏实现大规模人文情感术语的自动化抽取与分析。首先在无标注集环境下提出一种基于“冷启动”的字序列自动标引方法来获取学习语料,随后在字向量(Char2Vec)指导下将汉字特征(部首、拼音等)和BERT语言学模型分别引入机器学习与深度学习模型,并从知识发现的角度定义新术语识别规则。研究发现,将现代鉴赏融入古诗原文显著优化了情感知识的广度与深度,领域术语能够被有效标引。训练的BERT-BiLSTM-CRFs深度学习模型的效果明显优于CRFs机器学习,最佳F1与F1_distinct可分别达到9563%和8543%;同时汉字特征的引入也有效提升了传统CRFs效果,以领域特征和基于“竖心旁”“心字底”部首约束特征为最优。相较于机器学习抽取出的长篇幅新术语,深度学习能够拓展出更多寄托情感知识的新意象词。源于诗文与鉴赏的情感术语为文学信息资源的情感分析与知识服务提供了参考(人文性),基于汉字语言特征的抽取方案为中文领域自然语言处理技术的深化提供了启迪(计算性)。图11。表6。参考文献30。

关 键 词:数字人文  古诗  情感术语抽取  汉字语言特征  Char2Vec  BERT
收稿时间:2020/8/2 0:00:00
修稿时间:2020/11/7 0:00:00

Sentiment Term Extraction and Application of Chinese Ancient Poetry Text for Digital Humanities
ZHANG Wei,WANG Hao,DENG Sanhong,ZHANG Baolong.Sentiment Term Extraction and Application of Chinese Ancient Poetry Text for Digital Humanities[J].Journal of Library Science In China,2021,47(4):113-131.
Authors:ZHANG Wei  WANG Hao  DENG Sanhong  ZHANG Baolong
Abstract:
Keywords:
点击此处可从《中国图书馆学报》浏览原始摘要信息
点击此处可从《中国图书馆学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号