HanNER:一个面向汉语古籍语料命名实体自动抽取的通用框架 |
| |
引用本文: | 严承希,唐雪梅,杨浩,苏祺,王军.HanNER:一个面向汉语古籍语料命名实体自动抽取的通用框架[J].情报学报,2023(2):203-216. |
| |
作者姓名: | 严承希 唐雪梅 杨浩 苏祺 王军 |
| |
作者单位: | 1. 中国人民大学信息资源管理学院;2. 中国人民大学数字人文研究中心;3. 北京大学信息管理系;4. 北京大学数字人文研究中心;5. 北京大学外国语学院 |
| |
基金项目: | 国家自然科学基金项目“中国儒家学术史知识图谱构建研究”(72010107003);;中国博士后科学基金第70批面上资助项目“融合深度学习和知识图谱技术的清史语料数字化整理研究”(2021M703564); |
| |
摘 要: | 古籍数字化整理是推动我国汉语古籍数据库建设及相关资源整合和利用的基础性工作。作为关键的技术环节之一,面向古籍命名实体的自动化抽取备受国内外学界和业界的关注。但是一些制约汉语古籍实体抽取方法的“卡脖子”问题仍未得到有效解决,包括少样本学习问题、标注成本管理问题和数据质量控制问题。本研究提出了一个面向古籍资源命名实体自动化抽取的通用框架——HanNER,包括“基于规则的实体预标注”“基于深度主动学习的迭代实体抽取”以及“人机交互模式下的标注决策”三个主要部分。多组实验比较证明了HanNER的可行性和优势,包括基于深度主动学习模型CNN-BiLSTM-CRF+margin的优势、多功能标注模块“标注查询”与“自动推荐”的积极作用以及ZenCrowd-II算法的优势。最后,本研究基于优化后的BERT-CNN-BiLSTM-CRF模型开发了在线的汉语古籍的实体自动抽取系统。HanNER的提出有利于推进汉语古籍实体抽取工作及相关任务在方法与技术上的发展,而且从工程化角度为古籍实体抽取产品的落地提供了借鉴和启发。
|
关 键 词: | 汉语古籍 实体抽取 深度主动学习 交互式标注 标签自动汇聚 |
|