首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于神经网络语言模型的作者身份验证
引用本文:郭旭,祁瑞华.基于神经网络语言模型的作者身份验证[J].情报理论与实践,2020,43(3):138-144.
作者姓名:郭旭  祁瑞华
作者单位:大连外国语大学语言智能研究中心,辽宁大连116044;大连外国语大学语言智能研究中心,辽宁大连116044
基金项目:国家社会科学基金项目“典籍英译国外读者网上评论观点挖掘研究”(项目编号:15BYY028);大连外国语大学研究创新团队“计算语言学与人工智能”(项目编号:2016CXTD06);辽宁省自然科学基金项目“神经网络语言模型在作者身份识别中的应用研究”(项目编号:2019-ZD-0513)的成果之一。
摘    要:目的/意义]为了进一步降低作者身份验证中训练语料的字符数和测试样本的颗粒度,满足更多情报分析工作实际应用的需要。方法/过程]文章提出了一种基于神经网络语言模型的作者身份验证方法。该方法在用某一作者的语料训练出的语言模型,将给予该作者书写的其他语料更高概率的指导思想下提出。结果/结论]实验结果表明,相较于传统的作者身份验证方法,文章提出的方法可以使用更少的训练语料,并且在小于传统方法一个数量级的测试样本颗粒度上,仍能获得略高于传统方法的AUC值,最终使得可有效验证的测试样本的颗粒度降到50。局限]在跨体裁方面效果仍有待提高。

关 键 词:情报分析  作者身份验证  神经网络语言模型  新奇检测

Neural Network Language Model in Authorship Verification
Abstract:Purpose/significance] In order to further reduce the number of characters in the training corpus and the granularity of the test sample in authorship verification,and to meet the needs of more practices about intelligence analysis tasks.Method/process] This paper proposes a method of authorship verification based on the neural network language model.The method stems from the idea that a language model trained with an author’s corpus will give a higher probability to other corpora written by that author.Result/conclusion] The experimental results show that,compared with the baseline,the method proposed in the paper can use less training corpus,and obtain AUC values slightly higher than the baseline on test samples granularity which is an order of magnitude less than the baseline.Finally,the granularity of the effectively verifiable test sample is reduced to 50.Limitations] However,in terms of cross-genre,the verification effect still needs to be improved.
Keywords:information analysis  authorship verification  neural network language model  novelty detection
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号