首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于Transformer编码器的多级表示与融合特征输入的语音情感识别方法(英文)
引用本文:贺正然,沈起帆,吴佳欣,徐梦瑶,赵力.基于Transformer编码器的多级表示与融合特征输入的语音情感识别方法(英文)[J].东南大学学报,2023(1):68-73.
作者姓名:贺正然  沈起帆  吴佳欣  徐梦瑶  赵力
作者单位:1. 东南大学信息科学与工程学院;2. 东南大学微电子学院;3. School of Computer Science and Software Engineering,University of Stirling
基金项目:The Key Research and Development Program of Jiangsu Province (No. BE2022059-3);
摘    要:为了提高语音情感识别的准确度,探讨了将Transformer应用于语音情感识别的可能性.将对数梅尔尺度谱图及其一阶差分特征相融合作为输入,使用Transformer来提取分层语音表示,分析注意头个数和Transformer编码器层数的变化对识别精度的影响.结果表明,在ABC、CASIA、DES、EMODB和IEMOCAP语音情感数据库上,相比以MFCC为特征的Transformer,所提模型的精度分别提高了13.98%、8.14%、24.34%、8.16%和20.9%.该模型表现优于递归神经网络(RNN)、卷积神经网络(CNN)、Transformer等其他模型.

关 键 词:语音情感识别  Transformer  多头注意力机制  融合特征
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号