基于Transformer编码器的多级表示与融合特征输入的语音情感识别方法(英文) |
| |
引用本文: | 贺正然,沈起帆,吴佳欣,徐梦瑶,赵力.基于Transformer编码器的多级表示与融合特征输入的语音情感识别方法(英文)[J].东南大学学报,2023(1):68-73. |
| |
作者姓名: | 贺正然 沈起帆 吴佳欣 徐梦瑶 赵力 |
| |
作者单位: | 1. 东南大学信息科学与工程学院;2. 东南大学微电子学院;3. School of Computer Science and Software Engineering,University of Stirling |
| |
基金项目: | The Key Research and Development Program of Jiangsu Province (No. BE2022059-3); |
| |
摘 要: | 为了提高语音情感识别的准确度,探讨了将Transformer应用于语音情感识别的可能性.将对数梅尔尺度谱图及其一阶差分特征相融合作为输入,使用Transformer来提取分层语音表示,分析注意头个数和Transformer编码器层数的变化对识别精度的影响.结果表明,在ABC、CASIA、DES、EMODB和IEMOCAP语音情感数据库上,相比以MFCC为特征的Transformer,所提模型的精度分别提高了13.98%、8.14%、24.34%、8.16%和20.9%.该模型表现优于递归神经网络(RNN)、卷积神经网络(CNN)、Transformer等其他模型.
|
关 键 词: | 语音情感识别 Transformer 多头注意力机制 融合特征 |
|