基于Transformer编码器的多级表示与融合特征输入的语音情感识别方法（英文）期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于Transformer编码器的多级表示与融合特征输入的语音情感识别方法（英文）

引用本文：	贺正然,沈起帆,吴佳欣,徐梦瑶,赵力.基于Transformer编码器的多级表示与融合特征输入的语音情感识别方法（英文）[J].东南大学学报,2023(1):68-73.

作者姓名：	贺正然沈起帆吴佳欣徐梦瑶赵力

作者单位：	1. 东南大学信息科学与工程学院;2. 东南大学微电子学院;3. School of Computer Science and Software Engineering,University of Stirling

基金项目：	The Key Research and Development Program of Jiangsu Province (No. BE2022059-3)；

摘要：	为了提高语音情感识别的准确度，探讨了将Transformer应用于语音情感识别的可能性.将对数梅尔尺度谱图及其一阶差分特征相融合作为输入，使用Transformer来提取分层语音表示，分析注意头个数和Transformer编码器层数的变化对识别精度的影响.结果表明，在ABC、CASIA、DES、EMODB和IEMOCAP语音情感数据库上，相比以MFCC为特征的Transformer,所提模型的精度分别提高了13.98%、8.14%、24.34%、8.16%和20.9%.该模型表现优于递归神经网络(RNN)、卷积神经网络(CNN)、Transformer等其他模型.
关键词：	语音情感识别 Transformer 多头注意力机制融合特征