PSYCH OpenIR
融合注意力机制与双向长短时记忆网络的基于语音分析的抑郁识别方法
其他题名Depression Recognition Method Based on Acoustic Signal Analysis Integrating Attention Mechanism and Bi-LSTM
赵张1,2,3,4; 汪静莹1,2,3,4; 耿馨佚1,2,3,4; 朱廷劭5; 王守岩1,2,3,4
第一作者赵张
通讯作者邮箱shouyan@fudan.edu.cn ; tszhu@psych.ac.ch
心理所单位排序5
摘要

为有效地通过语音识别抑郁状态,在将语音进行滤波、降采样等预处理后通过短时傅里叶变换成时频图,输入本文提出的DD-AudioNet(一种融合注意力机制与双向长短时记忆网络的卷积神经网络)进行训练,提取神经网络的瓶颈层向量作为深度学习特征,共128个,再加上声学、频域、停顿、Mel频率倒谱系数和色度5类常用特征共计563个,基于特征选择方法Lasso选择了26个.用迁移学习方法CORAL拉近训练集和测试集的特征分布,最后通过逻辑回归、随机森林和XgBoost分别进行分类辨识.实验结果表明,本文通过高维度特征定义与选择,设计的DD-AudioNet提取的深度学习特征可有效提升基于语音的抑郁状态辨识能力.

其他摘要

In order to effectively classify depressed patients via audio,after preprocessing the audio signal is transformed into spectrogram by short time Fourier transform,then input to proposed DD-AudioNet(an attention based Bi-I_STM convolutional neural network),and extracted 128 deep features from the bottleneck layer through deep neural network. Besides,five types of features are extracted: Acoustical,spectrogram,silent,chroma,MFCC. A total of 563 features in 6 categories and 26 features are selected by Lasso. The transfer learning method C()RAI_ is used to align the feature distribution of the training set and the testing set. Finally,comparing with the classic classification algorithm:Random forest,Xghoost and logistic regression. The experimental results show that proposed deep features can get higher accuracy compared with some traditional features.

关键词抑郁症 语音处理 注意力机制 双向长短时记忆网络 迁移学习
2021
语种中文
DOI10.15943/j.cnki.fdxb-jns.2021.06.001
发表期刊复旦学报(自然科学版)
ISSN0427-7104
卷号60期号:06页码:733-739
期刊论文类型实证研究
收录类别CSCD
CSCD记录号CSCD:CSCD
引用统计
文献类型期刊论文
条目标识符http://ir.psych.ac.cn/handle/311026/41471
专题中国科学院心理研究所
通讯作者朱廷劭; 王守岩
作者单位1.复旦大学类脑智能科学与技术研究院
2.复旦大学计算神经科学与类脑智能教育部重点实验室
3.复旦大学上海智能机器人工程技术研究中心
4.复旦大学智能机器人教育部工程研究中心
5.中国科学院心理研究所
通讯作者单位中国科学院心理研究所
推荐引用方式
GB/T 7714
赵张,汪静莹,耿馨佚,等. 融合注意力机制与双向长短时记忆网络的基于语音分析的抑郁识别方法[J]. 复旦学报(自然科学版),2021,60(06):733-739.
APA 赵张,汪静莹,耿馨佚,朱廷劭,&王守岩.(2021).融合注意力机制与双向长短时记忆网络的基于语音分析的抑郁识别方法.复旦学报(自然科学版),60(06),733-739.
MLA 赵张,et al."融合注意力机制与双向长短时记忆网络的基于语音分析的抑郁识别方法".复旦学报(自然科学版) 60.06(2021):733-739.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
融合注意力机制与双向长短时...基于语音(405KB)期刊论文出版稿限制开放CC BY-NC-SA浏览 请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[赵张]的文章
[汪静莹]的文章
[耿馨佚]的文章
百度学术
百度学术中相似的文章
[赵张]的文章
[汪静莹]的文章
[耿馨佚]的文章
必应学术
必应学术中相似的文章
[赵张]的文章
[汪静莹]的文章
[耿馨佚]的文章
相关权益政策
暂无数据
收藏/分享
文件名: 融合注意力机制与双向长短时...基于语音分析的抑郁识别方法.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。