温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
XGBoost
RFE
CBR
电信号
情绪
识别
研究
Jun.2023JOURNAL OF CHENGDUUNIVERSITY OFINFORMATION TECHNOLOGY2023年6 月Vol.38No.3息第38 卷第3期工程成报大学学都信文章编号:2 0 9 6-16 18(2 0 2 3)0 3-0 2 58-0 6基于XGBoost-RFE-CBR的心电信号情绪识别研究杨琳坤,何培宇,潘帆,方安成(四川大学电子信息学院,四川成都6 10 0 6 5)摘要:情绪是一种复杂的行为现象,是对不同外部刺激的生理反应。为快速、便捷地识别人类的情绪,提出了一种基于极限梯度提升结合可减少相关性偏差和递归特征消除的心电信号情绪识别方法。先对AMIGOS数据集进行特征提取、结合XGBoost-RFE-CBR特征排序算法进行特征选择,得到2 7 个心电信号和心率变异性的时域、频域等特征参数,利用XGBoost进行分类,最后在五折交叉验证下,最高准确率达8 0.5%、平均准确率达7 7.2%。该方法与多维生理信号特征提取方法相比,在确保准确率的同时降低了计算量,对情绪识别和分类任务有一定的参考价值。关键词:信号与信息处理;情绪识别;心电信号;极限梯度提升;特征选择;递归特征消除中图分类号:TP911.7文献标志码:Adoi:10.16836/ki.jcuit.2023.03.0020引言情绪是人类思想、情感和行为的结合,是对不同外部刺激的生理反应1。近年来,情绪识别引起了广泛关注。为此,提出了许多研究方法以准确识别人类情绪,这些研究方法主要可以分为两大类:第一类基于非生理数据的方法,利用语言和面部表情等2-5 数据判断情绪。这类方法的优点是数据很容易收集,不需要任何专门和昂贵的设备。但是非生理信号可以被主观意愿控制6 ,这意味着受试者可以掩盖自己的情绪,并在分类中造成无法检测和消除的不确定性。第二类依据生理数据,如脑电图(electroencephalogram,EEG)7-8、肌电图(electromyogram,EM G)i 9-10)、心电图(electrocardiogram,ECC)iu1-2/皮肤电反应(galvan-ic skin response,CSR)13-14 等无法人为干预的生理信号作为依据进行情绪判断。这类方法可以更好地与实际情绪状态相关联,但实验的设置较为困难。例如,采集脑电图生理信号需要受试者处于防止外界交流电噪声干扰的屏蔽室,并且对受试者有一定的要求,同时其信号中固有的噪声也会阻碍可靠的情绪识别。两种方法相比之下,第二类方法具有更高的准确性和客观性,并且不限制使用人群。因此,基于生理信号的情绪识别法具有更高的研究价值和实用价值。Kim等15 提出了用于识别情绪的基于卷积长短期记忆的深层生理影响网络,在DEAP数据集上检测,准确率相较于DEAP实验结果提升了15.9 6%;陈沙利等16 融合脉搏波、皮肤电反应、呼吸、皮肤温度等多种信号的特征,通过基于支持向量机的可减少相关性偏差的递归消除特收稿日期:2 0 2 2-0 9-0 8基金项目:四川省自然科学基金资助项目(2 0 2 2 NSFSC0799)征排序算法进行情绪分类,平均准确率达到7 6.9%;PanL等17 提出了一种基于支持向量机、决策树和极端学习机融合的综合模型,在DEAP数据集上对4种生理信号进行情绪分类的准确率达到7 4.6 4%;CHAOH等18 将改进的深度信念网络与神经胶质链和条件随机场集成在一起,提取多通道脑电信号的高阶特征序列,通过KNN(K-Ne a r e s t Ne i g h b o r)进行分类,在AMIGOS和DEAP数据集上得到7 6.10%和7 5.46%的平均精确率;Santamaria-Granados等19 使用深度卷积神经网络,利用AMICOS数据集的心电信号和皮肤电信号进行情绪分类,在arousal和valence二维空间分类得到7 6%和7 3%的平均准确率。目前,大量的研究都是使用经过处理后的多维生理信号进行分类,但脑电信号、肌电信号、皮肤电反应信号与心电信号相比采集设备要求更高、数据更易受干扰。根据心电信号得到的心率变异性(heartratevariability,HRV】2 0-2 1,可以反映出心血管系统在不同情绪下做出的调节,从而体现情绪的变化。所以,本文提出一种基于极限梯度提升结合可减少相关性偏差和递归特征消除的心电信号情绪识别方法。首先,使用公开数据集AMIGOS22数据集进行实验,采用小波变换和陷波滤波器去除噪声等干扰,提取了心电信号以及心率变异性的时域、频域等35个特征参数;再结合XGBoost-RFE-CBR(eXtreme gradient boosting-recursivefeature elimination-correlationbias reduction)特征排序算法进行特征选择得到2 7 个特征;然后利用XGBoost进行分类,最后在五折交叉验证下,对arousal、v a l e n c e、dominance3个情绪标签分别进行二分类,分别获得80.5%、7 4.8%、7 6.4%的识别准确率。与采用多维生理信号的方法相比,该方法减少了系统复杂度,与传统分类算法相比有着更高的分类准确率。259杨琳坤,-RFE-CBR的心电信号情绪识别研究XOST第3期1数据预处理及方法1.1数据和预处理所使用的数据集为AMIGOS数据集,它是用于研究个人和团体的情感、人格和情绪的数据集,其中包含40名受试者的实验数据,每名受试者独立观看16 个引起不同情绪的短片并在观看过程中记录心电、皮肤电、脑电数据。选取上述40 名受试者的独立观看16个情感短片的心电数据进行实验。在AMIGOS数据集中,ECG信号有三导联信号,可以得到采样率为2 56 Hz的12 8 0 份ECG信号,作为实验样本,其中第9 个人仅参加了第4、5、8、14个情感短片的ECG信号采集。为了保证数据的一次完成性,减少外部因素的影响,故舍弃第9 个实验者的ECG信号,最终得到12 48 份实验样本。AMIGOS数据集以自我情绪评定量表(self-assessment manikin,SA M)为评价规则,让40 名受试者在arousal、v a l e n c e 和domi-nance3个维度等若干指标中,使用1 9 的连续量化分数进行评判,评分从小到大依次表示各项指标由弱到强。以评分作为分类标准,分为1 5分和5 9 分两类,使用0 和1进行标记。通过观察频谱以及与正常心电信号的对比,在39名参与者的ECG信号中,存在两个固定干扰,干扰的频率范围分别为50 Hz0.1Hz和7 8 Hz0.1Hz;并且,在测量心电信号的过程中,ECG信号会因为耦合进肌电干扰而出现测量偏差2 3;此外,原始心电信号会存在一定程度的基线漂移,会影响心电信号的特征2 4。使用bior2.6小波对原始心电信号进行小波分解、滤波、重构,以去除肌电干扰和基线漂移,再采用50、7 8 Hz的陷波滤波器对ECG信号进行滤波处理,从而消除这两项固定存在的干扰。原始心电信号以及处理后的心电信号如图1所示。120F110100900510152025303540时间/秒(a)原始ECG信号10r50510152025303540时间/秒(b)预处理后的ECG信号图1原始ECG信号与预处理后的ECG信号1.2特征的提取ECG信号的基本波形见图2,包含以下基本波形:心脏兴奋过程中会相继出现一个P波、一个QRS 波群及一个T波,相邻R峰的时间间隔通常被称为RR间隔。RR间隔RRQRS波群图2ECG信号的基本波形根据受试者观看视频的时长,实验样本截取时长为50 s的信号进行实验。因为受试者观看情绪短评引起动作干扰导致R峰提取存在误差,所以选取使用Pan&Tompkins算法提取R峰来避免干扰从而获得正确的R峰信息,如图3所示。10rECG信号8OR波的位置6420-25858.55959.56060.56161.562时间/秒图3QRS波检测定位R峰位置准确提取R峰后,计算相邻R峰的时间间隔(RR间隔);进一步剔除异常心跳节拍(如心脏异位搏动),获得正常窦性心搏RR间隔(简称NN间隔),用于衡量心率变异性(HRV)20-21。然后,提取ECG信号和NN间隔的相关特征作为实验的所需要的特征,具体提取的特征见表1。表1提取的特征特征类型提取特征心率、原始信号最大值、最小值、中值、最大最小差值及其一阶、二阶差分,信号变异系数、相邻时域特征NN间隔的均值、标准差、相邻 NN间隔之间的均值、SDSD、R M SSD、p NNx 等频域特征TP、L FP、H FP、L F/H F等庞卡莱图特征、近似、赫斯特指数、柯尔莫哥非线性特征洛夫熵、去趋势波动分析等大260第38 卷息成报程信都学学表1中,SDSD是相邻NN间隔之间差异的标准差;RMSSD表示相邻时NN间间隔的平方根;pNNx表示时间间隔大于xms的NN间期占所有NN间期的比重;LFP、H FP、T P分别是HRV相关频域特征分别表示NN间隔对应低频(0.0 4 0.15Hz)功率、高频(0.150.40Hz)功率以及总功率(0.40 Hz)。除时、频域特征之外,非线性方法也常被用于评价HRV动态特性2 1。如通过庞卡莱图2 5 计算NN间隔的SD1(standard deviation 1)和 SD2(standard deviation 2):NN,-NN,L-1+1SD1=12NN,+NN,L-11i=1SD2=V2其中,i表示第i个NN间隔,L表示NN间隔的总数。为消除不同受试者之间的差异和模型分类,对每个所提取的特征均进行Z-score标准化处理,处理后的特征数据均达到均值为0,标准差为1。1.3特征的选择本文从心电信号及心率变异性中在时域、频率、非线性特征中提取35个特征。特征与特征之间可能会存在相关性,并不是特征越多,模型的分类能力就越好。过多的特征会导致分类模型训练时间增加,也可能使模型训练后出现过拟合的情况,导致分类性能下降。因此,采用XGBoost-RFE-CBR特征选择方法对前面所提取的特征进行筛选。XGBoost-RFE(r e c u r s i v efeature elimination)是一种基于极限梯度提升进行特征排序的2 6 方法,是通过选取特征集合的子集使用XG-Boost模型评估效果,然后重复该过程直到得到最优的特征子集,该特征子集中存在的特征就是被选择的特征。首先,使用所有特征训练XCBoost模型,计算每个特征量的重要性并进行排序;其次,提取重要性靠前的特征作为新的特征子集;之后,基于新的特征子集训练XGBoost模型,重新计算每个特征变量的重要性并进行排序;然后,重复上述过程,比较每个特征子集获得的效果;最后,选择并决定最优的特征变量集合。虽然XGBoost-RFE是一种有效的特征选择方法,为了避免相关性较高的特征被一起移除而造成性能损失,所以引入一种可以减少相关性偏差的方法2 7 ,目的是将某些因相关性较高且被误舍弃的特征重新添加到特征变量集合。每次XGBoost-RFE选取特征子集后,对舍弃的特征中排首位的特征标记为Feature,然后找到所有与被标记特征Feature的相关系数较高的特征。如果这些新找到的特征都已被舍弃,就将标记特征Feature移回特征子集再进行训练XGBoost模型,基本流程如图4所示。开始数据预处理特征提取评估模型指标Feature添加回特征集选取重要性最高N特征重要的特征Feature性排序亮否保留特征?TY保留现有特征集Feature相关系数较高的特征是否评估模型指标都被舍弃?YNY误码率差降低?舍弃FeatureIN确定特征+模型预测工结束图4特征选择基本流程采用XGBoost-RFE-CBR对提取的35个特征进行特征选择。最终,将选出的2 7 个特征作为分类器的输人进行情绪分类。1.4模型分类器在得到心电信号特征后,使用XGBoost28分类器进行特征分类。XGBo