温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
一种
可解释
自由
文本
击键
事件
序列
分类
模型
一种可解释的自由文本击键事件序列分类模型张 畅*韩继红 张玉臣 李福林(信息工程大学 郑州 450000)摘 要:TypeNet是一种基于两层长短时记忆网(LSTM)分支结构的孪生网络模型,在自由文本击键事件序列分类任务上取得了很好的效果,但缺乏可解释性。为此,该文改进了TypeNet模型,提出一种基于单层LSTM分支结构的孪生网络模型TypeNet II。TypeNet II模型用多层感知机度量两个分支输出表征向量差的绝对值体现的特征序列的相似度。模型训练完毕后,用多元二项式回归模拟多层感知机部分,基于得到的多元二项式对模型进行解释。实验结果表明,TypeNet II模型的分类效果超出了已有的TypeNet模型,多元二项式回归的结果具有泛化性,表征向量差的绝对值与相似度量之间存在非线性关系。关键词:孪生网络;长短时记忆网;击键;多层感知机;可解释性中图分类号:TP181文献标识码:A文章编号:1009-5896(2023)02-0698-09DOI:10.11999/JEIT211567An Interpretable Free-text Keystroke Event SequenceClassification ModelZHANG Chang HAN Jihong ZHANG Yuchen LI Fulin(Information Engineering University,Zhengzhou 450000,China)Abstract:TypeNet is a Siamese network model based on two-layer Long-Short Term Memory(LSTM)branchstructure.It has achieved good results in the classification of free-text keystroke event sequences,but lacksinterpretation.Therefore,the TypeNet model is transformed,and a Siamese network TypeNet II based on asingle-layer LSTM branch structure is proposed.A multi-layer perceptron is used to measure the similarity oftwo feature sequences reflected by the absolute value of the difference between the output embeddings of thetwo branches.After the model training,the multi-layer perceptron is simulated by a multivariate binomialexpression.Based on the obtained multivariate binomial expression,the classification judgment of the modelcan be explained.The experimental results show that the classification effect of the TypeNet II model exceedsthe existing TypeNet model.The results of multivariate binomial regression are generalized,and there is anonlinear relationship between the absolute value of the difference of the embeddings and the similarity measure.Key words:Siamese network;Long-Short Term Memory(LSTM);Keystroke;Multi-layer perceptron;Interpretability 1 引言随着人工智能技术的飞速发展,人脸等生物特征在身份认证和识别领域得到广泛的应用。研究表明,人敲击键盘的“节奏”可以作为身份认证和识别的行为特征1。通常把按键事件发生的时间间隔作为击键行为特征,一般包括从前一按键释放到后继按键按下的时长UD time、从前一按键按下到后继按键按下的时长DD time(或称digraph)、从前一按键释放到后继按键释放的时长UU time、按键从按下到释放的时长Hold time、n(n2)个按键事件从第1个按键按下到第n个按键按下的时长n-graph等。击键行为研究一般分为固定文本和自由文本两大类,如果击键事件序列对应文本内容和长度都相同,属于固定文本研究;如果内容和长度不确定,则属于自由文本研究。人们研究击键行为已有40多年。期间,固定文本研究文献较多,取得了很好的分类效果,而自由文本研究的文献偏少,且分类效果一直不佳2。近期,Acien等人2用孪生网络模型大幅提升了自由文本击键事件序列的分类效果。本文在Acien的工作的基础上展开深入研究,探索分类效果好且具有可解释性的模型。自由文本击键事件序列因为键值不确定、长度 收稿日期:2021-12-27;改回日期:2022-05-22;网络出版:2022-06-07*通信作者:张畅zhang_chang_第45卷第2期电 子 与 信 息 学 报Vol.45No.22023年2月Journal of Electronics&Information TechnologyFeb.2023不一,所以无法得到像固定文本一样“整齐”的特征向量。常见的自由文本击键事件序列特征有:(1)以按键组合的n-graph均值为特征36;(2)以基于n-graph均值的按键或按键组合的排序为特征7,8;(3)以分组组合的用时均值为特征,例如把键盘划分成左手区、右手区和空格3组9,10,以这3组按键事件的时间间隔为特征,或者按元音、辅音、标点、功能键等划分按键11,以元、辅音等分组按键事件的时间间隔为特征。上述方法中,文献5和文献6在Clarkson II自由文本数据集获得了15.3%和7.8%的等错误率(Equal Error Rate,EER),但得到这样的结果需要至少200个digraph的测试样本和10000个digraph 的训练样本,因此不适用于短自由文本击键事件序列的分类。因为自由文本击键事件序列的特征不“整齐”,很长一段时期,自由文本击键事件序列的分类效果远不及固定文本。近期该问题有了转机:生成模型POHMM12把击键事件序列看作被试者受“积极”、“消极”两种隐状态的影响对键入文本的响应,如果有覆盖全面的训练集,理论上可以消除文本内容差异对分类的影响,但采集这样全的样本数据并不现实。芦效峰等人13尝试用卷积神经网络+循环神经网络结构的深度神经网络模型做自由文本击键事件序列的分类,在Buffalo 数据集中使用相同键盘的75个被试者的数据上,取得了3.04%的EER。作者声称其研究不足之处在于使用的数据量小。另外,这种方法解决的是闭集识别问题。Acien等人2用Aalto Uni-versity自由文本数据集14的6万多被试者的数据训练基于长短时记忆网(Long-Short Term Memory,LSTM)的孪生神经网模型TypeNet,在剩余10多万被试者的数据上测试,获得了2.2%的EER,分类效果明显优于POHMM。Morales等人15在Acien工作的基础上,提出用SetMargin Loss训练TypeNet模型。和Acien采用的Contrastive loss和Triplet loss不同,SetMargin Loss使得同类特征序列集围成的面积小,而不同类特征序列的间距离大。该做法使TypeNet模型能够更好地适应类内变化,取得了1.85%的EER。2 研究思路Acien和Morales的实验结果验证了TypeNet网络结构的有效性,即用双层LSTM将击键事件序列对应的特征序列映射到表征空间(embeddingspace),基于孪生网络结构采用对比学习方法,使得在表征空间上,属于同一人的特征序列的欧氏距离小,不同人的特征序列的欧氏距离大。TypeNet的表征空间是128维,使用欧氏距离度量表征向量XxiyXyy=f(X)=f(x1,x2,.,xN)fX(embedding)的相似度,所以表征空间的维度缺乏可解释性。本文用多层感知机替换TypeNet模型中的对比损失函数,来度量表征向量的相似度。具体做法是:把孪生网络模型的分支输出的表征向量差的绝对值作为多层感知机的输入,多层感知机输出作为孪生网络模型输入特征序列对的相似度量值,激活函数为sigmoid,采用交叉熵损失函数训练模型。为了解释表征向量,把多层感知机的输入(即表征向量)的元素作为自变量,输出 作为因变量,用多元多项式模拟多层感知机的输入和输出 之间的关系。根据多元多项式 分析各维度与相似度量的关系。3 孪生网络模型MN MMN MMTypeNet模型2的分支的输入为长度为的特征序列。特征序列的元素是一个5元组:。若特征序列长度,则截断丢弃超出长度的部分;如果,则在特征序列后面填充0,使其长度达到。为确保填充部分不影响损失函数的计算,在输入端做masking处理。本文最初尝试用和TypeNet模型一样的分支结构,即两层LSTM,得到的训练效果远不及TypeNet模型,之后转而用单层LSTM网络作分支结构,得到测试准确率超出了用contrastive loss训练的TypeNet模型近5个点。下面介绍改进的模型TypeNet II。3.1 TypeNet II模型参照TypeNet设计TypeNet II,用gridsearch方式确定模型的超参数,具体做法为:保留TypeNet模型的分支中的LSTM网络结构,从训练集中随机选取1000个被试者的样本作为实验数据,按照5.1节实验1的方式训练模型,用验证损失(最低)确定模型超参数。待确定的超参数包括:LSTM的神经元个数、批大小、学习率、dro-pout比率。在集合32,64,128,256,512,1024上搜索batch size,在0.1,0.05,0.01,0.005,0.001上搜索学习率,然后在集合16,32,64,128,256上搜索最优的LSTM的神经元个数,在集合0.2,0.3,0.5,0.7,0.8上搜索LSTM神经元间、LSTM层与Dense层间的Dropout比率。模型的初始化方式、激活函数以及优化算法均参考文献2。为了减小参数搜索空间,多层感知机中的Dropout比率直接设为0.5。最后在集合50,60,70上搜索输入特征序列的长度。最终得到的TypeNet II模型如第2期张 畅等:一种可解释的自由文本击键事件序列分类模型699GW()GW(X)M(x,x)=sigmoid(v?G1W(x)G2W(x)?+b)vb图1所示,分支由单层LSTM和1个Dense层组成,单层LSTM的结构和TypeNet模型一致,Dense层的输入是128维。分支的输出是表征向量,两个分支输出的表征向量差的绝对值作为比较层,比较层连接决策层(多层感知机)。决策层由两个Dense层组成,接收输入的Dense层的维度和表征向量一致,激活函数为ReLU,输出对应的Dense层有1个神经元,激活函数为sigmoid。模型的形式化描述为,其中 是多层感知机的权重参数,是偏置项。表1是模型的主要超参数。x,xl=1,identity of x=identity of x0,identity of x=identity of xloss=1NNi=1li lg(p(li)+(1 li)lg(1 p(li)scor