分享
基于CNN-Transformer的城区地下水位预测_冯鹏宇.pdf
下载文档

ID:2515781

大小:1.68MB

页数:7页

格式:PDF

时间:2023-06-27

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 CNN Transformer 城区 地下水位 预测 冯鹏宇
基金项目:国家自然科学基金项目(61675180);企业合作项目“液位监测系统研发”(校合-2021-KYY-546001-0003)收稿日期:2021-08-02 修回日期:2021-08-10 第 40 卷 第 4 期计 算 机 仿 真2023 年 4 月 文章编号:1006-9348(2023)04-0492-07基于 CNN-Transformer 的城区地下水位预测冯鹏宇,金 韬,沈一选,但 俊(浙江大学信息与电子工程学院,浙江 杭州 310027)摘要:提出了一种将 Transformer 与卷积神经网络(CNN)相结合的城区地下水位预测模型。Transformer 模型能够提取地下水位在时间序列上包含的关键信息,有效提升了模型的长时间预测能力;CNN 能获取相邻监测站点地下水位数据之间的空间关联信息,使信息的提取更加丰富。使用开源地下水位数据集对模型进行训练,并进行仿真验证。仿真结果表明,在预测未来 12 个时刻的地下水位值时,CNN-Transformer 模型预测结果整体的均方根误差值相比于循环神经网络(RNN)系列模型从0.2507 米降到 0.1427 米,在未来第 12 个时刻的均方根误差也仅为 0.2309 米,验证了上述模型能实现长时间高精度的地下水位预测。关键词:地下水位预测;深度时序模型;卷积神经网络中图分类号:TP391.9 文献标识码:BPrediction of Urban Groundwater Level Based onCNN-TransformerFENG Peng-yu,JIN Tao,SHEN Yi-xuan,DAN Jun(College of Information Science and Electronic Engineering,Zhejiang University,Hangzhou Zhejiang 310027,China)ABSTRACT:A method based on Transformer and Convolutional Neural Network(CNN)is proposed for urbangroundwater level prediction.The key information can be extracted from the time series of the groundwater level by theTransformer model,thus improving the long-term predictive ability of the model.The spatial correlated information ofthe groundwater levels at adjacent monitoring stations can be obtained by CNN,which enriches the extracted informa-tion.We use the open-source groundwater level data set to train the model and perform simulation verification.Thesimulation results show that the overall root mean square error value of the predicted groundwater level at the next 12consecutive moments by the CNN-Transformer model is reduced from 0.2507 m to 0.1427 m compared to that by theRecurrent Neural Network(RNN)series model,and the root mean square error at the 12th moment in the future isonly 0.2309 m.The result indicates that the CNN-Transformer groundwater level prediction model can realize long-term and high-precision groundwater level prediction.KEYWORDS:Groundwater level prediction;Deep time series model;Convolutional neural networks1 引言近些年,城市内涝一直是城市管理部门非常棘手的问题,尤其在雨季,严重妨碍了城市居民的日常生活。已有研究者开展对水位实时监测技术的研究1,但对水位未来变化趋势预测的研究较少。如果对城市地下水位能进行准确预测,市政水利部门能及时采取相关措施,对缓解城市内涝问题具有重要价值。传统的水位预测模型通常用线性函数表征水位的动态变化过程,忽略了复杂的外部条件因素,无法得到精确的预测结果。因此,研究者们将一些传统的灰色模型、季节性差分自回归滑动平均模型(SARIMA)等随机模型用于水位的预测2,3。这些传统的随机模型能够提取水位数据的非线性特性,一定程度上提升了水位预测的精确度,但是这些模型的建立需要大量复杂的降雨量、温度、物理因素等参数,限制了它们的实际应用。近几年,随着机器学习技术的不断发展,研究人员开始将支持向量回归(SVR)、人工294神经网络(ANN)等机器学习方法用于提取水位数据里蕴含的各种信息4,5。相比于传统的模型,这些机器学习方法很大程度上简化了预测模型的构造难度,并且在预测精度上得到了提升。但是这些模型不能获取输入水位数据之间的关联性,随着预测时间的增加,预测精度会显著下降。水位数据本质上是时间序列,科研者们尝试用循环神经网络(RNN)进行水位预测6。并且针对传统 RNN 训练过程中梯度消失和爆炸的问题,科研者们进一步应用长短时记忆网络(LSTM)以及门控循环单元(GRU)对这些问题进行改进7,8。这使得在较长的时间序列预测中,获得比以往更高的精度。但是 LSTM 与 GRU 并行运算能力差,并且在训练过程中,它们无法将权重精准地分配给重要的信息,预测精度依然有进一步提升的空间。Transformer 模型利用其自注意力(Self-attention)机制进行快速并行运算,改善了 RNN、LSTM 并行计算能力差的缺点。地 下 水 位 数 值 作 为 一 个 时 间 序 列,也 可 以 引 入Transformer 模型进行预测9,10。本文中基于多头注意力和位置编 码 机 制,提 出 了 一 种 适 用 于 地 下 水 位 预 测 的Transformer 模型,在此基础上将卷积神经网络(CNN)与Transformer 模型相结合,提出了 CNN-Transformer 地下水位预测模型。利用开源的地下水位数据集对模型进行训练以及仿真。首先,通过单个监测站点的地下水位数据集对Transformer 模型进行训练,然后对该站点地下水位进行预测,预测结果表明 Transformer 模型相比于 RNN 系列的时间序列模型,能够实现对地下水位数据更长时间、更高精度的预测。随后,通过多个监测站点的地下水位数据集对 CNN-Transformer 模型进行训练,从空间、时间两个角度提取水位数据中蕴含的各种复杂信息,预测其中一个站点的地下水位。预测结果表明,CNN-Transformer 模型获得了比 Trans-former 更高的地下水位预测精度。2 算法模型2.1 Transformer 预测模型2.1.1 注意力机制(Attention)注意力(Attention)机制思想由 Bahdanau D 等 人 提出11,该思想的提出受到人对所看到的视觉图像注意力通常集中在特定的部分的启发。之后科研者对注意力机制进行了一系列研究,取得了众多成果。Transformer 模型由 Vaswani A 等人提出12,模型的核心是自注意力机制(Self-attention),如图 1 左边模型所示,每个输入分别乘以变换矩阵得到向量 q(query)、k(key)、v(val-ue),用以进行自注意力值计算,向量 q 与 k 的维度均为 dk,向量 v 的维度为 dv。q 与 k 点乘并除以尺度标度dk,再利用 softmax(zi)=exp(zi)/jexp(zj)得到数值的权重i,j,即i,j=exp(i,j)mexp(i,m)=expqikjdk|mexpqikmdk|(1)得到的权重再与向量 v 相乘。在计算注意力时,将所有 m 个输入变换得到的向量 qi、ki、vi组合成矩阵 Q=q1q2qmT、K=k1 k2kmT、V=v1v2vmT,得到权重的求和表示,整个过程可以用式(2)表示Attention(Q,K,V)=softmax(QKTdk)V=1,11,21,m2,12,22,mm,1m,2m,m|v1v2vm|=h1h2hmT(2)图 1 多头注意力机制结构(Multi-Head Attention)自注意力机制在对话系统、推荐系统等方面已经证明了其优势13-15。在时间序列数据预测方面,相比于神经网络中其它可以用于时间序列数据预测的模型,如 RNN、LSTM、GRU,自注意力机制也有其优势。RNN 系列的神经网络模型,主要依赖两个输入,即当前时刻的输入以及前一时刻隐藏层状态的输出。时间序列的历史信息是从前往后传输的,当前时刻的计算必须在之前时刻的数据都处理完成后才可以进行,序列之间存在依赖关系,并行计算能力较差。在自注意力机制处理时间序列时,无论两个时刻时间相差多少,做注意力计算时“距离”都是相同的,并且当前时刻的计算并不依赖前一时刻的输入,这使得自注意力机制具有强大的并行计算能力。除此之外,注意力机制能将更多的权重分配给时间序列上更重要的信息。这两方面使得自注意力机制在处理时间序列数据上相比于其它神经网络更具优势。多头注意力机制是将输入映射到不同子空间进行自注意力机制运算。如图 1 所示,输入 Ai分别乘以 h 个变换矩阵(WQ1,WQ2,WQh)、(WK1,WK2,WKh)、(WV1,WV2,WVh),得到(Q1,Q2,Qh)、(K1,K2,Kh)、(V1,V2,Vh),每一394组(Qi,Ki,Vi)分别进行自注意力机制运算,将所有的结果合并,然后将得到的矩阵输入全连接层线性转化后输出,整个运算过程可以表示为MultiHead(Q,K,V)=Concat(Head1,Headh)Wo=Head1HeadhWo=head1,1headh,1head1,mheadh,m|Wo(3)Headi=Attention(Qi,Ki,Vi)=Attention(AiWQi,AiWKi,AiWVi)(4)其中 WQi Rdmodeldk,WKi Rdmodeldk,WVi Rdmodeldv,WoRhdvdmodel,dmodel为输入向量维度并且 dk=dv,dmodel=hdk。对于多头注意力机制相比于单个自注意力机制的优势,科研者们进行了一系列的研究和讨论16-18。多头注意力模型相比于单个自注意力模型,它可以形成多个子空间,这样可以让注意力模型关注输入数据不同方面的信息,模型可以从输入数据中提取更丰富的特征。因此,在 Transformer 模型中,采用了多头注意力机制。通常情况下,头数 h 越大,模型的性能越强大,但相应的参数会增加,模型的训练时间也会加长。在水位预测模型的设计过程中,经过调试比较发现 h为 3 时,可以在训练时间可以接受的范围内获得较好的预测效果,因此设定 h=3,即设计成 3 头注意力机制。2.1.2 网络设计图 2 是 Transformer 预测模型的网络结构,模型包含编码器与解码器两个部分。编码器(Encoder)由输入层、位置编码

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开