分享
一种高效的非交互式隐私保护逻辑回归模型_唐敏.pdf
下载文档

ID:2728061

大小:2.24MB

页数:12页

格式:PDF

时间:2023-10-13

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
一种 高效 交互式 隐私 保护 逻辑 回归 模型 唐敏
第 49卷 第 4期2023年 4月Computer Engineering 计算机工程一种高效的非交互式隐私保护逻辑回归模型唐敏,张宇浩,邓国强(桂林电子科技大学 数学与计算科学学院 广西高校数据分析与计算重点实验室,广西 桂林 541004)摘要:逻辑回归作为一种典型的机器学习算法,被广泛应用于医疗诊断、金融预测等领域。由于单个用户没有足够的样本构建高精度模型,传统的集中式训练则会导致隐私泄露,因此构建具有隐私保护的逻辑回归模型受到广泛关注。现有的要求用户和服务器之间进行交互的方案具有较高的计算成本和通信负担。提出一种高效的非交互式逻辑回归训练协议,利用具有良可分离结构的梯度更新公式,解耦样本数据和模型参数之间的计算耦合性,保证用户与服务器之间的单向单次传输性,即用户将本地数据整合并以秘密共享的方式上传给云服务器后即可离线。在训练阶段设计基于矩阵和向量运算的协议,保证服务器在每次迭代中使用固定的信息更新参数,降低计算成本和通信开销。同时,基于协议的安全性分析和数值实验,在UCI库的4个真实数据集上训练逻辑回归模型,实验结果表明,在保证模型精度的前提下,与最新的隐私保护逻辑回归方案VANE相比,该回归模型效率提升了80120倍,且训练时间与明文域相近。关键词:逻辑回归;隐私保护;良可分离结构;秘密共享;向量化开放科学(资源服务)标志码(OSID):源代码链接:https:/ J.计算机工程,2023,49(4):32-42,51.英文引用格式:TANG M,ZHANG Y H,DENG G Q.An efficient non-interactive and privacy-preserving logistic regression model J.Computer Engineering,2023,49(4):32-42,51An Efficient Non-Interactive and Privacy-Preserving Logistic Regression ModelTANG Min,ZHANG Yuhao,DENG Guoqiang(Guangxi Colleges and Universities Key Laboratory of Data Analysis and Computation,School of Mathematics and Computing Science,Guilin University of Electronic Technology,Guilin 541004,Guangxi,China)【Abstract】As a typical machine learning algorithm,logistic regression is widely used in medical diagnosis,financial forecasting and other fields.Since a single user does not have enough samples to build a high-precision model,and the traditional centralized training will lead to privacy leakage,building a logistic regression model with privacy preserving has attracted extensive attention.The existing schemes that require communication between users and servers lead to high computing costs and communication burden.This paper proposes an efficient non-interactive logistic regression training protocol.Using the gradient update formula with a well-separable structure,the computational coupling between sample data and model parameters is decoupled to ensure one-direction single transmission between users and servers.That is,users can go offline after integrating local data and uploading it to the cloud servers in a secret sharing manner;In the training phase,a protocol based on matrix and vector operation is designed to ensure that the server uses fixed information update parameters in each iteration,reducing the calculation cost and communication overhead.Meanwhile,the protocol security analysis and numerical experiments are provided.The experimental results of training the logistic regression model on four real datasets from the UCI library show that,under the premise of ensuring the accuracy of the model,the efficiency is greatly improved(80-120 times)compared with the latest privacy preserving logistic regression scheme VANE,and the training time is similar to that in the plaintext domain.【Key words】logistic regression;privacy-preserving;well-separable structure;secret sharing;vectorizationDOI:10.19678/j.issn.1000-3428.00655490概述 在大数据时代下,机器学习对人们生活产生了巨大的影响1-3。逻辑回归作为典型的机器学习算法,广泛应用在医疗诊断4、文本识别5、物联网6等多个领基金项目:广西科技基地和人才专项(AD18281024);桂林电子科技大学研究生教育创新计划项目(2022YCXS144)。作者简介:唐敏(1980),女,副教授、博士,主研方向为计算机代数、机器学习;张宇浩,硕士研究生;邓国强(通信作者),副教授、博士研究生。收稿日期:2022-08-19 修回日期:2022-09-30 Email:热点与综述文章编号:1000-3428(2023)04-0032-11 文献标志码:A 中图分类号:TP309第 49卷 第 4期唐敏,张宇浩,邓国强:一种高效的非交互式隐私保护逻辑回归模型域。通常来说,单一的用户或组织没有足够的数据构建高精度的模型,应对本地训练样本不足的方案7是聚合不同来源的数据。然而,出于隐私限制,很难将带有敏感信息的数据直接集中进行模型训练。因此,在隐私保护下构建逻辑回归模型引起人们的广泛关注。研究人员利用密码技术,针对隐私保护逻辑回归(Privacy-Preserving Logistic Regression,PPLR)模型进行研究,其中的同态加密(Homomorphic Encryption,HE)是最常用的数据安全保护技术。GUO等8采用BGN全同态加密(Fully Homomorphic Encryption,FHE)系统设计了一个逻辑回归预测阶段的隐私保护医疗预诊方案。FAN等9使用更高效的 SEAL全同态库加密数据,提出一种在训练阶段的隐私保护逻辑回归算法(PPLRA)。出 于 实 用 性 考 虑,基 于 CHEN 等10的HEAAN全同态方案,XU等11将二分类逻辑回归隐私保护模型推广到多分类。为避免全同态方案的高计算复杂性,SONG等 12 使用部分同态加密(Partial Homomorphic Encryption,PHE)保护数据,通过异步梯度共享算法交换训练中间结果而不暴露隐私,实现了对垂直分区数据的安全训练。尽管同态加密允许在不解密数据的情况下对密文直接进行计算,其输出与用同一方法处理明文的结果一致13。然而,针对机器学习模型训练问题,由于迭代次数较多、数据规模较大14,因此无论基于 FHE还是 PHE的方案都需要进行代价较大的加解密处理以及多次同态运算,效率较低;另外,用户之间或用户与服务器之间的多次交互也导致较高的通信负担。为了缩小密文训练与明文训练在计算效率上的差距,研 究 人 员 采 用 秘 密 共 享 技 术 保 护 私 有 数 据。MOHASSEL等15提出了 SecureML,极大地提高了数据维度较大时逻辑回归训练的效率。在 SecureML的基础上,MARTINE 等16引入了一个可信的第三方生成乘法三元组,进一步提高了服务器交互训练阶段的效率;ZHENG 等17提出了基于茫然传输的安全矩阵计算方案,利用 OT 扩展协议和批处理缩减了交互轮数,使训练过程所需的通信开销更低。上述基于秘密共享的隐私保护方案避免了同态加密所需的巨大计算量,在效率上有较大的提高。然而,由于训练过程由 2 台16或 3 台17非共谋的服务器协同完成,服务器之间需要多次交互,对网络的可靠性提出更高的要求。目前,有研究人员提出非交互式的隐私保护机器学习方案18-20(用户一次上传加密数据,不参与训练)。典型的代表是 2021年 WANG 等20设计的基于梯度下降的非交互式 PPLR 方案(VANE),其迭代训练过程中参数更新操作在明文下进行,因而效率较高。然而,该方案在训练前要求用户使用 Paillier 系统对m(d+1)2(m为用户数量,d为数据维度)个元素进行加密并上传给服务器,服务器端也需要聚合并解密同等规模的数据,当属性较多或用户数较多时,该方案的效率有所下降。为了解决上述方案的局限性,本文提出一个高效的具有隐私保护的逻辑回归训练方案 SLRT。定义良可分离结构,结合逻辑损失函数的近似替换策略,解耦梯度更新公式中用户数据与模型参数之间的计算耦合性,通过整合本地数据并以秘密共享方式上传给云服务器后随即离线。在此基础上,设计明文空间上基于矩阵和向量运算的训练协议,保证服务器在每轮迭代中使用固定的信息进行协同训练,减少传统秘密共享方案中服务器之间的计算开销和通信负担。1预备知识 1.1逻辑回归逻辑回归21是一种广义的线性回归分析模型,常用于解决二分类问题。给定由n个样本组成的数据集(X,Y)=(x1,y1),(xn,yn),其中,xi=(1,x1i,x2i,xdi)T,xji表示样本xi的第 j个特征,i=1,2,n,j=1,2,d,第 1 个 元 素 1 用 于 偏 置 项 的 计 算,xi对 应 类 标 签yi-1,1。在逻辑回归算法中,使用 Sigmoid函数来构建样本xi所属类别的概率:P(yi=1|xi,)=11+e-yiTxi其中:权重向量=(0,1,d)T是优化的模型参数。在逻辑回归中通过损失函数22来评估模型的预测值和真实值之间的误差,定义为:L(X,Y,)=1ni=1nloga(1+e-yiTxi)

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开