温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
分子
邻接
指数
多氯代二苯
呋喃
光解
半衰期
QSPR
研究
第期张镜予,等:超薄氮化碳负载纳米催化剂甲酸分解制氢性能第卷第期年月化 学 研 究 与 应 用 ,文章编号:()基于分子边邻接指数的多氯代二苯并呋喃光解半衰期研究廖玉婷,饶火瑜,乐长高,徐珍珍(东华理工大学应用化学系,江西南昌)摘要:收集了种多氯代二苯并呋喃的光解半衰期的实验值,并随机将样本分为训练集和测试集,训练集和测试集的样本数分别是和个。采用软件中半经验方法对分子进行几何优化和频率分析。将稳定分子的几何参数交给软件计算其分子边邻接指数。采用多元线性回归()方法找到四个分子边邻接指数对分子的光解半衰期值有显着影响。相关系数达到,值为,值为,值大于临界值,表明模型拟合性能优良。通过留一法交叉验证、留多法交叉验证、外部验证和适用域分析,表明该模型具有内部稳健与对外预测可靠,能够用于预测的光解半衰期。关键词:多氯代二苯并呋喃,光解半衰期,定量结构性质关系,多元线性回归,分子边邻接指数中图分类号:文献标志码:,(,):(),:,多氯代二苯并呋喃()是多种工业生产过程的副产品,如除草剂制造、冶金工艺、纸浆和造纸工业中的漂白以及塑料的燃烧过程中都会产生,。多氯二苯并呋喃具有高度收稿日期:;修回日期:基金项目:国家自然科学基金()资助;国家自然科学基金()资助通信联系人:饶火瑜(),男,副教授,主要从事理论计算化学研究。:化学研究与应用第卷亲脂性以及化学稳定性,导致其在生物体和土壤中迅速积累,并以持久性有机污染物的形式出现。特别是,其横向位置上的氢原子被氯原子取代,非常危险,已被列为可能危害人类和动物健康的高优先级污染物。光降解反应是消除 污染的重要途径,因此被许多研究人员研究。认为在阳光照射下,可以在云杉()针叶表面有效降解。光解半衰期()是表征光降解反应和确定环境危害的重要指标,。然而,由于测定光解半衰期的方法复杂、材料费用高、测定耗时长以及缺乏标准,因此测量的 是一项具有挑战性的任务,。至今为止,实验观察到的的光解半衰期的数据是不充分的。因此,化学家利用当前业已出现的实验测定光解半衰期数据,采用数学统计工具去建立定量结构性质关系模型用来预测分子的光解半衰期有着浓厚的兴趣,。目前已开发的模型普遍存在的缺点有:()决定系数和留一法交叉验证相关系数分别小于 和,检验值过低,标准偏差高和平均绝对相对误差高等;()没有进行外部测试集验证预测能力,或者训练集与测试集的样本比为 ,训练集样品过多而测试集样本过少,一般认为训练集与测试集的比例为 到 之间比较合适;()没有进行应用域分析。这些模型预测不佳,原因在于没有找到合适的分子描述符来描述分子的微观结构。近年来,和两种分子描述符计算软件在研究取得了十分广泛的应用,如关联临界参数、毒性、生成焓 等。软件是软件的升级版,其功能更为全面,且使用简便。以计算的分子边邻接指数出发,利用多元线性回归原理建立了一个四元线性关系式,相关系数达到。方法定量结构性质关系研究()主要步骤为:收集光解半衰期的实验数据,随机合理划分训练集与测试集,优化分子几何参数,计算分子描述符,运用多元线性回归等方法建立定量结构性质模型并进行模型的内部稳健与外部预测能力的验证,分析模型的应用域。数据集的选择光解半衰期()的实验值选自文献。该数据集包含种多氯代二苯并呋喃,范围从四氯代二苯并呋喃到八氯代二苯并呋喃。这些的光解半衰期()范围从 小时到 时。总数据集被随机分成训练集和测试集,训练集和测试集分别由和个分子组成。训练集被用于建立定量结构性质关系()模型,测试集用于检测模型的对外预测能力。观察到的光解半衰期值列于表。将光解半衰期对数化后,再行建模。经过对数化和四舍五入后,几个不同甚至相差较大的光解半衰期,在对数化后可能具有相等的值,因此对数光解半衰期取小数点取四位,加大对光解半衰期的区分度。文献中的,应命名为,应命名为,。研究论文,把,误为,而进行相关研究,这是一个小,在只有一个分子出现氯原子取代位置的差异,对其论文数据及结论略有小的影响,但不影响其论文原有格局。,和,实际为同一分子,不同的命名不会影响研究结果。量化计算和分子邻接指数的计算分子为平面形状,指定分子的对称性,用软件的半经验理论进行几何优化和频率分析。将无虚频的稳定分子的几何参数提交给软件计算分子邻接指数,以计算所得的分子邻接指数用于建模。多元线性回归模型的建立与模型拟合性能 的多元线性回归分析是一种具有多种应用的定量预测工具,是应用最广泛的建模技术之一。判断模型拟合质量的主要指标是决定系数、标准差、检验值、值和值。决定系数越接近,标准差越低,检验越大,模型的整体拟合越好。方差膨胀因子()是用于描述各自变量(分子邻接指数)之间第期廖玉婷,等:基于分子边邻接指数的多氯代二苯并呋喃光解半衰期研究是否存在多重共线性的指标,一般而言,值在到之间表明各自变量之间不存在明显的多重共线性,其预测结果是可信的。值用于确定各残差之间是否存在自相关,一般认为值在 和 之间,表明各残差之间不存在自相关,提出的模型是可靠的。()()()式中,分别是实验值,预测值和测试集样本实验值的平均值。()槡()式中,和分别是训练集样本数和建模自变量数。()式中,为训练集本数,为建模自变量数。()是指以第个自变量为应变量,以其余的自变量为自变量,所得的回归决定系数值。()()式中,为残差,即样本实验值与预测值的差值。模型的内部稳健性与外部预测能力的检验模型的内部稳定性通过留一法交叉验证和留多法交叉验证进行检验,要求交叉验证系数或与决定系数之差小于,留多法交叉验证可组合进行(,)次,通过计算平均交叉验证系数,其值与接近则表明模型内部稳健性高,计算公式详见文献。模型外部预测能力,可采用计算外部验证系数,和,度量和一致性相关系数(,)等检验模型的对外预测能力,此外还通过均方根误差(),平均绝对相对误差()来评价模型的外部预测能力。,和的计算办法见之文献,。模型应用域的分析以标准化残差和杠杆值分别为纵坐标为横坐标,所汇图形称为图杠杆值的计算办法见于文献,当数据矩阵的行列数都小于,可用免费在线矩阵工具计算,当行列数有一个大于时,一般是训练集样本数大于,此时只能借助两大著名办公软件的矩阵计算功能和,完成相关计算。能计算杠杆值的软件主要有和,前者矩阵加上常数列,常数列元素为,后者不加常数列并且矩阵中的元素进行中心化处理,中心化处理指每列元素减去该列元素的平均值,再做矩阵运算。两大软件计算得到的每个的相差,为训练集的样本数。测试集样本的杠杆值依然满足这个结论。结果与讨论 模型通过多元线性回归技术找到四个分子邻接指数对分子在云杉针叶表面上的光解半衰期产生显着影响,描述符的含义见表。表 模型的分子邻接指数 ()()()()选用的四个分子邻接指数都是属于边邻接指数,其计算不依赖于分子的结构,只需知道分子中各原子的连接信息就可以进行计算,对其他分子的光解半衰期进行预测,不需要进行量子化学理论计算,就可直接计算分子上述四个边邻接指数,然后代入计算光解半衰期。多元线性回归方程列于下表,回归分析结果列于表。()()()化学研究与应用第卷()(),表 光解半衰期的模型 ()()()()表列出了总数据集的的分子邻接指数、光解半衰期实验值的对数值、的计算值和整个数据集全部分子的杠杆值。经计算,相关系数达到,检验值达到,表明该模型具有统计显着性。每个变量的绝对值均大于其临界值(,),四个分子邻接指数的值均小于,说明选用的四个自变量对因变量均产生显著的影响。模型中所有选定的分子邻接指数的方差膨胀因子()均小于,表明四个自变量之间不存在明显的自相关。值为 表明模型的残差之间没有自相关。表总数据集的分子邻接指数、和杠杆值 ,()()()(),第期廖玉婷,等:基于分子边邻接指数的多氯代二苯并呋喃光解半衰期研究续表,标记为测试集 图描绘了总数据集中的 的实验值和预测值之间的关系。从图中可以看出,总数据集中的 的实验值和预测值彼此相吻合。图描绘了总数据集的残差分布,从图中可以看出:残差在零线两侧随机分布,表明在整个模型开发过程中没有产生系统误差。图光解 的实验值与预测值的关系 图残差与 实验值的关系 模型的检验对训练集进行内部稳健性检验,进行留一法、留四法、留八法交叉验证,得到留一法交叉验证相关系数为,留四法和留八法的平均交互验证相关系数分别为 和。三个交叉验证相关系数均接近模型的决定系数(),表明创建的模型具有内部可靠性和稳健性。化学研究与应用第卷外部验证是验证模型对外预测能力的重要步骤。测试集的和分别为 和,均明显低于训练集的()和()。外部验证预测相关系数,和分别为、和,均大于实际模型的决定系数(),一致性相关系数经计算为,说明该模型能准确预测的光解半衰期。经计算,高达,远远大于,说明所得模型具备较强的预测能力。为进一步说明模型的稳定性,以全部样本集个样本以组合方式选择个样本作为训练集,以余下的个作为测试集,得到留法交叉验证系数为,与决定系数()的差距小于,说明模型稳健可靠。模型的应用域分析图描绘了所开发的模型的图。模型的应用域()构建在一个矩形区域内,其警告杠杆值()为,标准化残差范围为到。图的数据只有一个具有较高杠杆值的异常值();异常分子是八氯代二苯并呋喃。它的结构不同于其他分子,因为其所有的氢原子都被氯原子取代。该模型能够以非常低的残差正确预测其光解半衰期。杠杆方法假设数据为正态分布。值得注意的是,同时具有较大的杠杆值和较低的残差值的点是好点,这些点稳定并提高了模型的准确性,。因此,该模型的预测结果令人满意的,能高精度预测分布在应用域内的分子的光解半衰期。图描述模型应用域的威廉姆斯图 与文献的结果比较本研究与文献、和相比较,训练集测试集样本比例符合建模规范,模型优良评价指标多样,建模原理简单,能得到定量公式,不采用文献的支持向量机()或神经网络()的暗箱模型,具有更高的决定系数、更小的标准差、更小的均方根误差,文献对预测集的预测误差偏大。表本工作与现有文献的结果比较 文献介质 建模方法 自变量数训测样本比训练集测试集李美萍等,云杉针叶 赵继颖等,云杉针叶 于海英等,云杉针叶 于海英等,云杉针叶 本工作云杉针叶 结论运用量子化学软件中的半经验理论对分子进行了几何优化与频率,所得稳定分子的几何参数被传送给软件计算分子边邻接指数。采用多元线性回归方法,建立了一个四参数模型,相关系数达。四个参数都属于边邻接指数,不需要知道分子的结构信息,无需进行量子化学理论计算,可以直接计算分子的边邻接指数,代入就可得到光解半衰期。第期廖玉婷,等:基于分子边邻接指数的多氯代二苯并呋喃光解半衰期研究采用决定系数,值检验模型的拟合优度,值表明自变量对应变量产生显著影响,值表明各变量之间不存在多重共线性,值表示了残差之间不存在自相关性。留一法、留多法交叉验证,表明模型具有内部可靠和稳健性。外部验证相关系数、度量、和表明模型具有良好的对外预测能力。参考文献:,():王蕾,刘新会,侯娟,等电性拓扑态指数预测光解半衰期化学学报,():牛军峰,余刚,韩文亚应用遗传算法建立云杉针叶表面 光解半衰期的预测模型环境科学,():赵继颖,张文华,王琼瑶,等多氯代二苯并呋喃分子空间坐标与光解半衰期的研究化学研究与应用,():于海英,李美萍,郝俊生基于和方法的多氯代二苯并呋喃光解半衰期比较研究生态毒理学报,():李美萍,张生万,胡永钢,等分子电性距离矢量用于多氯代二苯并呋喃光解半衰期的研究生态毒理学报,():,(),():,(),():,(),():,(),():堵锡华,冯长君云杉针叶表面二英光解半衰期的构效关系研究石油化工高等学校学报,():饶火瑜,祝志强,乐长高,等脂肪醇临界温度与分子描述符的定量结构性质关系研究石油化工,():饶火瑜,祝志强,徐珍珍拓扑指数与无环链烷烃临界温度的定量结构性质关系研究化学研究与应用,():,():,():,():,():,:(责任编辑童冬梅)