机器
学习
编程
基础
day02
机器学习课程day06,Contents,目,录,案例-FaceBook签到位置预测 数据分割及评估方法(重点)线性回归算法介绍 线性回归的损失函数及优化(重点)使用线性回归完成Boston房价预测(重点)欠拟合和过拟合产生的原因及其解决办法(重点)算法模型的保存和加载,Section,章,节,案例-FaceBook签到位置预测案例-Facebook位置预测流程分析案例-Facebook位置预测代码实现1案例-Facebook位置预测代码实现2,1.案例-FaceBook签到位置预测,1.1 视频讲解,Facebook签到位置预测的实现流程是怎么样的?,1.案例-FaceBook签到位置预测,1.2 知识检测,A)模型训练B)数据预处理C)模型评估D)特征工程,FaceBook签到位置预测的实现流程是怎样的?(排序),答案:BDAC,Section,章,节,案例-FaceBook签到位置预测案例-Facebook位置预测流程分析案例-Facebook位置预测代码实现1案例-Facebook位置预测代码实现2,1.案例-FaceBook签到位置预测,2.1 视频讲解,Facebook签到位置预测的实现流程是怎么样的?,1.k近邻算法的实现过程,2.2 知识检测,A)将时间戳处理成日期时间,便于算法计算B)将签到较少的地方去除 C)缩小数据范围D)将训练集和测试集进行拆分,下列关于FaceBook签到位置特征数据做的预处理合理的是?(多选),答案:ABD。C选项的处理只是为了课堂演示需要,节省程序的运行时间。,Section,章,节,案例-FaceBook签到位置预测案例-Facebook位置预测流程分析案例-Facebook位置预测代码实现1案例-Facebook位置预测代码实现2,1.案例-FaceBook签到位置预测,3.1 视频讲解,Facebook签到位置预测的结果如何?,1.案例-FaceBook签到位置预测,3.2 知识检测,A)模型训练的数据量不够(缩小了数据范围)B)去除了部分有意义的数据(只选择了其中部分维度的数据)C)模型的超参数还有待优化,FaceBook签到位置预测的结果没有达到预期可能是下面哪些原因造成的?(多选),答案:ABC。,Section,章,节,数据分割及评估方法补充-数据分割和留出法补充-交叉验证和自助法,2.数据分割及评估方法,4.1 视频讲解,如何正确的对数据进行分割?,1.数据分割及评估方法,4.2 知识检测,A)常见的分割方法有留出法、交叉验证法、自助法 B)测试误差就是泛化误差C)分层采样可以缓解留出法中带来的数据分割后分布不一致的问题D)留一法属于留出法中的其中一种,关于数据分割下列说法错误的是?,答案:B。,Section,章,节,数据分割及评估方法补充-数据分割和留出法补充-交叉验证和自助法,2.数据分割及评估方法,5.1 视频讲解,交叉验证法和自助法是如何实现的?,1.数据分割及评估方法,5.2 知识检测,A)交叉验证法能够保证数据分割之后的分布一致 B)当数据集较大时,为了节省时间我们可以选择留出法来分割C)自助法有可能会导致数据集分割后的分布不一致D)划分小数据集时我们可以采用留一法,关于交叉验证法和自助法下列说法正确的是?(多选),答案:ABCD。,Section,章,节,线性回归算法介绍线性回归简介初始线性回归api,3.线性回归算法介绍,6.1 视频讲解,线性回归解决的是什么问题?,3.线性回归算法介绍,6.2 知识检测,A)线性回归是利用数理统计中的回归分析,被广泛用来确定两种或两种以上变量间相互依赖的定量关系。B)只有一个自变量的情况称为简单回归(形如:y=wx+b),大于一个自变量的情况叫做多元回归(形如:y=w1x1+w2x2+b)。C)在机器学习中,线性回归这样的统计模型一般是用来通过确定回归方程中的一组参数,来确定自变量和因变量之间确切关系的统计分析方法。,关于线性回归下列说法正确的是?(多选),答案:ABC。,Section,章,节,线性回归算法介绍线性回归简介初始线性回归api,3.线性回归算法介绍,7.1 视频讲解,如何使用线性回归API预测某学生的期末成绩?,3.线性回归算法介绍,7.2 知识检测,from sklearn.linear_model import LinearRegression#1 获取数据x=80,86,78,80,92,94y=84.2,90,93.4#2 实例化一个估计器estimator=LinearRegression()-A#3 使用fit方法进行训练estimator.fit(x,y)-B#4 得出对应的系数print(线性回归的系数是:n,estimator.coef_)-C#5 得出预测结果print(输出预测结果:n,estimator.predict(100,80)-D,下列对某学生期末成绩预测的代码中有误的一项是?,答案:D。应为:estimator.predict(100,80),Section,章,节,线性回归的损失函数及优化数学:求导线性回归中损失函数的介绍使用正规方程对损失函数进行优化使用梯度下降法对损失函数进行优化梯度下降法方法介绍,4.线性回归的损失函数及优化,8.1 视频讲解,机器学习中常用的求导公式有哪些?,4.线性回归的损失函数及优化,8.2 知识检测,下列求导结果中正确的是?(多选),A),B),C),D),答案:ABCD。,Section,章,节,线性回归的损失函数及优化数学:求导线性回归中损失函数的介绍使用正规方程对损失函数进行优化使用梯度下降法对损失函数进行优化梯度下降法方法介绍,4.线性回归的损失函数及优化,9.1 视频讲解,什么是损失函数?,4.线性回归的损失函数及优化,9.2 知识检测,关于损失函数下列说法正确的是?(多选),A)损失函数(Loss Function)又被称为代价函数(Cost Function)B)它是模型输出(预测值)和观测结果(真实值)之间概率分布差异的量化C)线性回归的损失函数形如:D)线性回归采用的是最小二乘法来衡量模型的损失,答案:ABCD。,Section,章,节,线性回归的损失函数及优化数学:求导线性回归中损失函数的介绍使用正规方程对损失函数进行优化使用梯度下降法对损失函数进行优化梯度下降法方法介绍,4.线性回归的损失函数及优化,10.1 视频讲解,正规方程是如何推导出来的?,4.线性回归的损失函数及优化,10.2 知识检测,关于正规方程的说法正确的是(多选)?,A)它是线性回归中参数向量w的解析式,通过损失函数求解而来B)方阵 XTX 一定是可逆的C)使用正规方程求解最优参数时,它的计算规模随着数据维度的增加而增加D)X 是特征矩阵,y是预测值,答案:AC。,Section,章,节,线性回归的损失函数及优化数学:求导线性回归中损失函数的介绍使用正规方程对损失函数进行优化使用梯度下降法对损失函数进行优化梯度下降法方法介绍,4.线性回归的损失函数及优化,11.1 视频讲解,如何使用梯度下降法对线性回归的损失函数进行优化?,4.线性回归的损失函数及优化,11.3 答案解析,关于梯度下降说法正确的是?(多选),A)目的是求解一组权重 w 的值,使得关于 w 的函数 J(w)取得最小值B)梯度的本质是一个矢量C)沿着梯度的方向是函数值下降最快的方向D)权重的迭代公式中步长需要手动设定,不可过大或过小,答案:ABD。,Section,章,节,线性回归的损失函数及优化数学:求导线性回归中损失函数的介绍使用正规方程对损失函数进行优化使用梯度下降法对损失函数进行优化梯度下降法方法介绍,4.线性回归的损失函数及优化,12.1 视频讲解,其它常见的梯度下降方法有哪些?,4.线性回归的损失函数及优化,12.2 知识检测,下列关于其它常见的梯度下降方法的描述正确的是?,A)全梯度下降每次更新权重都要使用全部的数据集数据B)随机梯度下降每次更新权重只需要使用数据集中某一个样本的数据C)小批量梯度下降法综合了FGD和SGD的优势,缓解了两者的缺陷D)SAG在任何情况下都比其它梯度下降方法表现要好,答案:ABC。,Section,章,节,使用线性回归完成Boston房价预测线性回归api再介绍波士顿房价预测案例,5.使用线性回归完成Boston房价预测,13.1 视频讲解,使用不同优化方法的线性回归API有哪些?,5.使用线性回归完成Boston房价预测,13.2 知识检测,使用不同优化方法的线性回归API有哪些?,正规方程API:sklearn._.LinearRegression()梯度下降API:sklearn.linear_model._ 其中在梯度下降中我们可以通过 learning_rate 来设置 _ 的指定方式,答案:linear_model;SGDRegressor();学习率。,Section,章,节,使用线性回归完成Boston房价预测线性回归api再介绍波士顿房价预测案例,5.使用线性回归完成Boston房价预测,14.1 视频讲解,如何使用线性回归完成Boston房价预测?,5.使用线性回归完成Boston房价预测,14.2 知识检测,A)最小二乘法B)均方误差C)平均绝对误差D)决定性系数,以下哪个选项是用来评估线性回归模型的方法?,答案:B。,Section,章,节,欠拟合和过拟合产生的原因及其解决办法欠拟合和过拟合的介绍正则化线性模型岭回归介绍,6.欠拟合和过拟合产生的原因及其解决办法,15.1 视频讲解,如何解决欠拟合和过拟合问题?,6.欠拟合和过拟合产生的原因及其解决办法,15.2 知识检测,A)欠拟合:模型学习到的特征过少,无法准确的预测未知样本B)过拟合:模型学习到的特征过多,导致模型只能在训练样本上得到较好的预测结果,而在未知样本上的效果不好C)欠拟合可以通过增加特征来解决D)过拟合可以通过正则化、异常值检测、特征降维等方法来解决,下列关于欠拟合与过拟合的描述正确的是?,答案:ABCD。,Section,章,节,欠拟合和过拟合产生的原因及其解决办法欠拟合和过拟合的介绍正则化线性模型岭回归介绍,6.欠拟合和过拟合产生的原因及其解决办法,16.1 视频讲解,如何解决线性回归过拟合的问题?,6.欠拟合和过拟合产生的原因及其解决办法,16.3 知识检测,A)使用岭回归能够防止训练所得的模型发生过拟合 B)使用 Lasso 回归也能防止模型产生过拟合,这时所得模型的权重系数部分为0C)L2正则化能够让模型产生一些平滑的权重系数D)Early stopping 是当模型训练到某个固定的验证错误率阈值时,及时停止模型训练,下列关于过拟合问题的解决方式以及描述正确的是?,答案:ABCD。,Section,章,节,欠拟合和过拟合产生的原因及其解决办法欠拟合和过拟合的介绍正则化线性模型岭回归介绍,6.欠拟合和过拟合产生的原因及其解决办法,17.1 视频讲解,如何使用岭回归完成对Boston房价的预测?,6.欠拟合和过拟合产生的原因及其解决办法,17.2 知识检测,填空:,sklearn.linear_model.Ridge()岭回归的API中:alpha表示正则化系数,正则化系数越大,表示正则化力度 _,所得模型的权重系数 _;反之,所得模型的权重系数 _。sklearn.linear_model.SGDRegressor()使用随机梯度下降法优化的线性回归API:当它的参数 penalty 为 l2、参数 loss 为 squared_loss 时,达到的效果与上述的岭回归API相同,只不过 SGDRegressor 只能使用 _ 去优化损失,而 Ridge 的选择则更加丰富。,答案:越大;越小;越大。普通的随机梯度下降法,Section,章,节,算法模型的保存和加载模型保存和加载,7.算法模型的保存和加载,18.1 视频讲解,如何对训练好的模型进行保存和加载?,7.算法模型的保存和加载,18.2 知识检测,如何将训练好的模型进行保存和加载?(填空),from sklearn.externals import joblib 1)模型保存:joblib._(model,file_name)2)模型加载:estimator=joblib._(file_name),答案:dump;load。,