EM算法陆家嘴学堂邹博2/66陆家嘴学堂Python机器学习与深度学习主要内容通过实例直观求解高斯混合模型GMM适合快速掌握GMM,及编程实现通过最大似然估计详细推导EM算法适合理论层面的深入理解用坐标上升理解EM的过程推导GMM的参数φ、μ、σ复习多元高斯模型复习拉格朗日乘子法ArthurDempster,NanLaird,DonaldRubin,1977C.F.JeffWu(1983)给出了收敛的进一步分析3/66陆家嘴学堂Python机器学习与深度学习EMCode4/66陆家嘴学堂Python机器学习与深度学习复习:Jensen不等式:若f是凸函数基本Jensen不等式若则若则5/66陆家嘴学堂Python机器学习与深度学习引子:K-means算法K-means算法,也被称为k-平均或k-均值,是一种广泛使用的聚类算法,或者成为其他聚类算法的基础。假定输入样本为S=x1,x2,...,xm,则算法步骤为:选择初始的k个簇中心μ1μ2…μk将样本xi标记为距离簇中心最近的簇:更新簇中心:重复最后两步,直到满足终止条件。中止条件:迭代次数/簇中心变化率/最小平方误差MSEjikjixlabel1minargjciijjxc||16/66陆家嘴学堂Python机器学习与深度学习K-means过程7/66陆家嘴学堂Python机器学习与深度学习思考经典的K-means聚类方法,能够非常方便的将未标记的样本分成若干簇;但无法给出某个样本属于该簇的后验概率。其他方法可否处理未标记样本呢?8/66陆家嘴学堂Python机器学习与深度学习最大似然估计找出与样本的分布最接近的概率分布模型。简单的例子10次抛硬币的结果是:正正反正正正反反正正假设p是每次抛硬币结果为正的概率。则:得到这样的实验结果的概率是:最优解是:p=0.7371111ppppppppppppP9/66陆家嘴学堂Python机器学习与深度学习二项分布的最大似然估计投硬币试验中,进行N次独立试验,n次朝上,N-n次朝下。假定朝上的概率为p,使用对数似然函数作为目标函数:phpppnfnNn1log|NnppnNpnpph0110/66陆家嘴学堂Python机器学习与深度学习进一步考察若给定一组样本x1,x2…xn,已知它们来自于高斯分布N(μ,σ),试估计参数μ,σ。11/66陆家嘴学堂Python机器学习与深度学习按照MLE的过程分析高斯分布的概率密度函数:将Xi的样本值xi带入,得到:22221xexfnixiexL12222112/66陆家嘴学堂Python机器学习与...