分享
第20章潜在狄利克雷分布.pptx
下载文档

ID:3489818

大小:6.69MB

页数:106页

格式:PPTX

时间:2024-05-09

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
第20章 潜在狄利克雷分布 20 潜在 狄利克雷 分布
,第二十章潜在狄利克雷分配,潜在狄利克雷分配,潜在狄利克雷分配(latent Dirichlet allocation,LDA),作为基于贝叶斯学习的话题模型,是潜在语义分析、概率潜在语义分析的扩展,LDA 在文本数据挖掘、图像处理、生物信息处理等领域被广泛使用,潜在狄利克雷分配,LDA模型是文本集合的生成概率模型假设每个文本由话题的一个多项分布表示,每个话题由单词的一个多项分布表示特别假设文本的话题分布的先验分布是狄利克雷分布,话题的单词分布的先验分布也是狄利克雷分布先验分布的导入使LDA 能够更好地应对话题模型学习中的过拟合现象,潜在狄利克雷分配,LDA的文本集合的生成过程如下:首先随机生成一个文本的话题分布之后在该文本的每个位置,依据该文本的话题分布随机生成一个话题然后在该位置依据该话题的单词分布随机生成一个单词,直至文本的最后一个位置,生成整个文本。重复以 上过程生成所有文本。,潜在狄利克雷分配,LDA模型是含有隐变量的概率图模型模型中,每个话题的单词分布,每个文本的话题分布,文本的每个位置的话题是隐变量文本的每个位置的单词是观测变量LDA模型的学习与推理无法直接求解,通常使用吉布斯抽样(Gibbs sampling)和变分EM算法(variational EM algorithm),前者是蒙特卡罗法,而后者是近似算法。,狄利克雷分布,分布定义,1.多项分布多项分布(multinomial distribution)是一种多元离散随机变量的概率分布,是二项分布(binomial distribution)的扩展。假设重复进行n次独立随机试验,每次试验可能出现的结果有k种,第i种结果出现的概率为pi,第i种结果出现的次数为ni如果用随机变量 表示试验所有可能结果的次数,其中Xi表示第i种结果出现的次数,那么随机变量x服从多项分布,分布定义,当试验的次数n为1时,多项分布变成类别分布(categorical distribution)类别分布表示试验可能出现的k种结果的概率,分布定义,2.狄利克雷分布狄利克雷分布(Dirichlet distribution)是一种多元连续随机变量的概率分布,是贝塔分布((beta distribution)的扩展在贝叶斯学习中,狄利克雷分布常作为多项分布的先验分布使用,分布定义,分布定义,式中 是伽马函数,定义为具有性质当s是自然数时,有,分布定义,由于满足条件所以狄利克雷分布 存在于(k1)维单纯形上右图为二维单纯形上的狄利克雷分布狄利克雷分布的参数为,分布定义,令则狄利克雷分布的密度函数可以写成 是规范化因子,称为多元贝塔函数(或扩展的贝塔函数),分布定义,由密度函数的性质得即多元贝塔函数的积分表示,分布定义,3.二项分布和贝塔分布二项分布是多项分布的特殊情况,贝塔分布是狄利克雷分布的特殊情况二项分布是指如下概率分布。X为离散随机变量,取值为m,其概率质量函数为其中n和p(0p1)是参数,分布定义,贝塔分布是指如下概率分布,X为连续随机变量,取值范围为0,1,其概率密度函数为其中s0和t0是参数,是贝塔函数,定义为当然s,t是自然数时,,分布定义,当n为1时,二项分布变成伯努利分布(Bernoulli distribution)或0-1分布伯努利分布表示试验可能出现的2种结果的概率下图给出几种概率分布的关系。,共扼先验,狄利克雷分布有一些重要性质:(1)狄利克雷分布属于指数分布族(2)狄利克雷 分布是多项分布的共扼先验(conjugate prior),共扼先验,贝叶斯学习中常使用共扼分布如果后验分布与先验分布属于同类,则先验分布与后验分布称为共扼分布(conjugate distributions),先验分布称为共扼先验(conjugate prior)如果多项分布的先验分布是狄利克雷分布,则其后验分布也为狄利克雷分布,两者构成共扼分布作为先验分布的狄利克雷分布的参数又称为超参数使用共扼分布的好处是便于从先验分布计算后验分布,共扼先验,设 是由k个元素组成的集合。随机变量X服从W上的多项分布,其中和 是参数参数n为从W中重复独立抽取样本的次数,ni为样本中wi出现的次 数(i=1,2,k)参数 为 wi 出现的概率(i=1,2,k),共扼先验,将样本数据表示为D,目标是计算在样本数据D给定条件下参数 的后验概率。对于给定的样本数据D,似然函数是假设随机变量 服从狄利克雷分布,其中 为参数。则 的先验分布为,共扼先验,根据贝叶斯规则,在给定样本数据D和参数条件下,的后验概率分布是,共扼先验,可以看出先验分布和后验分布都是狄利克雷分布两者有不同的参数,所以狄利克雷分布是多项分布的共扼先验狄利克雷后验分布的参数等于狄利克雷先验分布参数 加上多项分布的观测,好像试验之前就已经观察到计数,因此也把叫做先验伪计数(prior pseudo-counts)。,潜在狄利克雷分配模型,基本想法,潜在狄利克雷分配(LDA)是文本集合的生成概率模型模型假设话题由单词的多项分布表示,文本由话题的多项分布表示,单词分布和话题分布的先验分布都是狄利克雷分布文本内容的不同是由于它们的话题分布不同,基本想法,LDA模型表示文本集合的自动生成过程:首先,基于单词分布的先验分布(狄利克雷分布)生成多个单词分布,即决定多个话题内容之后,基于话题分布的先验分布(狄利克雷分布)生成多个话题分布,即决定多个文本内容然后,基于每一个话题分布生成话题序列,针对每一个话题,基于话题的单词分布生成单词,整体构成一个单词序列,即生成文本重复这个过程生成所有文本,基本想法,文本的单词序列是观测变量,文本的话题序列是隐变量,文本的话题分布和话题的单词分布也是隐变量。,基本想法,LDA模型是概率图模型,其特点是以狄利克雷分布为多项分布的先验分布学习就是给定文本集合,通过后验概率分布的估计,推断模型的所有参数利用LDA进行 话题分析,就是对给定文本集合,学习到每个文本的话题分布,以及每个话题的单词分布。,基本想法,可以认为LDA是PLSA(概率潜在语义分析)的扩展相同点是两者都假设话题是单词的多项分布,文本是话题的多项分布不同点是LDA使用狄利克雷分布作为先验分布,而PLSA不使用先验分布(或者说假设先验分布是均匀分布)学习过程LDA基于贝叶斯学习,而PLSA基于极大似然估计LDA的优点是,使用先验概率分布,可以防止学习过程中产生的过拟合(over-fitting),模型定义,1.模型要素潜在狄利克雷分配(LDA)使用三个集合:单词集合文本集合,其中 wm 是一个单词序列话题集合,基本想法,每一个话题 zk 由一个单词的条件概率分布 p(w|zk)决定分布 p(w|zk)服从多项分布(严格意义上类别分布),其参数为参数 服从狄利克雷分布(先验分布),其超参数为。参数 是一个V维向量,其中 表示话题 zk 生成单词 wv 的概率所有话题的参数向量构成一个 K x V 矩阵。超参数 也是一个V维向量,基本想法,每一个文本 wm 由一个话题的条件概率分布 p(z|wm)决定分布 p(z|wm)服从多项分布(严格意义上类别分布),其参数为参数 服从狄利克雷分布(先验分布),其超参数为 参数 是一个K维向量,其中 表示文本 wm 生成话题 zk 的概率所有文本的参数向量构成一个 M x K 矩阵 超参数 也是一个K维向量每一个文本 wm 中的每一个单词 wmn 由该文本的话题分布 p(z|wm)以及所有话题的单词分布 p(w|zk)决定,基本想法,2.生成过程 LDA文本集合的生成过程如下:给定单词集合W,文本集合D,话题集合Z,狄利克雷分布的超参数 和,基本想法,(1)生成话题的单词分布随机生成K个话题的单词分布按照狄利克雷分布Dir()随机生成一个参数向量,作为话题 zk 的单词分布 p(wlzk)(2)生成文本的话题分布随机生成M个文本的话题分布按照狄利克雷分布Dir()随机生成一个参数向量,作为文本 wm 的话题分布 p(z|wm),基本想法,(3)生成文本的单词序列随机生成M个文本的Nm个单词首先按照多项分布 随机生成一个话题 zmn,zmn 然后按照多项分布 随机生成一个单词 wmn,wmn 文本 wm 本身是单词序列,对应着隐式的话题序列,LDA的文本生成算法,LDA的文本生成算法,LDA的文本生成过程中,假定话题个数K给定,实际通常通过实验选定狄利 克雷分布的超参数 和 通常也是事先给定的在没有其他先验知识的情况下,可以假设向量 和 的所有分量均为1,这时的文本的话题分布 是对称的,话题的单词分布 也是对称的。,概率图模型,LDA模型本质是一种概率图模型(probabilistic graphical model)下图为 LDA作为概率图模型的板块表示(plate notation),图中结点表示随机变量实心结点是观测变量空心结点是隐变量有向边表示概率依存关系矩形(板块)表示重复,板块内数字表示重复的次数。,概率图模型,图中LDA板块表示,结点 和 是模型的超参数结点 表示话题的单词分布的参数结点 表示文本的话题分布的参数结点 zmn 表示话题,结点 vmn 表示单词结点 指向结点,重复K次,表示根据超参数 生成K个话题的单词分布的参数 结点 指向结点,重复M次,表示根据超参数 生成M个文本的话题分布的参数 结点 指向结点 zmn,重复Nm次,表示根据文本的话题分布 生成 Nm 个话题 zmn 结点 zmn 指向结点wmn,同时K个结点 也指 向结点 wmn,表示根据话题 zmn 以及K个话题的单词分布 生成单词 wmn。,概率图模型,板块表示的优点是简洁,板块表示展开之后,成为普通的有向图表示有向图中结点表示随机变量,有向边表示概率依存关系。可以看出LDA是相同随机 变量被重复多次使用的概率图模型。,随机变量序列的可交换性,一个有限的随机变量序列是可交换的(exchangeable),是指随机变量的联合概率 分布对随机变量的排列不变这里 代表自然数1,2,.,N的任意一个排列。一个无限的随机变量序列是无限可交换((infinitely exchangeable)的,是指它的任意一个有限子序列都是可交换的如果一个随机变量序列 是独立同分布的,那么它们是无限 可交换的。反之不然。,随机变量序列的可交换性,随机变量序列可交换的假设在贝叶斯学习中经常使用根据De Finetti定理,任意一个无限可交换的随机变量序列对一个随机参数是条件独立同分布的即任意一个 无限可交换的随机变量序列 的基于一个随机参数Y的条件概率,等于基于这个随机参数Y的各个随机变量 的条件概率的乘积。,随机变量序列的可交换性,LDA假设文本由无限可交换的话题序列组成由De Finetti定理知,实际是假设文本中的话题对一个随机参数是条件独立同分布的所以在参数给定的条件下,文本中的话题的顺序可以忽略作为对比,概率潜在语义模型假设文本中的话题是独立同分布的,文本中的话题的顺序也可以忽略,概率公式,LDA模型整体是由观测变量和隐变量组成的联合概率分布,可以表为观测变量 w 表示所有文本中的单词序列隐变量 z 表示所有文本中的话题序列隐变量 表示所有文本的话题分布的参数隐变量 表示所有话题的单词分布的参数 和 是超参数,概率公式,表示超参数 给定条件下第k个话题的单词分布的参数 的生成概率 表示超参数 给定条件下第m个文本的话题分布的参数 的生成概率,表示第m个文本的话题分布 给定条件下文本的第n个位置的话题 zmn 的生成概率 表示在第m个文本的第n个位置的话题 zmn 及所有话题的单词分布的参数 给定条件下第m个文本的第n个位置的单词 wmn 的生成概率,概率公式,第m个文本的联合概率分布可以表为其中 wm 表示该文本中的单词序列,zm 表示该文本的话题序列,表示该文本的话 题分布参数。LDA模型的联合分布含有隐变量,对隐变量进行积分得到边缘分布,概率公式,参数 和 给定条件下第m个文本的生成概率是超参数 和 给定条件下第m个文本的生成概率是超参数 和 给定条件下所有文本的生成概率是,LDA的吉布斯抽样算法,LDA的吉布斯抽样算法,潜在狄利克雷分配(LDA)的学习(参数估计)是一个复杂的最优化问题,很难精确求解,只能近似求解常用的近似求解方法有吉布斯抽样(Gibbs sampling)和变分 推理(variational inference),基本想法,

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开