贝叶斯分析基础——可信度、模型和参数

贝叶斯分析基础——可信度、模型和参数,第1张

Doing Bayesian Data Analysis 学习笔记

假设某一天我们出门之后发现外面路面是湿的,并且我们想知道是什么原因导致这样的现象。导致路面湿的可能性有很多,比如之前下过雨,有洒水车路过,有人把自己喝的水撒掉了等等。如果到这个时候除了路面湿这个现象,其他的所有信息我们都不知道,那么我们就会基于先前的知识来给各种可能性分配一个可信度。比如说这个地区几十年没有下过雨,我们就知道这个地方下雨的可能性不太大;或者我们知道每天这个时间点之前一段时间洒水车会经过,洒水车导致路面湿的可能性就相对较大。这种基于先前知识产生的对各种可能性的认识就是先验信念。

我们继续在路边走,突然发现了一些新的证据:路面上只有洒水车能够洒到的地方是湿的,其他地方比如人行道是干的,这个时候我们就会重新调整我们的信念,我们会给各种可能的原因重新分配可信度,比如说下雨导致路面湿的概率会更低,而洒水车导致路面湿的概率会增加。

贝叶斯推论就是在各种可能性之间重新分配 可信度 ( 概率 )的过程,我们基于先验信念,结合我们获得的证据调整我们的信念,并获得我们对各种可能性的概率的新的信念,也叫后验分布。如果我们又收集到了新的证据,那么先前的后验分布就会变成先验,我们再基于这个新的先验调整我们的信念。

科学研究中所有测试都是带有随机性的,即使我们非常严格的控制各种无关变量的影响,但是依旧存在很多无关因素干扰测量结果。因此,数据和潜在的原因之间的关系具有概率性质,有可能是由于某种潜在的原因导致我们观测到这样的数据,但是也有可能是由于随机因素导致我们观察到这样的数据结果。

以一个新药药效测试为例,假设我们想要检测一种新药能否有效降低血压,所以我们将被试随机分为两组,实验组服用药品,控制组服用安慰剂,并且采用双盲程序。每天我们都会在固定时间点测试被试的血压水平,我们可以想象到,一个被试的血压水平在一天中也会受到很多因素的影响, 比如说运动、焦虑、饮食等。更何况,血压是通过测量佩戴一个加压的血压仪之后的血流的声音来计算得到的,这个测量过程本身就存在误差。血压值也存在比较大的个体差异,所以我们最终得到的数据可能会比较混乱,控制组和实验组的测量结果均存在较大的变异(方差较大);两个组的结果分布也可能会存在重叠部分,实验组的某些个体血压可能会高于控制组。基于这两组分散的且相互重叠的数据结果,我们想要推论控制组和实验组有多大的差异,并且我们能否确定这个差异是真实存在的。 但问题的关键在于,控制组和实验组的差异测量结果是带有随机性的,也就是说我们的数据是有噪音的。

所有的科学数据都带有某种程度的噪音,而数据分析就是根据携带噪音的数据推断潜在的趋势。贝叶斯推论不能完全排除其他可能性,但是我们可以 通过数据逐渐调整不同可能性的可信度 。可信度的分布最初反映的是关于可能性的先验知识,这个分布是一个比较模糊的分布;但是当获得一批数据后,不同可能性的可信度重新分配,与数据一致的可能性的可信度增加,与数据不匹配的可能性的可信度降低。

贝叶斯统计推论是一个在各种可能性间不断分配可信度的过程,这里所说的可能性实际上就是描述性模型的参数值。

在降压药的例子中,我们想要确定降压药是否能够有效地降低血压水平,就要对比实验组和控制组的血压差异。最终我们可能会选择两个组在操作前后血压变化的平均值的差值作为这组数据的描述性模型:

上式中 代表A情况下所有被试血压的平均值, 能够有效反映降压药是否有效,如果 比较大(大于零),则说明降压药确实能够有效降低血压。

但是由于各种无关因素的影响,导致我们并没有100%的把握说我们最后的测量结果就恰好等于实际的 ,所以我们就只能基于我们的测量结果进行推断,给每一个可能的 分配一个可信度。

一般情况下,数据分析都是从数据的某个或某些描述性统计量出发的,这些描述性统计量(比如平均值)是能够描述数据特征的数学公式。这些公式是能够计算出具体数值的,比如说平均值为3,这个值就叫做参数值。例如我们用一个正态分布来描述数据,则平均值和标准差两个参数就能够确定数据的特征,平均值决定正态分布的位置,而标准差决定正态分布的宽度。

在选择描述数据的数学模型的时候,首先要满足两个要求:

数据的数学模型并不等同于数据的产生过程。 比如说一个服从均值为10、标准差为5的正态分布的数据,只能说数据的表现形式为该正态分布,但是数据的一个物理产生过程却不一定与正态分布有关。

实例:

假设我们现在想要探究人们身高和体重之间的关联,基于日常经验我们猜想人的身高越高,体重也越大,但是我们想知道体重随着身高的具体数量变化关系是怎样的,并且当身高增加时,我们有多大的把握确定体重的确按照这样的数量关系增加?

第一步是确定研究相关的数据 。假设我们现在能够收集到57个成年人的身高和体重数据,57个成人年从研究总体中随机抽样。身高的单位为英寸,体重为磅,均为连续变量。在这个例子中我们想要用身高来预测体重。

第二步是确定数据的描述性模型 ,这个模型与我们的研究目的相对应。在这个例子中,我们假设身高和体重成正比,记体重为 ,身高的预测值为 ,则有:

系数 代表身高增加1英寸时的体重增加量,基线 代表人的身高为0时的体重量,事实上由于人的身高下限高于0,所以不必严格限制 。

这个模型还并不完整,我们哈需要描述真实体重的随机误差,为了简便,我们假设体重真实值 服从以预测值 为均值、以 为标准差的正态分布:

整个模型有三个参数:斜率 、截距 、噪音的标准差 。三个参数都是具有意义的,斜率参数代表高度增长一英寸对应的体重增长值,标准差参数反映体重围绕着预测值的分散程度(变异程度)。

第三步是确定参数的先验分布。 我们可以依据先前的研究结果来生成参数的先验分布,或者我们可以依据一些得到较多人认可的实践经验来生成先验分布。在这个例子中,我们采用比较模糊的、不蕴含信息量的先验,斜率和截距的所有可能取值的先验可信度相同,且可能取值的范围均以0为中心,噪音参数的先验分布为0到一个比较大的值的均匀分布。这种模糊的先验分布暗示其对后验分布并没有任何有方向的影响。

第四步是得到后验分布。 贝叶斯推论会针对众多的参数值重新分配可信度,最终得到的后验分布与实验数据具有一致性。下图展示了参数 的后验分布,注意下图展示的并不是实验数据的分布,而是参数的分布。可以看出,可信度最高的斜率参数大约为41。下图同样展示了估计的参数值的不确定性,一种描述不确定性的方法是计算置信度最高的、包含分布95%的参数值的跨度,即下图中的黑色横线所表示的区间。这个区间称为最大密度区间( highest density interval , HDI)。95%HDI里面的参数值比之外的参数值具有更高的可信度,基于57对数据的95%HDI为 ,如果样本量增加,斜率的估计将会更加准确,即HDI会更窄。

第五步是对模型进行检验, 即检验可信度最高的一些参数能够足够好地描述数据。这一项工作也叫后验预测检验(posterior predictive check)。由于系统误差的定义方法有很多,所以用来检验模型是否系统性的偏离数据的方法也有很多。

如果检验结果发现真实数据系统性的偏离模型的预测,那么我们就应该考虑其他模型。在这个例子中,如果数据表现出非线性趋势,那么就应该选择非线性模型来描述数据。

(一)客观贝叶斯分析(objective Bayesian analysis)

将贝叶斯分析当做主观的理论是一种普遍的观点,但这无论在历史上,还是在实际中都不是非常准确的。第一个贝叶斯学家,贝叶斯学派的创始人托马斯·贝斯和拉普莱斯进行贝叶斯分析时,对未知参数使用常数先验分布。事实上,在统计学的发展中,这种被称为“逆概率”(inverse probability)的方法在19世纪非常具有代表性,而且对19世纪初的统计学产生了巨大的影响。对使用常数先验分布的批评,使得杰弗里斯(Jeffreys)对贝叶斯理论进行了具有非常重大意义的改进。伯杰(Berger,1999)认为,大多数贝叶斯应用研究学者都受过拉普莱斯一杰弗里斯(Laplace-Jefferys)贝叶斯分析客观学派的影响,当然在具体应用上也可能会对其进行现代意义下的改进。

许多贝叶斯学者的目的是想给自己贴上“客观贝叶斯”的标签,这种将经典统计分析方法当做真正客观的观点是不正确的。对此,伯杰(1999)认为,虽然在哲学层面上同意上述观点,但他觉得这里还包含很多实践和社会学中的原因,使得人们不得已使用这个标签。他强调,统计学家们应该克服那种用一些吸引人的名字来对自己所做的工作大加赞赏的不良习惯。

客观贝叶斯学派的主要内容是使用无信息先验分布(noninformativeor default prior distribution)。其中大多数又是使用杰弗里斯先验分布。最大嫡先验分布(maximumentropy priors)是另一种常用的无信息先验分布(虽然客观贝叶斯学派也常常使用一些待分析总体的已知信息,如均值或方差等)。在最近的统计文献中经常强调的是参照先验分布(reference priors)(Bernardo 1979;Yang and Bergen 1997),这种先验分布无论从贝叶斯的观点,还是从非贝叶斯的观点进行评判,都取得了显著的成功。

客观贝叶斯学派研究的另一个完全不同的领域是研究对“默认”模型(defaultmodel)的选择和假设检验。这个领域有着许多成功的进展(Berger,1999),而且,当对一些问题优先选择默认模型时,还有许多值得进一步探讨的问题。

经常使用非正常先验分布(improper priordistribution)也是客观贝叶斯学派面临的主要问题,这不能满足贝叶斯分析所要求的一致性(coherency)。同样,一个选择不适当的非正常先验分布可能会导致一个非正常的后验分布,这就要求贝叶斯分析过程中特别要对此类问题加以重视,以避免上述问题的产生。同样,客观贝叶斯学派也经常从非贝叶斯的角度进行分析,而且得出的结果也非常有效。

(五)拟(准)贝叶斯分析(quasi Bayesian analysis )

有一种目前不断在文献中出现的贝叶斯分析类型,它既不属于“纯”贝叶斯分析,也不同于非贝叶斯分析。在这种类型中,各种各样的先验分布的选取具有许多特别的形式,包括选择不完全确定的先验分布(vague proper priors);选择先验分布似然函数的范围进行“扩展”(span);对参数不断进行调整,从而选择合适的先验分布使得结论看起来非常完美。伯杰称之为拟(准)贝叶斯分析,因为虽然它包含了贝叶斯的思想,但它并没有完全遵守主观贝叶斯或客观贝叶斯在论证过程中的规范要求。

拟(准)贝叶斯方法,伴随着MCMC方法的发展,已经被证明是一种非常有效的方法,这种方法可以在使用过程中,不断产生新的数据和知识。虽然拟(准)贝叶斯方法还存在许多不足,但拟(准)贝叶斯方法非常容易创造出一些全新的分析过程,这种分析过程可以非常灵活地对数据进行分析,这种分析过程应该加以鼓励。对这种分析方法的评判,不必要按照贝叶斯内在的标准去衡量,而应使用其他外在的标准去判别(例如敏感性、模拟精度等)。

-----------学文

A 在另外一个事件 B 已经发生条件下的发生概率

贝叶斯公式:

不知道B事件的前提下,我们对A事件概率的一个主观判断。

对应这个例子里就是在不知道女神经常对你笑的前提下,来主观判断出女神喜欢一个人的概率。这里我们假设是50%,也就是不喜欢你,可能不喜欢你的概率都是一半。

这是一个调整因子,也就是将先验概率(之前的主观判断)调整到更接近真实概率。

可能性函数你可以理解为新信息过来后,对先验概率的一个调整。比如我们刚开始看到“人工智能”这个信息,你有自己的理解(先验概率-主观判断),但是当你学习了一些数据分析,或者看了些这方面的书后(新的信息),然后你根据掌握的最新信息优化了自己之前的理解(可能性函数-调整因子),最后重新理解了“人工智能”这个信息(后验概率)如果"可能性函数"P(B|A)/P(B)>1,意味着"先验概率"被增强,事件A的发生的可能性变大;如果"可能性函数"=1,意味着B事件无助于判断事件A的可能性;如果"可能性函数"<1,意味着"先验概率"被削弱,事件A的可能性变小。

B事件发生之后,我们对A事件概率的重新评估。

这个例子里就是在女神冲你笑后,对女神喜欢你的概率重新预测。带入贝叶斯公式计算出P(A|B)=P(A) P(B|A)/P(B)=50% 15=75%因此,女神经常冲你笑,喜欢上你的概率是75%。这说明,女神经常冲你笑这个新信息的推断能力很强,将50%的"先验概率"一下子提高到了75%的"后验概率"。

它是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯,是因为它 假设每个输入变量是独立的 。这是一个强硬的假设,实际情况并不一定

1)计算 最大的

即最大的

即最大的

2)

朴素贝叶斯分类常用于文本分类,尤其是对于英文等语言来说,分类效果很好。它常用于垃圾文本过滤、情感预测、推荐系统等。

MultinomialNB(, alpha=10, fit_prior=True, class_prior=None)

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/3836644.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-08-18
下一篇2023-08-18

发表评论

登录后才能评论

评论列表(0条)

    保存