指数分布的期望和方差(机器学习和深度学习中的概率分布)

指数分布的期望和方差(机器学习和深度学习中的概率分布)

文档资料源码请私信或移步官W上获取

在贝叶斯影响下,概率分布被大量用于解决棘手的问题。在讨论了正态分布之后,我们将介绍其他基本分布和更高级的分布,包括 Beta 分布、Dirichlet 分布、Poisson 分布和 Gamma 分布。我们还将讨论包括共轭先验、指数分布族和矩量法在内的主题。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

伯努利分布

指数分布的期望和方差(机器学习和深度学习中的概率分布)

伯努利分布是单个二进制随机变量X ∈ {0, 1} 的离散分布,概率分别为 1- θ和θ。例如,抛硬币时,正面的机会为θ。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

伯努利分布的期望值和方差为:

指数分布的期望和方差(机器学习和深度学习中的概率分布)

二项分布

二项分布是独立伯努利试验的汇总结果。例如,我们抛硬币N次并模拟出现x次正面的机会。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

指数分布的期望和方差(机器学习和深度学习中的概率分布)

二项分布的期望值和方差为:

指数分布的期望和方差(机器学习和深度学习中的概率分布)

分类分布

伯努利分布有两种可能的结果。在分类分布中,我们有K个可能的结果,概率分别为 p₁、p₂、p₃、...和pk。所有这些概率加起来为 1。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

多项分布

多项分布是二项分布的推广。它有k个可能的结果,而不是两个结果。如果二项分布对应于伯努利分布,则多项分布对应于分类分布。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

假设这些结果分别与概率θ₁、θ₂、…和θk相关联。我们收集大小为N的样本,xᵢ表示结果i的计数。联合概率为

指数分布的期望和方差(机器学习和深度学习中的概率分布)

多项分布的期望值和方差为:

指数分布的期望和方差(机器学习和深度学习中的概率分布)

贝塔分布

对于伯努利分布或二项分布,我们如何对θ的值进行建模?例如,如果发现了一种新病毒,我们可以使用概率分布来模拟感染概率θ吗?

贝塔分布是在有限的值区间上的连续随机变量上的分布。它通常用于模拟一些二元事件的概率,如θ。该模型有两个影响分布形状的正参数α和β 。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

当我们对新病毒一无所知时,我们可以设置α = β = 1 以实现均匀分布,即θ ∈ 的任何可能概率值都是等可能的。这是我们的先决条件。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

α = β = 1 用于均匀分布

然后我们可以将贝叶斯推理与由二项分布建模的似然性应用。后验将是一个 beta 分布,也对α和β进行了更新。给定观察到的数据,这将成为新的感染率分布,并在观察到新样本时充当新的先验。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

数学上,β分布定义为:

指数分布的期望和方差(机器学习和深度学习中的概率分布)

beta 函数B将 RHS 归一化为概率分布。

这个定义看起来很复杂,但是当它用于贝叶斯推理时,计算变得非常简单。假设 CDC 报告了N个人中的x 个新感染病例。应用贝叶斯定理,后验将是:

指数分布的期望和方差(机器学习和深度学习中的概率分布)

即,我们只需将新的正数添加到α并将新的负数 ( Nx ) 添加到β。

贝塔分布的期望值和方差为

指数分布的期望和方差(机器学习和深度学习中的概率分布)

狄利克雷分布

在前面的贝叶斯推理示例中,似然性由二项分布建模。我们将它与 beta 分布(先验)合作,以轻松计算后验。对于具有多项分布的似然性,对应的分布是狄利克雷分布。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

狄利克雷分布定义为:

指数分布的期望和方差(机器学习和深度学习中的概率分布)

这个随机过程有K个结果,相应的 Dirichlet 分布将由K分量α参数化。

与 beta 分布类似,它与相应似然的相似性使得后验计算变得容易。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

Dirichlet 分布的期望值和方差为:

指数分布的期望和方差(机器学习和深度学习中的概率分布)

泊松分布

泊松分布对给定数量的事件在固定时间间隔内发生的概率进行建模。它模拟泊松过程,其中事件以恒定的平均速率独立且连续地发生。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

如图所示,如果事件相对罕见,二项分布可以简化为泊松分布。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

假设泊松过程是无记忆的——过去不会影响任何未来的预测。无论上一个事件发生在 1 分钟前还是 5 小时前,下一个事件的平均等待时间都是相同的。

泊松分布的期望值和方差为:

指数分布的期望和方差(机器学习和深度学习中的概率分布)

指数分布

指数分布是泊松过程中下一个事件发生之前等待时间的概率分布。如下右图所示,对于 λ = 0.1(速率参数),等待超过 15 的几率为 0.22。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

在数学上,它被定义为:

指数分布的期望和方差(机器学习和深度学习中的概率分布)

指数分布的期望值和方差为:

指数分布的期望和方差(机器学习和深度学习中的概率分布)

狄拉克分布

狄拉克 δ 分布(δ分布)可以被认为是在x = 0处具有窄峰的函数。具体而言,δ ( x ) 在除x = 0之外的所有地方都具有零值,并且峰下的面积(积分)是 1。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

该函数对于高窄尖峰函数(脉冲)或概率分布中的某些确定性值是有用的近似值。它帮助我们将一些模型转换为数学方程。

回顾

以下是所讨论的一些概率分布的回顾。

指数分布的期望和方差(机器学习和深度学习中的概率分布)


伽玛分布

指数分布和卡方分布是伽马分布的特例。伽马分布可以被认为是具有指数分布的k个独立随机变量的总和。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

直观地说,它是第k个 事件发生的等待时间的分布。

指数分布的期望和方差(机器学习和深度学习中的概率分布)


这是伽马分布的数学定义。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

根据上下文,伽马分布可以用两种不同的方式参数化。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

α (aka k ) 参数化 gamma 分布的形状,而β参数化尺度。正如中心定理所建议的,随着k的增加,伽马分布类似于正态分布。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

当我们改变β时,形状保持不变,但x和y轴的比例发生变化。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

Gamma 分布的期望和方差为:

指数分布的期望和方差(机器学习和深度学习中的概率分布)

先验共轭

如前所述,如果我们巧妙地将似然分布和先验分布配对,我们可以使贝叶斯推理变得易于处理。

在贝叶斯推理中,如果相应的后验属于先验的同一类分布,则先验是共轭先验。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

例如,beta 分布是二项分布(可能性)之前的共轭。使用贝叶斯定理计算的后验也是贝塔分布。这里有更多共轭先验的例子。

指数分布的期望和方差(机器学习和深度学习中的概率分布)


充分的统计

根据定义,当一个分布写成

指数分布的期望和方差(机器学习和深度学习中的概率分布)

T ( x ) 称为充分统计量。

这是一个应用于泊松分布的示例。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

T( x ) 在x ⱼ 上求和。

充分统计的意义在于,根据x₁、x₂、x₃、……计算的其他统计量不会提供任何附加信息来估计分布参数θ。如果我们知道T ( x ),我们就有足够的信息来估计θ。不需要其他信息。我们不需要保留x₁, x₂, x₃, …来构建模型。例如,给定一个由θ(又名 λ)建模的泊松分布,我们可以通过将T ( x )除以n来估计θ。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

指数分布族

正态分布、伯努利分布、伽玛分布、贝塔分布、狄利克雷分布、指数分布、泊松分布和许多其他分布都属于称为指数族的分布族。它的形式为

指数分布的期望和方差(机器学习和深度学习中的概率分布)

以下是二项式和泊松分布的指数族形式,由h ( x )、η、T ( x ) 和A表示。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

从源代码修改

我们可以将参数θ和自然参数η相互转换。例如,可以使用逻辑函数从相应的自然参数η计算伯努利参数θ 。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

这是以指数族的形式编写正态分布的另一个示例。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

这种抽象概括的优点是什么?

指数族为解决其分布族的问题提供了一个通用的数学框架。例如,计算泊松分布的期望值可能很困难。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

相反,对于A,指数族的所有期望值都可以相当容易地计算出来。如下左图所示,A'( η ) 等于T ( x )的期望值。由于泊松分布中的T ( x ) = x和λ = exp( η ) 和A ( λ) = λ = exp( η ) ,我们对 A( η ) 进行微分以找到 。这等于λ。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

这个分布族在贝叶斯分析中也有很好的特性。如果似然属于指数族,则存在通常是指数族的共轭先验。如果我们有一个指数族写成

指数分布的期望和方差(机器学习和深度学习中的概率分布)

由 γ 参数化的共轭先验将具有形式

指数分布的期望和方差(机器学习和深度学习中的概率分布)

由γ建模的共轭先验将具有一个额外的自由度。例如,伯努利分布有一个由θ建模的自由度。相应的 beta 分布将具有由α和β建模的两个自由度。

以指数族的形式考虑下面的伯努利分布,

指数分布的期望和方差(机器学习和深度学习中的概率分布)

我们可以定义(或猜测)

指数分布的期望和方差(机器学习和深度学习中的概率分布)

我们得到

指数分布的期望和方差(机器学习和深度学习中的概率分布)

即β分布是伯努利分布之前的共轭。

最大熵原理

可能有无限的模型可以精确地拟合先验数据(先验知识)。最大熵原理断言最能代表系统的概率分布是具有最大熵的系统。在信息论中,随机变量的熵衡量了可能结果所固有的“惊喜”。根据这一原则,我们避免对可能的情况施加不必要的额外约束,因为约束会降低系统的熵。

许多分布可以满足由充分统计施加的约束。但是我们可以选择的那个是熵最高的那个。可以证明,指数族具有与给定充分统计约束一致的最大熵分布。

第 K 时刻

矩定量地描述了函数的形状。如果函数f是概率分布,则零矩为总概率(=1),第一矩为均值。对于第二个和更高的矩,中心矩提供了关于分布形状的更好信息。第二个中心矩是方差,第三个标准化矩是偏度,第四个矩是峰度。

指数分布的期望和方差(机器学习和深度学习中的概率分布)


函数f的第k个矩或第k个原始矩定义为

指数分布的期望和方差(机器学习和深度学习中的概率分布)

这个时刻被称为关于零的时刻。但是,如果我们先用平均值减去x,它将被称为中心矩。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

k阶矩等于 A(η) 的k阶导数。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

矩量法

我们如何通过抽样来估计模型参数?我们如何用q*对人口密度p建模?在矩匹配中,我们从样本数据中计算矩,这样它们的足够统计量的期望就会匹配。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

考虑一个简单的零中心分布模型f,由θ参数化,T ( X ) =x。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

第一个和第二个理论矩是:

指数分布的期望和方差(机器学习和深度学习中的概率分布)

从源代码修改

二阶样本矩为:

指数分布的期望和方差(机器学习和深度学习中的概率分布)

通过让样本矩等于理论矩,我们得到σ(采样σ)的估计值。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

但总的来说,整合并不容易。但是我们可以使用A的导数来计算矩并求解分布参数。例如,在 gamma 分布中,其参数α和β可以从样本均值和方差估计。

指数分布的期望和方差(机器学习和深度学习中的概率分布)

指数分布的期望和方差(机器学习和深度学习中的概率分布)

文档资料源码请私信或移步官W上获取