ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

统计推断(六) Modeling

2020-02-04 09:03:04  阅读:297  来源: 互联网

标签:推断 right cdot max px py mathcal Modeling 统计


1. Modeling problem

  • formulation

    • a set of distributions
      P={py(;x)Py:xX} \mathcal{P}=\left\{p_{\mathrm{y}}(\cdot ; x) \in \mathcal{P}^{y}: x \in \mathcal{X}\right\} P={py​(⋅;x)∈Py:x∈X}

    • approximation
      minqPymaxxXD(py(;x)q()) \min _{q \in \mathcal{P}^{y}} \max _{x \in \mathcal{X}} D\left(p_{\mathrm{y}}(\cdot ; x) \| q(\cdot)\right) q∈Pymin​x∈Xmax​D(py​(⋅;x)∥q(⋅))

  • solution

Theorem: 对任意 qPyq \in \mathcal{P}^{y}q∈Py 都存在一个混合模型 qw()=xXw(x)py(;x)q_w(\cdot) = \sum_{x \in \mathcal{X}} w(x) p_{y}(\cdot ; x)qw​(⋅)=∑x∈X​w(x)py​(⋅;x) 满足
D(py(;x)qw())D(py(;x)q()) for all xX D\left(p_{y}(\cdot ; x) \| q_{w}(\cdot)\right) \leq D\left(p_{y}(\cdot ; x) \| q(\cdot)\right) \quad \text { for all } x \in \mathcal{X} D(py​(⋅;x)∥qw​(⋅))≤D(py​(⋅;x)∥q(⋅)) for all x∈X
Proof: 应用 Pythagoras 定理

然后很容易有
maxxXminqPyD(py(;x)q())=maxxX0=0 \max _{x \in \mathcal{X}} \min _{q \in \mathcal{P}^{y}} D\left(p_{y}(\cdot ; x) \| q(\cdot)\right)=\max _{x \in \mathcal{X}} 0=0 \\ x∈Xmax​q∈Pymin​D(py​(⋅;x)∥q(⋅))=x∈Xmax​0=0

minqPmaxxXD(py(;x)q())=minqPmaxwPXxw(x)D(py(;x)q()) \min _{q \in \mathcal{P}} \max _{x \in \mathcal{X}} D\left(p_{\mathrm{y}}(\cdot ; x) \| q(\cdot)\right)=\min _{q \in \mathcal{P}} \max _{w \in \mathcal{P}^{\mathcal{X}}} \sum_{x} w(x) D\left(p_{\mathrm{y}}(\cdot ; x) \| q(\cdot)\right) q∈Pmin​x∈Xmax​D(py​(⋅;x)∥q(⋅))=q∈Pmin​w∈PXmax​x∑​w(x)D(py​(⋅;x)∥q(⋅))

Theorem (Redundancy-Capacity Theorem): 以下等式成立,且两侧最优的 w,qw,qw,q s是相同的
R+minqPYmaxwPXxw(x)D(py(;x)q())=maxwPminqPxw(x)D(py(;x)q())R \begin{aligned} R^{+} \triangleq \min _{q \in \mathcal{P}^{\mathcal{Y}}} \max _{w \in \mathcal{P}^{\mathcal{X}}} & \sum_{x} w(x) D\left(p_{\mathrm{y}}(\cdot ; x) \| q(\cdot)\right) \\ &=\max _{w \in \mathcal{P}} \min _{q \in \mathcal{P}} \sum_{x} w(x) D\left(p_{\mathrm{y}}(\cdot ; x) \| q(\cdot)\right) \triangleq R^{-} \end{aligned} R+≜q∈PYmin​w∈PXmax​​x∑​w(x)D(py​(⋅;x)∥q(⋅))=w∈Pmax​q∈Pmin​x∑​w(x)D(py​(⋅;x)∥q(⋅))≜R−​
Proof:

  1. 利用后面的 Equidistance property 证明 R+RR^+ \le R^-R+≤R−
  2. 根据 minimax 和 maxmini 的性质,有 R+RR^+ \ge R^-R+≥R−
  3. 一定有 R+RR^+ \ge R^-R+≥R−
  4. 证明两个不等式的取等条件是在同样的 w,qw,qw,q 处取到

2. Model capacity

首先计算 RR^-R− 内部的 min
minqPYxw(x)D(py(;x)q())=minqPYx,yw(x)py(y;x)logpy(y;x)q(y)= constant maxqPYyqw(y)logq(y)= constant maxqPYEqw[logq(y)] \begin{aligned} & \min _{q \in \mathcal{P}^{\mathcal{Y}}} \sum_{x} w(x) D\left(p_{\mathbf{y}}(\cdot ; x) \| q(\cdot)\right) \\=& \min _{q \in \mathcal{P}^{\mathcal{Y}}} \sum_{x, y} w(x) p_{\mathbf{y}}(y ; x) \log \frac{p_{y}(y ; x)}{q(y)} \\=& \text { constant }-\max _{q \in \mathcal{P}^{\mathcal{Y}}} \sum_{y} q_{w}(y) \log q(y) \\=& \text { constant }-\max _{q \in \mathcal{P}^{\mathcal{Y}}} \mathbb{E}_{q_{w}}[\log q(y)] \end{aligned} ===​q∈PYmin​x∑​w(x)D(py​(⋅;x)∥q(⋅))q∈PYmin​x,y∑​w(x)py​(y;x)logq(y)py​(y;x)​ constant −q∈PYmax​y∑​qw​(y)logq(y) constant −q∈PYmax​Eqw​​[logq(y)]​
根据 Gibbs 不等式
q()=qw()xXw(x)py(;x) q^*(\cdot) = q_{w}(\cdot) \triangleq \sum_{x \in \mathcal{X}} w(x) p_{y}(\cdot ; x) q∗(⋅)=qw​(⋅)≜x∈X∑​w(x)py​(⋅;x)
再考虑 RR^-R− 外部的 max,此时可以转化为 Bayesian 角度!
$$
\begin{aligned} R^{-} &=\max {w \in \mathcal{P}^{\mathcal{X}}} \sum{x} w(x) D\left(p_{y}(\cdot ; x) | q_{w}(\cdot)\right) \ &=\max {w \in \mathcal{P}^{\mathcal{X}}} \sum{x, y} w(x) p_{y}(y ; x) \log \frac{p_{y}(y ; x)}{\sum_{x^{\prime}} w\left(x^{\prime}\right) p_{y}\left(y ; x^{\prime}\right)} \

&\overset{\text{Bayesian}}{=}\max {p{\mathbf{x}}} \sum_{x} p_{\mathbf{x}}(x) D\left(p_{y | \mathbf{x}}(\cdot | x) | p_{y}(\cdot)\right) \ &=\max {p{\mathbf{x}}} \sum_{x, y} p_{\mathbf{x}}(x) p_{\mathbf{y} | \mathbf{x}}(y | x) \log \frac{p_{y | x}(y | x)}{p_{\mathbf{y}}(y)} \ &=\max {p{\mathbf{x}}} \sum_{x, y} p_{\mathbf{x}, \mathbf{y}}(x, y) \log \frac{p_{\mathbf{x}, \mathbf{y}}(x, y)}{p_{\mathbf{x}}(x) p_{y}(y)}=\max {p{\mathbf{x}}} I(x ; y)=C
\end{aligned}
KaTeX parse error: Can't use function '$' in math mode at position 24: …ition**: 对一个模型 $̲p_{\mathsf{y|x}…
C \triangleq \max {p{x}} I(x ; y)
$$

  • Model capacity: C
  • least informative prior: pxp_x^*px∗​

Theorem(Equidistance property): C对应的最优的 pp^*p∗ 和 ww^*w∗ 满足
D(py(;x)q())C     xX D(p_y(\cdot;x)||q^*(\cdot)) \le C \ \ \ \ \ \forall x\in\mathcal{X} D(py​(⋅;x)∣∣q∗(⋅))≤C     ∀x∈X
其中等号对于满足 w(x)>0w^*(x)>0w∗(x)>0 的 x 成立

Proof:

  1. I(x,y)I(x,y)I(x,y) 关于 px(a)  ap_x(a)\ \ \forall apx​(a)  ∀a 是 concave 的
  2. 构造拉格朗日函数 L=I(x,y)λ(xpx(x)1)\mathcal{L}=I(x,y) - \lambda(\sum_x p_x(x)-1)L=I(x,y)−λ(∑x​px​(x)−1),也关于 px(a)p_x(a)px​(a) concave
  3. minpxI(x,y)\min_{p_x}I(x,y)minpx​​I(x,y) 的极值点应满足 I(x;y)px(a)px=pxλ=0, for all aX such that px(a)>0\left.\frac{\partial I(x ; y)}{\partial p_{x}(a)}\right|_{p_{x}=p_{x}^{*}}-\lambda=0, \quad \text { for all } a \in \mathcal{X} \text { such that } p_{x}^{*}(a)>0∂px​(a)∂I(x;y)​∣∣∣​px​=px∗​​−λ=0, for all a∈X such that px∗​(a)>0,或者 I(x;y)px(a)px=pxλ0, for all aX such that px(a)=0\left.\frac{\partial I(x ; y)}{\partial p_{x}(a)}\right|_{p_{x}=p_{x}^{*}}-\lambda\le0, \quad \text { for all } a \in \mathcal{X} \text { such that } p_{x}^{*}(a)=0∂px​(a)∂I(x;y)​∣∣∣​px​=px∗​​−λ≤0, for all a∈X such that px∗​(a)=0
  4. I(x;y)px(a)=D(pyx(;a)py)loge\frac{\partial I(x ; y)}{\partial p_{x}(a)} = D\left(p_{y | x}(\cdot ; a) \| p_{y}\right)-\log e∂px​(a)∂I(x;y)​=D(py∣x​(⋅;a)∥py​)−loge 并根据 3 中取等号的特点恰好可以得到定理中的式子

3. Inference with mixture models

  • Formulation: 有观测 yy_-y−​,想要预测 y+y_+y+​

  • Solution

    • 根据前面得到的最优先验 ww^*w∗ 来估计 y=[y,y+]y=[y_-,y_+]y=[y−​,y+​] 的分布
      qy(y)=xw(x)py(y;x) q_{\mathbf{y}}^{*}(\mathbf{y})=\sum_{x} w^{*}(x) p_{\mathbf{y}}(\mathbf{y} ; x) qy∗​(y)=x∑​w∗(x)py​(y;x)

    • 然后可以获得后验概率
      qy+y(y)qy(y+,y)qy(y)=xw(x)py(y+,y;x)aw(a)py(y;a)=xw(xy)py+y(y+y;x) \begin{aligned} q_{\mathrm{y}+| \mathrm{y}_{-}}^{*}\left(\cdot | y_{-}\right) & \triangleq \frac{q_{\mathrm{y}}^{*}\left(y_{+}, y_{-}\right)}{q_{\mathrm{y}-}^{*}\left(y_{-}\right)}=\frac{\sum_{x} w^{*}(x) p_{\mathrm{y}}\left(y_{+}, y_{-} ; x\right)}{\sum_{a} w^{*}(a) p_{\mathrm{y}_{-}}\left(y_{-} ; a\right)} \\ &=\sum_{x} w^{*}\left(x | y_{-}\right) p_{\mathrm{y}_{+} | y_{-}}\left(y_{+} | y_{-} ; x\right) \end{aligned} qy+∣y−​∗​(⋅∣y−​)​≜qy−∗​(y−​)qy∗​(y+​,y−​)​=∑a​w∗(a)py−​​(y−​;a)∑x​w∗(x)py​(y+​,y−​;x)​=x∑​w∗(x∣y−​)py+​∣y−​​(y+​∣y−​;x)​

    • 相当于是做了 soft decision,因为 ML 估计中只会取 py+y(y;x^ML)p_{\mathrm{y}_{+} | y_{-}}(\cdot|y_-; \hat{x}_{ML})py+​∣y−​​(⋅∣y−​;x^ML​)

4. Maximum entropy distribution

  • 最大熵等价于均匀分布向对应的模型集合上的 I-projection
    D(pU)=yp(y)logp(y)+logY=logYH(p)p=argmaxpLtH(p)=argminpLtD(pU) D(p \| U)=\sum_{y} p(y) \log p(y)+\log |\mathcal{Y}|=\log |\mathcal{Y}|-H(p) \\ p^{*}=\underset{p \in \mathcal{L}_{\mathrm{t}}}{\arg \max } H(p)=\underset{p \in \mathcal{L}_{\mathrm{t}}}{\arg \min } D(p \| U) D(p∥U)=y∑​p(y)logp(y)+log∣Y∣=log∣Y∣−H(p)p∗=p∈Lt​argmax​H(p)=p∈Lt​argmin​D(p∥U)
Bonennult 发布了37 篇原创文章 · 获赞 27 · 访问量 2万+ 私信 关注

标签:推断,right,cdot,max,px,py,mathcal,Modeling,统计
来源: https://blog.csdn.net/weixin_41024483/article/details/104165241

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有