首页 > 其他分享> 文章详细

线性判别分析浅析及推导

2020-08-10 18:31:59 阅读：258 来源： 互联网

标签：tmp bar 推导矩阵样本投影判别分析 np 浅析

原文地址：https://zhuanlan.zhihu.com/p/84660707

线性判别分析（Linear Discriminant Analysis, LDA），LDA是一种监督学习的降维技术，其具体的原理用一个栗子来说明。首先，从一个简单的分类开始，如下图所示

尝试找一个向量，并将各个样本投影到该向量上，比如

上面的向量虽然将两类样本区分开了，但是我们的目标并不是直接分开这两类样本，而是使它们的投影能够尽可能的分开，一个比较好的栗子如下所示：

可以看到，投影后的结果，对于同一个类别的样本间隔很小，不同类别的样本间隔很大，这也正是LDA的目标，类内间隔小，类间间隔大。也许看到之后你会想到高内聚，低耦合

接着，来具体分析一下“投影”：

我们知道两个向量（例如 $A,B$ ）的内积就是： $A$ 在 $B$ 上的投影的模乘上 $B$ 的模再乘上两者夹角的余弦

$w\cdot x = |w||x| \cos \theta \\$

上图中 $w$ 就是我们要找的向量，而且它是可以缩放的，所以我们令 $|w|=1$ ，就能得到样本在 $w$ 上的投影： $|x|\cos \theta$ 。并且，这是一个标量，于是再将上面的图像转一下，将 $w$ 所在的直线当做一个数轴

这样，一个样本投影到 $w$ 上的结果就对应了该数轴上的一个值。现在，LDA的原理基本上清楚了，接着定义目标函数：

$( )=\frac{类间距离}{类内距离} \\$

并求它的最大值（不是最小），而 $w$ 的最优值就是

$\hat{w}=\arg{\max_w{L\left(w\right)}} \\$

接下来看类间距离与类内距离的具体定义

类间距离

首先，投影得到一个标量

$= ^ \\$

定义同一类样本投影后的均值

$\mu_i=\frac{1}{n_i}\sum_{x\in D_i}{w^Tx} \\$

类间距离就可以定义为投影后均值之差的平方

$\begin{align} dist_{outer}&=\left(\mu_1-\mu_2\right)^2\\ &=\left(\frac{1}{n_1}\sum_{x\in D_1}{w^Tx}-\frac{1}{n_2}\sum_{x\in D_2}{w^Tx}\right)^2\\ &=\left(w^T\left(\frac{1}{n_1}\sum_{x\in D_1}\ x-\frac{1}{n_2}\sum_{x\in D_2}\ x\right)\right)^2 \end{align} \\$

到这一步，为了表达更方便，再定义某一类样本的均值

${\bar{x}}_i=\frac{1}{n_i}\sum_{x\in D_i}\ x \\$

代入得到

$\begin{align} dist_{outer}&=\left(w^T\left({\bar{x}}_1-{\bar{x}}_2\right)\right)^2\\ &=\left(w^T\left({\bar{x}}_1-{\bar{x}}_2\right)\right)\left(w^T\left({\bar{x}}_1-{\bar{x}}_2\right)\right)^T\\ &=w^T\left({\bar{x}}_1-{\bar{x}}_2\right)\left({\bar{x}}_1-{\bar{x}}_2\right)^Tw \end{align} \\$

类内距离

对于类内距离的衡量，一个很自然的想法就是使用方差

$\sigma_i^2=\sum_{x\in D_i}\left(w^Tx-\mu_i\right)^2 \\$

所有类内距离就是每个类的方差之和

$\begin{align} dist_{inner}&=\sigma_1^2+\sigma_2^2\\ &=\sum_{x\in D_1}\left(w^Tx-\mu_1\right)^2+\sum_{x\in D_2}\left(w^Tx-\mu_2\right)^2\\ &=\sum_{x\in D_1}\left(w^Tx-\frac{1}{n_1}\sum_{x\in D_1}{w^Tx}\right)^2+\sum_{x\in D_2}\left(w^Tx-\frac{1}{n_2}\sum_{x\in D_2}{w^Tx}\right)^2\\ &=\sum_{x\in D_1}\left(w^T\left(x-\frac{1}{n_1}\sum_{x\in D_1}\ x\right)\right)^2+\sum_{x\in D_2}\left(w^T\left(x-\frac{1}{n_2}\sum_{x\in D_2}\ x\right)\right)^2\\ &=\sum_{x\in D_1}\left(w^T\left(x-{\bar{x}}_1\right)\right)^2+\sum_{x\in D_2}\left(w^T\left(x-{\bar{x}}_2\right)\right)^2\\ &=\sum_{x\in D_1}\left[w^T\left(x-{\bar{x}}_1\right)\left(x-{\bar{x}}_1\right)^Tw\right]+\sum_{x\in D_2}\left[w^T\left(x-{\bar{x}}_2\right)\left(x-{\bar{x}}_2\right)^Tw\right]\\ &=w^T\left[\sum_{x\in D_1}{\left(x-{\bar{x}}_1\right)\left(x-{\bar{x}}_1\right)^T}\right]w+w^T\left[\sum_{x\in D_2}{\left(x-{\bar{x}}_2\right)\left(x-{\bar{x}}_2\right)^T}\right]w \end{align}\\$

上面的公式看起来比较多，但是这是因为写的比较详细的原因。接着令

$S_i=\sum_{x\in D_i}{\left(x-{\bar{x}}_i\right)\left(x-{\bar{x}}_i\right)^T} \\$

代入得到

$\begin{align} dist_{inner}&=w^TS_1w+w^TS_2w\\ &=w^T\left(S_1+S_2\right)w \end{align}\\$

综合将类间距离和类内距离代入到 $L(w)$ 中，得到

$\begin{align} L\left(w\right)&=\frac{w^T\left({\bar{x}}_1-{\bar{x}}_2\right)\left({\bar{x}}_1-{\bar{x}}_2\right)^Tw}{w^T\left(S_1+S_2\right)w}\\& =\frac{w^TS_Bw}{w^TS_Ww} \end{align}\\$

其中 $S_B$ 叫做类间散布矩阵， $S_W$ 叫做类内散布矩阵。不过还有一个问题就是这样会存在多个满足条件的 $w$ ，所以需要进行约束，固定分母的值为1：

$w^TS_Ww=1 \\$

并求使分子值最大化的参数值，得到一个带约束的优化

$\begin{align} &\max_w \quad w^TS_Bw\\ &\text{ s.t.} \quad w^TS_Ww=1 \end{align}\\$

因为这个优化带有约束，所以首先需要消除约束。令：

$\begin{align} f(w)&=-w^TS_Bw \\ h(w)&=w^TS_Ww-1 \end{align}\\$

得到一个新的带约束优化目标

$\begin{align} &\min_w \quad f(w)\\ &\text{ s.t.} \quad h(w)=0 \end{align}\\$

然后使用拉格朗日乘数法构造新的目标函数来统一 $f(w)$ 和 $h(w)$ ：

$\begin{align} L(w,\lambda)&=f(x)+\lambda h(w) \\ &=-w^TS_Bw+\lambda\ w^TS_Ww-\lambda \end{align}\\$

将 $L(w,\lambda)$ 对 $w$ 求导并使之等于0，得到 $w$ 的最优值

$\frac{\partial L\left(w,\lambda\right)}{\partial w}=-2S_Bw+2\lambda\ S_Ww=0\Longrightarrow \color{red}{S_W^{-1}S_Bw=\lambda\ w}\\$

观察上式标红部分， $S_W^{-1}S_B$ 是一个矩阵，是不是觉得很熟悉？显然 $w$ 就是这个矩阵的特征向量。不过，这样还需要进行特征分解，我们可以将 $S_B$ 拆开，得到

$S_W^{-1}S_Bw=S_W^{-1}\left({\bar{x}}_1-{\bar{x}}_2\right)\left({\bar{x}}_1-{\bar{x}}_2\right)^Tw \\$

其中 $\left({\bar{x}}_1-{\bar{x}}_2\right)^Tw$ 是一个标量，也就是说 $w$ 和 $S_W^{-1}\left({\bar{x}}_1-{\bar{x}}_2\right)$ 是共线的，这样，我们就可以求出 $w$ 的方向了。到了这一步，就可以直接上代码了

class LDA(object):
    def fit(self, positive, negative):
        '''
        positive, negative: 分别是正反样本的数据矩阵，列数相同，一行是一个样本
        '''
        # p_bar = positive.mean(axis=0, keepdims=True)   # 求正例样本的平均
        # n_bar = negative.mean(axis=0, keepdims=True)   # 求反例样本的平局
        # 计算类内散布矩阵
        # p_tmp = positive - p_bar
        # p_tmp = np.dot(p_tmp.T, p_tmp)
        # n_tmp = negative - n_bar
        # n_tmp = np.dot(n_tmp.T, n_tmp)
        # S_w = p_tmp + n_tmp
        # 根据Sw逆矩阵求解w
        # w  = np.dot(np.linalg.inv(S_w), np.transpose(p_bar-n_bar))
        '''
        其实Sw矩阵就是两类样本的协方差矩阵之和，所以代码可以进行简化
        '''
        S_w = np.cov(positive, rowvar=False) + np.cov(negative, rowvar=False)
        w  = np.dot(np.linalg.inv(S_w), np.mean(positive-negative, axis=0, keepdims=True).T)
        return w

最后，放几个随机生成数据的结果，看起来结果还是靠谱的

标签：tmp,bar,推导,矩阵,样本,投影,判别分析,np,浅析
来源： https://www.cnblogs.com/lzhu/p/13471448.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

线性判别分析浅析及推导