主成分分析(PCA)
本文最后更新于388 天前,其中的信息可能已经过时,如有错误请发送邮件到lysun26@163.com

PCA简介

主成分分析(Principle components analysis, PCA)是一种统计分析、简化数据集的方法。它利用正交变换来对一系列可能相关的变量的观测值进行线性变换,从而投影为一系列线性不相关的值,这些不相关变量称为主成分。具体地,主成分可以看作一个线性方程,其包含一系列线性指数来指示投影方向。

以上内容来自维基百科,下面具体对PCA进行介绍,从一个问题出发,逐渐地引出PCA以及背后的解释。

问题背景

|325

上图为平面中均匀分布的散点,那么哪个方向信息量最大?

关于这个问题,我们注意到一个关键词——信息量。那么首先考虑用什么来表示或者量化信息量,答案就是方差/协方差矩阵。

信息量——方差/协方差矩阵

首先引入统计学中常用的量。对于N维空间的一个点$\mathbf{x}=\begin{bmatrix} x_1 & \cdots & x_n \end{bmatrix} ^T$,定义:

  • 样本均值:$\operatorname{Mean}(\mathbf{x})=\frac{1}{n} \sum_{i=1}^n x_i=\frac{1}{n} \mathbf{x}^{\mathrm{T}} \mathbf{1}=\bar{x}$
  • 样本方差:$\operatorname{Var}(\mathbf{x})=\frac{1}{n} \sum_{i=1}^n\left(x_i-\bar{x}\right)^2=\frac{1}{n}\|\tilde{\mathbf{x}}\|^2$
  • 样本标准差:$\operatorname{S}(\mathbf{x})=\sqrt{\operatorname{Var}(\mathbf{x})}$
  • 样本协方差:$\operatorname{Cov}(\mathbf{x}, \mathbf{y})=\frac{1}{n} \sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)=\frac{1}{n} \tilde{\mathbf{x}}^{\mathrm{T}} \tilde{\mathbf{y}}$
  • 样本相关系数:$r(\mathbf{x}, \mathbf{y})=\frac{\operatorname{Cov}(\mathbf{x}, \mathbf{y})}{S(\mathbf{x}) S(\mathbf{y})}$

其中,

$$
\tilde{\mathbf{x}}=\left[\begin{array}{c}
x_1-\bar{x} \\
x_2-\bar{x} \\
\vdots \\
x_n-\bar{x}
\end{array}\right], \tilde{\mathbf{y}}=\left[\begin{array}{c}
y_1-\bar{y} \\
y_2-\bar{y} \\
\vdots \\
y_n-\bar{y}
\end{array}\right]
$$

协方差矩阵与相关系数矩阵

在上面的数学量中,均是针对N维空间中的一个点或者两个点,即只有一两个数据点。而在实际问题中,数据点往往是很多的,数据点多了之后,就需要引入协方差矩阵

$$
\Sigma=\left[\begin{array}{cccc}
\operatorname{cov}\left(\mathrm{x}_1, \mathrm{x}_1\right) & \operatorname{cov}\left(\mathrm{x}_1, \mathrm{x}_2\right) & \cdots & \operatorname{cov}\left(\mathrm{x}_1, \mathrm{x}_n\right) \\
\operatorname{cov}\left(\mathrm{x}_2, \mathrm{x}_1\right) & \operatorname{cov}\left(\mathrm{x}_2, \mathrm{x}_2\right) & \cdots & \operatorname{cov}\left(\mathrm{x}_2, \mathrm{x}_n\right) \\
\vdots & \vdots & \ddots & \vdots \\
\operatorname{cov}\left(\mathrm{x}_n, \mathrm{x}_1\right) & \operatorname{cov}\left(\mathrm{x}_n, \mathrm{x}_2\right) & \cdots & \operatorname{cov}\left(\mathrm{x}_n, \mathrm{x}_n\right)
\end{array}\right]
$$

可以发现,协方差矩阵对角线上的元素均为相应元素的方差,其他位置的元素为协方差,并且这是一个对称矩阵

然后引入相关系数矩阵

$$
\mathrm{C}=\left[\begin{array}{cccc}
1 & \frac{\operatorname{cov}\left(\mathrm{x}_1, \mathrm{x}_2\right)}{\sqrt{\operatorname{cov}\left(\mathrm{x}_1, \mathrm{x}_1\right)} \sqrt{\operatorname{cov}\left(\mathrm{x}_2, \mathrm{x}_2\right)}} & \cdots & \frac{\operatorname{cov}\left(\mathrm{x}_1, \mathrm{x}_n\right)}{\sqrt{\operatorname{cov}\left(\mathrm{x}_1, \mathrm{x}_1\right)} \sqrt{\operatorname{cov}\left(\mathrm{x}_n, \mathrm{x}_n\right)}} \\
\frac{\operatorname{cov}\left(\mathrm{x}_2, \mathrm{x}_1\right)}{\sqrt{\operatorname{cov}\left(\mathrm{x}_1, \mathrm{x}_1\right)} \sqrt{\operatorname{cov}\left(\mathrm{x}_2, \mathrm{x}_2\right)}} & \cdots & \frac{\operatorname{cov}\left(\mathrm{x}_2, \mathrm{x}_n\right)}{\sqrt{\operatorname{cov}\left(\mathrm{x}_2, \mathrm{x}_2\right)} \sqrt{\operatorname{cov}\left(\mathrm{x}_n, \mathrm{x}_n\right)}} \\
\vdots & 1 & \ddots & \vdots \\
\frac{\operatorname{cov}\left(\mathrm{x}_n, \mathrm{x}_1\right)}{\sqrt{\operatorname{cov}\left(\mathrm{x}_1, \mathrm{x}_1\right)} \sqrt{\operatorname{cov}\left(\mathrm{x}_n, \mathrm{x}_n\right)}} & \frac{\operatorname{cov}\left(\mathrm{x}_n, \mathrm{x}_2\right)}{\sqrt{\operatorname{cov}\left(\mathrm{x}_2, \mathrm{x}_2\right)} \sqrt{\operatorname{cov}\left(\mathrm{x}_n, \mathrm{x}_n\right)}} & \cdots & 1
\end{array}\right]
$$

可以看到,使用相关系数矩阵可以克服量纲差异。

方差与协方差

样本均值和方差分别描述的是单个随机变量的一阶统计特征和二阶统计特征,针对的是单特征数据,而协方差和相关系数描述的是两个随机变量关系的二阶统计特征,针对的是多元数据

这个一定要搞清楚,例如对于平面中的一堆数据点,我们并不能说这些数据点的方差是多少,而是只能说这些数据点在某个方向投影之后(变成单特征)的方差是多少

因此,关于最初引入的那个问题,我们就有了一个思路了,即找出一个方向,使得这个方向的方差最大。那么,我们就需要计算任意方向的方差。接下来一步步介绍如何计算。

数据中心化

可以发现,无论是方差,还是协方差矩阵,我们都需要先求出均值,然后再进行运算,因此减去均值是常用的数据预处理步骤,这就是数据中心化。

考虑一个$L\times N$的矩阵$\mathbf{X}$,对于这个矩阵,我们可以将其看作N维空间中的L个行向量,也可以看作是L维空间中的N个列向量,即可以表示为:

$$
\mathbf{X}=\left[\begin{array}{c}
X_1 \\
\vdots \\
X_L
\end{array}\right]=\left[\mathbf{x}_1, \mathbf{x}_2, \cdots, \mathbf{x}_N\right]
$$

然后我们求均值:

$$
\boldsymbol{\mu}=\frac{1}{N}\left[\begin{array}{c}
X_1 \mathbf{1}_N \\
\vdots \\
X_L \mathbf{1}_N
\end{array}\right]=\frac{1}{N} \mathbf{X} \mathbf{1}_N=\frac{1}{N} \sum_{i=1}^N \mathbf{x}_i
$$

其中,$\mathbf{1}_N$表示全为1的列向量,故$X_1\mathbf{1}_N$为该行向量所有元素的和,再乘以$1/N$,即可得到每一行的均值。

然后进行中心化,即减去均值:

$$
\begin{aligned}
\bar{\mathbf{X}}&=\left[\mathbf{x}_1-\boldsymbol{\mu}, \mathbf{x}_2-\boldsymbol{\mu}, \cdots, \mathbf{x}_N-\boldsymbol{\mu}\right] \\
&=\mathbf{X}-\boldsymbol{\mu} \mathbf{1}_N^{\mathrm{T}} \\
&=\mathbf{X}-\frac{1}{N} \mathbf{X} \mathbf{1}_N \mathbf{1}_N^{\mathrm{T}} \\
&=\mathbf{X}\left(\mathbf{I}-\frac{1}{N} \mathbf{1}_N \mathbf{1}_N^{\mathrm{T}}\right)
\end{aligned}
$$

注:为了以后的问题表示方便,这里减去均值后的矩阵就仍然表示为$X$。

括号里的矩阵是很有意义的。我们首先求$\mathbf{1}_N$的投影矩阵:

$$
\begin{aligned}
\mathbf{P}_{\mathbf{1}_N}&= \mathbf{1}_N\mathbf{1}_{N}^\# \\
&=\mathbf{1}_N(\mathbf{1}_N^T\mathbf{1}_N)^{-1}\mathbf{1}_N^T \\
&=\frac{1}{N}\mathbf{1}_N\mathbf{1}_N^T
\end{aligned}
$$

注:这里用到了投影矩阵的知识,即投影到某矩阵张成的空间上的投影矩阵为该矩阵乘以该矩阵的广义逆,即$P_X=XX^\#=X(X^TX)^{-1}X^T$。

故投影到$\mathbf{1}_N$的正交补空间上的投影矩阵为:

$$
\mathbf{P}_{\mathbf{1}_N}^\perp = \mathbf{I}-\frac{1}{N} \mathbf{1}_N \mathbf{1}_N^{\mathrm{T}}
$$

投影矩阵为对称矩阵,因此,最后一个式子也可以表示为:

$$
\mathbf{X}\left(\mathbf{I}-\frac{1}{N} \mathbf{1}_N \mathbf{1}_N^{\mathrm{T}}\right)=\left(\mathbf{P}_{\mathbf{1}_N}^\perp\mathbf{X}^T \right)^T
$$

因此,中心化可以看作是将$\mathbf{X}^T$投影到$\mathbf{1}_N$的正交补空间上,再转置,这是一个N维空间上的投影操作。换个角度看,中心化操作是对每一个列向量减去对应的均值,即$\left[\mathbf{x}_1-\boldsymbol{\mu}, \mathbf{x}_2-\boldsymbol{\mu}, \cdots, \mathbf{x}_N-\boldsymbol{\mu}\right]$,而这是一个平移操作,每一个列向量是L维向量,因此,这是一个L维空间中平移操作。

因此,通过这个中心化的问题,我们可以得到一个很有意思的结论,那就是这个问题中,L维空间的平移与N维空间的投影是等价的。这也是为什么学矩阵,一开始就会学行空间和列空间,从不同的角度看过去,看到的现象也是不一样的。

协方差矩阵的计算

那么,将数据进行中心化之后,再对协方差矩阵进行计算,可以得到一个简洁的式子,如下:

$$
\begin{aligned}
\Sigma&=\left[\begin{array}{ccc}
\operatorname{cov}\left(X_1, X_1\right) & \cdots & \operatorname{cov}\left(X_1, X_L\right) \\
\vdots & \ddots & \vdots \\
\operatorname{cov}\left(X_L, X_1\right) & \cdots & \operatorname{cov}\left(X_L, X_L\right)
\end{array}\right] \\
&=\left[\begin{array}{ccc}
\frac{1}{N} X_1 X_1^{\mathrm{T}} & \cdots & \frac{1}{N} X_1 X_L^{\mathrm{T}} \\
\vdots & \ddots & \vdots \\
\frac{1}{N} X_L X_1^{\mathrm{T}} & \cdots & \frac{1}{N} X_L X_L^{\mathrm{T}}
\end{array}\right] \\
&=\frac{1}{N}\left[\begin{array}{c}
X_1 \\
\vdots \\
X_L
\end{array}\right]\left[X_1^{\mathrm{T}}, \cdots, X_L^{\mathrm{T}}\right] \\
&=\frac{1}{N} \mathbf{X X}^{\mathrm{T}} \\
&=\frac{1}{N}\left[\mathbf{x}_1, \cdots, \mathbf{x}_N\right]\left[\begin{array}{c}
\mathbf{x}_1^{\mathrm{T}} \\
\vdots \\
\mathbf{x}_N^{\mathrm{T}}
\end{array}\right] \\
&=\frac{1}{N} \sum_{\mathrm{i}=1}^N \mathrm{x}_{\mathrm{i}} \mathrm{x}_{\mathrm{i}}^{\mathrm{T}}
\end{aligned}
$$

注:上面的$\mathbf{X}$是已经中心化后的数据

在这里,我们再次看到了这个熟悉的矩阵——$\mathbf{X X}^{\mathrm{T}}$,这个矩阵很常见的一个原因,或许就是它与协方差矩阵所对应。

任意方向方差的计算

表示方向的单位向量记为$\mathbf{u}$,那么$\mathbf{X}$投影到该方向后的数据为$\mathbf{u}^T\mathbf{X}$,也可以看作内积。接下来我们来求投影后的方差:

$$
\begin{aligned}
\mathrm{Var}(\mathbf{u}^T\mathbf{X})&=\frac{1}{N}\|\mathbf{u}^T\mathbf{X}\|^2 \\
&=\frac{1}{N}\mathbf{u}^T\mathbf{X}\mathbf{X}^T\mathbf{u} \\
&=\mathbf{u}^T \Sigma \mathbf{u}
\end{aligned}
$$

我们可以发现,竟然得到了一个如此简单的解析表达式,只需要用方向向量和协方差矩阵,便可以求出该方向的方差。这就说明了,协方差矩阵包含了所有的二阶统计信息!

这样,我们便可以根据这个式子,来找出方差最大的方向了,转化成了一个优化问题。

主成分分析

优化模型:

$$
\left\{\begin{array}{l}
\max _{\mathbf{u}} \mathbf{u}^T \Sigma \mathbf{u} \\
\mathbf{u}^T \mathbf{u}=1
\end{array}\right.
$$

使用拉格朗日乘子法,即定义:

$$
F(\mathbf{u},\lambda)=\frac{1}{2}\mathbf{u}^T \Sigma \mathbf{u}+\frac{1}{2}\lambda(1-\mathbf{u}^T \mathbf{u})
$$

对$\mathbf{u}$求偏导得:

$$
\frac{\partial F}{\partial\mathbf{u}}=\Sigma \mathbf{u}-\lambda \mathbf{u}
$$

令其等于0,可以得到最优解:

$$
\Sigma \mathbf{u}=\lambda \mathbf{u}
$$

而这个方程的解刚好是协方差矩阵的特征值和特征向量

因此,我们便可以求出主成分。

主成分分析的步骤

输入:$\mathbf{X}$

  1. 数据中心化:$\boldsymbol{\mu}=\frac{1}{N} \mathbf{X 1}^T \quad \mathbf{X}=\mathbf{X}-\boldsymbol{\mu} \mathbf{1}^T$
  2. 计算协方差矩阵:$\Sigma=\frac{1}{N}\mathbf{X}\mathbf{X}^T$
  3. 计算协方差矩阵的特征值和特征向量:$\mathbf{\Sigma}\mathbf{U}=\mathbf{U}\mathbf{\Lambda}$
  4. 主成分变换:$\mathbf{Y}=\mathbf{U}^T\mathbf{X}$

在本文一开始,提到了主成分分析是利用正交变换,而通过刚才的介绍,我们知道了这个正交变换就是对应着协方差矩阵的特征向量组成的矩阵。我们知道,对称矩阵的特征向量是正交的,而协方差矩阵正好是一个对称矩阵。

而且,不仅特征向量是有含义的,其特征值也是有含义的。我们对$\Sigma \mathbf{u}=\lambda \mathbf{u}$进行如下计算:

$$
\mathbf{u}^T\Sigma \mathbf{u}=\mathbf{u}^T\lambda \mathbf{u}=\lambda\mathbf{u}^T \mathbf{u}=\lambda
$$

而$\mathrm{Var}(\mathbf{u}^T\mathbf{X})=\mathbf{u}^T\Sigma \mathbf{u}$,我们可以发现,其方差正好为该特征向量$\mathbf{u}$对应的特征值。因此,特征值的含义就是对应的投影向量方向上的方差

PCA几何解释

通过对平面上的一些例子,进行主成分分析,我们可以发现一件事情,那就是第一主成分和第二主成分总是正交的。而这就说明PCA的背后肯定隐含着一个几何结构。而这个结构便是椭圆结构。那么第一主成分便对应着椭圆的长轴,第二主成分便对应着椭圆的短轴,因此一定是垂直的。

另外,我们通过这个几何结构来看待最初引入的问题。这是一个均匀分布的点,是对称结构,因此,如果其中一个方向作为第一主成分,那么与其垂直的方向对应的便是第二主成分。因为这些点都是对称的,因此,第一主成分和第二主成分的方差是相等的。那么,我们便可以得到结论,所有方向的方差都是相等的。这个便是那个问题的答案。

那么为什么会是个椭圆结构呢?下面会给出答案。

已知方差:

$$
\operatorname{Var}\left(\mathbf{u}^T \mathbf{X}\right)=\mathbf{u}^T \Sigma \mathbf{u}=\frac{1}{N} \mathbf{u}^T \mathbf{X} \mathbf{X}^T \mathbf{u}=\frac{1}{N}\left\|\mathbf{u}^T \mathbf{X}\right\|^2
$$

可以发现,有两种表达方式。$\mathbf{u}^T \Sigma \mathbf{u}$对应着我们前面讲到的内容,是一个L维特征空间中的统计概念(协方差矩阵是L维的)。而$\frac{1}{N}\left|\mathbf{u}^T \mathbf{X}\right|^2$是一个范数,一个长度概念,是一个N维样本空间的几何概念。我们可以通过下面的分析更好的看待这个问题。

前文提到了,投影后的数据点可以表示为$\mathbf{u}^T\mathbf{X}$,我们有两个角度看待$\mathbf{X}$,那么,从这两种角度出发,就有两种看待$\mathbf{u}^T\mathbf{X}$的角度,分别如下:

$$
\mathbf{u}^{\mathrm{T}} \mathbf{X}=\left[\mathbf{u}^{\mathrm{T}} \mathbf{x}_1, \mathbf{u}^{\mathrm{T}} \mathbf{x}_2, \cdots, \mathbf{u}^{\mathrm{T}} \mathbf{x}_N\right]=u_1 X_1+u_2 X_2+\cdots+u_L X_L
$$

将每一列看作L维空间中的一个点,共有N个。那么便得到了第一种表达方式。这种方式可以发现,是将这N个点投影到$\mathbf{u}$上,得到了N个点。因此,这是L维空间在$\mathbf{u}$上的投影,得到了1维空间中的N个点

将每一行看作是一个N维空间中的点,这些点共有L个。这样的话,就得到了第二种表达。可以发现,这个表达正好是线性组合的形式,其结果为N维空间中的一个点。因此,这个对应着N维空间中的线性组合,结果维N维空间的一个点

这两种方式对应着不同的几何表达。第一种便是对应着L维空间中的统计概念。而第二种对应着几何概念,方差便是这个线性组合的范数。主成分分析是找到最佳的$\mathbf{u}$,我们如果从第一个角度理解,对于不同的$\mathbf{u}$,每一个L维空间的数据点进行投影都能得到L维空间的数据点,如果把这些点都放在一起,将会完全看不出规律,得到一些毫无规律的点。

而如果我们从第二个角度来看这个问题,对于每一个$\mathbf{u}$,经过线性组合后,得到的是一个点,即每一个$\mathbf{u}$对应着一个点。那么不同的$\mathbf{u}$对应的点将会形成一个图形。这就有利于我们发现规律。那么接下来分析这是个什么图形。

$$
\mathbf{y}=(\mathbf{u}^T\mathbf{X})^T=\mathbf{X}^T\mathbf{u}
$$

经过化简,得到$\mathbf{u}=(\mathbf{X}\mathbf{X}^T)^{-1}\mathbf{X}\mathbf{y}$,由于$\mathbf{u}^T\mathbf{u}=1$,可以得到:

$$
\mathbf{y}^T \mathbf{X}^T\left(\mathbf{X} \mathbf{X}^T\right)^{-1}\left(\mathbf{X} \mathbf{X}^T\right)^{-1} \mathbf{X} \mathbf{y}=1
$$

然后可以得到:

$$
f(\mathbf{y})=\mathbf{y}^T \mathbf{X}^T\left(\mathbf{X X}^T\right)^{-1}\left(\mathbf{X} \mathbf{X}^T\right)^{-1} \mathbf{X} \mathbf{y}-1=0
$$

而这便是一个椭圆方程(原因可以参考相关书籍)。

PCA的进一步解释

假设观测数据$\mathbf{X}$具有$p$个特征$n$个观测,且假设其均值向量为0。PCA的目的就是希望找到一个能够表征数据所有信息的低维子空间。假设$\mathbf{q}_1,\cdots,\mathbf{q}_s$为该空间的一组正交基,记:

$$
\mathbf{Q}=\left[\begin{array}{llll}
\mathbf{q}_1 & \mathbf{q}_2 & \cdots & \mathbf{q}_s
\end{array}\right]
$$

可以得到其投影矩阵为:

$$
\mathbf{P}_{\mathbf{Q}}=\mathbf{Q} \mathbf{Q}^{\#}=\mathbf{Q}\left(\mathbf{Q}^{\mathrm{T}} \mathbf{Q}\right)^{-1} \mathbf{Q}^{\mathrm{T}}=\mathbf{Q} \mathbf{Q}^{\mathrm{T}}
$$

将 $\mathbf{X}$ 投影到 $\mathbf{Q}$ 的列空间有

$$
\mathbf{Y}=\mathbf{P}_{\mathbf{Q}} \mathbf{X}=\mathbf{Q Q}^{\mathrm{T}} \mathbf{X}
$$

我们需要使$\mathbf{Y}$和$\mathbf{X}$尽可能接近,因此可以得到以下优化模型:

$$
\left\{\begin{array}{l}
\min _{\mathbf{Q}}\left\|\left(\mathbf{I}_p-\mathbf{Q} \mathbf{Q}^{\mathrm{T}}\right) \mathbf{X}\right\|_F^2 \\
\text { s.t } \mathbf{Q}^{\mathrm{T}} \mathbf{Q}=\mathbf{I}_s
\end{array}\right.
$$

注:这里使用的是F范数,使用F范数的原因在下面的概率解释里会解释。

对上式进行进一步化简,可以得到:

$$
\begin{aligned}
\left\|\left(\mathbf{I}_p-\mathbf{Q Q}^{\mathrm{T}}\right) \mathbf{X}\right\|_F^2&=\operatorname{trace}\left(\mathbf{X}^{\mathrm{T}}\left(\mathbf{I}_p-\mathbf{Q Q}^{\mathrm{T}}\right)\left(\mathbf{I}_p-\mathbf{Q} \mathbf{Q}^{\mathrm{T}}\right) \mathbf{X}\right) \\
&=\operatorname{trace}\left(\mathbf{X}^{\mathrm{T}}\left(\mathbf{I}_p-\mathbf{Q} \mathbf{Q}^{\mathrm{T}}\right) \mathbf{X}\right) \\
&=\operatorname{trace}\left(\mathbf{X}^{\mathrm{T}} \mathbf{X}\right)-\operatorname{trace}\left(\mathbf{Q}^{\mathrm{T}} \mathbf{X} \mathbf{X}^{\mathrm{T}} \mathbf{Q}\right)
\end{aligned}
$$

因此,上述规划模型可以化为:

$$
\left\{\begin{array}{l}
\min _{\mathbf{Q}} \operatorname{trace}\left(\mathbf{Q}^{\mathrm{T}} \mathbf{X} \mathbf{X}^{\mathrm{T}} \mathbf{Q}\right) \\
\text { s.t } \mathbf{Q}^{\mathrm{T}} \mathbf{Q}=\mathbf{I}_s
\end{array}\right.
$$

可以发现,这里的模型与之前主成分分析里的模型几乎是一样的,将$\mathbf{u}$换成了$\mathbf{Q}$。可以得到,这个模型的解与前面的类似,归结于$\mathbf{X}\mathbf{X}^T$的特征值和特征向量。

通过将上面子空间逼近的结果与总体最小二乘法比较,可以发现结果是一致的。

PCA的概率解释

为什么要用F范数呢?

假设误差$e_{ij}$独立同高斯分布,那么类似于最小二乘法里讲到的求似然函数(可以参考最小二乘法的解释),得到:

$$
l(\mathbf{Q})=\ln L(\mathbf{Q})=\sum_{i, j} \ln \frac{1}{\sqrt{2 \pi} \sigma}-\frac{1}{2 \sigma^2} \sum_{i, j} e_{i j}^2
$$

因此,如果使似然函数最大化,那就是使后一项最小化,又因为

$$
\sum_{i, j} e_{i j}^2=\left\|\left(\mathbf{I}_p-\mathbf{Q Q}^{\mathrm{T}}\right) \mathbf{X}\right\|_F^2
$$

因此,用F范数。

有问题可以留言哦~ 觉得有帮助也可以投喂一下博主,感谢~
文章链接:https://www.corrain.top/pca/
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明文章地址及作者

评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
( ゜- ゜)つロ
_(:з」∠)_
(⌒▽⌒)
( ̄▽ ̄)
(=・ω・=)
(*°▽°*)八(*°▽°*)♪
✿ヽ(°▽°)ノ✿
(¦3【▓▓】
눈_눈
(ಡωಡ)
_(≧∇≦」∠)_
━━━∑(゚□゚*川━
(`・ω・´)
( ̄3 ̄)
✧(≖ ◡ ≖✿)
(・∀・)
(〜 ̄△ ̄)〜
→_→
(°∀°)ノ
╮( ̄▽ ̄)╭
( ´_ゝ`)
←_←
(;¬_¬)
(゚Д゚≡゚д゚)!?
( ´・・)ノ(._.`)
Σ(゚д゚;)
Σ(  ̄□ ̄||)<
(´;ω;`)
(/TДT)/
(^・ω・^)
(。・ω・。)
(● ̄(エ) ̄●)
ε=ε=(ノ≧∇≦)ノ
(´・_・`)
(-_-#)
( ̄へ ̄)
( ̄ε(# ̄) Σ
(╯°口°)╯(┴—┴
ヽ(`Д´)ノ
("▔□▔)/
(º﹃º )
(๑>؂<๑)
。゚(゚´Д`)゚。
(∂ω∂)
(┯_┯)
(・ω< )★
( ๑ˊ•̥▵•)੭₎₎
¥ㄟ(´・ᴗ・`)ノ¥
Σ_(꒪ཀ꒪」∠)_
٩(๛ ˘ ³˘)۶❤
(๑‾᷅^‾᷅๑)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
小黄脸
热词系列一
tv_小电视
上一篇
下一篇