线性代数的本质（6）——特征值与特征向量

本文最后更新于603 天前，其中的信息可能已经过时，如有错误请发送邮件到lysun26@163.com

"Last time, I asked:'What does mathematics mean to you?', and some people answered:'The manipulation of numbers, the manipulation of structures.' And if I had asked what music means to you, would you have answered:'The manupulation of notes?'" -Serge Lang

在线性变换后，许多直线都发生了一定程度上的旋转和伸缩。假如对于矩阵$\begin{bmatrix} 3&1 \\ 0&2 \end{bmatrix}$，比如说开始时的y轴，经过线性变换后，变成了向量$\begin{bmatrix} 1 \\ 2 \end{bmatrix}$所在的直线，与原来并不相同。但是，我们可以发现，存在一些直线，经过变换后是没有发生改变的，在这个例子中，我们可以找到两条，分别是变换前的x轴和$\begin{bmatrix} 1 \\ -1 \end{bmatrix}$所在的直线，这两条直线上的向量在变换前后方向并未改变，就像标量一样。但是这些直线发生了一定程度上的伸缩，比如x轴上的向量变为了原来的3倍，$\begin{bmatrix} 1 \\ -1 \end{bmatrix}$所在的直线上的向量变为了原来的2倍。

这两条直线所对应的向量就是我们常说的特征向量(Eigenvector)，而这个变化的倍数就是特征值(Eigenvalue)。当然，这个特征值是存在正负的，代表伸缩的方向。为什么特征向量很有意义呢？这个问题先放一边，到最后你将会得到答案。

接下来我们来看特征值的表达式：$A\vec{v}=\lambda\vec{v}$，根据我们上面的分析，结合上一章的知识，就很容易理解这个式子了。线性变换的两个含义都可以解释这个式子。如果我们从向量转换的角度看，相当于我们视角里的向量$\vec{v}$转换成了$\lambda \vec{v}$，即方向未变，大小变为了$\lambda$倍。如果从视角转换的角度看，即另一个空间中的$\vec{v}$在我们空间里是$\lambda \vec{v}$。

再将这个式子变换一下，即$(A-\lambda I)\vec{v}=0$，如果我们把$A-\lambda I$当成一个整体，这个式子表明，对于$\vec{v}$所在直线上的向量，经过$A-\lambda I$对应的线性变换后，都映射到了原点。结合之前所学的知识，直线映射为原点表示发生了降维，即$Det(A-\lambda I)=0$。

当然，特征值也不一定存在，这里指的是不一定以实数形式存在。比如考虑一个变换，向左旋转90°，很明显，所有直线都向左旋转了90°。根据上面的计算方法，可以得到两个复数解。这里不对复数解做讨论，实际上，特征值为复数都与一定的旋转操作相对应。

同时，还存在着只有一个特征值和一个特征向量的情况。但是，一个特征值也可能会对应着无数个特征向量。比如说将x轴和y轴均放大两倍。此时，所有的直线方向均为发生改变，放大倍数均为2.

再回到这个问题：为什么特征向量很有意义呢？考虑特征向量与基向量重合的情况，即基向量就是特征向量。我们可以发现，此时的变换对应的矩阵为对角矩阵，而对角线上的值就是特征向量。对角矩阵有很多优势，比如说计算乘法十分方便：
$$
\begin{bmatrix} 3&0 \\ 0&2 \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix}=\begin{bmatrix} 3x \\ 2y \end{bmatrix}
$$

$$
\left(\begin{bmatrix} 3&0 \\ 0&2 \end{bmatrix} \right)^2 \begin{bmatrix} x \\ y \end{bmatrix}=\begin{bmatrix} 3^2x \\ 2^2y \end{bmatrix}
$$

上面的式子也可以从特征值和特征向量含义的角度来理解。特征值表示放大倍数，由于特征向量与基向量重合，也就是基向量的方法倍数，那么结果就是对横纵坐标均乘以特征值。

因此，基向量就是特征向量是我们最希望的情况，方便我们进行计算。但很多时候，线性变换M后，基向量与特征向量并不重合。因此，我们希望将线性变换M映射到以这个线性变换对应的特征向量为基向量的空间，然后在这个特征向量组成的空间中讨论这个线性变换M。上一章的最后，我们介绍了如何计算线性变换从一个空间映射到另一个空间，将公式套用过来即可，假如特征向量组成的矩阵为A，被称为特征基(Eigenbasis)，这个A就是表示从我们空间到以特征向量为基向量组成的空间的线性变换，需要映射的线性变换为M，对应着上一章例子里的旋转操作。可以得到最后的矩阵：$A^{-1}MA$。这个矩阵对应的线性变换就表示特征向量为基向量的空间变换后，基向量方向不变，长度的变化倍数为对应的特征值，因此，这是一个以特征值为对角元素的对角矩阵。

有了这个理论支持，当我们想要对一个向量应用100次M线性变换后的结果，我们就可以将我们的视角转换到特征基上，然后计算后再将视角转换回来。其步骤如下：

M映射到特征基的空间上为$A^{-1}MA$
应用100次，即$(A^{-1}MA)^{100}$
再转换为我们的视角，即$(A^{-1})^{-1}(A^{-1}MA)^{100}A^{-1}=A(A^{-1}MA)^{100}A^{-1}$

Year Progress

Labels

Latest Articles

Latest Comments

发送评论编辑评论

发送评论 编辑评论

推荐文章

发送评论编辑评论