"Last time, I asked:'What does mathematics mean to you?', and some people answered:'The manipulation of numbers, the manipulation of structures.' And if I had asked what music means to you, would you have answered:'The manupulation of notes?'" -Serge Lang
在线性变换后,许多直线都发生了一定程度上的旋转和伸缩。假如对于矩阵$\begin{bmatrix} 3&1 \\ 0&2 \end{bmatrix}$,比如说开始时的y轴,经过线性变换后,变成了向量$\begin{bmatrix} 1 \\ 2 \end{bmatrix}$所在的直线,与原来并不相同。但是,我们可以发现,存在一些直线,经过变换后是没有发生改变的,在这个例子中,我们可以找到两条,分别是变换前的x轴和$\begin{bmatrix} 1 \\ -1 \end{bmatrix}$所在的直线,这两条直线上的向量在变换前后方向并未改变,就像标量一样。但是这些直线发生了一定程度上的伸缩,比如x轴上的向量变为了原来的3倍,$\begin{bmatrix} 1 \\ -1 \end{bmatrix}$所在的直线上的向量变为了原来的2倍。
这两条直线所对应的向量就是我们常说的特征向量(Eigenvector),而这个变化的倍数就是特征值(Eigenvalue)。当然,这个特征值是存在正负的,代表伸缩的方向。为什么特征向量很有意义呢?这个问题先放一边,到最后你将会得到答案。
接下来我们来看特征值的表达式:$A\vec{v}=\lambda\vec{v}$,根据我们上面的分析,结合上一章的知识,就很容易理解这个式子了。线性变换的两个含义都可以解释这个式子。如果我们从向量转换的角度看,相当于我们视角里的向量$\vec{v}$转换成了$\lambda \vec{v}$,即方向未变,大小变为了$\lambda$倍。如果从视角转换的角度看,即另一个空间中的$\vec{v}$在我们空间里是$\lambda \vec{v}$。
再将这个式子变换一下,即$(A-\lambda I)\vec{v}=0$,如果我们把$A-\lambda I$当成一个整体,这个式子表明,对于$\vec{v}$所在直线上的向量,经过$A-\lambda I$对应的线性变换后,都映射到了原点。结合之前所学的知识,直线映射为原点表示发生了降维,即$Det(A-\lambda I)=0$。
当然,特征值也不一定存在,这里指的是不一定以实数形式存在。比如考虑一个变换,向左旋转90°,很明显,所有直线都向左旋转了90°。根据上面的计算方法,可以得到两个复数解。这里不对复数解做讨论,实际上,特征值为复数都与一定的旋转操作相对应。
同时,还存在着只有一个特征值和一个特征向量的情况。但是,一个特征值也可能会对应着无数个特征向量。比如说将x轴和y轴均放大两倍。此时,所有的直线方向均为发生改变,放大倍数均为2.
再回到这个问题:为什么特征向量很有意义呢?考虑特征向量与基向量重合的情况,即基向量就是特征向量。我们可以发现,此时的变换对应的矩阵为对角矩阵,而对角线上的值就是特征向量。对角矩阵有很多优势,比如说计算乘法十分方便:
$$
\begin{bmatrix} 3&0 \\ 0&2 \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix}=\begin{bmatrix} 3x \\ 2y \end{bmatrix}
$$
$$
\left(\begin{bmatrix} 3&0 \\ 0&2 \end{bmatrix} \right)^2 \begin{bmatrix} x \\ y \end{bmatrix}=\begin{bmatrix} 3^2x \\ 2^2y \end{bmatrix}
$$
上面的式子也可以从特征值和特征向量含义的角度来理解。特征值表示放大倍数,由于特征向量与基向量重合,也就是基向量的方法倍数,那么结果就是对横纵坐标均乘以特征值。
因此,基向量就是特征向量是我们最希望的情况,方便我们进行计算。但很多时候,线性变换M后,基向量与特征向量并不重合。因此,我们希望将线性变换M映射到以这个线性变换对应的特征向量为基向量的空间,然后在这个特征向量组成的空间中讨论这个线性变换M。上一章的最后,我们介绍了如何计算线性变换从一个空间映射到另一个空间,将公式套用过来即可,假如特征向量组成的矩阵为A,被称为特征基(Eigenbasis),这个A就是表示从我们空间到以特征向量为基向量组成的空间的线性变换,需要映射的线性变换为M,对应着上一章例子里的旋转操作。可以得到最后的矩阵:$A^{-1}MA$。这个矩阵对应的线性变换就表示特征向量为基向量的空间变换后,基向量方向不变,长度的变化倍数为对应的特征值,因此,这是一个以特征值为对角元素的对角矩阵。
有了这个理论支持,当我们想要对一个向量应用100次M线性变换后的结果,我们就可以将我们的视角转换到特征基上,然后计算后再将视角转换回来。其步骤如下:
- M映射到特征基的空间上为$A^{-1}MA$
- 应用100次,即$(A^{-1}MA)^{100}$
- 再转换为我们的视角,即$(A^{-1})^{-1}(A^{-1}MA)^{100}A^{-1}=A(A^{-1}MA)^{100}A^{-1}$