线性代数导论(21)-特征值和特征向量(最新讲义)

1. 特征向量和特征值概念

1.1. 特征向量由来

  1. 给定矩阵$A$,矩阵$A$乘以向量$x$,就像是使用矩阵$A$作用在向量$x$上,最后得到新的向量$Ax$。在这里,矩阵$A$就像是一个函数,接受一个向量$x$作为输入,给出向量$Ax$作为输出。
  2. 在这一过程中,我们对一些特殊的向量很感兴趣,他们在输入($x$)输出($Ax$)的过程中始终保持同一个方向,这是比较特殊的,因为在大多情况下,$Ax$与$x$指向不同的方向。
  3. 在这种特殊的情况下,$Ax$平行于$x$,我们把满足这个条件的$x$称为特征向量(Eigen vector)。这个平行条件用方程表示就是:

$$Ax=\lambda x\tag{1}$$

1.1.1. $Ax=0$特征值

从公式可以看出,特征值为$0$特征向量应该位于$A$的零空间中。
也就是说,如果矩阵是奇异的,那么它将有一个特征值为$\lambda = 0$。奇异矩阵A可以把某个非零向量转化为0 向量

1.1.2. 投影矩阵的特征向量和特征值有哪些

我们再来看投影矩阵$P=A(A^TA)^{-1}A^T$的特征值和特征向量。用向量$b$乘以投影矩阵$P$得到投影向量$Pb$,在这个过程中:

  • 只有当$b$已经处于投影平面(即$A$的列空间)中时,$Pb$与$b$才是同向的,此时$b$投影前后不变($Pb=1\cdot b$)。即在投影平面中的所有向量都是投影矩阵的特征向量,而他们的特征值均为$1$;
  • 再来观察投影平面的法向量,也就是投影一讲中的$e$向量。我们知道对于投影,因为$e\bot C(A)$,所以$Pe=0e$,即特征向量$e$的特征值为$0$。

于是,投影矩阵的特征值为$\lambda=1, 0$,投影矩阵的特征向量是平面内的向量和垂直于平面的向量

1.1.3. 置换矩阵A 的特征值

置换矩阵A 交换向量x(x1,x2)元素的位置,那么交换后的向量(x2,x1)怎么才是和初始向量(x1,x2)同一方向呢?

举例:二阶置换矩阵$A=\begin{bmatrix}0&1\\1&0\end{bmatrix}$
经过这个矩阵处理的向量,其元素会互相交换。

  • 那么特征值为$1$的特征向量(即经过矩阵交换元素前后仍然不变)应该型为$\begin{bmatrix}1\\1\end{bmatrix}$
  • 特征值为$-1$的特征向量(即经过矩阵交换元素前后方向相反)应该型为$\begin{bmatrix}1\\-1\end{bmatrix}$
  • 注意到两个特征向量的点积是0,两个特征向量垂直

1.2. 特征值的性质

对于一个$n\times n$的矩阵,将会有$n$个特征值,而这些特征值的和与该矩阵对角线元素的和相同,因此我们把矩阵对角线元素称为矩阵的迹(trace)。
$\sum_{i=1}^n \lambda_i=\sum_{i=1}^n a_{ii}$

在上面二阶转置矩阵的例子中,如果我们求得了一个特征值$1$,那么利用迹的性质,我们就可以直接推出另一个特征值是$-1$。

2. 求解$Ax=\lambda x$中特征值λ和特征向量x

2.1. 求解思路

  1. 对于方程$Ax=\lambda x$,有两个未知数,我们需要利用一些技巧从这一个方程中一次解出两个未知数,先移项得$(A-\lambda I)x=0$。

  2. 观察$(A-\lambda I)x=0$,右边的矩阵相当于将$A$矩阵平移了$\lambda$个单位,而如果方程有解,则这个平移后的矩阵$(A-\lambda I)$一定是奇异矩阵,否则唯一的
    x 必须是零向量或者矩阵是零矩阵。奇异矩阵的行列式等于0。根据前面学到的行列式的性质,则有
    $$\det{(A-\lambda{I})}=0\tag{2}$$
    这样一来,方程中就没有$x$了,这个方程也叫作特征方程(characteristic equation)可以求得λ的值。有了特征值,代回$(A-\lambda I)x=0$,继续求$(A-\lambda I)$的零空间即可。

  3. 思路就是首先由特征值方程解出λ(λ的值有可能有重复的值),然后(A-λI)已知,那么就是求奇异矩阵的零空间了,消元就可得到特征向量。

2.2. 对称矩阵A 的特征向量和特征值

$A=\begin{bmatrix}3&1\\1&3\end{bmatrix}$

说一点题外话,这是一个对称矩阵,我们将得到实特征值,前面还有置换矩阵、投影矩阵,矩阵越特殊,则我们得到的特征值与特征向量也越特殊。看置换矩阵中的特征值,两个实数$1, -1$,而且它们的特征向量是正交的。

  1. 回到例题,计算

    $\det{(A-\lambda{I})}=\begin{vmatrix}3-\lambda&1\\1&3-\lambda\end{vmatrix}$

    也就是对角矩阵平移再取行列式。原式继续化简得$(3-\lambda)^2-1=\lambda^2-6\lambda+8=0, \lambda_1=4,\lambda_2=2$。可以看到一次项系数$-6$与矩阵的迹有关,常数项与矩阵的行列式有关。
    如上性质:特征值λ的和等于对角线元素和,这个和为迹,那么式中一次项系数6λ中6 就是迹,常数项8 就是矩阵A 的行列式。求出特征值后,特征向量就是对应奇异矩阵零空间的解。

  2. 继续计算特征向量,

    $A-4I=\begin{bmatrix}-1&1\\1&-1\end{bmatrix}$

    显然矩阵是奇异的(如果是非奇异说明特征值计算有误),解出矩阵的零空间$x_1=\begin{bmatrix}1\\1\end{bmatrix}$

  3. 同理计算另一个特征向量,$A-2I=\begin{bmatrix}1&1\\1&1\end{bmatrix}$ 解出矩阵的零空间$x_2=\begin{bmatrix}1\\-1\end{bmatrix}$

2.3. 看转置矩阵$A’$与本例中的对称矩阵$A$有什么联系

回顾前面转置矩阵的例子,对矩阵
$A'=\begin{bmatrix}0&1\\1&0\end{bmatrix}$$\lambda_1=1, x_1=\begin{bmatrix}1\\1\end{bmatrix}, \lambda_2=-1, x_2=\begin{bmatrix}-1\\1\end{bmatrix}$

易得本例中的$A=\begin{bmatrix}3&1\\1&3\end{bmatrix}=A'+3I$
两个矩阵特征值相同,而其特征值刚好相差$3$。也就是如果给一个矩阵加上$3I$,则它的特征值会加$3$,而特征向量不变
这也很容易证明:如果$Ax=\lambda x$,则$(A+3I)x=\lambda x+3x=(\lambda+3)x$,所以$x$还是原来的$x$,而$\lambda$变为$\lambda+3$。

注意:已知$Ax=\lambda x, Bx=\alpha x$,则$(A+B)x=(\lambda+\alpha)x$不一定成立,当$B=3I$时,在上例中我们看到,确实成立,但是如果$B$为任意矩阵,则推论不成立,因为这两个式子中的特征向量$x$并不一定相同,所以两个式子的通常情况是$Ax=\lambda x, By=\alpha y$,它们也就无从相加了,除非B 是单位矩阵的倍数。。

2.4. 求解旋转矩阵Q

正交矩阵Q(旋转矩阵,因为它相对于单位阵旋转了,形状和大小不变)的例子:
旋转$90^\circ$的矩阵$Q=\begin{bmatrix}\cos 90&-\sin 90\\\sin 90&\cos 90\end{bmatrix}=\begin{bmatrix}0&-1\\1&0\end{bmatrix}$
(将每个向量旋转$90^\circ$,用$Q$表示,因为旋转矩阵是正交矩阵中很重要的例子)。

上面提到特征值的一个性质:特征值之和等于矩阵的迹;现在有另一个性质:特征值之积等于矩阵的行列式。$$\prod_{i=1}^n\lambda_i=\det A$$

对于$Q$矩阵,有$\begin{cases}\lambda_1+\lambda_2&=0\\\lambda_1\cdot\lambda_2&=1\end{cases}$,再来思考特征值与特征向量的由来,哪些向量旋转$90^\circ$后与自己平行,于是遇到了麻烦,并没有这种向量,也没有这样的特征值来满足前面的方程组。

我们来按部就班的计算,$\det(Q-\lambda I)=\begin{vmatrix}\lambda&-1\\1&\lambda\end{vmatrix}=\lambda^2+1=0$,于是特征值为$\lambda_1=i, \lambda_2=-i$,(共轭复数:两个实部相等,虚部互为相反数)我们看到这两个值满足迹与行列式的方程组,即使矩阵全是实数,其特征值也可能不是实数。
本例中即出现了一对共轭负数,我们可以说,如果矩阵越接近对称,那么特征值就是实数。如果矩阵越不对称,就像本例,$Q^T=-Q$,这是一个反对称的矩阵,于是我得到了纯虚的特征值,这是极端情况,通常我们见到的矩阵是介于对称与反对称之间的。

于是我们看到,对于好的矩阵(置换矩阵)有实特征值及正交的特征向量,对于不好的矩阵($90^\circ$旋转矩阵)有纯虚的特征值。

2.5. 求解三角矩阵A 的特征值和特征向量

$A=\begin{bmatrix}3&1\\0&3\end{bmatrix}$,三角矩阵的特征值就在对角线上,对角线上的元素就是特征值。来看如何得到这一结论的:
$\det(A-\lambda I)=\begin{vmatrix}3-\lambda&1\\0&3-\lambda\end{vmatrix}=(3-\lambda)^2=0$,于是$\lambda_1=3, \lambda_2=3$。
而我们说这是一个糟糕的状况,在于它的特征向量。

带入特征值计算特征向量,带入$\lambda_1=3$得
$(A-\lambda I)x=\begin{bmatrix}0&1\\0&0\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix}=\begin{bmatrix}0\\0\end{bmatrix}$,算出一个特征值$x_1=\begin{bmatrix}1\\0\end{bmatrix}$
当我们带入第二个特征值$\lambda_1=3$时,我们无法得到另一个与$x_1$线性无关的特征向量了。

而本例中的矩阵$A$是一个退化矩阵(degenerate matrix)只有一个方向上的特征向量,不是两个,重复的特征值在特殊情况下可能导致特征向量的短缺。

这一讲我们看到了足够多的“不好”的矩阵,下一讲会介绍一般情况下的特征值与特征向量。


技术交流学习,请加QQ微信:631531977
目录