矩阵理论
本章涵盖特征值与特征向量、矩阵对角化、正交分解、二次型以及奇异值分解等高级矩阵理论知识点。
特征值
设 $A$ 是 $n \times n$ 矩阵,如果存在标量 $\lambda$ 和非零向量 $\mathbf{v}$ 使得:
则称 $\lambda$ 为矩阵 $A$ 的特征值,$\mathbf{v}$ 为对应的特征向量。
特征向量在矩阵变换下只改变大小(缩放倍数为特征值),不改变方向。
特征向量
对于矩阵 $A$ 的特征值 $\lambda$,满足 $A\mathbf{v} = \lambda\mathbf{v}$ 的非零向量 $\mathbf{v}$ 称为对应于特征值 $\lambda$ 的特征向量。
求解齐次方程组 $(A - \lambda I)\mathbf{v} = \mathbf{0}$ 的非零解。
若 $A = \begin{bmatrix} 2 & 1 \\ 0 & 1 \end{bmatrix}$,$\lambda = 2$ 是其特征值,求对应的特征向量。
解:$(A - 2I)\mathbf{v} = \mathbf{0}$ ⟹ $\begin{bmatrix} 0 & 1 \\ 0 & -1 \end{bmatrix}\mathbf{v} = \mathbf{0}$ ⟹ $\mathbf{v} = \begin{bmatrix} 1 \\ 0 \end{bmatrix}$ 及其非零倍数。
特征空间
对于特征值 $\lambda$,对应的全部特征向量(包括零向量)构成的集合称为特征空间,记作 $E_\lambda$:
特征空间 $E_\lambda$ 是矩阵 $A - \lambda I$ 的零空间,是 $\mathbb{R}^n$ 的子空间。
特征方程
方程 $\det(A - \lambda I) = 0$ 称为矩阵 $A$ 的特征方程。
矩阵 $A$ 的特征值就是其特征方程的解。
求矩阵 $A = \begin{bmatrix} 2 & 1 \\ 0 & 1 \end{bmatrix}$ 的特征值。
解:$\det(A - \lambda I) = \det\begin{bmatrix} 2-\lambda & 1 \\ 0 & 1-\lambda \end{bmatrix} = (2-\lambda)(1-\lambda) = 0$
特征值为 $\lambda_1 = 2, \lambda_2 = 1$。
特征多项式
$P(\lambda) = \det(A - \lambda I)$ 是关于 $\lambda$ 的多项式,称为矩阵 $A$ 的特征多项式。
对于 $n \times n$ 矩阵,特征多项式是 $n$ 次多项式,最高次项为 $(-1)^n\lambda^n$。
① 所有特征值之和 = $\text{tr}(A)$(矩阵的迹)
② 所有特征值之积 = $\det(A)$(矩阵的行列式)
如果矩阵 $A$ 的一个特征值是 $\lambda$,那么:
| 矩阵变换 | 变换后的特征值 |
|---|---|
| 标量倍数 $aA$ | $a\lambda$ |
| 幂次 $A^m$ | $\lambda^m$ |
| 逆矩阵 $A^{-1}$ | $\dfrac{1}{\lambda}$ |
| 移位 $A - cI$ | $\lambda - c$ |
| 矩阵多项式 $p(A)=\sum_{i=0}^{m}a_iA^i$ | $p(\lambda)=\sum_{i=0}^{m}a_i\lambda^{m}$ |
已知矩阵 $A$ 的特征值为 $\lambda_1 = 2$ 和 $\lambda_2 = -1$,求矩阵多项式 $p(A) = 2A^2 + 3A - 5I$ 的特征值。
解:若 $\lambda$ 是矩阵 $A$ 的特征值,则 $p(A)$ 的特征值是 $p(\lambda)=2\lambda^2 + 3\lambda -5$。
对于 $\lambda_1 = 2$:
$p(2) = 2 \cdot 2^2 + 3 \cdot 2 - 5 = 2 \cdot 4 + 6 - 5 = 8 + 6 - 5 = 9$
对于 $\lambda_2 = -1$:
$p(-1) = 2 \cdot (-1)^2 + 3 \cdot (-1) - 5 = 2 \cdot 1 - 3 - 5 = 2 - 3 - 5 = -6$
因此,$p(A)$ 的特征值为 $9$ 和 $-6$。
相似矩阵
如果存在可逆矩阵 $P$ 使得 $B = P^{-1}AP$,则称矩阵 $A$ 和 $B$ 相似,记作 $A \sim B$。
① 相似矩阵有相同的特征值
② 相似矩阵有相同的行列式、迹、秩
③ 相似关系是等价关系
对角化
如果矩阵 $A$ 相似于对角矩阵 $D$,即存在可逆矩阵 $P$ 使得 $D = P^{-1}AP$,则称 $A$ 可对角化。
$n \times n$ 矩阵 $A$ 可对角化当且仅当它有 $n$ 个线性无关的特征向量。
如果 $A$ 有 $n$ 个不同的特征值,则 $A$ 可对角化。
对矩阵 $A = \begin{bmatrix} 2 & 0 & 0 & 0 \\ 0 & 1 & 1 & 0 \\ 0 & 1 & 1 & 0 \\ 0 & 0 & 0 & 3 \end{bmatrix}$ 进行对角化。
解:
第一步:求特征值。
$\det(A - \lambda I) = \det\begin{bmatrix} 2-\lambda & 0 & 0 & 0 \\ 0 & 1-\lambda & 1 & 0 \\ 0 & 1 & 1-\lambda & 0 \\ 0 & 0 & 0 & 3-\lambda \end{bmatrix}$
$= (2-\lambda)(3-\lambda)\det\begin{bmatrix} 1-\lambda & 1 \\ 1 & 1-\lambda \end{bmatrix}$
$= (2-\lambda)(3-\lambda)[(1-\lambda)^2 - 1]$
$= (2-\lambda)(3-\lambda)(\lambda)(\lambda - 2)$
特征值为:$\lambda_1 = 0, \lambda_2 = 2$ (重数 $2$), $\lambda_3 = 3$
第二步:求特征向量。
对 $\lambda_1 = 0$:求解 $A\mathbf{x} = \mathbf{0}$,得 $\mathbf{v}_1 = \begin{bmatrix} 0 \\ 1 \\ -1 \\ 0 \end{bmatrix}$
对 $\lambda_2 = 2$:求解 $(A - 2I)\mathbf{x} = \mathbf{0}$,得 $\mathbf{v}_2 = \begin{bmatrix} 1 \\ 0 \\ 0 \\ 0 \end{bmatrix}$ 和 $\mathbf{v}_3 = \begin{bmatrix} 0 \\ 0 \\ 0 \\ 1 \end{bmatrix}$
对 $\lambda_3 = 3$:求解 $(A - 3I)\mathbf{x} = \mathbf{0}$,得 $\mathbf{v}_4 = \begin{bmatrix} 0 \\ 1 \\ 1 \\ 0 \end{bmatrix}$
第三步:构造矩阵 $P$ 和 $D$。
$P = \begin{bmatrix} 0 & 1 & 0 & 0 \\ 1 & 0 & 0 & 1 \\ -1 & 0 & 0 & 1 \\ 0 & 0 & 1 & 0 \end{bmatrix}$(特征向量为列)
$D = \begin{bmatrix} 0 & 0 & 0 & 0 \\ 0 & 2 & 0 & 0 \\ 0 & 0 & 2 & 0 \\ 0 & 0 & 0 & 3 \end{bmatrix}$(对角线上是特征值)
第四步:验证 $D = P^{-1}AP$。
则 $A = PDP^{-1}$,矩阵 $A$ 可对角化。
向量间余弦相似性
两个非零向量 $\mathbf{u}$ 和 $\mathbf{v}$ 的余弦相似度定义为:
余弦相似度的值域为 $[-1, 1]$。
• 余弦相似度 = 1:两向量同向
• 余弦相似度 = 0:两向量正交
• 余弦相似度 = -1:两向量反向
求向量 $\mathbf{u} = \begin{bmatrix} 1 \\ 0 \end{bmatrix}$ 和 $\mathbf{v} = \begin{bmatrix} 1 \\ 1 \end{bmatrix}$ 的余弦相似度。
解:$\cos\theta = \frac{1 \cdot 1 + 0 \cdot 1}{\sqrt{1}\sqrt{2}} = \frac{1}{\sqrt{2}} = \frac{\sqrt{2}}{2}$
正交
如果两个向量的点积为 0,即 $\mathbf{u} \cdot \mathbf{v} = 0$,则称它们正交。
如果向量集合中任意两个不同的向量都正交,称该集合为正交集。
如果正交集中每个向量的长度都为 1,称之为标准正交集(或单位正交集)。
正交向量集必然线性无关。
如果 $\{\mathbf{v}_1, \ldots, \mathbf{v}_k\}$ 是正交向量集,任何向量 $\mathbf{v}$ 可表示为:
$$\mathbf{v} = c_1\mathbf{v}_1 + \cdots + c_k\mathbf{v}_k, \quad c_i = \frac{\mathbf{v} \cdot \mathbf{v}_i}{\mathbf{v}_i \cdot \mathbf{v}_i}$$
正交投影
向量 $\mathbf{y}$ 在向量 $\mathbf{u}$ 上的正交投影定义为:
若 $W$ 是由正交向量组 $\{\mathbf{u}_1, \ldots, \mathbf{u}_p\}$ 张成的子空间,则 $\mathbf{y}$ 在 $W$ 上的投影为:
将 $\mathbb{R}^3$ 中的向量 $\mathbf{y} = \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix}$ 投影到由 $\mathbf{u}_1 = \begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix}$ 和 $\mathbf{u}_2 = \begin{bmatrix} 0 \\ 1 \\ 0 \end{bmatrix}$ 张成的子空间 $W$ 上。
解:注意 $\mathbf{u}_1$ 和 $\mathbf{u}_2$ 已经是正交向量组(且为标准正交),子空间 $W$ 是 $xy$ 平面。如果给定的 $W$ 的基不是正交基,可以先把它们化为正交基或标准正交基,再进行正交投影的计算。
计算投影:
$\mathbf{y} \cdot \mathbf{u}_1 = 1 \cdot 1 + 2 \cdot 0 + 3 \cdot 0 = 1$
$\mathbf{u}_1 \cdot \mathbf{u}_1 = 1$
$\mathbf{y} \cdot \mathbf{u}_2 = 1 \cdot 0 + 2 \cdot 1 + 3 \cdot 0 = 2$
$\mathbf{u}_2 \cdot \mathbf{u}_2 = 1$
因此,
$\text{proj}_{W}\mathbf{y} = \frac{1}{1}\begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix} + \frac{2}{1}\begin{bmatrix} 0 \\ 1 \\ 0 \end{bmatrix} = \begin{bmatrix} 1 \\ 2 \\ 0 \end{bmatrix}$
正交分量为:
$\mathbf{z} = \mathbf{y} - \text{proj}_{W}\mathbf{y} = \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix} - \begin{bmatrix} 1 \\ 2 \\ 0 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \\ 3 \end{bmatrix}$
几何意义:向量 $\mathbf{y}$ 在 $xy$ 平面上的投影是 $(1, 2, 0)$(去掉 $z$ 分量),垂直于平面的分量是 $(0, 0, 3)$。
正交矩阵
如果 $n \times n$ 矩阵 $Q$ 满足 $Q^T Q = I$(即 $Q^T = Q^{-1}$),则称 $Q$ 为正交矩阵。
① $Q$ 的列向量构成 $\mathbb{R}^n$ 的标准正交基
② $Q$ 的行向量也构成 $\mathbb{R}^n$ 的标准正交基
③ $\det(Q) = \pm 1$
④ 正交矩阵保持向量长度不变:$\left \| Q\mathbf{x} \right \| = \left \| \mathbf{x} \right \|$
⑤ 正交矩阵保持向量点积(即方向不变):$(Q\mathbf{u}) \cdot (Q\mathbf{v}) = \mathbf{u} \cdot \mathbf{v}$
判断 $Q = \begin{bmatrix} 0 & -1 \\ 1 & 0 \end{bmatrix}$ 是否为正交矩阵。
解:$Q^T Q = \begin{bmatrix} 0 & 1 \\ -1 & 0 \end{bmatrix}\begin{bmatrix} 0 & -1 \\ 1 & 0 \end{bmatrix} = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} = I$ ✓,是正交矩阵。
正交分解
对于向量 $\mathbf{y}$ 和由正交向量组张成的子空间 $W$,可将 $\mathbf{y}$ 分解为:
其中 $\text{proj}_{W}\mathbf{y} \in W$ 称为 $\mathbf{y}$ 在 $W$ 上的正交投影,$\mathbf{z} \perp W$ 称为相应的正交分量。
任何向量都可分解为子空间内的投影和垂直于该子空间的分量之和。
将 $\mathbb{R}^4$ 中的向量 $\mathbf{y} = \begin{bmatrix} 2 \\ 4 \\ 1 \\ 2 \end{bmatrix}$ 投影到由 $\mathbf{u} = \begin{bmatrix} 1 \\ 1 \\ 0 \\ 0 \end{bmatrix}$ 张成的一维子空间 $W$ 上,并求正交分量。
解:
第一步:计算投影。
先计算向量内积:
$\mathbf{y} \cdot \mathbf{u} = 2 \cdot 1 + 4 \cdot 1 + 1 \cdot 0 + 2 \cdot 0 = 6$
$\mathbf{u} \cdot \mathbf{u} = 1^2 + 1^2 + 0^2 + 0^2 = 2$
投影向量:
$\text{proj}_{W}\mathbf{y} = \frac{\mathbf{y} \cdot \mathbf{u}}{\mathbf{u} \cdot \mathbf{u}}\mathbf{u} = \frac{6}{2}\begin{bmatrix} 1 \\ 1 \\ 0 \\ 0 \end{bmatrix} = 3\begin{bmatrix} 1 \\ 1 \\ 0 \\ 0 \end{bmatrix} = \begin{bmatrix} 3 \\ 3 \\ 0 \\ 0 \end{bmatrix}$
第二步:计算正交分量。
$\mathbf{z} = \mathbf{y} - \text{proj}_{W}\mathbf{y} = \begin{bmatrix} 2 \\ 4 \\ 1 \\ 2 \end{bmatrix} - \begin{bmatrix} 3 \\ 3 \\ 0 \\ 0 \end{bmatrix} = \begin{bmatrix} -1 \\ 1 \\ 1 \\ 2 \end{bmatrix}$
第三步:验证正交性。
$\mathbf{z} \cdot \mathbf{u} = (-1) \cdot 1 + 1 \cdot 1 + 1 \cdot 0 + 2 \cdot 0 = 0$ ✓
结论:
$\mathbf{y} = \begin{bmatrix} 3 \\ 3 \\ 0 \\ 0 \end{bmatrix} + \begin{bmatrix} -1 \\ 1 \\ 1 \\ 2 \end{bmatrix}$
其中 $\begin{bmatrix} 3 \\ 3 \\ 0 \\ 0 \end{bmatrix}$ 是 $\mathbf{y}$ 在 $W$ 上的投影,$\begin{bmatrix} -1 \\ 1 \\ 1 \\ 2 \end{bmatrix}$ 是垂直于 $W$ 的分量。
格拉姆-施密特方法
将线性无关向量组 $\{\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_p\}$ 转化为标准正交向量组 $\{\mathbf{u}_1, \mathbf{u}_2, \ldots, \mathbf{u}_p\}$。
① $\mathbf{v}_1 = \mathbf{x}_1$,$\mathbf{u}_1 = \frac{\mathbf{v}_1}{\left \|\mathbf{v}_1 \right \|}$
② 对 $k = 2, 3, \ldots, p$:
$\quad$ $\mathbf{v}_k = \mathbf{x}_k - \sum_{j=1}^{k-1}(\mathbf{x}_k \cdot \mathbf{u}_j)\mathbf{u}_j$
$\quad$ $\mathbf{u}_k = \frac{\mathbf{v}_k}{\left \| \mathbf{v}_k \right \|}$
用格拉姆-施密特方法对以下向量进行标准正交化:
$\mathbf{x}_1 = \begin{bmatrix} 1 \\ 0 \\ 0 \\ 0 \end{bmatrix}$,$\mathbf{x}_2 = \begin{bmatrix} 1 \\ 1 \\ 0 \\ 0 \end{bmatrix}$,$\mathbf{x}_3 = \begin{bmatrix} 1 \\ 1 \\ 1 \\ 0 \end{bmatrix}$,$\mathbf{x}_4 = \begin{bmatrix} 1 \\ 1 \\ 1 \\ 1 \end{bmatrix}$
解:
第一步:$\mathbf{v}_1 = \mathbf{x}_1 = \begin{bmatrix} 1 \\ 0 \\ 0 \\ 0 \end{bmatrix}$,$\left \|\mathbf{v}_1\right \| = 1$,单位化 $\mathbf{v}_1$ 得, $\mathbf{u}_1 = \begin{bmatrix} 1 \\ 0 \\ 0 \\ 0 \end{bmatrix}$
第二步:$\mathbf{v}_2 = \mathbf{x}_2 - (\mathbf{x}_2 \cdot \mathbf{u}_1)\mathbf{u}_1$
$\mathbf{x}_2 \cdot \mathbf{u}_1 = 1$
$\mathbf{v}_2 = \begin{bmatrix} 1 \\ 1 \\ 0 \\ 0 \end{bmatrix} - 1 \cdot \begin{bmatrix} 1 \\ 0 \\ 0 \\ 0 \end{bmatrix} = \begin{bmatrix} 0 \\ 1 \\ 0 \\ 0 \end{bmatrix}$
$\left \|\mathbf{v}_2 \right \| = 1$,$\mathbf{u}_2 = \begin{bmatrix} 0 \\ 1 \\ 0 \\ 0 \end{bmatrix}$
第三步:$\mathbf{v}_3 = \mathbf{x}_3 - (\mathbf{x}_3 \cdot \mathbf{u}_1)\mathbf{u}_1 - (\mathbf{x}_3 \cdot \mathbf{u}_2)\mathbf{u}_2$
$\mathbf{x}_3 \cdot \mathbf{u}_1 = 1$,$\mathbf{x}_3 \cdot \mathbf{u}_2 = 1$
$\mathbf{v}_3 = \begin{bmatrix} 1 \\ 1 \\ 1 \\ 0 \end{bmatrix} - 1 \cdot \begin{bmatrix} 1 \\ 0 \\ 0 \\ 0 \end{bmatrix} - 1 \cdot \begin{bmatrix} 0 \\ 1 \\ 0 \\ 0 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \\ 1 \\ 0 \end{bmatrix}$
$\left \|\mathbf{v}_3 \right \| = 1$,$\mathbf{u}_3 = \begin{bmatrix} 0 \\ 0 \\ 1 \\ 0 \end{bmatrix}$
第四步:$\mathbf{v}_4 = \mathbf{x}_4 - (\mathbf{x}_4 \cdot \mathbf{u}_1)\mathbf{u}_1 - (\mathbf{x}_4 \cdot \mathbf{u}_2)\mathbf{u}_2 - (\mathbf{x}_4 \cdot \mathbf{u}_3)\mathbf{u}_3$
$\mathbf{x}_4 \cdot \mathbf{u}_1 = 1$,$\mathbf{x}_4 \cdot \mathbf{u}_2 = 1$,$\mathbf{x}_4 \cdot \mathbf{u}_3 = 1$
$\mathbf{v}_4 = \begin{bmatrix} 1 \\ 1 \\ 1 \\ 1 \end{bmatrix} - 1 \cdot \begin{bmatrix} 1 \\ 0 \\ 0 \\ 0 \end{bmatrix} - 1 \cdot \begin{bmatrix} 0 \\ 1 \\ 0 \\ 0 \end{bmatrix} - 1 \cdot \begin{bmatrix} 0 \\ 0 \\ 1 \\ 0 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \\ 0 \\ 1 \end{bmatrix}$
$\left \|\mathbf{v}_4 \right \| = 1$,$\mathbf{u}_4 = \begin{bmatrix} 0 \\ 0 \\ 0 \\ 1 \end{bmatrix}$
结论:标准正交向量组为 $\left\{\begin{bmatrix} 1 \\ 0 \\ 0 \\ 0 \end{bmatrix}, \begin{bmatrix} 0 \\ 1 \\ 0 \\ 0 \end{bmatrix}, \begin{bmatrix} 0 \\ 0 \\ 1 \\ 0 \end{bmatrix}, \begin{bmatrix} 0 \\ 0 \\ 0 \\ 1 \end{bmatrix}\right\}$
QR分解
对于 $m \times n$ 矩阵 $A$($m \geq n$,列向量线性无关),存在 $m \times n$ 正交矩阵 $Q$ 和 $n \times n$ 上三角矩阵 $R$ 使得:
使用格拉姆-施密特方法对 $A$ 的列向量进行正交化和标准化。
$Q$ 的列是标准化后的列向量。
$R$ 的第 $(i,j)$ 个元素为 $\mathbf{a}_j \cdot \mathbf{q}_i$(当 $i \leq j$);或者,$R=Q^TA$。
最小二乘法
对于超定方程组 $A\mathbf{x} = \mathbf{b}$(无解的情况),求最小化 $\left \| A\mathbf{x} - \mathbf{b}\right \|^2$ 的向量 $\mathbf{x}$。
最小二乘解满足正规方程(或法方程):
最小二乘解为 $\mathbf{x} = (A^T A)^{-1}A^T\mathbf{b}$。
常用于数据拟合、回归分析等领域。
谱分解
对于对称矩阵 $A$,存在正交矩阵 $P$ 使得 $A = PDP^T$,其中 $D$ 是对角矩阵。
这种分解称为谱分解。
其中 $\lambda_i$ 是特征值,$\mathbf{u}_i$ 是单位化的特征向量。
二次型
关于变量 $x_1, x_2, \ldots, x_n$ 的二次型是形如:
的二次齐次多项式。可简写为 $f(\mathbf{x}) = \mathbf{x}^T A\mathbf{x}$,其中 $A$ 是对称矩阵。
将二次型 $f(x_1,x_2) = x_1^2 + 4x_1x_2 + 3x_2^2$ 用矩阵表示。
解:$\mathbf{x}=\begin{bmatrix} x_1 \\ x_2 \end{bmatrix}, A = \begin{bmatrix} 1 & 2 \\ 2 & 3 \end{bmatrix}$,$f(\mathbf{x}) = \mathbf{x}^T A\mathbf{x}$
二次型矩阵
表示二次型 $f(\mathbf{x}) = \mathbf{x}^T A\mathbf{x}$ 的对称矩阵 $A$ 称为该二次型的矩阵。
对于 $x_i^2$ 的系数 $a_{ii}$ 直接为对角线元素。
对于 $x_ix_j$($i \neq j$)的系数 $a_{ij}$,分成两半:$\frac{a_{ij}}{2}$ 放在第 $(i,j)$ 和 $(j,i)$ 位置。
二次型的标准型
形如 $f = \lambda_1y_1^2 + \lambda_2y_2^2 + \cdots + \lambda_ny_n^2$ 的二次型称为标准型。
① 使用正交变换 $\mathbf{x} = P\mathbf{y}$,其中 $P$ 是由二次型矩阵的特征向量组成的正交矩阵
② 使用配方法
③ 使用合同变换法(对二次型矩阵进行一系列的初等行变换和相应的列变换)
用配方法化简二次型 $f(x_1, x_2, x_3) = x_1^2 + 4x_2^2 + 4x_3^2 + 4x_1x_2 - 8x_2x_3$ 为标准型。
解:
第一步:对 $x_1$ 配方。
$f = x_1^2 + 4x_1x_2 + 4x_2^2 + 4x_3^2 - 8x_2x_3$
$= (x_1 + 2x_2)^2 - 4x_2^2 + 4x_2^2 + 4x_3^2 - 8x_2x_3$
$= (x_1 + 2x_2)^2 + 4x_3^2 - 8x_2x_3$
第二步:对 $x_2, x_3$ 配方。
$f = (x_1 + 2x_2)^2 + 4x_3^2 - 8x_2x_3$
$= (x_1 + 2x_2)^2 + 4(x_3^2 - 2x_2x_3)$
$= (x_1 + 2x_2)^2 + 4[(x_3 - x_2)^2 - x_2^2]$
$= (x_1 + 2x_2)^2 + 4(x_3 - x_2)^2 - 4x_2^2$
$= (x_1 + 2x_2)^2 - 4x_2^2 + 4(x_3 - x_2)^2$
第三步:令 $y_1 = x_1 + 2x_2$,$y_2 = x_2$,$y_3 = x_3 - x_2$,
则得标准型:$f = y_1^2 - 4y_2^2 + 4y_3^2$
说明:① 通过配方法得到的标准型中的系数并不是原二次型矩阵的特征值。
② 把一个二次型转化为标准型可以是不唯一的。
补充:本例中的二次型矩阵的特征值手动不容易进行求解。实际应用中可以使用一些线性代数库进行求解。例如:
>>> import numpy as np
>>> A = np.array([[1,2,0],[2,4,-4],[0,-4,4]])
>>> eigenvalues, eigenvectors = np.linalg.eig(A)
>>> eigenvalues
array([-1.07712638, 1.79313866, 8.28398772])
>>> eigenvectors
array([[-0.60322975, -0.77291405, -0.19676823],
[ 0.62649221, -0.30651401, -0.71662868],
[ 0.49358016, -0.5555655 , 0.669123 ]])
主轴定理
对于任何二次型 $f(\mathbf{x}) = \mathbf{x}^T A\mathbf{x}$($A$ 为对称矩阵),存在正交变换 $\mathbf{x} = P\mathbf{y}$ 使得二次型化为标准型:
其中 $\lambda_i$ 是 $A$ 的特征值,$P$ 的列是单位化的特征向量。
用正交变换法化简二次型 $f(x_1, x_2, x_3) = x_1^2 + 4x_2^2 + 4x_3^2 - 4x_1x_2 + 4x_1x_3 - 8x_2x_3$ 为标准型。
解:
第一步:写出二次型矩阵。
$A = \begin{bmatrix} 1 & -2 & 2 \\ -2 & 4 & -4 \\ 2 & -4 & 4 \end{bmatrix}$
第二步:求矩阵 $A$ 的特征值。
$\det(A - \lambda I) = \det\begin{bmatrix} 1-\lambda & -2 & 2 \\ -2 & 4-\lambda & -4 \\ 2 & -4 & 4-\lambda \end{bmatrix} = \lambda^2(\lambda-9) = 0$
计算得特征值为:$\lambda_1 = 0, \lambda_2 = 0, \lambda_3 = 9$
第三步:求特征向量并标准化。
对 $\lambda_{1,2} = 0$:由 $(A-0I)\mathbf{x}=0$ 的解集可得特征向量 $\mathbf{u}_1 = \begin{bmatrix} 2 \\ 1 \\ 0 \end{bmatrix}, \mathbf{u}_2 = \begin{bmatrix} -2 \\ 0 \\ 1 \end{bmatrix}$,
对其正交化得 $\mathbf{v}_1 = \mathbf{u}_1 = \begin{bmatrix} 2 \\ 1 \\ 0 \end{bmatrix}, \mathbf{v}_2 = \mathbf{u}_2 - \frac{\mathbf{u}_2 \cdot \mathbf{v}_1}{\mathbf{v}_1 \cdot \mathbf{v}_1}\mathbf{v}_1 = \begin{bmatrix} -2/5 \\ 4/5 \\ 1 \end{bmatrix}$
对其单位化得 $\mathbf{\eta}_1 = \begin{bmatrix} 2/\sqrt{5} \\ 1/\sqrt{5} \\ 0 \end{bmatrix}, \mathbf{\eta}_2 = \begin{bmatrix} -2/3\sqrt{5} \\ 4/3\sqrt{5} \\ 5/\sqrt{5} \end{bmatrix}$,
对 $\lambda_3 = 9$:由 $(A-9I)\mathbf{x}=0$ 的解集可得特征向量 $\mathbf{u}_3 = \begin{bmatrix} 1 \\ -2 \\ 2 \end{bmatrix}$,
对其单位化得 $\mathbf{\eta}_3 = \begin{bmatrix} 1/3 \\ -2/3 \\ 2/3 \end{bmatrix}$
第四步:构造正交矩阵 $P$。
$P = \begin{bmatrix} \mathbf{\eta}_1 & \mathbf{\eta}_2 & \mathbf{\eta}_3 \end{bmatrix} = \begin{bmatrix} 2/\sqrt{5} & -2/3\sqrt{5} & 1/3 \\ 1/\sqrt{5} & 4/3\sqrt{5} & -2/3 \\ 0 & 5/3\sqrt{5} & 2/3 \end{bmatrix}$
第五步:进行正交变换 $\mathbf{x} = P\mathbf{y}$,化二次型为标准型。
$f = \lambda_1y_1^2 + \lambda_2y_2^2 + \lambda_3y_3^2 = 9y_3^2$
惯性指数
对于二次型 $f(\mathbf{x}) = \mathbf{x}^T A\mathbf{x}$ 的标准型 $f = \lambda_1y_1^2 + \lambda_2y_2^2 + \cdots + \lambda_ny_n^2$,定义:
• 正惯性指数 $p$:标准型中正特征值的个数
• 负惯性指数 $q$:标准型中负特征值的个数
• 符号差:$p - q$
① 惯性指数与选择的正交变换无关,是二次型的本质性质
② $p + q \leq n$($n$ 是矩阵的阶数)
③ $p + q = n$ 当且仅当矩阵 $A$ 是满秩的
④ 若两个二次型有相同的正惯性指数和负惯性指数,则它们相等
二次型 $f = y_1^2 + 2y_2^2 - 3y_3^2 + 4y_4^2$ 的惯性指数为多少?
解:标准型中有 3 个正特征值($1, 2, 4$)和 1 个负特征值($-3$)。
正惯性指数 $p = 3$,负惯性指数 $q = 1$,符号差 $p - q = 3 - 1 = 2$。
二次型的分类
根据标准型中的符号分类:
• 正定:所有系数 $\lambda_i > 0$
• 负定:所有系数 $\lambda_i < 0$
• 半正定:所有系数 $\lambda_i \geq 0$
• 半负定:所有系数 $\lambda_i \leq 0$
• 不定:系数既有正也有负
等同于判断矩阵 $A$ 的特征值的符号。
正定矩阵
对称矩阵 $A$ 是正定矩阵,如果对所有非零向量 $\mathbf{x}$,都有 $\mathbf{x}^T A\mathbf{x} > 0$。
① 所有特征值都为正
② 所有主子式都为正
③ 存在可逆矩阵 $B$ 使得 $A = B^T B$
判断 $A = \begin{bmatrix} 2 & 1 \\ 1 & 2 \end{bmatrix}$ 是否正定。
解:特征方程 $\det(A - \lambda I) = (2-\lambda)^2 - 1 = 0$,得 $\lambda = 1, 3$。
因为两个特征值都为正,所以 $A$ 正定。
奇异值分解
对于任何 $m \times n$ 矩阵 $A$,存在 $m \times m$ 正交矩阵 $U$、$n \times n$ 正交矩阵 $V$ 和 $m \times n$ 对角矩阵 $\Sigma$ 使得:
其中 $\Sigma$ 的对角线元素 $\sigma_1 \geq \sigma_2 \geq \cdots \geq 0$ 称为 $A$ 的奇异值。
• $A^TA$ 的特征值是 $\sigma_1^2, \sigma_2^2, \ldots$,即奇异值是 $A^TA$ 的特征值的开方
• $V$ 的列是 $A^TA$ 的单位化特征向量
• $U$ 的列是 $AA^T$ 的单位化特征向量
用于数据压缩、图像处理、推荐系统等。
求矩阵 $A = \begin{bmatrix} 1 & 1 \\ 1 & 1 \\ 0 & 0 \end{bmatrix}$ 的奇异值分解。
解:
第一步:计算 $A^T A = \begin{bmatrix} 1 & 1 & 0 \\ 1 & 1 & 0 \end{bmatrix}\begin{bmatrix} 1 & 1 \\ 1 & 1 \\ 0 & 0 \end{bmatrix} = \begin{bmatrix} 2 & 2 \\ 2 & 2 \end{bmatrix}$
第二步:求 $A^T A$ 的特征值和特征向量。
特征方程:$\det\begin{bmatrix} 2-\lambda & 2 \\ 2 & 2-\lambda \end{bmatrix} = (2-\lambda)^2 - 4 = 0$
得 $\lambda_1 = 4$(重数为 2), $\lambda_2 = 0$
第三步:计算奇异值。
$\sigma_1 = \sqrt{4} = 2, \sigma_2 = \sqrt{0} = 0$
第四步:求标准化特征向量作为 $V$ 的列。
对 $\lambda_1 = 4$:特征向量 $\begin{bmatrix} 1 \\ 1 \end{bmatrix}$,标准化得 $\mathbf{v}_1 = \begin{bmatrix} 1/\sqrt{2} \\ 1/\sqrt{2} \end{bmatrix}$
对 $\lambda_2 = 0$:特征向量 $\begin{bmatrix} 1 \\ -1 \end{bmatrix}$,标准化得 $\mathbf{v}_2 = \begin{bmatrix} 1/\sqrt{2} \\ -1/\sqrt{2} \end{bmatrix}$
所以 $V = \begin{bmatrix} 1/\sqrt{2} & 1/\sqrt{2} \\ 1/\sqrt{2} & -1/\sqrt{2} \end{bmatrix}$
第五步:计算 $AA^T$ 的特征值和特征向量。
$AA^T = \begin{bmatrix} 1 & 1 \\ 1 & 1 \\ 0 & 0 \end{bmatrix}\begin{bmatrix} 1 & 1 & 0 \\ 1 & 1 & 0 \end{bmatrix} = \begin{bmatrix} 2 & 2 & 0 \\ 2 & 2 & 0 \\ 0 & 0 & 0 \end{bmatrix}$
特征值为 $\lambda_1 = 4, \lambda_2 = 0$(重数为 2)
第六步:求 $U$ 的列($AA^T$ 的标准化特征向量)。
对 $\lambda_1 = 4$:求解 $(AA^T - 4I)\mathbf{x} = \mathbf{0}$,得特征向量 $\begin{bmatrix} 1 \\ 1 \\ 0 \end{bmatrix}$,标准化得 $\mathbf{u}_1 = \begin{bmatrix} 1/\sqrt{2} \\ 1/\sqrt{2} \\ 0 \end{bmatrix}$
对 $\lambda_2 = 0$(选择两个正交的特征向量):
$\mathbf{u}_2 = \begin{bmatrix} -1/\sqrt{2} \\ 1/\sqrt{2} \\ 0 \end{bmatrix}$(与 $\mathbf{u}_1$ 正交)
$\mathbf{u}_3 = \begin{bmatrix} 0 \\ 0 \\ 1 \end{bmatrix}$(与前两者正交)
所以 $U = \begin{bmatrix} 1/\sqrt{2} & -1/\sqrt{2} & 0 \\ 1/\sqrt{2} & 1/\sqrt{2} & 0 \\ 0 & 0 & 1 \end{bmatrix}$
第七步:$\Sigma$ 是 $3 \times 2$ 的矩阵:$\Sigma = \begin{bmatrix} 2 & 0 \\ 0 & 0 \\ 0 & 0 \end{bmatrix}$
因此,$A = U\Sigma V^T$,其中 $U$ 是 $3 \times 3$ 正交矩阵,$\Sigma$ 是 $3 \times 2$ 对角矩阵,$V^T$ 是 $2 \times 2$ 正交矩阵。奇异值为 $\sigma_1 = 2, \sigma_2 = 0$。
补充:本题也可以使用 python 进行求解。
>>> import numpy as np
>>> A = np.array([[1,1],[1,1],[0,0]])
>>> A
array([[1, 1],
[1, 1],
[0, 0]])
>>> U, S, VT = np.linalg.svd(A)
>>> U
array([[-0.70710678, -0.70710678, 0. ],
[-0.70710678, 0.70710678, 0. ],
[ 0. , 0. , 1. ]])
>>> VT.T
array([[-0.70710678, -0.70710678],
[-0.70710678, 0.70710678]])
>>> S
array([2., 0.])
>>> Sigma = np.zeros(A.shape)
>>> np.fill_diagonal(Sigma, S)
>>> Sigma
array([[2., 0.],
[0., 0.],
[0., 0.]])
>>> np.dot(U, np.dot(Sigma, VT))
array([[1., 1.],
[1., 1.],
[0., 0.]])