特征值

定义

设 $A$ 是 $n \times n$ 矩阵,如果存在标量 $\lambda$ 和非零向量 $\mathbf{v}$ 使得:

$$A\mathbf{v} = \lambda\mathbf{v}$$

则称 $\lambda$ 为矩阵 $A$ 的特征值,$\mathbf{v}$ 为对应的特征向量

几何意义

特征向量在矩阵变换下只改变大小(缩放倍数为特征值),不改变方向。

特征向量

定义

对于矩阵 $A$ 的特征值 $\lambda$,满足 $A\mathbf{v} = \lambda\mathbf{v}$ 的非零向量 $\mathbf{v}$ 称为对应于特征值 $\lambda$ 的特征向量

计算方法

求解齐次方程组 $(A - \lambda I)\mathbf{v} = \mathbf{0}$ 的非零解。

例题

若 $A = \begin{bmatrix} 2 & 1 \\ 0 & 1 \end{bmatrix}$,$\lambda = 2$ 是其特征值,求对应的特征向量。

解:$(A - 2I)\mathbf{v} = \mathbf{0}$ ⟹ $\begin{bmatrix} 0 & 1 \\ 0 & -1 \end{bmatrix}\mathbf{v} = \mathbf{0}$ ⟹ $\mathbf{v} = \begin{bmatrix} 1 \\ 0 \end{bmatrix}$ 及其非零倍数。

特征空间

定义

对于特征值 $\lambda$,对应的全部特征向量(包括零向量)构成的集合称为特征空间,记作 $E_\lambda$:

$$E_\lambda = \{\mathbf{v} : A\mathbf{v} = \lambda\mathbf{v}\} = \ker(A - \lambda I)$$
性质

特征空间 $E_\lambda$ 是矩阵 $A - \lambda I$ 的零空间,是 $\mathbb{R}^n$ 的子空间。

特征方程

定义

方程 $\det(A - \lambda I) = 0$ 称为矩阵 $A$ 的特征方程

求解特征值

矩阵 $A$ 的特征值就是其特征方程的解。

例题

求矩阵 $A = \begin{bmatrix} 2 & 1 \\ 0 & 1 \end{bmatrix}$ 的特征值。

解:$\det(A - \lambda I) = \det\begin{bmatrix} 2-\lambda & 1 \\ 0 & 1-\lambda \end{bmatrix} = (2-\lambda)(1-\lambda) = 0$
特征值为 $\lambda_1 = 2, \lambda_2 = 1$。

特征多项式

定义

$P(\lambda) = \det(A - \lambda I)$ 是关于 $\lambda$ 的多项式,称为矩阵 $A$ 的特征多项式

性质

对于 $n \times n$ 矩阵,特征多项式是 $n$ 次多项式,最高次项为 $(-1)^n\lambda^n$。

重要公式

① 所有特征值之和 = $\text{tr}(A)$(矩阵的迹)
② 所有特征值之积 = $\det(A)$(矩阵的行列式)

特征值的变换关系

如果矩阵 $A$ 的一个特征值是 $\lambda$,那么:

矩阵变换 变换后的特征值
标量倍数 $aA$ $a\lambda$
幂次 $A^m$ $\lambda^m$
逆矩阵 $A^{-1}$ $\dfrac{1}{\lambda}$
移位 $A - cI$ $\lambda - c$
矩阵多项式 $p(A)=\sum_{i=0}^{m}a_iA^i$ $p(\lambda)=\sum_{i=0}^{m}a_i\lambda^{m}$
例题

已知矩阵 $A$ 的特征值为 $\lambda_1 = 2$ 和 $\lambda_2 = -1$,求矩阵多项式 $p(A) = 2A^2 + 3A - 5I$ 的特征值。

解:若 $\lambda$ 是矩阵 $A$ 的特征值,则 $p(A)$ 的特征值是 $p(\lambda)=2\lambda^2 + 3\lambda -5$。
对于 $\lambda_1 = 2$:
$p(2) = 2 \cdot 2^2 + 3 \cdot 2 - 5 = 2 \cdot 4 + 6 - 5 = 8 + 6 - 5 = 9$

对于 $\lambda_2 = -1$:
$p(-1) = 2 \cdot (-1)^2 + 3 \cdot (-1) - 5 = 2 \cdot 1 - 3 - 5 = 2 - 3 - 5 = -6$

因此,$p(A)$ 的特征值为 $9$ 和 $-6$。

相似矩阵

定义

如果存在可逆矩阵 $P$ 使得 $B = P^{-1}AP$,则称矩阵 $A$ 和 $B$ 相似,记作 $A \sim B$。

性质

① 相似矩阵有相同的特征值
② 相似矩阵有相同的行列式、迹、秩
③ 相似关系是等价关系

对角化

定义

如果矩阵 $A$ 相似于对角矩阵 $D$,即存在可逆矩阵 $P$ 使得 $D = P^{-1}AP$,则称 $A$ 可对角化

$$A = PDP^{-1}$$
对角化条件

$n \times n$ 矩阵 $A$ 可对角化当且仅当它有 $n$ 个线性无关的特征向量。

充分条件

如果 $A$ 有 $n$ 个不同的特征值,则 $A$ 可对角化。

例题

对矩阵 $A = \begin{bmatrix} 2 & 0 & 0 & 0 \\ 0 & 1 & 1 & 0 \\ 0 & 1 & 1 & 0 \\ 0 & 0 & 0 & 3 \end{bmatrix}$ 进行对角化。

解:

第一步:求特征值。
$\det(A - \lambda I) = \det\begin{bmatrix} 2-\lambda & 0 & 0 & 0 \\ 0 & 1-\lambda & 1 & 0 \\ 0 & 1 & 1-\lambda & 0 \\ 0 & 0 & 0 & 3-\lambda \end{bmatrix}$
$= (2-\lambda)(3-\lambda)\det\begin{bmatrix} 1-\lambda & 1 \\ 1 & 1-\lambda \end{bmatrix}$
$= (2-\lambda)(3-\lambda)[(1-\lambda)^2 - 1]$
$= (2-\lambda)(3-\lambda)(\lambda)(\lambda - 2)$
特征值为:$\lambda_1 = 0, \lambda_2 = 2$ (重数 $2$), $\lambda_3 = 3$


第二步:求特征向量。
对 $\lambda_1 = 0$:求解 $A\mathbf{x} = \mathbf{0}$,得 $\mathbf{v}_1 = \begin{bmatrix} 0 \\ 1 \\ -1 \\ 0 \end{bmatrix}$
对 $\lambda_2 = 2$:求解 $(A - 2I)\mathbf{x} = \mathbf{0}$,得 $\mathbf{v}_2 = \begin{bmatrix} 1 \\ 0 \\ 0 \\ 0 \end{bmatrix}$ 和 $\mathbf{v}_3 = \begin{bmatrix} 0 \\ 0 \\ 0 \\ 1 \end{bmatrix}$
对 $\lambda_3 = 3$:求解 $(A - 3I)\mathbf{x} = \mathbf{0}$,得 $\mathbf{v}_4 = \begin{bmatrix} 0 \\ 1 \\ 1 \\ 0 \end{bmatrix}$


第三步:构造矩阵 $P$ 和 $D$。
$P = \begin{bmatrix} 0 & 1 & 0 & 0 \\ 1 & 0 & 0 & 1 \\ -1 & 0 & 0 & 1 \\ 0 & 0 & 1 & 0 \end{bmatrix}$(特征向量为列)
$D = \begin{bmatrix} 0 & 0 & 0 & 0 \\ 0 & 2 & 0 & 0 \\ 0 & 0 & 2 & 0 \\ 0 & 0 & 0 & 3 \end{bmatrix}$(对角线上是特征值)


第四步:验证 $D = P^{-1}AP$。
则 $A = PDP^{-1}$,矩阵 $A$ 可对角化。

向量间余弦相似性

定义

两个非零向量 $\mathbf{u}$ 和 $\mathbf{v}$ 的余弦相似度定义为:

$$\cos\theta = \frac{\mathbf{u} \cdot \mathbf{v}}{\left \|\mathbf{u} \right \| \left \| \mathbf{v} \right \|}$$
性质

余弦相似度的值域为 $[-1, 1]$。
• 余弦相似度 = 1:两向量同向
• 余弦相似度 = 0:两向量正交
• 余弦相似度 = -1:两向量反向

例题

求向量 $\mathbf{u} = \begin{bmatrix} 1 \\ 0 \end{bmatrix}$ 和 $\mathbf{v} = \begin{bmatrix} 1 \\ 1 \end{bmatrix}$ 的余弦相似度。

解:$\cos\theta = \frac{1 \cdot 1 + 0 \cdot 1}{\sqrt{1}\sqrt{2}} = \frac{1}{\sqrt{2}} = \frac{\sqrt{2}}{2}$

正交

定义

如果两个向量的点积为 0,即 $\mathbf{u} \cdot \mathbf{v} = 0$,则称它们正交
如果向量集合中任意两个不同的向量都正交,称该集合为正交集
如果正交集中每个向量的长度都为 1,称之为标准正交集(或单位正交集)

性质

正交向量集必然线性无关。
如果 $\{\mathbf{v}_1, \ldots, \mathbf{v}_k\}$ 是正交向量集,任何向量 $\mathbf{v}$ 可表示为:
$$\mathbf{v} = c_1\mathbf{v}_1 + \cdots + c_k\mathbf{v}_k, \quad c_i = \frac{\mathbf{v} \cdot \mathbf{v}_i}{\mathbf{v}_i \cdot \mathbf{v}_i}$$

正交投影

定义

向量 $\mathbf{y}$ 在向量 $\mathbf{u}$ 上的正交投影定义为:

$$\text{proj}_{\mathbf{u}}\mathbf{y} = \frac{\mathbf{y} \cdot \mathbf{u}}{\mathbf{u} \cdot \mathbf{u}}\mathbf{u}$$
到子空间的投影

若 $W$ 是由正交向量组 $\{\mathbf{u}_1, \ldots, \mathbf{u}_p\}$ 张成的子空间,则 $\mathbf{y}$ 在 $W$ 上的投影为:

$$\text{proj}_{W}\mathbf{y} = \frac{\mathbf{y} \cdot \mathbf{u}_1}{\mathbf{u}_1 \cdot \mathbf{u}_1}\mathbf{u}_1 + \cdots + \frac{\mathbf{y} \cdot \mathbf{u}_p}{\mathbf{u}_p \cdot \mathbf{u}_p}\mathbf{u}_p$$
例题

将 $\mathbb{R}^3$ 中的向量 $\mathbf{y} = \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix}$ 投影到由 $\mathbf{u}_1 = \begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix}$ 和 $\mathbf{u}_2 = \begin{bmatrix} 0 \\ 1 \\ 0 \end{bmatrix}$ 张成的子空间 $W$ 上。

解:注意 $\mathbf{u}_1$ 和 $\mathbf{u}_2$ 已经是正交向量组(且为标准正交),子空间 $W$ 是 $xy$ 平面。如果给定的 $W$ 的基不是正交基,可以先把它们化为正交基或标准正交基,再进行正交投影的计算。

计算投影:
$\mathbf{y} \cdot \mathbf{u}_1 = 1 \cdot 1 + 2 \cdot 0 + 3 \cdot 0 = 1$
$\mathbf{u}_1 \cdot \mathbf{u}_1 = 1$
$\mathbf{y} \cdot \mathbf{u}_2 = 1 \cdot 0 + 2 \cdot 1 + 3 \cdot 0 = 2$
$\mathbf{u}_2 \cdot \mathbf{u}_2 = 1$

因此,
$\text{proj}_{W}\mathbf{y} = \frac{1}{1}\begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix} + \frac{2}{1}\begin{bmatrix} 0 \\ 1 \\ 0 \end{bmatrix} = \begin{bmatrix} 1 \\ 2 \\ 0 \end{bmatrix}$

正交分量为:
$\mathbf{z} = \mathbf{y} - \text{proj}_{W}\mathbf{y} = \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix} - \begin{bmatrix} 1 \\ 2 \\ 0 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \\ 3 \end{bmatrix}$

几何意义:向量 $\mathbf{y}$ 在 $xy$ 平面上的投影是 $(1, 2, 0)$(去掉 $z$ 分量),垂直于平面的分量是 $(0, 0, 3)$。

正交矩阵

定义

如果 $n \times n$ 矩阵 $Q$ 满足 $Q^T Q = I$(即 $Q^T = Q^{-1}$),则称 $Q$ 为正交矩阵

性质

① $Q$ 的列向量构成 $\mathbb{R}^n$ 的标准正交基
② $Q$ 的行向量也构成 $\mathbb{R}^n$ 的标准正交基
③ $\det(Q) = \pm 1$
④ 正交矩阵保持向量长度不变:$\left \| Q\mathbf{x} \right \| = \left \| \mathbf{x} \right \|$
⑤ 正交矩阵保持向量点积(即方向不变):$(Q\mathbf{u}) \cdot (Q\mathbf{v}) = \mathbf{u} \cdot \mathbf{v}$

例题

判断 $Q = \begin{bmatrix} 0 & -1 \\ 1 & 0 \end{bmatrix}$ 是否为正交矩阵。

解:$Q^T Q = \begin{bmatrix} 0 & 1 \\ -1 & 0 \end{bmatrix}\begin{bmatrix} 0 & -1 \\ 1 & 0 \end{bmatrix} = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} = I$ ✓,是正交矩阵。

正交分解

定义

对于向量 $\mathbf{y}$ 和由正交向量组张成的子空间 $W$,可将 $\mathbf{y}$ 分解为:

$$\mathbf{y} = \text{proj}_{W}\mathbf{y} + \mathbf{z}$$

其中 $\text{proj}_{W}\mathbf{y} \in W$ 称为 $\mathbf{y}$ 在 $W$ 上的正交投影,$\mathbf{z} \perp W$ 称为相应的正交分量。

几何意义

任何向量都可分解为子空间内的投影和垂直于该子空间的分量之和。

例题

将 $\mathbb{R}^4$ 中的向量 $\mathbf{y} = \begin{bmatrix} 2 \\ 4 \\ 1 \\ 2 \end{bmatrix}$ 投影到由 $\mathbf{u} = \begin{bmatrix} 1 \\ 1 \\ 0 \\ 0 \end{bmatrix}$ 张成的一维子空间 $W$ 上,并求正交分量。

解:

第一步:计算投影。
先计算向量内积:
$\mathbf{y} \cdot \mathbf{u} = 2 \cdot 1 + 4 \cdot 1 + 1 \cdot 0 + 2 \cdot 0 = 6$
$\mathbf{u} \cdot \mathbf{u} = 1^2 + 1^2 + 0^2 + 0^2 = 2$

投影向量:
$\text{proj}_{W}\mathbf{y} = \frac{\mathbf{y} \cdot \mathbf{u}}{\mathbf{u} \cdot \mathbf{u}}\mathbf{u} = \frac{6}{2}\begin{bmatrix} 1 \\ 1 \\ 0 \\ 0 \end{bmatrix} = 3\begin{bmatrix} 1 \\ 1 \\ 0 \\ 0 \end{bmatrix} = \begin{bmatrix} 3 \\ 3 \\ 0 \\ 0 \end{bmatrix}$

第二步:计算正交分量。
$\mathbf{z} = \mathbf{y} - \text{proj}_{W}\mathbf{y} = \begin{bmatrix} 2 \\ 4 \\ 1 \\ 2 \end{bmatrix} - \begin{bmatrix} 3 \\ 3 \\ 0 \\ 0 \end{bmatrix} = \begin{bmatrix} -1 \\ 1 \\ 1 \\ 2 \end{bmatrix}$

第三步:验证正交性。
$\mathbf{z} \cdot \mathbf{u} = (-1) \cdot 1 + 1 \cdot 1 + 1 \cdot 0 + 2 \cdot 0 = 0$ ✓

结论:
$\mathbf{y} = \begin{bmatrix} 3 \\ 3 \\ 0 \\ 0 \end{bmatrix} + \begin{bmatrix} -1 \\ 1 \\ 1 \\ 2 \end{bmatrix}$
其中 $\begin{bmatrix} 3 \\ 3 \\ 0 \\ 0 \end{bmatrix}$ 是 $\mathbf{y}$ 在 $W$ 上的投影,$\begin{bmatrix} -1 \\ 1 \\ 1 \\ 2 \end{bmatrix}$ 是垂直于 $W$ 的分量。

格拉姆-施密特方法

目标

将线性无关向量组 $\{\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_p\}$ 转化为标准正交向量组 $\{\mathbf{u}_1, \mathbf{u}_2, \ldots, \mathbf{u}_p\}$。

步骤

① $\mathbf{v}_1 = \mathbf{x}_1$,$\mathbf{u}_1 = \frac{\mathbf{v}_1}{\left \|\mathbf{v}_1 \right \|}$
② 对 $k = 2, 3, \ldots, p$:
$\quad$ $\mathbf{v}_k = \mathbf{x}_k - \sum_{j=1}^{k-1}(\mathbf{x}_k \cdot \mathbf{u}_j)\mathbf{u}_j$
$\quad$ $\mathbf{u}_k = \frac{\mathbf{v}_k}{\left \| \mathbf{v}_k \right \|}$

例题

用格拉姆-施密特方法对以下向量进行标准正交化:
$\mathbf{x}_1 = \begin{bmatrix} 1 \\ 0 \\ 0 \\ 0 \end{bmatrix}$,$\mathbf{x}_2 = \begin{bmatrix} 1 \\ 1 \\ 0 \\ 0 \end{bmatrix}$,$\mathbf{x}_3 = \begin{bmatrix} 1 \\ 1 \\ 1 \\ 0 \end{bmatrix}$,$\mathbf{x}_4 = \begin{bmatrix} 1 \\ 1 \\ 1 \\ 1 \end{bmatrix}$

解:

第一步:$\mathbf{v}_1 = \mathbf{x}_1 = \begin{bmatrix} 1 \\ 0 \\ 0 \\ 0 \end{bmatrix}$,$\left \|\mathbf{v}_1\right \| = 1$,单位化 $\mathbf{v}_1$ 得, $\mathbf{u}_1 = \begin{bmatrix} 1 \\ 0 \\ 0 \\ 0 \end{bmatrix}$

第二步:$\mathbf{v}_2 = \mathbf{x}_2 - (\mathbf{x}_2 \cdot \mathbf{u}_1)\mathbf{u}_1$
$\mathbf{x}_2 \cdot \mathbf{u}_1 = 1$
$\mathbf{v}_2 = \begin{bmatrix} 1 \\ 1 \\ 0 \\ 0 \end{bmatrix} - 1 \cdot \begin{bmatrix} 1 \\ 0 \\ 0 \\ 0 \end{bmatrix} = \begin{bmatrix} 0 \\ 1 \\ 0 \\ 0 \end{bmatrix}$
$\left \|\mathbf{v}_2 \right \| = 1$,$\mathbf{u}_2 = \begin{bmatrix} 0 \\ 1 \\ 0 \\ 0 \end{bmatrix}$

第三步:$\mathbf{v}_3 = \mathbf{x}_3 - (\mathbf{x}_3 \cdot \mathbf{u}_1)\mathbf{u}_1 - (\mathbf{x}_3 \cdot \mathbf{u}_2)\mathbf{u}_2$
$\mathbf{x}_3 \cdot \mathbf{u}_1 = 1$,$\mathbf{x}_3 \cdot \mathbf{u}_2 = 1$
$\mathbf{v}_3 = \begin{bmatrix} 1 \\ 1 \\ 1 \\ 0 \end{bmatrix} - 1 \cdot \begin{bmatrix} 1 \\ 0 \\ 0 \\ 0 \end{bmatrix} - 1 \cdot \begin{bmatrix} 0 \\ 1 \\ 0 \\ 0 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \\ 1 \\ 0 \end{bmatrix}$
$\left \|\mathbf{v}_3 \right \| = 1$,$\mathbf{u}_3 = \begin{bmatrix} 0 \\ 0 \\ 1 \\ 0 \end{bmatrix}$

第四步:$\mathbf{v}_4 = \mathbf{x}_4 - (\mathbf{x}_4 \cdot \mathbf{u}_1)\mathbf{u}_1 - (\mathbf{x}_4 \cdot \mathbf{u}_2)\mathbf{u}_2 - (\mathbf{x}_4 \cdot \mathbf{u}_3)\mathbf{u}_3$
$\mathbf{x}_4 \cdot \mathbf{u}_1 = 1$,$\mathbf{x}_4 \cdot \mathbf{u}_2 = 1$,$\mathbf{x}_4 \cdot \mathbf{u}_3 = 1$
$\mathbf{v}_4 = \begin{bmatrix} 1 \\ 1 \\ 1 \\ 1 \end{bmatrix} - 1 \cdot \begin{bmatrix} 1 \\ 0 \\ 0 \\ 0 \end{bmatrix} - 1 \cdot \begin{bmatrix} 0 \\ 1 \\ 0 \\ 0 \end{bmatrix} - 1 \cdot \begin{bmatrix} 0 \\ 0 \\ 1 \\ 0 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \\ 0 \\ 1 \end{bmatrix}$
$\left \|\mathbf{v}_4 \right \| = 1$,$\mathbf{u}_4 = \begin{bmatrix} 0 \\ 0 \\ 0 \\ 1 \end{bmatrix}$

结论:标准正交向量组为 $\left\{\begin{bmatrix} 1 \\ 0 \\ 0 \\ 0 \end{bmatrix}, \begin{bmatrix} 0 \\ 1 \\ 0 \\ 0 \end{bmatrix}, \begin{bmatrix} 0 \\ 0 \\ 1 \\ 0 \end{bmatrix}, \begin{bmatrix} 0 \\ 0 \\ 0 \\ 1 \end{bmatrix}\right\}$

QR分解

定义

对于 $m \times n$ 矩阵 $A$($m \geq n$,列向量线性无关),存在 $m \times n$ 正交矩阵 $Q$ 和 $n \times n$ 上三角矩阵 $R$ 使得:

$$A = QR$$
计算方法

使用格拉姆-施密特方法对 $A$ 的列向量进行正交化和标准化。
$Q$ 的列是标准化后的列向量。
$R$ 的第 $(i,j)$ 个元素为 $\mathbf{a}_j \cdot \mathbf{q}_i$(当 $i \leq j$);或者,$R=Q^TA$。

最小二乘法

问题

对于超定方程组 $A\mathbf{x} = \mathbf{b}$(无解的情况),求最小化 $\left \| A\mathbf{x} - \mathbf{b}\right \|^2$ 的向量 $\mathbf{x}$。

解法

最小二乘解满足正规方程(或法方程)

$$A^T A\mathbf{x} = A^T\mathbf{b}$$

最小二乘解为 $\mathbf{x} = (A^T A)^{-1}A^T\mathbf{b}$。

应用

常用于数据拟合、回归分析等领域。

谱分解

定义

对于对称矩阵 $A$,存在正交矩阵 $P$ 使得 $A = PDP^T$,其中 $D$ 是对角矩阵。
这种分解称为谱分解

$$A = \lambda_1\mathbf{u}_1\mathbf{u}_1^T + \lambda_2\mathbf{u}_2\mathbf{u}_2^T + \cdots + \lambda_n\mathbf{u}_n\mathbf{u}_n^T$$

其中 $\lambda_i$ 是特征值,$\mathbf{u}_i$ 是单位化的特征向量。

二次型

定义

关于变量 $x_1, x_2, \ldots, x_n$ 的二次型是形如:

$$f(\mathbf{x}) = \sum_{i=1}^{n}\sum_{j=1}^{n}a_{ij}x_ix_j$$

的二次齐次多项式。可简写为 $f(\mathbf{x}) = \mathbf{x}^T A\mathbf{x}$,其中 $A$ 是对称矩阵。

例题

将二次型 $f(x_1,x_2) = x_1^2 + 4x_1x_2 + 3x_2^2$ 用矩阵表示。

解:$\mathbf{x}=\begin{bmatrix} x_1 \\ x_2 \end{bmatrix}, A = \begin{bmatrix} 1 & 2 \\ 2 & 3 \end{bmatrix}$,$f(\mathbf{x}) = \mathbf{x}^T A\mathbf{x}$

二次型矩阵

定义

表示二次型 $f(\mathbf{x}) = \mathbf{x}^T A\mathbf{x}$ 的对称矩阵 $A$ 称为该二次型的矩阵

对应规则

对于 $x_i^2$ 的系数 $a_{ii}$ 直接为对角线元素。
对于 $x_ix_j$($i \neq j$)的系数 $a_{ij}$,分成两半:$\frac{a_{ij}}{2}$ 放在第 $(i,j)$ 和 $(j,i)$ 位置。

二次型的标准型

定义

形如 $f = \lambda_1y_1^2 + \lambda_2y_2^2 + \cdots + \lambda_ny_n^2$ 的二次型称为标准型

化为标准型的方法

① 使用正交变换 $\mathbf{x} = P\mathbf{y}$,其中 $P$ 是由二次型矩阵的特征向量组成的正交矩阵
② 使用配方法
③ 使用合同变换法(对二次型矩阵进行一系列的初等行变换和相应的列变换)

例题

用配方法化简二次型 $f(x_1, x_2, x_3) = x_1^2 + 4x_2^2 + 4x_3^2 + 4x_1x_2 - 8x_2x_3$ 为标准型。

解:

第一步:对 $x_1$ 配方。
$f = x_1^2 + 4x_1x_2 + 4x_2^2 + 4x_3^2 - 8x_2x_3$
$= (x_1 + 2x_2)^2 - 4x_2^2 + 4x_2^2 + 4x_3^2 - 8x_2x_3$
$= (x_1 + 2x_2)^2 + 4x_3^2 - 8x_2x_3$


第二步:对 $x_2, x_3$ 配方。
$f = (x_1 + 2x_2)^2 + 4x_3^2 - 8x_2x_3$
$= (x_1 + 2x_2)^2 + 4(x_3^2 - 2x_2x_3)$
$= (x_1 + 2x_2)^2 + 4[(x_3 - x_2)^2 - x_2^2]$
$= (x_1 + 2x_2)^2 + 4(x_3 - x_2)^2 - 4x_2^2$
$= (x_1 + 2x_2)^2 - 4x_2^2 + 4(x_3 - x_2)^2$


第三步:令 $y_1 = x_1 + 2x_2$,$y_2 = x_2$,$y_3 = x_3 - x_2$,

则得标准型:$f = y_1^2 - 4y_2^2 + 4y_3^2$


说明:① 通过配方法得到的标准型中的系数并不是原二次型矩阵的特征值。
② 把一个二次型转化为标准型可以是不唯一的。


补充:本例中的二次型矩阵的特征值手动不容易进行求解。实际应用中可以使用一些线性代数库进行求解。例如:

                
>>> import numpy as np
>>> A = np.array([[1,2,0],[2,4,-4],[0,-4,4]])
>>> eigenvalues, eigenvectors = np.linalg.eig(A)
>>> eigenvalues
array([-1.07712638,  1.79313866,  8.28398772])
>>> eigenvectors
array([[-0.60322975, -0.77291405, -0.19676823],
       [ 0.62649221, -0.30651401, -0.71662868],
       [ 0.49358016, -0.5555655 ,  0.669123  ]])
                
            

主轴定理

定理

对于任何二次型 $f(\mathbf{x}) = \mathbf{x}^T A\mathbf{x}$($A$ 为对称矩阵),存在正交变换 $\mathbf{x} = P\mathbf{y}$ 使得二次型化为标准型:

$$f = \lambda_1y_1^2 + \lambda_2y_2^2 + \cdots + \lambda_ny_n^2$$

其中 $\lambda_i$ 是 $A$ 的特征值,$P$ 的列是单位化的特征向量。

例题

用正交变换法化简二次型 $f(x_1, x_2, x_3) = x_1^2 + 4x_2^2 + 4x_3^2 - 4x_1x_2 + 4x_1x_3 - 8x_2x_3$ 为标准型。

解:

第一步:写出二次型矩阵。
$A = \begin{bmatrix} 1 & -2 & 2 \\ -2 & 4 & -4 \\ 2 & -4 & 4 \end{bmatrix}$


第二步:求矩阵 $A$ 的特征值。
$\det(A - \lambda I) = \det\begin{bmatrix} 1-\lambda & -2 & 2 \\ -2 & 4-\lambda & -4 \\ 2 & -4 & 4-\lambda \end{bmatrix} = \lambda^2(\lambda-9) = 0$
计算得特征值为:$\lambda_1 = 0, \lambda_2 = 0, \lambda_3 = 9$


第三步:求特征向量并标准化。
对 $\lambda_{1,2} = 0$:由 $(A-0I)\mathbf{x}=0$ 的解集可得特征向量 $\mathbf{u}_1 = \begin{bmatrix} 2 \\ 1 \\ 0 \end{bmatrix}, \mathbf{u}_2 = \begin{bmatrix} -2 \\ 0 \\ 1 \end{bmatrix}$,
对其正交化得 $\mathbf{v}_1 = \mathbf{u}_1 = \begin{bmatrix} 2 \\ 1 \\ 0 \end{bmatrix}, \mathbf{v}_2 = \mathbf{u}_2 - \frac{\mathbf{u}_2 \cdot \mathbf{v}_1}{\mathbf{v}_1 \cdot \mathbf{v}_1}\mathbf{v}_1 = \begin{bmatrix} -2/5 \\ 4/5 \\ 1 \end{bmatrix}$
对其单位化得 $\mathbf{\eta}_1 = \begin{bmatrix} 2/\sqrt{5} \\ 1/\sqrt{5} \\ 0 \end{bmatrix}, \mathbf{\eta}_2 = \begin{bmatrix} -2/3\sqrt{5} \\ 4/3\sqrt{5} \\ 5/\sqrt{5} \end{bmatrix}$,
对 $\lambda_3 = 9$:由 $(A-9I)\mathbf{x}=0$ 的解集可得特征向量 $\mathbf{u}_3 = \begin{bmatrix} 1 \\ -2 \\ 2 \end{bmatrix}$,
对其单位化得 $\mathbf{\eta}_3 = \begin{bmatrix} 1/3 \\ -2/3 \\ 2/3 \end{bmatrix}$


第四步:构造正交矩阵 $P$。
$P = \begin{bmatrix} \mathbf{\eta}_1 & \mathbf{\eta}_2 & \mathbf{\eta}_3 \end{bmatrix} = \begin{bmatrix} 2/\sqrt{5} & -2/3\sqrt{5} & 1/3 \\ 1/\sqrt{5} & 4/3\sqrt{5} & -2/3 \\ 0 & 5/3\sqrt{5} & 2/3 \end{bmatrix}$


第五步:进行正交变换 $\mathbf{x} = P\mathbf{y}$,化二次型为标准型。
$f = \lambda_1y_1^2 + \lambda_2y_2^2 + \lambda_3y_3^2 = 9y_3^2$

惯性指数

定义

对于二次型 $f(\mathbf{x}) = \mathbf{x}^T A\mathbf{x}$ 的标准型 $f = \lambda_1y_1^2 + \lambda_2y_2^2 + \cdots + \lambda_ny_n^2$,定义:
正惯性指数 $p$:标准型中正特征值的个数
负惯性指数 $q$:标准型中负特征值的个数
符号差:$p - q$

性质

① 惯性指数与选择的正交变换无关,是二次型的本质性质
② $p + q \leq n$($n$ 是矩阵的阶数)
③ $p + q = n$ 当且仅当矩阵 $A$ 是满秩的
④ 若两个二次型有相同的正惯性指数和负惯性指数,则它们相等

例题

二次型 $f = y_1^2 + 2y_2^2 - 3y_3^2 + 4y_4^2$ 的惯性指数为多少?

解:标准型中有 3 个正特征值($1, 2, 4$)和 1 个负特征值($-3$)。
正惯性指数 $p = 3$,负惯性指数 $q = 1$,符号差 $p - q = 3 - 1 = 2$。

二次型的分类

分类方法

根据标准型中的符号分类:
正定:所有系数 $\lambda_i > 0$
负定:所有系数 $\lambda_i < 0$
半正定:所有系数 $\lambda_i \geq 0$
半负定:所有系数 $\lambda_i \leq 0$
不定:系数既有正也有负

判断准则

等同于判断矩阵 $A$ 的特征值的符号。

正定矩阵

定义

对称矩阵 $A$ 是正定矩阵,如果对所有非零向量 $\mathbf{x}$,都有 $\mathbf{x}^T A\mathbf{x} > 0$。

判断准则

① 所有特征值都为正
② 所有主子式都为正
③ 存在可逆矩阵 $B$ 使得 $A = B^T B$

例题

判断 $A = \begin{bmatrix} 2 & 1 \\ 1 & 2 \end{bmatrix}$ 是否正定。

解:特征方程 $\det(A - \lambda I) = (2-\lambda)^2 - 1 = 0$,得 $\lambda = 1, 3$。
因为两个特征值都为正,所以 $A$ 正定。

奇异值分解

定义

对于任何 $m \times n$ 矩阵 $A$,存在 $m \times m$ 正交矩阵 $U$、$n \times n$ 正交矩阵 $V$ 和 $m \times n$ 对角矩阵 $\Sigma$ 使得:

$$A = U\Sigma V^T$$

其中 $\Sigma$ 的对角线元素 $\sigma_1 \geq \sigma_2 \geq \cdots \geq 0$ 称为 $A$ 的奇异值

计算方法

• $A^TA$ 的特征值是 $\sigma_1^2, \sigma_2^2, \ldots$,即奇异值是 $A^TA$ 的特征值的开方
• $V$ 的列是 $A^TA$ 的单位化特征向量
• $U$ 的列是 $AA^T$ 的单位化特征向量

应用

用于数据压缩、图像处理、推荐系统等。

例题

求矩阵 $A = \begin{bmatrix} 1 & 1 \\ 1 & 1 \\ 0 & 0 \end{bmatrix}$ 的奇异值分解。

解:

第一步:计算 $A^T A = \begin{bmatrix} 1 & 1 & 0 \\ 1 & 1 & 0 \end{bmatrix}\begin{bmatrix} 1 & 1 \\ 1 & 1 \\ 0 & 0 \end{bmatrix} = \begin{bmatrix} 2 & 2 \\ 2 & 2 \end{bmatrix}$


第二步:求 $A^T A$ 的特征值和特征向量。
特征方程:$\det\begin{bmatrix} 2-\lambda & 2 \\ 2 & 2-\lambda \end{bmatrix} = (2-\lambda)^2 - 4 = 0$
得 $\lambda_1 = 4$(重数为 2), $\lambda_2 = 0$


第三步:计算奇异值。
$\sigma_1 = \sqrt{4} = 2, \sigma_2 = \sqrt{0} = 0$


第四步:求标准化特征向量作为 $V$ 的列。
对 $\lambda_1 = 4$:特征向量 $\begin{bmatrix} 1 \\ 1 \end{bmatrix}$,标准化得 $\mathbf{v}_1 = \begin{bmatrix} 1/\sqrt{2} \\ 1/\sqrt{2} \end{bmatrix}$
对 $\lambda_2 = 0$:特征向量 $\begin{bmatrix} 1 \\ -1 \end{bmatrix}$,标准化得 $\mathbf{v}_2 = \begin{bmatrix} 1/\sqrt{2} \\ -1/\sqrt{2} \end{bmatrix}$
所以 $V = \begin{bmatrix} 1/\sqrt{2} & 1/\sqrt{2} \\ 1/\sqrt{2} & -1/\sqrt{2} \end{bmatrix}$


第五步:计算 $AA^T$ 的特征值和特征向量。
$AA^T = \begin{bmatrix} 1 & 1 \\ 1 & 1 \\ 0 & 0 \end{bmatrix}\begin{bmatrix} 1 & 1 & 0 \\ 1 & 1 & 0 \end{bmatrix} = \begin{bmatrix} 2 & 2 & 0 \\ 2 & 2 & 0 \\ 0 & 0 & 0 \end{bmatrix}$
特征值为 $\lambda_1 = 4, \lambda_2 = 0$(重数为 2)


第六步:求 $U$ 的列($AA^T$ 的标准化特征向量)。
对 $\lambda_1 = 4$:求解 $(AA^T - 4I)\mathbf{x} = \mathbf{0}$,得特征向量 $\begin{bmatrix} 1 \\ 1 \\ 0 \end{bmatrix}$,标准化得 $\mathbf{u}_1 = \begin{bmatrix} 1/\sqrt{2} \\ 1/\sqrt{2} \\ 0 \end{bmatrix}$
对 $\lambda_2 = 0$(选择两个正交的特征向量):
$\mathbf{u}_2 = \begin{bmatrix} -1/\sqrt{2} \\ 1/\sqrt{2} \\ 0 \end{bmatrix}$(与 $\mathbf{u}_1$ 正交)
$\mathbf{u}_3 = \begin{bmatrix} 0 \\ 0 \\ 1 \end{bmatrix}$(与前两者正交)
所以 $U = \begin{bmatrix} 1/\sqrt{2} & -1/\sqrt{2} & 0 \\ 1/\sqrt{2} & 1/\sqrt{2} & 0 \\ 0 & 0 & 1 \end{bmatrix}$


第七步:$\Sigma$ 是 $3 \times 2$ 的矩阵:$\Sigma = \begin{bmatrix} 2 & 0 \\ 0 & 0 \\ 0 & 0 \end{bmatrix}$


因此,$A = U\Sigma V^T$,其中 $U$ 是 $3 \times 3$ 正交矩阵,$\Sigma$ 是 $3 \times 2$ 对角矩阵,$V^T$ 是 $2 \times 2$ 正交矩阵。奇异值为 $\sigma_1 = 2, \sigma_2 = 0$。


补充:本题也可以使用 python 进行求解。

            
>>> import numpy as np
>>> A = np.array([[1,1],[1,1],[0,0]])
>>> A
array([[1, 1],
       [1, 1],
       [0, 0]])
>>> U, S, VT = np.linalg.svd(A)
>>> U
array([[-0.70710678, -0.70710678,  0.        ],
       [-0.70710678,  0.70710678,  0.        ],
       [ 0.        ,  0.        ,  1.        ]])
>>> VT.T
array([[-0.70710678, -0.70710678],
       [-0.70710678,  0.70710678]])
>>> S
array([2., 0.])
>>> Sigma = np.zeros(A.shape)
>>> np.fill_diagonal(Sigma, S)
>>> Sigma
array([[2., 0.],
       [0., 0.],
       [0., 0.]])
>>> np.dot(U, np.dot(Sigma, VT))
array([[1., 1.],
       [1., 1.],
       [0., 0.]])