
首页

归档

关于
Linear Algebra

Linear Algebra

文章目录

  1. 1. 线性无关
  2. 2. 线性方程组的解
  3. 3. 正交矩阵 Orthogonal Matrix
    1. 3.1. 正交矩阵的几何意义
    2. 3.2. Schmidt Orthogonalization 施密特正交化
  4. 4. 行列式 Determinant
    1. 4.1. 行列式的几何意义
    2. 4.2. 范德蒙德行列式
  5. 5. 迹 Trace
  6. 6. 特征向量与特征值 Eigenvectors and Eigenvalues
    1. 6.1. 求特征值 Finding Eigenvalues
    2. 6.2. 求特征向量 Finding Eigenvectors
    3. 6.3. 特征值和特征向量的几何意义
  7. 7. 对角化 Diagonalization
    1. 7.1. 矩阵的多项式、对角化与特征值
  8. 8. 对称矩阵 Symmetric Matrix
  9. 9. 相似矩阵
    1. 9.1. Jordan 标准型 Jordan Normal Form
  10. 10. 正定矩阵 Positive Definite Matrix
    1. 10.1. 所有主子矩阵的行列式为正数
    2. 10.2. 所有主元为正数
    3. 10.3. Positive Semidefinite Matrices 正半定矩阵
    4. 10.4. ax2+2bxy+cy2=1 ax^2 + 2bxy + cy^2 = 1 ax2+2bxy+cy2=1 和 二次型
    5. 10.5. 多元函数判断极小值 Test for a Minimum
  11. 11. 秩-零化度定理
    1. 11.1. 像空间和核空间
  12. 12. SVD 分解
z0z0r4
z0z0r4
文章
6
分类
10
标签
9

首页

归档

关于
2025-12-08 2026-01-16
learning-notesmathlinear-algebra

此处用于记录我学习 MIT 18.06 Linear Algebra 的笔记。

顺便学习 Latex 排版。

每次看完都会忘记,比较难受,尝试记住

线性无关

当一组向量 v1,v2,…,vn v_1, v_2, \ldots, v_n v1​,v2​,…,vn​ 满足以下条件时,称其为线性无关:

c1v1+c2v2+…+cnvn=0⇒c1=c2=…=cn=0 c_1 v_1 + c_2 v_2 + \ldots + c_n v_n = 0 \Rightarrow c_1 = c_2 = \ldots = c_n = 0 c1​v1​+c2​v2​+…+cn​vn​=0⇒c1​=c2​=…=cn​=0

否则称其为线性相关。

向量组 A A A 线性无关的充要条件是 R(A)=n R(A) = n R(A)=n,其中 n n n 是向量的个数。

可以通过行简化阶梯形矩阵来判断向量组是否线性无关,如果矩阵 A A A 的行简化阶梯形矩阵有 n n n 个主元,则向量组线性无关,否则线性相关。

向量组 A A A 和 B B B 等价的充要条件是 R(A)=R(B)=R([A,B]) R(A) = R(B) = R([A, B]) R(A)=R(B)=R([A,B])。

β \beta β 能被向量组 A A A 线性表示的充要条件是 R(A)=R([A,β]) R(A) = R([A, \beta]) R(A)=R([A,β])。

Tip: 非主元列 α \alpha α 为 (c1,c2,…,cn) \begin{pmatrix} c_1, c_2, \ldots, c_n \end{pmatrix}(c1​,c2​,…,cn​​),则 α \alpha α 的线性表示为 α=−∑icicjei \alpha = - \sum_{i} \frac{c_i}{c_j} e_i α=−∑i​cj​ci​​ei​,其中 ei e_i ei​ 是主元列。(即取主元,然后组合 α \alpha α 的每一个元素)

  • 若 R(A)≤R(B) R(A) \le R(B) R(A)≤R(B),不能推出 A A A 可以被 B B B 线性表示。

  • 若 α1,α2,…,αn \alpha_1, \alpha_2, \ldots, \alpha_n α1​,α2​,…,αn​ 线性相关,不能推出 αi \alpha_i αi​ 可以被其他向量线性表示。

线性方程组的解

设有线性方程组 Ax=b Ax = b Ax=b,其中 A A A 是 m×n m \times n m×n 矩阵,x x x 是 n×1 n \times 1 n×1 向量,b b b 是 m×1 m \times 1 m×1 向量。

考虑 Ax=b Ax=b Ax=b:

  • 有解 -> R(A)=R([A,b]) R(A) = R([A, b]) R(A)=R([A,b])
    • 唯一解 -> R(A)=n R(A) = n R(A)=n
    • 无穷多解 -> R(A)<n R(A) < n R(A)<n
  • 无解 -> R(A)<R([A,b]) R(A) < R([A, b]) R(A)<R([A,b])

考虑齐次线性方程组 Ax=0 Ax = 0 Ax=0:

  • R(A) = n -> 唯一解 x=0 x = 0 x=0
  • R(A) < n -> 无穷多解

从几何上看,线性方程组 Ax=b Ax = b Ax=b 有解,表示向量 b b b 可以被矩阵 A A A 的列空间线性表示。

如果有唯一解,表示矩阵 A A A 的列空间是 Rm \mathbb{R}^m Rm,且矩阵 A A A 的列向量线性无关。

如果有无穷多解,表示矩阵 A A A 的列空间是 Rm \mathbb{R}^m Rm,但矩阵 A A A 的列向量线性相关。

如果无解,表示向量 b b b 不在矩阵 A A A 的列空间内。

正交矩阵 Orthogonal Matrix

正交矩阵有 Q Q Q 满足 QTQ=I Q^T Q = I QTQ=I。

因为 Q Q Q 的每一列 qi q_i qi​ 都是单位向量,并且两两正交,所以 qTq=1 q^T q = 1 qTq=1。

因此,在 Q Q Q 和 QT Q^T QT 相乘时,对应元素为 Qi∗QjT Q_i * Q_j^T Qi​∗QjT​。只有当 i=j i = j i=j 时,才会有非零值,且为 1。否则任意两列 qiq_iqi​ 和 qjq_jqj​ 的互相垂直,内积为 0。

此外,因为有 QTQ=I Q^T Q = I QTQ=I,所以 Q−1=QT Q^{-1} = Q^T Q−1=QT。

正交矩阵的几何意义

矩阵 Q Q Q 进行变换时,Q Q Q 会保持向量的长度和角度不变,然后变换基,也可以理解为旋转和镜像。

Schmidt Orthogonalization 施密特正交化

给定一组线性无关的向量 a1,a2,…,an a_1, a_2, \ldots, a_n a1​,a2​,…,an​,可以通过施密特正交化将其转换为一组正交向量 q1,q2,…,qn q_1, q_2, \ldots, q_n q1​,q2​,…,qn​。

具体步骤如下:

  1. 设 q1=a1 q_1 = a_1 q1​=a1​。

  2. 对于 k=2,3,…,n k = 2, 3, \ldots, n k=2,3,…,n,计算 ak a_k ak​ 在 q1,q2,…,qk−1 q_1, q_2, \ldots, q_{k-1} q1​,q2​,…,qk−1​ 上的投影,并将其从 ak a_k ak​ 中减去:

    projqi(ak)=akTqiqiTqiqiproj_{q_i}(a_k) = \frac{a_k^T q_i}{q_i^T q_i} q_i projqi​​(ak​)=qiT​qi​akT​qi​​qi​

    uk=ak−∑i=1k−1projqi(ak)u_k = a_k - \sum_{i=1}^{k-1} proj_{q_i}(a_k) uk​=ak​−i=1∑k−1​projqi​​(ak​)

  3. 将 uk u_k uk​ 归一化,得到 qk q_k qk​:

    qk=uk∣∣uk∣∣q_k = \frac{u_k}{||u_k||} qk​=∣∣uk​∣∣uk​​

通过上述步骤,可以得到一组正交向量 q1,q2,…,qn q_1, q_2, \ldots, q_n q1​,q2​,…,qn​。

举例来说,给定向量 a1=[110] a_1 = \begin{bmatrix} 1 \\ 1 \\ 0 \end{bmatrix} a1​=​110​​ , a2=[101] a_2 = \begin{bmatrix} 1 \\ 0 \\ 1 \end{bmatrix} a2​=​101​​ 和 a3=[011] a_3 = \begin{bmatrix} 0 \\ 1 \\ 1 \end{bmatrix} a3​=​011​​。

  1. 设 q1=a1=[110] q_1 = a_1 = \begin{bmatrix} 1 \\ 1 \\ 0 \end{bmatrix} q1​=a1​=​110​​。

  2. 计算 a2 a_2 a2​ 在 q1 q_1 q1​ 上的投影:

    projq1(a2)=a2Tq1q1Tq1q1=[101][110][110][110][110]=12[110]=[0.50.50]proj_{q_1}(a_2) = \frac{a_2^T q_1}{q_1^T q_1} q_1 = \frac{\begin{bmatrix} 1 & 0 & 1 \end{bmatrix} \begin{bmatrix} 1 \\ 1 \\ 0 \end{bmatrix}}{\begin{bmatrix} 1 & 1 & 0 \end{bmatrix} \begin{bmatrix} 1 \\ 1 \\ 0 \end{bmatrix}} \begin{bmatrix} 1 \\ 1 \\ 0 \end{bmatrix} = \frac{1}{2} \begin{bmatrix} 1 \\ 1 \\ 0 \end{bmatrix} = \begin{bmatrix} 0.5 \\ 0.5 \\ 0 \end{bmatrix} projq1​​(a2​)=q1T​q1​a2T​q1​​q1​=[1​1​0​]​110​​[1​0​1​]​110​​​​110​​=21​​110​​=​0.50.50​​

    然后计算 u2 u_2 u2​:

    u2=a2−projq1(a2)=[101]−[0.50.50]=[0.5−0.51]u_2 = a_2 - proj_{q_1}(a_2) = \begin{bmatrix} 1 \\ 0 \\ 1 \end{bmatrix} - \begin{bmatrix} 0.5 \\ 0.5 \\ 0 \end{bmatrix} = \begin{bmatrix} 0.5 \\ -0.5 \\ 1 \end{bmatrix} u2​=a2​−projq1​​(a2​)=​101​​−​0.50.50​​=​0.5−0.51​​

  3. 然后计算 u3 u_3 u3​:

    计算 a3 a_3 a3​ 在 q1 q_1 q1​ 和 q2 q_2 q2​ 上的投影:

    projq1(a3)=a3Tq1q1Tq1q1=[011][110][110][110][110]=12[110]=[0.50.50]proj_{q_1}(a_3) = \frac{a_3^T q_1}{q_1^T q_1} q_1 = \frac{\begin{bmatrix} 0 & 1 & 1 \end{bmatrix} \begin{bmatrix} 1 \\ 1 \\ 0 \end{bmatrix}}{\begin{bmatrix} 1 & 1 & 0 \end{bmatrix} \begin{bmatrix} 1 \\ 1 \\ 0 \end{bmatrix}} \begin{bmatrix} 1 \\ 1 \\ 0 \end{bmatrix} = \frac{1}{2} \begin{bmatrix} 1 \\ 1 \\ 0 \end{bmatrix} = \begin{bmatrix} 0.5 \\ 0.5 \\ 0 \end{bmatrix} projq1​​(a3​)=q1T​q1​a3T​q1​​q1​=[1​1​0​]​110​​[0​1​1​]​110​​​​110​​=21​​110​​=​0.50.50​​

    projq2(a3)=a3Tq2q2Tq2q2=[011][0.5−0.51][0.5−0.51][0.5−0.51][0.5−0.51]=0.51.5[0.5−0.51]=[16−1613]proj_{q_2}(a_3) = \frac{a_3^T q_2}{q_2^T q_2} q_2 = \frac{\begin{bmatrix} 0 & 1 & 1 \end{bmatrix} \begin{bmatrix} 0.5 \\ -0.5 \\ 1 \end{bmatrix}}{\begin{bmatrix} 0.5 & -0.5 & 1 \end{bmatrix} \begin{bmatrix} 0.5 \\ -0.5 \\ 1 \end{bmatrix}} \begin{bmatrix} 0.5 \\ -0.5 \\ 1 \end{bmatrix} = \frac{0.5}{1.5} \begin{bmatrix} 0.5 \\ -0.5 \\ 1 \end{bmatrix} = \begin{bmatrix} \frac{1}{6} \\ -\frac{1}{6} \\ \frac{1}{3} \end{bmatrix} projq2​​(a3​)=q2T​q2​a3T​q2​​q2​=[0.5​−0.5​1​]​0.5−0.51​​[0​1​1​]​0.5−0.51​​​​0.5−0.51​​=1.50.5​​0.5−0.51​​=​61​−61​31​​​

    然后计算 u3 u_3 u3​:

    u3=a3−projq1(a3)−projq2(a3)=[011]−[0.50.50]−[16−1613]=[−232323]u_3 = a_3 - proj_{q_1}(a_3) - proj_{q_2}(a_3) = \begin{bmatrix} 0 \\ 1 \\ 1 \end{bmatrix} - \begin{bmatrix} 0.5 \\ 0.5 \\ 0 \end{bmatrix} - \begin{bmatrix} \frac{1}{6} \\ -\frac{1}{6} \\ \frac{1}{3} \end{bmatrix} = \begin{bmatrix} -\frac{2}{3} \\ \frac{2}{3} \\ \frac{2}{3} \end{bmatrix} u3​=a3​−projq1​​(a3​)−projq2​​(a3​)=​011​​−​0.50.50​​−​61​−61​31​​​=​−32​32​32​​​

  4. 最后归一化得到

    q1=12[110],q2=16[1−12],q3=13[−111] q_1 = \frac{1}{\sqrt{2}} \begin{bmatrix} 1 \\ 1 \\ 0 \end{bmatrix}, q_2 = \frac{1}{\sqrt{6}} \begin{bmatrix} 1 \\ -1 \\ 2 \end{bmatrix}, q_3 = \frac{1}{\sqrt{3}} \begin{bmatrix} -1 \\ 1 \\ 1 \end{bmatrix} q1​=2​1​​110​​,q2​=6​1​​1−12​​,q3​=3​1​​−111​​

行列式 Determinant

行列式是一个标量值,表示矩阵的某些性质。对于 n×n n \times n n×n 矩阵 A A A,其行列式记为 det(A) det(A) det(A) 或 ∣A∣ |A| ∣A∣。

行列式有三个重要性质:

  1. The determinant of the n by n identity matrix is 1. 即 det(I)=1 det(I) = 1 det(I)=1。

  2. The determinant changes sign when two rows are exchanged. 即交换矩阵的两行,行列式的值会变号。

  3. The determinant is a linear function of each row separately. 即行列式对每一行都是线性函数。

    • 如果矩阵的一行乘以一个标量 k k k,则行列式也乘以 k k k。

    • 如果矩阵的一行是两行之和,则行列式等于这两行分别拆分计算的行列式之和。

利用这三个性质,可以推导出其他性质:

  1. 如果矩阵有两行相同,则行列式为 0。

    因为根据性质 2,交换这两行会使行列式变号,但行列式并没有发生变化,所以行列式必须为 0。

  2. 将行列式的一行加上或者减去另一行,行列式的值不变。

    因为根据性质 3,行列式是线性函数,所以可以将该行拆分成两部分,一部分是原来的行,另一部分是被加上或者减去的行。

    同时,拆分出来的矩阵,将所乘的标量提出后,会有两行相同,根据性质 4,行列式为 0。因此,行列式相加后的值不变。

  3. 如果行列式有全零行,那么行列式为 0。

    因为可以将该行加上或者减去其他行,变成两行相同的情况,根据性质 5,行列式的值不变,又因为根据性质 4,所以行列式为 0。

  4. 如果行列式是三角矩阵(上三角矩阵或者下三角矩阵),则行列式等于对角线元素的乘积。

    因为可以通过将非对角线元素所在的行加上或者减去其他行,将其变成对角矩阵,而根据性质 3,提出每一行的对角线上的标量后,留下的矩阵是单位矩阵,行列式为 1。

    因此,行列式等于对角线元素的乘积。

  5. 如果 A A A 是奇异矩阵,则 det(A)=0 det(A) = 0 det(A)=0。如果 A A A 是可逆的矩阵,则 det(A)≠0 det(A) \neq 0 det(A)=0。

    将矩阵化为行阶梯形矩阵时,奇异矩阵会有全零行,根据性质 6,行列式为 0。

  6. det(AB)=det(A)⋅det(B) det(AB) = det(A) \cdot det(B) det(AB)=det(A)⋅det(B)。

  7. det(A−1)=1det(A) det(A^{-1}) = \frac{1}{det(A)} det(A−1)=det(A)1​。

    当 B=A−1 B = A^{-1} B=A−1 时,有 det(AB)=det(I)=1 det(AB) = det(I) = 1 det(AB)=det(I)=1,根据性质 9,det(AB)=det(A)⋅det(B) det(AB) = det(A) \cdot det(B) det(AB)=det(A)⋅det(B),所以 det(A)⋅det(A−1)=1 det(A) \cdot det(A^{-1}) = 1 det(A)⋅det(A−1)=1,即 det(A−1)=1det(A) det(A^{-1}) = \frac{1}{det(A)} det(A−1)=det(A)1​。

  8. det(AT)=det(A) det(A^T) = det(A) det(AT)=det(A)。

    当 A A A 不是奇异矩阵时,有 AA−1=I A A^{-1} = I AA−1=I,可以分解为 PA=LU PA = LU PA=LU,其中 P P P 是置换矩阵,L L L 是下三角矩阵,U U U 是上三角矩阵。

    因为 det(P)=det(PT) det(P) = det(P^T) det(P)=det(PT),因为 PTP=I P^TP = I PTP=I

    det(L)=det(LT) det(L) = det(L^T) det(L)=det(LT),因为 L L L 的对角线上都 1

    det(U)=det(UT) det(U) = det(U^T) det(U)=det(UT),因为上下三角矩阵的行列式只取决于对角线元素

    所以 det(A)=det(P)det(L)det(U)=det(PT)det(LT)det(UT)=det(AT) det(A) = det(P) det(L) det(U) = det(P^T) det(L^T) det(U^T) = det(A^T) det(A)=det(P)det(L)det(U)=det(PT)det(LT)det(UT)=det(AT)。

    当 A A A 是奇异矩阵时,det(A)=0 det(A) = 0 det(A)=0,同样有 det(AT)=0 det(A^T) = 0 det(AT)=0。

因为性质 11,因此行列式的行和列操作是一样的。

行列式的几何意义

行列式的绝对值表示矩阵变换后,空间的变化倍数,或者以单位立方体为例的体积变化倍数。

如果 det(A)>0 det(A) > 0 det(A)>0,表示变换保持了空间的定向;如果 det(A)<0 det(A) < 0 det(A)<0,表示变换改变了空间的定向(例如镜像反转)。

特例有 det(I)=1 det(I) = 1 det(I)=1,表示单位立方体的体积没有变化,空间没有变化。

范德蒙德行列式

设有 n n n 个不同的数 x1,x2,…,xn x_1, x_2, \ldots, x_n x1​,x2​,…,xn​,则范德蒙德行列式定义为:

V=∣1x1x12…x1n−11x2x22…x2n−1⋮⋮⋮⋱⋮1xnxn2…xnn−1∣V = \begin{vmatrix} 1 & x_1 & x_1^2 & \ldots & x_1^{n-1} \\ 1 & x_2 & x_2^2 & \ldots & x_2^{n-1} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_n & x_n^2 & \ldots & x_n^{n-1} \end{vmatrix} V=​11⋮1​x1​x2​⋮xn​​x12​x22​⋮xn2​​……⋱…​x1n−1​x2n−1​⋮xnn−1​​​

范德蒙德行列式的值为:

V=∏1≤i<j≤n(xj−xi)V = \prod_{1 \leq i < j \leq n} (x_j - x_i) V=1≤i<j≤n∏​(xj​−xi​)

迹 Trace

迹是矩阵对角线元素的和,记为 tr(A) tr(A) tr(A)。

迹同时也是特征值之和,因此迹的几何意义可以看作矩阵对空间的平均拉伸,尽管没有平均掉(没有除以 dim(A)dim(A)dim(A))。

特征向量与特征值 Eigenvectors and Eigenvalues

设有矩阵 A A A,如果存在向量 x x x 和标量 λ \lambda λ,使得 Ax=λx A x = \lambda x Ax=λx,则称 x x x 为矩阵 A A A 的特征向量,λ \lambda λ 为对应的特征值。

因此有

Ax−λx=0⇒(A−λI)x=0 A x - \lambda x = 0 \Rightarrow (A - \lambda I)x = 0 Ax−λx=0⇒(A−λI)x=0

要使得 (A−λI)x=0 (A - \lambda I)x = 0 (A−λI)x=0 有非零解,必须使得 A−λI A - \lambda I A−λI 为奇异矩阵,det(A−λI)=0 det(A - \lambda I) = 0 det(A−λI)=0。

求特征值 Finding Eigenvalues

要找到矩阵 A A A 的特征值,需要解特征多项式 det(A−λI)=0 det(A - \lambda I) = 0 det(A−λI)=0。 该多项式的根即为矩阵 A A A 的特征值。可能是重根。

求特征向量 Finding Eigenvectors

对于每个特征值 λ \lambda λ,将其代入方程 (A−λI)x=0 (A - \lambda I)x = 0 (A−λI)x=0,通过求解该齐次线性方程组,可以找到对应的特征向量 x x x。特征向量不一定唯一,当特征值是重根时,可能有多个线性无关的特征向量。


A−1x=λ−1x A^{-1} x = \lambda^{-1} x A−1x=λ−1x,因此,A A A 的特征值的倒数是 A−1 A^{-1} A−1 的特征值,特征向量相同。

证明如下:

Ax=λxA x = \lambda x Ax=λx

(A−1A)x=A−1λx(A^{-1} A) x = A^{-1} \lambda x (A−1A)x=A−1λx

Ix=λ(A−1x)Ix = \lambda (A^{-1} x) Ix=λ(A−1x)

A−1x=λ−1xA^{-1} x = \lambda^{-1} x A−1x=λ−1x


矩阵的幂次的特征值是对应特征值的幂次:

(Ak)x=λkx(A^k) x = \lambda^k x (Ak)x=λkx


此外,矩阵的行列式等于其特征值的乘积:

det(A)=λ1⋅λ2⋅…⋅λndet(A) = \lambda_1 \cdot \lambda_2 \cdot \ldots \cdot \lambda_n det(A)=λ1​⋅λ2​⋅…⋅λn​


矩阵的迹等于其特征值的和:

tr(A)=λ1+λ2+…+λntr(A) = \lambda_1 + \lambda_2 + \ldots + \lambda_n tr(A)=λ1​+λ2​+…+λn​


两个矩阵相加的特征值等于各自特征值的和并不总是成立,因为特征向量大多数情况下不同,但是同一矩阵内,矩阵多项式的特征值等于矩阵的特征值的多项式值。见 矩阵的多项式、对角化与特征值 部分。

特征值和特征向量的几何意义

从几何上看,实特征值对应的是矩阵对特征向量(输入向量)方向进行伸缩变换,而复特征值对应的是矩阵对输入向量进行旋转变换。

不同特征值的特征向量线性无关:

假设有 Ax1=λ1x1 A x_1 = \lambda_1 x_1 Ax1​=λ1​x1​ 和 Ax2=λ2x2 A x_2 = \lambda_2 x_2 Ax2​=λ2​x2​,其中 λ1≠λ2 \lambda_1 \neq \lambda_2 λ1​=λ2​。

假设 kx1=x2 k x_1 = x_2 kx1​=x2​,代入方程:

A(kx1)=λ2(kx1)A (k x_1) = \lambda_2 (k x_1) A(kx1​)=λ2​(kx1​)

k(Ax1)=k(λ2x1)k (A x_1) = k (\lambda_2 x_1) k(Ax1​)=k(λ2​x1​)

Ax1=λ2x1A x_1 = \lambda_2 x_1 Ax1​=λ2​x1​

与 λ1≠λ2 \lambda_1 \neq \lambda_2 λ1​=λ2​ 矛盾,因此 x1 x_1 x1​ 和 x2 x_2 x2​ 线性无关。

对角化 Diagonalization

如果一个矩阵 A A A 有 n n n 个线性无关的特征向量 x1,x2,…,xn x_1, x_2, \ldots, x_n x1​,x2​,…,xn​,则可以将这些特征向量组成一个矩阵 X=[x1,x2,…,xn] X = [x_1, x_2, \ldots, x_n] X=[x1​,x2​,…,xn​]。对应的特征值组成对角矩阵 Λ=diag(λ1,λ2,…,λn) \Lambda = diag(\lambda_1, \lambda_2, \ldots, \lambda_n) Λ=diag(λ1​,λ2​,…,λn​)。

则有 AX=XΛ A X = X \Lambda AX=XΛ。如果 X X X 可逆,则可以写成 A=XΛX−1 A = X \Lambda X^{-1} A=XΛX−1,称为矩阵 A A A 的对角化形式。

因为 X X X 需要可逆,因此需要 A 有 n n n 个线性无关的特征向量。必须满足矩阵 A A A 的特征多项式有 n n n 个不同的根,或者重根的代数重数等于几何重数。

有了对角化形式后,可以方便地计算矩阵的幂次 Ak=XΛkX−1 A^k = X \Lambda^k X^{-1} Ak=XΛkX−1,其中 Λk \Lambda^k Λk 只需对角线元素取幂。

矩阵的多项式、对角化与特征值

对于求矩阵多项式 p(A)=a0I+a1A+a2A2+…+akAk p(A) = a_0 I + a_1 A + a_2 A^2 + \ldots + a_k A^k p(A)=a0​I+a1​A+a2​A2+…+ak​Ak,如果知道矩阵 A A A 可以对角化,可以简化计算。

设 A=XΛX−1 A = X \Lambda X^{-1} A=XΛX−1, 则有

p(A)=a0I+a1(XΛX−1)+a2(XΛX−1)2+…+ak(XΛX−1)kp(A) = a_0 I + a_1 (X \Lambda X^{-1}) + a_2 (X \Lambda X^{-1})^2 + \ldots + a_k (X \Lambda X^{-1})^k p(A)=a0​I+a1​(XΛX−1)+a2​(XΛX−1)2+…+ak​(XΛX−1)k

=a0I+a1XΛX−1+a2XΛ2X−1+…+akXΛkX−1= a_0 I + a_1 X \Lambda X^{-1} + a_2 X \Lambda^2 X^{-1} + \ldots + a_k X \Lambda^k X^{-1} =a0​I+a1​XΛX−1+a2​XΛ2X−1+…+ak​XΛkX−1

=X(a0I+a1Λ+a2Λ2+…+akΛk)X−1= X (a_0 I + a_1 \Lambda + a_2 \Lambda^2 + \ldots + a_k \Lambda^k) X^{-1} =X(a0​I+a1​Λ+a2​Λ2+…+ak​Λk)X−1

=Xp(Λ)X−1= X p(\Lambda) X^{-1} =Xp(Λ)X−1

其中 p(Λ) p(\Lambda) p(Λ) 只需对角线元素取多项式值即可。

这将对 A A A 的多项式计算简化为对对角矩阵 Λ \Lambda Λ 的多项式,或者是对角元素的多项式计算。


此外,对于 det⁡(p(A)) \det(p(A)) det(p(A)) 如果已知矩阵 A A A 的特征值 λ1,λ2,…,λn \lambda_1, \lambda_2, \ldots, \lambda_n λ1​,λ2​,…,λn​

det⁡(p(A))=p(λ1)⋅p(λ2)⋅…⋅p(λn)\det(p(A)) = p(\lambda_1) \cdot p(\lambda_2) \cdot \ldots \cdot p(\lambda_n) det(p(A))=p(λ1​)⋅p(λ2​)⋅…⋅p(λn​)

对称矩阵 Symmetric Matrix

当矩阵 S S S 满足 S=ST S = S^T S=ST 时,称其为对称矩阵。

回顾上面的对角化,可以得到 S=XΛX−1 S = X \Lambda X^{-1} S=XΛX−1。

由于 S S S 是对称矩阵,有 S=ST S = S^T S=ST,因此 XΛX−1=(XΛX−1)T=(X−1)TΛTXT X \Lambda X^{-1} = (X \Lambda X^{-1})^T = (X^{-1})^T \Lambda^T X^T XΛX−1=(XΛX−1)T=(X−1)TΛTXT。

Λ \Lambda Λ 是对角矩阵,因此 ΛT=Λ \Lambda^T = \Lambda ΛT=Λ。

因此有 XΛX−1=(X−1)TΛXT X \Lambda X^{-1} = (X^{-1})^T \Lambda X^T XΛX−1=(X−1)TΛXT。

两边同时左乘 X−1 X^{-1} X−1,右乘 X X X,得到 Λ=X−1(X−1)TΛXTX \Lambda = X^{-1} (X^{-1})^T \Lambda X^T X Λ=X−1(X−1)TΛXTX。

所以 X X X 满足 X−1=XT X^{-1} = X^T X−1=XT,即 X X X 是正交矩阵。

因此,对称矩阵可以被正交对角化,即 S=QΛQT S = Q \Lambda Q^T S=QΛQT,其中 Q Q Q 是正交矩阵,Λ \Lambda Λ 是对角矩阵。

对称矩阵的以下性质:

  1. 特征值为实数。

  2. 不同特征值对应的特征向量正交。


假设实矩阵 S S S 有 Sx=λx Sx = \lambda x Sx=λx, λ=a+bi \lambda = a + bi λ=a+bi, 则一定有 Sxˉ=λˉxˉ S \bar{x} = \bar{\lambda} \bar{x} Sxˉ=λˉxˉ。

对于 Sx=λx Sx = \lambda x Sx=λx,两边左乘 xˉT \bar{x}^T xˉT,得到 xˉTSx=λxˉTx \bar{x}^T S x = \lambda \bar{x}^T x xˉTSx=λxˉTx。

对于 Sxˉ=λˉxˉ S \bar{x} = \bar{\lambda} \bar{x} Sxˉ=λˉxˉ,两边右乘 x x x,得到 xˉTSx=λˉxˉTx \bar{x}^T S x = \bar{\lambda} \bar{x}^T x xˉTSx=λˉxˉTx。

对比可知 λxˉTx=λˉxˉTx \lambda \bar{x}^T x = \bar{\lambda} \bar{x}^T x λxˉTx=λˉxˉTx,当且仅当 xˉTx≠0 \bar{x}^T x \neq 0 xˉTx=0 时,λ=λˉ \lambda = \bar{\lambda} λ=λˉ,即 λ \lambda λ 为实数。

如何证明 xˉTx≠0 \bar{x}^T x \neq 0 xˉTx=0 呢?

假设 xˉ=a+bi \bar{x} = a + bi xˉ=a+bi,则 xˉTx=(a−bi)T(a+bi)=aTa+bTb \bar{x}^T x = (a - bi)^T (a + bi) = a^T a + b^T b xˉTx=(a−bi)T(a+bi)=aTa+bTb,因为 a a a 和 b b b 不全为 0,所以 aTa+bTb>0 a^T a + b^T b > 0 aTa+bTb>0。

因此,实对称矩阵的特征值为实数。

Real Eigenvalues All the eigenvalues of a real symmetric matrix are real.

注意:假如 S S S 是复矩阵,需要 S=SˉT S = \bar{S}^TS=SˉT 才能保证特征值为实数。


假设有 Sx=λ1x Sx = \lambda_1 x Sx=λ1​x 和 Sy=λ2y Sy = \lambda_2 y Sy=λ2​y,其中 λ1≠λ2 \lambda_1 \neq \lambda_2 λ1​=λ2​。

对于 Sy=λ2y Sy = \lambda_2 y Sy=λ2​y,左乘 xT x^T xT,得到 xTSy=λ2xTy x^T S y = \lambda_2 x^T y xTSy=λ2​xTy。

又因为 S=ST S = S^T S=ST,所以 xTSy=(Sx)Ty=(λ1x)Ty=λ1xTy x^T S y = (S x)^T y = (\lambda_1 x)^T y = \lambda_1 x^T y xTSy=(Sx)Ty=(λ1​x)Ty=λ1​xTy。

所以可得 λ1xTy=λ2xTy \lambda_1 x^T y = \lambda_2 x^T y λ1​xTy=λ2​xTy。

所以 (λ1−λ2)xTy=0 (\lambda_1 - \lambda_2) x^T y = 0 (λ1​−λ2​)xTy=0。

所以 xTy=0 x^T y = 0 xTy=0。

Orthogonal Eigenvectors Eigenvectors of a real symmetric matrix (when they correspond to different eigenvalues) are always perpendicular.

注意:不是所有特征向量都正交,对应不同特征值的特征向量一定正交,同一特征值的特征向量有可能正交。对称矩阵中,同一特征值的特征向量可以通过施密特正交化变成正交的。

求一个实对称矩阵的特征值和特征向量和 Q Q Q 的步骤:

  1. 求解特征多项式 det(S−λI)=0 det(S - \lambda I) = 0 det(S−λI)=0,得到所有特征值 λ1,λ2,…,λn \lambda_1, \lambda_2, \ldots, \lambda_n λ1​,λ2​,…,λn​。

  2. 对于每个特征值 λi \lambda_i λi​,求解齐次线性方程组 (S−λiI)x=0 (S - \lambda_i I)x = 0 (S−λi​I)x=0,得到对应的特征向量 xi x_i xi​。

  3. 此时特征向量是正交的但未归一化,将每个特征向量 xi x_i xi​ 归一化,得到单位特征向量 qi=xi∣∣xi∣∣ q_i = \frac{x_i}{||x_i||} qi​=∣∣xi​∣∣xi​​。

  4. 将所有特征向量组成矩阵 Q=[q1,q2,…,qn] Q = [q_1, q_2, \ldots, q_n] Q=[q1​,q2​,…,qn​],并将对应的特征值组成对角矩阵 Λ=diag(λ1,λ2,…,λn) \Lambda = diag(\lambda_1, \lambda_2, \ldots, \lambda_n) Λ=diag(λ1​,λ2​,…,λn​)。

比如

S=[1224] S = \begin{bmatrix} 1 & 2 \\ 2 & 4 \end{bmatrix} S=[12​24​]

  1. 求解特征多项式,得到特征值 λ1=0 \lambda_1 = 0 λ1​=0 和 λ2=5 \lambda_2 = 5 λ2​=5。

    det[1−λ224−λ]=(1−λ)(4−λ)−4=λ2−5λ=λ(λ−5)=0det \begin{bmatrix} 1 - \lambda & 2 \\ 2 & 4 - \lambda \end{bmatrix} = (1 - \lambda)(4 - \lambda) - 4 = \lambda^2 - 5\lambda = \lambda(\lambda - 5) = 0 det[1−λ2​24−λ​]=(1−λ)(4−λ)−4=λ2−5λ=λ(λ−5)=0

  2. 对于 λ1=0 \lambda_1 = 0 λ1​=0,求解 (S−0I)x=0 (S - 0I)x = 0 (S−0I)x=0:

    [1224][x1x2]=0\begin{bmatrix} 1 & 2 \\ 2 & 4 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = 0 [12​24​][x1​x2​​]=0

    解得特征向量 x1=[2−1] x_1 = \begin{bmatrix} 2 \\ -1 \end{bmatrix} x1​=[2−1​]。

    对于 λ2=5 \lambda_2 = 5 λ2​=5,求解 (S−5I)x=0 (S - 5I)x = 0 (S−5I)x=0:

    [−422−1][x1x2]=0\begin{bmatrix} -4 & 2 \\ 2 & -1 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = 0 [−42​2−1​][x1​x2​​]=0

    解得特征向量 x2=[12] x_2 = \begin{bmatrix} 1 \\ 2 \end{bmatrix} x2​=[12​]。

  3. 归一化特征向量:

    q1=15[2−1],q2=15[12]q_1 = \frac{1}{\sqrt{5}} \begin{bmatrix} 2 \\ -1 \end{bmatrix}, q_2 = \frac{1}{\sqrt{5}} \begin{bmatrix} 1 \\ 2 \end{bmatrix} q1​=5​1​[2−1​],q2​=5​1​[12​]

  4. 组成矩阵 Q Q Q 和 Λ \Lambda Λ:

    Q=15[21−12],Λ=[0005]Q = \frac{1}{\sqrt{5}} \begin{bmatrix} 2 & 1 \\ -1 & 2 \end{bmatrix}, \Lambda = \begin{bmatrix} 0 & 0 \\ 0 & 5 \end{bmatrix} Q=5​1​[2−1​12​],Λ=[00​05​]

S=QΛQT=15[21−12][0005]15[2−112]=[1224]S = Q \Lambda Q^T = \frac{1}{\sqrt{5}} \begin{bmatrix} 2 & 1 \\ -1 & 2 \end{bmatrix} \begin{bmatrix} 0 & 0 \\ 0 & 5 \end{bmatrix} \frac{1}{\sqrt{5}} \begin{bmatrix} 2 & -1 \\ 1 & 2 \end{bmatrix} = \begin{bmatrix} 1 & 2 \\ 2 & 4 \end{bmatrix} S=QΛQT=5​1​[2−1​12​][00​05​]5​1​[21​−12​]=[12​24​]

对于任意 A A A,ATA A^T A ATA 和 AAT A A^T AAT 都是对称矩阵。

A=QΛQT A = Q \Lambda Q^T A=QΛQT,则 ATA=(QΛQT)T(QΛQT)=QΛTQTQΛQT=QΛ2QT A^T A = (Q \Lambda Q^T)^T (Q \Lambda Q^T) = Q \Lambda^T Q^T Q \Lambda Q^T = Q \Lambda^2 Q^T ATA=(QΛQT)T(QΛQT)=QΛTQTQΛQT=QΛ2QT 以及 AAT=(QΛQT)(QΛQT)T=QΛQTQΛTQT=QΛ2QT A A^T = (Q \Lambda Q^T)(Q \Lambda Q^T)^T = Q \Lambda Q^T Q \Lambda^T Q^T = Q \Lambda^2 Q^T AAT=(QΛQT)(QΛQT)T=QΛQTQΛTQT=QΛ2QT。(在 SVD 分解有用)

相似矩阵

若存在 M M M 和 M−1 M^{-1} M−1,使得 B=M−1AM B = M^{-1} A M B=M−1AM,则称矩阵 A A A 和 B B B 是相似矩阵。

相似矩阵有相同的特征值。

假设有 Ax=λx A x = \lambda x Ax=λx 和 B=M−1AM B = M^{-1} A M B=M−1AM。

则有

M−1A(MM−1)x=λM−1x→(M−1AM)(M−1x)=λ(M−1x) M^{-1} A ( MM^{-1} ) x = \lambda M^{-1} x \to (M^{-1} A M) ( M^{-1} x ) = \lambda ( M^{-1} x ) M−1A(MM−1)x=λM−1x→(M−1AM)(M−1x)=λ(M−1x)

得

B(M−1x)=λ(M−1x) B ( M^{-1} x ) = \lambda ( M^{-1} x ) B(M−1x)=λ(M−1x)

因此 B B B 有相同的特征值 λ \lambda λ,对应的特征向量为 M−1x M^{-1} x M−1x。

显然因为 det⁡(B)\det(B)det(B) 为特征值的乘积,所以相似矩阵有相同的行列式,以及特征值的和相同推出相同的迹 tr(B)=tr(A) tr(B) = tr(A) tr(B)=tr(A)。


两个矩阵相似,他们的特征值相同,但是相反,两个矩阵特征值相同,并不一定相似。

比如

A=[1101],B=[1001] A = \begin{bmatrix} 1 & 1 \\ 0 & 1 \end{bmatrix}, B = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} A=[10​11​],B=[10​01​]

后者是一个对角矩阵、单位矩阵,但是它没法取 M M M 使得 B=M−1AM B = M^{-1} A M B=M−1AM,虽然他们有相同的特征值 λ=1 \lambda = 1 λ=1。

对于 cI cI cI,其中 c c c 是标量,I I I 是单位矩阵,它的相似矩阵只有它自己。取可逆矩阵 M M M,则有 M−1(cI)M=c(M−1IM)=cI M^{-1} (cI) M = c (M^{-1} I M) = cI M−1(cI)M=c(M−1IM)=cI。


对于 A A A,可以取无穷个可逆矩阵 M M M,使得 B=M−1AM B = M^{-1} A M B=M−1AM,这些 A A A 的相似矩阵 B B B 组成一个相似类,他们有相同的特征值、行列式、迹等性质,互相之间可以通过相似变换转换,同时他们表达了同一个线性变换,只是基不同。(基由 M M M 决定)

在这些相似类中,有的矩阵可以对角化,有的不能对角化。可对角化的可以都由其对角矩阵相似变换得到,其他的则例如上面的 A=[1101] A = \begin{bmatrix} 1 & 1 \\ 0 & 1 \end{bmatrix} A=[10​11​] 这种形式,他们都可以由对应的 Jordan 标准型相似变换而来。对角矩阵这种相似类里面,更特殊的就是 cI cI cI 这种形式。

Jordan 标准型 Jordan Normal Form

对于任意矩阵 A A A,都存在一个可逆矩阵 M M M,使得 J=M−1AM J = M^{-1} A M J=M−1AM,其中 J J J 是 Jordan 标准型矩阵。

J J J 是由 Jordan 块组成的块对角矩阵。Jordan 块是一个上三角矩阵,对角线上的元素都是同一个标量 λ \lambda λ,紧接着主对角线上方的元素(上次对角线)全是 1,其余元素全是 0。

例如,矩阵

J=[λ100λ000μ] J = \begin{bmatrix} \lambda & 1 & 0 \\ 0 & \lambda & 0 \\ 0 & 0 & \mu \end{bmatrix} J=​λ00​1λ0​00μ​​

有两个 Jordan 块:一个是 2×2 2 \times 2 2×2 的块

[λ10λ] \begin{bmatrix} \lambda & 1 \\ 0 & \lambda \end{bmatrix} [λ0​1λ​]

,对应特征值 λ \lambda λ,另一个是 1×1 1 \times 1 1×1 的块

[μ] \begin{bmatrix} \mu \end{bmatrix} [μ​]

,对应特征值 μ \mu μ。

特殊的,对角矩阵就是 Jordan 标准型的特例,每个 Jordan 块为 [λi] \begin{bmatrix} \lambda_i \end{bmatrix} [λi​​]。

每个 Jordan 块对应一个特征值 λ \lambda λ,Jordan 块的大小等于该特征值的代数重数,而几何重数始终为 1。

正定矩阵 Positive Definite Matrix

The number of positive eigenvalues of S equals the number of positive pivots.

正特征值的数量和正主元的数量相等。

所有主子矩阵的行列式为正数

r=1,2,…,n r = 1, 2, \dots , n r=1,2,…,n

构建

A=[ArPQR],x=[y0],y≠0 A = \begin{bmatrix} A_r & P \\ Q & R \end{bmatrix} , x = \begin{bmatrix} \mathbf{y} \\ \mathbf{0} \end{bmatrix}, y \neq \mathbf{0}A=[Ar​Q​PR​],x=[y0​],y=0

则 xTAx=[yT0][ArPQR][yT0]=yTAry>0 x^TAx = \begin{bmatrix} y^T & \mathbf{0} \end{bmatrix} \begin{bmatrix} A_r & P \\ Q & R \end{bmatrix} \begin{bmatrix} y^T \\ \mathbf{0} \end{bmatrix} = y^T A_r y > 0 xTAx=[yT​0​][Ar​Q​PR​][yT0​]=yTAr​y>0

通过构建这样一个 x=[y0] x = \begin{bmatrix} \mathbf{y} \\ \mathbf{0} \end{bmatrix} x=[y0​],证明 yyy 为任意向量的时候,yTAry>0 y^T A_r y > 0 yTAr​y>0,所以每一个主子矩阵都是正定矩阵,特征值都是正数,行列式为特征值的乘积,所以行列式大于零。

所有主元为正数

因为不需要行交换的情况下,通过高斯消元法,A=LUA = LUA=LU 将矩阵 A A A 化为上三角矩阵 U U U,主元就是上三角矩阵的对角线元素,det(A)=det(L)det(U) det(A) = det(L)det(U) det(A)=det(L)det(U),而 det(L)=1det(L) = 1det(L)=1,所以行列式等于主元的乘积,又因为 det(A)>0 det(A) > 0 det(A)>0,所以主元的乘积大于零,而每一个主元又是每一个主子矩阵的行列式与前一个主子矩阵行列式的比值,所以每一个主元都大于零。

TODO: 惯性定理

Energy-based Definition

对于 Sx=λx Sx = \lambda x Sx=λx,有 xTSx=λxTx x^T S x = \lambda x^T x xTSx=λxTx。

当 S S S 是正定矩阵时,λ>0 \lambda > 0 λ>0,所以对于任意 xxx,有 xTSx>0 x^T S x > 0 xTSx>0。

比如

S=[abbc],x=[x1x2] S = \begin{bmatrix} a & b \\ b & c \end{bmatrix}, x = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} S=[ab​bc​],x=[x1​x2​​]

则有

xTSx=[x1x2][abbc][x1x2]=ax12+2bx1x2+cx22>0 x^T S x = \begin{bmatrix} x_1 & x_2 \end{bmatrix} \begin{bmatrix} a & b \\ b & c \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = a x_1^2 + 2b x_1 x_2 + c x_2^2 > 0 xTSx=[x1​​x2​​][ab​bc​][x1​x2​​]=ax12​+2bx1​x2​+cx22​>0

因此,正定矩阵可以看作是一个能量函数,将向量 x x x 映射到一个正的标量值。

If SSS and TTT are symmetric positive definite, so is S+TS + TS+T

如果 S S S 和 T T T 是对称正定矩阵,则 S+T S + T S+T 也是对称正定矩阵。

因为

xT(S+T)x=xTSx+xTTx>0+0=0 x^T (S + T) x = x^T S x + x^T T x > 0 + 0 = 0 xT(S+T)x=xTSx+xTTx>0+0=0

显然成立

If the columns of AAA are independent, then S=ATAS = A^T AS=ATA is positive definite.

当 AAA 是满秩矩阵时,S=ATA S = A^T A S=ATA 是正定矩阵。

因为

xTSx=xTATAx=(Ax)T(Ax)=∣∣Ax∣∣2 x^T S x = x^T A^T A x = (A x)^T (A x) = || A x ||^2 xTSx=xTATAx=(Ax)T(Ax)=∣∣Ax∣∣2

当 A A A 的列线性无关时,Ax≠0 A x \neq 0 Ax=0,所以 ∣∣Ax∣∣2>0 || A x ||^2 > 0 ∣∣Ax∣∣2>0。


综上,当 SSS 是正定矩阵,有以下五个等价条件:

  1. 所有特征值均为正数。

  2. 所有主元均为正数。

  3. 对于所有非零向量 x x x,有 xTSx>0 x^T S x > 0 xTSx>0。

  4. 存在满秩矩阵 A A A,使得 S=ATA S = A^T A S=ATA。

  5. 所有左上三角子矩阵的行列式均为正数,即

    det[s11]>0,det[s11s12s21s22]>0,…,det(S)>0 det \begin{bmatrix} s_{11} \end{bmatrix} > 0, det \begin{bmatrix} s_{11} & s_{12} \\ s_{21} & s_{22} \end{bmatrix} > 0, \ldots, det(S) > 0 det[s11​​]>0,det[s11​s21​​s12​s22​​]>0,…,det(S)>0

Positive Semidefinite Matrices 正半定矩阵

当矩阵 S S S 满足对于所有非零向量 x x x,有 xTSx≥0 x^T S x \geq 0 xTSx≥0 时,称其为正半定矩阵,这包括正定矩阵和一些奇异矩阵。

以及它的特征值 λ\lambdaλ 满足 λi≥0\lambda_i \geq 0 λi​≥0。

比如

S=[1000] S = \begin{bmatrix} 1 & 0 \\ 0 & 0 \end{bmatrix} S=[10​00​]

和

T=[2−1−1−12−1−1−12] T = \begin{bmatrix} 2 &-1 & -1 \\ -1 & 2 & -1 \\ -1 & -1 & 2 \end{bmatrix} T=​2−1−1​−12−1​−1−12​​

同时,将 S S S 分解为 ATAA^TAATA,R(ATA)=1 R(A^TA) = 1 R(ATA)=1,比如

ATA=[1122][1212]=[2448]A^T A = \begin{bmatrix} 1 & 1 \\ 2 & 2 \end{bmatrix} \begin{bmatrix} 1 & 2 \\ 1 & 2 \end{bmatrix} = \begin{bmatrix} 2 & 4 \\ 4 & 8 \end{bmatrix} ATA=[12​12​][11​22​]=[24​48​]

ax2+2bxy+cy2=1 ax^2 + 2bxy + cy^2 = 1 ax2+2bxy+cy2=1 和 二次型

给定二次曲线方程,f(x,y)=ax2+2bxy+cy2f(x, y) = a x^2 + 2b xy + c y^2 f(x,y)=ax2+2bxy+cy2,可以将其表示为矩阵形式:

xTSx=[xy][abbc][xy]=ax2+2bxy+cy2x^TSx = \begin{bmatrix} x & y \end{bmatrix} \begin{bmatrix} a & b \\ b & c \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = a x^2 + 2b xy + c y^2 xTSx=[x​y​][ab​bc​][xy​]=ax2+2bxy+cy2

当 S S S 是正定矩阵时,xTSx=1 x^T S x = 1 xTSx=1 描述的是斜着的椭圆。

The tilted ellipse 5^2 + 8xy + 5y^2 = 1. Lined up it is 9X^2 + Y^2 = 1.

通过配方法,可以将其化为标准形式:

比如

5x2+8xy+5y2=1 5x^2 + 8xy + 5y^2 = 1 5x2+8xy+5y2=1

可以写成矩阵形式:

[xy][5445][xy]=1\begin{bmatrix} x & y \end{bmatrix} \begin{bmatrix} 5 & 4 \\ 4 & 5 \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = 1 [x​y​][54​45​][xy​]=1

根据 S=QΛQT S = Q \Lambda Q^T S=QΛQT,计算出 Q Q Q 和 Λ \Lambda Λ:

计算矩阵的特征值和特征向量:

det[5−λ445−λ]=(5−λ)2−16=λ2−10λ+9=0det \begin{bmatrix} 5 - \lambda & 4 \\ 4 & 5 - \lambda \end{bmatrix} = (5 - \lambda)^2 - 16 = \lambda^2 - 10\lambda + 9 = 0 det[5−λ4​45−λ​]=(5−λ)2−16=λ2−10λ+9=0

解得特征值为 λ1=9 \lambda_1 = 9 λ1​=9 和 λ2=1 \lambda_2 = 1 λ2​=1。

对应的特征向量为 x1=[11] x_1 = \begin{bmatrix} 1 \\ 1 \end{bmatrix} x1​=[11​] 和 x2=[1−1] x_2 = \begin{bmatrix} 1 \\ -1 \end{bmatrix} x2​=[1−1​]。

将特征向量归一化,得到正交矩阵:

Q=12[111−1] Q = \frac{1}{\sqrt{2}} \begin{bmatrix} 1 & 1 \\ 1 & -1 \end{bmatrix} Q=2​1​[11​1−1​]

The axes of the tilted ellipse point along those eigenvectors.

由图可见,椭圆的主轴与特征向量方向一致。

它的主轴长度与特征值相关,主半轴长度为 1λ1 \frac{1}{\sqrt{\lambda_1}} λ1​​1​,半短轴长度为 1λ2 \frac{1}{\sqrt{\lambda_2}} λ2​​1​。

在这里,主半轴长度为 19=13 \frac{1}{\sqrt{9}} = \frac{1}{3} 9​1​=31​,半短轴长度为 11=1 \frac{1}{\sqrt{1}} = 1 1​1​=1。

因为是斜着的,所以两个长短轴各端点分别为

(±132,±132) \left( \pm \frac{1}{3\sqrt{2}}, \pm \frac{1}{3\sqrt{2}} \right) (±32​1​,±32​1​)

和

(±12,∓12) \left( \pm \frac{1}{\sqrt{2}}, \mp \frac{1}{\sqrt{2}} \right) (±2​1​,∓2​1​)


  1. The tilted ellipse is associated with S. Its equation is x T Sx = l. 倾斜椭圆对应的是 矩阵 S S S,其方程为 xTSx=1 x^T S x = 1 xTSx=1。
  2. The lined-up ellipse is associated with A. Its equation is XT AX = 1. 对齐椭圆对应的是 矩阵 A A A,其方程为 XTΛX=1 X^T \Lambda X = 1 XTΛX=1。
  3. The rotation matrix that lines up the ellipse is the eigenvector matrix Q. 旋转矩阵 Q Q Q 可以将椭圆对齐。

用旋转矩阵 Q Q Q 将 椭圆对齐:

将 x x x 和 y y y 变换到 X X X 和 Y Y Y,x=QX x = Q X x=QX,即

[xy]=Q[XY]\begin{bmatrix} x \\ y \end{bmatrix} = Q \begin{bmatrix} X \\ Y \end{bmatrix} [xy​]=Q[XY​]

代入原方程 xTSx=1 x^T S x = 1 xTSx=1,得到 (QX)TS(QX)=1 (QX)^T S (QX) = 1 (QX)TS(QX)=1,即

[XY]QTSQ[XY]=1\begin{bmatrix} X & Y \end{bmatrix} Q^T S Q \begin{bmatrix} X \\ Y \end{bmatrix} = 1 [X​Y​]QTSQ[XY​]=1

因为 QTSQ=Λ Q^T S Q = \Lambda QTSQ=Λ,所以有

[XY]Λ[XY]=1\begin{bmatrix} X & Y \end{bmatrix} \Lambda \begin{bmatrix} X \\ Y \end{bmatrix} = 1 [X​Y​]Λ[XY​]=1

代入

Λ=[9001] \Lambda = \begin{bmatrix} 9 & 0 \\ 0 & 1 \end{bmatrix} Λ=[90​01​]

得

9X2+Y2=1 9X^2 + Y^2 = 1 9X2+Y2=1

就是对齐后的椭圆方程,这两个椭圆只是角度不同。


给定二次齐次函数

f(x1,x2,…,xn)=a11x12+a22x22+…+annxn2+2a12x1x2+2a13x1x3+…+2an−1,nxn−1xn f(x_1, x_2, \ldots, x_n) = a_{11} x_1^2 + a_{22} x_2^2 + \ldots + a_{nn} x_n^2 + 2a_{12} x_1 x_2 + 2a_{13} x_1 x_3 + \ldots + 2a_{n-1,n} x_{n-1} x_n f(x1​,x2​,…,xn​)=a11​x12​+a22​x22​+…+ann​xn2​+2a12​x1​x2​+2a13​x1​x3​+…+2an−1,n​xn−1​xn​

当 j≥i j \geq i j≥i 时,取 aij=aji a_{ij} = a_{ji} aij​=aji​,则拆分得 2aijxixj=aijxixj+ajixjxi2a_{ij}x_i x_j = a_{ij}x_ix_j + a_{ji}x_jx_i2aij​xi​xj​=aij​xi​xj​+aji​xj​xi​

f(x1,x2,…,xn)=a11x12+a12x1x2+…+a1nx1xn+a21x2x1+a22x22+…+a2nx2xn+…+an1xnx1+an2xnx2+…+annxn2=∑i=1n∑j=1naijxixjf(x_1, x_2, \ldots, x_n) = a_{11} x_1^2 + a_{12} x_1 x_2 + \ldots + a_{1n} x_1 x_n + a_{21} x_2 x_1 + a_{22} x_2^2 + \ldots + a_{2n} x_2 x_n + \ldots + a_{n1} x_n x_1 + a_{n2} x_n x_2 + \ldots + a_{nn} x_n^2 = \sum_{i=1}^{n} \sum_{j=1}^{n} a_{ij} x_i x_j f(x1​,x2​,…,xn​)=a11​x12​+a12​x1​x2​+…+a1n​x1​xn​+a21​x2​x1​+a22​x22​+…+a2n​x2​xn​+…+an1​xn​x1​+an2​xn​x2​+…+ann​xn2​=i=1∑n​j=1∑n​aij​xi​xj​

将其用矩阵表示,

f(x)=x1(a11x1+a12x2+…+a1nxn)+x2(a21x1+a22x2+…+a2nxn)+…+xn(an1x1+an2x2+…+annxn)f(x) = x_1(a_{11}x_1 + a_{12}x_2 + \ldots + a_{1n}x_n) + x_2(a_{21}x_1 + a_{22}x_2 + \ldots + a_{2n}x_n) + \ldots + x_n(a_{n1}x_1 + a_{n2}x_2 + \ldots + a_{nn}x_n) f(x)=x1​(a11​x1​+a12​x2​+…+a1n​xn​)+x2​(a21​x1​+a22​x2​+…+a2n​xn​)+…+xn​(an1​x1​+an2​x2​+…+ann​xn​)

=(x1x2…xn)[a11a12…a1na21a22…a2n⋮⋮⋱⋮an1an2…ann](x1x2⋮xn)=xTAx= \begin{pmatrix} x_1 & x_2 & \ldots & x_n \end{pmatrix} \begin{bmatrix} a_{11} & a_{12} & \ldots & a_{1n} \\ a_{21} & a_{22} & \ldots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \ldots & a_{nn} \end{bmatrix} \begin{pmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{pmatrix} = x^T A x =(x1​​x2​​…​xn​​)​a11​a21​⋮an1​​a12​a22​⋮an2​​……⋱…​a1n​a2n​⋮ann​​​​x1​x2​⋮xn​​​=xTAx

因此,二次齐次函数可以表示为矩阵形式 xTAx x^T A x xTAx。

规范式指的是 λ1y12+λ2y22+…+λnyn2=1 \lambda_1 y_1^2 + \lambda_2 y_2^2 + \ldots + \lambda_n y_n^2 = 1 λ1​y12​+λ2​y22​+…+λn​yn2​=1,当 n=2 n = 2 n=2时,就是椭圆的标准方程。

利用特征值和特征向量,可以将二次齐次函数化为规范式。

当 A=QΛQT A = Q \Lambda Q^T A=QΛQT 时,有

xTAx=xTQΛQTx x^T A x = x^T Q \Lambda Q^T x xTAx=xTQΛQTx

令 y=QTx y = Q^T x y=QTx,则有

xTAx=yTΛy=λ1y12+λ2y22+…+λnyn2 x^T A x = y^T \Lambda y = \lambda_1 y_1^2 + \lambda_2 y_2^2 + \ldots + \lambda_n y_n^2 xTAx=yTΛy=λ1​y12​+λ2​y22​+…+λn​yn2​

这样可以通过判断特征值的符号,来判断二次齐次函数是否正定、负定还是不定,从而来判断二次齐次函数的截面形状(xTAx=1 x^T A x = 1 xTAx=1)和几何形状:

  • 当所有特征值均为正时,表示一个椭圆(或椭球体)。

  • 当所有特征值均为负时,表示一个椭圆(或椭球体),但方向相反。

  • 当特征值有正有负时,表示一个双曲线(或双曲面)。

fxy_cut

和圆锥曲线的圆锥和截面有啥关系吗?

多元函数判断极小值 Test for a Minimum

对于一元函数 f(x) f(x) f(x),最低点的情况是一阶导为 0,二阶导大于 0。

对于二元函数 f(x,y) f(x, y) f(x,y),当且仅当:

∂F∂x(x0,y0)=0,∂F∂y(x0,y0)=0\frac{\partial F}{\partial x}(x_0,y_0) = 0, \quad \frac{\partial F}{\partial y}(x_0,y_0) = 0 ∂x∂F​(x0​,y0​)=0,∂y∂F​(x0​,y0​)=0

并且 Hessian 矩阵 (S) 正定,即:

H=[∂2F∂x2∂2F∂x∂y∂2F∂y∂x∂2F∂y2]H = \begin{bmatrix} \frac{\partial^2 F}{\partial x^2} & \frac{\partial^2 F}{\partial x \partial y} \\ \frac{\partial^2 F}{\partial y \partial x} & \frac{\partial^2 F}{\partial y^2} \end{bmatrix} H=[∂x2∂2F​∂y∂x∂2F​​∂x∂y∂2F​∂y2∂2F​​]

类比一元函数对 x x x 进行求导,二元函数需要对 x x x 和 y y y 分别求偏导数(对某个参数求导时,将其他参数视为常数。

其中,梯度指的是多元函数在各个方向上的一阶偏导数组成的向量:

∇F=[∂F∂x∂F∂y]\nabla F = \begin{bmatrix} \frac{\partial F}{\partial x} \\ \frac{\partial F}{\partial y} \end{bmatrix} ∇F=[∂x∂F​∂y∂F​​]

当梯度为 0 时,函数在该点处有极值。

二次函数的二阶导又需要在一阶导的基础上,继续对 x x x 和 y y y 分别求偏导数,得到四种情况:

  1. 对 x x x 求两次偏导数,得到 ∂2F∂x2 \frac{\partial^2 F}{\partial x^2} ∂x2∂2F​。

  2. 先对 x x x 求偏导数,再对 y y y 求偏导数,得到 ∂2F∂x∂y \frac{\partial^2 F}{\partial x \partial y} ∂x∂y∂2F​。

  3. 先对 y y y 求偏导数,再对 x x x 求偏导数,得到 ∂2F∂y∂x \frac{\partial^2 F}{\partial y \partial x} ∂y∂x∂2F​。

  4. 对 y y y 求两次偏导数,得到 ∂2F∂y2 \frac{\partial^2 F}{\partial y^2} ∂y2∂2F​。

Hessian 矩阵指的是多元函数在各个方向上的二阶偏导数组成的矩阵。

更高阶的多元函数同理,共同构成 k 阶张量。

当 Hessian 矩阵正定时,说明在任意方向上都“向上弯”,函数在该点处有极小值。

fxy_min

如何判断弯曲程度,可以用泰勒近似:

F(x,y)≈F(x0,y0)+∇F(x0,y0)T[x−x0y−y0]+12[x−x0y−y0]H[x−x0y−y0]F(x,y) \approx F(x_0,y_0) + \nabla F(x_0,y_0)^T \begin{bmatrix} x - x_0 \\ y - y_0 \end{bmatrix} + \frac{1}{2} \begin{bmatrix} x - x_0 & y - y_0 \end{bmatrix} H \begin{bmatrix} x - x_0 \\ y - y_0 \end{bmatrix} F(x,y)≈F(x0​,y0​)+∇F(x0​,y0​)T[x−x0​y−y0​​]+21​[x−x0​​y−y0​​]H[x−x0​y−y0​​]

因为在 (x0,y0) (x_0, y_0) (x0​,y0​) 处,F(x0,y0)=0 F(x_0,y_0) = 0 F(x0​,y0​)=0,梯度为 0,所以取决于

[x−x0y−y0]H[x−x0y−y0] \begin{bmatrix} x - x_0 & y - y_0 \end{bmatrix} H \begin{bmatrix} x - x_0 \\ y - y_0 \end{bmatrix} [x−x0​​y−y0​​]H[x−x0​y−y0​​]

考虑上面的二次齐次函数,可以看出其形式与二次函数类似。

v=[x−x0y−y0],f(v)=vTHvv = \begin{bmatrix} x - x_0 \\ y - y_0 \end{bmatrix}, \quad f(v) = v^T H v v=[x−x0​y−y0​​],f(v)=vTHv

对于任何非零向量 v v v,如果 f(v)>0 f(v) > 0 f(v)>0,即当 Hessian 矩阵正定,函数在该点处弯曲向上,配合梯度为 0 则有极小值。

可以利用以下条件判断 Hessian 矩阵是否正定:

  1. det⁡(H)>0 \det(H) > 0 det(H)>0 且 fxx>0 f_{xx} > 0 fxx​>0。

  2. 特征值均为正数。

秩-零化度定理

像空间和核空间

对于变换,都是将向量从一个空间映射到另一个空间。

所有输出向量构成的集合为像空间,所有被映射到零向量的输入向量构成的集合叫核空间或零空间。


秩-零化度定理:

dim⁡(ker⁡(A))+R(A)=dim⁡(V)\dim(\ker(A)) + R(A) = \dim(V) dim(ker(A))+R(A)=dim(V)

几何证明:

  1. 取核空间中的一组基为 {u1,u2,…,uk} \{u_1, u_2, \ldots, u_k\} {u1​,u2​,…,uk​},则 dim⁡(ker⁡(A))=k \dim(\ker(A)) = k dim(ker(A))=k。

  2. 将基扩展为整个空间 V V V 的一组基 {u1,u2,…,uk,vk+1,vk+2,…,vn} \{u_1, u_2, \ldots, u_k, v_{k+1}, v_{k+2}, \ldots, v_n\} {u1​,u2​,…,uk​,vk+1​,vk+2​,…,vn​},则 dim⁡(V)=k+m=n \dim(V) = k + m = n dim(V)=k+m=n。

  3. 证明 {Avk+1,Avk+2,…,Avn} \{A v_{k+1}, A v_{k+2}, \ldots, A v_n\} {Avk+1​,Avk+2​,…,Avn​} 是 Im⁡(A) \operatorname{Im}(A) Im(A) 的一组基。

    • 线性无关性:假设存在系数 ck+1,ck+2,…,cn c_{k+1}, c_{k+2}, \ldots, c_n ck+1​,ck+2​,…,cn​ 使得

      ck+1Avk+1+ck+2Avk+2+…+cnAvn=0c_{k+1} A v_{k+1} + c_{k+2} A v_{k+2} + \ldots + c_n A v_n = 0 ck+1​Avk+1​+ck+2​Avk+2​+…+cn​Avn​=0

      则有

      A(ck+1vk+1+ck+2vk+2+…+cnvn)=0A (c_{k+1} v_{k+1} + c_{k+2} v_{k+2} + \ldots + c_n v_n) = 0 A(ck+1​vk+1​+ck+2​vk+2​+…+cn​vn​)=0

      这意味着 w=ck+1vk+1+ck+2vk+2+…+cnvn∈ker⁡(A) w = c_{k+1} v_{k+1} + c_{k+2} v_{k+2} + \ldots + c_n v_n \in \ker(A) w=ck+1​vk+1​+ck+2​vk+2​+…+cn​vn​∈ker(A)。

      所以 w w w 可以表示为核空间基的线性组合:

      w=d1u1+d2u2+…+dkukw = d_1 u_1 + d_2 u_2 + \ldots + d_k u_k w=d1​u1​+d2​u2​+…+dk​uk​

      因此,ck+1vk+1+ck+2vk+2+…+cnvn−d1u1−d2u2−…−dkuk=0 c_{k+1} v_{k+1} + c_{k+2} v_{k+2} + \ldots + c_n v_n - d_1 u_1 - d_2 u_2 - \ldots - d_k u_k = 0 ck+1​vk+1​+ck+2​vk+2​+…+cn​vn​−d1​u1​−d2​u2​−…−dk​uk​=0

      因为 u1,u2,…,uk,vk+1,vk+2,…,vn u_1, u_2, \ldots, u_k, v_{k+1}, v_{k+2}, \ldots, v_n u1​,u2​,…,uk​,vk+1​,vk+2​,…,vn​ 线性无关,所以所有系数均为零:

      ck+1=ck+2=…=cn=0c_{k+1} = c_{k+2} = \ldots = c_n = 0 ck+1​=ck+2​=…=cn​=0

      所以 Avk+1,Avk+2,…,Avn A v_{k+1}, A v_{k+2}, \ldots, A v_n Avk+1​,Avk+2​,…,Avn​ 线性无关。

      因此,回到假设可知,{Avk+1,Avk+2,…,Avn} \{A v_{k+1}, A v_{k+2}, \ldots, A v_n\} {Avk+1​,Avk+2​,…,Avn​} 线性无关。

    • 张成性:对于任意 y∈Im⁡(A) y \in \operatorname{Im}(A) y∈Im(A),存在 x∈V x \in V x∈V 使得 Ax=y A x = y Ax=y。将 x x x 用基展开:

      x=a1u1+a2u2+…+akuk+bk+1vk+1+bk+2vk+2+…+bnvnx = a_1 u_1 + a_2 u_2 + \ldots + a_k u_k + b_{k+1} v_{k+1} + b_{k+2} v_{k+2} + \ldots + b_n v_n x=a1​u1​+a2​u2​+…+ak​uk​+bk+1​vk+1​+bk+2​vk+2​+…+bn​vn​

      因为 Aui=0 A u_i = 0 Aui​=0 对所有 i=1,2,…,k i = 1, 2, \ldots, k i=1,2,…,k 成立,

      则有

      Ax=A(bk+1vk+1+bk+2vk+2+…+bnvn)=bk+1Avk+1+bk+2Avk+2+…+bnAvnA x = A (b_{k+1} v_{k+1} + b_{k+2} v_{k+2} + \ldots + b_n v_n) = b_{k+1} A v_{k+1} + b_{k+2} A v_{k+2} + \ldots + b_{n} A v_n Ax=A(bk+1​vk+1​+bk+2​vk+2​+…+bn​vn​)=bk+1​Avk+1​+bk+2​Avk+2​+…+bn​Avn​

      所以 y y y 可以表示为 {Avk+1,Avk+2,…,Avn} \{A v_{k+1}, A v_{k+2}, \ldots, A v_n\} {Avk+1​,Avk+2​,…,Avn​} 的线性组合。

因此,{Avk+1,Avk+2,…,Avn} \{A v_{k+1}, A v_{k+2}, \ldots, A v_n\} {Avk+1​,Avk+2​,…,Avn​} 张成 Im⁡(A) \operatorname{Im}(A) Im(A)。

因此,dim⁡(Im⁡(A))=n−k \dim(\operatorname{Im}(A)) = n - k dim(Im(A))=n−k。

综上所述,有

dim⁡(ker⁡(A))+R(A)=k+(n−k)=n=dim⁡(V) \dim(\ker(A)) + R(A) = k + (n - k) = n = \dim(V) dim(ker(A))+R(A)=k+(n−k)=n=dim(V)

SVD 分解

对于任意 A A A 可以分解为 A=UΣVT A = U \Sigma V^T A=UΣVT,其中 U U U 和 V V V 是正交矩阵,Σ \Sigma Σ 是对角矩阵,且对角线上的元素非负且按降序排列。

首先考虑试着找到 Avi=σiui A v_i = \sigma_i u_i Avi​=σi​ui​,其中 vi v_i vi​ 和 ui u_i ui​ 分别是 V V V 和 U U U 的列向量,σi \sigma_i σi​ 是 Σ \Sigma Σ 的对角线元素。这里的几何意义是找到一个在行空间上的单位正交基 {v1,v2,…,vn} \{v_1, v_2, \ldots, v_n\} {v1​,v2​,…,vn​},使得通过 A A A 映射到列空间上时,得到的向量 {u1,u2,…,um} \{u_1, u_2, \ldots, u_m\} {u1​,u2​,…,um​} 也是正交的,并且每个向量的长度被缩放了一个因子 σi \sigma_i σi​。

对于零空间中的向量 vj,n≥j>r v_j, n \geq j \gt r vj​,n≥j>r,有 Avj=0 A v_j = 0 Avj​=0,对应的 σj=0 \sigma_j = 0 σj​=0。

为了找到这些向量和缩放因子,可以考虑 AT=VΣTUT A^T = V \Sigma^T U^T AT=VΣTUT,得到

ATA=(VΣTUT)(UΣVT)=VΣTΣVT=VΣ2VTA^T A = (V \Sigma^T U^T)(U \Sigma V^T) = V \Sigma^T \Sigma V^T = V \Sigma^2 V^T ATA=(VΣTUT)(UΣVT)=VΣTΣVT=VΣ2VT

因为 ATA A^TA ATA 是对称矩阵,可以进行特征值分解,所以 V V V 是 ATA A^TA ATA 的特征向量矩阵,Σ2 \Sigma^2 Σ2 是对应的特征值对角矩阵。V V V 和 Σ \Sigma Σ 可以计算得到。

以及,AAT=UΣΣTUT=UΣ2UT A A^T = U \Sigma \Sigma^T U^T = U \Sigma^2 U^T AAT=UΣΣTUT=UΣ2UT,所以 U U U 是 AAT A A^T AAT 的特征向量矩阵,Σ2 \Sigma^2 Σ2 也是对应的特征值对角矩阵,也可以计算得到。

从四大子空间上看:

对于 v1,v2,…,vr v_1, v_2, \ldots, v_r v1​,v2​,…,vr​,它们是行空间的基,Avi=σiui A v_i = \sigma_i u_i Avi​=σi​ui​ 映射到列空间上

对于 vr+1,vr+2,…,vn v_{r+1}, v_{r+2}, \ldots, v_n vr+1​,vr+2​,…,vn​,它们是零空间的基,Avj=0 A v_j = 0 Avj​=0 映射到零向量,对应的 σj=0 \sigma_j = 0 σj​=0。

对于 u1,u2,…,ur u_1, u_2, \ldots, u_r u1​,u2​,…,ur​,它们是列空间的基

对于 ur+1,ur+2,…,um u_{r+1}, u_{r+2}, \ldots, u_m ur+1​,ur+2​,…,um​,它们是左零空间的基

从几何上看,SVD 分解可以看作是一个线性变换的三个步骤:

  1. 先旋转:通过正交矩阵 VT V^T VT,将输入向量旋转到一个新的坐标系中。

  2. 再缩放:通过对角矩阵 Σ \Sigma Σ,在新的坐标系中对各个方向进行缩放。

  3. 最后旋转:通过正交矩阵 U U U,将缩放后的向量旋转到最终的输出坐标系中。

此外,因为 ATA A^T A ATA 是半正半定矩阵,所以它的特征值非负,因此 Σ \Sigma Σ 的对角线元素 σi \sigma_i σi​ 也是非负的。

  • learning-notes
  • linear-algebra
  • math
Python Magic Method
前一篇

Python Magic Method

Creative Commons License All website licensed under CC BY 4.0
2025-2026 z0z0r4
基于 Hexo  Theme.Reimu
22.2k  |  01:50
粤ICP备2025511811号
粤公网安备44130302100361号
总访问量   |  总访客量 

文章目录

  1. 1. 线性无关
  2. 2. 线性方程组的解
  3. 3. 正交矩阵 Orthogonal Matrix
    1. 3.1. 正交矩阵的几何意义
    2. 3.2. Schmidt Orthogonalization 施密特正交化
  4. 4. 行列式 Determinant
    1. 4.1. 行列式的几何意义
    2. 4.2. 范德蒙德行列式
  5. 5. 迹 Trace
  6. 6. 特征向量与特征值 Eigenvectors and Eigenvalues
    1. 6.1. 求特征值 Finding Eigenvalues
    2. 6.2. 求特征向量 Finding Eigenvectors
    3. 6.3. 特征值和特征向量的几何意义
  7. 7. 对角化 Diagonalization
    1. 7.1. 矩阵的多项式、对角化与特征值
  8. 8. 对称矩阵 Symmetric Matrix
  9. 9. 相似矩阵
    1. 9.1. Jordan 标准型 Jordan Normal Form
  10. 10. 正定矩阵 Positive Definite Matrix
    1. 10.1. 所有主子矩阵的行列式为正数
    2. 10.2. 所有主元为正数
    3. 10.3. Positive Semidefinite Matrices 正半定矩阵
    4. 10.4. ax2+2bxy+cy2=1 ax^2 + 2bxy + cy^2 = 1 ax2+2bxy+cy2=1 和 二次型
    5. 10.5. 多元函数判断极小值 Test for a Minimum
  11. 11. 秩-零化度定理
    1. 11.1. 像空间和核空间
  12. 12. SVD 分解
z0z0r4
z0z0r4
文章
6
分类
10
标签
9

首页

归档

关于