第八章 假设检验

P 178 ~ 218 正文
P 218 ~ 223 习题

1. 假设检验

显著性水平

检验统计量
原假设/零假设

备择假设

拒绝域 临界点

显著性校验

双边备择假设 双边假设检验

处理参数的假设检验步骤如下:
1.
2.
3.
4.
5.

2. 正态总体均值的假设检验

2.1 单个总体$均值\niu$的检验

2.2 两个正态总体均差值的检验(t检验)

2.3 基于成对数据的检验(t检验)

3. 正态总体方差的假设检验

3.1 单个总体的情况

3.2 两个总体的情况

4. 置信区间和假设检验之间的关系

5. 样本容量的选取

6. 分布拟合检验

6.1 单个分布的 \Chi^2 拟合检验法

6.2 分布族的 \Chi^2拟合检验

6.3 偏度, 峰度 检验

7. 秩和检验

第七章 参数估计

P 149 ~ 172 正文
P 172 ~ 177 习题

1. 点估计

1.1 距估计

1.2 最大似然估计

最大似然估计的不变性
\theta 的函数 u=u(\theta), \theta 具有单值反函数 \theta = \theta(u). 又假设 \theta\hatX的概率分布中参数 \theta 的最大似然估计, 则CONTCONT的最大似然估计, 这一性质称为最大似然估计的不变性.

对数似然方程或对数似然方程组除了一些简单的情况外, 往往没有有限函数形式的解, 这就需要用数值方法求近似值.
常用的算法是牛顿-拉弗森(Newton-Raphson)算法, 对对数似然方程组有时也用拟牛顿法.

2. 基于截尾样本的最大似然估计

假设将随机抽取的 n 个产品在时间 t=0 时同时投入试验, 试验进行到事先规定的截尾时间 t_0 停止.

定时截尾寿命试验
如试验截止时共有 m 个产品失效, 它们的失效时间分别为 CONT, 此时 m 是一个随机变量, 所得的样本 CONT 称为定时截尾样本.

定数截尾寿命试验

3. 估计量的评选标准

3.1 无偏性

3.2 有效性

3.3 相合性

4. 区间估计

置信区间
置信水平

5. 正态总体均值和方差的区间估计

5.1 单个总体 N(\miu,\sigma^2) 的情况

5.2 两个总体 N(\miu_1,\sigma_1^2),N(\miu_2,\sigma_2^2) 的情况

6. (0-1)分布参数的区间估计

7. 单侧置信区间

第六章 样本及抽样分布

P 128 ~ 147 正文
P 147 ~ 148 习题

1. 随机样本

总体 : 试验的全部可能的观察值称为总体.
个体 : 每一个可能观察值称为个体.
总体中所包含的个体的个数称为总体的容量.
容量为有限的称为有限总体, 容量为无限的称为无限总体.

总体中的每一个个体是随机试验的一个观察值, 因此它是某一随机变量X的值, 这样一个总体对应于一个随机变量X.
X的分布函数和数字特征称为总体的分布函数和数字特征.

通过总体中抽取的一部分个体, 根据获得的数据来对总体分布作出推断.
被抽出的部分个体叫做总体的一个样本.

从总体抽取一个个体, 就是对总体X进行一次观察并记录其结果. 在相同条件下对总体X进行n次重复的, 独立的观察, 将n次观察结果按次序记为X_1,X_2,cdots,X_n. 由于X_1,X_2,cdots,X_n是对随机变量X官产的结果, 且各次观察都是在相同的条件下独立进行的, 所以有理由认为X_1,X_2,cdots,X_n是相互独立的, 且都是与X具有相同分布的随机变量. 这样得到的X_1,X_2,cdots,X_n称为来自总体X的一个简单随机样本,n称为这个样本的容量.

当n次观察一经完成, 我们就得到一组实数x_1,x_2,cdots,x_n, 它们依次是随机变量X_1,X_2,cdots,X_n的观察值, 称为样本值.

Tips :
x_1,x_2,cdots,x_n 和x_1,x_2,cdots,x_n不一样. x_1,x_2,cdots,x_n是观察值,是具体的数值, 而x_1,x_2,cdots,x_n是独立同分布的随机变量.
随机样本指的是一系列独立同分布的随机变量, 样本值指的是经过n次观察, 这些变量经过观察得到的值.

定义:
设X是具有分布函数F的随机变量, 若 X_1,X_2,cdots,X_n 是具有同一分布函数F的, 相互独立的随机变量, 则称 X_1,X_2,cdots,X_n 为从分布函数F(或总体F, 或总体X)得到的容量为n的简单随机样本, 简称样本, 它们的观察值称为样本值, 又称为X的n个独立的观察值.

由定义得 :
X_1,X_2,cdots,X_n 为F的一个样本, 则 X_1,X_2,cdots,X_n 相互独立, 且它们的分布函数都是F, 所以 ( X_1,X_2,cdots,X_n ) 的分布函数为 F^*(x_1, x_2, cdots, x_n) = sum_{i=1}^{n}F(x_i)

若X具有概率密度f, 则 X_1,X_2,cdots,X_n 的概率密度为 f^*(x_1, x_2, cdots, x_n) = sum_{i=1}^{n}f(x_i)

2. 直方图和箱形图

3. 抽样分布

经验分布函数 : 设 X_1,X_2,cdots,X_n 是总体F的一个样本, 用S(x), -infi < x < infi 表示 X_1,X_2,cdots,X_n 中不大于x的随机变量的个数. 定义经验分布函数 F_n(x) 为: F_n(x) = 1n S(x), -infi < x < infi

3.1 chi^2 分布(卡方分布)

X_1,X_2,cdots,X_n 是来自总体N(0,1)的样本, 则称统计量 chi^2 = X_1^2 + X_2^2 + cdots + X_n^2 服从自由度为nchi^2分布, 记为chi^2text{textasciitilde}chi^2(n).
此处, 自由度是指上述等式右端包含的独立变量的个数.

chi^2(n)分布的概率密度为 f(y) =

chi^2分布的可加性
chi_1^2text{textasciitilde}chi^2(n_1),chi_2^2text{textasciitilde}chi^2(n_2), 并且chi_1^2,chi_2^2相互独立, 则有 chi_1^2 + chi_2^2 text{textasciitilde} chi^2(n_1 + n_2)

chi^2分布的分位点
对于给定的正数a, 0<a<1, 称满足条件 P lbrace chi^2 > chi_a^2(n) rbrace = int_{chi_a^2(n)}^infty f(y)dy = alpha的点 chi_alpha^2(n)chi^2(n)分布的上alpha分位点.

3.2 t分布

Xtext{textasciitilde}N(0,1),Ytext{textasciitilde}chi^2(n),且$$

3.3 F分布

3.4 正态总体的样本均值和样本方差的分布

定理一
定理二
定理三
定理四

第五章 大数定律及中心极限定理

P 119 ~ 126 正文
P 126 ~ 127 习题

大数定律 是叙述随机变量序列的前一些项的算数平均值在某种条件下收敛到这些项的均值的算数平均值.
中心极限定理 是确定在什么条件下, 大量随机变量之和的分布逼近于正态分布.

1. 大数定律

弱大数定理 (辛钦大数定理)

英文名称 : Wiener-khinchin law of large Numbers

定义

X_1, X_2, \cdots 是相互独立, 服从同一分布的随机变量序列, 且具有数学期望 E(X_k) = \mu (k=1,2,\cdots) , 作前 n 个变量的算数平均 \displaystyle \frac{1}{n}\sum_{k=1}^{n}X_k, 则对于任意 \epsilon >0 , 有 \displaystyle\lim_{n \rightarrow \infty}P \lbrace \vert \frac{1}{n}\sum_{k=1}^{n}X_k – \mu \vert < \epsilon \rbrace = 1.

辛钦大数定理的通俗理解是, 对于独立同分布且具有均值 \mu 的随机变量 X_1,\cdots,X_n, 当 n 很大时它们的算数平均很可能接近于 \mu.

辛钦大数定理的另一种解释是基于依概率收敛于某一值的概念.

序列依概率收敛
Y_1,Y_2,\cdots, Y_n,\cdots 是一个随机变量序列, a 是一个常数. 若对于任意正数 \epsilon, 有 \displaystyle\lim_{n \rightarrow \infty}P \lbrace \vert Y_n – a \vert < \epsilon \rbrace = 1 , 则称序列 Y_1,Y_2,\cdots,Y_n,\cdots 依概率收敛于 a, 记为 Y_n \xrightarrow{P} a

依概率收敛的序列有以下性质.
X_n \xrightarrow{P} a, Y_n \xrightarrow{P} b, 又设函数 g(x,y) 在点 (a,b)连续, 则 g(X_n,Y_n) \xrightarrow{P} g(a,b)

用依概率收敛的方式转述弱大数定理
X_1, X_2, \cdots 是相互独立, 服从同一分布的随机变量序列, 且具有数学期望 E(X_k) = \mu (k=1,2,\cdots), 则序列 \displaystyle\overline{X} = \frac{1}{n}\sum_{k=1}^{n}X_k 依概率收敛于 \mu, 即 \overline{X} \xrightarrow{P} \mu.

伯努利大数定理

定义

f_An 次独立重复试验中事件 A 发生的次数, p 是事件 A 在每次试验中发生的概率, 则对于任意正数 \epsilon>0, 有 \lim_{n \rightarrow \infty} P\lbrace \vert \frac{f_A}{n} – p \vert < \epsilon \rbrace = 1 \lim_{n \rightarrow \infty} P\lbrace \vert \frac{f_A}{n} – p \vert \ge \epsilon \rbrace = 0

2. 中心极限定理

独立同分布的中心极限定理

设随机变量 X_1, X_2, \cdots, X_n, \cdots 相互独立, 服从同一分布, 且具有数学期望和方差 E(X_k) = \mu, D(X_k) = \sigma^2>0(k=1,2,\cdots), 则随机变量之和\displaystyle\sum_{k=1}^{n}X_k的标准化变量 Y_n = \frac{\displaystyle\sum_{k=1}^{n}X_k – E(\displaystyle\sum_{k=1}^{n}X_k)}{\sqrt{D(\displaystyle\sum_{k=1}^{n}X_k)}} 的分布函数 F_n{x} 对于任意x满足xxx.

均值为 \mu, 方差为 \sigma^2 >0的独立同分布的随机变量 X_1, X_2, \cdots, X_n, \cdots 的算数平均 XXX, 当 n 充分大时近似地服从均值为 \mu, 方差为 XXX 的正态分布.

李雅普诺夫定理

英文名称 : Lyapunov
设随机变量 X 相互独立, 它们具有数学期望和方差.
记.
若存在证书, 使得,
则随机变量纸盒的标准化变量的分布函数对于任意x, 满足.

李雅普诺夫定理的作用在于 无论各个随机变量X服从什么分布, 只要满足该定理的条件, 那么它们的和在当n很大时, 就近似的服从正态分布. 这就是为什么正态随机变量在概率论中占有重要地位的一个基本原因.

棣莫夫 – 拉普拉斯定理

英文名称 : De Moivre-Laplace
该定理是独立同分布中心极限定理的特殊情况.
设随机变量 服从参数为n,p的二项分布, 则对于任意x, 有 xxx

第四章 随机变量的数字特征

P 90 ~ 113 正文
P 113 ~ 118 习题

1. 数学期望

定义

离散型随机变量的数学期望
设离散型随机变量 X 的分布律为 P \lbrace X=x_k \rbrace = p_k, k=1,2,\cdots
若级数 \displaystylesum_{k=1}^{infty}x_kp_k 绝对收敛, 则称级数\displaystylesum_{k=1}^{infty}x_kp_k的和为随机变量X的数学期望, 记为E(X).即 E(X)=\displaystylesum_{k=1}^{infty}x_kp_k

连续型随机变量的数学期望
设连续性随机变量X的概率密度为f(x),
若积分int_{-infty}^{infty}xf(x)dx 绝对收敛, 则称积分int_{-infty}^{infty}xf(x)dx的值为随机变量X的数学期望, 记为E(X).即 E(X) = int_{-infty}^{infty}xf(x)dx

数学期望简称期望, 又称均值.

例1: 设X text{textasciitilde} pi(lambda), 求E(X). 解: E(X)=lambda

例1中涉及一个证明, 即 displaystylesum_{k=1}^{infty} frac{lambda^{k-1}}{(k-1)!} = e^{lambda}e^x的泰勒展开.

例2: 设X~U(a,b), 求E(X). 解: E(X)=a+b/2

定理

Y 是随机变量X的函数, Y=g(X) ( g 是连续函数)

离散型随机变量函数的数学期望
如果 X 是离散型随机变量, 它的分布律为 P lbrace X=x_k rbrace = p_k, k=1,2,cdots
displaystylesum_{k=1}^{infty}x_kp_k 绝对收敛, 则有 E(Y) = E(g(X)) = displaystylesum_{k=1}^{infty}g(x_{k})p_k

连续型随机变量函数的数学期望
如果 X 是连续型随机变量, 它的概率密度函数为f(x).
int_{-infty}^{infty}g(x)f(x)dx 绝对收敛, 则有 E(Y) = E(g(X)) = int_{-infty}^{infty}g(x)f(x)dx

定理的证明超过了本书的范畴, 因此只针对特定情况给出部分证明.

该定理还可推广到两个或两个以上随机变量的函数的情况.

多维随机变量函数的数学期望
Z 是随机变量 X,Y 的函数 Z=g(X,Y) ( g 是连续函数), 那么 Z 是一个一维随机变量.

多维离散型随机变量函数的数学期望
若二维随机变量 (X,Y) 的分布律为 P lbrace X = x_i, Y = y_j rbrace = p_{ij}, i,j = 1,2,cdots , 则有 E(Z) = E[g(X,Y)] = displaystylesum_{j=1}^{infty}displaystylesum_{i=1}^{infty}g(x_i,y_j)p_{ij}

多维连续随机变量函数的数学期望
若二维随机变量 (X,Y) 的概率密度为 f(x,y), 则有 E(Z) = E[g(X,Y)] = int_{infty}^{infty}int_{infty}^{infty}g(x,y)f(x,y)dxdy

这里也需满足上述级数或积分绝对收敛的条件.

数学期望的一些性质
1. 设C是常数, 则有E(C) = C.
2. 设X是一个随机变量, C是常数, 则有 E(CX)=CE(X)
3. 设X,Y是两个随机变量, 则有 E(X+Y) = E(X) + E(Y)
4. 设X,Y是相互独立的随机变量, 则有 E(XY) = E(X)E(Y)
性质1,2 略, 3,4有证明.

2. 方差

定义

X 是一个随机变量, 若 E([X-E(X)]^2) 存在, 则称 E([X-E(X)]^2)X方差, 记为 D(X)Var(X) , 即 D(X) = Var(X) = E([X-E(X)]^2)
引入sqrt{D(X)}, 记为 sigma(X) , 称为 标准差均方差 .

随机变量X的方差表达了X的取值与其数学期望的偏离程度.

随机变量X的方差可以通过如下公式进行计算,证明略 : D(X) = E(X^2) – [E(X)]^2

例: 设随机变量X具有数学期望E(X) = mu, 方差 D(X) = sigma^2 neq 0 . 记 X^* = frac{X – mu}{sigma}, 则 CONTINUED, 即 X^* 的数学期望为0, 方差为1. X^* 称为 X标准化变量.

例1: 设随机变量 X ~ pi(lambda) , 求 D(X) .

例2: 设随机变量 X ~ U(a,b) , 求 D(X) .

例3: 设随机变量 X 服从指数分布, 求 E(X),D(X) .
答3: E(X) = theta, D(X) = theta^2

方差的一些性质
1. 设 C 是常数, 则D(C) = 0
2. 设 X 是随机变量, C 是常数, 则 D(CX) = C^2D(X), D(X+C) = D(X)
3. 设 X,Y 是两个随机变量, 则有 D(X+Y) = D(X) + D(Y) + 2Elbrace (X-E(X))(Y-E(Y)) rbrace.
X,Y 相互独立, 则有 D(X+Y) = D(X) + D(Y)
4. D(X) = 0 的充要条件是 X

例: 设随机变量X ~ b(n,p), 求E(X),D(X).
例: 设随机变量X ~ N(mu,lambda^2), 求E(X),D(X).

定理
切比雪夫不等式 : 设随机变量X具有数学期望E(X) = mu, 方差D(X) = lambda^2, 则对于任意正数epsilon, 不等式 continues 成立.

3. 协方差

定义
协方差
相关系数

协方差的一些性质

相关系数的一些性质

不相关和相互独立
不相关只是就线性关系而言的, 而相互独立是就一般关系而言的.

4. 矩, 协方差矩阵

定义

混合矩
中心矩
混合中心矩阵

协方差矩阵

协方差矩阵的一些性质

用协方差矩阵重写二维正态随机变量, 并推到至多维正态随机变量.

n维正态随机变量的四条重要性质

  1. n维正态随机变量(X_1,X_2,cdots,X_n)的每一个分量X_i, i=1,2,cdots,n都是正态随机变量; 反之, 若X_1,X_2,cdots,X_n都是正态随机变量,且相互独立, 则(X_1,X_2,cdots,X_n)n维正态随机变量.
  2. n维随机变量服从n维正态分布的充要条件是X_1,X_2,cdots,X_n的任意的线性组合l_1X_1 + l_2X_2 + cdots + l_nX_n 服从一维正态分布(其中l_1,l_2,cdots,l_n不全为零).

  3. 正态变量的线性变换不变性

  4. (X_1,X_2,cdots,X_n)服从n维正态随机分布, 则’X_1,X_2,cdots,X_n相互独立’与’X_1,X_2,cdots,X_n两两不相关’是等价的.

Tips :
这里可以看性质2和1的区别. 性质1中得出的结论是n维正态随机变量的每一个分量都是正态随机变量. 但是性质2中, 更多的是讲述如何确定一个n维随机变量是n维正态随机变量.
性质4更多的是提示相互独立和两两不相关等价, 则得知X_1,X_2,cdots,X_n服从n维正态随机分布的情况下, 可以根据两两不相关得出Cov(X_i,X_j) = 0

Linear Algebra – Lesson 10. 四个基本子空间

Schedule

  • Four fundamental subspaces (for matrix A)

4 Subspaces – 4个子空间

假定A为m\times n的矩阵, 与其相关有如下四个子空间:

  • C(A) : column-space
  • N(A) : null-space
  • C(A^T) : row-space = all combs of rows = all combs of columns of A^T
  • N(A^T) : null-space of A^T = left null space of A

N(A)中包含的是n维向量,且是Ax=0的解. 所以N(A)是在R^n中的.
C(A)是在R^m中,C(A^T)R^n中,N(A^T)R^m

4 Subspaces

分别对这四个子空间进行求解基和维.

  • C(A) 列空间
    列空间的维度\dim C(A) = r
    C(A)中的一组基是所有主列.

  • C(A^T) 行空间
    行空间的维度\dim C(A^T) = r

  • N(A) 零空间
    N(A)中的一组基是特殊解们,共有(n-r)个特殊解,所以\dim N(A)=n-r

  • N(A^T) 左零空间
    左零空间的维数是m-r

可以看出,在n维空间R^n中存在两个子空间,一个是r维的行空间,另一个是n-r维的零空间, 两个空间的维数和为n.
同样的,在m维空间R^m中,存在两个子空间,一个是r维的列空间,另一个是m-r维的左零空间,两个空间的维数和为m.

Example:
A=\begin{bmatrix}1&2&3&1\\1&1&2&1\\1&2&3&1\end{bmatrix}\rightarrow\begin{bmatrix}1&0&1&1\\0&1&1&0\\0&0&0&0\end{bmatrix}=R
矩阵A在经过消元和行变换之后得到R, 可以看出C(R)\ne C(A),但是有相同的行空间(row space).
AR的行空间的基是R中的非零r行.

Basis of row space is the r rows of R.

行空间没有发生变化的原因是因为在消元和行变化的过程中,发生变化的是行与行之间的加减和数乘,这可以理解为原来同处于同一空间内的两个向量的线性组合仍处于同一空间.

为什么这个基(R的非零r行)的张成空间是行空间?也就是为什么矩阵A的各行是这些行的线性组合?
这是因为通过各行消元的逆操作,可以从R逆向推导出A.

N(A^T)为什么叫左零空间?
假设左零空间中的向量为y, 则A^Ty=0. 同时对等式两边进行转置, 得到y^tA^{TT}=0^T,也就是y^TA=0, 因为y^T在A的左边,所以叫左零空间.

如何求解左零空间?
Guass-Jordan 方法
[A_{m\times n} I_{m\times m}] \rightarrow [R_{m\times n}E_{m\times m}]
在第二章中我们提到过通过Guass-Jordan方法获取A的逆(如果A可逆的话), 只不过那时对应R的是单位矩阵I.而在这里A因为是m\times n的长方形矩阵,所以不可逆.
求出E是为了求解左零空间的基和维数.

New vector space – 新的向量空间

对于所有3\times 3的矩阵, 将矩阵看做”向量”, 每个3\times 3的矩阵都是一个”向量”.
为什么可以这么做? 这是因为同样的3\times 3的矩阵都可以互相相加, 也可以进行数乘, 同样也可以进行线性组合, 也存在某个线性组合的结果为零矩阵, 所以可以在一定程度上将这些矩阵看做”向量空间”.
M来表示由所有3\times 3矩阵组成的矩阵”空间”
这像是把R^n的概念延伸到了R^{n*n}, 在这个空间里仍然可以进行相加和数乘(忽略矩阵可以相乘的性质).

Linear Algebra – Lesson 9. 线性相关性, 基, 维数

Schedule

  • Linear independence
  • Spanning a space
  • Basis and Dimension
    该章节中说到的无关性和张成空间均指的是向量组而非矩阵.

Independence – 线性无关性

假设A是一个m\times n的矩阵(m)(即A是一个长方形矩阵),那么对于Ax=0来说一定有非零解,这是因为一定存在自由变量.

Suppose A is m\times n with m, then there are nonzero solutions to Ax=0 (more unknowns than equations).
The reason why there is solution is there will be free variables.

什么时候向量x_1,x_2,…x_n是线性无关的?

When vectors x_1,x_2,…x_n are independent?

除了系数全为零之外, 如果存在一种组合, 使得结果为零向量, 那么它们是线性相关的.
反之,如果不存在结果为零向量的组合, 则向量组线性无关.
c_1x_1 + c_2x_2 + … + c_nx_n \ne 0 除非 all\phantom{1}c_i=0

从而可以得出, 零向量和任意向量均相关.
所以如果向量组中有一个零向量,那么该向量组必定相关.

那么对于位于同一平面内的三个非零向量v_1,v_2,v_3,它们是否一定线性相关呢? 答案是肯定的.
理由是由v_1,v_2,v_3组成的向量组经过消元后必定有自由变量,所以肯定有非零解.
假设该向量组为A=[v_1,v_2,v_3]=\begin{bmatrix}2&1&2.5\\1&2&-1.5\end{bmatrix},那么对于Ac=0A的零空间存在非零组合,则向量组相关.

When v_1,v_2,…v_n are columns of A:

  • They are independent if the null-space of A is only zero vector \rightarrow (r=n).
  • Then are dependent if Ac=0 for some non-zero c \rightarrow (r.

当向量组(n个列向量)线性无关时,则由向量组构成的矩阵秩为n, 所有的列均为主列, 这是因为自由列的实质是主列的线性组合.

Spanning – 张成

向量v_1,…v_l张成一个空间意味着这个空间由这些向量的线性组合构成.

Vectors v_1,…v_l span a space means the space consists of all combinations of those vectors.

而构成空间的基则需满足另一个条件: 线性无关
Basis for a space is a sequence of vectors v_1,v_2,…v_d that has two properties:

  • they are independent.
  • they span the space.

Example:
Space is R^3.
其中的一个基是\begin{bmatrix}1\\0\\0\end{bmatrix},\begin{bmatrix}0\\1\\0\end{bmatrix},\begin{bmatrix}0\\0\\1\end{bmatrix}.
这并不是唯一的一个基,还有其他的基类似于\begin{bmatrix}1\\1\\2\end{bmatrix},\begin{bmatrix}2\\3\\5\end{bmatrix},\begin{bmatrix}3\\3\\8\end{bmatrix}.

For R^n, n vectors give basis if the n\times n matrix with those columns is invertible.

对于给定的空间,其每个基包含的向量个数是一样的,而这个个数也被称为该空间的维度.

Given a space, every basis for the space has the same number of vectors and this number is the dimension of the space.

总结一下:

Independence, that looks at combinations not being zero.
Spanning, that looks at all the combinations.
Basis, that’s the one that combines independences and spanning.
Dimension, the number of vectors in any basis.

Example:
Space is C(A) = \begin{bmatrix}1&2&3&1\\1&1&2&1\\1&2&3&1\end{bmatrix}
2 = rank(A) = # pivot columns = dimension of C(A)
这里需要注意的是,2是A的列空间的维数,而不是A的维数,这是因为A是一个矩阵(或列向量组),但是维数是建立在空间的基础上的.
同样的,秩是建立在矩阵的基础上,在空间中没有秩的概念.
dimC(A) = r
dimN(A) = n-r = \text{# free variables}

Linear Algebra – Lesson 8. 求解Ax=b: 可解性和解的结构

Schedule

  • Complete solution of Ax=b
  • Rank r
  • r=m : Solution & Exists
  • r=n : Solution is Unique

Complete solution of Ax=b

以上节课中的例子为例,方程式组如下:
x_1+2x_2 +2x_3+2x_4 = b_1\\2x_1+4x_2+6x_3+8x_4=b_2\\3x_1+6x_2+8x_3+10x_4=b_3
方程式组的增广矩阵如下,经过消元后得到:
Argumented Matrix = [A |b]=\begin{bmatrix}\fbox1&2&2&2&b_1\\2&4&6&8&b_2\\3&6&8&10&b_3\end{bmatrix}=\begin{bmatrix}\fbox1&2&2&2&b_1\\0&0&\fbox2&4&b_2-2b_1\\0&0&2&4&b_3-3b_1\end{bmatrix}=\begin{bmatrix}\fbox1&2&2&2&b_1\\0&0&\fbox2&4&b_2-2b_1\\0&0&0&0&b_3-b_2-b_1 \end{bmatrix}
可以看出,如果方程式组有解的话,行三必须得到满足,即b_3-b_2-b_1=0

假设取b=\begin{bmatrix}1\\5\\6\end{bmatrix},可以将原增广矩阵转换为:
Argumented Matrix = [A |b]=\begin{bmatrix}\fbox1&2&2&2&1\\0&0&\fbox2&4&3\\0&0&0&0&0\end{bmatrix}
这样的话,行三的方程组可以得到解. 那么什么样的b可以满足方程式组?

Solvability is the condition on b.

可解性指的是b满足什么条件,才能使得Ax=b始终有解.

Ax=b is solvable if when exactly when b is in the column space of A.

The same combination of the entries of b must give 0(not zero row, but number 0).

以上两种描述是等价的,均为描述方程组有解的条件.

Question Mark Here:
这里一直不明白的问题是,为什么b属于A的列空间或者b满足A的线性组合就可以说方程式组有解?
以上述例子为例,即使满足行三方程式, 那么行一和行二就一定会满足么?
实际上是的,因为在上节课中Ax=0的学习中可以知道,自由列的值变化,不影响解.
所以在增广矩阵经过行消元后得到的矩阵中,如果行三,也就是零行得到满足,则剩余其他非零行可以通过自由变量赋值0从而求得特定解.

Find complete solution to Ax=b – 求Ax=b的所有解

在确定有解后,该怎么求解?
Step one : A particular solution.

Set all free variable to zero and then solve Ax=b for pivot variables.

之前的例子中可以将x_2x_4设置为0(自由变量),可以回代 求得x_1=-2, x_3=1.5,从而求得一个特解(particular solution).
x_{\text{particular solution}} = \begin{bmatrix}-2\\0\\1.5\\0\end{bmatrix}

Step two : add on X anything out of the null space.
Step three : 从而求得x=x_p+ x_n

The complete solution is the one particular solution plus any vector out of the null space.

Ax_p = bAx_n=0 两者相加,同样得到A(x_p+x_n)=b
对于方程组某解,其与零空间内任意向量之和仍为解.
x_{complete} =\begin{bmatrix}-2\\0\\1.5\\0\end{bmatrix} + c_1\begin{bmatrix}-2\\1\\0\\0\end{bmatrix} + c_2 \begin{bmatrix}2\\0\\-2 \\1\end{bmatrix}
x_p是一个特定解,x_n是整个零空间,
注: 零空间的一组基向量,即教授所说的这些特殊解,往往也称为基础解系
Ax=b特解表示为particular solution(特定解), Ax=0基为special solution(特殊解).

m\times n matrix A of rank r – 秩为rm\times n矩阵

可以得出rm之间初步的关系是r\le m, 因为主元的个数不会超过行的个数.同样,r\le n.

对于满秩的情况,需要分为如下几个情况考虑:

  1. Full column rank means r=n\lt m
    这种情况下每列均有一个主元,从而没有自由变量. 这样的话零空间中将会只有零向量.
    那么对于Ax=b来说,其全部解为特解x_p一个(如果有解的话), 将其称为unique solution(唯一解).
    也就是说,对于r=n的情况下,其解的情况为0或者1个解(特定解).
    举个例子:

  2. Full row rank means r=m\lt n
    这种情况下每行均有一个主元,自由变量数为n-r个.
    因为在消元过程中没有产生零行,所以求解Ax=b对于b来说没有要求(Can solve Ax=b for every right-hand side),所以必然有解.
    举个例子(上个例子的转置):

    A=\begin{bmatrix}1&2&6&5\\3&1&1&1\end{bmatrix}(r=2)\rightarrow R= \begin{bmatrix}1&2&6&5\\0&-5&-17&-14\end{bmatrix}

  3. r=m=n
    零空间中只有零向量.
    举个例子:
    A=\begin{bmatrix}1&2\\3&1\end{bmatrix}\rightarrow R= I
    必然有解,唯一解.

总结如下
r=m=n\rightarrow R=I\rightarrow 1 solution(特定解)
r=n\lt m\rightarrow R=I/0\rightarrow 0 or 1 solution(特定解)
r=m\lt n\rightarrow R=[I|F]\rightarrow 1 or infinitely many solutions(特定解或特定解和零向量空间的组合)
r\lt m,r\lt n\rightarrow 0 or infinitely many solutions(特定解和零向量空间的组合)

The rand tells everything about the number of solutions .

Linear Algebra – Lesson 7. 求解Ax=0: 主变量,特解

Schedule

  • Computing the null-space (Ax=0)
  • Pivot variable with Free variable
  • Special Solutions — rref(A)=R
    这章主要讨论的是长方矩阵(rectangular matrix)

Computing the Nullspace – 计算零空间

假设有矩阵A,如下所示:
A=\begin{bmatrix}1&2&2&2\\2&4&6&8\\3&6&8&10\end{bmatrix}
可以看出列二是列一的倍数,所以它们是相关的.
同样,行三是行一和行二的和,所以它们也是相关的.

在消元的过程中,可能会出现主元位置元素为零的情况.

在消元的过程中,零空间不会改变.这是因为在消元的过程中,一行加上另一行的倍数不会改变解,因此零空间也不会变(也是因为b全部为零,所以解不会变).实际上,改变的是列空间.

消元步骤如下:
A=\begin{bmatrix}\fbox1&2&2&2\\2&4&6&8\\3&6&8&10\end{bmatrix}=\begin{bmatrix}1&2&2&2\\0&0&2&4\\0&0&2&4\end{bmatrix}
这里发现列二主元位置元素为零,且下方没有非零元素,这说明列二相关于前面各列.继续进行消元.
A=\begin{bmatrix}\fbox1&2&2&2\\2&4&6&8\\3&6&8&10\end{bmatrix}=\begin{bmatrix}\fbox1&2&2&2\\0&0&\fbox2&4\\0&0&2&4\end{bmatrix}=\begin{bmatrix}\fbox1&2&2&2\\0&0&\fbox2&4\\0&0&0&0\end{bmatrix}=U
这里,我们得到了矩阵的阶梯形式(echelon form),非零元素以一种阶梯形式出现.

矩阵中非零主元的数被称为矩阵的秩(rank).

Rank of A = # of pivots

消元至此,我们从求解Ax=0转换成求解Ux=0,在转换过程中解不变,零空间不变.

主元所在的列被称为主列,其余的列被称为自由列.

被称为自由列的原因是因为在求解Ux=0的过程中,x_2,x_4可以被赋予任意值而不影响求解,最后求解x_1,x_3即可.

这里因为自由列共有两列,所以需要对不同的自由变量进行赋值.
假设将x_2,x_4进行赋值,x_2=1,x_4=0,求得x_1=-2,x_3=0;
假设将x_2,x_4进行赋值,x_2=0,x_4=1,求得x_1=2,x_3=-2.

从而求得两个特殊解(special solutions):
\begin{bmatrix}-2\\1\\0\\0\end{bmatrix} 和 \begin{bmatrix}2\\0\\-2\\1\end{bmatrix}
被称为特殊解是因为在于给自由变量分配的特定值.

通过特殊解的线性组合可以得到零空间,即x=c\begin{bmatrix}-2\\1\\0\\0\end{bmatrix}+d\begin{bmatrix}2\\0\\-2\\1\end{bmatrix}

零空间所包含的正好是特解的线性组合.

The null space contains exactly all the combinations of the special solutions.

每个自由变量均对应一个特殊解.

There is one special solution for every free variable.

如果m\times n的矩阵有r个主元,那么共有n-r个自由变量,也就是有n-r个特殊解.

R = reduced row echelon form
U=\begin{bmatrix}\fbox1&2&2&2\\0&0&\fbox2&4\\0&0&0&0\end{bmatrix}=\begin{bmatrix}\fbox1&2&0&-2\\0&0&\fbox2&4\\0&0&0&0\end{bmatrix}=\begin{bmatrix}\fbox1&2&2&2\\0&0&\fbox1&2\\0&0&0&0\end{bmatrix}=R=rref(A)

注意到在主行和主列上的元素可以组成一个单位阵.

notice \begin{bmatrix}1&0\\0&1\end{bmatrix} = I in pivot rows and pivot column.

rref(A)中的全零行表示该行原为其他行的线性组合,可以被消元过程中去除.

所以R所代表的方程式组为:
x_1+2x_2-2x_4=0 \\ x_3+2x_4=0
对于所有的主列来说,系数矩阵为I=\begin{bmatrix}1&0\\0&1\end{bmatrix}
对于所有的自由列来说,系数矩阵为F=\begin{bmatrix}2&-2\\0&2\end{bmatrix}


rref – 简化行阶梯形式

典型的简化行阶梯形式如下:
R=\begin{bmatrix}I&F\\0&0\end{bmatrix}

如何一次求出满足Rx=0的所有特殊解?

通过构造零空间矩阵N(nullspace matrix)可以做到,即RN=0.

N = \text{null-space matrix(columns of special solutions)}=\begin{bmatrix}-F\\I\end{bmatrix}