数学常识#

概率论#

条件概率#

条件概率是指在已知某一事件发生的条件下，另一个事件发生的概率。形式化定义为：

P(A | B) = \frac{P(A \cap B)}{P(B)}, \quad P(B) > 0

全概率公式#

全概率公式用于计算一个事件的概率，该事件可以通过多个互斥事件的并集来表示。形式化定义为：

P(A) = \sum_{i} P(A | B_{i}) P(B_{i})

其中， $B_i$ 是一组互斥且完备的事件。

贝叶斯公式#

贝叶斯公式用于更新事件的概率，基于新的信息。形式化定义为：

P(A | B) = \frac{P(B | A) P(A)}{P(B)}, \quad P(B) > 0

概率分布和概率密度#

离散随机变量#

离散随机变量的概率分布函数（Probability Mass Function, PMF）定义为：

P(X = x) = p_X(x)

连续随机变量#

连续随机变量的概率密度函数（Probability Density Function, PDF）定义为：

f_X(x) = \frac{d}{dx} P(X \leq x)

这个定义是需要熟悉的，有些时候往往会通过算一个极限来求出 PDF。

f_X(x) = \lim_{\Delta x \to 0} \frac{P(x \leq X < x + \Delta x)}{\Delta x}

这在实际计算中经常用到。

累积分布函数#

累积分布函数（Cumulative Distribution Function, CDF）定义为：

F_X(x) = P(X \leq x)

联合分布#

对于多个随机变量的联合分布，定义为：

P(X_1 = x_1, X_2 = x_2, \ldots, X_n = x_n) = p_{X_1, X_2, \ldots, X_n}(x_1, x_2, \ldots, x_n)

对于连续随机变量的联合分布，定义为：

P(X_1 \leq x_1, X_2 \leq x_2, \ldots, X_n \leq x_n) = F_{X_1, X_2, \ldots, X_n}(x_1, x_2, \ldots, x_n)

概率密度函数为：

f_{X_1, X_2, \ldots, X_n}(x_1, x_2, \ldots, x_n) = \frac{\partial^n}{\partial x_1 \partial x_2 \cdots \partial x_n} F_{X_1, X_2, \ldots, X_n}(x_1, x_2, \ldots, x_n)

如果 $X_1, X_2, \ldots, X_n$ 是独立的，则有：

P(X_1 = x_1, X_2 = x_2, \ldots, X_n = x_n) = P(X_1 = x_1) P(X_2 = x_2) \cdots P(X_n = x_n)

概率密度上也有

f_{X_1, X_2, \ldots, X_n}(x_1, x_2, \ldots, x_n) = f_{X_1}(x_1) f_{X_2}(x_2) \cdots f_{X_n}(x_n)

当然联合分布也有

F_{X_1, X_2, \ldots, X_n}(x_1, x_2, \ldots, x_n) = F_{X_1}(x_1) F_{X_2}(x_2) \cdots F_{X_n}(x_n)

随机变量函数的分布#

对于随机变量 $X$ 和函数 $Y=g(X)$ ，其分布可以通过以下方式计算：

比如 $Z=X+Y$ ，我们用 $Z$ 和 $X$ 来表示 $Y$ ，则有：

Y = Z - X

然后我们可以通过联合分布来计算：

f_{X+Y}(x, y) = \int_{-\infty}^{+\infty} f(x, z-x) =\int_{-\infty}^{+\infty} f_X(x) f_Y(z - x) \, dx

数字特征#

期望#

期望（Expectation）是随机变量的加权平均值，定义为：

对于离散随机变量：

\mathbb{E}[X] = \sum_{x} x P(X = x)

对于连续随机变量：

\mathbb{E}[X] = \int_{-\infty}^{+\infty} x f_X(x) \, dx

对于高纬度随机变量，可以使用多重积分：

\mathbb{E}[X] = \int_{-\infty}^{+\infty} \cdots\int_{-\infty}^{+\infty} x_1 x_2 \cdots f_X(x_1, x_2, \ldots) \, dx_1 \, dx_2 \cdots

性质#

线性性质：对于常数 $a$ 和 $b$ ，有 $\mathbb{E}[aX + b] = a\mathbb{E}[X] + b$ 。（对任意随机变量 $X$ 和常数 $a, b$ 成立）
独立性：如果 $X$ 和 $Y$ 独立，则 $\mathbb{E}[XY] = \mathbb{E}[X]\mathbb{E}[Y]$ 。

全期望公式#

对于随机变量 $X$ 和条件 $Y$ ，全期望公式为：

\mathbb{E}[X] = \mathbb{E}[\mathbb{E}[X | Y]]

内层的 $\mathbb{E}[X | Y]$ 是在条件 $Y$ 下对 $X$ 的期望，而外层的 $\mathbb{E}$ 是对 $Y$ 的期望。相当于对 $Y$ 的所有可能值进行枚举，然后加权平均。

方差#

方差（Variance）是随机变量与其期望之间的偏离程度，定义为：

\mathrm{Var}(X) = \mathbb{E}[(X - \mathbb{E}[X])^2] = \mathbb{E}[X^2] - (\mathbb{E}[X])^2

协方差#

协方差（Covariance）是两个随机变量之间的线性关系，定义为：

COV(X, Y) = \mathbb{E}[(X - \mathbb{E}[X])(Y - \mathbb{E}[Y])] = \mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y]

其实方差是协方差的特例，即 $COV(X, X) = \mathrm{Var}(X)$ 。

他们与期望有着密切的关系：

记忆：协方差=乘积的期望 - 期望的乘积

协方差矩阵#

对于多维随机变量 $\mathbf{X} = (X_1, X_2, \ldots, X_n)$ ，协方差矩阵定义为：

\Sigma = \begin{pmatrix} \mathrm{Var}(X_1) & COV(X_1, X_2) & \cdots & COV(X_1, X_n) \\ COV(X_2, X_1) & \mathrm{Var}(X_2) & \cdots & COV(X_2, X_n) \\ \vdots & \vdots & \ddots & \vdots \\ COV(X_n, X_1) & COV(X_n, X_2) & \cdots & \mathrm{Var}(X_n) \end{pmatrix}

这在高维高斯过程中非常重要。

自相关函数#

随机过程的自相关函数定义为

R_X(t_1, t_2) = \mathbb{E}[X(t_1) X(t_2)]

协方差函数#

随机过程的协方差函数定义为

C_X(t_1, t_2) = \mathbb{E}[(X(t_1) - \mathbb{E}[X(t_1)])(X(t_2) - \mathbb{E}[X(t_2)])]

平稳性#

宽平稳#

定义：

$X (t)$ 对于任意的 $t_1, t_2$ ，都有

\mathbb{E}[X(t_1)] = \mathbb{E}[X(t_2)]

且

R_X(t_1, t_2) = R_X(t_1 + \tau, t_2 + \tau)

即自相关函数只与时间差 $\tau = t_2 - t_1$ 有关。即

R_X(t_1, t_2) = R_X(\tau) = R_X(t_2 - t_1))

也就是说，要证明是宽平稳的，只需要证明自相关函数只与时间差 $\tau$ 有关。

严平稳#

定义：

$X(t)$ 对于任意的 $t_1, t_2$ ，都有

F_{X(t_1), X(t_2)}(x_1, x_2) = F_{X(t_1 + \tau), X(t_2 + \tau)}(x_1, x_2)

即联合分布函数不随时间平移而改变。

母函数#

定义：#

令 $X$ 是取值为非负整数的随机变量，已知 $P(X = k) = p_k$ 是对应的概率，则称一个 $X$ 型如

G_X(s) = \mathbb{E}[s^X] = \sum_{k=0}^{\infty} p_k s^k

的函数为概率母函数（Probability Generating Function）。

也有别名加生成函数和形式级数。

性质#

已知随机变量 $X$ 的概率母函数为：

G_X(s) = \mathbb{E}[s^X] = \sum_{k=0}^{\infty} p_k s^k

则有以下性质：

归一性

G_X(1) = 1

期望公式

\mathbb{E}[X] = G_X'(1)

方差公式

\mathrm{Var}(X) = G_X''(1) + G_X'(1)\left(1 - G_X'(1)\right)

概率母函数的性质：计算两个离散随机变量和的分布

概率母函数除了描述单个随机变量的分布外，还有一个非常有用的性质 —— 可用于计算两个独立离散随机变量之和的分布。

定理：

设 $X_1$ 和 $X_2$ 是两个相互独立的、取非负整数值的随机变量，分别具有概率母函数：

G_{X_1}(t) = \mathbb{E}[t^{X_1}], \quad G_{X_2}(t) = \mathbb{E}[t^{X_2}]

则它们之和 $X = X_1 + X_2$ 的概率母函数为：

G_X(t) = G_{X_1 + X_2}(t) = G_{X_1}(t) \cdot G_{X_2}(t)

也就是说：独立随机变量的和的概率母函数，等于各自概率母函数的乘积。

特征函数#

定义#

特征函数（Characteristic Function）是随机变量分布的一个重要工具，定义为：

\phi_X(\omega) = \mathbb{E}[e^{j\omega X}] = \int_{-\infty}^{\infty} e^{j\omega x} f_X(x) \, dx

其中， $j$ 是虚数单位， $\omega$ 是频率变量。

其实就是对随机变量 $X$ 的概率密度函数 $f_X(x)$ 进行傅里叶逆变换。

性质#

特征函数与概率分布一一对应
若 $X_1, X_2 ... X_n$ 相互独立，则它们的特征函数满足

\phi_{X_1 + X_2 + ... + X_n}(\omega) = \phi_{X_1}(\omega) \cdot \phi_{X_2}(\omega) \cdots \phi_{X_n}(\omega)

高数#

Gamma 积分公式#

📌 定义（欧拉积分形式）#

对于复数 ( z )，实部大于 0：

\Gamma(z) = \int_0^{\infty} t^{z-1} e^{-t} \, dt \quad \text{Re}(z) > 0

注意，很多时候去凑形式的时候，往往忘记了 $t^{z-1}$ 中的 $t$ 也要凑。

🎯 特殊值#

当 $z = n \in \mathbb{N}^+$ 时：

\Gamma(n) = (n - 1)!

例子：

\Gamma(1) = 0! = 1, \quad \Gamma(2) = 1! = 1, \quad \Gamma(3) = 2! = 2

特别地：

\Gamma\left(\frac{1}{2}\right) = \sqrt{\pi}

🔁 变形与代换形式#

代换 $t = x^2$ ，可以得到：

\Gamma\left(\frac{1}{2}\right) = \int_0^{\infty} x^{-1/2} e^{-x} \, dx = \sqrt{\pi}

🔗 与 Beta 函数关系#

Beta 函数定义为：

B(x, y) = \int_0^1 t^{x-1}(1 - t)^{y - 1} \, dt

与 Gamma 函数的关系：

B(x, y) = \frac{\Gamma(x)\Gamma(y)}{\Gamma(x + y)}

📉 斯特林近似（当 ( z \to \infty ) 时）#

\Gamma(z) \approx \sqrt{2\pi} \, z^{z - \frac{1}{2}} e^{-z}

高斯积分#

高斯积分（Gaussian Integral）#

1. 基本高斯积分#

最基础的高斯积分形式为：

\int_{-\infty}^{+\infty} e^{-x^2} \, dx = \sqrt{\pi}

2. 带参数的高斯积分#

对于带参数的高斯积分：

\int_{-\infty}^{+\infty} e^{-a x^2} \, dx = \sqrt{\frac{\pi}{a}}, \quad a > 0

3. 奇函数高斯积分#

对于奇函数乘以高斯函数的积分：

当 $k$ 为奇数时：

\int_{-\infty}^{+\infty} x^k e^{-x^2} \, dx = 0

4. 偶函数高斯积分#

对于偶函数乘以高斯函数的积分：

\int_{-\infty}^{+\infty} x^{2n} e^{-x^2} \, dx = \frac{(2n-1)!!}{2^n} \sqrt{\pi}, \quad n \in \mathbb{N}

平方展开式#

对于任意 $a_1, a_2, \dots, a_n$ ，平方和的展开公式为：

\left(\sum_{k=1}^n a_k\right)^2 = \sum_{k=1}^n a_k^2 + 2 \sum_{1 \leq k < l \leq n} a_k a_l.

线性代数#

特征值和特征向量#

设 $A$ 是一个 $n \times n$ 的矩阵， $\lambda$ 是一个标量， $v$ 是一个非零向量。如果满足以下方程：

A v = \lambda v

则称 $\lambda$ 是矩阵 $A$ 的特征值， $v$ 是对应的特征向量。

具体如何计算呢#

特征值和特征向量的计算可以通过求解以下特征方程来完成：

\text{det}(\lambda I - A) = 0

其中 $I$ 是单位矩阵， $\text{det}$ 表示行列式。特征值 $\lambda$ 的求解就是求解这个方程的根。

解关于 $\lambda$ 的多项式方程后，可以得到特征值 $\lambda_1, \lambda_2, \ldots, \lambda_n$ 。

对应的特征向量可以通过将特征值代入以下方程求解：

(A - \lambda_i I)v = 0

这个方程一定是线性相关的，求到最后用某一个 $x$ 来表示其他的 $x$ ，然后就可以得到特征向量。

对角化#

一个矩阵 $A$ 可以被对角化，如果存在一个可逆矩阵 $P$ 和一个对角矩阵 $D$ ，使得：

A = P D P^{-1}

其中 $D$ 的对角线元素是 $A$ 的特征值。

对角化的过程通常包括以下步骤：

计算特征值：求解特征方程 $\text{det}(\lambda I - A) = 0$ 。
计算特征向量：对于每个特征值 $\lambda_i$ ，求解方程 $(A - \lambda_i I)v = 0$ 。
构造矩阵 $P$ 和 $D$ ：将特征向量按列排列形成矩阵 $P$ ，将特征值按对角线排列形成对角矩阵 $D$ 。

对角化的好处在于可以简化矩阵的运算，特别是在计算矩阵的幂或指数时。

对称#

一个矩阵 $A$ 是对称的，如果它等于它的转置，即：

A = A^T

对称矩阵具有以下性质：

实特征值：所有特征值都是实数。
正交特征向量：对应不同特征值的特征向量是正交的。
可对角化：对称矩阵总是可以被对角化，且可以通过正交矩阵对角化。

正交对角化#

对于对称矩阵 $A$ ，一定可以找到一个正交矩阵 $Q$ 和一个对角矩阵 $D$ ，使得：

A = Q D Q^T

其中 $D$ 的对角线元素是 $A$ 的特征值， $Q$ 的列向量是 $A$ 的正交特征向量。

与一般的对角化不同，我们这里多一步，对特征向量做正交归一化

随机过程#

定义#

你现在知道 随机变量（random variable） 是啥了，它表示一个“值不确定”的量，比如投一次骰子，结果是个离散随机变量；温度计测一次温度，是个连续随机变量。

但这些都是一次性的不确定。

随机过程（stochastic process） = 多次 + 时变 + 不确定

换句话说，随机过程就是一组随时间变化的随机变量序列。你把时间引入随机变量，就是随机过程。

离散时间马尔科夫链#

定义#

设有可数样本空间的 $\mathcal{S}$ ，如果随机过程 $\{X_n\}_{n=0}^{\infty}$ 满足：

P(X_{n+1} = i_{n+1} | X_n = i_n, X_{n-1} = i_{n-1}, \ldots, X_0 = i_0) = P(X_{n+1} = i_{n+1} | X_n = i_n)

对任意的 $n \geq 0$ ，则称 $\{X_n\}_{n=0}^{\infty}$ 是一个离散时间马尔科夫链（DTMC）。

定义告诉我们，马尔科夫链的未来状态只与当前状态有关，而与过去的状态无关。这种性质称为无后效性（Markov property）。

状态转移概率#

对于马尔科夫链 $X_n$ 的 $n$ 步转移概率定义为：

P(X_{k+n} = j | X_k = i) = P_{ij}^{(n)}

得到一个矩阵 $P^{(n)}$

在我们的课程中，认为转移概率不依赖于 $k$ ，因此是齐次的

特别地当 $n=1$ 时，称为一步转移概率：

P_{ij} = P(X_{k+1} = j | X_k = i)

C-K 方程#

C-K 方程（Chapman-Kolmogorov 方程）是描述马尔科夫链状态转移的基本方程。它表明从状态 $i$ 到状态 $j$ 的 $n$ 步转移概率可以通过中间状态的转移概率来计算：

P_{ij}^{(n + m)} = \sum_{k} P_{ik}^{(n)} P_{kj}^{(m)}

矩阵形式为

P^{(n + m)} = P^{(n)} P^{(m)}

这意味着， $n$ 步转移矩阵可以通过一步转移矩阵的乘积来计算。

P^{(n)} = P^n

有括号表示 $n$ 步转移概率矩阵，没有括号表示 $n$ 次矩阵乘积。

这里通常会用到矩阵的幂运算，即将转移矩阵 $P$ 自身乘以 $n$ 次。为了简化计算，我们可以使用矩阵的特征分解或对角化方法。

表示方法#

转移矩阵法#

对于马尔科夫链 $\{X_n\}_{n=0}^{\infty}$ ，可以用转移矩阵 $P$ 来表示状态转移概率：

P = \begin{pmatrix} p_{00} & p_{01} & \cdots & p_{0n} \\ p_{10} & p_{11} & \cdots & p_{1n} \\ \vdots & \vdots & \ddots & \vdots \\ p_{n0} & p_{n1} & \cdots & p_{nn} \end{pmatrix}

其中 $P_{ij}$ 表示从状态 $i$ 到状态 $j$ 的一步转移概率。

状态转移图#

状态转移图是马尔科夫链的图形表示方法，其中每个状态用节点表示，转移概率用有向边表示。边上的权重表示从一个状态到另一个状态的转移概率。

递推函数#

X_{n+1} = f(X_n, Z_{n+1})

其中 $Z_k$ 是一个随机变量序列，只需要满足下列条件之一：

$Z_k$ 独立同分布，且与 $X_0$ 独立
$Z_k$ 同分布，且给定 $X_n$ 的条件下， $Z_k$ 独立于 $X_0$

这是我们==最常用到的证明方法==，特别是当状态空间有限时。

状态分类#

可达性#

状态 $j$ 从状态 $i$ 可达，当且仅当存在一个正整数 $n$ ，使得 $P_{ij}^{(n)} > 0$ 。这意味着从状态 $i$ 可以通过若干步转移到达状态 $j$ 。

传递性#

状态 $i$ 是传递的，若 $i \rightarrow j, j\rightarrow k$ ，则 $i \rightarrow k$ 。即如果从状态 $i$ 可以到达状态 $j$ ，并且从状态 $j$ 可以到达状态 $k$ ，则从状态 $i$ 也可以到达状态 $k$ 。

相通性#

状态 $i$ 和状态 $j$ 是相通的，当且仅当 $i \rightarrow j$ 且 $j \rightarrow i$ 。这意味着从状态 $i$ 可以到达状态 $j$ ，并且从状态 $j$ 也可以到达状态 $i$ 。

相同是一种等价关系！因此，==等价类具有相同的类性质==。这是很有用的，意味着当我们==确定了一个状态的性质后，可以直接推广到整个等价类==。

闭集#

状态集合 $C$ 是闭集，当且仅当对于任意的状态 $i \in C$ 和 $j \notin C$ ，都有 $P_{ij} = 0$ 。这意味着从闭集中的状态无法转移到闭集外的状态，是一种”进得去，出不来”的吸收态。

不可约性#

如果闭集 $C$ 没有闭的真子集，则称 $C$ 是不可约的。（ $C$ 中任意两状态都相通）

一个马尔科夫链是 不可约的，如果从任意状态 i 出发，经过有限步转移后能以 正概率 到达任意其他状态 j 如果链是 可约的（Reducible），则存在某些状态子集，一旦进入就无法离开

可以想象成韦恩图

周期性#

状态 $i$ 的周期 $d_i$ 定义为：

d_i = \gcd\{n : P_{ii}^{(n)} > 0\}

讲人话，即状态 $i$ 回到自身的步数的最大公约数。如果 $d_i = 1$ ，则称状态 $i$ 是非周期的（aperiodic）；如果 $d_i > 1$ ，则称状态 $i$ 是周期的（periodic）。

判断周期性，画图即可

如果两个状态 $i$ 和 $j$ 相通，则它们的周期相同，即 $d_i = d_j$ 。

其实先前提到过，如果两个状态是相通的，那么他们属于同一个类，共享类性质，周期当然相同。

长时间特性#

人们往往关注马尔科夫链长时间后的统计特性，比如哪些状态会被频繁访问，哪些状态会被忽略。为了描述这种长期行为，我们引入了常返性（recurrence）和瞬时性（transience）的概念。

首达概率#

状态 $j$ 从状态 $i$ 经过 $n$ 步的首达概率定义为：

f_{ij}^{(n)} = P(X_n = j, X_{n-1} \neq j, \ldots, X_1 \neq j | X_0 = i)

通常这个概率可以通过状态转移图，然后一个个去计算。然后得到规律，即得到 $n$ 的一般表达式。

常返性与瞬时性#

如果

f_{ii}=\sum_{n=1}^{\infty} f_{ij}^{(n)} = 1

那么状态 $i$ 是常返的（recurrent），否则是瞬时的（transient）。

另外的判断定理

\sum_{n=0}^{+\infty} p_{ii}^{(n)}=\frac{1}{1-f_{ii}}

如果

\sum_{n=1}^{\infty} p_{ii}^{(n)} = \infty

则状态 $i$ 是常返的；如果

\sum_{n=1}^{\infty} p_{ii}^{(n)} < \infty

则状态 $i$ 是瞬时的。

直观理解

常返状态：像一个“黑洞”，一旦进入，就会无限次返回（如随机游走在一维整数格点上的原点）。
非常返状态：像一个“临时站点”，最终可能会被抛弃（如随机游走在三维空间中的点，几乎不会返回原点）。

首达时间#

对于常返状态，我们可以定义他的首达时间。

常返态 $i$ 的首达时间定义为：

T_i = \min\{n \geq 1 : X_n = i | X_0 = i\}

根据首达时间，可以定义平均首达时间：

\mu_i = E[T_i] = \sum_{n=1}^{\infty} n f_{ii}^{(n)}

如果 $\mu_i < \infty$ ，则称状态 $i$ 是正常返的（positive recurrent），否则是零返的（null recurrent）。

如何理解呢？

正常返状态：平均返回时间是有限的，意味着状态会被频繁访问 (会回来，而且回来得比较勤快)

典型例子：有限状态不可约马尔科夫链的所有状态（如天气预报模型中的“晴天”“雨天”）

零返状态：平均返回时间是无限的，意味着状态会被稀疏访问 (会回来，但可能要等很久很久)

典型例子：一维对称随机游走（醉汉左右晃悠，最终会回家，但平均等待时间无限）

推论：常返性对转移概率极限的影响#

对于瞬时态和零常返态，有

\lim_{n \to \infty} p_{ii}^{(n)} = 0

对于非周期正返态，有

\lim_{n \to \infty} p_{ii}^{(n)} = \frac{f_{ii}}{\mu_i}

其中 $\mu_i$ 是状态 $i$ 的平均返回时间。

常返态存在定理#

对于有限状态马尔科夫链，一定存在正常返态。
对于不可约的马尔科夫链，所有状态都是正常返的。

这个定理告诉我们，各状态的常返性可以一眼看出！只需要判断是否有限状态或不可约即可。对找到的不可约状态，直接认为是正常返的。别 tm 再去死算计算首达概率了！

极限行为与平稳分布#

这里考虑的问题是，当马尔科夫链运行足够长时间后，状态分布是否会趋向于某个稳定的分布，极限是否存在，如果存在，如何求解。

极限分布#

如果存在一个概率分布 $\pi$ ，使得对于任意状态 $i$ ，都有：

\lim_{n \to \infty} P(X_n = i) = p_i

则称 $\pi$ 是马尔科夫链的极限分布（stationary distribution）。

又

P(X_n=j)) = \sum_{i} p_{ij}^{(n)} P(X_0=i)

可以知道：

极限分布依赖于初始分布 $P(X_0=i)$ 和转移概率 $p_{ij}^{(n)}$ 。

由[[

##推论：常返性对转移概率极限的影响]]可知，当是非常返态或者零常返态的，极限分布概率为 0，所以马尔科夫链最终形态由正常返态决定。

可约->有正常返的->极限随初值周期->极限可能不存在

平稳分布#

如果存在一个概率分布 $\pi=(p_1, p_2, \ldots, p_n)$ ，满足平衡方程

\pi = \pi P

则称 $\pi$ 是马尔科夫链的平稳分布（stationary distribution）。

平稳分布是马尔科夫链长期行为的一个重要特征，它描述了在长时间运行后，状态分布的稳定性。

通常列出平衡方程之后，还需要加上 $\sum \pi_i=1$ 来确保 $\pi$ 是一个概率分布。

注意：

有时候极限尽管不存在，但仍然可以找到平稳分布。
平稳分布和极限存在没有必然联系
平稳分布不一定是唯一的，可能存在多个平稳分布。

平稳分布存在定理#

存在的充要条件是链中存在正常返态

存在且唯一的充要条件是链中存在唯一的不可约正常返子集

泊松过程#

定义#

随机过程 $N(t)$ 表示时间段 $[0, t]$ 内发生事件数目的总和，则称其为计数过程。

把满足下面的条件的计数过程称为标准泊松过程：

$N(0) = 0$ ，即在时间 $0$ 时刻没有发生事件。
平稳增量性，对于任意的 $0 \leq s < t$ ，事件发生的次数 $N(t) - N(s)$ 只与时间间隔 $t - s$ 有关
独立增量性，对于任意的 $0 \leq s < t$ ，事件发生的次数 $N(t) - N(s)$ 与 $N(s)$ 独立。
微元时间内发生多于一个事件的概率是刚好发生一次的概率的无穷小量。

对于某类题，要你证明是泊松过程，严格按照定义，证明每一个条件

概率分布#

P(N(t)=k) = \frac{(\lambda t)^k e^{-\lambda t}}{k!}, \quad k = 0, 1, 2, \dots

$\lambda$ 的含义#

$\lambda$ 是单位时间内事件发生的平均次数，称为到达率（arrival rate）。它描述了事件发生的频率。

\lambda = \lim_{t \to 0} \frac{N(t)}{t}

期望和方差#

其期望和方差分别为：

E[N(t)] = Var[N(t)] = \lambda t

母函数#

泊松过程的母函数（生成函数）为：

M(t) = E[e^{tN(t)}] = e^{\lambda t(e^t - 1)}

性质#

联合分布#

为了求解泊松过程的联合分布，我们可以利用泊松过程的平稳增量性和独立增量性

设 $N(t)$ 是强度为 $\lambda$ 的泊松过程，则对于任意的 $0 \leq t_1 < t_2 < \cdots < t_n$ ， $0 \leq k_1, k_2, \ldots, k_n$ ，有：

P(N(t_1) = k_1, N(t_2) = k_2, \ldots, N(t_n) = k_n) = \prod_{i=1}^n P(N(t_i) - N(t_{i-1}) = k_i - k_{i-1})

条件分布#

设 $N(t)$ 是强度为 $\lambda$ 的泊松过程， $0 \leq s < t$ ，则有：

P(N(t) = m | N(s) = k) = \frac{\lambda^{m-k} (t-s)^{m-k} e^{-\lambda(t-s)}}{(m-k)!}

这说明在已知 $N(s) = m$ 的条件下， $N(t) - N(s)$ 仍然服从泊松分布，实际上就是 $N(t-s)$

到达时刻#

概率密度#

对于强度为 $\lambda$ 的泊松过程，设 $S_n$ 是第 $n$ 次到达的时刻服从于 Gamma 分布，概率密度为：

f_{S_n}(t) = \lambda e^{-\lambda t} \frac{(\lambda t)^{n-1}}{(n-1)!}, \quad t \geq 0

证明：用微元法，第 $n$ 次到达时刻 $S_n$ 可以看作是前 $n-1$ 次到达时刻 $S_{n-1}$ 加上一个独立的指数分布随机变量 $X_n$ ，即：

f_{S_n}=\lim_{\Delta t \to 0} \frac{P(t \le S_n \le t + \Delta t)}{\Delta t}= \lim_{\Delta t \to 0}\frac{P(N(t)=n - 1)P(N(t+\Delta t) - N(t) = 1)}{\Delta t} = e^{-\lambda t} \frac{(\lambda t)^{n-1}}{(n-1)!}\lambda

联合密度#

任意 $n$ 次事件的到达时刻的联合概率密度为

f_{S_1 \ldots S_n}(t_1, t_2, \ldots, t_n) = \lambda^ne^{-\lambda t_n}

证明思路同上面微元法，这里不给了

条件密度#

已知 $[0, t]$ 内发生了 $n$ 次事件，设 $S_1, S_2, \ldots, S_n$ 是这些事件的到达时刻，则它们的条件密度为

f_{S_1, S_2, \ldots, S_n | N(t) = n}(t_1, t_2, \ldots, t_n) = \frac{n!}{t^n}, \quad 0 \leq t_1 < t_2 < \cdots < t_n \leq t

事件间隔#

对于强度为 $\lambda$ 的泊松过程，事件间隔 $S_n$ 服从指数分布，概率密度为：

f_{S_n}(t) = \lambda e^{-\lambda t}, \quad t \geq 0

指数分布具有无记忆性。这意味着泊松过程的事件间隔（注意不是到达时刻）是独立的，并且每个间隔的分布不受前一个间隔的影响。从任意一个时间点开始重新观察，得到的新过程在概率意义上与原过程相同。

可加性#

两个泊松过程 $N_1(t)$ 和 $N_2(t)$ 的事件间隔之和仍然服从泊松分布，且参数为 $\lambda_1 + \lambda_2$ 。即：

P(N_1(t) + N_2(t) = k) = \frac{(\lambda_1 t + \lambda_2 t)^k e^{-(\lambda_1 + \lambda_2)t}}{k!}, \quad k = 0, 1, 2, \ldots

但是！做差不成立！

顺序统计量#

注意，以下定义是独立于泊松过程的概率论的知识

定义#

设 $X_1, X_2, \ldots, X_n$ 是从同一分布中独立抽取的随机变量，则它们的顺序统计量定义为：

第 $i$ 个顺序统计量 $X_{(i)}$ 是这 $n$ 个随机变量中第 $i$ 小的值。记作 $X_{(i)}$

概率密度#

对于第 $k$ 个顺序统计量 $X_{(k)}$ ，其期望为：

E[X_{(k)}] = \frac{k}{n+1}

联合分布#

对于 $n$ 个独立同分布的随机变量 $X_1, X_2, \ldots, X_n$ ，它们的顺序统计量 $X_{(1)}, X_{(2)}, \ldots, X_{(n)}$ 的联合分布为：

f_{X_{(1)}, X_{(2)}, \ldots, X_{(n)}}(x_1, x_2, \ldots, x_n) = n! f_X(x_1) f_X(x_2) \cdots f_X(x_n)

其中 $f_X(x)$ 是单个随机变量的概率密度函数。

$n!$ 是因为每个顺序统计量的排列方式有 $n!$ 种可能。

与泊松过程的关系#

对于泊松过程的事件到达时刻 $S_1, S_2, \ldots, S_n$ ，它们与 $n$ 个独立的 $(0,t)$ 上的均匀分布随机变量 $U_1, U_2, \ldots, U_n$ 的顺序统计量有相同的分布。

(S_1, S_2, \ldots, S_n) \overset{d}{=} (U_{(1)}, U_{(2)}, \ldots, U_{(n)})

因此有

推论#

如果 $S_1, S_2, \ldots, S_n$ 是泊松过程的事件到达时刻，对任意函数 $g(x)$

E[\sum_{k=1}^n g(S_k)|N(t)=n] = nEg(U)

其中 $U$ 是均匀分布在 $(0,t)$ 上的随机变量。

这一推论是很有用的，用一道例题来说明：

等待时间总和#

设乘客按照参数为 $\lambda$ 的泊松过程到达机场，飞机起飞时间为 $t$ 。求在飞机起飞前到达的乘客的等待时间总和的期望。

解

设在飞机起飞前到达的乘客数为 $N(t)$ ，则他们的到达时刻为 $S_1, S_2, \ldots, S_{N(t)}$ 。每个乘客的等待时间为 $t - S_i$ ，因此到达乘客的等待时间总和为：

\sum_{i=1}^{N(t)} (t - S_i)

注意这里 $N(t)$ 是随机变量，我们需要将他固定下来，因此要使用条件期望：

E(\sum_{i=1}^{N(t)} (t - S_i))= E_{N(t)}(E(\sum_{i=1}^{N(t)} (t - S_i)|N(t)))

利用[[

##推论]]，有

E(\sum_{i=1}^{N(t)} (t - S_i)|N(t)=n) = n E_U(t - U)= n(t - \frac{t}{2}) = \frac{nt}{2}

因此带回有

E(\sum_{i=1}^{N(t)} (t - S_i)) = E_{N(t)}(\frac{N(t)t}{2}) = \frac{t}{2} E(N(t)) = \frac{t}{2} \lambda \lambda t = \frac{\lambda t^2}{2}

泊松过程的拓广#

泊松过程的托管本质上就是在放松它的各种限制条件

非齐次泊松过程#

定义#

非齐次泊松过程是指到达率 $\lambda(t)$ 随时间变化的泊松过程。其定义与齐次泊松过程类似，但增量的分布依赖于时间。

\lambda(t) = \lim_{\Delta t \to 0} \frac{N(t + \Delta t) - N(t)}{\Delta t}

需要格外注意的是，这里的 $\lambda(t)$ 是一个确定性的函数，而不是随机变量。这一点将与后面的条件泊松过程区分开来。

概率分布#

对于非齐次泊松过程，事件在时间 $[0, t]$ 内发生的次数 $N(t)$ 的概率分布为：

P(N(t) = k) = \frac{[\int_0^t \lambda(s) ds]^k }{k!}e^{-\int_0^t \lambda(s) ds}, \quad k = 0, 1, 2, \ldots

可以看到，只是原来的 $\lambda t$ 换成了 $\int_0^t \lambda (s) ds$ ，即在时间 $[0, t]$ 内的总到达率。若 $\lambda(t)$ 是常数 $\lambda$ ，则退化为齐次泊松过程。

例如，在 $[t_1, t_2]$ 上出现 $k$ 个事件的概率为：

P(N(t_2)-N(t_1)=k)=\frac{[\int_{t_1}^{t_2} \lambda(s) ds]^k }{k!}e^{-\int_{t_1}^{t_2} \lambda(s) ds}

期望和方差都为

\int_{t_1}^{t_2}\lambda(t)dt

其实

只需要把标准泊松过程的 $\lambda t$ 换成 $\int_0^t \lambda(s) ds$ 即可。剩余的一样，仅仅失去平稳增量性。

复合泊松过程#

定义#

复合泊松过程是指在泊松过程的基础上，放宽了每次到达事件的数量限制。即在每个时间间隔内，可能发生多个事件，每个事件的数量服从某种分布。

所以复合的意思就是，标准泊松，每次事件数不是 1，而是另一个分布

设 $N(t)$ 是泊松过程， $Y_i$ 是每次到达事件的数量，则复合泊松过程 $Y{(t)}$ 定义为：

Y(t) = \sum_{i=1}^{N(t)} Y_i

特征函数定理#

\phi_Y(t) = exp\left(\lambda t [\phi_{Y_1}(u) - 1] \right)

这意味着，复合泊松过程的分布由泊松过程的参数 $\lambda$ 和每次到达事件数量的分布决定。

条件泊松（随机参数泊松）#

放宽独立增量性，允许到达率 $\lambda(t)$ 是一个随机变量，这样的泊松过程称为条件泊松过程（或随机参数泊松过程）。

定义#

条件泊松过程是指在给定某些条件下，泊松过程的到达率 $\lambda(t)$ 是一个随机变量。即在某些条件下，泊松过程的到达率是随机的。

概率分布#

条件泊松过程的参数 $\Lambda$ 为连续随机变量时（概率密度函数为 $f_\Lambda(\lambda)$ ），则条件泊松过程的概率分布为：

P(N(t) = k)=\int_0^\infty P(N(t) = k | \Lambda = \lambda) f_\Lambda(\lambda) d\lambda =\int_0^\infty \frac{[\lambda t]^k e^{-\lambda t}}{k!} f_\Lambda(\lambda) d\lambda

这其实就是个全概率公式，利用了条件泊松过程的定义。

更新过程#

定义#

与标准泊松对比，更新过程的事件间隔是独立同分布的随机变量。

概率分布#

设更新过程的事件间隔的分布为 $F_T(t)$ ，概率密度为 $f_T(t)$ ， $S_n=\sum_{i=1}^n T_i$ 是第 $n$ 次事件发生的时间，则更新过程的概率分布为：

P(N(t) = n) = F_{S_n}(t)-F_{S_{n+1}}(t)

其中 $F_{S_n}(t)$ 是第 $n$ 次事件发生的时间的分布函数。

这里 $F_{S_n}(t)$ 可以通过卷积得到，设 $F_{k}(t) = F_{S_k}(t)$ ，则有

F_n(t) = \int_0^t f_T(s) \cdot F_{n-1}(t-s) \, ds

也就是 $f_T(s)$ 的 $n$ 重卷积。

为了理解这个公式，我们需要==将次数转化到时间轴==上， $t$ 时刻发生了 $n$ 个事件，那么等价于 $S_n$ 这个事件发生在 $t$ 时刻前，而 $S_{n+1}$ 这个事件发生在 $t$ 时刻后，因此 $F_{S_n}(t)-F_{S_{n+1}}(t)$ 就是在 $t$ 时刻发生了 $n$ 个事件的概率。

$n$ 重卷积难做？那就用拉普拉斯变换转为频域上的乘法运算吧

\mathcal{L}\{F_{S_n}(t)\} = \mathcal{L}\{f_T(t)\}^n

连续时间马尔科夫链#

定义#

设可数状态空间的连续时间随机过程 $X(t)$ , 对所有 $k\in \mathbb{N}$ , $s, s_1, \ldots, s_k, s$ 且 $s \ge s_k \ge \ldots \ge s_1 \ge 0$ , 有

P(X(t+s) = j | X(t) = i, X(t+s_1) = i_1, \ldots, X(t+s_k) = i_k) = P(X(t+s) = j | X(t) = i)

则称 $X(t)$ 为连续时间马尔科夫链。

我们所讨论的马尔科夫链都为齐次的，满足

P(X(t+s) = j | X(s) = i) = P(X(t) = j | X(0) = i)

与离散时间马尔科夫链的区别#

区别#

离马的状态转移发生在离散的时间点上，而连马的状态转移可以发生在任意时刻。
离马的转移概率矩阵是一个固定的矩阵，而连马的转移概率矩阵是一个函数，依赖于时间。

状态转移概率#

状态转移概率矩阵 $P(t)$ 定义为：

P_{ij}(t) = P(X(t) = j | X(0) = i)

矩阵形式为：

P(t) = \begin{pmatrix} P_{00}(t) & P_{01}(t) & P_{02}(t) & \cdots \\ P_{10}(t) & P_{11}(t) & P_{12}(t) & \cdots \\ P_{20}(t) & P_{21}(t) & P_{22}(t) & \cdots \\ \vdots & \vdots & \vdots & \ddots \end{pmatrix}

一定满足行和为一：

\sum_{j} P_{ij}(t) = 1, \quad \forall i

和离散的一样，也满足C-K方程：

P(t+s) = P(t)P(s)

Q矩阵#

标准连续时间马尔科夫链#

标准连续时间马尔科夫链的转移概率矩阵 $P(t)$ 满足

其中 $I$ 是单位矩阵。

这意味着当时间趋近于零时，转移概率矩阵趋近于单位矩阵，即在极短的时间内，状态不会发生变化。

Q矩阵#

如果满足标准条件，那么可以定义极限

Q = \lim_{t \to 0} \frac{P(t) - I}{t}

其中 $Q$ 称为转移率矩阵或速率矩阵。 $Q$ 的元素 $q_{ij}$ 表示从状态 $i$ 到状态 $j$ 的瞬时转移率，即在极短时间内从状态 $i$ 转移到状态 $j$ 的速率。

补充#

后面我们经常会计算 $q_{ij}$ 。需要注意：

如果 $i = j$ ，则 $q_{ii} = \lim_{t \to 0} \frac{P_{ii}(t) - 1}{t}$
如果 $i \neq j$ ，则 $q_{ij} = \lim_{t \to 0} \frac{P_{ij}(t)}{t}$

保守性#

对于标准有限状态连续时间马尔科夫链， $Q$ 矩阵的每一行的和为零，即

\sum_{j} q_{ij} = 0, \quad \forall i

这表示在任意时刻，系统必须处于某个状态。

停留时间定理#

设连续时间马尔科夫链满足标准性和保守性条件， $\tau = \inf\{t \ge 0: X(t) \neq X(0)\}$ 表示从状态 $X(0)$ 开始到达其他状态的时间。则有

$\tau$ 的分布是参数为 $q_{ii}$ 的指数分布, 即 $P(\tau > t) = e^{-q_{ii} t}$ 。
条件分布 $P(X(\tau) = j | X(0) = i)$ = $\frac{q_{ij}}{q_{ii}}$ ，即在状态 $i$ 停留时间结束后，转移到状态 $j$ 的概率与速率矩阵的元素有关。
$\tau$ 与 $X(t)$ 在给定 $X(0)$ 的条件下是独立的。

嵌入链#

从连马中只抽出跳转了和跳去哪了的信息，形成一个离散时间马尔科夫链，称为嵌入链它的转移概率为

p_{ij} = \begin{cases} \frac{q_{ij}}{-q_{ii}}, & i \neq j \\ 0, & i = j \end{cases}

Kolmogorov方程#

Kolmogorov方程描述了连续时间马尔科夫链的状态转移概率矩阵 $P(t)$ 的演化。它有两种形式：前向和后向。

前向Kolmogorov方程#

\frac{dP(t)}{dt} = P(t)Q

后向Kolmogorov方程#

\frac{dP(t)}{dt} = QP(t)

转移概率的收敛级数形式#

如果 $Q$ 是一个有限矩阵，则可以将转移概率矩阵 $P(t)$ 表示为

P(t) = I + tQ + \frac{t^2}{2!}Q^2 + \frac{t^3}{3!}Q^3 + \cdots

这个级数形式可以用于计算转移概率矩阵，尤其在 $t$ 较小的情况下。

极限行为#

平稳分布#

平稳分布是指当时间趋近于无穷大时，马尔科夫链的状态分布趋于一个固定的分布。设 $\pi$ 是平稳分布，则满足

\pi = \pi P(t)

这表示在平稳分布下，状态的分布不随时间变化。

同样也可以用速率矩阵 $Q$ 来描述平稳分布：

\pi Q = 0

这表示在平稳分布下，状态的转移率矩阵 $Q$ 的每一行和为零。

定理#

对于不可约的连续时间马尔科夫链

如果 $\pi Q = 0$ 有解，则存在唯一的平稳分布 $\pi$ ，且满足

\lim_{t \to \infty} P_{ij}(t) = \pi_j

如果无解，则不存在平稳分布。

\lim_{t \to \infty} P_{ij}(t) = 0

应用#

纯生过程#

纯生过程是一种特殊的连续时间马尔科夫链，其中状态空间为非负整数，且状态只能增加或保持不变。其在 $[t, \Delta t]$ 内的转移概率为

P_{ij}(\Delta t) = \begin{cases} \lambda_i \Delta t + o(\Delta t), & j = i+1 \\ o(\Delta t), & j = i \\ 0, & \text{others} \end{cases}

根据定义可以算出 $Q$ 矩阵为

Q_{ij} = \begin{cases} \lambda_i, & j = i+1 \\ -\lambda_i, & j = i \\ 0, & \text{otherwise} \end{cases}

Q = \begin{pmatrix} -\lambda_0 & \lambda_0 & 0 & 0 & \cdots \\ 0 & -\lambda_1 & \lambda_1 & 0 & \cdots \\ 0 & 0 & -\lambda_2 & \lambda_2 & \cdots \\ \vdots & \vdots & \vdots & \ddots & \ddots \end{pmatrix}

可验证

\pi Q = 0

只有平凡解，即 $\pi = 0$ 。因此纯生过程没有平稳分布。

生灭过程#

生灭过程是一种连续时间马尔科夫链，其状态空间为非负整数 $\{0, 1, 2, \ldots\}$ ，且从状态 $i$ 只能转移到相邻状态 $i-1$ （死亡）或 $i+1$ （出生）。

设生灭过程的出生率为 $\lambda_i$ （从状态 $i$ 到状态 $i+1$ 的速率），死亡率为 $\mu_i$ （从状态 $i$ 到状态 $i-1$ 的速率）。

其在 $[t, t+\Delta t]$ 内的转移概率为：

P_{ij}(\Delta t) = \begin{cases} \lambda_i \Delta t + o(\Delta t), & j = i+1 \\ \mu_i \Delta t + o(\Delta t), & j = i-1 \\ 1 - (\lambda_i + \mu_i) \Delta t + o(\Delta t), & j = i \\ o(\Delta t), & \text{others} \end{cases}

其中 $\mu_0 = 0$ （状态 0 不能再减少）。

根据定义， $Q$ 矩阵为：

Q_{ij} = \begin{cases} \lambda_i, & j = i+1 \\ \mu_i, & j = i-1 \\ -(\lambda_i + \mu_i), & j = i \\ 0, & \text{others} \end{cases}

矩阵形式为：

Q = \begin{pmatrix} -\lambda_0 & \lambda_0 & 0 & 0 & \cdots \\ \mu_1 & -(\lambda_1 + \mu_1) & \lambda_1 & 0 & \cdots \\ 0 & \mu_2 & -(\lambda_2 + \mu_2) & \lambda_2 & \cdots \\ \vdots & \vdots & \vdots & \ddots & \ddots \end{pmatrix}

平稳分布#

设平稳分布为 $\pi = (\pi_0, \pi_1, \pi_2, \ldots)$ ，则需满足 $\pi Q = 0$ ，即：

对于 $i = 0$ ： $-\lambda_0 \pi_0 + \mu_1 \pi_1 = 0$

对于 $i \geq 1$ ： $\lambda_{i-1} \pi_{i-1} - (\lambda_i + \mu_i) \pi_i + \mu_{i+1} \pi_{i+1} = 0$

这可以简化为细致平衡条件：

\lambda_i \pi_i = \mu_{i+1} \pi_{i+1}, \quad i \geq 0

递推可得：

\pi_n = \pi_0 \prod_{k=0}^{n-1} \frac{\lambda_k}{\mu_{k+1}}, \quad n \geq 1

由归一化条件 $\sum_{n=0}^{\infty} \pi_n = 1$ ，得到：

\pi_0 = \frac{1}{1 + \sum_{n=1}^{\infty} \prod_{k=0}^{n-1} \frac{\lambda_k}{\mu_{k+1}}}

当且仅当级数 $\sum_{n=1}^{\infty} \prod_{k=0}^{n-1} \frac{\lambda_k}{\mu_{k+1}}$ 收敛时，存在平稳分布。

高斯过程#

定义#

设随机过程 $X(t)$ ，如果 $\forall n, \forall t_1, t_2, \ldots, t_n \in [0, T]$ ，都有

(X(t_1), X(t_2), \ldots, X(t_n))

服从 $n$ 元高斯分布，则称 $X(t)$ 为高斯过程。

单元高斯分布#

设随机变量 $X$ 服从单元高斯分布，记作

X \sim \mathcal{N}(\mu, \sigma)

其中 $\mu$ 是均值， $\sigma$ 是标准差。则其概率密度函数为：

f_X(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)

多元高斯分布#

设随机变量 $X = (X_1, X_2, \ldots, X_n)$ 服从多元高斯分布，记作

X \sim \mathcal{N}(\mu, \Sigma)

其中 $\mu$ 是均值向量， $\Sigma$ 是协方差矩阵。则其概率密度函数为：

f_X(x) = \frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(x - \mu)^T \Sigma^{-1} (x - \mu)\right)

特征函数#

多元高斯过程的特征函数为：

\phi_X(\omega) = \exp\left(j \omega^T \mu - \frac{1}{2} \omega^T \Sigma \omega\right)

当结论记下来就好

性质#

线性性#

设 $X \sim \mathcal{N}(\mu, \Sigma)$ ， $A$ 是常数矩阵，则 $AX + b \sim \mathcal{N}(A\mu + b, A\Sigma A^T)$ 。

这意味着对一个多元高斯分布它的线性组合以及它的任何一个子向量均服从高斯分布

独立性#

设 $X \sim \mathcal{N}(\mu, \Sigma)$ ， $Y \sim \mathcal{N}(\nu, \Lambda)$

有

\Sigma_{11} = \text{Cov}(X_1, X_1) = E((X_1-\mu_1)(X_1-\mu_1)^T)

\Sigma_{22} = \text{Cov}(X_2, X_2) = E((X_2-\mu_2)(X_2-\mu_2)^T)

\Sigma_{12} = \text{Cov}(X_1, X_2) = E((X_1-\mu_1)(X_2-\mu_2)^T) = \Sigma_{21}^T

如果 $\Sigma_{12} = 0$ ，则 $X_1$ 和 $X_2$ 独立。

例子#

设 $X = (X_1, X_2)^T$ ，求一个常系数矩阵 $A$ 使得 $Y=AX$ 的各组分.

解设

A = \begin{pmatrix} I & A' \\ 0 & I \end{pmatrix}

其中 $I$ 是单位矩阵， $A'$ 是任意矩阵。则

Y = AX = \begin{pmatrix} X_1 + A'X_2 \\ X_2 \end{pmatrix}

要使得 $Y$ 的各组分独立，则需要满足

\text{Cov}(X_1 + A'X_2, X_2) = Cov(X_1, X_2) + A' \text{Cov}(X_2, X_2) = 0

这意味着

A' \Sigma_{22} + \Sigma_{12} = 0

因此

A' = -\Sigma_{12} \Sigma_{22}^{-1}

布朗运动#

定义#

标准布朗运动（Brownian motion）是一个特殊的高斯过程，满足以下条件

$B(0) = 0$ ，即初始位置为零。
平稳增量，即 $B(t) - B(s) \sim B(t-s)$
对任意 $t$ ， $B(t)$ 服从正态分布

性质#

期望

E[B(t)] = 0

方差

\text{Var}(B(t)) = t

协方差

\text{Cov}(B(t), B(s)) = \min(t, s)

这里尤其需要注意协方差的计算，有一个常用的技巧

\text{Cov}(B(t), B(s)) = E[B(t)B(s)] - E[B(t)]E[B(s)] = E[B(t)B(s)]

因为 $E[B(t)] = E[B(s)] = 0$ 。

然后我们可以利用技巧得到

E[B(t)B(s)] = E(B(t)[B(s)-B(t)+B(t)]) = E[B(t)[B(s)-B(t)]] + E[B(t)^2]

这就让我们可以用独立增量的性质来计算协方差。

\text{Cov} = E(B(t))E(B(s-t)) + E(B(t)^2) = 0 + t = t

布朗运动几乎处处连续，但是几乎处处不可微。