随机变量的收敛

概率论中有若干关于随机变量收敛（Convergence of random variables）的定义。研究一列随机变量是否会收敛到某个极限随机变量是概率论中的重要内容，在统计概率和随机过程中都有应用。在更广泛的数学领域中，随机变量的收敛被称为随机收敛，表示一系列本质上随机不可预测的事件所发生的模式可以在样本数量足够大的时候得到合理可靠的预测。各种不同的收敛定义实际上是表示预测时不同的刻画方式。

简介

正如一个数列可能收敛到某个极限量，一列函数可能收敛到某个极限函数一样，随机收敛指的是一系列随机变量 $\left(X_{n};\;n\in \mathbb {N} \right)$ 在n趋向于无穷大时，会越来越接近某个固定的极限。这个极限可能是指：

$X_{n}$ 趋向某个固定的数；
$X_{n}$ 趋向某个确定函数的输出值；
$X_{n}$ 的概率分布越来越接近某个特定的随机变量的概率分布；
$X_{n}$ 和某个特定随机变量的差别的平均值（数学期望值）趋向于0；
$X_{n}$ 和某个特定随机变量的差别的方差趋向于0。

等等。这些不同的极限的定义，可以严格地写成不同的收敛方式的定义。

依概率1收敛

依概率1收敛又称为几乎处处收敛，其定义接近于函数逐点收敛的定义。事实上，由于随机变量的本质是由样本空间 ${\mathit {\Omega }}$ 到取值空间 ${\mathfrak {B}}$ 上的函数。因此，给定一个概率空间 $\left({\mathit {\Omega }},{\mathcal {F}},\mathbb {P} \right)$ 中的一列随机变量 $\left(X_{n};n\in \mathbb {N} \right)$ ，考虑事件 $A_{X}=\left\{\omega ;\;\lim _{n\to \infty }X_{n}(\omega )=X(\omega )\right\}$ 。如果存在一个随机变量 $X$ ，使得事件 $A_{X}$ 的概率为1，那么就称随机变量序列 $\left(X_{n};n\in \mathbb {N} \right)$ 依概率1收敛到 $X$ （或称 $\left(X_{n};n\in \mathbb {N} \right)$ 几乎处处收敛到 $X$ ），记作：

X_{n}{\xrightarrow {a.s.}}X

或

\mathbb {P} \left(\lim _{n\to \infty }X_{n}=X\right)=1

当取值空间 ${\mathfrak {B}}$ 是一般的实数空间 $\mathbb {R}$ 时，依概率1收敛的意义是：

对任意的正实数

\varepsilon >0

，

\mathbb {P} {\Big (}\liminf {\big \{}\omega \in \Omega :|X_{n}(\omega )-X(\omega )|<\varepsilon {\big \}}{\Big )}=1

当空间 ${\mathfrak {B}}$ 是度量空间 (S, d) 的时候，依概率1收敛的意义是：

\mathbb {P} {\Big (}\omega \in \Omega :\,d{\big (}X_{n}(\omega ),X(\omega ){\big )}\,{\xrightarrow[{n\to \infty }]{\,}}\,0{\Big )}=1

依概率收敛

设 $(X_{n};\,n\in \mathbb {N} )$ 是一个随机变量序列， $X$ 是一个随机变量。如果对于任意的正实数 $\epsilon >0$ ，都有：

\lim _{n\to \infty }\mathbb {P} (|X-X_{n}|\geq \epsilon )=0

那么称序列 $(X_{n};\,n\in \mathbb {N} )$ 依概率收敛到 $X$ ，记作： $X_{n}{\xrightarrow[{n\to \infty }]{\mathbb {P} }}X$

如果 $(X_{n};\,n\in \mathbb {N} )$ 的取值空间是一个可分度量空间(S, d)，那么依概率收敛的定义为^[1]：

\mathbb {P} {\big (}d(X_{n},X)\geq \varepsilon {\big )}\to 0,\quad \forall \varepsilon >0.

依概率收敛和依概率1收敛的定义有相似之处，但本质上，依概率1收敛是比依概率收敛更“强”的收敛性质。如果一列随机变量依概率1收敛到某个极限，那么它必然也依概率收敛到这个极限，但反之则不然。一个实数上的例子是：设概率空间 $\left({\mathit {\Omega }},{\mathcal {F}},\mathbb {P} \right)$ 是区间 ${\mathit {\Omega }}=[0,1)$ 上的一个连续型均匀分布 $\mathbb {P} =\mathbf {U}$ 。一个随机变量序列 $(X_{n};\,n\in \mathbb {N} )$ 定义为：

X_{1}=\mathbf {1} _{\left\{\omega \in [0,1)\right\}}=\mathbf {1}

X_{2}=\mathbf {1} _{\left\{\omega \in [0,{\frac {1}{2}})\right\}},\qquad X_{3}=\mathbf {1} _{\left\{\omega \in [{\frac {1}{2}},1)\right\}}

X_{4}=\mathbf {1} _{\left\{\omega \in [0,{\frac {1}{4}})\right\}},\qquad X_{5}=\mathbf {1} _{\left\{\omega \in [{\frac {1}{4}},{\frac {1}{2}})\right\}},\qquad X_{6}=\mathbf {1} _{\left\{\omega \in [{\frac {1}{2}},{\frac {3}{4}})\right\}},\qquad X_{7}=\mathbf {1} _{\left\{\omega \in [{\frac {3}{4}},1)\right\}}

\cdots \;

\forall (k,m)\in \mathbb {N} ,\,\,0\leqslant k\leqslant 2^{m}-1,\,\,X_{2^{m}+k}=\mathbf {1} _{\left\{\omega \in [{\frac {k}{2^{m}}},{\frac {k+1}{2^{m}}})\right\}}

由于

\forall 2^{m}\leqslant n\leqslant 2^{m+1}-1,\,\,\mathbb {P} \left(|X_{n}-0|\geqslant \varepsilon \right)={\frac {1}{2^{m}}}

所以

X_{n}{\xrightarrow {\mathbb {P} }}0

，

另一方面，考虑 $X_{2^{m}}$ 到 $X_{2^{m+1}-1}$ 这一组随机变量，它们取值为1的集合的并集恰好是总区间，因此对每一个 $\omega \in [0,1)$ ，总会有 $X_{2^{m}}$ 到 $X_{2^{m+1}-1}$ 之间的某个变量 $X_{2^{m}+k_{m}}$ ，使得

X_{2^{m}+k_{m}}(\omega )=1

所以，对任意一个 $\omega \in [0,1)$ ，

\lim _{n\to \infty }|X_{n}(\omega )-0|\neq 0

，

即是说， $(X_{n};\,n\in \mathbb {N} )$ 并不依概率1收敛到0。从例子中可以看到，依概率收敛比依概率1收敛更为宽松的地方是：当n趋于无穷大的时候，只要偏离极限函数的 $\omega$ （即是集合 $\left\{\omega _{n};\,|X_{n}(\omega _{n})-X(\omega _{n})|\geqslant \varepsilon \right\}$ 中的 $\omega _{n}$ ）“足够少”，就能使得依概率收敛成立了，这些 $\omega _{n}$ 的集合可以随着n不同而不同；而依概率1收敛则要求 $\omega _{n}$ 的集合固定地缩减至一个概率为0的集合。因此，依概率1收敛要比依概率收敛更为严格。

性质

依概率收敛蕴含依分布收敛：一个依概率收敛的随机变量序列必然也依分布收敛到同一个极限。
在离散概率空间中，依概率收敛和依概率1收敛是等价的。
依分布收敛蕴含依概率收敛当且仅当依分布收敛的极限是一个常数。
连续映射定理说明：对任意连续函数 $g$ ，如果随机变量序列 $(X_{n};\,n\in \mathbb {N} )$ 依概率收敛到 $X$ ，那么序列 $(g(X_{n});\,n\in \mathbb {N} )$ 依概率收敛到 $g(X)$
依概率收敛定义了确定概率空间上的随机变量空间上的一个拓扑。这个拓扑可以用樊𰋀度量进行度量化^[2]。
$d(X,Y)=\inf \!{\big \{}\varepsilon >0:\ \Pr {\big (}|X-Y|>\varepsilon {\big )}\leq \varepsilon {\big \}}.$

平方平均收敛与 $\mathbf {L} ^{p}$ 收敛

另一种收敛的定义与测度的积分有关。在积分理论中，如果两个函数 $f$ 和 $g$ 满足 $\int _{\mathcal {I}}(f-g)^{2}d\mu =0$ ，那么这两个函数在关于测度 $\mu$ 的平方可积空间中相等。随机变量的平方平均收敛与此相似：如果对平方可积的随机变量序列 $(X_{n};\,n\in \mathbb {N} )$ ，存在随机变量 $X$ ，使得 $\lim _{n\to \infty }\mathbb {E} \left[(X_{n}-X)^{2}\right]=0$ ，那么就说序列 $(X_{n};\,n\in \mathbb {N} )$ 平方平均收敛到 $X$ ，记作：

X_{n}{\xrightarrow {\mathbf {L} ^{2}}}X

由于 $\mathbf {L} ^{2}$ 空间是完备的，极限 $X$ 也一定平方可积。

对于更一般的 $\mathbf {L} ^{p}$ 空间，也有类似的定义：如果对 $\mathbf {L} ^{p}$ 空间中的随机变量序列 $(X_{n};\,n\in \mathbb {N} )$ ，存在 $\mathbf {L} ^{p}$ 中的随机变量 $X$ ，使得 $\lim _{n\to \infty }\mathbb {E} \left[|X_{n}-X|^{p}\right]=0$ ，那么就说序列 $(X_{n};\,n\in \mathbb {N} )$ 依 $\mathbf {L} ^{p}$ 收敛到 $X$ ，记作：

X_{n}{\xrightarrow {\mathbf {L} ^{p}}}X

当常数 $p=1$ 时，也称为平均收敛。

依分布收敛

依分布收敛是最宽松的收敛方式之一。这种收敛不要求查看每个 $\omega$ ，只要求序列的分布趋向于某个极限。直觉上，一个随机变量序列 $(X_{n};\,n\in \mathbb {N} )$ 依分布收敛到某个随机变量 $X$ ，如果：

对所有的

a

，都有

\mathbb {P} (X_{n}\leqslant a)\rightarrow \mathbb {P} (X\leqslant a)

。

更严格的定义是探讨随机变量 $X_{n}$ 的累积分布函数 $F_{n}(x)=\mathbb {P} (X_{n}\leqslant x)$ 。设有实值的随机变量序列 $(X_{n};\,n\in \mathbb {N} )$ 和某个随机变量 $X$ （其累积分布函数为 $F(x)$ ），如果对 $F(x)$ 的每个连续点 $x$ ，都有 $\lim _{n\to \infty }F_{n}(x)=F(x)$ ，那么就说 $(X_{n};\,n\in \mathbb {N} )$ 依分布收敛到某个随机变量 $X$ 。记作：

X_{n}{\xrightarrow[{n\to \infty }]{\mathcal {D}}}X

，

X_{n}{\xrightarrow[{n\to \infty }]{\mathit {d}}}X

或

X_{n}{\xrightarrow[{n\to \infty }]{\mathcal {L}}}X

由于依分布收敛只和随机变量的分布相关，所以也可以称一系列随机变量（依分布）收敛于某个分布。设 ${\mathcal {L}}_{X}$ 是极限 $X$ 的分布，那么依分布收敛也可以记作：

X_{n}\ {\xrightarrow {d}}\ {\mathcal {L}}_{X},\,\,X_{n}\rightsquigarrow X

或

{\mathcal {L}}(X_{n})\to {\mathcal {L}}(X)

例如一个随机变量序列 $(X_{n};\,n\in \mathbb {N} )$ 依分布收敛到标准正态分布，就可以记作：

X_{n}\ {\xrightarrow {d}}\ {\mathcal {N}}(0,1).

性质

作为最弱的收敛方式之一，依分布收敛无法推出其它的收敛方式。对于存在概率密度函数的连续型随机变量序列，依分布收敛并不能推出其概率密度函数也同样收敛。例如对于概率密度函数为 $f_{n}(x)=\left(1-\cos(2\pi nx)\right)\mathbf {1} _{x\in (0,1)}$ 的随机变量序列，其依分布收敛到均匀分布的随机变量，但其概率密度函数不收敛^[3]。
依分布收敛的等价定义：一个随机变量序列 $(X_{n};\,n\in \mathbb {N} )$ $(X_{n};\,n\in \mathbb {N} )$ 依分布收敛到某个随机变量 $X$ $X$ 和以下命题中的任意一个等价：
- 对所有的有界连续函数 $f$ ，都有： $\mathbb {E} [f(X_{n})]\rightarrow \mathbb {E} [f(X)]$ ；
- 对所有具有利普希茨连续性质的函数 $f$ ，都有： $\mathbb {E} [f(X_{n})]\rightarrow \mathbb {E} [f(X)]$ ；
- 对所有上有界的上半连续函数 $f$ ，都有： $\limsup \mathbb {E} [f(X_{n})]\leqslant \mathbb {E} [f(X)]$ ；
- 对所有下有界的下半连续函数 $f$ ，都有： $\liminf \mathbb {E} [f(X_{n})]\geqslant \mathbb {E} [f(X)]$ ；
- 对所有闭集 $C$ ，都有： $\limsup _{n\to \infty }\mathbb {P} \left(X_{n}\in C\right)\leqslant \mathbb {P} \left(X\in C\right)$ ；
- 对所有开集 $U$ ，都有： $\liminf _{n\to \infty }\mathbb {P} \left(X_{n}\in U\right)\geqslant \mathbb {P} \left(X\in U\right)$ ；
- 对关于 $X$ 的所有连续集 $A$ ，都有： $\lim _{n\to \infty }\mathbb {P} \left(X_{n}\in A\right)=\mathbb {P} \left(X\in A\right)$ 。
连续映射定理说明，对于连续函数g(·)，如果随机变量序列 $(X_{n};\,n\in \mathbb {N} )$ 依分布收敛到随机变量 $X$ ，那么 $(g(X_{n});\,n\in \mathbb {N} )$ 也依分布收敛到随机变量 $g(X)$ 。
列维连续性定理：随机变量序列 $(X_{n};\,n\in \mathbb {N} )$ 依分布收敛到某个随机变量 $X$ 当且仅当对应的特征函数序列 $(\varphi _{n}(x);\,n\in \mathbb {N} )$ 逐点收敛到某个在0处连续的函数 $\varphi$ （此时随机变量 $X$ 的分布为 $\varphi$ ）。
列维-普罗科洛夫度量是依分布收敛的度量化结果。

关系

各个收敛的定义有强弱之分。一个收敛性强于另一个是指从前者可以推出后者。例如依概率收敛强于依分布收敛，即是说如果一列随机变量依概率收敛到某个极限，那么必定也依分布收敛到这个极限。具体来说，收敛性的强弱关系可以用下图来表示：

{\begin{matrix}{\xrightarrow {L^{r}}}&{\underset {r>s\geq 1}{\Rightarrow }}&{\xrightarrow {L^{s}}}&&\\&&\Downarrow &&\\{\xrightarrow {a.s.}}&\Rightarrow &{\xrightarrow {\ p\ }}&\Rightarrow &{\xrightarrow {\ d\ }}\end{matrix}}

依概率1收敛可以推出依概率收敛^[4]：
$X_{n}\ {\xrightarrow {a.s.}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {p}}\ X$
依概率收敛可以推出存在依概率1收敛的子列 $(k_{n})$ ^[5]：
$X_{n}\ {\xrightarrow {p}}\ X\quad \Rightarrow \quad X_{k_{n}}\ {\xrightarrow {a.s.}}\ X$
依概率收敛可以推出依分布收敛^[4]：
$X_{n}\ {\xrightarrow {p}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {d}}\ X$
对任意的 $r>0$ ， $\mathbf {L} ^{r}$ -收敛可以推出依概率收敛：
$X_{n}\ {\xrightarrow {L^{r}}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {p}}\ X$
如果 $r>s\geqslant 1$ ，那么 $\mathbf {L} ^{r}$ -收敛可以推出 $\mathbf {L} ^{s}$ -收敛：
$X_{n}\ {\xrightarrow {L^{r}}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {L^{s}}}\ X,$
如果序列 $\left(X_{n};\,n\in \mathbb {N} \right)$ 依分布收敛到常数c，那么它也依概率收敛到常数c^[4]：
$X_{n}\ {\xrightarrow {d}}\ c\quad \Rightarrow \quad X_{n}\ {\xrightarrow {p}}\ c,$
如果序列 $\left(X_{n};\,n\in \mathbb {N} \right)$ 依分布收敛到随机变量 $X$ ，并且 $X_{n}$ 和 $Y_{n}$ 的差依概率收敛到0，那么 $Y_{n}$ 也依分布收敛到随机变量 $X$ ^[4]：
$X_{n}\ {\xrightarrow {d}}\ X,\ \ |X_{n}-Y_{n}|\ {\xrightarrow {p}}\ 0\ \quad \Rightarrow \quad Y_{n}\ {\xrightarrow {d}}\ X$
如果序列 ( X n ; n ∈ N ) {\displaystyle \left(X_{n};\,n\in \mathbb {N} \right)} 依分布收敛到随机变量 X {\displaystyle X} ，并且序列 ( Y n ; n ∈ N ) {\displaystyle \left(Y_{n};\,n\in \mathbb {N} \right)} 依分布收敛到常数c，那么向量列 ( ( X n , Y n ) ; n ∈ N ) {\displaystyle \left((X_{n},Y_{n});\,n\in \mathbb {N} \right)} 依分布收敛到随机变量 ( X , c ) {\displaystyle (X,c)} [4]：
X n → d X , Y n → d c ⇒ ( X n , Y n ) → d ( X , c ) {\displaystyle X_{n}\ {\xrightarrow {d}}\ X,\ \ Y_{n}\ {\xrightarrow {d}}\ c\ \quad \Rightarrow \quad (X_{n},Y_{n})\ {\xrightarrow {d}}\ (X,c)}

参见

勒贝格控制收敛定理

单调收敛定理

参考资料

^ Dudley 2002，Chapter 9.2, page 287

^ Dudley 2002，第289页

^ Romano & Siegel 1985，Example 5.26

^ 4.0 4.1 4.2 4.3 4.4 van der Vaart 1998，Theorem 2.7

^ Gut, Allan. Probability: A graduate course. Theorem 3.4: Springer. 2005. ISBN 0387228330.

参考书籍

Bickel, Peter J.; Klaassen, Chris A.J.; Ritov, Ya’acov; Wellner, Jon A. Efficient and adaptive estimation for semiparametric models. New York: Springer-Verlag. 1998. ISBN 0387984739. 引文使用过时参数coauthors (帮助)

Billingsley, Patrick. Probability and Measure. Wiley Series in Probability and Mathematical Statistics 2nd. Wiley. 1986.

Billingsley, Patrick. Convergence of probability measures 2nd. John Wiley & Sons. 1999: 1–28. ISBN 0471197459.

Dudley, R.M. Real analysis and probability. Cambridge, UK: Cambridge University Press. 2002. ISBN 052180972X.

Grimmett, G.R.; Stirzaker, D.R. Probability and random processes 2nd. Clarendon Press, Oxford. 1992: 271–285. ISBN 0-19-853665-8. 引文使用过时参数coauthors (帮助)

Jacobsen, M. Videregående Sandsynlighedsregning (Advanced Probability Theory) 3rd. HCØ-tryk, Copenhagen. 1992: 18–20. ISBN 87-91180-71-6.

Ledoux, Michel; Talagrand, Michel. Probability in Banach spaces. Berlin: Springer-Verlag. 1991: xii+480. ISBN 3-540-52013-9. MR 1102015.

Romano, Joseph P.; Siegel, Andrew F. Counterexamples in probability and statistics. Great Britain: Chapman & Hall. 1985. ISBN 0412989018. 引文使用过时参数coauthor (帮助)

van der Vaart, Aad W.; Wellner, Jon A. Weak convergence and empirical processes. New York: Springer-Verlag. 1996. ISBN 0387946403. 引文使用过时参数coauthor (帮助)

van der Vaart, Aad W. Asymptotic statistics. New York: Cambridge University Press. 1998. ISBN 9780521496032.

Williams, D. Probability with Martingales. Cambridge University Press. 1991. ISBN 0521406056.

Wong, E.; Hájek, B. Stochastic Processes in Engineering Systems. New York: Springer–Verlag. 1985. 引文使用过时参数coauthors (帮助)

[1] Dudley 2002，Chapter 9.2, page 287

[2] Dudley 2002，第289页

[3] Romano & Siegel 1985，Example 5.26

[vdv2-4] 4.0 ^4.1 ^4.2 ^4.3 ^4.4 van der Vaart 1998，Theorem 2.7

[5] Gut, Allan. Probability: A graduate course. Theorem 3.4: Springer. 2005. ISBN 0387228330.

[1]

[2]

[3]

[4]

[5]

简介

依概率1收敛

依概率收敛

性质

平方平均收敛与 L p {\displaystyle \mathbf {L} ^{p}} 收敛

依分布收敛

性质

关系

参见

参考资料

参考书籍

平方平均收敛与 $\mathbf {L} ^{p}$ 收敛