概率论基础知识笔记

随机试验与随机事件

随机试验

在自然界和人类社会中出现的各种现象大致可以分为两类：必然现象和随机现象。在一定条件下必然出现的现象叫做必然现象；在相同的条件下，可能出现不同的结果，而在试验或观测之前不能预知确切的结果的现象叫做随机现象。

为了研究和揭示随机现象的统计规律性，我们需要对随机现象进行大量重复的观察、测量或试验。具有以下特点的试验称为随机试验：

可重复性：可以在相同条件下重复进行；
可观测性：每次试验的所有可能结果都是明确的，可以观测的，并且试验结果有两个或两个以上；
随机性：每次试验结果不确定。

随机试验简称试验，通常用字母 $E$ 表示。随机试验 $E$ 的基本结果称为样本点，用 $\omega$ 表示。称随机试验 $E$ 的所有基本结果的集合为样本空间，用 $\varOmega = |\omega|$ 表示。

随机事件及其运算

我们把随机试验 $E$ 的样本空间 $\varOmega = |\omega|$ 的子集称为随机试验 $E$ 的随机事件，简称为事件，用大写字母 $A, B, C$ 等表示。设 $A \subseteq \varOmega$ ，如果试验结果 $\omega \in A$ ，则称在这次试验中事件 $A$ 发生；如果 $\omega \notin A$ ，则称事件 $A$ 不发生。

下面是一些基本概念：

随机事件：样本空间的子集，是由若干样本点构成的集合，记为 $A, B, C$ 等。
事件发生：当事件 $A$ 所包含的样本点有一个出现，就说事件 $A$ 发生了，否则就说事件 $A$ 未发生。
基本事件：由一个样本点组成的事件。
必然事件：包含样本空间 $\varOmega$ 的所有样本点，每次试验必然发生。
不可能事件：空集 $\empty$ ，不包含任何样本点，每次试验都不可能发生。

随机事件的关系与运算：

名称	表达式	含义
包含	$A \subset B$	A 发生必然导致 B 发生
相等	$A = B\\$ $A \subset B$ 且 $B \subset A$	A 与 B 为同一事件
并（和）	$A \cup B$	A 与 B 至少有一个发生
交（积）	$A \cap B = AB$	A 与 B 同时发生
差	$A - B$	A 发生，B 不发生
互不相容（互斥）	$AB = \empty$	A 与 B 不能同时发生
互逆（对立）	$\overline{A} = B\\$ $A \cup B = \varOmega$ 且 $AB = \empty$	A 与 B 中有且只有一个发生

基本运算律：

运算顺序：逆交并差，括号优先。

交换律： $A \cup B = B \cup A$ ， $AB = BA$
结合律： $(A \cup B) \cup C = A \cup (B \cup C)$ ， $(AB)C = A(BC)$
分配律： $(A \cup B)C = (AC) \cup (BC)$ ， $A \cup (BC) = (A \cup B)(A \cup C)$
对偶律： $\overline{A \cup B} = \overline{A}\ \overline{B}$ ， $\overline{AB} = \overline{A} \cup \overline{B}$

$\overline{\bigcup_{i = 1}^n A_i} = \bigcap_{i = 1}^n \overline{A_i} \qquad \overline{\bigcap_{i = 1}^n A_i} = \bigcup_{i = 1}^n \overline{A_i}$

吸收律：若 $A \subset B$ ，则 $A \cup B = B$ ， $AB = A$ .
差化积： $A - B = A \overline{B} = A - AB$
逆： $\overline{\overline{A}} = A$
$AB = \empty \iff A \subset \overline{B} \iff B \subset \overline{A}$

随机事件的概率

频率与概率

定义： 设在相同的条件下进行的 $n$ 次试验中，事件 $A$ 发生了 $n_A$ 次，则称 $n_A$ 为事件 $A$ 发生的频数，称比值 $\dfrac{n_A}{n}$ 为事件 $A$ 发生的频率，记作 $f_n(A)$ ，即

$f_n(A) = \dfrac{n_A}{n}$

频率具有如下基本性质：

非负性：对于任意事件 $A$ ，有 $f_n(A) \geq 0$ ；
规范性：对于必然事件 $\varOmega$ ，有 $f_n(\varOmega) = 1$ ；
优先可加性： 对于两两互不相容的事件 $A_1, A_2, \cdots, A_m$ （即当 $i \neq j$ 时，有 $A_i A_j = \empty$ ， $i, j = 1, 2, \cdots, m$ ），有

$f_n \left( \bigcup_{i = 1}^m A_i \right) = \sum_{i = 1}^m f_n \left( A_i \right)$

大量的试验表明，在相同的条件下重复进行 $n$ 次试验，当 $n$ 增大时，事件 $A$ 发生的频率 $f_n(A)$ 呈现出稳定性，逐渐稳定于某一常数 $p$ ，我们用这一常数 $p$ 表示事件 $A$ 发生的可能性大小，称为事件 $A$ 的概率，记为 $P(A) = p$ .

定义： 设随机试验 $E$ 的样本空间为 $\varOmega$ ，如果对于 $E$ 的每一个事件 $A$ ，有唯一的实数 $P(A)$ 和它对应，并且这个事件的函数 $P(A)$ 满足以下条件：

非负性：对于任一事件 $A$ ，有 $P(A) \geq 0$ ；
规范性：对于必然事件 $\varOmega$ ，有 $P(\varOmega) = 1$ ；
可列可加性：对于两两互不相容的事件 $A_1, A_2, \cdots$ ，有

$P \left( \bigcup_{i = 1}^\infty A_i \right) = \sum_{i = 1}^\infty P \left( A_i \right)$

则称 $P(A)$ 为事件 $A$ 的概率。

根据上述定义，可以得到概率的一些性质：

性质 1： 对于不可能事件 $\empty$ ，有 $P(\empty) = 0$ .

性质 2（有限可加性）： 对于两两互不相容的事件 $A_1, A_2, \cdots, A_n$ ，有

$P \left( \bigcup_{i = 1}^n A_i \right) = \sum_{i = 1}^n P \left( A_i \right)$

性质 3： 对于任一事件 $A$ ，有 $P(\overline{A}) = 1 - P(A)$ .

性质 4： 如果 $A \subseteq B$ ，则有

$P(B - A) = P(B) - P(A), \quad P(A) \leq P(B)$

性质 5： 对于任一事件 $A$ ，有 $P(A) \leq 1$ .

性质 6（减法公式）： 对于任意两个事件 $A$ 与 $B$ ，有

$P(B - A) = P(B) - P(AB)$

性质 7（加法公式）： 对于任意两个事件 $A$ 与 $B$ ，有

$P(A \cup B) = P(A) + P(B) - P(AB),\\ P(A \cup B) \leq P(A) + P(B)$

推广：概率的一般加法公式为

$\begin{aligned} P \left( \bigcup_{i = 1}^n A_i \right) &= \sum_{i = 1}^n P \left( A_i \right) - \sum_{1 \leq i < j \leq n} P \left( A_i A_j \right) + \sum_{1 \leq i < j < k \leq n} P \left( A_i A_j A_k \right)\\ &+ \cdots + (-1)^{n - 1} P \left( A_1 A_2 \cdots A_n \right) \end{aligned}$

古典概型

如果随机试验具有以下两个特点：

试验的样本空间 $\varOmega$ 只包含有限个样本点；
在试验中每个基本事件发生的可能性相同，

则称这种试验为等可能概型或古典概型。

古典概型中事件 $A$ 的概率计算方式：

$P(A) = \frac{A \text{包含的基本事件个数}}{\varOmega \text{包含的基本事件总数}}$

由这一公式可知，要计算古典概型中事件 $A$ 的概率，只需算出样本空间 $\varOmega$ 包含的基本事件总数及事件 $A$ 包含的基本事件个数。这时常常用到加法原理、乘法原理以及排列组合公式。

特点： 有限性和等可能性

排列组合相关知识：

加法原理：完成一件事有 $n$ 类方法，第 $i$ 类方法中有 $m_i$ 种具体的方法，则完成这件事共有 $\displaystyle\sum_{i = 1}^n m_i$ 种不同的方法。
乘法原理：完成一件事有 $n$ 个步骤，第 $i$ 个步骤中有 $m_i$ 种具体的方法，则完成这件事共有 $\displaystyle\prod_{i = 1}^n m_i$ 种不同的方法。
组合：从 $n$ 个不同的元素中（不放回地）取出 $m$ 个组成一组，不同的分法共有

$C_n^m = \frac{n!}{m!(n - m)!}$

排列：从 $n$ 个不同的元素中（不放回地）取出 $m$ 个按一定的次序排成一排，不同的排法共有

$A_n^m = n(n - 1)(n - 2) \cdots (n - m + 1) = \frac{n!}{(n - m)!}$

全排列： $A_n^n = n!$
可重复排列：从 $n$ 个不同的元素中可重复地取出 $m$ 个排成一排，不同的排法共有 $n^m$ .
分类分组： $n$ 个元素分 $m$ 类，第 $i$ 类中有 $k_i$ 个相同地元素，且 $k_1 + k_2 + \cdots + k_m = n$ ，不同的排法共有

$C_n^{k_1} C_{n - k_1}^{k_2} \cdots C_{k_m}^{k_m} = \frac{n!}{k_1!k_2! \cdots k_m!}$

摸球问题： 袋中有 $a$ 只白球， $b$ 只红球，每次任取一只，取后不放回，进行 $k + 1\ (k + 1 \leq a + b)$ 次，则最后一次取到白球的概率为

$P(A) = \frac{A_a^1 A_{a + b - 1}^k}{A_{a + b}^{k + 1}} = \frac{a}{a + b}$

随机取数问题：

例：从 0, 1, 2, …, 9 这十个数字中任意取出 4 个，求能排成一个四位偶数的概率。

解：从 0 至 9 中任取 4 个数并进行排列得到的数字的个数为 $C_{10}^4 A_4^4 = 5040$ .

当个位为 0 时，排列得到的四位偶数的个数为 $C_9^3 A_3^3 = 504$ ；

当个位不为0时，四位偶数的个数为 $C_4^1 C_8^1 C_8^2 A_2^2 = 1792$ .

综上所述，所求概率为 $\dfrac{504 + 1792}{5040} = \dfrac{41}{90}$ .

分房问题： 将 $n$ 个人随机地分配到 $N\ (n \leq N)$ 个房间，则每个房间至多有一人的概率为

$P(A) = \frac{A_N^n}{N^n}$

某指定的 $n$ 个房间各有一人的概率为

$P(B) = \frac{n!}{N^n}$

几何概型

在古典概型中利用等可能性计算了一类问题的概率，但古典概型要求基本事件的总数必须是有限个。人们希望把这种做法推广到无限个基本事件，而这些基本事件又有某种等可能性的情形。

如果随机试验是将一个点随机地投到某一区域 $\varOmega$ （ $\varOmega$ 可以是直线上的某一区间，也可以是平面或空间内的某一区域）内，而这个随机点落在 $\varOmega$ 中任意两个度量相等的子区域内的可能性是一样的，则称这样的试验属于几何概型。对于任何有度量的子区域 $A \subseteq \varOmega$ ，我们定义事件 $A = $ “随机点落在区域 $A$ 内” 的概率为

$P(A) = \frac{A \text{的度量}}{\varOmega \text{的度量}}$

特点： 无限性和等可能性

蒲丰投针问题： 在平面上画有等距离的平行线，平行线间的距离为 $2a\ (a > 0)$ . 向该平面任意投掷一枚长为 $2l\ (l < a)$ 的圆柱形的针，求此针与任一平行线相交的概率。

解：针投在该平面上，以 $x$ 表示针的中点 $M$ 到最近的一条平行线的距离，以 $\varphi$ 表示针与此直线的交角，则有

$0 \leq x \leq a, \quad 0 \leq \varphi \leq \pi$

针与最近的一条平行线相交的充分必要条件是

$x \leq l\sin{\varphi}$

设

$\begin{aligned} \varOmega &= \{ (\varphi, x) \mid 0 \leq \varphi \leq \pi, 0 \leq x \leq a \}\\ A &= \{ (\varphi, x) \mid 0 \leq \varphi \leq \pi, 0 \leq x \leq l\sin{\varphi} \} \end{aligned}$

则所求概率为

$p = \frac{A \text{的面积}}{\varOmega \text{的面积}} = \frac{\int_0^\pi l\sin{\varphi} \mathrm{d}\varphi}{\pi a} = \frac{2l}{\pi a}$

条件概率

条件概率与乘法公式

定义： 设 $A$ 和 $B$ 是试验 $E$ 的两个事件，且 $P(A) > 0$ ，称 $P(AB) / P(A)$ 为在事件 $A$ 已经发生的条件下，事件 $B$ 发生的条件概率，记为 $P(B \mid A)$ ，即

$P(B \mid A) = \frac{P(AB)}{P(A)}$

由这个定义可知，对于任意两个事件 $A$ 及 $B$ ，如果 $P(A) > 0$ ，则有

$P(AB) = P(A) P(B \mid A)$

称上式为概率的乘法公式。

条件概率具有如下性质：

非负性：对任意事件 $B$ ，有 $P(B \mid A) \geq 0$ ；
规范性：对于必然事件 $\varOmega$ ，有 $P(\varOmega \mid A) = 1$ ；
可列可加性：对于两两互不相容的事件 $B_1, B_2, \cdots$ ，有

$P\left( \left( \bigcup_{i = 1}^\infty B_i\right) \mid A \right) = \sum_{i = 1}^\infty P(B_i \mid A)$

可由条件概率的三个基本性质推导出其他一些性质：

$P(\empty \mid A) = 0$ ；
$P(\overline B \mid A) = 1 - P(B \mid A)$ ；
$P((B_1 - B_2) \mid A) = P(B_1 \mid A) - P(B_1 B_2 \mid A)$ ；
$P((B_1 \cup B_2) \mid A) = P(B_1 \mid A) + P(B_2 \mid A) - P((B_1 B_2) \mid A)$ .

乘法公式的推广：

当 $P(AB) > 0$ 时， $P(ABC) = P(A) P(B \mid A) P(C \mid AB)$ ；
当 $P(A_1 A_2 \cdots A_{n - 1}) > 0$ 时， $P(A_1 A_2 \cdots A_n) = P(A_1) P(A_2 \mid A_1) \cdots P(A_n \mid A_1 A_2 \cdots A_{n - 1})$ .

例：设 M 件产品中有 m 件是不合格品，从中任取两件，在所取产品中有一件是不合格品的条件下，求另一件也是不合格品的概率。

解：设 A 表示事件 “所取产品中至少有一个是不合格品”，B 表示事件 “所取产品都是不合格品”，则

$P(A) = \frac{C_m^2 + C_m^1 C_{M - m}^1}{C_M^2}, \quad P(B) = \frac{C_m^2}{C_M^2}$

又因为 $P(AB) = P(B)$ ，所以所求概率为

$P(B \mid A) = \frac{P(AB)}{P(A)} = \frac{P(B)}{P(A)} = \frac{m - 1}{2M - m - 1}$

结论： 设 $A, B$ 为随机事件，若 $0 < P(A) < 1, 0 < P(B) < 1$ ，则 $P(A \mid B) > P(A \mid \overline{B})$ 的充要条件是 $P(B \mid A) > P(B \mid \overline{A})$ .

证明：

$P(A \mid B) > P(A \mid \overline{B})$ 等价于 $\dfrac{P(AB)}{P(B)} > \dfrac{P(A \overline{B})}{P(\overline{B})} = \dfrac{P(A) - P(AB)}{1 - P(B)}$ ，即 $P(AB) > P(A) P(B)$ .

$P(B \mid A) > P(B \mid \overline{A})$ 等价于 $\dfrac{P(AB)}{P(A)} > \dfrac{P(B) - P(AB)}{1 - P(A)}$ ，即 $P(AB) > P(A) P(B)$ .

全概率公式

设 $A_1, A_2, \cdots, A_n$ 为 $\varOmega$ 中的事件，满足

事件 $A_1, A_2, \cdots, A_n$ 互不相容（即 $A_i A_j = \empty, \ i \neq j, \ i, j = 1, 2, \cdots$ ）；
$\bigcup_i A_i = \varOmega$ .

则称 $A_1, A_2, \cdots, A_n$ 为 $\varOmega$ 的一个 （有限）分割或完全事件组。

如果 $P(A_i) > 0 \ (i = 1, 2, \cdots, n)$ ，则

$B = \bigcup_{i = 1}^n A_i B, \quad (A_i B)(A_j B) = \empty$

根据乘法公式得

$P(B) = \sum_{i = 1}^n P(A_i) P(B \mid A_i)$

这个公式称为全概率公式，它是概率论的一个基本公式。

例：某车间有四个班组生产同一种产品，其产量分别占总产量的 15%、20%、30%、35%，次品率分别为 0.05、0.04、0.03、0.02，现从全部产品中任取一件，问恰好取到次品的概率是多少？

解：设 $A_i$ 表示事件 “取到 $i$ 组的产品”， $i = 1, 2, 3, 4$ ， $B$ 表示事件 “恰好取到次品”，

$\begin{aligned} P(B) &= \sum_{i = 1}^4 P(A_i) P(B \mid A_i)\\ &= 0.15 \times 0.05 + 0.2 \times 0.04 + 0.3 \times 0.03 + 0.35 \times 0.02\\ &= 0.0315 \end{aligned}$

贝叶斯（Bayes）公式

设 $\varOmega$ 为试验 $E$ 的基本空间， $B$ 为任意事件， $A_1, A_2, \cdots, A_n$ 为 $\varOmega$ 的一个划分，且 $P(A_i) > 0 \ (i = 1, 2, \cdots, n)$ ，如果 $P(B) > 0$ ，则

$P(A_j \mid B) = \frac{P(A_j) P(B \mid A_j)}{\sum\limits_{i = 1}^n P(A_i) P(B \mid A_i)}, \ j= 1, 2, \cdots, n$

这个公式称为贝叶斯公式。

其中 $P(A_i)$ 称为先验概率，它是由以往的经验得到的，是事件 B 的原因；条件概率 $P(A_i \mid B)$ 称为后验概率，它是事件 B 发生后，再对导致 B 发生的原因的可能性大小重新加以评估得到的。

例：学生在做一道有 4 个选项的选择题时，如果他不知道问题的正确答案，就做随机猜测。假设学生认为自己知道正确答案的概率为 0.2，试求学生确实知道正确答案的概率。

解：设事件 $A$ 为 “题答对了”，事件 $B$ 为 “知道正确答案”，则由题意得

$P(A \mid B) = 1, \quad P(A \mid \overline{B}) = 0.25$

所以由贝叶斯公式得

$\begin{aligned} P(B \mid A) &= \frac{P(B) P(A \mid B)}{P(B) P(A \mid B) + P(\overline{B}) P(A \mid \overline{B})}\\ &= \frac{0.2 \times 1}{0.2 \times 1 + 0.8 \times 0.25} = 0.5 \end{aligned}$

所求概率即为 0.5。

事件的独立性

定义： 设 $A, B$ 是试验 $E$ 的两个随机事件，如果

$P(AB) = P(A) P(B)$

则称事件 $A$ 和事件 $B$ 相互独立。

容易得到如下结论：对于同一试验 $E$ 的两个事件 $A$ 与 $B$ ，如果 $P(A) > 0$ ，则 $A$ 与 $B$ 相互独立的充分必要条件为 $P(B \mid A) = P(B)$ ；如果 $P(B) > 0$ ，则 $A$ 与 $B$ 相互独立的充分必要条件为 $P(A \mid B) = P(A)$ .

结论 1： 若事件 $A$ 与 $B$ 相互独立，则 $A$ 与 $\overline{B}$ ， $B$ 与 $\overline{A}$ ， $\overline{A}$ 与 $\overline{B}$ 均独立。

证明：因为

$\begin{aligned} P(A \overline{B}) &= P(A) - P(AB)\\ &= P(A) - P(A) P(B)\\ &= P(A)[1 - P(B)]\\ &= P(A) P(\overline{B}) \end{aligned}$

因此事件 $A$ 与事件 $\overline{B}$ 是相互独立的。同理，可证明其它结论。

结论 2： 若 $P(A) > 0, P(B) > 0$ ，则事件 $A, B$ 相互独立与 $A, B$ 互不相容不能同时成立。

结论 3： 必然事件 $\varOmega$ 和不可能事件 $\varPhi$ 与任何事件都是独立的。

三个事件的独立性： 对于同一试验的三个事件 $A, B, C$ ，如果满足

$P(AB) = P(A) P(B)\\ P(BC) = P(B) P(C)\\ P(AC) = P(A) P(C)$

则称三个事件 $A, B, C$ 是两两相互独立的。此时如果

$P(ABC) = P(A) P(B) P(C)$

则称三个事件 $A, B, C$ 是相互独立的。

n 个事件的独立性： 设 $A_1, A_2, \cdots, A_n$ 是同一试验的 $n$ 个事件，如果对于任意正整数 $k$ 及这 $n$ 个事件中的任意 $k \ (2 \leq k \leq n)$ 个事件 $A_{i_1}, A_{i_2}, \cdots, A_{i_k}$ ，都有等式

$P(A_{i_1} A_{i_2} \cdots A_{i_k}) = P(A_{i_1}) P(A_{i_2}) \cdots + P(A_{i_k})$

成立，则称 $n$ 个事件 $A_1, A_2, \cdots, A_n$ 是相互独立的。

n 个事件相互独立的含义是它们中的几个事件发生与否不影响另外一些事件发生的概率。在实际问题中，往往不是用定义去判断事件的独立性，而是根据问题的实际意义去确定。

伯努利（Bernoulli）概型

n 重伯努利试验概型：

试验重复做 n 次；
每次试验只有两个可能的结果： $A$ 和 $\overline{A}$ ，且 $P(A) = p \ (0 < p < 1)$ ；
每次试验的结果与其他次试验无关，称这 n 次试验是相互独立的。

在 n 重伯努利概型中，事件 A 发生 k 次的概率为

$P_n(k) = C_n^k p^k (1 - p)^{n - k}, \quad k = 0, 1, 2, \cdots, n.$

该式又称为二项概率公式。

概率很小的随机事件在一次试验中实际上几乎不发生，这一原理称为小概率事件的实际不可能原理，又称为实际推断原理。

例：设每次试验的成功率为 $p \ (0 < p < 1)$ ，将试验独立重复地进行，求直到第 $n$ 次才取得第 $r \ (1 < r < n)$ 次成功的概率。

解：总共进行 $n$ 次试验，其中有 $r$ 次成功，且第 $r$ 次成功，有 $n - r$ 次失败，所以令 $k = n - r$ ，即得所求概率为

$C_{r + k - 1}^{r - 1} p^r (1 - p)^k = C_{r + (n - r) - 1}^{r - 1} p^r (1 - p)^{n - r} = C_{n - 1}^{r - 1} p^r (1 - p)^{n - r}$

随机变量及其分布

随机变量的分布函数

定义： 设随机试验 $E$ 的样本空间为 $\varOmega = \{ \omega \}$ . 如果对每一个 $\omega \in \varOmega$ ，都有一个实数 $X(\omega)$ 与之对应，则称 $X = X(\omega)\ (\omega \in \varOmega)$ 为随机变量。

随机变量 $X$ 是样本点 $\omega$ 的函数，其定义域为 $\varOmega$ ，值域为 $R$ .

随机变量随着试验结果的不同而变化，常用大写字母 $X, Y, Z$ 等表示。

由于随机变量的取值依赖于随机试验的结果，因此在试验之前我们只能知道它的所有可能取值，而不能预先知道它究竟取哪个值。因为试验的各个结果的出现都有一定的概率，所以随机变量取相应的值也有确定的概率。

用随机变量可以表示随机事件， $\{ X = k \}, \{ a < X < b \}, \{ X > b \}$ 等都是随机事件。

为了研究随机变量，我们引入分布函数的概念。

定义： 设 $X$ 是一个随机变量，对于任意实数 $x$ ，令

$F(x) = P\{ X \leq x \}, \quad x \in \R,$

称 $F(x)$ 为随机变量 $X$ 的分布函数。

随机变量 $X$ 的分布函数 $F(x)$ 是定义在 $(-\infty. +\infty)$ 上的函数，是随机事件 $\{ X \leq x \}$ 发生的概率。如果 $X$ 是数轴上随机点的坐标，则分布函数值 $F(a)$ 表示 $X$ 落在区间 $(-\infty, a]$ 上的概率，如下图所示：

由于分布函数是普通的一元函数，因此通过它我们可以利用数学分析的方法来研究随机变量。

分布函数的基本性质：

性质 1： 对于任意实数 $x$ ，有 $0 \leq F(x) \leq 1$ .

性质 2： 对于任意实数 $x_1, x_2\ (x_1 < x_2)$ ，有

$P\{ x_1 < X \leq x_2 \} = F(x_2) - F(x_1).$

性质 3：

$F(-\infty) = \lim_{x \to -\infty}(x) = 0\\ F(+\infty) = \lim_{x \to +\infty}(x) = 1$

性质 4： $F(x)$ 处处右连续，即 $F(x^+) = F(x)$ .

性质 5： 对于任意实数 $x_1, x_2\ (x_1 < x_2)$ ，由于

$F(x_2) - F(x_1) = P\{ x_1 < X \leq x_2 \} \geq 0,$

因此 $F(x)$ 是一个单调不减函数。

由于 $F(a) = P\{ X \leq a \}$ ，则

$\begin{aligned} P\{ X = a \} &= F(a) - F(a - 0)\\ P\{ X < a \} &= F(a - 0)\\ P\{ X > a \} &= 1 - F(a)\\ P\{ X \geq a \} &= 1 - F(a - 0)\\ \end{aligned}$

离散型随机变量及其概率分布

定义 1： 如果一个随机变量 $X$ 所有可能取到的不相同的值是有限个或可列无限多个，并且以确定的概率取这些不同的值，则称 $X$ 为离散型随机变量。

定义 2： 设离散型随机变量 $X$ 所有可能取的值为 $x_k\ (k = 1, 2, \cdots)$ ， $X$ 取各个可能值的概率，即事件 $\{ X = x_k \}$ 的概率为

$P\{ X = x_k \} = p_k, \quad k = 1, 2, \cdots$

并且 $p_k$ 满足以下两个条件：

$p_k \geq 0, \quad k = 1, 2, \cdots$ ；
$\sum_{k = 1}^\infty p_k = 1$ ，

则称上式为离散型随机变量 $X$ 的概率分布或分布律。

概率分布也可以用如下的表格来表示：

离散随机变量的分布函数：

$F(x) = P\{ X \leq x \} = \sum_{x_k \leq x} P\{ X = x_k \} = \sum_{x_k \leq x} p_k$

离散型随机变量 $X$ 的分布函数是一条阶梯形曲线，所有可能取值点为间断点，每个间断点处的跳跃度恰为取该点的概率值。

常用的离散型随机变量

离散型均匀分布：

若随机变量 $X$ 的分布律为

$P\{ X = x_k \} = \frac{1}{n}, \quad k = 1, 2, \cdots, n.$

当 $i \neq j 时$ ， $x_i \neq x_j$ ，则称 $X$ 服从离散型均匀分布。

(0-1) 分布：

若随机变量 $X$ 只取 0 与 1 两个值，其概率分布为

$P\{ X = 0 \} = 1 - p, \quad P\{ X = 1 \} = p,$

其中 $0 < p < 1$ ，则称 $X$ 服从参数为 $p$ 的 (0-1) 分布或两点分布。

分布律也可以写成

$P\{ X = x \} = p^x (1 - p)^{1 - x}, \quad x = 0, 1.$

二项分布：

在 n 重伯努利试验中，以 $X$ 表示事件 $A$ 发生的次数，所有可能取值为 $0, 1, 2, \cdots, n$ ，设 $P(A) = p \ (0 < p < 1)$ .
若随机变量 $X$ 的分布律为

$P\{ X = k \} = C_n^k p^k (1 - p)^{n - k}, \quad k = 0, 1, 2, \cdots, n,$

其中 $0 < p < 1$ ，则称 $X$ 服从参数为 $n, p$ 的二项分布，记作 $X \sim B(n, p)$ .

易得

$P\{ X = k \} = C_n^k p^k (1 - p)^{n - k} > 0,\\ \sum_{k = 0}^n P\{ X = k \} = \sum_{k = 0}^n C_n^k p^k (1 - p)^{n - k} = [p + (1 - p)]^n = 1.$

特别地，当 $n = 1$ 时，二项分布 $B(1, p)$ 就是 (0-1) 分布。

二项分布的最可能取值为

$k_0 = \begin{cases} (n + 1)p \text{与} (n + 1)p - 1, & \text{当} (n + 1)p \text{是整数时} \\ [(n + 1)p] & \text{当} (n + 1)p \text{不是整数时} \end{cases}$

对于任意 $j \in X$ ，若 $P\{ X = k \} \geq P\{ X = k \}$ ，则称 $k$ 为最可能出现的次数。记 $p_k = P\{ X = k \} = C_n^k p^k (1 - p)^{n - k}$ ，考虑

$\delta = \frac{p_k}{p_{k - 1}} = \frac{(n - k + 1)p}{k(1 - p)} = 1 + \frac{(n + 1)p - k}{k(1 - p)} \geq 1$

则 $k \leq (n + 1)p$ .

几何分布：

假设试验只有两个可能的对立结果 $A$ 和 $\overline{A}$ ，且 $P(A) = p, P(\overline{A}) = 1 - p$ ，将试验独立重复地进行下去，直到 $A$ 发生为止，以 $X$ 表示实验进行的次数，这样得到的分布结果就是几何分布。

若随机变量 $X$ 的分布律为

$P\{ X = k \} = (1 - p)^{k - 1} p, \quad k = 1, 2, \cdots,$

其中 $0 < p < 1$ ，则称随机变量 $X$ 服从几何分布，记作 $X \sim G(p)$ .

易得

$(1 - p)^{k - 1} p > 0,\\ \sum_{k = 0}^n (1 - p)^{k - 1} p = 1.$

几何分布的无记忆性： 设 $X \sim G(p)$ ， $n, m$
为任意的两个自然数，则

$P\{ X > n + m \mid X > n \} = P\{ X > m \}$

泊松（Poisson）分布：

如果随机变量 $X$ 的所有可能取值为 $0, 1, 2, \cdots$ ，并且

$P\{ x = k \} = \frac{\lambda^k \mathrm{e}^{-\lambda}}{k!}, \quad k = 0, 1, 2, \cdots,$

其中 $\lambda > 0$ 是常数，则称随机变量 $X$ 服从参数为 $\lambda$ 的泊松分布，记作 $X \sim P(\lambda)$ 或 $\pi(\lambda)$ .

易得

$\frac{\lambda^k \mathrm{e}^{-\lambda}}{k!} > 0,\\ \sum_{k = 0}^n \frac{\lambda^k \mathrm{e}^{-\lambda}}{k!} = \mathrm{e}^{-\lambda} \cdot \mathrm{e}^{\lambda} = 1.$

泊松定理： 设 $\lambda > 0$ 是常数， $n$ 为任意正整数， $n p_n = \lambda$ ，则对任一固定的非负整数 $k$ ，有

$\lim_{n \to \infty} C_n^k p^k (1 - p_n)^{n - k} = \frac{\lambda^k \mathrm{e}^{-\lambda}}{k!}$

泊松定理表明，当 $n$ 很大而 $p$ 很小时，有下面的近似公式

$C_n^k p^k (1 - p_n)^{n - k} \approx \frac{\lambda^k \mathrm{e}^{-\lambda}}{k!}$

连续型随机变量及其概率密度

定义： 对于随机变量 $X$ 的分布函数 $F(x)$ ，如果存在非负函数 $f(x)$ ，使得对任意的 $x$ ，都有

$F(x) = \int_{-\infty}^x f(t) \mathrm{d}t,$

则称随机变量 $X$ 是连续型随机变量，其中函数 $f(x)$ 叫作 $X$ 的概率密度函数，简称为概率密度，记作 $X \sim f(x)$ .

由定义可知，连续型随机变量的分布函数处处连续。

概率密度的性质：

性质 1： $f(x) \geq 0$ .

性质 2： $\int_{-\infty}^{+\infty} f(x) \mathrm{d}x = 1$ .

性质 3： 对于任意实数 $a, b \ (a < b)$ ，有

$P\{ a < X \leq b \} = F(b) - F(a) = \int_{a}^{b} f(x) \mathrm{d}x.$

性质 4： 如果 $f(x)$ 在点 $x$ 处连续，则有

$F'(x) = f(x).$

性质 5： 对任意实数 $a$ ， $P\{ X = a \} = 0$ . 即连续型随机变量取任意指定实数的概率均为零，因此有

$P\{ x_1 < X < x_2 \} = P\{ x_1 \leq X \leq x_2 \} = \int_{x_1}^{x_2} f(x) \mathrm{d}x$

几何意义： 概率密度曲线总是位于 x 轴上方，并且介于它和 x 轴之间的面积等于 1；随机变量落在区间 $(a, b]$ 的概率 $P\{ a < X \leq b \}$ 等于区间 $(a, b]$ 上曲线 $y = f(x)$ 之下的曲边梯形的面积。

常用的连续型随机变量

均匀分布：

如果连续型随机变量 $X$ 的概率密度为

$f(x) = \begin{cases} \dfrac{1}{b - a}, & a < x < b, \\ 0, & Other, \end{cases}$

则称 $X$ 在区间 $(a, b)$ 上服从均匀分布，记作 $X \sim U(a, b)$ . $X$ 的分布函数为

$F(x) = \begin{cases} 0, & a < x < b, \\ \dfrac{x - a}{b - a}, & a \leq x < b, \\ 1, & x \geq b. \end{cases}$

对于任意 $x_1, x_2 \in (a, b)$ ，若 $x_1 < x_2$ ，则有

$P\{ x_1 < X < x_2 \} = \int_{x_1}^{x_2} f(x) \mathrm{d}x = \int_{x_1}^{x_2} \frac{1}{b - a} \mathrm{d}x = \frac{x_2 - x_1}{b - a}.$

这说明 $X$ 取值落在 $(a, b)$ 内任一子区间 $(x_1, x_2)$ 内的概率，只依赖于子区间的长度 $x_2 - x_1$ ，与子区间位置无关。

指数分布：

如果连续型随机变量 $X$ 的概率密度为

$f(x) = \begin{cases} \lambda \mathrm{e}^{-\lambda x}, & x > 0, \\ 0, & x \leq 0, \end{cases}$

其中 $\lambda > 0$ 为常数，则称 $X$ 服从参数为 $\lambda$ 的指数分布。 $X$ 的分布函数为

$F(x) = \begin{cases} 1 - \mathrm{e}^{-\lambda x}, & x > 0, \\ 0, & x \leq 0. \end{cases}$

指数分布无记忆性，例如：设随机变量 $X$ 服从参数 $\theta = 1$ 的指数分布，则 $P\{ 2 < X < 3 \mid X \geq 1 \} = P\{ 2 < X < 3 \} = \mathrm{e}^{-2} - \mathrm{e}^{-3}$ .

正态分布

定义： 如果随机变量 $X$ 具有概率密度

$f(x) = \frac{1}{\sqrt{2\pi}\sigma} \mathrm{e}^{-\frac{(x - \mu)^2}{2\sigma^2}}, \quad -\infty < x < +\infty,$

其中 $\mu, \sigma \ (\sigma > 0)$ 为常数，则称 $X$ 服从参数为 $\mu, \sigma$ 的正态分布，记作 $X \sim N(\mu, \sigma^2)$ .

$X$ 的分布函数为

$F(x) = \frac{1}{\sqrt{2\pi}\sigma} \int_{-\infty}^x \mathrm{e}^{-\frac{(t - \mu)^2}{2\sigma^2}} \mathrm{d}t, \quad -\infty < x < +\infty,$

$X$ 的概率密度及分布函数的图像分别如下图所示：

非负性： $f(x) \geq 0$ .

规范性： $\int_{-\infty}^{+\infty} \dfrac{1}{\sqrt{2\pi}\sigma} \mathrm{e}^{-\frac{(x - \mu)^2}{2\sigma^2}} \mathrm{d}x = 1$ .

正态分布的密度曲线特点：

概率密度曲线 $y = f(x)$ 关于直线 $x = \mu$ 对称，以 $x$ 轴为水平渐近线，并在 $x = \mu$ 处取得最大值 $\dfrac{1}{\sqrt{2\pi}\sigma}$ ；
在横坐标 $x = \mu \pm \sigma$ 处有拐点；
$F(\mu) = \dfrac{1}{2}$ .

正态分布的参数：

位置参数 $\mu$ ：如果固定 $\sigma$ ，改变 $\mu$ 的值，则概率密度曲线沿着 $x$ 轴平移，但形状不变，如下图所示：

形状参数 $\sigma$ ：如果固定 $\mu$ ，改变 $\sigma$ 的值，则当 $\sigma$ 越小时概率密度曲线在 $x = \mu$ 附近越陡峭， $X$ 落在 $x = \mu$ 附近的概率越大；当 $\sigma$ 越大时概率密度曲线越平坦。如下图所示：

正态分布的线性函数仍然服从正态分布，即若 $X \sim N(\mu, \sigma^2)$ ，则 $Y= aX + b \sim N\left( a\mu + b, (a\sigma)^2 \right)$ .

证明： $X$ 的概率密度函数为

$f_X(x) = \frac{1}{\sqrt{2\pi} \sigma} \mathrm{e}^{-\frac{(x - \mu)^2}{2\sigma^2}}, \quad -\infty < x < +\infty$

令 $y = g(x) = ax + b$ ，由此解得 $x = h(y) = \dfrac{y - b}{a}$ ，且 $h'(y) = \dfrac{1}{a}$ .

则 $Y = aX + b \ (a \neq 0)$ 的概率密度函数为

$f_Y(y) = \frac{1}{|a|} f_X\left( \frac{y - b}{a} \right), \quad -\infty < y < +\infty$

即

$f_Y(y) = \frac{1}{|a| \sqrt{2\pi} \sigma} \mathrm{e}^{-\frac{(\frac{y - b}{a} - \mu)^2}{2\sigma^2}} = \frac{1}{|a| \sqrt{2\pi} \sigma} \mathrm{e}^{-\frac{(y - (b + a\mu))^2}{2(a\sigma)^2}}, \quad -\infty < x < +\infty$

因此有

$Y = aX + b \sim N\left( a\mu + b, (a\sigma)^2 \right)$

标准正态分布：

定义： 设 $X \sim N(\mu, \sigma^2)$ ，如果 $\mu = 0, \sigma = 1$ ，则称 $X$ 服从标准正态分布，记作 $X \sim N(0, 1)$ .

服从标准正态分布的随机变量 $X$ 的概率密度及分布函数分别记作 $\varphi(x)$ 与 $\varPhi(x)$ ，即

$\varphi(x) = \frac{1}{\sqrt{2\pi}} \mathrm{e}^{-\frac{x^2}{2}}, \quad -\infty < x < +\infty,\\ \varPhi(x) = \frac{1}{\sqrt{2\pi}}\int_{-\infty}^x \mathrm{e}^{-\frac{t^2}{2}} \mathrm{d}t, \quad -\infty < x < +\infty.$

它们的图形分别如下所示：

标准正态分布的性质：

$\varphi(x)$ 是偶函数， $\varphi(-x) = \varphi(x), \varphi(0) = \dfrac{1}{\sqrt{2\pi}}$ .
$\varPhi(0) = \dfrac{1}{2}, \varPhi(-x) = 1 - \varPhi(x)$ .
$P\{ |x| \leq \alpha \} = 2\varPhi(a) - 1$ ， $P\{ |x| > \alpha \} = 1 - P\{ |x| \leq \alpha \} = 2 - 2\varPhi(a)$ .

正态分布的标准化： 若 $X \sim N(\mu, \sigma^2)$ ，分布函数为 $F(x)$ ，则令

$Y = \frac{X - \mu}{\sigma} \sim N(0, 1),\\ F(x) = \varPhi\left( \frac{x - \mu}{\sigma} \right)$

所以有

$\begin{aligned} P\{ a < X < b \} &= F(b) - F(a) = \varPhi\left( \frac{b - \mu}{\sigma} \right) - \varPhi\left( \frac{a - \mu}{\sigma} \right)\\ &= P\left( \frac{a - \mu}{\sigma} \leq Y \leq \frac{b - \mu}{\sigma} \right) \end{aligned}$

设随机变量 $X$ 服从正态分布 $N(\mu, \sigma^2)$ ，则随着 $\sigma^2$ 的增大，概率 $P\{ |X - \mu| < \sigma\}$ 保持不变。

证：令 $Y = \dfrac{X - \mu}{\sigma}$ ，因为 $X \sim N(\mu, \sigma^2)$ ，故 $Y \sim N(0, 1)$ ，从而有 $P\{ |X - \mu| < \sigma\} = P\{ |Y| < 1 \}$ 是一个固定值。

标准正态分布上的 $\alpha$ 分位点：

定义： 设 $X \sim N(0, 1)$ . 对于给定的 $\alpha \ (0 < \alpha < 1)$ ，如果 $u_{\alpha}$ 满足条件

$P\{ X \geq u_{\alpha} \} = \frac{1}{\sqrt{2\pi}} \mathrm{e}^{-\frac{x^2}{2}} \mathrm{d}x = \alpha,$

则称点 $u_{\alpha}$ 为标准正态分布的上 $\alpha$ 分位点。

$\varPhi(u_\alpha) = 1 - \alpha$ ， $-u_\alpha = u_{1 - \alpha}$ .

常用数据： $u_{0.05} = 1.645, u_{0.025} = 1.96$ .

随机变量函数的分布

设 $X$ 是随机变量，函数 $y = g(x)$ ，如果 $Y = g(x)$ ， $Y$ 是随机变量 $X$ 的函数。已知 $X$ 的分布，考虑 $Y$ 的分布。

方法：将与 $Y$ 有关的事件转化成与 $X$ 有关的事件。

离散型随机变量的函数的分布： 确定随机变量 $Y = g(X)$ 的所有可能取值及相应概率，遇到多个 $X$ 取值造成同一个 $Y$ 值，则将对应概率加和。

连续型随机变量的函数的分布： 设 $X$ 为连续型随机变量，其概率密度为 $f_X(x)$ ，又 $Y = g(X)$ ，且 $Y$ 也是连续型随机变量，求 $Y$ 的概率密度 $f_Y(y)$ .

方法一（分布函数法）：先借助 $X$ 分布函数表达 $Y$ 的分布函数 $F_Y(y)$ ，再对 $y$ 求导，得 $Y$ 的概率密度函数

$f_Y(y) = \begin{cases} \dfrac{\mathrm{d}F_Y(y)}{\mathrm{d}y}, & \text{可导}, \\ 0, & \text{不可导}. \end{cases}$

方法二（公式法）：连续型随机变量 $X$ 的概率密度 $f_X(x) \ (-\infty < x < +\infty)$ ，函数 $g(x)$ 是处处可导的单调函数，则随机变量 $Y = g(X)$ 的概率密度为

$f_Y(y) = \begin{cases} f_X(h(y))|h'(y)|, & \alpha < y < \beta, \\ 0, & else, \end{cases}$

其中 $\alpha = \min\{ g(-\infty), g(+\infty) \}, \beta = \max\{ g(-\infty), g(+\infty) \}$ ， $h(y)$ 是 $g(x)$ 的反函数。

当 $f(x)$ 在有限区间 $[a, b]$ 外为 0 时，只需考虑 $g(x)$ 在区间内是否单调可导。

例（对数正态分布）：如果 $Y = \ln{X}$ 服从正态部分 $N(\mu, \sigma^2)$ ，则称随机变量 $X$ 为服从参数为 $\mu, \sigma^2$ 的对数正态分布。求对数正态分布的概率密度。

解：由 $X = \mathrm{e}^Y, Y = \ln{X} \sim N(\mu, \sigma^2)$ ，

当 $x > 0$ 时，

$F_X(x) = P\{ X \leq x \} = P\{ e^Y \leq x \} = P\{ Y \leq \ln{x} \} = F_Y(\ln{x})$

当 $x \leq 0$ 时， $F_X(x) = 0$ .

综上所述，

$f_x(x) = F_X'(x) = \begin{cases} \dfrac{1}{x} f_Y(\ln x), & x > 0, \\ 0, & x \leq 0, \end{cases} = \begin{cases} \dfrac{1}{\sqrt{2\pi} \sigma x} \mathrm{e}^{-\frac{(\ln{x} - \mu)^2}{2\sigma^2}}, & x > 0, \\ 0, & x \leq 0. \end{cases}$

二维随机变量及其分布

二维随机变量及其分布函数

定义 1： 设随机试验 $E$ 的样本空间为 $\varOmega$ ， $X$ 和 $Y$ 是定义在 $\varOmega$ 上的两个随机变量，由它们构成的向量 $(X, Y)$ 称为二维随机变量或二维随机向量。

定义 2： 设 $(X, Y)$ 是二维随机变量。对于任意实数 $x$ 和 $y$ ，记事件 $\{ X \leq x \}$ 与 $\{ Y \leq y \}$ 的交事件为 $\{ X \leq x, Y \leq y \}$ ，称二元函数

$F(x, y) = P\{ X \leq x, Y \leq y \}, \quad (x, y) \in \R^2$

为二维随机变量 $(X, Y)$ 的分布函数，或称为随机变量 $X$ 和 $Y$ 的联合分布函数。

几何意义： 如果我们将二维随机变量 $(X, Y)$ 看作 $xOy$ 平面上随机点的坐标，则分布函数 $F(x, y)$ 在点 $(x, y)$ 处的函数值就是随机点落在以 $(x, y)$ 为顶点且位于该点左下方的无界域内的概率，如下图所示

分布函数 $F(x, y)$ 具有以下性质：

性质 1： $0 \leq F(x, y) \leq 1$ ，且

$F(-\infty, -\infty) = \lim_{x \to -\infty \atop y \to -\infty} (x, y) = 0\\ F(+\infty, +\infty) = \lim_{x \to +\infty \atop y \to +\infty} (x, y) = 1$

对于任意固定的 $x$ ，有 $F(x, -\infty) = \lim\limits_{y \to -\infty} (x, y) = 0$ ；
对于任意固定的 $y$ ，有 $F(-\infty, y) = \lim\limits_{x \to -\infty} (x, y) = 0$ .

性质 2： $F(x, y)$ 对于每个变量是单调不减函数，即对于任意固定的 $y$ ，当 $x_1 < x_2$ 时，有

$F(x_1, y) \leq F(x_2, y)$

对于任意固定的 $x$ ，当 $y_1 < y_2$ 时，有

$F(x, y_1) \leq F(x, y_2)$

性质 3： $F(x, y)$ 关于 $x$ 右连续，关于 $y$ 右连续，即有

$F(x^+, y) = F(x, y), \quad F(x, y^+) = F(x, y)$

性质 4： 对于任意的 $x_1 < x_2, y_1 < y_2$ ，有

$P\{ x_1 < X \leq x_2, y_1 < Y \leq y_2 \}\\ = F(x_2, y_2) - F(x_1, y_2) - F(x_2, y_1) + F(x_1, y_1).$

该公式用于利用分布函数计算概率。

边缘分布

定义： 设二维随机变量 $(X, Y)$ 的分布函数为 $F(x, y)$ ，记随机变量 $X$ 的分布函数为 $F_X(x)$ ，随机变量 $Y$ 的分布函数为 $F_Y(y)$ ，分别称为二维随机变量 $(X, Y)$ 关于 $X$ 和关于 $Y$ 的边缘分布函数。

我们有

$F_X(x) = P\{ X \leq x \} = P\{ X \leq x, Y < +\infty \} = F(x, +\infty), \quad x \in \R,\\ F_Y(x) = P\{ Y \leq y \} = P\{ X < +\infty, Y \leq y \} = F(+\infty, y), \quad y \in \R.$

二维随机变量 $(X, Y)$ 的边缘分布函数完全由联合分布函数 $F(x, y)$ 确定；但是，一般地，由边缘分布函数不能确定联合分布函数。

二维随机变量的独立性

定义： 设二维随机变量 $(X, Y)$ 的分布函数及其关于 $X$ 和关于 $Y$ 的边缘分布函数为 $F(x, y)$ ， $F_x(x)$ ， $F_Y(y)$ ，如果对于任意实数 $x, y$ ，都有

$F(x, y) = F_X(x) F_Y(y)$

则称随机变量 $X$ 与 $Y$ 是相互独立的。

$X$ 与 $Y$ 相互独立就是对 $\forall x, y \in R$ ，两事件 $\{ X \leq x \}$ 和 $\{ Y \leq y \}$ 相互独立。

若 $X$ 与 $Y$ 相互独立，对任意连续函数 $h, g$ ，则 $h(X)$ 与 $g(Y)$ 也相互独立。

二维离散型随机变量及其概率分布

定义 1： 若二维随机变量 $(X, Y)$ 所有可能取得值是有限对或可列无限对，则称 $(X, Y)$ 是二维离散型随机变量。

设 $(X, Y)$ 所有可能取的值为 $(x_i, y_j) \ (i, j = 1, 2, \cdots)$ ，记事件 $\{ X = x_i \}$ 与事件 $\{ Y = y_j \}$ 的交事件为 $\{ X = x_i, Y = y_j \} \ (i, j = 1, 2, \cdots)$ .

定义 2： 设 $(X, Y)$ 所有可能取的值为 $(x_i, y_j) \ (i, j = 1, 2, \cdots)$ ，如果

$P\{ X = x_i, Y = y_j \} = p_{ij}, \quad i, j = 1, 2, \cdots,$

且满足

$p_{ij} \geq 0, \ (i, j = 1, 2, \cdots)$ ；
$\sum_{i = 1}^\infty \sum_{j = 1}^\infty p_{ij} = 1$ ，

则称上式为二维离散型随机变量 $(X, Y)$ 的概率分布，或称为随机变量 $X$ 和随机变量 $Y$ 的联合概率分布或联合分布律。

$(X, Y)$ 的概率分布可以用如下的表格表示：

边缘概率分布： 设二维离散型随机变量 $(X, Y)$ 的概率分布为

$P\{ X = x_i, Y = y_j \} = p_{ij}, \quad i, j = 1, 2, \cdots$

随机变量 $X$ 和 $Y$ 的概率分布

$P\{ X = x_i \} = p_{i \cdot}, \quad i = 1, 2, \cdots,\\ P\{ Y = y_j \} = p_{\cdot j}, \quad j = 1, 2, \cdots,$

分别称为 $(X, Y)$ 关于 $X$ 和关于 $Y$ 的边缘概率分布或边缘分布律。

边缘分布律都是一维随机变量的分布；联合分布律可确定边缘分布律，反之不一定。

随机变量的独立性： 设二维离散型随机变量 $(X, Y)$ ， $X$ 与 $Y$ 相互独立的充要条件是对任意的 $i, j$ ，都有

$P\{ X = x_i, Y = y_j \} = P\{ X = x_i \}P\{ Y = y_j \}, \quad i, j = 1, 2, \cdots,$

即

$p_{ij} = p_{i \cdot} p_{\cdot j} \quad i, j = 1, 2, \cdots.$

二维连续型随机变量及其概率密度

定义： 设二维随机变量 $(X, Y)$ 的分布函数为 $F(x, y)$ ，如果存在非负的二元函数 $f(x, y)$ ，对于任意实数 $x, y$ ，有

$F(x, y) = \int_{-\infty}^x \int_{-\infty}^y f(u, v) \mathrm{d}u\mathrm{d}v$

则称 $(X, Y)$ 为二维连续型随机变量， $f(x, y) \ ((x, y) \in \R^2)$ 称为二维连续型随机变量 $(X, Y)$ 的概率密度，或称为随机变量 $X$ 和 $Y$ 的联合概率密度。

概率密度 $f(x, y)$ 具有下列性质：

性质 1： $f(x, y) \geq 0$ .

性质 2： $\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} f(x, y) \mathrm{d}x\mathrm{d}y = 1$ .

性质 3： 如果 $f(x, y)$ 在点 $(x, y)$ 处连续，则

$f(x, y) = \frac{\partial^2{F(x, y)}}{\partial{x}\partial{y}}.$

性质 4： 设 $G$ 是 $xOy$ 面上的一个区域，则

$P\{ (X, Y) \in G \} = \iint_G f(x, y) \mathrm{d}x\mathrm{d}y.$

几何意义： $z = f(x, y)$ 表示空间 $Oxyz$ 中的一张曲面。性质 1 和性质 2 表明，曲面 $z = f(x, y)$ 位于 $xOy$ 平面上方，介于它和 $xOy$ 平面之间的体积为 1. 性质 4 表明，随机点 $(X, Y)$ 落在区域 $G$ 内的概率 $P\{ (X, Y) \in G \}$ 等于以 $G$ 为底、以曲面 $z = f(x, y)$ 为顶的曲顶柱体体积的数值。

边缘概率密度： 设二维连续型随机变量 $(X, Y)$ 的概率密度为 $f(x, y), (x, y) \in \R^2$ ，将一元函数

$f_X(x) = \int_{-\infty}^{+\infty} f(x, y) \mathrm{d}y, \quad x \in \R, \\ f_Y(y) = \int_{-\infty}^{+\infty} f(x, y) \mathrm{d}x, \quad y \in \R$

分别称为二维随机变量 $(X, Y)$ 关于 $X$ 和关于 $Y$ 的边缘概率密度。

随机变量的独立性： 设二维连续型随机变量 $(X, Y)$ ， $X$ 与 $Y$ 相互独立的充要条件是对任意实数 $x, y$ ，都有

$f(x, y) = f_X(x) f_Y(y), \quad (-\infty < x, y < +\infty).$

二维均匀分布与正态分布

二维均匀分布：

设 $D$ 是 $xOy$ 面上的有界区域，其面积为 $A$ . 如果二维随机变量 $(X, Y)$ 具有概率密度

$f(x, y) = \begin{cases} \dfrac{1}{A}, & (x, y) \in D, \\ 0, & else, \end{cases}$

则称 $(X, Y)$ 在区域 $D$ 上服从均匀分布。

例：设二维随机变量 $(X, Y)$ 在区域 $D = \{ (x, y) \mid 0 \leq y \leq x, 0 \leq x \leq 1 \}$ 上服从均匀分布。

（1）求 $(X, Y)$ 的概率密度。

解：区域 $D$ 的面积为 $S = \dfrac{1}{2}$ ，故 $(X, Y)$ 的概率密度为

$f(x, y) = \begin{cases} 2, & (x, y) \in D, \\ 0, & else. \end{cases}$

（2）求 $P\left\{ \dfrac{1}{2} < X < \dfrac{3}{4}, 0 < Y < \dfrac{3}{4} \right\}$ .

$\begin{aligned} P\left\{ \dfrac{1}{2} < X < \dfrac{3}{4}, 0 < Y < \dfrac{3}{4} \right\} &= \iint\limits_{\text{梯形}} f(x, y) \mathrm{d}x\mathrm{d}y \\ &= \int_{\frac{1}{2}}^{\frac{3}{4}} \mathrm{d}x \int_o^x 2 \mathrm{d}y \\ &= \frac{5}{16} \end{aligned}$

二维正态分布：

设二维随机变量 $(X, Y)$ 的概率密度为

$\begin{aligned} f(x, y) = & \frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \cdot \exp\bigg\{ \frac{-1}{2(1 - \rho^2)} \bigg[ \frac{(x - \mu_1)^2}{\sigma_1^2} \\ & - 2\rho \frac{(x - \mu_1)(y - \mu_2)}{\sigma_1 \sigma_2} + \frac{(y - \mu_2)^2}{\sigma_2^2} \bigg] \bigg\}, \quad (x, y) \in \R^2 \end{aligned}$

其中 $\mu_1, \mu_2, \sigma_1, \sigma_2, \rho$ 都是常数，且 $\sigma_1 > 0, \sigma_2 > 0, -1 < \rho < 1$ ，则称 $(X, Y)$ 服从参数为 $\mu_1, \mu_2, \sigma_1, \sigma_2, \rho$ 的二维正态分布，记作 $(X, Y) \sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)$ .

二维正态分布的性质：

若 $(X, Y) \sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)$ ，则 $X \sim N(\mu_1, \sigma_1^2)$ ， $Y \sim N(\mu_2, \sigma_2^2)$ ，即二维正态分布的边缘分布式一维正态分布。

只要给定二维正态分布的前 4 个参数，关于 $X$ 和关于 $Y$ 的边缘分布也就确定了，和 $\rho$ 无关。

$X$ 和 $Y$ 相互独立的充要条件是 $\rho = 0$ .

独立正态随机变量的非零线性组合仍服从正态分布，例如若 $X, Y$ 相互独立， $X \sim N(\mu_1, \sigma_1^2), Y \sim N(\mu_2, \sigma_2^2)$ ，则

$X + Y \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)$ ；
$aX + bY \sim N(a\mu_1 + b\mu_2, a^2 \sigma_1^2 + b^2 \sigma_2^2)$ ；
$X - Y \sim N(\mu_1 - \mu_2, \sigma_1^2 + \sigma_2^2)$ .

条件分布

离散型随机变量的条件分布： 设 $(X, Y)$ 是二维离散型随机变量，对于固定的 $j$ ，如果 $P\{ Y = y_j \} = p_{\cdot j} > 0$ ，则称

$P\{ X = x_i \mid Y = y_j \} = \frac{P\{X = x_i, Y = y_j\}}{P\{ Y = y_j \}} = \frac{p_{ij}}{p_{\cdot j}}, \quad i = 1, 2, \cdots$

为在条件 $Y = y_j$ 下随机变量 $X$ 的条件概率分布。对于固定的 $i$ ，若 $p_{i \cdot} > 0$ ，则称

$P\{ Y = y_j \mid X = x_i \} = \frac{P\{X = x_i, Y = y_j\}}{P\{ X = x_i \}} = \frac{p_{ij}}{p_{i \cdot}}, \quad j = 1, 2, \cdots$

为在条件 $X = x_i$ 下随机变量 $Y$ 的条件概率分布。

连续型随机变量的条件分布：

在 $Y = y$ 条件下， $X$ 的条件概率密度为

$f_{X \mid Y}(x \mid y) = \frac{f(x, y)}{f_Y(y)}$

$X$ 的条件分布函数为

$F_{X \mid Y}(x \mid y) = \int_{-\infty}^x f_{X \mid Y}(x \mid y) \mathrm{d}x$

在 $X = x$ 条件下， $Y$ 的条件概率密度为

$f_{Y \mid X}(y \mid x) = \frac{f(x, y)}{f_X(x)}$

$Y$ 的条件分布函数为

$F_{Y \mid X}(y \mid x) = \int_{-\infty}^y f_{Y \mid X}(y \mid x) \mathrm{d}y$

二维随机变量的函数的分布

设 $(X, Y)$ 为二维随机变量， $g(x, y)$ 为二元函数，则一维随机变量 $Z = g(X, Y)$ 是二维随机变量 $(X, Y)$ 的函数。

二维离散型随机变量的函数的分布：

如果 $X$ 与 $Y$ 相互独立，则有

$X \sim P(\lambda_1), Y \sim P(\lambda_2) \Rightarrow X + Y \sim P(\lambda_1 + \lambda_2)\\ X \sim B(m, p), Y \sim B(n, p) \Rightarrow X + Y \sim B(m + n, p)$

二维连续型随机变量的函数的分布：

已知 $(X, Y)$ 概率密度，求 $Z = g(X, Y)$ 的概率密度。

1. 一般情形：

先求随机变量 $Z$ 的分布函数

$\begin{aligned} F_Z(z) &= P\{ Z \leq z \} = P\{ g(X, Y) \leq z \} \\ &= \iint\limits_{g(x, y) \leq z} f(x, y) \mathrm{d}x\mathrm{d}y \end{aligned}$

对 $F_Z(z)$ 求导，得 $Z$ 的概率密度函数为

$f_Z(z) = F_Z'(z)$

2. $Z = X + Y$ 的概率密度：

$f_Z(z) = \int_{-\infty}^{+\infty} f(z - y, y) \mathrm{d}y$

或

$f_Z(z) = \int_{-\infty}^{+\infty} f(x, z - x) \mathrm{d}x$

若 $X, Y$ 相互独立，则 $Z = X + Y$ 的密度函数为

$f_Z(z) = \int_{-\infty}^{+\infty} f_X(z - y) f_Y(y) \mathrm{d}y$

或

$f_Z(z) = \int_{-\infty}^{+\infty} f_X(x) f_Y(z - x) \mathrm{d}y$

上式称为卷积公式。

3. $X$ 与 $Y$ 相互独立， $M = \max{X, Y}$ 的分布函数：

$\begin{aligned} F_{\max}(z) &= P\{ M \leq z \} = P\{ X \leq z, Y \leq z \} \\ &= P\{ X \leq z \} P\{ Y \leq z \} \\ &= F_X(z) F_Y(z) \end{aligned}$

4. $X$ 与 $Y$ 相互独立， $N = \min{X, Y}$ 的分布函数：

$\begin{aligned} F_{\min}(z) &= P\{ N \leq z \} = 1 - P\{ N > z \} \\ &= 1 - P\{ X > z, Y > z \} \\ &= 1 - P\{ X > z \} P\{ Y > z \} \\ &= 1 - [1 - P\{ X \leq z \}] [1 - P\{ Y \leq z \}] \\ &= 1 - [1 - F_X(z)] [1 - F_Y(z)] \end{aligned}$

推广： 设 $n$ 个随机变量 $X_1, X_2, \cdots, X_n$ 相互独立，分布函数分别为 $F_{X_1}(x_1), F_{X_2}(x_2), \cdots, F_{X_n}(x_n)$ ，则 $M = \max\{ X_1, X_2, \cdots, X_n \}$ 的分布函数为

$F_{\max}(z) = F_{X_1}(z) F_{X_2}(z) \cdots F_{X_n}(z)$

$N = \min\{ X_1, X_2, \cdots, X_n \}$ 的分布函数为

$F_{\min}(z) = 1 - [1 - F_{X_1}(z)] [1 - F_{X_2}(z)] \cdots [1 - F_{X_n}(z)]$

随机变量的数字特征

数学期望

数学期望是一个常数，它是一种加权平均，表示随机变量所有取值的平均值，具有重要的统计意义。

定义： 设离散型随机变量 $X$ 的概率分布为 $P\{ X = x_k \} = p_k, k = 1, 2, \cdots$ ，如果无穷级数 $\sum_{k = 1}^\infty x_k p_k$ 绝对收敛，则称无穷级数 $\sum_{k = 1}^\infty x_k p_k$ 的和为离散型随机变量 $X$ 的数学期望或均值，记作 $E(X)$ 或 $EX$ ，即

$E(X) = \sum_{k = 1}^\infty x_k p_k.$

设连续型随机变量 $X$ 的概率密度为 $f(x)$ ，如果反常积分 $\int_{-\infty}^{+\infty} xf(x) \mathrm{d}x$ 绝对收敛，则称 $\int_{-\infty}^{+\infty} xf(x) \mathrm{d}x$ 的值为连续型变量 $X$ 的数学期望或均值，即

$E(X) = \int_{-\infty}^{+\infty} xf(x) \mathrm{d}x.$

随机变量的函数的数学期望：

定理 1： 设随机变量 $Y$ 是随机变量 $X$ 的函数： $Y = g(X)$ ，其中 $g$ 是一元连续函数。

若 $X$ 是离散型随机变量，其概率分布为 $P\{ X = x_k \} = p_k, k = 1, 2, \cdots$ ，如果无穷级数 $\sum_{k = 1}^\infty x_k p_k$ 绝对收敛，则随机变量 $Y$ 的数学期望为

$E(Y) = E[g(X)] = \sum_{k = 1}^\infty g(x_k) p_k$

若 $X$ 是连续型随机变量，其概率分布为 $f(x)$ ，如果反常积分 $\int_{-\infty}^{+\infty} g(x)f(x) \mathrm{d}x$ 绝对收敛，则随机变量 $Y$ 的数学期望为

$E(Y) = E[g(X)] = \int_{-\infty}^{+\infty} g(x)f(x) \mathrm{d}x$

根据这一定理求随机变量 $Y = g(X)$ 的数学期望时，只需直到 $X$ 的分布，无需求出 $Y$ 的分布。

定理 2： 设 $Z$ 是随机变量 $X$ 和 $Y$ 的函数： $Z = g(X, Y)$ ，其中 $g$ 是二元连续函数。

设 $X, Y$ 的联合分布律为 $P\{ X = x_i, Y = y_j \} = p_{ij}, i, j = 1, 2, \cdots$ ，如果 $\sum_{i = 1}^\infty\sum_{j = 1}^\infty g(x_i, y_j) p_{ij}$ 绝对收敛，则

$E(Z) = E[g(X, Y)] = \sum_{j = 1}^\infty \sum_{i = 1}^\infty g(x_i, y_j) p_{ij}$

设 $X, Y$ 的联合概率密度为 $f(x, y)$ ，如果广义积分 $\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} g(x, y)f(x, y) \mathrm{d}x\mathrm{d}y$ 绝对收敛，则

$E(Z) = E[g(X, Y)] = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} g(x, y)f(x, y) \mathrm{d}x\mathrm{d}y$

数学期望的性质：

性质 1： 设 $c$ 为常数， $E(c) = c$ .

性质 2： 设 $c$ 为常数， $E(cX) = cE(X)$ .

性质 3： $E(X \pm Y) = E(X) \pm E(Y)$ .

性质 4： 若 $X, Y$ 相互独立，则 $E(XY) = E(X) E(Y)$ .

性质 5（柯西-施瓦茨不等式）： 设随机变量 $X, Y$ ，若 $E(X^2)$ 和 $E(Y^2)$ 都存在，则

$[E(XY)]^2 \leq E(X^2) E(Y^2).$

方差

在许多问题中，除了要直到随机变量的均值外，还要研究随机变量与其均值之间的偏离程度，因此引入了方差的概念。

定义： 设 $X$ 是一个随机变量，如果 $E\{ [X - E(X)]^2 \}$ 存在，则称之为随机变量 $X$ 的方差，记作 $D(X)$ 或 $DX$ ，即

$D(X) = E\{ [X - E(X)]^2 \}.$

称 $\sqrt{D(X)}$ 为随机变量 $X$ 的标准差或均方差，记作 $\sigma(X)$ ，即

$\sigma(X) = \sqrt{D(X)}.$

随机变量 $X$ 的方差反映了 $X$ 与其数学期望 $E(X)$ 的偏离程度。如果 $X$ 取值集中在 $E(X)$ 附近，则 $D(X)$ 较小；如果 $X$ 取值比较分散，则 $D(X)$ 较大。

离散型随机变量：

$D(X) = \sum_{k = 1}^\infty [x_k - E(X)]^2 p_k$

连续型随机变量：

$D(X) = \int_{-\infty}^{+\infty} [x - E(X)]^2 f(x) \mathrm{d}x$

方差的性质：

性质 1： 设 $c$ 为常数，则 $D(c) = 0$ .

性质 2： $D(cX) = c^2 D(X)$

性质 3： $D(X + c) = D(X)$

性质 4： 若 $X$ 与 $Y$ 相互独立，则 $D(X \pm Y) = D(X) + D(Y)$ .

性质 5： 随机变量 $X$ 的方差 $D(X) = 0$ 的充分必要条件是 $X$ 以概率 1 取常数 $C = E(X)$ ，即 $P\{ X = C \} = 1$ .

常见分布的数学期望与方差：

分布	数学期望	方差
(0-1)分布	$p$	$p(1 - p)$
二项分布 $B(n, p)$	$np$	$np(1 - p)$
泊松分布 $P(\lambda)$	$\lambda$	$\lambda$
几何分布	$1 / p$	$(1 - p) / p^2$
均匀分布 $U(a, b)$	$(a + b) / 2$	$(b - a)^2 / 12$
正态分布 $N(\mu, \sigma^2)$	$\mu$	$\sigma^2$
指数分布 $E(\lambda)$	$1 / \lambda$	$1 / \lambda^2$

随机变量的标准化： 设随机变量 $X$ 具有数学期望 $E(X) = \mu$ 及方差 $D(X) = \sigma^2 > 0$ ，则称

$X^* = \frac{X - \mu}{\sigma}$

为 $X$ 的标准化随机变量。

显然， $E(X^*) = 0$ ， $D(X^*) = 1$ .

若 $X \sim N(\mu, \sigma^2) \ (\sigma > 0)$ ，则

$X^* = \frac{X - \mu}{\sigma} \sim N(0, 1).$

协方差与相关系数

定义： 设随机变量 $X$ 和 $Y$ 的数学期望 $E(X)$ 和 $E(Y)$ 都存在，称 $E\{ [X - E(X)][Y - E(Y)] \}$ 为 $X$ 与 $Y$ 的协方差，记作

$Cov(X, Y) = E\{ [X - E(X)][Y - E(Y)] \}$

将上式展开，易得

$Cov(X, Y) = E(XY) - E(X)E(Y)$

这是常用的协方差计算公式。

$Cov(X, X) = D(X)$

协方差的性质：

性质 1： $Cov(X, Y) = Cov(Y, X)$

性质 2： $Cov(aX, bY) = abCov(X, Y)$

性质 3： $Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z)$

性质 4： $D(X \pm Y) = D(X) + D(Y) \pm 2Cov(X, Y)$

定义： 设随机变量 $X$ 和 $Y$ 的方差都存在且不等于零，协方差 $Cov(X, Y)$ 存在，称

$\rho_{XY} = \dfrac{Cov(X, Y)}{\sqrt{D(X)} \sqrt{D(Y)}}$

为 $X, Y$ 的相关系数。当 $\rho_{XY} = 0$ 时，称 $X$ 与 $Y$ 不相关。

相关系数的常用计算公式为

$\rho_{XY} = \dfrac{E(XY) - E(X)E(Y)}{\sqrt{D(X)} \sqrt{D(Y)}}.$

相关系数的性质：

性质 1： $|\rho_{XY}| \leq 1$

性质 2： 如果 $X$ 和 $Y$ 相互独立，则 $|\rho_{XY}| = 0$ .

性质 3： $|\rho_{XY}| = 1$ 的充分必要条件是：存在常数 $a, b$ ，使得

$P\{ Y = a + bX \} = 1.$

相关系数的含义： 相关系数表示了随机变量 $X$ 和 $Y$ 的线性相关的程度：

当 $|\rho_{XY}| = 1$ 时， $X, Y$ 几乎就是线性关系；
当 $|\rho_{XY}|$ 较大时， $X, Y$ 的线性关系较为密切；
当 $|\rho_{XY}|$ 较小时， $X, Y$ 的线性关系较弱；
当 $\rho_{XY} = 0$ 时， $X, Y$ 之间没有线性关系（不相关）。

若 $\rho_{XY} > 0$ ，则 $X, Y$ 正相关；若 $\rho_{XY} < 0$ ，则 $X, Y$ 负相关。

对于随机变量 $X, Y$ ，以下命题等价：

$Cov(X, Y) = 0$ ；
$X$ 与 $Y$ 不相关；
$E(XY) = E(X) E(Y)$ ；
$D(X + Y) = D(X) + D(Y)$ .

这里假设上述命题中出现的数字特征都是存在的。

二维正态分布的结论： 如果 $(X, Y) \sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)$ ，则

$\rho = \rho_{XY}$ ；

即二维正态随机变量 $(X, Y)$ 的分布完全由 $X$ 与 $Y$ 的数学期望，方差以及 $X$ 与 $Y$ 的相关系数所确定。

$X$ 与 $Y$ 相互独立 $\iff$ $X$ 与 $Y$ 不相关；
$Cov(X, Y) = \rho \sigma_1 \sigma_2$ .

矩

定义： 对于随机变量 $X, Y$ ，

称 $E(X^k) = \mu_k \ (k = 1, 2, \cdots)$ 为 $X$ 的 $k$ 阶原点矩；
称 $E\{ [X - E(X)]^k \}$ 为 $X$ 的 $k$ 阶中心矩；
称 $E(X^k Y^l) \ (k, l = 1, 2, \cdots)$ 为 $X$ 和 $Y$ 的 $k + l$ 阶混合原点矩；
称 $E\{ [X - E(X)]^k [Y - E(Y)]^l \}$ 为 $X$ 和 $Y$ 的 $k + l$ 阶混合中心矩。

显然，随机变量 $X$ 的数学期望 $E(X)$ 是 $X$ 的一阶原点矩，方差 $D(X)$ 是 $X$ 的二阶中心矩，随机变量 $X$ 和 $Y$ 的协方差 $Cov(X, Y)$ 是 $X$ 和 $Y$ 的二阶混合中心矩。

协方差矩阵：

对于二维随机变量 $(X_1, X_2)$ ，记

$\begin{aligned} c_{11} &= E\{ (X_1 - EX_1)^2 \} = D(X_1) \\ c_{12} &= E\{ (X_1 - EX_1)(X_2 - EX_2) \} = Cov(X_1, X_2) \\ c_{21} &= E\{ (X_2 - EX_2)(X_1 - EX_1) \} = Cov(X_2, X_1) \\ c_{22} &= E\{ (X_2 - EX_2)^2 \} = Cov(X_2, X_1) \\ \end{aligned}$

如果它们都存在，写成矩阵的形式

$\bm{C} = \begin{bmatrix} c_{11} & c_{12} \\ c_{21} & c_{22} \end{bmatrix}$

称此矩阵为二维随机变量 $(X_1, X_2)$ 的协方差矩阵。

设 $n$ 维随机变量 $(X_1, X_2, \cdots, X_n)$ 关于 $X_1, X_2, \cdots, X_n$ 的二阶中心矩和二阶混合中心矩

$c_{ij} = E\{ [X_i - E(X_i)][X_j - E(X_j)] \}, \quad i, j = 1, 2, \cdots, n$

都存在，则称矩阵

$\bm{C} = \begin{bmatrix} c_{11} & c_{12} & \cdots & c_{1n} \\ c_{21} & c_{22} & \cdots & c_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ c_{n1} & c_{n2} & \cdots & c_{nn} \\ \end{bmatrix}$

为 $n$ 维随机变量 $(X_1, X_2, \cdots, X_n)$ 的协方差矩阵。由于 $c_{ij} = c_{ji} \ (i \neq j, i, j = 1, 2, \cdots, n)$ ，所以 $\bm{C}$ 是对称矩阵。

二维正态分布的矩阵表达式： 设 $(X, Y) \sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)$ ，密度函数也表示为

$f(x, y) = \frac{1}{(2\pi)^{2 / 2}|\bm{C}|^{1/2}}\exp\left\{-\frac{1}{2} (X - \mu)^T \bm{C}^{-1}(X - \mu)\right\}$

其中 $\bm{C} = \begin{bmatrix} \sigma_1^2 & \rho \sigma_1 \sigma_2 \\ \rho \sigma_1 \sigma_2 & \sigma_2^2 \end{bmatrix}$ 为协方差矩阵，行列式为

$|\bm{C}| = \sigma_1^2 \sigma_2^2 (1 - \rho^2)$

并且

$\bm{C}^{-1} = \frac{1}{|\bm{C}|}\begin{bmatrix} \sigma_2^2 & -\rho \sigma_1 \sigma_2 \\ -\rho \sigma_1 \sigma_2 & \sigma_1^2 \end{bmatrix}, X = \begin{bmatrix} x \\ y \end{bmatrix}, \mu = \begin{bmatrix} \mu_1 \\ \mu_2 \end{bmatrix}$

n 维正态随机变量的性质：

$n$ 维随机变量 $(X_1, X_2, \cdots, X_n)$ 服从 $n$ 维正态分布的充分必要条件是： $X_1, X_2, \cdots, X_n$ 的任意线性组合

$k_1 X_1 + k_2 X_2 +\cdots + k_n X_n$

都服从一维正态分布，其中 $k_1, k_2, \cdots, k_n$ 是不全为零的常数。

设 $(X_1, X_2, \cdots, X_n)$ 服从 $n$ 维正态分布，如果 $Y_1, Y_2, \cdots, Y_m$ 是 $X_i \ (i = 1, 2, \cdots, n)$ 的线性函数，则 $Y_1, Y_2, \cdots, Y_m$ 也服从多维正态分布。
如果 $(X_1, X_2, \cdots, X_n)$ 服从 $n$ 维正态分布，则 “随机变量 $X_1, X_2, \cdots, X_n$ 相互独立” 与 “ $X_1, X_2, \cdots, X_n$ 两两不相关” 等价。

大数定律与中心极限定理

切比雪夫不等式

定理： 设随机变量 $X$ 具有数学期望 $E(X) = \mu$ 和方差 $D(X) = \sigma^2$ ，则对于任意给定的整数 $\varepsilon$ ，有

$P\{ |X - E(X)| \geq \varepsilon \} \leq \frac{D(X)}{\varepsilon^2}$

这一不等式称为切比雪夫（Chebyshev）不等式，它的等价形式是

$P\{ |X - E(X)| < \varepsilon \} \geq 1 - \frac{D(X)}{\varepsilon^2}$

大数定律

定义： 设 $X_1, X_2, \cdots, X_n, \cdots$ 是一个随机变量序列， $a$ 是一个常数。如果对于任意给定的正数 $\varepsilon$ ，有

$\lim_{n \to \infty} P\{ |X_n - a| < \varepsilon \} = 1$

则称随机变量序列 $X_1, X_2, \cdots, X_n, \cdots$ 依概率收敛于 $a$ ，记作 $X_n \stackrel{P}{\to} a$ .

性质： 设 $X_n \stackrel{P}\to a, Y_n \stackrel{P}\to b$ ，函数 $g(x, y)$ 在点 $(a, b)$ 连续，则 $g(X_n, Y_n) \stackrel{P}\to g(a, b)$ .

切比雪夫大数定律： 设 $X_1, X_2, \cdots, X_n, \cdots$ 是相互独立的随机变量序列，具有数学期望 $E(X_k)$ 及方差 $D(X_k)$ ，且方差一致有上界，即存在正数 $M$ 使得 $D(X_k) \leq M$ . 则对任意给定的正数 $\varepsilon$ ，恒有

$\lim_{n \to \infty} P\left\{ \left| \frac{1}{n} \sum_{k = 1}^n X_k - \frac{1}{n} \sum_{k = 1}^n E(X_k) \right| < \varepsilon \right\} = 1$

当 $n$ 充分大时， $\dfrac{1}{n} \sum_{i = 1}^n X_i$ 差不多不再是随机的了，取值接近于其数学期望的概率接近于 1.

伯努利大数定理： 设 $n_A$ 是 $n$ 次独立重复试验中事件 $A$ 发生的次数， $p$ 是事件 $A$ 在每次试验中发生的概率，则对任给的正数 $\varepsilon$ ，有

$\lim_{n \to \infty} P\left\{ \left| \frac{n_A}{n} - p \right| < \varepsilon \right\} = 1$

等价形式：

$\lim_{n \to \infty} P\left\{ \left| \frac{n_A}{n} - p \right| \geq \varepsilon \right\} = 0$

伯努利定理表明，当 $n$ 充分大时，事件 $A$ 在 $n$ 次独立重复试验中发生的频率 $\dfrac{n_A}{n}$ 依概率收敛于其发生的概率 $p$ .

辛钦（Khintchine）大数定理： 设 $X_1, X_2, \cdots, X_n, \cdots$ 是相互独立的随机变量序列，服从同一分布，具有数学期望 $E(X_k) = \mu, k = 1, 2, \cdots$ ，则对任意给定的正数 $\varepsilon$ ，有