跳转至

随机变量综述:概念到实践的全景指南

了解随机变量的定义、分布特性、统计数值以及在信息熵、频率直方图和百分位数等实际场景中的应用,帮助读者快速捕捉要点,并引导进一步阅读完整教程。

随机变量的概念

随机变量

随机变量是描述随机试验结果的函数,常用大写字母 X,Y,ZX、Y、Z 或希腊字母 ξ,η,ζ\xi、\eta、\zeta 表示。它把样本空间 Ω\Omega 中的每个基本事件映射为实数值,从而将不确定的实验转化为可量化的数值。

分布函数

分布函数 F(x)F(x) 给出随机变量 XX 小于等于某实数 xx 的概率:

F(x)=P(Xx)F(x) = P( X \le x )

它满足右连续、单调递增并在 -\infty++\infty 处分别取 0011

示性函数

示性函数 IAI_A 用于指示事件 AA 是否发生:

IA(ω)={1,ωA0,ωAI_A(\omega) = \begin{cases} 1, & \omega \in A \\ 0, & \omega \notin A \end{cases}

其期望恰好等于事件 AA 的概率,即 E[IA]=P(A)E[I_A] = P(A)

离散型随机变量

离散型随机变量的取值集合是有限或可数无限的。例如掷骰子的点数 {1,2,3,4,5,6}\{1,2,3,4,5,6\}。其概率分布可用概率分布列描述:

  • P{X=xi}=piP\{ X = x_i \} = p_i,且 ipi=1\sum_i p_i = 1

连续型随机变量

连续型随机变量的取值覆盖整个区间(或更广)。单点概率通常为 00,而应使用密度函数 f(x)f(x) 来刻画分布:

F(x)=xf(t)dt,f(x)0,f(x)dx=1F(x) = \int_{-\infty}^{x} f(t) \, dt , \qquad f(x) \ge 0 , \qquad \int_{-\infty}^{\infty} f(x) \, dx = 1

随机变量的独立性

若对任意实数 xxyy 都满足

P(Xx,Yy)=P(Xx)P(Yy)P( X \le x , Y \le y ) = P( X \le x ) \, P( Y \le y )

则称 XXYY 相互独立。独立性意味着它们的边缘分布互不影响。

随机变量的数字特征

期望

期望是随机变量的平均值。离散情形:

E[X]=ixipiE[X] = \sum_i x_i \, p_i

连续情形:

E[X]=xf(x)dxE[X] = \int_{-\infty}^{\infty} x \, f(x) \, dx

它具备线性特性 E[aX+bY+c]=aE[X]+bE[Y]+cE[aX + bY + c] = aE[X] + bE[Y] + c

方差

方差衡量离散程度:

Var(X)=E ⁣[(XE[X])2]=E[X2](E[X])2\operatorname{Var}(X) = E\!\left[(X - E[X])^{2}\right] = E[X^{2}] - (E[X])^{2}

若对变量作线性变换 aX+baX + b,则 Var(aX+b)=a2Var(X)\operatorname{Var}(aX + b) = a^{2}\operatorname{Var}(X)

协方差

协方差描述两个变量的线性相关程度:

Cov(X,Y)=E ⁣[(XE[X])(YE[Y])]\operatorname{Cov}(X, Y) = E\!\big[(X - E[X]) (Y - E[Y])\big]

它满足 Cov(X,X)=Var(X)\operatorname{Cov}(X, X) = \operatorname{Var}(X),以及 Cov(aX+bY,Z)=aCov(X,Z)+bCov(Y,Z)\operatorname{Cov}(aX + bY, Z) = a\,\operatorname{Cov}(X, Z) + b\,\operatorname{Cov}(Y, Z)

相关系数

相关系数 ρX,Y\rho_{X,Y} 将协方差标准化:

ρX,Y=Cov(X,Y)σXσY\rho_{X,Y} = \frac{\operatorname{Cov}(X, Y)}{\sigma_X \, \sigma_Y}

其中 σX=Var(X)\sigma_X = \sqrt{\operatorname{Var}(X)}。其取值范围为 1ρX,Y1-1 \le \rho_{X,Y} \le 1;若 ρX,Y=1| \rho_{X,Y} | = 1,则 XXYY 线性相关。

Markov 不等式

对非负随机变量 XX,任意正数 aa 满足

P(Xa)E[X]aP( X \ge a ) \le \frac{E[X]}{a}

该不等式仅依赖期望即可给出上界。

随机变量的应用

信息熵

信息熵衡量随机变量的不确定性:

H(X)=xP(X=x)log2P(X=x)H(X) = -\sum_{x} P(X = x) \, \log_{2} P(X = x)

XX 均匀分布于 {1,2,,n}\{1,2,\dots ,n\},则 H(X)=log2nH(X) = \log_{2} n,说明存储 nn 个等概率符号至少需要 log2n\log_{2} n 比特。

频率分布直方图

直方图以矩形面积表示频率,横轴为取值区间,纵轴为相对频率(频数除以总数)。等距分组常用于展示连续型数据的分布形态。

百分位数和四分位数

将有序数据 x1x2xnx_{1}\le x_{2}\le \dots \le x_{n} 按累计比例划分,可得到第 kk 百分位数 PkP_{k}。常见四分位数包括:

  • Q1=P25Q_{1}=P_{25}(上四分位数)
  • Q2=P50Q_{2}=P_{50}(中位数)
  • Q3=P75Q_{3}=P_{75}(下四分位数)

四分位距 Q3Q1Q_{3} - Q_{1} 描述数据的离散程度。


想进一步掌握随机变量的理论细节与实际例题,请访问原文 随机变量专题https://raineblog.dpdns.org/whk/science/probability/3/),深入阅读完整章节内容。

Bot