抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

第一章 随机事件及其概率

样本点:对于随机试验,把每一个可能的结果称为样本点

随机事件:某些样本点的集合

基本事件:单个样本点构成的集合

样本空间(或必然事件):所有样本点构成的集合,记作 Ω

不可能事件:不含任何样本点,记作 \oslash

事件关系运算

交换律:AB=BA,  AB=BAA\cup B=B \cup A, ~~A\cap B=B \cap A

结合律:A(BC)=(AB)C, A(BC)=(AB)CA\cup (B\cup C)=(A\cup B)\cup C, ~A(BC)=(AB)C

分配律:A(BC)=(AB)(AC)A(B\cup C)=(AB)\cup (AC), (AB)C=(AC)(BC)(AB)\cup C=(A\cup C)(B\cup C), A(BC)=ABACA(B-C)=AB-AC

对偶率AB=AB\overline{A\cup B}=\overline{A}\cap \overline{B}, AB=AB\overline{A\cap B}=\overline{A}\cup \overline{B}

事件的积:AB=ABA\cap B=AB

事件的和:AB直和AB互不相容A+BA\cup B\xrightarrow[直和]{AB互不相容}A+B

事件的差:AB=AΩAB=ABA-B=A\Omega-AB=A\overline{B}

概率性质

  1. 对于任意事件A,0P(A)10 \le P(A)\le 1

  2. P(Ω)=1P()=0P(Ω)=1, P(\oslash)=0

  3. 对于两两互斥的有限多个事件A1 ,A2 ,...,Am A_1~, A_2~, ..., A_m~

    P(A1 +A2 +...+Am )=P(A1 )+P(A2 )+...+P(Am )P(A_1~+A_2~+...+A_m~) = P(A_1~) + P(A_2~) + ... + P(A_m~)

推论

  1. P(A)=1P(A)P(\overline A)=1-P(A)

  2. 任意时候:P(AB)=P(A)P(AB)P(A-B)=P(A)-P(AB)

    ABA\supset B , 则 P(AB)=P(A)P(B)P(A-B)=P(A)-P(B)

  3. P(AB)=P(A)+P(B)P(AB)P(A\cup B)=P(A)+P(B)-P(AB)

    因此,P(AB)=P(A)+P(B)P(AB)P(AB)=P(A)+P(B)-P(A\cup B)

条件概率 全概率公式 Bayes公式

条件概率

P(AB)=P(AB)P(B)P(A|B)=\frac{P(AB)}{P(B)}

乘法定理 P(AB)=P(B)P(AB)=P(A)P(BA)P(AB)=P(B)P(A|B)=P(A)P(B|A)

全概率公式

P(B)=i=1nP(AiB)=i=1nP(Ai)P(BAi)P(B)=\sum_{i=1}^{n}P(A_i B)=\sum_{i=1}^{n}P(A_i)P(B|A_i)

Bayes公式

P(AiB)=P(AiB)P(B)=P(Ai)P(BAi)i=1nP(Ai)P(BAi)P(A_i|B)=\frac{P(A_iB)}{P(B)}=\frac{P(A_i)P(B|Ai)}{\sum_{i=1}^{n}P(A_i)P(B|A_i)}

事件的独立性

定义:若 P(AB)=P(A)P(B)P(AB)=P(A)P(B), 则A与B是相互独立的

性质:

  1. 必然事件 Ω, 不可能事件 \oslash 与任何事件独立
  2. ABA与B独立,则 AAB\overline B , AB\overline{A}与BAB\overline{A}与\overline{B}也独立

第二章 随机变量及其分布

随机变量定义

随机变量:

(Ω,F,P)(\Omega,\mathcal{F},P)是一个概率空间ξ(ω)\xi(\omega) 是定义在 Ω\Omega 内的一个单值函数,如果对任意实数x,有{ω:ξ(ω)x}F\{\omega:\xi(\omega)\le x\}\in \mathcal{F} , 则称 ξ(ω)\xi(\omega)随机变量,记作 ξ\xi.

可以看到,ξ(ω)\xi(\omega)是一个函数,ω为自变量,定义域为 Ω 。

分布函数:

​ 称F(x)=P{ξ(ω)x},<x<+F(x)=P{\{\xi(\omega)\le x\}}, -\infty<x<+\infty 为随机变量 ξ(ω)\xi(\omega) 的分布函数

分布函数性质:

  1. 0F(x)10\le F(x) \le 1
  2. F(x)F(x)单调不减
  3. F()=limxF(x)=0F(-\infty)=\lim_{x \to -\infty} F(x)=0,F(+)=limx+F(x)=1F(+\infty)=\lim_{x\to +\infty} F(x)=1
  4. F(x)F(x)是右连续的

几个公式:

P{a<ξ(ω)b}=F(b)F(a)P\{a<\xi(\omega)\le b\}=F(b)-F(a)

P{ξ(ω)<b}=F(b)P\{\xi(\omega)< b\}=F(b^-)

P{ξ(ω)=b}=F(b)F(b)P\{\xi(\omega)= b\}=F(b)-F(b^-)

P{aξ(ω)<b}=F(b)F(a)P\{a\le\xi(\omega)< b\}=F(b^-)-F(a^-)

对于连续型随机变量:F(b)=F(b)F(b) = F(b^-)

离散型随机变量

分布函数:F(x)=xkxP{X=xk}F(x)=\sum_{x_k\le x} P\{X=x_k\}

分布律:P{X=xi}=pi,   (i=1,2,3,...,n,...)P\{X=x_i\}=p_i,~~~(i=1,2,3,...,n,...)

XX x1x_1 x2x_2 x3x_3
pip_i p1p_1 p2p_2 p3p_3

常用离散分布

  1. 退化分布 P{X=c}=1P\{X=c\}=1

  2. 两点分布 P{X=k}=pk(1p)1k   (k=0,1)P\{X=k\}=p^{k}(1-p)^{1-k}~~~(k=0,1)

  3. 均匀分布 P{X=xk}=1n      (k=1,2,3,...,n)P\{X=x_k\}= \frac{1}{n}~~~~~~(k=1,2,3,...,n)

  4. 二项分布

    XB(n,p)X\sim B(n, p), 则 P{X=k}=Cnkpk(1p)nkP\{X=k\}=C_n^k p^k(1-p)^{n-k}

  5. 泊松分布

    XP(λ)X\sim P(λ), 则 P{X=k}=λkk!eλP\{X=k\}=\frac{\lambda ^k}{k!}e^{-\lambda}

    【泊松定理】:当n很大,pnp_n很小时且λ>0λ>0时,可以用泊松分布近似为 二项分布,其中 λ=limn npn\lambda =lim_{n \to \infty} ~np_n

连续型随机变量

分布函数与概率密度关系

F(x)=xp(x)dxF(x)=\int_{-\infty}^{x}p(x)dx, 其中 p(x)p(x)为概率密度函数

常用连续分布

  1. 均匀分布 p(x)={1baaxb0其它p(x)=\begin{cases}\frac{1}{b-a} & a\le x\le b \\0& 其它 \end{cases}

  2. 正态分布

    p(x)=12πσe(xμ)22σ2,<x<+p(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}, -\infty<x<+\infty

    正态分布标准化:Y=XμσY=\frac{X-\mu}{\sigma}

  3. 指数分布 p(x)={λeλxx00其它p(x)=\begin{cases}\lambda e^{-\lambda x} & x\ge0 \\0& 其它 \end{cases},服从指数分布记作 XExp(λ)X\sim Exp(λ)

    特点:具有无记忆性

正态分布积分常用的公式:

+et22dt=2π\int_{-\infty}^{+\infty} e^{-\frac{t^2}{2}} dt=\sqrt{2\pi}

多维随机变量及其分布

由n个随机变量 X1,X2 ,...,Xn X_1, X_2~, ..., X_n~ 构成的向量 X=(X1 ,X2 ,...,Xn )X=(X_1~, X_2~, ..., X_n~)称为nn维随机变量

分布函数:

F(x1,x2,...,xn)=P{X1x1;X2x2;...;Xnxn}F(x_1, x_2,...,x_n)=P\{X_1\le x_1;X_2\le x_2;...;X_n\le x_n\}

二维随机变量

对于n=2时,有下面性质

  1. 0F(x,y)10\le F(x,y)\le 1

  2. F(x,y)F(x,y)关于x和关于y分别是单调非降函数

  3. 记住下面公式

    limxF(x,y)=F(,y)=0limyF(x,y)=F(x,)=0F(+,+)=1\lim_{x \to -\infty}F(x,y)=F(-\infty,y)=0\\ \lim_{y \to \infty} F(x,y)=F(x, -\infty)=0\\ F(+\infty,+\infty)=1

  4. F(x,y)F(x,y)关于每个变元是右连续的

二维离散型随机变量(X,Y)的分布律:

P{X=xi;Y=yi}=pij      (i,j=1,2,3,...,n)P\{X=x_i;Y=y_i\}=p_{ij}~~~~~~(i,j=1,2,3,...,n)

二维连续型随机变量(X, Y)的二元分布函数F(x,y)如下:

F(x,y)=xyp(x,y)dxdyF(x,y)=\int_{-\infty}^x\int_{-\infty}^yp(x,y)dxdy

其中p(x,y)p(x,y)为联合密度函数

p(x,y)p(x,y)性质:

  1. 非负性:p(x,y)0p(x,y)\ge0

  2. ++p(x,y)dxdy=1\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}p(x,y)dxdy=1

  3. p(x,y)p(x,y)(x,y)(x,y)处连续:

    2Fxy=p(x,y)\frac{\partial ^2F}{\partial x \partial y}=p(x,y)

  4. 若D为xOyxOy平面的任一区域,则

    P{(X,Y)D}=Dp(u,v)dudvP\{(X,Y)\in D\}=\iint\limits_{D} p(u,v)dudv

边缘分布

分布函数

FX(x)=P{Xx}=P{Xx;Y<+}=F(x,+)F_X(x)=P\{X\le x\}=P\{X\le x;Y<+\infty\}=F(x,+\infty)

FY(y)=P{Yy}=P{X<+; Yy}=F(+,y)F_Y(y)=P\{Y\le y\}=P\{X<+\infty;~Y\le y\}=F(+\infty,y)

分布律

若为离散型,则

pi=jpijpj=ipijp_{i\cdot } = \sum_{j}p_{ij} \\ p_{\cdot j} = \sum_{i} p_{ij}

若为连续型,则

pX(x)=+p(x,y)dypY(y)=+p(x,y)dxp_X(x)=\int_{-\infty}^{+\infty}p(x,y)dy\\ p_Y(y)=\int_{-\infty}^{+\infty}p(x,y)dx

随机变量独立性

连续型:p(x,y)=pX(x)pY(y)X,Y独立p(x,y)=p_X(x)p_Y(y)\Longleftrightarrow X,Y独立

离散型:pij=pi×pjX,Y独立p_{ij}=p_{i\cdot}\times p_{\cdot j}\Longleftrightarrow X,Y独立

条件分布

离散型:

P{X=xiY=yj}=pijpjP{Y=yjX=xi}=pijpiP\{X=x_i| Y=y_j\}=\frac{p_{ij}}{p_{\cdot j}}\\P\{Y=y_j|X=x_i\}=\frac{p_{ij}}{p_{i\cdot}}

连续型:

p(xy)=p(x,y)pY(y)p(x|y)=\frac{p(x,y)}{p_Y(y)}

随机变量的函数及其分布

问题: 若Y=f(X)Y=f(X),如何根据X的分布推导Y的分布?

单个随机变量

Y=f(X)Y=f(X), 已知映射关系ff (如Y=X2)Y=X^2) 以及 随机变量 X 的分布律,求Y的分布?

解:先求 FY(y)=P{Yy}F_Y(y)=P\{Y\le y\} 再求导得 pY(y)=dFY(y)dyp_Y(y)=\frac{dF_Y(y)}{dy}

两个随机变量

Z=f(X,Y)Z=f(X,Y) ,则 P{Z=zk}=f(xi,yi)=zkP{X=xi;Y=yi}P\{Z=z_k\}=\sum_{f(x_i,y_i)=z_k}P\{X=x_i;Y=y_i\}

一般法:

  1. 先求FZ(z)=P{Zz}=P{f(X,Y)z}=f(x,y)zp(x,y)dxdyF_Z(z)=P\{Z\le z\}=P\{f(X,Y)\le z\}=\iint\limits_{f(x,y)\le z}p(x,y)dxdy
  2. FZ(z)F_Z(z)求导得 fZ(z)=dFZdzf_Z(z)=\frac{dF_Z}{dz}

特殊法:

​ 对于 Z=X+Y,Z=XY,Z=X/YZ=X+Y, Z=XY, Z=X/Y几种情况,其概率密度函数可以用下面方式计算:

​ 写出 Z=g(X,Y)Z=g(X, Y)的形式(如Z=X+YZ=X+Y), 则解出Y=h(X,Z)Y=h(X, Z) (如Y=ZXY=Z-X),于是fz(z)=+f[x,h(x,z)]×hzdxf_z(z)=\int_{-\infty}^{+\infty}f[x,h(x,z)]\times|\frac{\partial h}{\partial z}|dx

第三章 随机变量数字特征

数学期望

离散随机变量: E(X)=n=1xnpnE(X)=\sum_{n=1}^{\infty}x_np_n

连续随机变量: E(X)=+xp(x)dxE(X)=\int_{-\infty}^{+\infty}xp(x)dx

注意:有时为了方便,E(X)E(X)也写作EXEX

随机变量函数Y=f(X)的数学期望E(Y):

  • 离散:E(Y)=E[f(X)]=i=1f(xi)piE(Y)=E[f(X)]=\sum_{i=1}^{\infty}f(x_i)p_i

  • 连续:E(Y)=E[f(X)]=+f(x)p(x)dxE(Y)=E[f(X)]=\int_{-\infty}^{+\infty}f(x)p(x)dx

二维随机变量Z=f(X,Y)Z=f(X,Y),若E(Z)E(Z)存在,求E(Z)E(Z)

  • 离散:E(Z)=i=1j=1f(xi,yj)pijE(Z)=\sum_{i=1}^{\infty}\sum_{j=1}^{\infty}f(x_i,y_j)p_{ij}

  • 连续:E(Z)=++f(x,y)p(x,y)dxdyE(Z)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}f(x,y)p(x,y)dxdy

数学期望性质

  1. E(C)=CE(C)=C, (CC为常数)
  2. E(kX)=kE(X),E(X+Y)=E(X)+E(Y)E(kX)=kE(X), E(X+Y)=E(X)+E(Y) (不需要X、Y独立)
  3. XY独立,E(XY)=E(X)E(Y)若X、Y独立,E(XY)=E(X)E(Y) (注意,不能用该方法证明X、Y是独立的)

方差和矩

方差定义:D(X)=E[XE(X)]2D(X)=E[X-E(X)]^2,标准差 σX=D(X)\sigma_X=\sqrt{D(X)}

计算公式

方法一(定义法)

  • 离散场合:D(X)=E[XE(X)]2=i=1(xiE(X))2pi{\color{black} D(X)=E[X-E(X)]^2=\sum_{i=1}^{\infty}(x_i-E(X))^2p_i}
  • 连续场合:D(X)=E[XE(X)]2=+(xE(X))2p(x)dx{\color{black}D(X)=E[X-E(X)]^2=\int_{-\infty}^{+\infty}(x-E(X))^2p(x)dx}

方法二

D(X)=E(X2)[E(X)]2D(X)=E(X^2)-[E(X)]^2

方差性质

  1. D(C)=0D(C)=0, CC为常数
  2. D(kX)=k2D(X)D(kX)=k^2D(X)
  3. 若X,Y独立,D(X±Y)=D(X)+D(Y)D(X±Y) = D(X) + D(Y)

常用分布的期望和方差

分布 期望E(X) 方差D(X)
二项分布(离散) npnp np(1p)np(1-p)
泊松分布(离散) λλ λλ
几何分布(离散) 1/p1/p (1p)/p2(1-p)/p^2
指数分布(连续) 1/λ1/λ 1/λ21/λ^2
均匀分布(连续) (a+b)/2(a+b)/2 (ab)2/12(a-b)^2/12
正态分布(连续) μ\mu σ2\sigma^2

对于[正态分布],有 E(X2)=μ2+σ2E(X^2)=\mu^2+\sigma^2

其它分布 E(X2)=D(X)+[E(X)]2E(X^2)=D(X)+[E(X)]^2

原点矩:k阶原点矩 αk=E(Xk)\alpha_k=E(X^k), k=1k=1时即为数学期望E(X)

中心距:k阶中心距 μk=E[XE(X)]k\mu_k=E[X-E(X)]^k , k=2k=2时即为方差D(X)

协方差与相关系数

协方差

随机变量X与Y的协方差记为 cov(X,Y)cov(X,Y),即

cov(X,Y)=E[(XEX)(YEY)]cov(X,Y)=E[(X-EX)(Y-EY)]

协方差性质:

  1. cov(X,Y)=cov(Y,X)cov(X,Y)=cov(Y,X)
  2. cov(X,Y)=E(XY)E(X)E(Y)cov(X,Y)=E(XY)-E(X)E(Y)
  3. cov(aX,bY)=ab×cov(X,Y)cov(aX, bY)=ab\times cov(X,Y)
  4. cov(X1+X2,Y)=cov(X1,Y)+cov(X2,Y)cov(X_1+X_2,Y)=cov(X_1,Y)+cov(X_2,Y)
  5. XYX,Y独立,则 cov(X,Y)=0cov(X,Y)=0
  6. D(X±Y)=D(X)+D(Y)±2cov(X,Y)D(X\pm Y)=D(X)+D(Y)\pm 2cov(X,Y)

相关系数

ρXY=cov(X,Y)σXσY\rho_{XY}=\frac{cov(X,Y)}{\sigma_X\sigma_Y}

其中σX,σY\sigma_X,\sigma_Y 分别为 X,Y的标准差;当 ρXY=0\rho_{XY}=0时,则称 X,Y 不相关

性质:

  1. 对于任意随机变量X和Y,均有 ρXY1|\rho_{XY}|\le1
  2. ρXY=1P{Y=aX+b}=1\rho_{XY}=1\Longleftrightarrow P\{Y=aX+b\}=1,其中a和b均为常数且a0a\ne0
  3. X和Y相互独立\rightarrow X和Y不相关 (反之不成立,除非X、Y均服从正态分布)

第四章 极限定理

大数定律

大数定律:设{Xn}\{X_n\}是一个随机变量序列,{an}\{a_n\}是一个常数序列,若对任意实数ε>0, 都有

limn+P{1ni=1nXian<ε}=1  即1ni=1nXianP0\lim_{n\to+\infty}P\{\mid\frac{1}{n}\sum_{i=1}^{n}X_i - a_n\mid<\varepsilon \}=1~~即 \frac{1}{n}\sum_{i=1}^{n}X_i-a_n\overset{P}{\rightarrow}0

则称{Xn}\{X_n\}服从大数定律。


切比雪夫大数定律:

limnP{1ni=1nXi1ni=1nE(Xi)<ε}=1即     1ni=1n(XiE(Xi))P0\lim_{n \to \infty} P\{|\frac{1}{n}\sum _{i=1}^{n}X_i-\frac{1}{n}\sum_{i=1}^{n}E(X_i)|<\varepsilon \}=1\\ 即~~~~~ \frac{1}{n}\sum _{i=1}^{n} (X_i-E(X_i))\overset{P}{\rightarrow}0

切比雪夫不等式:

P{XE(X)ε}D(X)ε2P\{|X-E(X)|\ge \varepsilon \}\le\frac{D(X)}{\varepsilon ^2}


伯努利大数定律:设nAn_A为n重伯努律试验中A出现的次数,p为每次试验中A出现的概率,则对任意实数ε>0ε>0,都有

limnP{nAnp<ε}=1\lim_{n \to \infty} P\{|\frac{n_A}{n}-p |<\varepsilon \}=1

可以理解为,当试验次数n足够大时,A事件发生的频率 nAn\frac{n_A}{n} 近似等于A事件发生的概率


辛钦大数定律:设随机变量序列{Xn}\{X_n\}独立同分布,且E(Xi)=μE(X_i)=μ,则对任意实数ε>0ε>0,都有

limnP{1ni=1nXiμ<ε}=1\lim_{n \to \infty} P\{|\frac{1}{n}\sum_{i=1}^{n}X_i-\mu |<\varepsilon \}=1


中心极限定理

林德贝格-列维中心极限定理(独立同分布中心极限定理):

​ 设随机变量序列{Xn}\{X_n\}独立同分布,且存在数学期望E(Xi)=μE(X_i)=\mu和方差D(Xi)=σ2>0D(X_i)=\sigma^2>0,则对于任意xx,有

limnP{i=1nXinμnσx}=Φ(x)\lim_{n \to \infty} P\{\frac{\sum_{i=1}^{n} X_i-n\mu}{\sqrt{n}\sigma } \le x \}=\Phi(x)

  • 其中 Φ(x)=+12πex22dx\Phi (x)=\int_{-\infty }^{+\infty } \frac{1}{\sqrt{2\pi} }e^{\frac{x^2}{2}}dx 为标准正态分布函数

  • 注意观察,可以发现 nμn\mu就是 i=1nXi\sum_{i=1}^{n}X_i的数学期望,分母 nσ\sqrt{n}\sigma就是i=1nXi\sum_{i=1}^{n}X_i的标准差(可以与下一个定理进行比较,方便记住公式)

该定理表明,独立同分布序列,只要方差存在且不为0,当n足够大,就有

i=1nXinμnσAN(0,1)\frac{\sum_{i=1}^{n} X_i-n\mu}{\sqrt{n}\sigma } \sim AN(0,1)

AN(0,1)AN(0,1)表示近似(almost)标准正态分布, 从而

ni=1XiAN(nμ,nσ2)\sum_{n}^{i=1}X_i\sim AN(n\mu, n\sigma^2)


棣莫弗-拉普拉斯定理:设随机变量 YnY_n ~ B(n,p)n=1,2,...B(n, p)(n=1,2,...),对任意xx,有

limnP{Ynnpnp(1p)x}=Φ(x)\lim_{n \to \infty} P\{\frac{Y_n-np}{\sqrt{np(1-p)} }\le x \}=\Phi(x)

(注意与上一个定理——独立同分布中心极限定理,进行对比,方便记忆)


第五章 数理统计基本概念与抽样分布

基本概念

  • 总体:在数理统计中,一个随机变量X或分布函数F(x)F(x)称为一个总体

  • 样本:在一个总体XX中,随机抽取n个个体X1,...,XnX_1,...,X_n,称为来自总体X的容量为n的样本,通常记为(X1,...,Xn)(X_1,...,X_n)

  • 样本值:在一次抽样观察后,得到的一组数值(X1,...,Xn)(X_1,...,X_n),称之为样本(X1,...,Xn)(X_1,...,X_n)的观测值,简称为样本值

  • 样本空间:样本(X1,...,Xn)(X_1,...,X_n)所有可能取值的全体称为样本空间,记作 ΩΩ

随机抽取的样本应该满足以下两个条件,满足这2个条件的称之为简单随机样本

  1. 代表性
  2. 独立性

样本的分布

(X1,...,Xn)(X_1,...,X_n)是来自总体X的一个样本

  1. (X是连续情况)若总体X的分布密度函数为p(x)p(x),则样本的联合分布密度函数为 i=1np(xi)\prod_{i=1}^{n}p(x_i)
  2. (X是离散情况)总体X的分布律为 P{X=xi}=p(xi)P\{X=x_i^*\}=p(x_i^*),则样本的联合分布律为 i=1np(xi)\prod_{i=1}^{n}p(x_i)
  3. 总体X的分布函数为F(x),则样本的联合分布函数为 i=1nF(xi)\prod_{i=1}^{n}F(x_i)

统计量

定义:

  • (X1,...,Xn)(X_1,...,X_n)是来自总体X的一个样本,若样本的函数f(X1,X2,...,Xn)f(X_1,X_2,...,X_n)不含任何未知参数,则称f(X1,X2,...,Xn)f(X_1,X_2,...,X_n)是一个统计量

  • (x1,x2,...,xn)(x_1,x_2,...,x_n)是一个样本值,则称f(x1,x2,...,xn)f(x_1,x_2,...,x_n)为统计量f(X1,X2,...,Xn)f(X_1,X_2,...,X_n) 的一个观测值

可以看到,统计量来自总体(是总体的一个样本),不含任何未知参数,完全由样本来确定,也就是说,根据样本可以求出我们需要的任何一个统计量的值。

例如:设样本(X1,...,Xn)(X_1,...,X_n)来自正态总体XX~N(μ,σ2)N(μ,σ^2),其中μμ已知而σσ未知,则

  1. i=1nXi\sum_{i=1}^n X_i1ni=1n(Xiμ)2\frac{1}{n}\sum_{i=1}^{n}(X_i-\mu)^2 是统计量
  2. 1σ2i=1n(Xiμ)2\frac{1}{\sigma^2}\sum_{i=1}^{n}(X_i-\mu)^2 不是统计量

常用统计量——样本矩

  1. 样本均值 X=1ni=1nXi\overline{X}=\frac{1}{n} \sum_{i=1}^{n}X_i

  2. 样本方差 Sn2=1ni=1n(XiX)2=1ni=1nXi2X2S_n^2=\frac{1}{n}\sum_{i=1}^{n}(X_i-\overline{X})^2=\frac{1}{n}\sum_{i=1}^{n}X_i^2-\overline{X}^2

    样本标准差 Sn=Sn2S_n=\sqrt{S_n^2}

  3. 修正样本方差 Sn2=1n1i=1n(XiX)2=nn1Sn2S_n^{*^2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2=\frac{n}{n-1}S_n^2

    修正样本标准差 Sn=Sn2S_n^{*}=\sqrt{S_n^{*^2}}

  4. 样本k阶原点矩 Ak=1ni=1nXikA_k=\frac{1}{n} \sum_{i=1}^{n}X_i^k

  5. 样本k阶中心矩 Bk=1ni=1n(XiX)kB_k=\frac{1}{n} \sum_{i=1}^{n}(X_i-\overline{X} )^k

性质(重要)

  1. E(X)=E(X)E(\overline{X})=E(X)
  2. D(X)=1nD(X)D(\overline{X})=\frac{1}{n}D(X)
  3. E(Sn2)=n1nD(X)E(S_n^2)=\frac{n-1}{n}D(X)
  4. E(Sn2)=D(X)E(S_n^{*2})=D(X)

次序统计量(不重要,跳过)

常用统计分布

χ\chi 分布

定义:设随机变量X1,X2,...,XnX_1,X_2,...,X_n 独立同分布,且每个 XiN(0,1),  i=1,2,...,nX_i \sim N(0,1),~~i=1,2,...,n,则称随机变量:

χn2=i=1nXi2\chi^2_{n}=\sum_{i=1}^{n}X_i^2

服从自由度为n的卡方(χ2\chi^2)分布, 记为 χn2χ2(n)\chi^2_n \sim \chi^2(n),随机变量 χn2\chi_n^2亦被称为 χ2\chi^2变量

伽马函数(不需要记)

Γ(α)=0+xα1exdx,(α>0)\Gamma(\alpha)=\int_0^{+\infty}x^{\alpha-1}e^{-x}dx , (\alpha>0)

根据定义得出以下结论

  1. 若总体XN(0,1),  (X1,X2,...,X3)X\sim N(0,1),~~(X_1,X_2,...,X_3)是其中一个样本,则统计量 i=1nXi2χ2(n)\sum_{i=1}^nX_i^2\sim \chi^2(n)
  2. 若总体XN(μ,σ2),  (X1,X2,...,X3)X\sim N(\mu,\sigma^2),~~(X_1,X_2,...,X_3)是其中一个样本,则统计量 1σ2i=1n(Xiμ)2χ2(n)\frac{1}{\sigma^2}\sum_{i=1}^n(X_i-\mu)^2 \sim \chi^2(n)

性质一

E(χn2)=nD(χn2)=2nE(\chi^2_n)=n \\ D(\chi^2_n)=2n

性质二(可加性)

X1χ2(n1),X2χ2(n2)X_1\sim \chi^2(n_1), X_2\sim \chi^2(n_2), 且 X1,X2X_1, X_2相互独立,则

X1+X2χ2(n1+n2)X_1+X_2 \sim \chi^2(n_1+n_2)

性质三

χn2AN(n,2n)\chi^2_n\sim AN(n,2n)

t 分布

定义:设XN(0,1),Yχ2(n)X\sim N(0,1), Y\sim \chi^2(n), 且X,YX,Y相互独立,则称随机变量

T=XY/nT=\frac{X}{\sqrt{Y/n}}

服从自由度为n的t分布,记为Tt(n)T\sim t(n),随机变量T也称为t变量

t分布是关于y轴对称的

t分布

当n=1时,p(x)=1π11+x2p(x)=\frac{1}{\pi}\frac{1}{1+x^2}, 为柯西分布

当n充分大时,t分布趋于标准正态分布

性质一

E(T)=0D(T)=nn2E(T)=0\\ D(T)=\frac{n}{n-2}

性质二

limnp(x)=12πex22\lim_{n\to \infty}p(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}

即n足够大(n>30即可)时,近似看作服从标准正态分布,记作TAN(0,1)T\sim AN(0,1)

但在n较小时,就与标准正态分布有较大差距,在t分布的尾部比标准正态分布的尾部有更大的概率,即

P{Tt0}P{Xt0}P\{|T|\ge t_0\} \ge P\{|X|\ge t_0\}

F 分布

定义:设 Xχ2(n1),Yχ2(n2)X\sim \chi^2(n_1),Y\sim \chi^2(n_2), 且X与Y相互独立,则称随机变量 F=X/n1Y/n2F=\frac{X/n_1}{Y/n_2}服从自由度为(n1,n2)(n_1,n_2)的F分布,记为FF(n1,n2)F\sim F(n_1,n_2),其中n1n_1称为第一自由度,n2n_2称为第二自由度。



性质一,设 FF(n1,n2)F\sim F(n_1,n_2), 则

1FF(n2,n1)\frac{1}{F} \sim F(n_2,n_1)

性质二,设 Tt(n)T\sim t(n), 则

T2F(1,n)T^2\sim F(1,n)

概率分布的分位数

定义:设总体X和给定的 α(0<α<1)\alpha(0<\alpha<1),若存在 xαx_{\alpha},使得

P{X>xα}=αP\{X>x_{\alpha}\}=\alpha

则称xαx_{\alpha}为此概率分布的上α分位点(或称临界值),称x12x_{\frac{1}{2}}为此概率分布的中位数。

标准正态分布的α分位点

Φ(uα)=1α\Phi(u_\alpha)=1-\alpha

根据标准正态分布的y轴对称性:uα=u1αu_\alpha=-u_{1-\alpha}

χ2\chi^2分布的α分位点

定义:P{χn2>χα2(n)}=αP\{\chi^2_n>\chi_\alpha^2(n)\}=\alpha

t分布的α分位点

定义:P{T>tα(n)}=αP\{T>t_\alpha(n)\}=\alpha

根据t分布的y轴对称性,有 tα(n)=t1α(n)t_\alpha(n)=-t_{1-\alpha}(n)

当n较大时,有 tα=uαt_\alpha=u_\alpha

F分布的α分位点

定义:P{F>Fα(n1,n2)}=αP\{F>F_\alpha(n_1,n_2)\}=\alpha

性质:

Fα(n1,n2)=1F1α(n2,n1)F_\alpha(n_1,n_2)= \frac{1}{F_{1-\alpha}(n_2,n_1)}

抽样分布(重要)

定理5.3

设总体XN(μ,σ2),(X1,X2,...,Xn)X\sim N(\mu,\sigma^2),(X_1,X_2,...,X_n)是来自总体X的一个样本,则有:

  1. XN(μ,σ2n)\overline{X}\sim N(\mu, \frac{\sigma^2}{n})Xμσ/nN(0,1)\frac{\overline{X}-\mu}{\sigma /\sqrt{n}}\sim N(0,1)
  2. X\overline{X}Sn2Sn2S_n^{*2}、S_n^2相互独立
  3. (n1)Sn2σ2χ2(n1)\frac{(n-1)S_n^{*2}}{\sigma^2}\sim \chi^2(n-1)nSn2σ2χ2(n1)\frac{nS_n^{2}}{\sigma^2}\sim \chi^2(n-1)
  4. XμSn/nt(n1)\frac{\overline{X}-\mu}{S_n^*/\sqrt{n}}\sim t(n-1)XμSn/n1t(n1)\frac{\overline{X}-\mu}{S_n/\sqrt{n-1}}\sim t(n-1)

定理5.4

X1,X2,,Xn1X_1,X_2,\dots,X_{n_{1}}Y1,Y2,,Yn2Y_1,Y_2,\dots,Y_{n_2}分别是来自正态总体 N(μ1,σ12)N(\mu_1, \sigma^2_1)N(μ2,σ22)N(\mu_2, \sigma_2^2)的样本,且这两个样本相互独立,设 X,Y\overline{X},\overline{Y}分别是两个样本的均值,且 Sn12,Sn22S_{n_1}^{*^2}, S_{n_2}^{*^2}分别是这两个样本的修正样本方差,则有:

  1. Sn12/Sn22σ12/σ22F(n11,n21)\frac{S_{n_1}^{*2}/S_{n_2}^{*2}}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1,n_2-1)
  2. σ12=σ22=σ2\sigma_1^2=\sigma_2^2=\sigma^2时,有

(XY)(μ1μ2)Sw1n1+1n2t(n1+n22) \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2)

其中

Sw=(n11)Sn12+(n21)Sn22n1+n22 S_w=\frac{(n_1-1)S_{n_1}^{*^2}+(n_2-1)S_{n_2}^{*^2}}{n_1+n_2-2}

第六章 参数估计

参数的点估计

矩估计法

由样本矩的性质知, 样本矩依概率收敛于相应的样本总体,即

Ak=1ni=1nXikPE(Xk)A_k=\frac{1}{n}\sum_{i=1}^{n}X_i^k\xrightarrow{P}E(X^k)

Bk=1ni=1n(XiX)kPE(XEX)kB_k=\frac{1}{n}\sum_{i=1}^{n}(X_i-\overline{X})^k\xrightarrow{P}E(X-EX)^k

矩估计的基本思想是利用样本矩来估计总体矩获得参数的估计量(因为样本足够大时,样本矩与总体矩之间的差距可任意小),基本步骤如下:

  1. 计算【总体X】从1阶矩到m阶矩(m为未知参数的个数):E(X),E(X2),,E(Xm)E(X), E(X^2),\dots,E(X^m)
  2. 计算【样本】的矩:A1,A2,,AmA_1, A_2,\dots,A_m
  3. 解方程组

{A1=E(X)A2=E(X2)Am=E(Xm) \begin{cases} A_1=E(X)\\ A_2=E(X^2)\\ \cdots \\ A_m=E(X^m) \end{cases}

得到未知参数 θi ~{\theta}_i~的估计值

{θ^1=θ^1(X1,X2,,Xn)θ^2=θ^2(X1,X2,,Xn)θ^m=θ^m(X1,X2,,Xn) \begin{cases} \hat{\theta}_1=\hat{\theta}_1(X_1,X_2,\dots,X_n) \\ \hat{\theta}_2=\hat{\theta}_2(X_1,X_2,\dots,X_n) \\ \cdots \\ \hat{\theta}_m=\hat{\theta}_m(X_1,X_2,\dots,X_n) \end{cases}

注意:对于样本来说,样本的所有参量认为是已知的,而总体的参量是我们需要估计的,因此,根据样本依概率矩收敛于总体矩的特性知:可以通过样本来估计总体的参量。

例如:样本的均值X\overline{X}和方差Sn2S_n^2总是总体的数学期望E(X)E(X)和方差D(X)D(X)的矩估计量。

最大似然估计法

前提:总体的分布形式已知,如已知p(x;θ),θp(x;\theta),\theta为未知参数

似然函数:样本的联合分布律 L(θ)=i=1np(xi;θ)L(\theta)=\prod_{i=1}^{n}p(x_i;\theta)

基本思想:在试验中概率最大(即L(θ)最大L(\theta)最大)的事件最有可能出现,我们就是要找到这样一个参数 θ 使得其发生的概率最大。

求解步骤:

  1. 求似然函数:L(θ)=i=1np(xi;θ)L(\theta)=\prod_{i=1}^{n}p(x_i;\theta)
  2. L(θ)L(\theta)最大值,一般通过求导使得 lnL(θ)θθ=θ^=0\frac{\partial \ln L(\theta)}{\partial \theta}\mid_{\theta={\hat{\theta}}}=0(该方程称为似然方程), 有多个参数就分别对该参数求偏导
  3. 求解第二步的方程,得到参数的估计值θi=θi^\theta_i=\hat{\theta_i}

注意:若无法通过求导方式求解似然函数L(θ)L(θ)最大值,可以通过分析L(θ)L(θ)单调特性,以及θ\theta可能取值范围,从 θ取值范围中选择一个值使得L(θ)L(θ)取得最大值,最后用该值作为该参数的估计值

估计量的优良性评判

既然是估计量,那与真实值之间就存在误差,因此需要判断估计量是否满足我们的要求,可以通过下面的几个准则来进行评判。

无偏性

定义:设(X1,X2,,Xn)(X_1,X_2,\dots,X_n)是来自总体XX的一个样本,θΘ\theta \in \Theta 为总体分布中的未知参数,θ^=θ^(X1,X2,,Xn)\hat{\theta}=\hat{\theta}(X_1,X_2,\dots,X_n)θθ 的一个估计量,若对任意 θΘ\theta \in \Theta,有

E(θ^)=θE(\hat{\theta})=\theta

θ^\hat{\theta}θθ 的无偏估计(量).

  • 估计量的偏差:bn=E[θ^(X1,X2,,Xn)]θb_n=E[\hat{\theta}(X_1,X_2,\dots,X_n)]-\theta

  • 有偏估计量:当 bn0b_n \ne0 时,称 θ^\hat{\theta}θθ 的有偏估计(量)

  • 渐进无偏估计量:若limnbn=0\lim_{n\to \infty}b_n=0, 则称 θ^\hat{\theta}θθ 的渐进无偏估计(量)

有效性

定义:设 θ^1=θ^1(X1,X2,,Xn)\hat{\theta}_1=\hat{\theta}_1(X_1,X_2,\dots,X_n)θ^2=θ^2(X1,X2,,Xn)\hat{\theta}_2=\hat{\theta}_2(X_1,X_2,\dots,X_n) 均为参数 θ\theta 的无偏估计量,若

D(θ^1)<D(θ^2)D(\hat{\theta}_1) < D(\hat{\theta}_2)

则称 θ^1\hat{\theta}_1θ^2\hat{\theta}_2 有效

在多个无偏估计量中,方差最小(最有效)那个被称为最小方差无偏估计量

相合性(一致性)

一个优良的估计量,不仅是无偏的,且具有较小的方差,还希望当样本容量n增大时,估计量能在某种意义下收敛于被估计的参数,这就是 相合性(或一致性)

定义:设 θ^n=θ^n(X1,X2,,Xn)\hat{\theta}_n=\hat{\theta}_n(X_1,X_2,\dots,X_n)