- 概率和统计的区别
- 必然现象与随机现象
- 随机试验:样本点,样本空间
- 事件间的关系,事件与集合的对应关系,事件的运算规律
- 概率的公理化定义,概率的性质
- 古典概型,几何概型
- 条件概率,全概率公式和贝叶斯公式
- 独立性,独立与互斥的关系
- Freivalds算法
- 分布函数定义,性质(单调性,规范性,右连续性);概率密度函数定义,性质(单调性,规范性,连续性)
- 离散随机变量:均匀分布、二项分布、几何分布(无记忆性)、负二项分布(Pascal分布)、泊松分布(泊松定理)
- 连续随机变量:均匀分布、指数分布(无记忆性)、正态分布
- 德国坦克问题
- 联合分布函数定义、性质(对每个变量单调不减,非负性,规范性,右连续);边缘分布与独立性
- 联合概率密度定义、性质(非负性,规范性);边缘概率密度,两变量独立的等价条件
- 多维随机变量函数的分布(和、差、积、商、最大、最小)
- 期望,方差,协方差,Pearson相关系数
- 大数定律,依概率收敛
- 中心极限定理,依分布收敛
- 局限:独立同分布假设,有界方差要求,收敛速度未知
- Markov不等式、Chebyshev不等式、Hölder不等式、 Cauchy-Schwartz不等式、单边Chebyshev不等式
- Chernoff方法,Chernoff引理,0/1 Chernoff界,有界Chernoff界
- 统计学的概念和三大研究内容(抽样,参数估计,假设检验)
- Beta分布, $ \Gamma $ -分布、性质、独立可加性;标准正态分布的平方 $ \Gamma(\frac12,\frac12) $ ;Dirichlet分布、性质
- $ \chi^2 $ 分布, $ t $ 分布(student分布), $ F $ 分布
- 常见抽样分布定理
- 点估计:矩估计,极大似然估计
- 估计量评估:无偏性,有效性,一致性
- 假设检验基本思想:小概率原理(小概率事件在一次实验中不应该发生),假设检验概念,两类错误,显著性检验 ,显著性检验基本步骤
A的对立事件指所有不属于A的基本事件,有 $ \overline A\cap A=\varnothing,\overline A\cup A=\Omega $
$ A,B $ 不能同时发生,则称他们互不相容(互斥),有 $ A\cap B=\varnothing $
区别是 $ A $ 与其对立事件的交为全集, $ A $ 与其互斥事件的交不一定是。
概率是对事件发生的可能性度量,基于统计数据或主观判断。
频率是指在大量重复试验中,某一事件发生的实际次数。频率和概率之间有一定的关系,随着试验次数的增加,频率会趋近于概率。
- 概率:研究事件的不确定性,在给定数据生成过程中观察,研究数据的性质,强调公理体系, 推理。
- 统计:收集与分析数据,根据观察的数据反思其数据生成过程,强调归纳。
- 概率和统计的重要的区别在于公理体系化。
- 非负性:对于任何事件 $ A $ ,均有 $ P(A)\geq0 $
- 规范性:对样本空间 $ \Omega $ 有 $ P(\Omega)=1 $
- 可列可加性:若 $ A_1,A_2,\dots ,A_n,\dots $ 是可列无穷个互不相容的事件,即 $ A_iA_j=\varnothing(i\neq j) $ ,有
满足这三个条件的实数 $ P(A) $ 为随机事件 $ A $ 的概率。
试验E满足:有限种可能( $ \Omega={\omega_1,\omega_2,\dots,\omega_n} $ ,其中 $ \omega_i $ 为基本事件);每种结果发生的可能性相同 $ P({\omega_i})=P({\omega_j}) $ ,即是古典概型。抛硬币即是古典概型问题。
古典概率的计算的本质是计数。常见的计数原理有加法原理和乘法原理。
排列:从 $ n $ 个不同的元素中无放回地取出 $ r $ 个元素进行排列,既要考虑取出的元素,也要顾及其排列顺序,则有 $ \displaystyle (n)_r=n(n-1)\dots(n-r+1) $ 种不同的排列。全排列: $ r=n $ ,有 $ n! $ 种。
组合:从 $ n $ 个不同的元素中无放回地取出 $ r $ 个元素,取出的元素之间无顺序关系,共有 $ (^n_r) $ 种不同的取法,其中
(不用考虑顺序,所有将排列数除以 $ r! $ )
这里 $ (^n_r) $ 称为组合数或二项系数,是二项展开式 $ (a+b)^n=\sum_{r=0}^{n}(^n_r)a^rb^{n-r} $ 中项 $ a^rb^{n-r} $ 的系数。
几何概型:样本空间无限可测,基本事件等可能性。常常使用几何画图的解法求解。
条件概率是事件 $ A $ 发生的条件下事件 $ B $ 发生的概率。
The conditional probability is the probability of event B occurring given that event A has occurred.
这种概率的计算通常需要基于已知的信息和假设,具有一定的主观性。在人工智能领域,条件概率经常用于模型训练和推断过程中,例如朴素贝叶斯分类算法、隐马尔可夫模型等。
条件概率也满足非负性、规范性、可列可加性。也满足容斥原理。
the multiplication rule
当两个事件 $ A $ 和 $ B $ 发生的概率都已知时,计算两个事件同时发生的概率的公式。其计算公式为:
在自然语言处理领域中,我们可以用乘法公式来计算一个词在给定上下文条件下出现的概率;在机器学习领域中,我们可以用乘法公式来计算多个特征同时出现的概率,从而进行分类或回归任务。
全概率公式将一个事件的概率分解成多个事件的概率之和,再利用乘法公式求解各个事件的概率。具体来说,若事件 $ A_1,A_2,\dots,A_n $ 为样本空间 $ \Omega $ 的一个划分,对任意事件 $ B $ , $ B $ 的概率是每个 $ A_i $ 的概率与 $ B $ given $ A_i $ 概率的乘积的和。
若事件 $ A_1,A_2,\dots,A_n $ 为样本空间 $ \Omega $ 的一个划分,对任意事件 $ B $ 有:
称之为全概率公式(law of total probability)
这里划分指: $ A_i\cap A_j=\varnothing \quad (i\neq j);\Omega=\bigcup_{i=1}^{n}A_i $
全概率公式在人工智能领域中的应用非常广泛。例如,在语音识别中,我们可以将不同的语音信号看作互不重叠的事件,应用全概率公式来计算每个语音信号被识别为不同单词的概率;在图像处理中,我们可以将不同的图像特征看作互不重叠的事件,应用全概率公式来计算每个特征对目标分类的贡献等。
贝叶斯公式Baye's law用于计算在某个先验条件下事件的后验概率。
先验概率prior: $ \Pr (A_i) $ ,因为不用考虑任何 $ B $ 的因素。
证据概率evidence: $ P(B)=\sum_{j=1}^n P(A_j)P(B\vert A_j) $
后验概率posterior: $ \Pr(A_i\vert B) $ 为事件 $ A_i $ 在事件 $ B $ (证据)发生的情况下的后验概率
似然度likelihood: $ P(B|A_i) $
独立:指两个事件的发生不受彼此的影响,若事件 $ A,B $ 满足 $ P(AB)=P(A)P(B) $ ,则称事件 $ A $ 与 $ B $ 相互独立。
即 $ P(AB)=P(A)P(B)\iff P(B\vert A)=P(B)\iff P(A\vert B)=P(B) $
互斥:指两个事件不能同时发生。 $ A\cap B=\varnothing $
互斥 $ \iff $ 不独立
多个事件的独立性: $ A,B,C $ 独立 $ \iff P(AB)=P(A)P(B),P(AC)=P(A)P(C),P(BC)=P(B)P(C),$$P(ABC)=P(A)P(B)P(C) $ 。
iid: independent and identically distributed,即独立同分布假设,假设数据集中的每个样本都是从同一个概率分布中独立地随机取出的。
iid假设在概率统计领域中经常使用,因为它是许多统计方法的基础前提。例如,在机器学习中,训练数据通常被假定为iid,这意味着每个样本是相互独立且来自同一概率分布的,从而使得机器学习算法能够利用数据中的统计信息进行学习和预测。另外,许多假设检验和置信区间的推断方法也需要假定数据是iid的,以确保推断结果的有效性。
很多机器学习算法都基于iid假设,比如Linear regression, logistic regression, decision tree, SVM, neural network等等。
- 时间序列分析算法:时间序列分析算法通常用于分析和预测时间序列数据,这些数据之间存在时间上的相关性,因此不满足独立同分布假设。常见的时间序列分析算法包括自回归模型(AR)、滑动平均模型(MA)、自回归滑动平均模型(ARMA)、自回归积分滑动平均模型(ARIMA)等。
- 隐马尔可夫模型(Hidden Markov Model,HMM):HMM 是一种用于建模序列数据的统计模型,通常用于自然语言处理和语音识别等领域。HMM 假设序列数据是由一个不可观测的马尔可夫链和一个可观测的输出过程组成,因此不满足独立同分布假设。
- 图模型(Graphical Model):图模型是一类用图形化方式表示变量之间关系的统计模型。常见的图模型包括贝叶斯网络、马尔可夫随机场等,这些模型通常用于分析非独立同分布的数据。
因为这个假设可以简化建模过程,减小计算复杂度,使得许多统计学理论和方法可以应用于机器学习中,让机器学习算法的性质和性能更加可靠和有效。
通过假设数据独立同分布,我们不必考虑数据样本之间的依赖关系,这种简化的假设可以使我们使用更简单的模型,减少模型参数数量,降低模型的计算复杂度,并更容易处理大规模数据。例如,许多基于iid假设的分类算法(如朴素贝叶斯、支持向量机等)只需要学习一个简单的概率模型或决策边界即可,而不需要学习整个数据分布的复杂性。
另外,iid假设使得机器学习算法可以使用统计学中的一些基本理论和方法,如中心极限定理、最大似然估计、假设检验等,这些方法可以提供对机器学习算法的性能进行分析和评估的工具。
然而,iid假设并不总是成立的,尤其是在处理时序数据、空间数据等场景下。在这些情况下,我们需要使用其他适当的建模方法来处理数据中的依赖关系和非独立同分布性质。
如果数据分布不符合iid假设,使用基于iid假设的算法可能会导致模型偏差和预测结果不准确。因为这些算法的基本假设是样本之间是独立同分布的,如果这个假设不成立,就会导致样本之间的相关性被忽略,进而影响模型的泛化能力和性能。比如说,可以拿线性回归来处理时间序列数据,但是结构可能会偏差和不准确,因为忽略了时间序列数据中样本之间的相关性。
如果数据分布不符合iid假设,可以尝试使用其他适当的机器学习算法或方法。例如,可以使用时间序列模型或空间模型来处理序列数据或空间数据,使用聚类模型或关联规则模型来处理数据集中的非独立同分布问题,使用分层模型或多层模型来考虑样本之间的相关性等。
此外,对于一些基于iid假设的算法,也有针对性的改进方法,例如,在训练模型时引入权重,调整样本的权重,或者使用bootstrap方法来处理样本的相关性等。这些方法可以帮助我们更准确地建模和处理非独立同分布的数据。
Law of small probabilities
若事件 $ A $ 在一次试验中发生的概率非常小,但是经过多次独立地重复试验,事件 $ A $ 的发生是必然的。
期望反应随机变量 $ X $ 的平均值,离散变量: $ \displaystyle E(X)=\sum_{k=1}^{\infty}p_kx_k $ ;连续变量: $ \displaystyle E(X)=\int_{-\infty}^{+\infty}tf(t)\text{d}t $ (若积分 $ \displaystyle \int_{-\infty}^{+\infty} xf(x)\text{d}x $ 绝对收敛)
方差反应随机变量与期望的偏离程度: $ Var(X)=E(X-E(X))^2=E(X^2)-(E(X))^2 $
连续变量:(若 $ \displaystyle \int_{-\infty}^{+\infty}(t-E(X))^2f(t)\text{d}t $ )
使用第一种定义,要遍历两遍;但使用第二种定义,则只需要遍历 $ x_1,\dots,x_n $ 一遍,可在线(online)计算方差。
方差的estimator: $ \displaystyle S_1^2=\frac1n\sum_{i=1}^{n}(X_i-\overline X)^2 $
但这个estimator有bias,因为:
所以使用修正值: $ \displaystyle S_1^2=\frac1n\sum_{i=1}^{n}(X_i-\overline X)^2 $
直观理解:因为均值已经用了n个数的平均来做估计,在求方差时,只有(n-1)个数和均值信息是不相关的。而第n个数已经可以由前(n-1)个数和均值来唯一确定,实际上没有信息量。所以在计算方差时,只除以(n-1)
- 线性: $ E(aX+b)=aE(X)+b,E(\sum_{i=1}^n c_ig_i(x))=\sum_{i=1}^n c_i E(g_i(x)) $
- 对非负随机变量,有 $ E[X]=\int_{0}^{+\infty}P(X>t)\text{d}t $
- 若 $ \int_{-\infty}^{+\infty}g(t)f(t)\text{d}t $ 绝对可积,则 $ E(g(X))=\int_{-\infty}^{+\infty}g(t)f(t)\text{d}t=\int_{0}^{+\infty} P(g(X)>t)\text{d}t $
- Jenson不等式:对离散型随机变量 $ X\in[a,b] $ 和连续凸函数 $ g:[a,b]\to\mathbb R $ ,有 $ g(E(x))\leq E(g(X)) $
- $ Var(aX+b)=a^2 Var(X) $
- $ Var(X)=E(X-E(X))^2\leq E(X-a)^2 $
- Bhatia-Davis不等式: $ Var[X]\leq (b-E(X))(E(X)-a)\leq \frac14(b-a)^2 $
在人工智能领域中的常见应用场景:
- 数据预处理:在机器学习中,经常需要对数据进行预处理,例如归一化、标准化等。这时候,期望和方差就非常有用。例如,在标准化时,可以先计算出每个特征的均值和方差,然后将特征值减去均值并除以方差,这样可以使得不同特征之间的取值范围相同,从而更容易进行模型训练和比较。
- 概率模型:在概率模型中,期望和方差是重要的概念。例如,在高斯分布中,期望就是分布的中心,方差则决定了分布的形状。这些信息可以用来描述数据的统计特征,从而可以构建更加准确的概率模型。
- 模型评估:在机器学习中,需要对不同的模型进行比较和评估。期望和方差可以作为评估指标之一,例如在回归问题中,可以计算预测值与真实值之间的平均方差,从而评估模型的拟合效果。
- 异常检测:在人工智能中,经常需要进行异常检测,例如检测网络攻击、欺诈行为等。期望和方差可以用来判断数据是否偏离正常范围,例如可以计算数据与均值之间的距离,如果距离超过一定的阈值,则认为数据是异常的。
- 无限的期望:如果随机变量的分布有“重尾”现象,即存在很小的概率,使得随机变量取到极大的值,此时随机变量的期望可能不存在。例如,柯西分布的期望就不存在。
- 不收敛的期望:如果随机变量的绝对值的期望不收敛,也就是E(|X|)无限大,此时随机变量的期望也不存在。
- 不存在期望:如果随机变量的期望不存在,则方差也不存在。因为方差的定义中包含了随机变量与其期望之间的差异。
- 方差无穷大:如果随机变量的方差为无穷大,则方差不存在。例如,柯西分布的方差不存在。
- 不连续的随机变量:如果随机变量的概率密度函数(或概率质量函数)在某些点上不连续,则方差可能不存在。因为方差的定义中包含了随机变量的平方,如果概率密度函数在某些点上不连续,随机变量的平方可能也不连续。
Distribution function
分布函数是描述随机变量的概率分布的函数,用来描述随机变量 X 小于或等于某个值 x 的概率。公式为 $ F(x)=P(X\leq x) $ 。
可以用分布函数表示随机事件的概率,例如
$ P(X\geq a)=1-F(a-0) $
$ P(a\leq X\leq b)=F(b)-F(a-0) $
单调性:若 $ x_1<x_2 $ ,则 $ F(x_1)\leq F(x_2) $
规范性: $ F(x)\in[0,1] $ ,且 $ F(-\infty)=\lim_{x\to-\infty}F(x)=0,F(+\infty)=\lim_{x\to+\infty}F(x)=1 $
右连续性: $ F(x+0)=\lim_{\Delta x\to 0^+}F(x+\Delta x)=F(x) $
Probability density function
若存在可积函数 $ f(x) $ ,使得对任意实数 $ x $ 有 $ F(x)=\int_{-\infty}^{x}f(t)\text{d}t $ 成立,则称 $ X $ 为连续型随机变量, $ f(x) $ 为 $ X $ 的概率密度函数。
- 非负性: $ f(x)\geq0 $
- 规范性: $ \int_{-\infty}^{+\infty}f(t)\text{d}t=1 $
- 对连续随机变量 $ X $ ,其分布函数 $ F(x) $ 在整个实数域上连续;若 $ f(x) $ 在 $ x $ 点连续,则 $ F(x) $ 在 $ x $ 点可导,且 $ F'(x)=f(x) $
- 对连续随机变量 $ X $ , $ P(X=x)=0 $
离散均匀分布 | $ \displaystyle P(x_i)=\frac1n $ | $ \displaystyle E(X)=\frac1n\sum_{i=1}^nx_i\\displaystyle Var(X)=\frac1n\sum_{i=1}^nx_i^2-\left(\frac1n\sum_{i=1}^nx_i\right)^2 $ | 德国坦克问题 | |
0-1分布,Bernoulli分布 | $ X\sim Ber(p) $ | $ P(X=1)=p\P(X=0)=1-p $ | $ E(X)=p\Var(X)=p(1-p) $ | |
二项分布 | $ X\sim B(n,p) $ | n重Bernoulli试验中事件A发生的次数 $ P(X=k)=\left(^n_k\right)p^k(1-p)^{n-k} $ | $ E(X)=np\Var(X)=np(1-p) $ | 证明 |
几何分布 | $ X\sim G(p) $ | 多重Bernoulli试验中事件A首次发生时的实验次数 $ P(X=k)=(1-p)^{k-1}p $ | $ \displaystyle E(X)=\frac1p\ Var(X)=\frac{1-p}{p^2} $ | 无记忆性 |
Pascal/负二项分布 | 事件A第r次发生时的实验次数 $ P(X=k)=(^{k-1}_{r-1})p^{r}(1-p)^{k-r} $ | $ \displaystyle E(X)=\frac rp\quad Var(X)=\frac{r(1-p)}{p^2} $ | ||
泊松分布 | $ X\sim P(\lambda) $ | $ P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda} $ | $ \displaystyle E(X)=\lambda\quad Var(X)=\lambda $ | 近似于二项分布 |
均匀分布 | $ X\in U(a,b) $ | $ f(x)=\left{\begin{aligned}&\frac{1}{b-a}&x\in[a,b]\&0&otherwise\end{aligned}\right. $ | $ F(x)=\left{\begin{aligned}&0&x\leq a\&\frac{x-a}{b-a}&x\in[a,b]\&1&x\geq b\end{aligned}\right. $ | $ \displaystyle {E(X)=\frac{a+b}{2}\ Var(X)=\frac{(b-a)^2}{12}} $ | |
指数分布 | $ X\sim e(\lambda) $ | $ f(x)=\left{\begin{aligned}&\lambda e^{-\lambda x}& x\geq 0\&0&otherwise\end{aligned}\right. $ | $ F(x)=\left{\begin{aligned}&1- e^{-\lambda x}& x> 0\&0&otherwise\end{aligned}\right. $ | $ \displaystyle{E(X)=\frac1\lambda\Var(X)=\frac1{\lambda^2}} $ | 无记忆性 |
正态分布 | $ X\sim \mathcal N(\mu,\sigma^2) $ | $ \displaystyle f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma}} $ | $ \displaystyle{E(X)=\mu\Var(X)=\sigma^2} $ |
- **若 $ X\sim\mathcal N(\mu,\sigma^2) $ ,则 $ \displaystyle Y=\frac{X-\mu}{\sigma}\sim \mathcal N(0,1) $ ;若 $ X\sim \mathcal N(0,1) $ ,则 $ Y=\sigma X+\mu\sim \mathcal N(\mu,\sigma^2) $ **
证明
- **若 $ X\sim \mathcal N(0,1) $ ,对于任意 $ \epsilon>0 $ ,有 $ \displaystyle P(X\geq \epsilon)\leq \frac12e^{-\epsilon^2/2} $ **
- **[Mill 不等式] 若 $ X\sim \mathcal N(0,1) $ ,对于任意 $ \epsilon>0 $ ,有 $ \displaystyle P(X\geq \vert\epsilon\vert)\leq \frac12\min\left{1,\sqrt\frac{2}{\pi}\frac1{\epsilon}e^{-\epsilon ^2/2}\right} $ **
可得 $ P(u-3\sigma \leq X\leq u+3\sigma)\geq 99.7% $ ,所以在工程中有 $ P(\vert X-\mu\vert \leq 3\sigma)\approx 1 $
Models like LDA, Gaussian Naive Bayes, Logistic Regression, Linear Regression, etc., are explicitly calculated from the assumption that the distribution is a bivariate or multivariate normal. Also, Sigmoid functions work most naturally with normally distributed data.
已知连续随机变量 $ X $ 的概率密度函数为 $ f_X(x) $ ,求解新的随机变量 $ Y=g(X) $ 的概率密度 $ f_Y(y) $ 。
- 求解 $ Y=g(X) $ 的分布函数 $ F_Y(y)=P(Y\leq y)=P(g(X)\leq y)=\int_{g(X)\leq y}f_X(x)\text{d}x $
- 利用分布函数和概率密度之间的关系求解密度函数 $ f_Y(y)=F'_Y(y) $
【还没有看完!】
对离散型随机变量 $ (X,Y) $ ,若对所有 $ (x_i,y_j) $ 有
即 $ p_{ij}=p_ip_j $ 则称离散随机变量 $ X $ 和 $ Y $ 相互独立。
其中 $ \xi=(x_1,\dots,x_n)^\top $ ,则称随机变量 $ (X_1,\dots, X_n) $ 服从参数为 $ \mu $ 和 $ \Sigma $ 的多维正态分布。
定理1 $$ Var(X+Y)=Var(X)+Var(Y)+2E[(X-E(X))(Y-E(Y))] $$
当 $ X $ 与 $ Y $ 独立时,有:
所以有
性质1
性质2
性质3
性质4
若 $ X,Y $ 独立,则 $ Cov(X,Y)=0 $ ;反之不成立
性质5
(即 $ X $ 和 $ Y $ 存在线性关系)
- $ \vert\rho_{XY}\vert\leq1 $ ,
- 若 $ \rho>0 $ ,则 $ X $ 与 $ Y $ 正相关
- 若 $ \rho<0 $ ,则 $ X $ 与 $ Y $ 负相关
- $ \rho=1\iff Y=aX+b $ ,本质上 $ \rho_{XY} $ 刻画了 $ X,Y $ 的相关线性相关程度,又称线性相关系数。
定理2
Markov不等式 | $ \displaystyle P(X\geq\epsilon)\leq\frac{E(X)}{\epsilon} $ | |
Chebyshev不等式 | $ X $ 的均值为 $ \mu $ | $ \displaystyle P(\vert X-\mu\vert \geq \epsilon)\leq \frac{Var(X)}{\epsilon^2} $ |
Young不等式 | 给定 $ a>0,b>0 $ ,对满足 $ \displaystyle \frac1p+\frac1q=1 $ 的 $ p>0,q>0 $ 有 | $ \displaystyle ab\leq\frac1pa^p+\frac1qb^q $ |
Holder不等式 | 对任意 $ X,Y $ 和满足 $ \displaystyle \frac1p+\frac1q=1 $ 的 $ p>0,q>0 $ 有 | $ E( |
Chernoff不等式 | $ X_1,\dots,X_n $ 独立且 $ X_i\in Ber(p_i) $ ,令 $ \displaystyle \mu=\sum_{i=1}^n E(X_i)=\sum_{i=1}^n p_i $ | $ \displaystyle P\left[\sum_{i=1}^n X_i\geq (1+\epsilon)\mu\right]\leq \left(\frac{e^\epsilon}{(1+\epsilon)^{1+\epsilon}}\right)^\mu $ |
Bennet不等式 | $ X_1,\dots,X_n $ 独立同分布且 $ X_i-E[X_i]\leq 1 $ ,均值 $ \mu $ ,方差 $ \sigma^2 $ | $ \displaystyle P\left[\sum_{i=1}^n (X_i-\mu)\geq \epsilon\right]\leq \exp\left(-\frac{n\epsilon^2}{2\sigma^2+2\epsilon/3}\right) $ |
Bernstein不等式 |
- 依概率收敛:如果随着样本量的增加,随机变量序列以概率1逼近某个确定的常数,那么这个随机变量序列就被称为依概率收敛。
- 依分布收敛:如果随着样本量的增加,随机变量序列的分布函数逐渐接近某个确定的分布函数,那么这个随机变量序列就被称为依分布收敛。
convergence in probability
是概率论中的一种收敛方式。它描述了一个随机变量序列中,随着样本数量的增加,这些随机变量逐渐趋近于某个确定的值的概率。
设 $ X_1,\dots,X_n,\dots $ 是一随机变量序列, $ a $ 常数,如果对任意 $ \epsilon>0 $ 有
则称 $ X_1,\dots,X_n,\dots $ 依概率收敛于 $ a $ ,记作 $ X_n\overset{P}\to a $
数列极限是指一个数列中的元素随着下标的增大,越来越接近一个确定的实数L。如果这个实数L存在,那么数列就收敛于L;如果这个实数L不存在,那么数列就发散。
依概率收敛则是指一个随机变量序列中,随着样本数量的增加,这些随机变量逐渐趋近于某个确定的值的概率。也就是说,依概率收敛描述的是一个概率性的收敛性质,与数列极限不同,它涉及到随机事件的概率性质。
因此,数列极限和依概率收敛是两个不同的概念,它们描述的对象不同,数列极限描述的是确定性的数列,而依概率收敛描述的是随机变量序列的概率性质。
【少:Chernoff方法】
Law of large numbers
大数定律是描述相当多次数重复实验的结果的定律。它刻画了随机变量的均值依概率收敛于期望的均值。
大数定律 | 无iid要求 | $ \displaystyle \frac1n\sum_{i=1}^{n}X_i\overset{P}\to\frac1n\sum_{i=1}^nE[X_i] $ |
Markov大数定律 | 无iid要求 | $ \displaystyle \frac1{n^2}Var\left(\sum_{i=1}^n X_i\right)\to 0,n\to\infty $ |
Chebyshev大数定律 | 相互独立 | 存在 $ c>0 $ 使得 $ Var(X_n)\leq c $ |
Khintchine辛钦大数定律 | 独立同分布 | 每个随机变量的期望 $ E[X_i]=\mu $ 存在(不要求方差一定存在) |
Bernoulli大数定律 | $ X_n\sim B(n,p) $ | $ \displaystyle \lim_{n\to\infty}P\left[\left\vert\frac{X_n}{n}-p\right\vert\geq\epsilon\right]=0 $ ,即 $ \displaystyle \frac{X_n}{n}\overset{P}\to p $ |
- if随机变量iid:辛钦
- if非独立同分布随机变量,Markov
设 $ F_Y(y)=P(Y\leq y) $ ,以及随机变量序列 $ Y_1,\dots,Y_n,\dots $ 的分布函数分别为 $ F_{Y_n}(y)=P(Y_n\leq y) $ ,如果
则称 $ Y_1,\dots,Y_n,\dots $ 依分布收敛于 $ Y $ ,记作 $ Y_n\overset{d}\to Y $
central limit theorem, CLT
中心极限定理说明,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于标准正态分布。
独立同分布iid,林德贝格-勒维 | 若 $ E[X_k]=\mu,Var(X_k)=\sigma^2 $ | 则 $ \displaystyle Y_n=\frac{\sum_{i=1}^{n}X_i-n\mu}{\sigma\sqrt n}\overset d \to\mathcal N(0,1)$$\displaystyle\sum_{k=1}^{n}X_k\overset{d}\to \mathcal N(n\mu,n\sigma^2) $ |
棣莫弗-拉普拉斯 | 若 $ X_n\sim B(n,p) $ | 则 $ \displaystyle Y_n=\frac{X_n-np}{\sqrt{np(1-p)}}\overset{d}\to \mathcal N(0,1) $ |
独立不同分布,李雅普诺夫 | 若 $ E[X_n]=\mu_n,Var(X_n)=\sigma_n^2>0 $ ,记 $ \displaystyle B_n^2=\sum_{k=1}^n\sigma^2_k $ ,若存在 $ \delta>0 $ ,当 $ n\to\infty $ 时有 $ \displaystyle \frac{1}{B^{2+\delta}n}\sum{k=1}^mE\left[ | X_k-\mu_k |
大数定律给出了当 $ n\to\infty $ 时随机变量平均值 $ \frac1n\sum_{i=1}^n X_i $ 的趋势,中心极限定理给出了 $ \frac1n\sum_{i=1}^n X_i $ 的具体分布。
- 总体population:研究问题涉及到的对象全体;个体:总体中的每个元素
- 样本sample:从总体中随机抽取的一些个体,一般表示为 $ X_1,\dots,X_n $ ,样本容量为 $ n $
- 样本的二重性:(1) 确定性:就一次观测而言,样本值是确定的数;(2) 随机性:不同抽样下,样本值会发生变化,可看做随机变量。
- 简单随机样本:满足 (1) 代表性: $ X_i $ 与 $ X $ 同分布;(2) 独立性: $ X_1,\dots,X_n $ 相互独立(之后考虑的所有样本均为简单随机样本)
- 联合分布函数:设总体 $ X $ 的联合分布函数为 $ F(x) $ ,则 $ X_1,\dots,X_n $ 的联合分布函数为 $ F(x_1,\dots,x_n)=\prod_{i=1}^nF(x_i) $
- 联合概率密度:设总体 $ X $ 的联合概率密度为 $ f(x) $ ,则 $ X_1,\dots,X_n $ 的联合分布函数为 $ f(x_1,\dots,x_n)=\prod_{i=1}^nf(x_i) $
- 联合分布列:设总体 $ X $ 的联合分布函数为 $ \Pr(X=x_i) $ ,则 $ X_1,\dots,X_n $ 的联合分布列为 $ \Pr(X_1=x_1,\dots,X_n=x_n)=\prod_{i=1}^n \Pr(X_i=x_i) $
设 $ X_1,\dots,X_n $ 为来自总体 $ X $ 的一个样本, $ g(X_1,\dots,X_n) $ 是关于 $ X_1,\dots,X_n $ 的一个连续、且不含任意参数的函数,称 $ g(X_1,\dots,X_n) $ 是一个统计量。
- 样本均值: $ \displaystyle \overline X=\frac1n\sum_{i=1}^nX_i $
- 样本方差: $ \displaystyle S_0^2=\frac1n\sum_{i=1}^n(X_i-\overline X)^2=\frac1n\sum_{i=1}^n X_i^2-\overline X^2 $ ,修正后的样本方差为 $ \displaystyle S^2=\frac1{n-1}\sum_{i=1}^n (X_i-\overline X)^2 $
- 样本 $ k $ 阶原点矩: $ \displaystyle A_k=\frac1n\sum_{i=1}^nX_i^k $
- 样本 $ k $ 阶中心矩: $ \displaystyle A_k=\frac1n\sum_{i=1}^n(X_i-\overline X)^k $
- 最小次序统计量: $ X_{(1)}=\min{X_1,\dots,X_n} $
- 最大次序统计量: $ X_{(n)}=\max{X_1,\dots,X_n} $
- 样本极差: $ R_n=X_{(n)}-X_{(1)} $
【还有一些定理没有完善!】
Beta分布 | $ f(x)=\left{\begin{aligned} &\displaystyle \frac{x^{\alpha_1-1}(1-x)^{\alpha_2-1}}{B(\alpha_1,\alpha_2)}&x\in(0,1)\ &0&otherwise\end{aligned}\right. $ | $ \displaystyle E[X]=\frac{\alpha_1}{\alpha_1+\alpha_2}\Var[X]=\frac{\alpha_1\alpha_2}{(\alpha_1+\alpha_2)^2(\alpha_1+\alpha_2+1)} $ |
$ \Gamma $ -函数 | $ f(x)=\left{\begin{aligned} &\displaystyle \frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}&x>0\ &0&x\leq 0\end{aligned}\right. $ | $ \displaystyle E[X]=\frac{\alpha}{\lambda}\Var[X]=\frac{\alpha}{\lambda^2} $ |
对于任意给定 $ \alpha_1>0,\alpha_2>0 $
又称第一类欧拉积分函数。
- 有对称性: $ Beta(\alpha_1,\alpha_2)=Beta(\alpha_2,\alpha_1) $
- 定义多维Beta函数为
对于任意给定 $ \alpha>0 $ ,
又称第二类欧拉积分函数。
- $ \Gamma(1)=1,\Gamma(\frac12)=\sqrt \pi $ ,对 $ \alpha>1 $ 有 $ \Gamma(\alpha)=(\alpha-1)\Gamma(\alpha-1) $ (所以对于任意正整数 $ n $ ,根据上面的性质有 $ \Gamma(n)=(n-1)! $ )
-
对于任意给定 $ \alpha_1>0,\alpha_2>0 $
$$ Beta(\alpha_1,\alpha_2)=\frac{\Gamma(\alpha_1)\Gamma(\alpha_2)}{\Gamma(\alpha_1+\alpha_2)} $$
-
对于任意给定 $ \alpha_1>0,\alpha_2>0 $
$$ Beta(\alpha_1,\alpha_2)=\frac{\alpha_1-1}{\alpha_1+\alpha_2-1}Beta(\alpha_1-1,\alpha_2) $$
给定 $ \alpha_1>0,\alpha_2>0 $ ,若随机变量 $ X $ 的概率密度为
则称 $ X $ 服从参数为 $ \alpha_1,\alpha_2 $ 的Beta分布,记为 $ X\sim B(\alpha_1,\alpha_2) $
- $ \displaystyle E[X]=\frac{\alpha_1}{\alpha_1+\alpha_2},Var[X]=\frac{\alpha_1\alpha_2}{(\alpha_1+\alpha_2)^2(\alpha_1+\alpha_2+1)} $
若随机变量 $ X $ 的概率密度为
其中 $ \alpha>0,\lambda>0 $ ,则称 $ X $ 服从参数为 $ \alpha,\lambda $ 的 $ \Gamma $ 分布,记为 $ X\sim \Gamma(\alpha,\lambda) $
- $ \displaystyle E[X]=\frac{\alpha}{\lambda},Var[X]=\frac{\alpha}{\lambda^2} $
- 若随机变量 $ X\sim\Gamma(\alpha_1,\lambda),Y\sim\Gamma(\alpha_2,\lambda) $ ,且 $ X,Y $ 相互独立,则 $ X+Y\sim\Gamma(\alpha_1+\alpha_2,\lambda) $
给定 $ \alpha_1,\dots,\alpha_k\in(0,+\infty) $ ,若多元随机向量 $ X=(X_1,\dots,X_k) $ 的密度函数为
则称 $ X $ 服从参数为 $ \alpha_1,\dots,\alpha_k $ 的Dirichlet分布,记为 $ X\sim Dir(\alpha_1,\dots,\alpha_k) $
- Dirichlet分布是Beta分布发一种推广,当 $ k=2 $ 时Dirichlet分布退化为Beta分布
- 设 $ \displaystyle \tilde{\alpha}=\sum_{i=1}^k\alpha_i,\tilde{\alpha}_i=\frac{\alpha_i}{\tilde{\alpha}} $ ,则 $ E[X_i]=\tilde{\alpha}_i,Cov(X_i,X_j)=\left{\begin{aligned}&\displaystyle \frac{\tilde{\alpha}_i(1-\tilde{\alpha}_i)}{\tilde{\alpha}+1}&i=j\&\displaystyle -\frac{\tilde{\alpha}_i\tilde{\alpha}_j}{\tilde{\alpha}+1}&i\neq j\end{aligned}\right. $
若 $ X_1,\dots,X_n $ 是来自总体 $ X\sim\mathcal N(0,1) $ 的一个样本,称 $ Y=X_1^2+\dots+X_n^2 $ 为服从自由度为 $ n $ 的 $ \chi^2 $ 分布,记 $ Y\sim\chi^2(n) $
根据 $ X_1^2\sim\Gamma(\frac12,\frac12) $ 和 $ \Gamma $ 函数的可加性可得 $ Y\sim\Gamma(\frac n2,\frac12) $
- 若 $ X\sim\chi^2(n) $ ,则 $ E(X)=n,Var(X)=2n $
- 分布可加性:若 $ X\sim\chi^2(m),Y\sim\chi^2(n) $ ,则 $ X+Y\sim\chi^2(m+n) $
随机变量 $ X\sim\mathcal N(0,1) $ 和 $ Y\sim\chi^2(n) $ 相互独立,则随机变量
服从自由度为 $ n $ 的 $ t $ 分布,记 $ T\sim t(n) $
概率密度函数:
当 $ n\to\infty $ 时, $ f(x)\to\frac{1}{\sqrt {2\pi}}e^{-x^2/2} $
随机变量 $ X\sim\chi^2(m) $ 和 $ Y\sim\chi^2(n) $ 相互独立,则随机变量
服从自由度为 $ (m,n) $ 的 $ t $ 分布,记 $ F\sim F(m,n) $
设 $ X_1,\dots,X_n $ 是来自总体 $ \mathcal N(\mu,\sigma^2) $ 的样本,则有
- $ \displaystyle \overline{X}=\frac1n\sum_{i=1}^nX_i\sim\mathcal N(\mu,\frac{\sigma^2}{n}),\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim\mathcal N(0,1) $
- $ \displaystyle \overline{X}=\sum_{i=1}^n\frac{X_i}{n},S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline X)^2 $ 相互独立,且 $ \displaystyle \frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1) $
- $ \displaystyle \frac{\overline X-\mu}{S/\sqrt{n}}\sim t(n-1) $
- 设 $ X_1,\dots,X_m $ 和 $ Y_1,\dots,Y_n $ 分别来自总体 $ \mathcal N(\mu_X,\sigma^2_X),\mathcal N(\mu_Y,\sigma^2_Y) $ 的两个独立样本,令其修正样本方差分别为 $ S_X^2,S_Y^2 $ ,则有 $ \displaystyle \frac{S_X^2/\sigma^2_X}{S_Y^2/\sigma^2_Y}\sim F(m-1,n-1) $
总体 $ X $ 的 $ k $ 阶矩 $ a_k=E[X^k] $ | 样本 $ k $ 阶矩 $ A_k=\frac1n\sum_{i=1}^n X_i^k $ |
总体 $ X $ 的 $ k $ 阶中心矩 $ b_k = E[(X-E(X))^k] $ | 样本 $ k $ 阶中心矩 $ B_k=\frac1n\sum_{i=1}^n (X_i-\overline X)^k $ |
在概率论和统计学中,矩是一个用来描述随机变量分布的重要概念。一般地,k阶矩是指随机变量的k次幂的期望,其中k是一个非负整数。
求解矩是非常有用的,因为它可以帮助我们了解一个随机变量分布的特征。例如,均值(一阶矩)可以告诉我们这个随机变量的中心位置在哪里,方差(二阶矩)可以告诉我们这个随机变量的分布范围大小以及数据的离散程度,偏度(三阶矩)可以告诉我们这个随机变量的偏斜程度,而峰度(四阶矩)可以告诉我们这个随机变量的峰态程度。
因此,通过求解不同阶的矩,我们可以更全面地了解一个随机变量的分布特征,从而更好地理解和分析相关的问题。
可以使用中心矩估计,二阶中心距 $ B_k=\frac1n\sum_{i=1}^n (X_i-\overline X)^k=Var(X) $
Maximum likelihood estimation is a statistical method used to estimate the parameters of a model. The basic idea behind maximum likelihood estimation is to find the parameter values that maximize the likelihood of the observed data. In other words, we seek to find the values of the model parameters that make the observed data most probable.
极大似然估计是一种用于估计模型参数的统计方法。极大似然估计的基本思想是找到使观测数据的似然函数最大化的参数值。换句话说,我们寻找模型参数的值,使得观测数据发生的可能性最大。
样本独立同分布,参数化假设(参数可数且取值有限),可微性假设(似然函数可微),模型合适。
频率主义学派
- 频率主义学派(Frequentist)认为参数虽然未知,但却是客观存在的固定值,因此,可通过优化似然函数等准则来确定参数值
- 贝叶斯学派(Bayesian)则认为参数是未观察到的随机变量,其本身也可有分布,因此,可假定参数服从一个先验分布,然后 基千观测到的数据来计算参数的后验分布
似然函数是 $ X_1=x_1,\dots,X_n=x_n $ 的联合概率密度:
似然函数和概率密度函数都是描述概率的函数,形式相似,但有不同的含义和用途。
概率密度函数描述随机变量在已知参数的条件下的概率分布,而似然函数描述参数在已知数据的条件下的可能取值。在统计建模中,我们通常使用似然函数来推断参数的取值,而使用概率密度函数来计算随机变量的概率分布。
$ D_c $ 训练集中第 $ c $ 类样本的集合,假设独立同分布
例:连续属性,概率密度函数 $ p(x|c)\sim\mathcal N(\mu_c,\sigma_c^2) $ , $ \mu_c,\sigma^2_c $ 的极大似然估计:
训练线性回归、逻辑回归、朴素贝叶斯等模型。
具体训练步骤是:
- 定义模型的假设空间:即模型的函数形式和参数的范围。
- 定义似然函数
- 求解最大似然估计
- 评估模型:交叉验证等方法
缺点:概率分布假设需要准确,样本需要iid,要求数据量大。
贝叶斯估计是一种利用贝叶斯定理进行参数估计的方法。在贝叶斯估计中,我们先假设参数 $ \theta $ 服从一个先验分布 $ p(\theta) $ ,然后根据观测数据 $ X $ ,计算后验分布 $ p(\theta|X) $ ,再从中选择最优的参数值作为估计结果。
贝叶斯估计与极大似然估计的主要区别在于它引入了先验分布,使得估计结果更加准确和稳定。
优点:
- 贝叶斯估计可以引入先验分布,使得估计结果更加准确和稳定,特别是当数据量较少时,先验分布可以在一定程度上抵消数据的不足,避免出现过拟合的问题。
- 贝叶斯估计可以通过后验分布来描述参数的不确定性,这对于一些需要考虑风险和可靠性的应用场景非常重要。
- 贝叶斯估计的方法比较灵活,可以根据具体情况灵活地选择不同的先验分布和后验计算方法。
缺点:
- 贝叶斯估计需要先假设参数的先验分布,这需要对领域知识有一定的了解或者有一些实验结果来支持。如果先验分布假设不合理或者不准确,会导致估计结果的偏差。
- 贝叶斯估计的计算复杂度比较高,需要进行积分计算,计算量通常比极大似然估计要大得多。在大规模数据集上,贝叶斯估计可能会面临计算复杂度的问题。
- 贝叶斯估计的结果不是唯一的,因为先验分布的不同选择会导致不同的后验分布。这可能会给结果的解释和应用带来一定的不确定性。
对数似然函数log-likelihood function
- 可以将乘积转换为求和,简化计算
- 避免数值下溢:由于似然函数通常是由很多个小概率相乘得到,这容易导致数值下溢问题。而对数似然函数可以避免这种情况,因为它将乘积转换为求和,将大量小概率相加。
设 $ X_1,\dots,X_n $ 是来自总体 $ X $ 的样本,令 $ \hat{\theta}=\hat{\theta}(X_1,\dots,X_n) $ 是 $ \theta $ 的一个估计,若
则称 $ \hat\theta $ 是 $ \theta $ 的无偏估计
$ \hat{\theta}_1=\hat{\theta}_1(X_1,\dots,X_n) $ 和 $ \hat{\theta}_2=\hat{\theta}_2(X_1,\dots,X_n) $ 是 $ \theta $ 的两个无偏估计,若 $ Var(\hat\theta_1)\leq Var(\hat\theta_2) $ ,则称 $ \hat{\theta}_1 $ 比 $ \hat{\theta}_2 $ 有效。
[Rao-Crammer不等式] 令
称 $ Var_{0}(\theta) $ 为估计量 $ \hat{\theta} $ 方差的下界,对任意无偏估计量有 $ Var(\hat\theta)\geq Var_0(\theta) $ 。
有效估计量: $ Var(\hat{\theta})=Var_0(\theta) $
令 $ \hat{\theta}=\hat{\theta}(X_1,\dots,X_n) $ 是 $ \theta $ 的一个估计,若当 $ n\to\infty $ 时有 $ \hat{\theta}_n\overset{P}\to\theta $ 成立,即对任意 $ \epsilon>0 $ 有
则称 $ \hat\theta_n $ 为 $ \theta $ 的一致估计量
- [充分性条件] 若 $ \displaystyle \lim_{n\to\infty}E\left[\hat\theta_n\right]=\theta $ 且 $ \displaystyle \lim_{n\to\infty}Var\left(\hat\theta_n\right)=0 $ ,则 $ \hat\theta_n $ 为 $ \theta $ 的一致估计量
对于总体 $ X $ 的分布函数的未知参数 $ \theta $ ,有
则 $ \alpha $ 为置信度; $ \left[\hat{\theta}_1,\hat{\theta}_2\right] $ 为 $ \theta $ 的置信度为 $ 1-\alpha $ 的置信区间。
Hypothesis Testing