date: 2019-03-06
集中趋势测度目的在寻找数据水平代表值或中心组,使用一些确切的指标来表明大量数据下整体的状态。
- 平均数
描述定量数据的集中趋势。
这里的平均数指算数平均数。
import numpy as np
nums = [1, 2, 3, 4]
np.mean(nums)
- 中位数
一组数据按照大小顺序排序后,处于数列中点的数值。
import numpy as np
nums = [1, 2, 3, 4]
np.median(nums)
- 四分位数
一组数据按照大小顺序排序后,分成四等份,处于三个分割点位置的数值。
import numpy as np
nums = [1, 2, 3, 4]
np.percentile(nums, [25, 50, 75])
- 众数
一组数据中出现次数最多的变量值。
# numpy 计算
import numpy as np
nums = [1, 2, 3, 4]
counts = np.bincount(nums)
np.argmax(counts)
# scipy 计算
from scipy import stats
stats.mode(nums)[0][0]
离中趋势指一组数据向某一中心值分散的程度,反映了各个数据远离中心点的程度。
- 极差
一组数据中最大值和最小值的差距。
import numpy as np
nums = [1, 2, 3, 4]
np.ptp(nums)
- 四分位距
在一组数据中剔除数列两端$25%$单位标志值后,按照如下公式计算:
反映了数组中间部分各变量值的最大数与最小数距离中位数的平均离差。
- 平均差
数列中各数值与其算术平均数离差绝对值的算术平均数。
- 方差和标准差
方差是数列中各数值与其算术平均数离差平方的算术平均数。
标准差就是方差的开方。
import numpy as np
nums = [1, 2, 3, 4]
var_ = np.var(nums)
std_ = np.std(nums)
- 离散系数——标准差系数(变异系数)
标准差系数是将一组数据的标准差与其算术平均数对比,以测定相对离中程度。
- 偏态
数据分布的不对称性称作偏态,偏态是指数据分布的偏斜方向和程度。偏态通常分为左偏和右偏,是以对称分布为标准的。
偏态系数$SK$是测量偏态的指标。
$ SK = 0 $,分布对称;
$ SK < 0 $,分布左偏;
$ SK < 0 $,分布右偏。
- 峰度
指数据分布的尖峭程度或者峰凸程度。根据变量值的集中和分散程度,峰度一般表现为:尖顶峰度,平顶峰度,标准峰度。
峰度系数$K$是对数据分布尖峭程度的测度。
$ K < 0 $,一般为扁平、瘦尾、肩部较胖;
$ K > 0 $,一般为尖峰、肥尾、肩部较瘦。
- 随机现象
在一定条件下可能发生也可能不发生,结果具有偶然性的现象,称为随机现象。
- 样本空间
随机现象中一切可能结果组成的集合,记作$ \Omega = {\omega}$,其中,$\omega$表示基本结果,称作样本点。
- 随机事件
样本空间中某些元素组成的集合,即由随机现象的某详解结果组成的集合叫做随机事件。是样本空间的子集。
- 随机事件概率
随机事件出现的可能性的度量。
在一定条件下,重复做$n$次试验,$n_A$为$n$次试验总随机事件$A$发生的次数,如果随着$n$逐渐增大,概率$n_A/n$逐渐稳定在某一数值$p$附近,则数值$p$称为随机事件$A$在改条件下发生的概率,记作$P(A) = p$。
当$P(A) = 1$时,随机事件为必然事件;当$P(A) = 0$时,随机事件为不可能事件。
设在同一样本空间$\Omega$下,有两个随机事件,记作$A$和$B$,两个随机事件的概率记作$P(A)$和$P(B)$,事件$A$和$B$同时发生的概率记作$P(AB)$。
- 条件概率
在事件$B$发生的条件下,事件$A$发生的概率称为事件$A$在事件$B$已发生下的条件概率,记作$P(A|B)$。当$P(B) > 0$时,规定$P(A|B) = \frac{P(AB)}{P(B)}$;当$P(B) = 0$时,规定$P(A|B) = 0$。
- 相互独立事件
如果时间$A$与$B$满足$P(A) = P(A|B)$,则称事件$A$关于事件$B$是独立的。
可以推导出当事件$A, B$独立时,有$P(AB) = P(A)P(B)$。独立性是相互的。
- 随机变量
用来表示随机现象结果的变量称为随机变量,常用$X,Y,Z,...$表示。
假如一个随机变量仅取数轴上有限个点或可列个点,则称此随机变量为离散随机变量,或离散型随机变量。
假如一个随机变量的所有可能取值充满数轴上一个区间$(a, b)$,则称此随机变量为连续随机变量,或连续型随机变量,其中$a$可以等于$-\infty$,$b$可以是$+\infty$。
- 随机变量的概率分布
随机变量取值的统计规律称为概率分布。
- 离散型随机变量分布
- 连续型随机变量分布
概率密度函数:$$ f(x) $$;
概率分布函数:$$F(x) = \int_{-\infty}^{x} f(x) dx$$;
- 数学期望
- 离散型随机变量
- 连续型随机变量
若$\int_{-\infty}^{\infty} |x| f(x) dx$收敛,则:
否则,期望不存在。
- 方差和标准差
- 离散型随机变量
- 连续型随机变量
- 标准差
- 性质
在相同条件下,随机对某一测试对象进行多次测试,测得数值在一定范围内波动,其中接近平均值的数据占大多数,远离平均值的占少数,具有这种分布规律的随机变量的分布称为正态分布。
- 概率密度函数
符合上述公式的$X$服从正态分布,记为$X~N(\mu, \sigma^2)$。其中不同的$\mu, \sigma$对应不同的正态分布。
正态分布曲线呈钟形,两头低,中间高,左右对称。
-
对称性:正态分布以$x = \mu$为对称轴,左右完全对称地向两边扩展;
-
非负性:密度函数$f(x)$都处于$O_x$轴的上方;
-
$\mu$ 是正态分布的位置参数,描述正态分布的集中趋势位置。$\sigma$描述正态分布资料数据分布的离散程度,越大分布越分散;越小分布越集中。
- 标准正态分布
当$\mu = 0, \sigma = 1$时,正态分布称为标准正态分布,记作$N~(0,1)$。它的概率密度函数记为:
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
mu = 0
sigma = 1
x = np.arange(-5, 5, 0.1)
y = stats.norm.pdf(x, 0, 1)
plt.plot(x, y)
plt.title('Normal: $\mu$=%.1f, $\sigma^2$=%.1f'%(mu, sigma))
plt.xlabel('x')
plt.ylabel('Probability density')
plt.show()
-
$3\sigma$ 原则
对正态分布$X~N(\mu, \sigma^2)$取值的概率,在区间$(\mu - \sigma, \mu + \sigma), (\mu - 2\sigma, \mu + 2\sigma), (\mu - 3\sigma, \mu + 3\sigma)$内的取值概率分别是$68.3%, 95.7%, 99.7%$。
设独立随机变量$X_1, X_2, ..., X_n$均满足标准正态分布$N(0, 1)$则随机变量$\chi^2 = \sum_{i = 1}^{n}X_{i}^2$的分布称为服从自由度为$n$的$\chi^2$分布,记作$\chi^2 ~ \chi^2(n)$,其分布密度函数为:
- 常用于拟合优度检验
设$XN(0, 1), Y\chi^2(n)$,且$X$与$Y$相互独立,则随机变量为:
其所服从的分布称为自由度为$n$的$t$分布,记作$t ~ t(n)$,其分布密度函数为:
- 在信息不足的情况下,只能用$t$分布,比如在整体方差不知的情况下,对总体均值的估计和检验通常用到$t$统计量。
设$X~\chi^2(n_1), Y~\chi^2(n_2)$,并且$X$和$Y$相互独立,则随机变量所服从的分布称为自由度为$(n_1, n_2)$的$F$分布,记作$F~F(n_1, n_2)$,其分布密度函数为:
- 多用于比例的估计和检验,用于方差分析、协方差分析和回归分析等。
在一定条件下,多个相互独立的随机变量的平均值,服从或近似服从正态分布。即凡是在一定条件下断定随机变量之和的极限分布式正态分布的定理,在概率论中统称为中心极限定理。
- 意义
大量的独立随机变量之和具有近似于正态的分布。
- 隶美弗拉普拉斯积分定理
假设$\mu_n{(n = 1, 2, ...)}$表示$n$重贝努里试验中成功的次数,一直每次试验成功的概率为$p(0<P<1>)$,那么关于$x\in(-\infty, +\infty)$一致,有:
这表明,正态分布式二项分布极限分布。
抽样估计又叫抽样推断,也叫参数估计。
从内涵上来说,包括抽样调查和抽样估计两部分。
抽样调查就是照随机的原则从调查对象的全部单位中抽取部分单位后进行调查,取得各项准确的数据;
抽样估计是指运用数理统计原理,根据抽样调查资料,对研究对象全体的数量特征,作出具有可靠程度的估计和判断,以达到现象总体正确认识的目的。
- 总体
总体是研究对象的全体,是由所研究范围内具有某种共同性质的许多单位组成的集合体。
- 样本
从总体中随机抽取,用以代表总体的部分单位的集合。
随机性:总体中的每一个个体都有相同的机会进入样本。
独立性:从总体中抽取的每个样本对其他样本的抽取无任何影响。
- 抽样方法
重复抽样;不重复抽样。
- 样本容量
样本容量指样本中的单位数。
- 总体指标和样本统计量
总体指标 | 样本统计量 | |
---|---|---|
均值 | ||
方差 | ||
标准差 |
- 抽样误差
指随机抽样的偶然因素使样本各单位的结构对总体各单位结构的代表性差别,而引起的样本统计量和总体指标之间的绝对离差。
- 抽样的平均误差
指抽样平均数的标准差,反映抽样平均数与总体平均数的平均误差程度。
- 抽样估计的理论基础
大数定律证明:如果随机变量总体存在有限的平均数和方差,则对于充分大的抽样单位数$n$,可以几乎趋近$1$的概率来期望抽样平均数与总体平均数的绝对离差为任意小。
设$\varepsilon$为任意小的正数,则:
- 一个样本统计量是否是总体参数的优良估计的三个基本标准:
- 无偏性
如果抽样估计$\hat \theta$ 的期望值等于总体指标$\theta$。
- 有效性
用样本指标估计总体指标时,要求样本指标的方差最小,有效性即最小方差性。
- 一致性
用样本指标估计总体指标,当样本容量增加时,样本指标越来越接近总体指标,称样本指标为总体指标的一致性估计量。
- 抽样估计的精度
抽样估计的准确程度。
- 抽样估计的置信度
抽样误差分为越小,估计置信度越小,反之越大。
以正态分布为例:
如图所示,抽样平均数与总体平均数的误差范围不超过$1\mu, 2\mu, 3\mu$的概率分别为:$P(|\overline x - \overline X| \leq \mu) = 68.27%, P(|\overline x - \overline X| \leq 2\mu) = 95.45%, P(|\overline x - \overline X| \leq 3\mu) = 99.73%$。
当给定$t$时候,能根据对应的函数关系找到抽样误差概率,即估计置信度。
点估计是一种以点代面的估计方法。其特点是根据总体指标的结构形式设计样本指标(统计量)作为总体参数的估计量,并且以样本指标的实际数值直接作为相应总体参数的估计值。
- 优点
简便、易行、原理直观。
- 缺点
任何点估计不是对就是错。
根据样本的分布律,确定$\theta_1, \theta_2$,使总体指标$\theta$包括在区间$[\theta_1, \theta_2]$内的概率$P(\theta_1 \leq \theta \leq \theta_2) = 1 - \alpha$为区间估计。
区间$\theta_1 \leq \theta \leq \theta_2$为置信区间。
置信区间表达了区间估计的准确性,置信系数表达了区间估计的可靠性,是区间估计的可靠概率,显著性水平表达了全进估计的不可靠概率。
- 简单随机抽样
随机从总体$N$中抽取$n$个单位作为样本。
- 分层抽样
先对各单位主要标志分组,然后再从每组随机抽取一定单位构成样本。
- 等距抽样
总体全部单位按照某一标志排列,按固定顺序和间隔抽取调查单位来组成样本。
- 整群抽样
将总体各单位划分为若干群组,以群组为单位随机抽取一些群组组成样本。
- 阶段抽样
分阶段进行抽取,由大阶段到小阶段。
- 概念
根据历史经验,假定总体指标的值,然后根据样本数据,使用某种尺度来检验这种假定是否正确,从而实现对总体指标的分析。
假设检验是对总体指标是否等于某一数值,某一随机变量是否服从某种概率分布作出的假设,然后利用样本资料采用一定的统计方法计算出有关检验的统计量,依据一定的概率原则,以较小的风险来判断数值和总体数值是否存在显著差异,是否应当接受原假设选择的一种检验方法。
假设检验又称显著性检验。
- 基本思想
假设检验两个重要的要素:反证法、小概率事件。
对总体指标进行某种假设,以小概率时间不发生为基准,按照总体的假设和获取的样本数据,通过样本统计量的分布,使用反证法来得出小概率事件在某次抽样中发生的现象,进而对总体指标的假设做出拒绝。
- 基本步骤
- 建立假设
原假设(0假设)$H_0$,即待检验的假设,总包含等于号。
备择假设$H_1$,与原假设对立的假设。
- 选择检验统计量
根据原假设,构造适用于原假设的统计量,称作检验统计量。
- 寻找检验的拒绝域
根据小概率原则,样本统计量落在小概率区域的可能性很小。如果样本统计量一次抽样就落在了这个区域内,就有理由拒绝假设。
确定的拒绝域通常是一个记为$\alpha$的显著性水平,通常取值为$0.05, 0.01$,其越小显著性越强。
- 根据拒绝域和样本统计量值作出判断
小概率时间在一次抽样中就发生了,按照假设其不可能发生,因此根据反证法思想,假设出了问题,就可以拒绝假设。
- 与区间估计的联系
假设检验是从总体进行假设,使用银行本数据进行检验。
区间估计是从样本数据出发,估计总体的参数。
- 两类错误
- 原假设$H_0$为真,但由于随机性样本观测值落在拒绝域中从而拒绝原假设。
- 原假设$H_0$不真,但由于随机性样本观测值落在接受域中从而接受原假设。
-
$P$ 值
计算$P$值后,将给定的显著性水平$\alpha$与$P$值比较,可以做出检验的结论:
-
当$\alpha > P$值,在显著性水平$\alpha$下拒绝原假设;
-
当$\alpha \leq P$值,在显著性水平$\alpha$下接受假设。
-
$Z$ 统计量($\mu$ 统计量)
- 单个正态总体均值检验
设$x_1, x_2, ..., x_n$是来自正态总体$N(\mu, \sigma^2)$的样本,在总体方差已知的情况下,如果对需要总体的均值进行检验,就可以假设$H_0: \mu = \mu_0, H_1: \mu \neq \mu_0$,这次检验可以使用的统计量为:
- 两个正态总体均值之差的检验
设$x_1, x_2, ..., x_m$是来自正态总体$N(\mu_1, \sigma_{1}^{2})$的样本,$y_1, y_2, ..., y_n$是来自另一个正态分布$N(\mu_1, \sigma_{2}^{2})$的样本,在两个总体方差已知的情况下对总体均值之差的检验。
如果$H_0: \mu_1 - \mu_2 = 0, H_1: \mu_1 - \mu_2 \neq 0$,检验的统计量为:
-
$t$ 统计量
- 单个正态总体在方差未知的情况下总体均值的检验
如果$H_0: \mu = \mu_0, H_1: \mu \neq \mu_0$,检验统计量为:
- 两个正态总体均值之差的检验
设$x_1, x_2, ..., x_m$是来自正态总体$N(\mu_1, \sigma_{1}^{2})$的样本,$y_1, y_2, ..., y_n$是来自另一个正态分布$N(\mu_1, \sigma_{2}^{2})$的样本,在两个总体方差未知的情况下,$\sigma_{1}^{2} = \sigma_{2}^{2} = \sigma^{2}, \mu_1 - \mu_2$的检验:
如果$H_0: \mu_1 - \mu_2 = 0, H_1: \mu_1 - \mu_2 \neq 0$,检验的统计量为:
其中:
-
$\chi^2$ 统计量
在原假设成立时,检验统计量服从$\chi^2$分布。
设$x_1, x_2, ..., x_n$是来自正态总体$N(\mu, \sigma^2)$的样本,对其方差的检验:
-
$F$ 统计量
在原假设成立时,检验统计量服从$F$分布。
设$x_1, x_2, ..., x_m$是来自正态总体$N(\mu_1, \sigma_{1}^{2})$的样本,$y_1, y_2, ..., y_n$是来自另一个正态分布$N(\mu_1, \sigma_{2}^{2})$的样本,对两样本总体方差的检验。
如果$H_0: \mu_1^2 = \mu_2^2, H_1: \mu_1^2 \neq \mu_2^2$,检验的统计量为:
方差分析是通过检验各个总体的均值是够相等来判断分类型自变量对数值型因变量是否有显著影响。
- 概念
因素(因子):所要检验的对象
水平(处理):因素的不同表现,因子所处的状态称为因子的水平
一个试验中所考察的因子只有一个,即单因子试验问题
- 原理
假定因子$A$有$r$个水平,在每个水平下指标的全体构成一个总体,因此共有$r$个总体。假定第$i$个总体服从均值为$\mu_i$,方差为$\sigma^2$的正态分布,从该总体获得一个样本量为$m$的样本$y_i1, y_i2, ..., y_im$,其观测值便是观测到的数据$i = 1, 2, ..., r$,最后假定总样本是互相独立的。
主要检验如下的假设:
当$H_0$不真时,表示不同水平下的指标的均值有显著差异,此时称因子$A$是显著的,否则称因子$A$不显著。
对上述问题的方差分析的基本假定是:
-
在水平$A_i$下,指标服从正态分布;
-
在不同水平下,方差$\sigma^2$相等;
-
数据$y_ij$相互独立。
- 原假设
假设每一个因素水平总体的方差相同,且都属于正态总体,即:
其原假设为$H_0: \mu_1 = \mu_2 = ... = \mu_i$
- 统计量
- 全部数据误差平方和:$SST = \sum_{i = 1}^{m}\sum_{j = 1}^{n_i}(x_ij - \overline x)^2$,其中$\overline \frac{1}{n}\sum_{i = 1}^{m}\sum_{j = 1}^{n_i}x_ij$
反映了全部试验数据之间的差异,总离差平方和,总平方和。
- 组间离差平方和:$SSM = \sum_{i = 1}^{m}\sum_{j = 1}^{n_i}(\overline x_{i.} - \overline x)^2 = \sum_{i = 1}^{m} n_i(\overline x_{i.} - \overline x)^2$,其中$\overline \frac{1}{n}\sum_{j = 1}^{n_i}x_ij$
反映每组数据均值和总平均值的误差,组间离差平方和,组间平方和。
- 组内离差平方和:$SSE = \sum_{i = 1}^{m}\sum_{j = 1}^{n_i}(\overline x_{ij} - \overline x_{i.})^2$
反映组内数据和组内平均的随机误差,称为组内离差平方和,误差平方和。
-
$SST = SSE + SSM$ -
$F$ 统计量:
如果因素的不同水平对因变量没有影响,那么组间误差中只包含随机误差,而没有系统误差,组间误差和组内误差经过平均后的数据就会接近$1$。
反之,如果因素的不同水平对因变量有影响,那么组间误差包含了随机误差外,还会包含系统误差,组间误差和组内误差经过平均后的数据就会大于$1$。
由此构建方差分析的检验统计量:
在原假设成立的情况下,有:
- 基本步骤
-
提出假设:$H_0$无差异,$H_1$有差异;
-
进行$F$值检验;
-
计算检验统计量的观测值和概率$P$值;
-
给定显著性水平,得到方差分析结果;
-
对方差分析结果进行对比分析。
- 函数关系
也叫确定性关系,这两个变量中,一个变量值(自变量)确定后,另一个变量值(因变量)也就完全确定了,两个变量间的关系是确定性关系。
- 相关关系
也叫相关关系,指两个变量中,当给定一个变量值后,另一个变量值可以在一定范围内变化。
- 相关系数
随机变量$X$与$Y$样本的相关系数(Person
相关系数)为:
-
当$r = \pm 1$,各个点完全在一条直线上,称两个变量完全线性相关;
-
当$ r = 0 $,两个变量不相关;
-
当$ r > 0$,两个变量正相关;
-
当$ r < 0$,两个变量负相关;
-
$|r| \geq 0.8$ 两个变量高度相关,$0.5 \leq |r| < 0.8$两个变量中度相关,$0.3 \leq |r| < 0.5$低度相关,$|r| < 0.3$相关程度极弱,视为不相关。
- 相关系数的显著性检验
这是总体相关系数,其只能偷偷拿过样本统计量$r$进行估计,所以会有如下的显著性检验过程。
假设$H_0: \rho = 0, H_1: \rho \neq 0$
Person
系数的检验统计量为$t = \frac{r\sqrt{n - 1}}{\sqrt{1 - r^2}}$,它是服从自由度为$ n - 2$的$t$分布,记作$t ~ t(n - 1)$。
- 一元回归模型
- 拟合优度
越接近$1$拟合程度越好