方差
變異數(英語:)又稱[1]、變方[2],在概率论及统计学中,描述的是一个随机变量的离散程度,即一组数字与其平均值之间的距离的度量,是随机变量与其总体均值或样本均值的离差的平方的期望值。方差在统计中有非常核心的地位,其应用领域包括描述统计学、推論統計學、假說檢定、度量拟合优度,以及蒙特卡洛采样。由于科学分析经常涉及统计,方差也是重要的科研工具。方差是標準差的平方、分布的二阶矩,以及随机变量与其自身的协方差,其常用的符号表示有、、、,以及。[3]
「Variance」的各地常用名稱 | |
---|---|
中国大陸 | |
臺灣 | |
港澳 | |
日本、韓國 | 分散 |
越南 | 分散() |
方差作为离散度量的优点是,它比其他离散度量(如平均差)更易于代数运算;例如,一组不相关的随机变量和的方差等于它们方差的和。在实际应用中,方差的一个缺点是它与随机变量的单位不同,而標準差则单位相同,这就是计算完成后通常采用标准差来衡量离散程度的原因。
有两个不同的概念都被称为“方差”。一种如上所述,是理论概率分布的方差。而另一种方差是一组观测值的特征。观测值通常是从真实世界的系统中测量的。如果给出系统的所有可能的观测,则它们算出的方差称为总体方差;然而,一般情况下我们只使用总体的一个子集(样本),由此计算出的方差称为样本方差。用样本计算出的方差可认为是对整个总体的方差的估计量。
定义
设X为服从分布F的随机变量,如果E[X]是随机变量X的期望值(均值μ=E[X]),则随机变量X或者分布F的方差为X的离差平方的期望值:
这个定义涵盖了连续、离散,或两者皆非的随机变量。方差亦可視作随机变量与自身的协方差:
方差也等价于生成X的概率分布的二阶累积量。方差的常用的表达有,有时作或,也可写作符号或(读作“sigma方”)。方差的表达式可展开如下:
也就是说,X的方差等于X平方的均值减去X均值的平方。该等式不应该用于浮点运算,因为如果等式的两个成分大小相似,将会造成灾难性抵消。
离散随机变量
如果随机变量X是具有概率质量函數的离散随机分布x1 ↦ p1, ..., xn ↦ pn,則:
此處是其期望值,即:
表示實現值(realized value)
當X為有n個相等機率值的離散型均勻分佈時:
n個相等機率值的方差亦可以點對點間的方變量表示為:
特性
方差不會是負的,因為平方運算結果為非負數:
一個常數隨機變數的方差為零。反之,若有限個數組成的資料集方差為零,則其內所有數皆相等。對於一般隨機變數,也有類似結論,即方差為零推出該變數幾乎總是取同一個值:
方差不變於定位參數的變動。也就是說,如果一個常數被加至一個數列中的所有變數值,此數列的方差不會改變:
如果所有數值被放大一個常數倍,方差會放大此常數的平方倍:
兩個隨機變數合的方差為:
此處Cov(X, Y)代表共變異數。
對於個隨機變數的總和:
在样本空间Ω上存在有限期望和方差的随机变量构成一个希尔伯特空间:L2 (Ω, dP),不过这裡的内积和长度跟协方差,标准差还是不大一样。所以,我们得把这个空间“除”常变量构成的子空间,也就是说把相差一个常数的所有原来那个空间的随机变量做成一个等价类。这还是一个新的无穷维线性空间,并且有一个从旧空间内积诱导出来的新内积,而这个内积就是协方差。
总体方差和样本方差
总体方差
一般而言,一个有限的容量为N、元素的值为xi的总体的总体方差为:
其中总体均值为:
总体方差也可用下式计算:
该式成立,是因为:
总体方差与生成该总体的概率分布的方差相匹配。因此,“总体”的概念可推广到具有无限总体的连续随机变量。
有偏样本方差
在许多实际情况下,总体的真实方差无法事先知道,必须以某种方式计算出来。在面对非常大的总体时,不可能计算总体中的每一个元素,因此必须从总体中抽取样本进行计算。[4]样本方差还可以应用于用连续分布的样本来估计该分布的方差。
下面我们从总体中有放回抽取n个数值Y1, ..., Yn,其中n < N,并用该样本来估计总体的方差。[5]直接使用样本数据的方差,得到的是离差平方的均值:
此处,表示样本均值:
由于Yi是随机选取的,和都是随机变量。它们的期望值可以用从总体中抽取的所有可能的容量为n的{Yi}的样本集合来估计。对于即为:
因此,给出的是总体方差的有偏估计量,偏差为。因此,称为有偏样本方差。
一般化
如果X是一个向量其取值范围在實數空间Rn,并且其每个元素都是一个一维随机变量,我们就把X称为随机向量。随机向量的方差是一维随机变量方差的自然推广,其定义为E[(X − μ)(X − μ)T],其中μ = E(X),XT是X的转置。这个方差是一个非负定的方阵,通常称为协方差矩阵。
如果X是一个複數随机变量的向量(向量中每個元素均為複數的隨機變數),那么其方差定义则为E[(X − μ)(X − μ)*],其中X*是X的共轭转置向量或稱為埃尔米特向量。根据这个定义,變異數为实数。
历史
「方差」(variance)这个名词率先由羅納德·費雪(英語:)在论文《》[6]中提出。
后来方差逐渐衍生出了「半方差」(semivariance)、「亚方差」(hypo variance)、「超方差」(super variance)、「圆方差」(circular variance)与「倒方差」(inverse variance)等概念。
参考文献
- . [2023-07-25]. (原始内容存档于2023-07-25).
- . [2023-07-25]. (原始内容存档于2023-07-25).
- Wasserman, Larry. . Springer texts in statistics. 2005: 51. ISBN 9781441923226.
- Navidi, William (2006) Statistics for Engineers and Scientists, McGraw-Hill, pg 14.
- Montgomery, D. C. and Runger, G. C. (1994) Applied statistics and probability for engineers, page 201. John Wiley & Sons New York
- Ronald Fisher(1918)The correlation between relatives on the supposition of Mendelian Inheritance (页面存档备份,存于)
- Fama, Eugene F.; French, Kenneth R. . Fama/French Forum. 2010-04-21 [2022-06-10]. (原始内容存档于2021-07-25).