三均值
在統計學中, 三均值(TM)或图基三均值, 是概率分布中的一個概念, 由如下式定義:
其中, 為數據的兩個四分位點, 為其中位數.
三均值最初由Arthur Bowley在教學中提出, 而後由統計學家John Tukey在其於1997年出版的書籍中推廣, 並在探索性數據分析技術中命名.
同中位數及中軸數 (上、下四分位數)相似, 而相迥於樣本平均值, 三均值是一個有25%崩潰點的具有統計學抗性的L-估計. 三均值的這個屬性十分有用, 正如下面的引述所言.
作為一個分佈的中心的測量值, 三均值的一個優勢是, 它綜合了中位數和中軸數, 既反映了分佈的中心值, 也不失對極端值的注意.
——Herbert F. Weisberg,Central Tendency and Variability[1]
效率
三均值儘管計算簡單, 卻是一個非常有效率的估計人口中值的估計量. 確切而言, 對於從均勻人口中得到的一個大數據集 (超過100個人口數據), 其中位於20%, 50%, 80%百分位數, 是得出人口的L-估计的最高效的3個數, 效率為88%.[2] 相較之下, L-估計中最好的一點估計, 是中位數, 效率為64%或更高; 最高效的兩點估計 (用於一個從均勻人口中獲得的超過100個數據的大數據集), 是用29%中程數 (29%和71%百分位數的平均值), 效率約為81%. 這些最佳估計可以使用中軸數及三均值近似. 當然, 使用相距更遠的點能獲得更高的效率; 總之, 只需要3個點就能獲得較高的計算效率.
參考文獻
- Weisberg, H. F. (1992). Central Tendency and Variability. Sage University. ISBN 0-8039-4007-6 (p. 39)
- Evans 1955,Appendix G: Inefficient statistics, pp. 902–904.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.