回歸分析
迴歸分析(英語:)是一種統計學上分析數據的方法,目的在於了解兩個或多個變數間是否相關、相關方向與強度,並建立數學模型以便觀察特定變數來預測研究者感興趣的變數。更具体的来说,回归分析可以帮助人们了解在只有一个自变量变化时因变量的变化量。一般来说,通过回归分析我们可以由给出的自变量估计因变量的条件期望。
统计学系列条目 |
迴歸分析 |
---|
模型 |
|
|
估计 |
|
背景 |
|
迴歸分析是建立被解釋變數(或稱應變數、依變數、反應變數)與解釋變數(或稱自變數、獨立變數)之間關係的模型。簡單線性回歸使用一個自變量,複迴歸使用超過一個自變量()。
起源
回归的最早形式是最小二乘法,由1805年的勒让德(Legendre)[1],和1809年的高斯(Gauss)出版[2]。勒让德和高斯都将该方法应用于从天文观测中确定关于太阳的物体的轨道(主要是彗星,但后来是新发现的小行星)的问题。 高斯在1821年发表了最小二乘理论的进一步发展[3],包括高斯-马尔可夫定理的一个版本。
「迴歸」一詞最早由法蘭西斯·高爾頓(Francis Galton)所使用[4][5]。他曾對親子間的身高做研究,發現父母的身高雖然會遺傳給子女,但子女的身高卻有逐漸「回歸到中等(即人的平均值)」的現象。不過當時的迴歸和現在的迴歸在意義上已不盡相同。
在1950年代和60年代,经济学家使用机械电子桌面计算器来计算回归。在1970年之前,这种计算方法有时需要长达24小时才能得出结果[6]。
迴歸分析原理
- 目的在於找出一條最能夠代表所有觀測資料的函數曲线(迴歸估計式)。
- 用此函數代表因變數和自變數之間的關係。
回归模型
回归模型主要包括以下变量:
回归模型将和一个关于和的函数关联起来。
在不同的应用领域有各自不同的术语代替这里的“自变量”和“因变量”。
这个估计值通常写作:。
在进行回归分析时,函数的形式必须预先指定。有时函数的形式是在对和关系的已有知识上建立的,而不是在数据的基础之上。如果没有这种已有知识,那么就要选择一个灵活和便于回归的的形式。
假设现在未知向量的维数为k。为了进行回归分析,必须要先有关于的信息:
- 如果以的形式给出了个数据点,当时,大多数传统的回归分析方法都不能进行,因为数据量不够导致回归模型的系统方程不能完全确定。
- 如果恰好有个数据点,并且函数的形式是线性的,那么方程能精确求解。这相当于解一个有个未知量和个方程的方程组。在线性无关的情况下,这个方程组有唯一解。但如果是非线性形式的,解可能有多个或不存在。
- 实际中的情况占大多数。这种情况下,有足够的信息用于估计一个与数据最接近的值,这时当回归分析应用于这些数据时,可以看作是解一个关于的超定方程。
在最后一种情况下,回归分析提供了一种完成以下任务的工具: ⒈找出一个未知量的解使因变量的预测值和实际值差别最小(又称最小二乘法)。
⒉在特定统计假设下,回归分析使用数据中的多余信息给出关于因变量和未知量之间的关系。
迴歸分析的種類
簡單線性回歸
簡單線性迴歸(英語:)
- 應用時機
- 以單一變數預測
- 判斷兩變數之間相關的方向和程度
複迴歸(或多變量迴歸)
複回歸分析(英語:)是簡單線性迴歸的一種延伸應用,用以瞭解一個依變項與兩組以上自變項的函數關係。
對數線性迴歸
對數線性迴歸(英語:),是將解釋變項(實驗設計中的自變項)和反應變項(實驗設計中的依變項)都取對數值之後再進行線性迴歸,所以依據解釋變項的數量,可能是對數簡單線性迴歸,也可能是對數複迴歸。
对数几率回归
对数几率回归(英語:)
偏迴歸
偏迴歸(英語:)
自迴歸
自迴歸滑動平均模型
差分自迴歸滑動平均模型
参考资料
- A.M. Legendre. Nouvelles méthodes pour la détermination des orbites des comètes (页面存档备份,存于), Firmin Didot, Paris, 1805. “Sur la Méthode des moindres quarrés” appears as an appendix.
- C.F. Gauss. Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum. (1809)
- C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae (页面存档备份,存于). (1821/1823)
- Mogull, Robert G. . Kendall/Hunt Publishing Company. 2004: 59. ISBN 0-7575-1181-3.
- Galton, Francis. . Statistical Science (Institute of Mathematical Statistics). 1989, 4 (2): 80–86. JSTOR 2245330. doi:10.1214/ss/1177012581.
- Rodney Ramcharan. Regressions: Why Are Economists Obessessed with Them? (页面存档备份,存于) March 2006. Accessed 2011-12-03.