核密度估计

核密度估计（英語：，縮寫：KDE）是在概率论中用来估计未知的密度函数，属於非参数检验方法之一，由Rosenblatt (1955)和Emanuel Parzen(1962)提出，又名Parzen窗（Parzen window）。Ruppert和Cline基于数据集密度函数聚类算法提出修订的核密度估计方法。

100個常態分佈的亂數的核密度估计

核密度估计在估计边界区域的时候会出现边界效应。

在单变量核密度估计的基础上，可以建立风险价值的预测模型。通过对核密度估计变异系数的加权处理，可以建立不同的风险价值的预测模型。

一些比较常用的核函数是：均匀核函数 $k(x)={\frac {1}{2}},\;-1\leq x\leq 1$ ，加入带宽 $h$ 后： $k_{h}(x)={\frac {1}{2h}},\;-h\leq x\leq h$ 。

三角核函数 $k(x)=1-|x|,\;-1\leq x\leq 1$ ，加入带宽 $h$ 后： $k_{h}(x)={\frac {(h-|x|)}{h^{2}}},\;-h\leq x\leq h$ 。

伽马核函数 $k_{x_{i}}(x)={\frac {x^{(\alpha -1)}\exp {(-x\alpha /x_{i})}}{(x_{i}/\alpha )^{\alpha }\Gamma (\alpha )}}$ 。

定义

设 $\left(x_{1},x_{2},\cdots ,x_{n}\right)$ 为从单变量分布中抽取的独立同分布样本，给定点 $x$ 有未知的概率密度 $f$ ，我们对估计函数 $f$ 的形状感兴趣，其核密度估计器是

{\widehat {f}}_{h}(x)={\frac {1}{n}}\sum _{i=1}^{n}K_{h}(x-x_{i})={\frac {1}{nh}}\sum _{i=1}^{n}K{\Big (}{\frac {x-x_{i}}{h}}{\Big )},

其中 $K$ 是非负的核函数，带宽 $h>0$ 为平滑参数。带下标h的核被称为缩放核，定义为 $K_{h}(x)=1/h\cdot K(x/h)$ 。直觉上讲，在数据允许的范围内应当选择尽可能小的带宽；然而，偏差和方差之间总有所权衡。

常用的核函数有：均匀核（Uniform）、三角核（Triangular）、双权核（Biweight）、三权核（Triweight）、Epanechnikov核、正态核（Normal）等。从均方误差的角度来看，Epanechnikov核是最佳的[1]，尽管对于前面列出的核来说，效率的损失很小[2]。由于其数学特性良好，正态核经常被使用，即 $K(x)=\phi (x)$ ，其中 $\phi$ 是标准正态密度函数。

参考文献

唐林俊、杨虎、张洪阳：核密度估计在预测风险价值中的应用 The Application of The Kernel Density Estimates in Predicting VaR，《数学的实践与认识》2005年10期

Epanechnikov, V.A. . Theory of Probability and Its Applications. 1969, 14: 153–158. doi:10.1137/1114019.
Wand, M.P; Jones, M.C. . London: Chapman & Hall/CRC. 1995. ISBN 978-0-412-55270-0.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] Epanechnikov, V.A. . Theory of Probability and Its Applications. 1969, 14: 153–158. doi:10.1137/1114019.

[WJ1995-2] Wand, M.P; Jones, M.C. . London: Chapman & Hall/CRC. 1995. ISBN 978-0-412-55270-0.