最大期望算法

最大期望演算法（Expectation-maximization algorithm，又譯期望最大化算法）在统计中被用于寻找，依赖于不可观察的隐性变量的概率模型中，参数的最大似然估计。

在统计计算中，最大期望（EM）算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐变量。最大期望算法经常用在机器学习和计算机视觉的数据聚类（Data Clustering）领域。最大期望算法经过两个步骤交替进行计算，第一步是计算期望（E），利用对隐藏变量的现有估计值，计算其最大似然估计值；第二步是最大化（M），最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中，这个过程不断交替进行。

历史

最大期望值算法由亞瑟·P·丹普斯特，南·萊爾德和唐納德·魯賓在他们1977年发表的经典论文中提出。他们指出此方法之前其实已经被很多作者「在他们特定的研究领域中多次提出过」。

介绍

EM算法用于在方程不能直接求解的情况下寻找统计模型的(局部)最大似然参数。这些模型中较为典型的是含有潜变量，未知参数并且已知观测数据的模型。也就是说，要么数据中存在缺失的值，要么模型可以通过假设存在更多未观测到的数据点来更简单地表示。以混合模型（Mixture Model）为例，通过假设每个观察到的数据点都有一个对应的未观察到的数据点，也可以说是潜在变量，来指定每个数据点所属的混合部分，这样就可以更简单地描述混合模型。

EM简单教程

EM是一个在已知部分相关变量的情况下，估计未知变量的迭代技术。EM的算法流程如下：

初始化分布参数
重复直到收敛：
1. E步骤：根据参数的假设值，给出未知变量的期望估计，应用于缺失值。
2. M步骤：根据未知变量的估计值，给出当前的参数的极大似然估计。

最大期望过程说明

我们用 ${\textbf {y}}$ 表示能够观察到的不完整的变量值，用 ${\textbf {x}}$ 表示无法观察到的变量值，这样 ${\textbf {x}}$ 和 ${\textbf {y}}$ 一起组成了完整的数据。 ${\textbf {x}}$ 可能是实际测量丢失的数据，也可能是能够简化问题的隐藏变量，如果它的值能够知道的话。例如，在混合模型中，如果“产生”样本的混合元素成分已知的话最大似然公式将变得更加便利（参见下面的例子）。

估计无法观测的数据

让 $p\,$ 代表矢量 $\theta$ : $p(\mathbf {y} ,\mathbf {x} |\theta )$ 定义的参数的全部数据的機率密度函數（连续情况下）或者機率質量函數（离散情况下），那么从这个函数就可以得到全部数据的最大似然值，另外，在给定的观察到的数据条件下未知数据的条件分布可以表示为：

p(\mathbf {x} |\mathbf {y} ,\theta )={\frac {p(\mathbf {y} ,\mathbf {x} |\theta )}{p(\mathbf {y} |\theta )}}={\frac {p(\mathbf {y} |\mathbf {x} ,\theta )p(\mathbf {x} |\theta )}{\int p(\mathbf {y} |\mathbf {x} ,\theta )p(\mathbf {x} |\theta )d\mathbf {x} }}

参见

参考文献

Arthur Dempster, Nan Laird, and Donald Rubin. "Maximum likelihood from incomplete data via the EM algorithm". Journal of the Royal Statistical Society, Series B, 39 (1):1–38, 1977 .
Robert Hogg, Joseph McKean and Allen Craig. Introduction to Mathematical Statistics. pp. 359-364. Upper Saddle River, NJ: Pearson Prentice Hall, 2005.
Radford Neal, Geoffrey Hinton. "A view of the EM algorithm that justifies incremental, sparse, and other variants". In Michael I. Jordan (editor), Learning in Graphical Models pp 355-368. Cambridge, MA: MIT Press, 1999.
The on-line textbook: Information Theory, Inference, and Learning Algorithms （页面存档备份，存于），by David J.C. MacKay includes simple examples of the E-M algorithm such as clustering using the soft K-means algorithm, and emphasizes the variational view of the E-M algorithm.
A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models （页面存档备份，存于），by J. Bilmes includes a simplified derivation of the EM equations for Gaussian Mixtures and Gaussian Mixture Hidden Markov Models.
Information Geometry of the EM and em Algorithms for Neural Networks （页面存档备份，存于），by Shun-Ichi Amari give a view of EM algorithm from geometry view point.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

机器学习与

范式监督学习無監督學習線上機器學習元学习半监督学习自监督学习强化学习基于规则的机器学习量子機器學習
问题统计分类生成模型迴歸分析聚类分析降维密度估计异常检测数据清洗自动机器学习关联规则学习語意分析结构预测特征工程表征学习排序学习语法归纳本体学习多模态学习
监督学习 (分类 · 回归) 学徒学习决策树学习集成学习 Bagging 提升方法随机森林 k-NN 線性回歸朴素贝叶斯人工神经网络邏輯斯諦迴歸感知器相关向量机（RVM）支持向量机（SVM）迁移学习微调
聚类分析 BIRCH CURE算法层次 k-平均 Fuzzy 期望最大化（EM） DBSCAN OPTICS 均值飘移
降维因素分析 CCA ICA LDA NMF PCA PGD t-SNE SDL
结构预测圖模式貝氏網路條件隨機域隐马尔可夫模型
异常检测 RANSAC k-NN 局部异常因子孤立森林
人工神经网络自编码器認知計算深度学习 DeepDream 多层感知器 RNN LSTM GRU ESN 储备池计算受限玻尔兹曼机 GAN SOM CNN U-Net Transformer Vision transforme 脉冲神经网络 Memtransistor 电化学RAM（ECRAM）
强化学习 Q学习 SARSA 时序差分（TD）多智能体 Self-play RLHF
与人类学习主动学习众包 Human-in-the-loop
模型诊断学习曲线
数学基础内核机器偏差–方差困境计算学习理论经验风险最小化奥卡姆学习 PAC学习统计学习 VC理论
大会与出版物 NeurIPS ICML ICLR ML JMLR
相关条目人工智能术语机器学习研究数据集列表机器学习概要