概率的潜在语义分析(PLSA),也称为概率潜在语义索引(PLSI,尤其是在信息检索领域),是用于分析双模和共现数据的统计方法。 实际上,人们可以根据对某些隐变量的亲和性来推导出观测变量的低维表示,就像PLSA是从潜在语义分析中演化而来。
考虑到以单词和文档的共现 形式进行的观察,PLSA将每次共现的概率建模为条件独立的多项分布的混合:
其中'c'是单词的主题。值得注意的是,模型的主题数量是一个超参数,必须提前设置而不是从数据中估计。第一个公式是对称式,其中 和 都是以类似的方式从潜变量 生成(基于条件概率 和 );而第二个公式是不对称的 ,对于每个文档 根据 有条件地从文档中选择潜在类 ,然后根据 从该类生成一个单词。虽然在这个例子中我们使用单词和文档建模,但是任何离散变量的共现也可以用完全相同的方式建模。
因此,模型参数的数量等于 ,参数数量随文档数量呈线性增长。此外,尽管PLSA是基于文档集的生成模型,但它并不是新文档的生成模型。
- 分层扩展:
- 生成模型:已经开发了以下模型来解决经常被批评的PLSA缺点——它不是新文档的正确生成模型。
- 潜在狄利克雷分配(LDA)——在每个文档-主题分布上添加狄利克雷先验
- 高阶数据:尽管在科学文献中很少讨论这一点,但PLSA可以自然地扩展到更高阶数据(三种模式或更高阶),它可以模拟三个或更多变量的共现。在上面的对称公式中,这仅需要为这些附加变量添加条件概率分布就可以实现。这是非负张量因子分解的概率类比。
