页面树结构
转至元数据结尾
转至元数据起始

正在查看旧版本。 查看 当前版本.

与当前比较 查看页面历史

« 前一个 版本 5 下一个 »

概述

LDA是一种主题模型。它是一个三层贝叶斯概率模型,包含词、主题和文档三层结构。

它是一种非监督机器学习技术,可以识别出大规模文档集或语料库中的主题。

常用于做文本挖掘聚类分析。


参数设置

参数名称

说明

主题数目

主题数,或者聚类中心数。默认值为2。

迭代次数

模型的迭代次数,达到该迭代次数即退出。默认值为10

文档主题分布

文章分布的超参数(Dirichlet分布的参数),必需>=0,默认值为1。

值越大,推断出的分布越平滑

主题词分布

主题分布的超参数(Dirichlet分布的参数),必需>=0,默认值为1。

值越大,推断出的分布越平滑

示例

使用文本数据,分析主题词分布情况以及各词的概率权重。

  • 无标签