页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

概述

LDA是一种主题模型。它是一个三层贝叶斯概率模型,包含词、主题和文档三层结构。

它是一种非监督机器学习技术,可以识别出大规模文档集或语料库中的主题。

常用于做文本挖掘聚类分析。



面板
borderColor#BBBBBB
bgColor#F0F0F0
borderWidth1
borderStylesolid

目录


参数设置

参数名称

说明

主题数目

主题数,或者聚类中心数。默认值为2。

迭代次数

模型的迭代次数,达到该迭代次数即退出。默认值为10

文档主题分布

文章分布的超参数(Dirichlet分布的参数),必需>=0,默认值为1。

值越大,推断出的分布越平滑

主题词分布

主题分布的超参数(Dirichlet分布的参数),必需>=0,默认值为1。

值越大,推断出的分布越平滑

示例

使用文本数据,分析主题词分布情况以及各词的概率权重。

Image Modified