Table Of Contents

Previous topic

主成分分析(PCA)

Next topic

LDA主题模型

This Page

k均值聚类算法

简单但实用的k-means聚类算法。

为提高代数运算速度,使用了numpy包,在ubuntu下使用 sudo apt-get install python3-numpy 安装。

调用

./k-means.py –train data.txt –result result.txt

其它主要参数:

  • --k : 聚类个数
  • --iteration : 迭代次数
  • --nbest : 对每个样本输出最近的n个类别

文件格式

训练文件:每行一个样本,项用空格隔开。第一项的字符串是样本id。后面m项为样本坐标。

结果文件:每行一个文本,每一项用空格隔开。第一项的字符串是样本id。后面的项依次为与样本最近的n个聚类中心的编号。