MATLAB包含kmeans算法聚类工具
返回值
Idx N*1的向量,存储的是每个点的聚类标号
Ctrs K*P的矩阵,存储的是K个聚类质心位置
SumD 1*K的和向量,存储的是类间所有点与该类质心点距离之和
D N*K的矩阵,存储的是每个点与所有质心的距离;
参数
1. ‘Distance’(距离测度)
‘sqEuclidean’ 欧式距离(默认时,采用此距离方式)
‘cityblock’ 绝度误差和,又称:L1
‘cosine’ 针对向量
‘correlation’ 针对有时序关系的值
‘Hamming’ 只针对二进制数据
2. ‘Start’(初始质心位置选择方法)
‘sample’ 从X中随机选取K个质心点
‘uniform’ 根据X的分布范围均匀的随机生成K个质心
‘cluster’ 初始聚类阶段随机选择10%的X的子样本(此方法初始使用’sample’方法)
matrix 提供一K*P的矩阵,作为初始质心位置集合
3. ‘Replicates’(聚类重复次数) 整数
应用代码:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 |
%随机获取150个点 X = [randn(50,2)+ones(50,2);randn(50,2)-ones(50,2);randn(50,2)+[ones(50,1),-ones(50,1)]]; %X为二维下50个点的坐标 opts = statset('Display','final'); %调用Kmeans函数 %X N*P的数据矩阵 %Idx N*1的向量,存储的是每个点的聚类标号 %Ctrs K*P的矩阵,存储的是K个聚类质心位置 %SumD 1*K的和向量,存储的是类间所有点与该类质心点距离之和 %D N*K的矩阵,存储的是每个点与所有质心的距离; [Idx,Ctrs,SumD,D] = kmeans(X,3,'Replicates',3,'Options',opts); %画出聚类为1的点。X(Idx==1,1),为第一类的样本的第一个坐标;X(Idx==1,2)为第二类的样本的第二个坐标 plot(X(Idx==1,1),X(Idx==1,2),'r.','MarkerSize',14) hold on plot(X(Idx==2,1),X(Idx==2,2),'b.','MarkerSize',14) hold on plot(X(Idx==3,1),X(Idx==3,2),'g.','MarkerSize',14) %绘出聚类中心点,kx表示是圆形 plot(Ctrs(:,1),Ctrs(:,2),'kx','MarkerSize',14,'LineWidth',4) plot(Ctrs(:,1),Ctrs(:,2),'kx','MarkerSize',14,'LineWidth',4) plot(Ctrs(:,1),Ctrs(:,2),'kx','MarkerSize',14,'LineWidth',4) legend('Cluster 1','Cluster 2','Cluster 3','Centroids','Location','NW') Ctrs SumD |
效果
牛逼