如何用k均值算法聚类
1、首先我们需要用一款软件,matlab,可以使用2010以上版本,本人用matlabR2014a演示这个方法过程。这个软件可以在网上免费获得,按照方法可以参考别人的经验。
2、数倌栗受绽据准备:一般我们处t理的都是矩阵数据,行代表样本,列代表属性,例如姓名,学号等,如果是金融数据,行可以代表一个个上市公司,列可以是每股利润,净资产收益率等属性,这样就可以组成一个数据矩阵,可以用txt,dat,mat等格式保存放在matlab工作文件夹下,我用的是2.txt代表我所要处理的数据。
3、然后可以用matlab自身的函数处理这个数据,IDX = kmeans(X,k拘七呷憎),X是数据矩阵,k是指定的类数,我们暂时指定为3类,也就是说,我们会把2.txt里面的数据分为3类。弋讥孜求使用下图的语句,我们就实现了把数据分为3类的目的。我们得到一个列向量IDX,这就是最后的类标号,第一个数字2代表了第一个样本属于第二类,以此类推,我们得到了,一系列样本的归属序列。这样就实现了对数据的聚类处理。如果要获得实际的应用意义,还需具体问题具体分析,聚类算法是我们从未知标签数据中获得信息的重要手段。
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
阅读量:71
阅读量:23
阅读量:70
阅读量:21
阅读量:57