1. 聚类分析最著名最广泛的聚类算法
聚类分析法是理想的多变量统计技术,主要有分层聚类法和迭代聚类法。 聚类分析也称群分析、点群分析,是研究分类的一种多元统计方法。 例如,我们可以根据各个银行网点的储蓄量、人力资源状况、营业面积、特色功能、网点级别、所处功能区域等因素情况,将网点分为几个等级,再比较各银行之间不同等级网点数量对比状况。
2. 聚类分析的典型算法
聚类,即将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。在数据挖掘中,聚类也是很重要的一个概念。传统的聚类分析计算方法主要有划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法五种。
3. 最好的聚类算法
k 均值聚类法 快速高效,特别是大量数据时,准确性高一些,但是需要你自己指定聚类的类别数量 系统聚类法则是系统自己根据数据之间的距离来自动列出类别,所以通过系统聚类法 得出一个树状图,至于聚类的类别 需要自己根据树状图以及经验来确定
4. 聚类分析中最著名的使用最广泛的聚类算法是
K-means聚类算法是最著名的划分聚类算法,由于简洁和效率使得他成为所有聚类算法中最广泛使用的。给定一个数据点集合和需要的聚类数目K,K由用户指定,K均值算法根据某个距离函数反复把数据分入K个聚类中。
K-means算法的思想是,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。而K中心点算法通过对K-means算法计算簇的方法加以改进得来,基于最小生成树的K中心点算法通过对K中心点算法求取初始中心点的方法改进得来。
参数:
n_clusters:int型,生成的聚类数,默认为8。
max_iter:int型,执行一次k-means算法所进行的最大迭代数。 默认值为300。
n_init:int型,用不同的聚类中心初始化值运行算法的次数,最终解是在inertia意义下选出的最优结果。默认值为10。
init:有三个可选值:'k-means++'、'random'、或者传递一个ndarray向量。
(1).k-means++:用一种特殊的方法选定初始质心从而能加速迭代过程的收敛
(2).random:随机从训练数据中选取初始质心。
(3).如果传递的是一个ndarray,则应该形如(n_clusters,n_features)并给出初始质心。
默认值为'k-means++'。
tol:float型,默认值=1e-4与inertia结合来确定收敛条件。
n_jobs:int型。指定计算所用的进程数。内部原理是同时进行n_init指定次数的计算。
(1).若值为-1,则用所有的CPU进行运算。若值为1,则不进行并行运算,这样的话方便调试。
(2).若值小于-1,则用到的CPU数为(n_cpus+1+n_jobs)。因此如果 n_jobs值为-2,则用到的CPU数为总CPU数减1。
random_state:整形或 numpy.RandomState 类型,可选。
用于初始化质心的生成器(generator)。如果值为一个整数,则确定一个seed。此参数默认值为numpy的随机数生成器。
5. 三种常见的聚类算法
顶要求是最少二十个样本,十个变量。
1、主成分分析在于对原始变量的线性变换,注意是转换、变换;而因子分析在于对原始变量的剖析,注意是剖析,是分解,分解为公共因子和特殊因子。
2、这两种分析法得出的新变量,也就是成分或者因子,并不是原始变量筛选或者提出后剩余的变量。
3、因子分析只能解释部分变异(指公共因子),主成分分析能解释所有变异(如果提取了所有成分)。
4、主成分分析,有几个变量就至少有几个成分,一般只提取能解释80%以上的成分;因子分析,有几个变量不一定有几个公共因子,因为这里的因子是公因子,潜在的存在与每一个变量中,需要从每一个变量中去分解,无法解释的部分是特殊因子。
5、spss因子分析过程对各变量间量纲和单位造成的影响,默认自动进行标准化处理,因此不必要在开始之前单独进行数据标准化处理,因为,标准化与否结果一致。
6、spss因子分析重要结果:KMO值,此值是否进行计算与变量个数、样本个数有关,不一定会在每次执行中都显示,如没有此结果,可通过调整变量和样本的比例实现。