更多“简述K-means聚类算法的主要步骤”相关问题
  • 第1题:

    层次聚类算法分为哪两种方法?简述这两个层次聚类算法。


    正确答案:层次聚类算法是假设类别之间存在层次结构,将样本聚到层次化的类中。层次聚类又有聚合或自底向上聚类、分裂或自顶向下聚类两种方法。聚合聚类开始将每个样本各自分到一个类,之后将相距最近的两类合并,建立一个新的类,重复此操作直到满足终止条件,得到层次化的类别。分裂聚类开始将所有样本分到一个类,之后将已有类中相距最远的样本分到两个新的类,重复此操作直到满足停止条件,得到层次化的类别。

  • 第2题:

    简述k-means算法,层次聚类算法的优缺点。


    正确答案:(1)k-means算法:
    优点:算法描述容易,实现简单快速
    不足:
    簇的个数要预先给定
    对初始值的依赖极大
    不适合大量数据的处理
    对噪声点和离群点很敏感
    很难检测到“自然的”簇
    (2)层次聚类算法:
    BIRCH算法:
    优点:利用聚类特征树概括了聚类的有用信息,节省内存空间;具有对象数目呈线性关系,可伸缩性和较好的聚类质量。
    不足:每个节点只能包含有限数目的条目,工作效率受簇的形状的影响大。
    C.URE算法:
    优点:对孤立点的处理能力强;适用于大规模数据处理,伸缩性好,没有牺牲聚类质量。
    缺点:算法在处理大量数据时必须基于抽样,划分等技术。
    R.OCK算法:
    优点:分类恰当,可采用随机抽样处理数据。
    缺点:最坏的情况下时间复杂度级数大。
    基于密度的聚类算法:可识别具有任意形状不同大小的簇,自动确定簇的数目,分离簇和环境噪声,一次扫描即可完成聚类,使用空间索引时间复杂度为O(NlbN)。

  • 第3题:

    K-means算法的缺点不包括()

    • A、K必须是事先给定的
    • B、选择初始聚类中心
    • C、对于“噪声”和孤立点数据是敏感的
    • D、可伸缩、高效

    正确答案:D

  • 第4题:

    K-means算法的叙述正确的是()

    • A、在K-means算法中K是事先给定的,这个K值的选定是非常难以估计的
    • B、在K-means算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化
    • C、对于一个类中的每个对象,在其给定半径的领域中包含的对象不能少于某一给定的最小数目的新的聚类心,因此当数据量非常大时,算法的时间开销是非常大的

    正确答案:A,B,D

  • 第5题:

    K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。


    正确答案:错误

  • 第6题:

    下列哪种算法属于分类算法的范畴().

    • A、Apriori算法
    • B、k-means算法
    • C、kNN算法
    • D、FP-Growth算法

    正确答案:C

  • 第7题:

    下列哪种算法属于聚类算法的范畴().

    • A、Apriori算法
    • B、k-means算法
    • C、kNN算法
    • D、C4.5算法

    正确答案:B

  • 第8题:

    问答题
    写出K-均值聚类算法的计算步骤。

    正确答案: 首先根据最终分类的个数k随机地选取k个初始的聚类中心,不断地迭代,知道达到目标函数的最小值,即得到最终的聚类结果。即:
    1、为中心向量{C1,C2,……,CK}初始化K个种子;
    2、分组:
    1)将样本分配给距离其最近的中心向量;
    2)由这些样本构造不相交的聚类;
    3、确定中心:用各个聚类的中心向量作为新的中心;
    4、重复分组和确定中心的步骤,直至算法收敛。
    解析: 暂无解析

  • 第9题:

    问答题
    按照聚类的原理和方法划分有哪三类聚类算法?各种聚类算法的思想是什么?

    正确答案: 按照聚类的原理和方法来划分聚类算法,分为:
    ①层次聚类;②划分聚类;③基于密度的聚类。
    各种聚类算法的思想如下:
    ①层次聚类:递归的对对象进行合并或者分裂,直到满足某一终止条件。根据二叉树生成的顺序,可以把层次聚类方法分为合并型层次聚类和分解型层次聚类;
    ②划分聚类:给定聚类数目k和目标函数F,划分聚类算法把D划分成k个类,是的目标函数在此划分下达到最优,划分算法把聚类问题转化成一个组合优化问题,从一个初始划分或者一个厨师聚点集合开始,利用迭代控制策略优化目标函数。
    ③基于密度的聚类:根据空间密度的差别,把具有相似密度的点作为聚类。通常只扫描一次数据库。
    解析: 暂无解析

  • 第10题:

    问答题
    简述动态聚类法的基本思想和步骤,在实际应用中如何确定合理的聚类数目?

    正确答案: 基本思想:首先选择若干个样本作为聚类中心,再按照事先确定的聚类准则进行聚类。在聚类过程中,根据聚类准则对聚类中心反复修改,直到分类合理为止。
    步骤:(1)选择凝聚点,凝聚点就是一批有代表性的样品。可以凭经验选择,或将所有样品随机分成k份,计算每一类的均值,将这些均值作为凝聚点;也可以采用最大最小原则或密度法。
    (2)初始分类
    (3)判断分类是否合理,若不合理,则修改分类,重复步骤(2)
    (4)至分类结果合理,结束分类。
    聚类数目的真正确定在于研究的问题是什么,以及事先有无一个大致的判断标准。分类的数目应该符合使用的目的。确定聚类数的问题属于聚类有效性问题。比如在模糊聚类分析中,可以根据方差分析理论,应用混合F统计量来确定最佳分类数。
    解析: 暂无解析

  • 第11题:

    多选题
    主要的数据挖掘算法有()。
    A

    分割聚类法

    B

    ID3算法

    C

    Apriori算法

    D

    遗传算法


    正确答案: B,C
    解析: 暂无解析

  • 第12题:

    问答题
    简述系统聚类与K-means聚类的基本原理。

    正确答案: K.means聚类的基本原理:
    聚类不一定事先确定有多少类;但是K-means聚类却要求先说好要分多少类。看起来有些主观。
    假定分3类,这个方法还进一步要求你事先确定3个点为“聚类种子”(多数软件会自动选种子);也就是说,把这3个点作为三类中每一类的基石。然后根据和这三个点的距离远近,把所有点分成三类。再把这三类的中心(均值)作为新的基石或种子(原来“种子”就没用了),再重新按照距离分类。如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)。显然,前面的聚类种子的选择并不必太认真,它们很可能最后还会分到同一类中。
    解析: 暂无解析

  • 第13题:

    关于聚类算法K-Means和DBSCAN的叙述中,不正确的是( )。

    A.K-Means和DBSCAN的聚类结果与输入参数有很大的关系
    B.K-Means基于距离的概念而DBSCAN基于密度的概念进行聚类分析
    C.K-Means很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇
    D.当簇的密度变化较大时,DBSCAN不能很好的处理,而K-Means则可以

    答案:D
    解析:
    本题考查数据挖掘的基础知识。K-Means和DBSCAN是两个经典的聚类算法,将相似的数据对象归类一组,不相似的数据对象分开。K-means算法基于对象之间的聚类进行聚类,需要输入聚类的个数。DBSCAN算法基于密度进行聚类,需要确定阈值,两者的聚类结果均与输入参数关系很大。DBSCAN可以处理不同大小和不同形状的簇,而K-means算法则不适合。若数据分布密度变化大,则这两种算法都不适用。

  • 第14题:

    若数据量较大,下面哪种方式比较适合()

    • A、系统聚类
    • B、快速聚类(k-means)
    • C、A和B都可以
    • D、A和B都不可以

    正确答案:B

  • 第15题:

    K-means算法叙述正确的是()

    • A、在K-means算法中K是事先给定的,这个K值的选定是非常难以估计的
    • B、在K-means算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化
    • C、对于一个类中的每个对象,在其给定半径的领域中包含的对象不能少于某一给定的最小数目
    • D、从K-means算法框架可以看出,该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销是非常大的

    正确答案:A,B,D

  • 第16题:

    K-Means聚类法要求自变量之间不存在共线性,是因为()

    • A、变量存在多重共线性时无法得到聚类结果
    • B、变量存在多重共线性时无法解释聚类结果
    • C、变量存在多重共线性时,相关变量会在距离计算中占据很高的权重,从而对聚类结果有负面的影响
    • D、变量存在多重共线性时,得到的聚类结果是完全错误的

    正确答案:C

  • 第17题:

    主要的数据挖掘算法有()。

    • A、分割聚类法
    • B、ID3算法
    • C、Apriori算法
    • D、遗传算法

    正确答案:A,B,C

  • 第18题:

    下列算法中,属于关联规则算法的是()。

    • A、Apriori算法
    • B、K-means算法
    • C、C4.5算法
    • D、Page Rank算法

    正确答案:A

  • 第19题:

    以下算法中,不属于分类预测的典型算法的是()

    • A、Logistic回归
    • B、决策树
    • C、K-means算法
    • D、神经网络

    正确答案:C

  • 第20题:

    单选题
    若数据量较大,下面哪种方式比较适合()
    A

    系统聚类

    B

    快速聚类(k-means)

    C

    A和B都可以

    D

    A和B都不可以


    正确答案: A
    解析: 暂无解析

  • 第21题:

    多选题
    K-means算法叙述正确的是()
    A

    在K-means算法中K是事先给定的,这个K值的选定是非常难以估计的

    B

    在K-means算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化

    C

    对于一个类中的每个对象,在其给定半径的领域中包含的对象不能少于某一给定的最小数目

    D

    从K-means算法框架可以看出,该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销是非常大的


    正确答案: A,B,D
    解析: 暂无解析

  • 第22题:

    单选题
    以下哪个聚类算法不属于基于网格的聚类算法()。
    A

    STING

    B

    WaveCluster

    C

    MAFIA

    D

    BIRCH


    正确答案: A
    解析: 暂无解析

  • 第23题:

    单选题
    以下哪个聚类算法不是属于基于原型的聚类()。
    A

    模糊c均值

    B

    EM算法

    C

    SOM

    D

    CLIQUE


    正确答案: C
    解析: 暂无解析

  • 第24题:

    单选题
    K-means算法的缺点不包括()
    A

    K必须是事先给定的

    B

    选择初始聚类中心

    C

    对于“噪声”和孤立点数据是敏感的

    D

    可伸缩、高效


    正确答案: A
    解析: 暂无解析