论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>论文范文>范文阅读
快捷分类: 计算机算法分析论文 算法多样化开题报告 聚类算法文献外文翻译 论文算法重复不出来 遗传算法英文参考文献 des算法参考文献

关于算法论文范文 一种用于多类别划分的中心点选择算法相关论文写作参考文献

分类:论文范文 原创主题:算法论文 更新时间:2024-01-30

一种用于多类别划分的中心点选择算法是关于算法方面的论文题目、论文提纲、算法论文开题报告、文献综述、参考文献的相关大学硕士和本科毕业论文。

摘 要:传统的 K-means 算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动.当类别数目较多时,较好的初始聚类中心点集合的选择更为困难.针对K-means 算法存在的这一问题,该文提出一种用于多类别划分的中心点选择算法(MC-KM).MC-KM通过放大中心点间长距离和短距离的影响的差距,增大短距离的比重,进而选择一个距离其他中心点都较远的样本作为中心点,然后使用传统K-means进行聚类.理论分析与实验结果表明, MC-KM在类数目较多的数据集中能取得更好的聚类结果,并且具有较好的稳定性.

关键词:聚类;MC-KM;K-means算法;初始中心点;相似度

中图分类号:TP181 文献标识码:A 文章编号:1009-3044(2018)12-0188-03

Abstract: The traditional K-means algorithm is sensitive to the initial clustering center, and the clustering results fluctuate with different initial inputs. When the number of categories is large, it is more difficult to choose a good initial cluster center set. Aiming at the problem of K-means algorithm, a central point selection algorithm (MC-KM) for multi class partition is proposed in this paper. By enlarging the gap between the long distance and the short distance between the center points, MC-KM increases the proportion of the short distance, and then selects a sample which is far away from the other center points as the center point, and then uses the traditional K-means to cluster. Theoretical analysis and experimental results show that MC-KM can achieve better clustering results in a large number of data sets, and has better stability.

Key words:cluster; MC-KM;K-means algorithm; initialized clustering centers; similarity

1 背景

聚类[1]是一种无监督学习方法,它将数据分成若干个类,使得同一个类中样本相似度较高,不同类中的样本相似度较低.目前,聚类方法在很多领域都有应用,包括图像模式挖掘、商务推荐、生物基因研究等[2].常用的聚类算法可以分为基于划分的聚类、基于层次的聚类、基于密度的聚类、基于网格的聚类和基于模型的聚类等.

K-means聚类是一种基于划分的聚类方法.该算法采用自下而上的聚类结构,具有简单、速度快等优点,但传统K-means算法初始聚类中心的选择对聚类结果有较大的影响,一旦初始中心点选择的不好,可能无法得到有效的聚类结果.针对K-means算法的初始中心点选择困难以及聚类过程中存在的问题,该文从三个方面进行改进,一是定义新的相似度指标进行类中心点选择;二是多次选择中心点集合,选择相似度最低的中心点集合作为初始中心点集合;三是在聚类过程中,根据相似度剔除错误中心点,并重新选择更优的中心点.

2 相关工作

传统K-means 算法首先从数据集D中随机选择k个样本,每个样本代表一个类的初始中心点,根据距离将D中剩余样本分配到最近的类中,然后以一类中所有样本点均值作为各类新的中心点,重新分配D中对象,迭代该过程直到各个类的中心不再变化,得到k个互不相交的稳定的类.

K-means算法是一个局部搜索过程,其聚类结果依赖于初始聚类中心以及初始划分[2], 并且 K-means算法的最终结果只是相对于初始划分更好,未必是全局最优的划分[3].为了找到更好的中心点,诸多学者做了许多研究.Katsounidis等人[4]提出基于最大最小法的初始中心点选择方法,该方法随机选取第一个中心点,其他中心点通过定义的最大最小指标进行选取.Erisoglu[5]等人通过定义的主轴进行中心点选择,初始中心由两个主轴确定,第一个初始中心为到主轴均值距离最大的样本.Wang[6]利用相异度矩阵构造哈夫曼树,从而选择 K-means算法的初始中心点.Bertalmio等[7]人提出确定性的聚类中心算法,根据样本的局部密度进行中心点的选择,取得了较好的效果.谢等人[8]通过样本方差进行中心点的选择.选择方差小且相距一定距离的样本作为初始中心点.钱等人[9]利用谱方法估计特征中心得到 K-means算法的初始聚类中心.尹等人[8]采取数据分段方法,将数据点根据距离分成k段,在每段内选取一个中心作为初始中心点,进行迭代运算.为了自动确定中心点的个数, Haslbeck等人[12]基于不稳定性方法进行估计类数目.?alik等人[9]考虑了数据的紧凑度和重叠度完成类别划分.Capó等人[10]提出一种用于海量数据下的均值近似计算方法.等人将k均值算法应用于图像和视频中文本信息挖掘.Khanmohammadi等人[11]提出了一个结合调和均值和重叠的混合方法k-均值的算法来解决医疗数据类别重叠的问题.Yeh等人[12]再KHM算法基础上提出快速集中化策略来提高收敛速度和最小的运动策略,有效地搜索更好的解决方案,而不陷入局部最优.Amorim等人[13]采用分布式加權质心的方法进行分布式k均值聚类直观的反应不同程度的不同集群的关联.Gan等人[14]采用k-mean进行离群点检测.Oliveira等人[15]采用加权特征空间的k-均值算法进行Terahertz图像的分割聚类.

总结:这是一篇与算法论文范文相关的免费优秀学术论文范文资料,为你的论文写作提供参考。

参考文献:

1、 一种用于SARADC高能效高面效DAC 摘 要 數模转换器(DAC)是逐次逼近型模数转换器(SAR ADC)能耗的重要来源之一 为了降低DAC能耗,提出一种高能效高面效DAC结构,该。

2、 一种用于金融领域高安全性身份认证系统 摘 要 本论文基于安全芯片和加密机构建一套用于金融领域安全可信的身份认证解决方案,在安全运行环境方面,指静脉设备内置安全芯片,保证设备底层各模块。

3、 一种用于VNETs的内容命名和路由方法 摘 要:在智能车联网环境下,节点具有高度的动态特性,现有的互联网体系架构难以较好的适应这类场景。基于命名数据网络(NDN,Named Data。

4、 一种用于近场EMI测量光电式可调频率探头 摘 要: 现如今印刷电路板(PCB)和电子设备的近场电磁干扰的精确测量是必不可少的。光电式探头可为近场测量提供较好的解决方案,通过结合覆铜箔层压。

5、 一种用于模拟侧滑角影响限流喷管设计 摘 要:为研究侧滑对双下侧进气固冲发动机性能的影响,可在连管试验系统上通过使用一 系列不同喉径的限流喷管来改变固冲发动机左右进气道流量,从而近似。

6、 一种用于结合梁斜拉桥主梁边跨合龙新方法 摘要:本文介绍一种用于结合梁斜拉桥的主梁边跨合龙施工方法,边跨末端梁段不进行悬拼安装,末段钢梁拼装利用落地钢管支架施工,端横梁钢筋混凝土采用脚手。