聚类算法论文范文一种基于密度和约束数据流聚类算法有关论文写作资料-论文范文网

一种基于密度和约束数据流聚类算法是关于对写作聚类算法论文范文与课题研究的大学硕士、相关本科毕业论文聚类分析的应用案例论文开题报告范文和相关文献综述及职称论文参考文献资料下载有帮助。

摘要：文章在传统聚类算法的基础上,提出了一种基于密度和约束的数据流聚类算法——C-DBDStream（Constraint and Density Based Clustering of Data Stream）.该算法使用数据流聚类在线和离线两阶段框架.在线聚类阶段使用衰减窗口模型,对数据流中的数据对象进行初步的聚类,应用约束条件生成微簇,并将实例级的约束扩展到了微簇级,并将结果以快照的形式保存下来为下一阶段做准备；离线聚类阶段则利用微簇级约束规则聚类,采用DBSCAN算法中的密度可达寻找密度连通区域以产生最终结果.经实验证明,和CluStream算法的对比中,C-DBDStream算法提高了聚类效果.

关键词：数据流；聚类；密度；约束

中图分类号：TP311.13 文献标志码：A 文章编号：2095-2945（2018）12-0001-05

Abstract： Based on the traditional clustering algorithm, this paper proposes a data stream clustering algorithm based on density and constraint, C-DBD Stream （Constraint and Density Based Clustering of Data Stream）. The algorithm uses data flow clustering online and offline two-stage framework. In the online clustering stage, the attenuation window model is used to cluster the data objects in the data stream, and the constraint conditions are applied to generate the micro-clusters, and the constraints at the instance level are extended to the micro-cluster level. The results are saved in the form of snapshots and prepared for the next stage. In the off-line clustering stage, the micro-cluster level constraint rules are used to cluster, and the density in DBSCAN algorithm can be used to find the density connected region to produce the final result. Experimental results show that compared with CluStream algorithm, C-DBDStream algorithm can improve the clustering effect.

Keywords： data flow； clustering； density； constraints

随着时代的进步和发展,大数据的发展尤为迅猛,静态数据已经无法满足日益增长的需求,数据流在各个领域的发展和应用越来越广泛.聚类分析是针对数据流挖掘的一种重要手段,数据流聚类算法有以下特点：单边扫描、数据抽象、近似结果、快速处理.已有的数据流聚类算法大都是无监督的学习方法,如果利用一些约束条件,可以改进现有的数据流算法,构造性能优异的半监督数据流聚类算法.

本文在详细分析数据流的特征和约束条件的性质的基础上,对基于约束条件的聚类进行了研究,并提出了一种基于密度和约束条件的数据流聚类算法——C-DBDStream.该算法将聚类过程分为两个阶段：在线部分应用约束条件和衰减窗口模型,将数据流中的数据对象扩展到微簇级,并将结果以快照的形式保存下来；离线部分是在前面的基础上,利用扩展的微簇级约束来聚类,利用DBSCAN算法中的密度可达寻找密度连通区域,聚类出最终结果.最后通过在KDDCup99等数据流上的实验测试,验证了算法的正确性和有效性.

本文第1节介绍算法中的基本概念,第2节给出C-DBDStream算法,详细解析算法的思想和执行过程,第3节提供实验结果及分析,第4节对全文做总结并指出后续的研究.

1 算法使用的基本概念

定义1实例级约束D等于（X1,X2,等,Xn）为一个数据集,（C1,C2,等,Ck）是数据集D的聚类结果,则有ML和CL约束：

?坌ML（Xi,Xj）,1

?坌CL（Xi,Xj）,1

上图的约束关系可以表示为：ML（a,c）、ML（a,e）、ML（I,j）、ML（g,k）、ML（h,f）、ML（b,d）、CL（a,i）、CL（b,h）、CL（c,l）、CL（d,g）.

定义2微簇级约束MC等于（MC1,MC2,等,MCn）为一个微簇集合,（C1,C2,等,Ck）是微簇集MC的聚类结果,那么有ML和CL约束：

?坌ML（MCi,MCj）,1?燮i?燮n,1?燮j?燮n,若MCi∈Cm,1?燮m?燮k,则MCj∈Cm.MCi、MCj必须在同一个簇中；

?坌CL（MCi,MCj）,1?燮i?燮n,1?燮j?燮n,若MCi∈Cm,1?燮m?燮k,则MCi?埸Cm.MCi、MCj必须在不同的簇中.

总结:该文是关于聚类算法论文范文，为你的论文写作提供相关论文资料参考。

参考文献：

1、基于数据统计依据类介词根据按照选择倾向考察摘要：宾语语义类别的差异和语体的不同，制约着“根据”和“按照”的选择倾向。本文运用统计语言学和概率语言学的研究方法，对语料库中介词“根据”“按。

2、一种改进的RDF数据k—hop划分算法摘要：RDF数据k-hop划分算法是基于RDF大图顶点划分的算法，通过数据复制冗余以优化分布式RDF查询处理系统在特定SPARQL查询模式下的查。

3、基于概念聚类的Web数据挖掘搜索引擎的设计和实现摘要：针对Web数据挖掘的搜索过程，其准确度很大程度取决于用户输入的关键词的数量，以及搜索引擎对关键词的语义的解析与用户原意的吻合度，而搜索引。

4、一种用于模拟侧滑角影响限流喷管设计摘要：为研究侧滑对双下侧进气固冲发动机性能的影响，可在连管试验系统上通过使用一系列不同喉径的限流喷管来改变固冲发动机左右进气道流量，从而近似。

5、一种面向医疗大数据云存储容灾平台和实现摘要：为了有效保证医疗大数据的可靠性，本文针对医疗工作中的实际情况，设计开发一个基于RS纠删码的云存储容灾系统，在Hadoop平台架构上实现了。

6、基于聚类分析智慧城市事部件数据 [摘要]在智慧城市的建设过程中，大量运行数据伴随着城市管理事部件的处置产生并积累。为分析此类数据，本文利用聚类分析技术，以温岭市太平街道为例，。

关于聚类算法论文范文一种基于密度和约束数据流聚类算法相关论文写作参考文献

关于聚类算法毕业论文范文

相关职称论文题目

关于聚类算法开题报告写作参考资料