并行计算论文范文大规模分布并行计算系统容错和恢复技术有关论文写作资料-论文范文网

大规模分布并行计算系统容错和恢复技术是适合不知如何写并行计算方面的相关专业大学硕士和本科毕业论文以及关于并行计算论文开题报告范文和相关职称论文写作参考文献资料下载。

摘要：当前,拥有超级计算能力的计算机系统通常是大型商用系统形成计算机集群.与所有的分布式系统一样,这些系统通过独立的计算机硬件协同合作共同实现超级计算的能力.然而在拥有超级计算能力的同时,集群中的任何一个组件随时都可能失效,从而导致错的输出.为了提高集群在系统出现故障的情况下的鲁棒性,许多容错技术已经被设计和实现,用以处理各种类型的系统故障.本文对各种现有的容错技术进行了总结归纳,以便在此基础之上进行进一步的研究从而适应当前环境下的系统容错.

关键词：容错；并行计算；集群

中图分类号：TP302.8文献标识码：ADOI：10.3969/j.issn.10005641.2014.05.018

收稿日期：201406

基金项目：国家自然科学基金（61332006）

第一作者：张新洲,男,硕士研究生,研究方向为内存数据库系统. Email： 370490819@.com.

通信作者：周敏齐,男,博士,研究方向为内存数据库系统. Email： mqzhou@sci.ecnu.edu.cn.Fault tolerance recovery techniques in large distributed parallel

computing systemZHANG Xinzhou,ZHOU Minqi

（Software Engineering Institute, East China Normal University, Shanghai200062, China）

Abstract：Supercomputing systems today often come in the form of large numbers of commodity systems linked together into a computing cluster. These systems, like any distributed system, can he large numbers of independent hardware components cooperating or collaborating on a computation. Unfortunately,any of this vast number of components can fail at any time, resulting in potentially erroneous output. In order to improve the robustness of supercomputing applications in the presence of failures,many techniques he been developed to provide resilience to these kinds of system faults. This survey provides an overview of these various faulttolerance techniques.

Key words：fault tolerance；parallel computing system；cluster computing

0引言

随着大数据时代的到来,系统所需要承受的计算任务变得越来越复杂,因此系统在硬件技术以及软件优化方案上都有进一步的改善和提高.对于高性能计算机系统来说,为了应对日益增长的数据量规模、逐渐增强的计算复杂度,需要添加越来越多的高性能组件.随之带来的结果是,长时间的运行分布式程序,由硬件失效造成的系统终端失效概率变大,此外,当一个系统应用程序失败时,会消耗更多的恢复成本,因为集群系统中会更多的计算结果都会随之丢失.因此,分布式系统和并行系统双方对于容错机制的支持至关重要,以此来确保大规模计算环境的可用性.

本文专注于集群系统,以及在集群环境下运行的分布式应用程序.集群系统是由大量相同的、集中管理的计算节点通过以太网或者万兆网连接在一起的分布式系统.节点间采用如MPI等软件协助各个节点融入成为一个更大的、统一的集群系统；通常一些节点作为主节点用于管理和用户交互.

在集群环境中,各个节点出现故障的概率较高.任何组件的任何计算节点都有可能出现失效,包括处理器,硬盘,存储器网络接口等硬件.一个节点上的硬件或者软件故障都有可能会影响到整个系统的调度以及造成数据的丢失.第1节将概述这些故障的理论模型.

通常来说可能发生在集群系统中的故障主要有两个基本类别.第1类是集中式的组件故障,例如一个存储节点或者是一个管理软件出现了硬件故障或者软件错误最终导致系统失败.冗余技术可以用于处理这一类故障,即将数据复制到多个节点上.一旦一个节点发生故障,备份的数据可以介入,接管主要的功能,从而保证系统可用性.第2节主要讨论这一类的系统故障.

第2类故障是分布式应用在集群中运行时某个节点突然崩溃或者挂起.这可能是由于应用程序中的漏洞、该节点上的硬件故障,或者是操作系统的问题导致运行在该节点的应用程序无法继续正常工作.但是参加相同计算的其他节点可以继续工作不受影响,不同的是它们不再从故障节点接受输出.面对这样的故障,通过设置程序的检查点来定期检查应用程序的计算状态,完成系统发生故障时的恢复.同时参与计算的其它节点可能需要回滚到较早之前的检查点,使得所有的节点与出现故障的节点恢复的状态是一致的.第3节提供了回滚恢复技术和防止故障发生的详细细节.在第4节对系统设计中的接口与封装进行了阐述.

第5期张新洲,等：大规模分布并行计算系统容错与恢复技术华东师范大学学报（自然科学版）2014年文章第5节和第6节分析了当前内存计算环境下容错技术面临的机遇和挑战,在利用内存高效加载及高速计算的同时需要克服内存的易失性.对Spark系统和Claims系统的容错技术进行了分析.最后对全文进行总结,并对未来工作进行展望.

总结:本论文为您写并行计算毕业论文范文和职称论文提供相关论文参考文献，可免费下载。

参考文献：

1、面向智慧旅游大数据计算系统摘要：现如今经济技术不断发展，我们已经步入大数据时代。如何做好数据提取和运用，成为现在科研的重点。本文通过结合旅游业的发展特点，以大数据的发展背。

2、基于diskgenius下最小系统的数据恢复摘要：在使用存储设备时，用户经常回因为电脑系统故障和存储设备本身故障原因导致数据不能访问或造成存储数据丢失，很多人为了预防数据丢失，选择定期备份。

3、计算机硬盘故障数据恢复技术摘要：计算机技术在发展的过程中，数据存储为其核心技术之一，良好的数据存储对于计算机技术的循环应用，以及应用效率的提升意义重大。当前在实际应用的过。

4、自主驾驶系统结构和关键技术综述摘要：随着汽车的普及，汽车在方便人们的同时也带来了一些问题，如交通安全、城市交通堵塞等问题。随着科技的发展，自主驾驶离我们越来越近，自主驾驶不仅。

5、百万亿次高性能计算系统管理和应用的实践摘要：近几年，各高校级、国家级的高性能计算中心陆续建成，超级计算平台的运维模式也从过去强调计算力向注重降低运营管理成本和提升应用服务水平转变。。

6、区域电网光缆线路智能监测系统的数据传输技术摘要：以区域电网光缆线路智能监测系统为研究对象，对其数据传输技术进行研究。采用数据库技术、计算机技术、GIS技术、网络通信技术、OTDR测试。

关于并行计算论文范文大规模分布并行计算系统容错和恢复技术相关论文写作参考文献

关于并行计算毕业论文范文

相关职称论文题目

关于并行计算开题报告写作参考资料