成功案例

当前位置:首 页 >> 关于中达 >> 成功案例

中国科学院高能物理研究所高性能计算项目

发布者: 发布时间:2011-11-24 12:03 浏览次数:4261

 

一、系统概述  

  随着计算机科学技术与国民经济的快速发展,高性能计算已经逐渐成为科学研究所必需的辅助工具,在各个基础学科领域发挥出巨大的作用。如在气象气候、地震预报、石油物探、航空航天、工程计算、密码研究、新药设计、生物基因、船舶工程、地质勘探、海洋工程、城市建设、武器研究、材料工程、环境科学等领域,研究工作的计算任务往往公式复杂、计算难度大、计算时间极长,用一般计算方式难于完成,因此高性能计算系统就成为必不可少的工具。

  高性能计算集群(HPCC-High Performance Computing Cluster)是计算机科学的一个分支,以解决复杂的科学计算或数值计算问题为目的,是由多台节点机(服务器)构成的一种松散耦合的计算节点集合。为用户提供高性能计算、网络请求响应或专业的应用程序(包括并行计算、数据库、Web)等服务。

  相比起传统的小型机,集群系统有极强的伸缩性,可通过在集群中增加或删减节点的方式,在不影响原有应用与计算任务的情况下,随时增加和降低系统的处理能力。还可以通过人为分配的方式,将一个大型集群系统分割为多个小型集群分给多个用户使用,运行不同的业务与应用。

  集群系统中的多台节点服务器系统通过相应的硬件及高速网络互连,由软件控制着,将复杂的问题分解开来,分配到各个计算节点上去,每个集群节点独立运行自己的进程,这些进程之间可以彼此通信(通常是利用MPI-消息传递接口),共同读取统一的数据资源,协同完成整个计算任务,以多台计算节点共同运算的模式来换取较小的计算时间。

  根据不同的计算模式与规模,构成集群系统的节点数可以从几个到上千个。对于以国家政府、军方及大型组织机构来讲,节点数目可以达到数千甚至上万。而随着HPCC应用的普及,中小规模的高性能计算集群也慢慢走进中小型用户的视野,高性能计算集群系统的部署,极大地满足了此类用户对复杂运算的能力的需求,大大拓展了其业务范围,为中小型用户的成长提供支持。

二、系统方案设计

   高性能集群系统部门,可向用户提供基于集群管理软件(CMU)的Linux集群系统解决方案。该系统可由公司集群技术部门进行设计和配置,由专业集群系统工程师进行安装、集成和调试。致力于为用户提供基于相对低成本的PC Server的高性能计算系统,并让用户充分利用Linux这种开放的平台以及丰富的开源软件,组建起一套成本经济的、性能强大的、标准开放的集群计算系统,提高计算能力,加快问题求解速度,以解决困扰用户的棘手的计算难题。

 

三、系统技术方案

 

   此方案中,惠普高性能计算集群系统的登陆节点和管理节点由2台HP ProLiant DL380G7机架式服务器构成;计算节点采用混合式搭建方案,即:包含1个高密度GPU计算节点HP SL390s G7、80个高密度刀片式服务器HP BL460(瘦节点)、2个高性能刀片式服务器BL680G7(胖节点);I/O节点由3台HP ProLiant DL380G7机架式服务器构成;登陆/管理节点、计算节点和I/O节点通过10Gb/s 万兆高速互联网络交换数据和存储数据;3个I/O节点可以通过高速光纤网络连接至用户的存储系统来存储海量的计算结果;应用服务器等也可以通过高速网络直接连接至用户的网络系统。

四、系统设计

  整个系统平台包括了计算集群服务器、登陆和管理服务器、存储、网络,以及系统资源管理软件五个部分组成。计算服务器通过网络及资源管理软件组成一个整体的计算环境,通过登陆服务器对外提供计算服务。计算用户访问到登陆服务器提交作业,由资源调度系统根据每个人的权限、优先级、计算资源的状态等参数自动分配作业;特殊情况,由系统管理员人工分配。

 

 

五、系统建设原则及目标
HP高性能集群系统方案设计的原则:
·先进性
并行计算系统是目前业界较为先进的计算体系,是融合了计算、存储、网络与软件的综合体,在构架整个系统的过程中,要保证架构的每个环节采用业界先进且成熟的产品与技术,要均衡各环节之间的关系,消除系统构架的瓶颈,保证整个系统的高效率运行,可以满足未来数年技术和应用发展的需要,保护用户投资。
·高性能
集群系统的重量考核指标是整体性能,即计算、存储、I/O能力与智能管理的体现。系统中所有节点均配置了基于最新六核处理器,保证充足的计算能力;节点间使用万兆网络高速互连,保证了通信密集型并行应用对互连网络的性能要求。
·高可扩展性
集群系统区别于传统SMP/MPP计算体系的独特优势就是优异的扩展性,用户可以根据自己的需求随时增减系统中节点的数量,在将来计算能力需要扩充的时候,只需要增加一定数量的节点数目,即可在不影响当前应用的情况下,扩展整个系统的计算与存储能力。
·环保节能
集群系统是由多个服务器节点、大容量存储及复杂网络构成的大规模应用系统,是一个巨大的耗电/发热体,除了本身的能耗,随之配备的空调系统也是耗电大户。因此,在系统设计之时除了性能效率之外,必须考虑节能与环保的问题以减少对社会环境资源我过多占用与破坏。HP SL6500可扩展服务器的高密度、能量智控、气流导向有效散热与自动管理特性可以使整个系统保持在较低的功耗,减少对电力的消耗、保护社会环境资源。
 
系统建设目标:

  按照以上系统设计原则可以得知,本次GPU高性能计算集群的建设目标是构建一个功能齐全、设备先进、运行高效、节能环保、使用灵活、维护方便、易于扩展、投资省、安全可靠的高性能计算系统。

【返回】【关闭】