1需求简析
本次的方案设计主要是构建一个大规模集中共享的高性能计算数据中心,以满足用户下属各科室的高性能计算需求,从而实现IT资源的最大整合以及最佳优化。
2方案设计原则
本次高性能计算集群方案设计基于以下原则:
l 系统设计充分采用符合国际标准的、先进并且成熟的计算机系统。同时应兼顾实用性,避免盲目追求高精配置。
l 系统设计确保高可靠性、高可用性、高可维护性。应考虑选用稳定可靠的产品和技术,在硬件配置、操作系统、以及系统管理等环节采取严格的安全可靠性措施,保证系统的正常运转。
l 系统设计不仅能满足现阶段的业务要求,而且要能满足将来业务的增长和新技术发展的要求,要在确保系统完整性不受影响的基础上,方便地对系统进行平滑升级、扩容。
l 系统设计具有完善的管理措施和功能,便于设备的安装、配置和维护,以及对各种软硬件资源的分配、调度和管理,提高资源和资产利用率,减轻系统管理人员的工作负担。
3总体技术方案
系统规划拓扑如下:

图一 集群拓扑
此方案中,所有计算需求全部由一套共享的HPC集群提供服务,集群节点数可随业务规模做灵活的横向扩充。
计算集群系统的登录节点由2台HP DL380 Gen9(2*E5-2680 V3/128GB/600GB*4)服务器构成;管理节点由1台HP DL380 Gen9(2*E5-2670 V3/64GB/600GB*4)服务器构成;CPU计算节点由50台HP XL230a Gen9(2*E5-2680 V3/128GB/1TB*1)刀片服务器搭建,放在5个Apollo 6000刀片机箱中;胖节点由4台HP DL380 Gen9(2*E5-2690 V3/512GB/600GB*4)机架式服务器构成;GPU节点由2台HP SL250s Gen8(2*E5-2680 V2/128GB/600GB*4)服务器构成;IO存储节点由3台HP DL380 Gen9(E5-2670 V3/128GB/600GB*4)服务器构成;存储系统选用HP MSA2040存储系统,提供高效的存储性能。
所有的登陆节点、管理节点、计算节点和IO存储节点通过56Gb/s FDR Infiniband网络完成所有的计算交互,通过1Gb/s 千兆以太网实现作业的分发和管理以及最终的数据传输,同时通过千兆网络连接所有设备的管理端口进行监控。
3.1集群系统硬件部分构成
Ø cpu计算节点:50台HP XL230a Gen9(2CPU配置)刀片服务器,刀片放置在5套HP Apollo 6000刀片机箱内;
Ø 胖节点:4台HP DL380 Gen9服务器;
Ø GPU节点:2台HP SL250s Gen8服务器;
Ø 登陆节点:2台HP DL380 Gen9服务器;
Ø 管理节点:1台HP DL380 Gen9服务器;
Ø 计算节点机箱:5套HP Apollo 6000 Classis 5U机架式服务器
Ø 计算网络: 6台36口FDR InfiniBand交换机构成,56Gb/s IB高速以太网络;
Ø 管理网络:2台48口千兆以太网交换机,支持万兆上联;
Ø 监控网络:2台48口千兆以太网交换机;
3.2集群系统软件部分构成
Ø 集群操作系统:Redhat Linux 64位操作系统;
Ø 报警系统:HP ILO4监控软件
Ø 集群管理软件:XRFORMAN集群管理软件
Ø 集群作业调度:XRTORQUE作业调度系统
Ø 并行编译环境:
1) GNU编译器:基于64bit RedHat企业级Linux 6操作系统并兼容32bit系统的GNU Java编译器,GNU C, C++ 编译器、调试器Java开发环境;
2) 并行环境:OpenMP、OpenMPI,MPICH1.2.6,MPICH2等;
3) 数学函数库:Lapack,BLAS,ScaLAPACK,FFTW,GSL等数学库;
4) Intel编译器:基于64bit RedHat企业级Linux 6操作系统并兼容32bit系统的Intel Cluster Studio XE 2013 或以上规格的Intel编译器,支持C/C++;
4系统设备主要构成
4.1登陆节点和管理节点
登陆节点用来分配和管理集群系统的用户帐号和权限,管理节点安装集群管理软件,作为主节点对整个集群进行监控、管理和作业调度等工作,还负责在集群安装的初期对所有的节点服务器进行操作系统及应用软件的大规模快速部署功能,为多台服务器一次安装OS和软件提供极大的便利。本次方案中采用2台HP Proliant DL380 Gen9机架式服务器(2U)做为登录节点,采用1台HP Proliant DL380 Gen9机架式服务器(2U)做为管理节点。
计算节点用于高性能计算,运行并行计算程序,是高性能集群计算系统的主体。占有最大的采购成本,也是系统耗电的主体。本次方案中,计算节点按计算能力需求设计为3种类型的节点:
Ø CPU计算节点(2CPU节点):主要是用来满足常规计算需求,特点是并行颗粒度较大(并行颗粒度=系统计算时间/系统通讯时间),应用相关性较弱,可以很好的实现并行化,且并行效率较高,如CAE领域的流体力学/碰撞学/空气动力等(Fluent、STAR-CD、LS-Dyna、Pamcrash等)。本次方案配置50台HP XL230a Gen9服务器作为cpu计算节点;
Ø 胖节点:适用于对内存、处理性能要求高的计算任务。作为一个整体,服务器多个处理器之间进行数据交换,其速度远远高于节点机,因而具有更高的处理效能。本次方案配置4台HP DL380 Gen9服务器作为胖节点。
Ø GPU节点:本次方案配置2台HP SL250s Gen8服务器作为GPU节点,每台配置2块Nvidia K20 GPU卡;
由于并行集群计算系统对网络间的数据交换要求极高,因此在此集群系统中将融合高带宽低延迟的56Gb/s Infiniband网络用来提高并行计算中的消息传递,采用 6个36口56Gb/s Infiniband交换机构建基于胖树结构的1:1无阻塞IB高速互联通讯拓扑。其中4台叶交换,2台根交换。
为尽可能减少计算网络的数据传输压力,不占用计算网带宽,分发、管理、数据传输及其他非计算类数据传输规划通过单独的千兆管理网络来完成,可由万兆端口上联到核心万兆交换机。
在每个HP刀片机箱上和HP机架式服务器上,都配置有HP统一技术的iLO远程监控模块,表现形式为每个刀片机箱上和每台机架式服务器上都留有一个RJ45的网口。方案规划将刀片机箱的管理端口以及机架式服务器的iLO端口连接独立的1Gb千兆系统监控网,远程监控整个集群的运行状态和对集群进行远程开关机等操作,实现计算网络、管理网络和监控网络的三网隔离。
5集群峰值评估
本次共用的HPC高性能计算集群中cpu计算节点由50片刀片计算节点(不含管理及IO等其他节点)构成,其Linpack理论峰值总和是2.5*16*(12*2*50)=48 Tflops,即48万亿次/秒双精度浮点计算能力;胖节点由4台HP DL380 Gen9构成,其Linpack理论峰值总和为2.6*16*(12*2*4)=3.9936Tflops,即3.9936万亿次/秒双精度浮点计算能力;GPU节点由2台HP SL250s Gen8服务器构成,每台配置2块Nvidia K20 GPU卡,其计算能力为:1.17*2*2=4.68 Tflops,即4.68万亿次/秒双精度浮点计算能力
本次集群总计算能力约为57 Tflops。
(CPU Linpack计算公式:CPU主频 * CPU每个时钟周期执行指令数* 系统总CPU核数);本次的分布式高性能计算集群总计算CPU核心数是12*2*50+12*2*4=1296核心(CPU核心计算公式:CPU核数*CPU个数),不含管理及IO等其他节点。
6集群系统整体架构及主要功能说明
整个系统平台包括了计算集群服务器、登陆和管理服务器、网络、存储以及系统资源管理软件五个部分组成。计算服务器通过网络及资源管理软件组成一个整体的计算环境,通过登陆服务器对外提供计算服务。计算用户访问到登陆服务器提交作业,由资源调度系统根据每个人的权限、优先级、计算资源的状态等参数自动分配作业;特殊情况,由系统管理员人工分配。系统硬件架构及工作流参考示意图如下:

当然,除了硬件之外整个集群的软件系统也尤为重要,系统软件结构层次图如下:
应用软件
|
应用层
|
应用服务
|
|
应用支撑平台
|
集群应用支撑层
|
应用
支撑服务
|
|
PVM
|
MPI
|
OpenMP
|
|
集群系统
基础平台
|
集群系统软件层
|
系统服务
|
|
集群管理系统
|
集群监控系统
|
集群通信系统
|
集群文件系统
|
集群作业调
度系统
|
|
结点系统软件层
|
|
OS
|
编译器
|
函数库
|
系统工具
|
|
硬件固件层
|
硬件服务
|
|
结点
|
网络
|
基础架构
|
存储
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
上述的系统层次图给出了三个视角,即用户视角、系统视角和服务视角。
从用户视角来看,该系统主要由刀片服务器CLUSTER基础平台、并行程序运行的支撑环境和用户的应用程序组成。
从系统视角来看,该系统主要由硬件固件层、结点系统软件层、集群系统软件层、并行编程环境层和应用层。这五层按上述顺序自底向上形成相互支撑。其中硬件固件层主要是指通信软件和外部设备在适配器上的固件程序(Firmware);结点系统软件层主要是指结点操作系统及其核心扩展以及用户编程的工具、环境和库,如操作系统、设备驱动程序扩展、文件系统扩展、编译器、调试器以及函数库等;集群系统软件层主要是指集群操作系统,主要包括系统管理、底层高效通信库、资源和作业管理、系统监控以及集群文件系统等;并行编程环境层主要是指用户并行编程的环境和库,包括并行编程环境和并行数学库等;应用层主要是指仿真工程计算类的实际应用系统。
从服务视角来看,该系统由硬件服务、系统服务、应用环境服务和用户应用服务。从系统视角可见的每一层都有相应的服务层与之对应,具体运行将根据用户的实际需要,提供这四种类型的服务。
7群集软件系统
针对高性能计算的特点,提供一整套解决方案,致力于为客户提供可靠、高效和易扩展的高性能计算平台。通过智能便捷的集群管理工具实现高性能计算平台的自动化安装部署和智能监控,部署的高性能计算平台不仅拥有领先的计算与存储性能,还具有规模弹性扩展,运维简便及低成本等特点。方案强大的适应性和灵活性适用于各种用户对高性能计算、存储的苛刻复杂需求。
l 总体架构
l 软件简介
管理软件分为自动化部署及监控套件、高性能存储文件系统、计算集群等三个部分,并提供统一的用户接口。管理软件采用服务器/客户端架构,服务器提供相应功能的服务客户端通过调用相应服务工作。三个部分既相互完全独立,耦合程度低,用户可以根据物理设备的实际情况以及相应需求自主设定,同时,也可以合为一体提供整套服务。
软件包括如下功能:
1) 自动化安装部署:实现对物理机、虚拟机的操作系统,应用软件的自动化安装部署,软件更新,运行状态分析与统计;
实时运行监视:提供实时计算资源,存储资源,管理服务器状态监视与报警,故障自动剔除。
2) 统一高效作业调度:管理集群计算资源,包括作业接收,资源分配,作业运行监视控,并对作业运行的实时状态进行分析与统计,动态调度策略优化,以达到最高的资源有效利用率。
3) 海量数据存储管理:提供PB量级的存储资源管理,包括高性能I/O,作业I/O效率分析与调的优等功能。
· 自动化运维系统

· 总体监控显示

· 作业调度系统概况

· 统计信息

7.1集群监控管理套件
集群智能监控管理套件包括:实时监控管理系统和自动化运维管理系统,能提供高效,便捷的计算平台管理功能。它具有“一键”系统安装部署,实时软件更新,全方位运行监控,多途径故障报警,强大记账报表等特点。保障高性能计算平台高效且稳定的7x24小时可靠运行。
实时监控管理系统能实时有效监控Linux、Unix、Windows等不同操作系统的主机状态、交换机路由器等网络设置等物理设备。在系统或服务状态异常时发出邮件或短信报警,做到第一时间通知运维人员或系统管理员,并可以在状态恢复后发出正常的邮件或短信通知。

实时监控管理系统实现的功能:
l 集中统一的监控主页,实现监控信息的查看与统计
l 网络服务监控(SMTP、POP3、HTTP、NNTP、PING等)
l 主机资源监控(处理器负荷、磁盘利用率等)
l 应用服务监控(登陆服务、网站运行状态、存储服务等)
l 分组定义监控对象
l 并行服务检查机制
l 当服务或主机问题产生与解决时将告警发送给联系人(通过EMail、短信方式)
l 可配置的灵活报警通知设置(7*24小时,5*8小时)
l 具备定义事件句柄功能,它可以在主机或服务的事件发生时获取更多问题定义
l 自动的报警日志回滚、报警历史
l 基于WEB的统一配置管理
l 可选的安装认证方式
l 分权限监控查看功能
l 实现冗余的高可用冗余监控
l 实现对报警事件的处理注释与查看图:实时监控系统结构图
功能及用户界面:
总体监控主页面显示出所有监控主机和服务的总体统计情况,显示主机和服务被监控的形式、监控执行时间和延迟。这些统计数据可以让管理员对监控环境有一定程度的总体把握。

图.总体监控页面
应用服务监控页面以WEB方式显示当前监控服务的各项性能状态以及统计信息,比如服务名称、持续时间和状态信息等
![I%O[]]M71OM5GSZ@M~H4U)3](/UserFiles/image/%E8%A7%A3%E5%86%B3%E6%96%B9%E6%A1%88/HPC/HPC10.jpg)
图.应用服务监控页面
集群监控管理套件中的自动化运维管理系统是一个可用于数据中心自动化管理的解决方案。软件基于C/S架构,整合了Apache、Ruby、Java、Augeas、Puppet、Factor、Foreman、Git、tftp、Pulp等当今众多最流行开源软件,以Ruby语言为基础,并使用了Java、Python语言的高级功能,开发实现了对数据中心高性能计算系统中计算设备的智能化安装和部署。
主要特点:
1) 大批量计算机操作系统快速高效的自动安装、配置和统一管理;
2) 大批量计算机应用软件的自动安装,配置和统一管理以及版本管理;
3) 对安装管理的所有计算设备运行状态监视,资源使用统计;
4) 可以实现高性能计算集群规模的快速扩容;
5) 降低系统的故障率。

自动化运维管理系统的主要功能:
· 系统概况展示
· 主机和主机组管理
· 操作系统管理
· 功能模块管理
· 配置参数管理
· 安装源管理
· 网络管理
· 用户管理
· 系统资源和系统状态监控
· 日志记录与管理
功能及用户界面:
系统资源和系态监控提供计算机系统资源使用和状态页面,帮助管理员了解整个数据中心的软硬件资源以及系统运维的健康状态。下图可以监视操作系统的版本、系统的架构、系统分布式环境、CPU的数量、硬件的统计、主机组分布等信息。通过这些信息可以快速掌握系统的运行情况。

图. 系统资源和状态监控
单台主机管理页面可以让管理员直观的看到每一台主机的详细信息。

图. 单台主机信息
7.2集群作业调度系统
高性能集群作业管理系统拥有完善的作业调度和资源管理功能,高效分配高性能计算硬件和软件资源。支持CPU单核、多核以及GPU作业调度。丰富的调度策略满足各种复杂的计算应用模式;智能的监控手段不仅使平台运行具有故障自恢复功能,还可以动态调整调度策略,最大化利用计算平台资源。













功能及用户界面:
提供细粒度的监控系统,对集群的基本状态、应用状态,资源利用状态、作业运行状态等均进行了全面实时的监控。监控界面可以实时的展现集群系统的目前状态和历史状态,时间可以精确到每小时、每天、每周等。

图.用户&资源&作业

图.作业占用资源时间
7.3高性能文件系统
高能所高性能文件系统具有高效IO、容量海量扩展、抽象网络、POSIX语义等众多特点。不仅可以提供超高的IO性能,还完美解决了大规模、多用户、并行文件系统中的统一部署、自适应优化、用户行为分析、故障预警、报警、管理流程化等关键问题
高能所高性能文件系统实现分布式Lustre文件系统的集中高效管理。下图显示了高能所高性能文件系统的基本架构和功能模块。高能所高性能文件系统包括服务器和客户端两个部分,其中管理服务器部署在集群管理节点上,管理客户端部署在文件系统的所有组件上,包括元数据服务器MDS,数据服务器OSS和Lustre客户端等。

高能所高性能文件系统包括安装(install)、格式化(format)、启动(mount)、关闭(umount)、查询(query)、配置(configure)、配额管理(quota)、设备检查(check)等功能子项。
用户接口共包括系统概况,性能监控,客户端配置,MDS配置,OSS 配置,用户管理,系统报警,作业分析等功能。
· 系统概况:显示文件系统基本信息、启动时间、拓扑结构、资源使用趋势、整体流量和操作总数等信息。
· 性能监控:显示每台节点的详细性能指标,例如网络流量,磁盘占用率,CPU使用率,系统负载等。用户可以通过树形图,选择需要查看的Lustre组件。
· 客户端/MDS/OSS 配置:包含客户端/MDS/OSS 可配置参数的表单,用于远程提交修改,主要通过后台调用xLustre命令实现。用户通过勾选,实现部分服务器或者客户端的启动、停止和重新启动。通过点击查看,可以看到详细配置,通过点击修改,能够得到包含所有配置选项的表单,并提交修改。
· 资源管理:用于配置用户的使用份额,权限等参数,以及相关用户的资源使用率。
· 系统报警:用于系统中报警信息的显示和历史报警、相关处理操作的查询。
· 作业分析:展示一段时间内的高性能计算集群中作业平均运行状态和运行趋势,例如作业运行效率,CPU使用率等和单个作业的IO模式,运行时间,属主,命令行等静态信息。
· 整体趋势分析和单个作业查询。“整体趋势分析”可根据用户指定的时间段,展示作业效率直方图分布,作业类型的柱状图分布,不同用户/组提交的作业总数等。“作业查询”界面,可以显示用户在一段时间内完成作业的列表,通过点击“查看”,可以在下方显示单个作业的读写分布信息。“导出”按钮可以将作业详情导出到word文件。
高性能计算解决方案
之小规模CAE仿真计算集群
计算机辅助工程(Computer Aided Engineering,CAE),主要用于模拟分析、验证和改善设计。 在近年来电脑与3D计算机辅助设计(Computer Aided Design,CAD)快速发展情况下,CAE应用比例越来越高,使用难度也越来越低,使用者数量大幅成长。 计算过程所使用到的数学方法,如微分方程、有限元素法、有限体积法等全部交由计算机处理。
主要应用领域:
n 应力应变(FEM为主)
n 热流与质传 (FVM为主)
n 电机电子(FDM,ODE)
n 化工与化学(FVM或统计)
n 土木与水工(FEM, FVM, ODE)
n 光学与物理 (FDM,ODE, 统计)
n 微机电或纳米 (量子力学, 统计, 原子物理或化学)
CAE技术可广泛地应用于国民经济的许多领域,像各种工业建设项目,例如工厂的建设,公路、铁路、桥梁和隧道的建设;像大型工程项目,例如电站、水坝、水库、船台的建造,船舶及港口的建造和民用建筑等。它还可应用于企业生产过程之中,及其它的企业经营、管理控制过程中,例如工厂的生产过程、公司的商业活动等。
用户场景:汽车碰撞模拟计算
某汽车碰撞试验室,原有一套HPC集群用于试验室教学和课题研究中LS-DYNA等仿真软件的计算。因为原有集群计算能力不足、作业调度软件不稳定等原因,决定新建一个高性能计算集群。
LS-DYNA是世界上最著名的通用显式动力分析程序,能够模拟真实世界的各种复杂问题,特别适合求解各种二维、三维非线性结构的高速碰撞、爆炸和金属成型等非线性动力冲击问题,同时可以求解传热、流体及流固耦合问题。在工程应用领域被广泛认可为最佳的分析软件包。与实验的无数次对比证实了其计算的可靠性。
业务特性:
Ø 多用户,存储空间分配及权限配置
Ø 计算资源的合理分配、使用和调度策略,占满时期的排队等
Ø 远程提交作业,计算模型的上传和计算结果的下载
业务IT需求:
Ø 原有集群时间久远,运算能力不足;
新建集群,提高模拟仿真的能力,节约计算时间
Ø 原来使用的调度软件稳定性差,无UI界面;
需要一款稳定、易用和高效的作业调度软件
Ø 使用原有集群中的软件网络许可服务器
Ø 必须考虑集群的扩展性
解决方案:

硬件:机架式服务器、Infiniband卡和交换机、千兆交换机
软件:LS-DYNA、MPI和PBS Pro 等
方案扩展:
随业务发展,可根据需要的计算能力增加相应数量的计算节点,简单高效。
预算允许时,还可增加存储,提高数据安全性。
l 成功案例
清华大学某试验室
高性能计算解决方案
之小规模CAE仿真计算集群
计算机辅助工程(Computer Aided Engineering,CAE),主要用于模拟分析、验证和改善设计。 在近年来电脑与3D计算机辅助设计(Computer Aided Design,CAD)快速发展情况下,CAE应用比例越来越高,使用难度也越来越低,使用者数量大幅成长。 计算过程所使用到的数学方法,如微分方程、有限元素法、有限体积法等全部交由计算机处理。
主要应用领域:
n 应力应变(FEM为主)
n 热流与质传 (FVM为主)
n 电机电子(FDM,ODE)
n 化工与化学(FVM或统计)
n 土木与水工(FEM, FVM, ODE)
n 光学与物理 (FDM,ODE, 统计)
n 微机电或纳米 (量子力学, 统计, 原子物理或化学)
CAE技术可广泛地应用于国民经济的许多领域,像各种工业建设项目,例如工厂的建设,公路、铁路、桥梁和隧道的建设;像大型工程项目,例如电站、水坝、水库、船台的建造,船舶及港口的建造和民用建筑等。它还可应用于企业生产过程之中,及其它的企业经营、管理控制过程中,例如工厂的生产过程、公司的商业活动等。
用户场景:汽车碰撞模拟计算
某汽车碰撞试验室,原有一套HPC集群用于试验室教学和课题研究中LS-DYNA等仿真软件的计算。因为原有集群计算能力不足、作业调度软件不稳定等原因,决定新建一个高性能计算集群。
LS-DYNA是世界上最著名的通用显式动力分析程序,能够模拟真实世界的各种复杂问题,特别适合求解各种二维、三维非线性结构的高速碰撞、爆炸和金属成型等非线性动力冲击问题,同时可以求解传热、流体及流固耦合问题。在工程应用领域被广泛认可为最佳的分析软件包。与实验的无数次对比证实了其计算的可靠性。
业务特性:
Ø 多用户,存储空间分配及权限配置
Ø 计算资源的合理分配、使用和调度策略,占满时期的排队等
Ø 远程提交作业,计算模型的上传和计算结果的下载
业务IT需求:
Ø 原有集群时间久远,运算能力不足;
新建集群,提高模拟仿真的能力,节约计算时间
Ø 原来使用的调度软件稳定性差,无UI界面;
需要一款稳定、易用和高效的作业调度软件
Ø 使用原有集群中的软件网络许可服务器
Ø 必须考虑集群的扩展性
解决方案:

硬件:机架式服务器、Infiniband卡和交换机、千兆交换机
软件:LS-DYNA、MPI和PBS Pro 等
方案扩展:
随业务发展,可根据需要的计算能力增加相应数量的计算节点,简单高效。
预算允许时,还可增加存储,提高数据安全性。
l 成功案例
清华大学某试验室