问题与挑战

高性能计算数据密集型高性能计算在石油勘探、基因测序、遥感信息处理、核子物理研究、天文物理研究等领域扮演着至关重要的角色,在这类计算场景中,计算集群要并发的处理大量采集的原始数据,数据的存储与访问对于整体计算性能起决定性作用。然而随着应用需求提高,数据量的剧增,传统高性能存储方案不同程度上存在着性能不足、难以扩展、成本过高的问题,制约了各类应用的发展。


性能要求极高

终端设备发展使得采集数据量成倍增加,存储系统性能首先需要满足极高的数据采样速率要求;高性能计算的规模通常较大,海量计算作业并发执行,极高的数据并发存取速率使存储系统面临更大挑战。


数据总量巨大

更高精度、更大尺度的要求致使计算数据量指数级增长,二次采样数据从GB级快速攀升至TB级。计算过程中持续产生大量中间结果及检查点数据,需要PB级存储容量才能满足计算需求。


计算模式复杂

不同的应用数据采集方式、存储方式、访问模式差别较大,传统计算与存储分离部署的高性能计算平台方案,很难高效地支持多种类型应用。存储系统的访问接口固化,无法有效实施应用级优化。


成本问题突出

传统高性能计算环境多采用高端存储设备,配置专用存储硬件以满足超高性能需求,某些功能组件还需另购软件授权,存储系统投入极高;同时,限于体系架构,系统扩展成本也难以控制。


  解决方案
高性能计算解决方案

弹性扩展架构

模块化Scale-out架构,容量和性能均可通过节点堆叠而线性扩展,系统节点数目可在线平滑扩充至数千台,支持EB级的单一存储空间;采用存储即计算的融合部署架构,突破性能扩展瓶颈,可提供数百GB/s的聚合存储带宽。

突破性能瓶颈

系统聚合性能随节点数目线性扩展,完美应对高性能计算中常见的大规模并发数据I/O;单流读写性能优化,多磁盘优化调度、前后端SSD缓存,元数据内存存储等多种优化方法,进一步提升系统性能表现。

应用特性优化

弹性部署方式,可根据应用特征构建计算/存储分离、融合、混合部署的存储计算平台;提供专有的Posix客户端及CIFS/NFS等传统网络文件服务接口,无缝对接多种应用;提供多种语言的编程接口,灵活支持应用级存储优化。

通用硬件平台

采用普通商用服务器搭建,支持多种主流互连网络,支持通用文件服务接口,无需昂贵专有设备与软件即可构建高效存储系统;支持高速SSD与低成本的大容量SATA/SAS磁盘混插,兼顾性能与成本,打破制约系统扩展的成本限制。

  方案亮点

融合架构支持

支持存储即计算的架构设计,计算与存储融合部署,共享硬件资源,降低系统成本;同时提供数据位置感知、数据布局可控等功能,支持基于数据分布特征的高效数据处理模式。

超高单流速度

本地优先读写、客户端磁盘缓存、元数据内存优化等多种单流读写性能优化方法,有效降低访问延迟,提升读写速度,解决传统计算程序中单线程数据采集与访问的性能问题。

高效编程接口

提供高效的Java/C++/Python编程接口,类Posix风格,简洁易用,与计算程序可快速整合,提供丰富数据管理功能,实现应用级存储优化。

高速网络支持

支持10G、40G以太网及Infiniband网络互连,充分利用底层网络低延迟、高带宽特性,提升数据访问性能,有效降低网络处理开销。