平方公里阵列(Square Kilometre Array,SKA)射电望远镜是将要建设的全球最大的天文大科学装置【1,2】,也是我国将要参加的国际大科学工程之一【3,4】,它将产生前所未有的巨大数据量,每秒钟高达TB量级。由于SKA项目对科学处理器的功耗有严格限制,在运行经费有限的情况下,如何有效地管理、分析和存储如此大规模的数据面临着巨大的技术挑战,这些问题也把射电天文推向了“大数据”的最前沿。 当前射电天文中最先进的数据分析软件系统所能处理的数据量跟SKA第一阶段产生的数据相比低了两到三个数量级,远远不能满足SKA的数据处理需求。为此,由西澳大学ICRAR研究所SKA技术团队牵头包括上海天文台参加在内的国际联合团队研发了一款数据流管理系统,取名为DAliuGE (Data Activated Flow (流Liu) Graph Engine)。DAliuGE的最终目的是为SKA科学数据处理器提供了一个高效的分布式数据管理平台和具有良好拓展性的管线系统执行环境,以低功耗来支持连续的数据密集型科学数据处理,为SKA提供科学预处理产品。DAliuGE采用了“数据驱动”的先进设计理念: 用软件封装数据并启动处理这些数据所需的程序。相当于数据被包装在一个具有活性的软件里,每当一个数据项准备就绪,它就将触发下一个执行任务,该任务不会因为等待数据(到来)而空闲运行。 我台安涛研究员【青促会会员】带领的SKA团队参加了DAliuGE项目的研发工作,完成了Bash APP Drops的应用及DAliuGE逻辑图编辑器的完善、大规模Drops运行算法的优化、以及DAliuGE集群测试程序的完善等工作。2016年6-7月,由SKA团队牵头、在广州超算中心和ICRAR研究所技术团队的协助下,在天河II超级计算平台上成功部署了SKA数据流管理系统DAliuGE并完成了1000计算节点的大规模集成测试,检验了软件系统的稳定性和可扩展性。本次测试即以SKA先导射电望远镜成像管线系统为样板,DAliuGE执行框架中的物理图共包含132874个Drops(Drop是物理图的基本单元,每个Drop对应于成像管线系统的一个应用程序或者一套数据)。在此次测试前,我台SKA技术团队已在澳大利亚Pawsey 超算开展了50个计算节点的大量测试,通过反复实验熟练掌握了DAliuGE系统,解决了DAliuGE多节点运行本地监测、处理多个实际观测数据时逻辑图到物理图转换方法、DAliuGE上执行复杂的Bash脚本程序等问题,并成功地将SKA先导低频射电望远镜数据处理管线系统移植到DAliuGE执行框架,处理得到一批预处理天文图像结果,为后续在大型超算中心开展天文应用研究打下基础。这是SKA核心软件首次完成大规模集成测试,在国际上引起了广泛的关注和积极的反响,得到SKA总部的赞扬,也为将来工程化验证提供了技术支撑。
天河测试物理图
天河测试运行结果图 此次在天河-2超算平台上顺利完成DAliuGE软件系统的测试,表明了DAliuGE能够有效集成SKA天文应用软件并在大规模计算节点上正常运行,从稳定性、可扩展性、可靠性等方面均满足了SKA第一阶段数据预处理的初步要求。下一步将考虑最高用10000节点(注:天河2号的极限能力是16000计算节点)开展全规模验证实验。DAliuGE有望成为首批完成工程化验证的SKA科学数据处理核心软件系统。
|