11月在美国盐湖城举行的国际超算大会上,凭借在“神威·太湖之光”上运行的“千万核可扩展全隐式大气动力学”应用,中科院软件所研究员杨超、清华大学副教授薛巍和付昊桓、北师大教授王兰宁等人组成的研究团队摘得了中国超算历史上首个“戈登贝尔奖”。
“戈登贝尔奖”被誉为“超算界的诺贝尔奖”,是对超算应用水平的最大肯定。较之此前中国超算应用的饱受诟病,该奖项的获得有何象征意义?中国超算是否从此走向前列?
带着这些问题,12月9日,《中国科学报》记者在中科院软件所专访了该团队负责人杨超。
中国团队首次入围首次摘奖
《中国科学报》:“戈登贝尔奖”被誉为“超算界的诺贝尔奖”——名字还有点像,但是相比诺贝尔奖,许多人对“戈登贝尔奖”还有些陌生。你理解的“戈登贝尔奖”什么样?它为什么在超算界有如此高的地位?什么样的工作才能获得“戈登贝尔奖”?
杨超:我个人理解,它是高性能计算综合应用的一个奖——它不只强调应用,更强调综合。它在高性能计算领域地位确实很高,比如,我收到“戈登贝尔奖”评委会主席美国宇航局艾姆斯研究中心教授苏博哈什赛尼给我的电子邮件,他在邮件中明确说:“在我看来,这就是高性能计算的诺贝尔奖。”
获得这项锦标需要包含几种因素,缺一不可。第一,硬件水平要足够顶级。这是一个基本要素,历年获得该奖的都是排在世界前列的系统,这也是中国此前很多年没有得奖的原因——中国超算第一次排名世界第一是2010年11月的天河一号A。第二,要在模型、算法和软件上有重要的方法创新,并且要有一个足够合适的应用去展示软件。正所谓硬件搭台软件唱戏,只有软件水平足够高、方法有创新并且对今后的应用有示范意义,入围和得奖的机会才够大。
《中国科学报》:从天河二号到神威·太湖之光,中国超算已经连续4年蝉联全球超级计算机500强榜单榜首,但中国超算应用团队此前还从未入围并摘得“戈登贝尔奖”。我检索到2014年有一项运行在天河二号上的应用入围了该奖项,但其主导者却是一个德国团队。你们团队是首次冲击该奖项吗?
杨超:开个玩笑说,我们团队可能是中国冲击“戈登贝尔奖”经验最丰富的团队了。
我与薛巍、付昊桓的“三人团”早于2011年就组建起来了,后来又结识了北师大王兰宁教授组成了“四人组”。2012年我们决定冲击这个奖项距离评选只有大约半年时间。但当时我们遇到了难题,退而求其次选择了另外一种方法,而且应用没有完全占满整个机器,导致最终没能入围。接下来的这4年多应该说我们一直都在“蛰伏”,积攒力量,想要再冲击一次。
这几年里我们一直密切追踪国内领先的平台——从那时起国内领先就是世界领先了。用得多了我们对这些平台就熟了,往往系统发布之前我们就过去了,几乎每次我们都是最早在这些超级系统上跑应用的。因此,2016年我们是第二次冲击,终于入围并且如愿以偿。
用最复杂的机器突破最难的问题
《中国科学报》:你们团队在“神威·太湖之光”上运行的“千万核可扩展全隐式大气动力学”应用有哪些亮点?是如何在众多应用中入围并脱颖而出的?
杨超:简单说就是,我们在一台高度复杂的机器上挑战了一个高度复杂的方法,“双重复杂”造成了这项工作的复杂度不止是2倍的关系。而且,我们的工作是在一个异构的综合环境下,用隐式方法做出来,这在国际上没有先例,具有示范意义。
去年得奖的工作就采用了隐式方法,这宣告了隐式方法的回归。在异构、众核环境下研究隐式方法是国际上公认的挑战,我们恰恰在这方面取得了关键突破和创新。
简单解释下显式和隐式方法的区别。举个例子,以发动机作比的话,显式方法有点像“小步快跑式”,而隐式方法就是“大步稳跑式”。隐式方法虽然设计难度大,但它更稳定;尤其在大规模计算应用情况下,“小步快跑”的稳定性更容易出现问题。
为什么选择大气动力学作为我们的应用呢?就像发动机一样,得把它装进汽车里才知道它的性能。“大气动力学”就是这辆“汽车”。大气模拟是最经典的高性能计算应用,去挑战大气模拟的什么问题、能达到什么效果等都是有成熟的评价标准的,这让我们的方法能够更清楚地被看到效果,以上我觉得是我们获奖的关键要素。
《中国科学报》:那么这项工作的引领性意义是什么?谁会从中受益?
杨超:用最复杂的机器突破最难的问题,并发展最新的方法,是这项引领性工作的意义所在。也许今天用这种方法的人不多,但或者一两年后会更多,十年后会逐渐普及,甚至个人电脑里都会用这种方法。换句话说,它今天是尖端应用,明天可能变成了中端应用、后天会变成大众应用。
所以这项工作带有前沿探索性。今天我们用“太湖之光”做这项工作,可能十年之后,手机都有1000万核,这真的说不好,没有人能想象,所以它是尖端前沿的探索。
中国已成为HPC领域的领导者之一
《中国科学报》:近年来中国超算在硬件或者说在计算速度方面一马当先,但在应用方面总是听到这样那样质疑的声音。中国2016年才获得第一个“戈登贝尔奖”,会有人问“为什么咱们这么晚才出这种成果,软件为什么滞后了?”我们的应用、软件发展滞后吗?
杨超:是的,软件和应用的相对滞后是学科发展规律使然。刚才我讲“硬件搭台软件唱戏”,没有舞台怎么操练我们的戏码?高性能计算在中国历经20多年的发展,最近几年终于多次取得硬件研制领域的世界第一。不能要求我们舞台刚建好,就要表演很精彩的戏。这需要排练、需要积累经验。软件这种滞后在我看来是正常的。
从我个人体会来看,我们在高性能计算各方面的群众基础在明显变好。我刚读研究生的时候,没人知道并行计算是干什么的。现在呢?手机都是多核的,不做并行计算不行了。我们刚开始做并行计算的时候,周围没多少人做同样的事,同好者很少,但现在越来越多。如今我们去无锡上机,有时候要抢座占座的。
《中国科学报》:这说明放眼全国,超算应用的队伍规模越来越大了。
杨超:我觉得壮大得挺好,但是还可以再壮大。中国人真的很聪明,软件真的可以是我们擅长的事情。印度软件业已经成为他们重要的产业,凭什么不能成为我们的事业?布局好了,我们的未来就会越来越好。
今年我们获得“戈登贝尔奖”,这是个好的开端。这次颁奖,评委会副主席是个日本人(编者注:日本东京工业大学教授松岗聪),他说的一些话让我印象深刻。他说:“这标志着中国正式成为了HPC(高性能计算机)领域的世界领导者之一。”他的表态一方面说明这的确对中国意义重大,另外可以反过来理解:他认为此前中国算不上“世界领导者之一”。
所以我觉得我们还可以有更好的发展空间。我们只是拿了一次“戈登贝尔奖”而已,以后如果能连续拿,我们整体的应用水平就能进一步跟上,空间会更大。
高性能计算将越来越流行
《中国科学报》:目前世界各国都在加紧布局E级计算,中国也当仁不让,制定了2020年实现E级计算设备的宏伟目标。请你展望一下E级计算时代下的超算应用。
杨超:我们“十三五”部署了3台E级超算的原型系统,曙光、天河、神威三驾马车,多条腿走路很好。而且,现在明显能感觉到,我们不先造一台机器再去考虑怎么用,而在造的过程中、甚至造之前搞软件的已经参与进去,包括我们跟他们已经有互动了,这种协同设计的理念,开始生根发芽了。
所以我们的软件跟硬件现在是同步,或者说一起在往前发展,面对的挑战也是一起去面对的。我们不能割裂来看,说造了一个E级机器,它在软件角度有多少挑战,这很难去评价,挑战要共同去面对。
《中国科学报》:这也表明超算的应用越来越广泛,设备越来越工具化了。
杨超:对,高性能计算现在是高度交叉,现在可以交叉到几乎我能想象的所有应用领域。在美国参加一个高性能计算的学术会议,你能想象吗?我看到乐事薯片作了一个学术报告。当时我惊呆了。他们做什么呢?空气动力学模拟。他们在薯片切好之后,要用机器弹射到空中,然后再撒上那些佐料落下来、装盒。他们就设计怎么弹射、什么速度、什么角度,佐料怎么往上撒、怎么撒得匀和……都是数值模拟出来的。为什么乐事能卖世界第一?技术含量在这儿呢。所以说,高性能计算跟日常生活都是息息相关的。