
“天河一号”系统全景图
“天河一号”入选2009年中国十大科技进展
国际TOP500组织给“天河一号”颁发的“亚洲第一”证书
王宝生代表(右二)在美国波特兰市世界超级计算大会领奖现场
老中青参研人员在研讨
科研人员在工作
“天河一号”机柜阵列
科研人员在作系统调试
□王握文 陈明 司宏伟
今年1月20日,由两院院士投票评选出的2009年“中国十大科技进展”揭晓。国防科学技术大学计算机学院研制的我国首台千万亿次超级计算机系统“天河一号”位居榜首。
两个月前,在国际TOP500组织发布的第34届全球超级计算机500强排行榜中,“天河一号”位居全球第五、亚洲第一。
细心的人们发现,在排名前10位的机器中,“天河一号”是唯一的非美国产品;在全球各大洲的“第一”中,只有“亚洲第一”贴着Made in China(中国制造)的标签,其他则都是清一色的美国机器。中国,从此成为世界上继美国之后第二个能够研制千万亿次超级计算机系统的国家。
对此,国际TOP500组织创始人汉斯·摩尔(Hans Meuer)用“令人惊奇”作出了他的评价。
Hans Meuer也许不知道,中国只用了短短4年时间,实现了超级计算机速度从百万亿次到千万亿次的技术跨越,让“天河一号”一举跻身世界前五强。
从这个意义上看,“天河一号”入选2009年“中国十大科技进展”之首可谓名副其实。它是我国科技工作者献给新中国六十周年华诞的一份厚礼,是我国战略高技术和大型基础科技装备研制领域取得的一项重大自主创新成果。“天河一号”的诞生为解决我国经济、科技等领域重大挑战性问题提供了重要手段,对提升综合国力具有重要战略意义。
超前谋划 抢占先机
这是一个值得纪念的时刻。
2009年11月18日9时许,美国西部城市波特兰。世界超级计算大会正在这里召开,国际TOP500组织在会上发布前500强排行榜后,给排名各大洲第一的机器颁发证书。国防科技大学计算机学院王宝生教授上台领取“No.1 in Asia”(“亚洲第一”)证书后高高地举起,会场上响起热烈的掌声。
“那感觉就像是在奥运会拿了一个大大的奖牌,可惜没有奏国歌。”王宝生说,那一刻,他有一种从未有过的荣幸与自豪。
消息传到学校,全校师生兴高采烈。然而,“天河一号”的决策者和研制者心里清楚:如果没有瞄准国际先进水平的超前谋划与部署,就不可能为祖国赢得今天的荣誉。
当今世界,高性能计算已成为理论和试验之外的第三种科学研究手段,各大国不惜投入巨资研制开发更高性能的超级计算机,以提升综合国力和科技竞争力。面对建设创新型国家对高性能计算的迫切需求,国防科大计算机学院勇敢地站在了突破千万亿次超级计算机系统的起跑线上。
这支被中央军委授予“科技攻关先锋”荣誉称号的创新团队,有着令人瞩目的创新历史。1983年11月,他们研制出我国第一台亿次巨型计算机“银河—Ⅰ”,实现了我国巨型机零的突破,之后又相继研制出不同量级的“银河”系列巨型机,一步步将我国巨型机研制水平推向世界前列。
在日新月异、竞争激烈的超级计算机研制领域,他们清醒地知道,要实现千万亿次级的计算速度,将比过去任何一次跨越都要艰难得多。
瞄准国际前沿,超前谋划部署,加强技术积累,抢占战略制高点。2006年,在国际超级计算机速度还未实现千万亿次突破时,他们已经吹响了攻克千万亿次超级计算机系统的冲锋号。
“巨型计算机的发展规律是每10年性能提高1000倍。2000年的国际先进水平是1万亿次,那么到2010年肯定会达到千万亿次级。我们感到,要占领制高点,必须尽快开始研制千万亿次计算机。” “天河一号”总设计师、国防科大副校长杨学军说。
为此,他们根据国际高性能计算发展趋势与最新动态,组织专家教授进行深入论证,将国际上公认的主要技术难题作为创新的突破口,成立多个课题组,组织精干的技术力量,在国家自然科学基金创新研究群体科学基金的支持下,开始了“千万亿次高性能计算关键技术”项目的研究。针对高性能计算发展的前沿技术、关键技术和新兴交叉技术等方面开展基础研究和前沿探索,相继突破了大规模可扩展共享存储体系结构、流计算模型的体系结构等一系列技术难题,为研制更高性能的超级计算机奠定了坚实的技术基础。
2007年11月,美国IBM公司“走鹃”(Roadrunner)问世,峰值计算速度达到每秒1456万亿次,把世界超级计算机的速度从百万亿次带入了千万亿次时代。此时,国防科大计算机学院也完成了千万亿次超级计算机系统的相关技术攻关。
机遇总是垂青有准备的头脑。当我国将发展千万亿次超级计算机系统列入《国家中长期科学和技术发展规划纲要》时,国防科大计算机学院凭借充分的技术储备和先进的研制方案,顺利获得国家“863”计划重点课题的支持。
2009年10月,我国首台千万亿次超级计算机系统——“天河一号”在国防科大横空出世,比预计时间提前了一年。
异构协同 巧妙结合
峰值性能每秒1206万亿次双精度浮点运算,其基准实测(Linpack)速度高达每秒563.1万亿次。“天河一号”一天的计算量,当前主流的双核微机要算160年。
如此强大的计算能力从哪里来?其奥秘就在于“天河一号”采用了多阵列、可配置、协同并行体系结构。它将全系统分为计算阵列、加速阵列、服务阵列,通过实现“CPU(通用中央处理器)+ GPU(通用图形处理器)”的异构协同计算,融合多种计算资源并对其灵活配置,最大限度提高了计算效能。
“‘天河一号’和美国的‘走鹃’虽然都是异构,但‘天河一号’是第一台把CPU和GPU融合进行双精度浮点高性能计算的计算机。传统上,CPU是用来计算的,GPU是用来进行图形处理的。但我们让CPU和GPU协同进行计算工作,这是一条世界上全新的技术路子。”“天河一号”副总设计师、国防科大计算机学院院长廖湘科说。
全新的异构设计方案前无古人,刚开始提出来时,很多专家并不看好,设计者们也没有十分的把握,在国际高性能计算领域也存在着不同的观点。
2007年盛夏,大洋彼岸的美国圣地亚哥,一篇来自中国国防科大的学术论文《64位流处理器体系结构研究》在“国际计算机体系结构年会”上引起轰动。这是近10多年来中国内地学者首次独立在这一顶尖水平会议上发表的成果,正是这一成果,确定了异构结构的可行性。
然而在研制过程中,当科研人员按照异构协同的设计思想将两类处理器捆绑起来,第一次进行异构协同计算试验时,其结果却令人沮丧,GPU只能发挥出20%的计算效能。虽然这是国际上公认的正常水平,但科研人员却心有不甘。
研制满足国家重大战略计算需求的千万亿次超级计算机,必须闯过体系结构创新关。2009年4月,负责性能优化工作的技术骨干找到一处地方,展开封闭式攻关。10多名科研人员在与外界隔绝的状态下,对多种型号的加速器逐一进行了全面而烦琐的测试、改进。忘记了外面世界的精彩与喧嚣,没有了星期天和节假日的休闲与惬意。然而,加速器的计算效率却在他们的努力下,缓慢却不停地向上攀升。
“每过一个星期,GPU的计算效能都可以提高1到5个百分点,我们越来越有信心。3个月后,涨到了58%。”负责测试工作的杨灿群教授十分兴奋。最终,科研人员采用混合语言编程技术,通过自适应动态任务划分、流式数据存取、软件流水及亲和调度等技术,实现了计算核心异构协同、系统资源有效配置,一举将GPU的计算效率从国际上通常的20%提高到70%。
正是这一加速性能的提高,让“天河一号”的实测性能得以达到位居世界第五的每秒钟563.1万亿次。
这是一个刷新世界纪录的数字,生产GPU的国外厂家也很受鼓舞,提出与国防科大联合开展进一步的研究。
美国斯坦福大学计算机系主任、NVIDIA公司首席科学家比尔·戴利(Bill Dally)说:“中国的天河计算机采取的CPU与GPU融合的结构代表了未来高性能计算机的发展趋势。随着计算机规模的不断拓展,这种结构虽然不是唯一的解决方法,但目前看来是最好的。我以前对中国国防科大的了解大多来自学术文章。我希望今后能和他们在软件开发和更广阔的应用领域进行合作。”
实用好用 潜力巨大
在国防科大计算机学院一间近千平方米的大型机房里,由103个机柜组成的“天河一号”呈矩形排列,犹如阅兵盛典中气势如虹的方队;成千上万的指示灯频频闪烁,宛如一条绿色的人间“天河”。
“天河一号”工程办公室主任李楠告诉记者:“天河一号”具有高性能、高能效、高安全和易使用等显著特点。它一天的计算量,目前的主流微机需要不间断计算160年才能完成,其存储量相当于4个国家图书馆(藏书量为2700万册)之和,可以为全国13亿人每人存储1张高清晰照片。它的互联通信带宽高达每秒3200亿比特,相当于一秒钟下载5部高清电影,传完8万册25万字的图书。
除了高性能,“天河一号”的高能效和高安全性同样骄人。其能效比为每瓦功耗产生4.3亿次计算能力,在节能技术方面进入了世界先进行列,在最新超级计算机能效比(GREEN500)排行榜中,“天河一号”排名第八,而同时进入TOP500和GREEN500榜单十强的超级计算机,只有美国的“走鹃”和中国的“天河一号”。
“天河一号”采用自主研发的操作系统,安全标准达到目前国内最高的B2等级。系统通过软件安全隔离和虚拟域技术,还构造了相互隔离的独立工作空间,有效满足了开放网络环境下的保密要求。也就是说,用户在“天河一号”上工作,相当于租了一个保险箱。
为了让“天河一号”实用、好用,科研人员首次在“天河一号”中实现了并行可视化技术,实现了海量数据的三维实时交互可视化显示,开发了一体化应用集成开发环境,为用户提供标准的应用接口,国际通用软件不需复杂移植即可上机运行,从而大大降低了用户使用的技术门槛。记者在现场看到,科研人员将多种气象观察资料输入计算机进行资料同化和模式计算后,显示屏上就跳出了风场、云层等气象要素变化的三维彩色图案,让人一目了然。
深灰色的机柜、银色的“刀片”、红绿闪烁的信号灯……“天河一号”充满现代感的外观,也是不忽视任何细节的科研人员们精心挑选的结果。
“外观能够体现整个工程的品质,并且为用户提供一个舒适的人机交互界面。”李楠主任说。与“银河”系列计算机“做得结实就行”的要求不同,“天河一号”的机柜造型和工艺设计交给了一家手机外壳设计和制造商。“我们提出的要求是,要像手机一样精致。”李楠说。
经过从内到外的“修炼”,“天河一号”除了性能高居世界第五之外,还具有低能耗、高性价比、高安全、易使用的“中国特色”。
如此超级的 “天河一号”,有哪些神奇用途呢?
据李楠主任介绍,超级计算机作为国家创新体系的重要基础设施,应用领域十分广阔。如原来设计一个飞机气动外形要花三五年,如果运用“天河一号”进行“数字风洞”辅助设计,几个月就可以完成。
用“天河一号”数值模拟蛋白质、分子结构,可以快速研发生物医药。科学家可以在较短的时间内,从几十万甚至几百万种化学物中筛选出有效的药物化学物,不仅能节省购买实物化合物的大量资金,而且能大大缩短研制周期。
借助“天河一号”,还可以快速构建数字地质模型,探明地层中是否有石油并能精确计算出储量,判断是否有开采价值。
此外,“天河一号”还可用于卫星遥感数据处理、金融工程数据分析、气象预报、海洋环境数值模拟、短临地震预报、新材料开发设计、土木工程设计,以及基础科学理论计算等。
“解决我国经济、科技等领域的重大挑战性问题,以及大众生活息息相关的许多新课题,都需要超级计算机的帮助。”李楠主任说。
军民融合 彰显威力
我国首台千万亿次超级计算机诞生了,谁会成为第一个拥有者呢?据介绍,“天河一号”将作为国家超级计算天津中心的业务主机部署在天津滨海新区,将作为中国国家网格计算主结点,面向国内外用户提供高性能计算服务。
“‘天河一号’的研制,我们走的是一条军民融合式发展的自主创新之路。”国防科大计算机学院政委周建设说,没有军民融合创新模式的突破,就不可能有“天河一号”的高质量、高速度、高效益。
2007年10月,党的十七大召开。中共中央总书记胡锦涛同志在大会报告中提出,要更好发挥天津滨海新区在改革开放和自主创新中的重要作用,这一论述让国防科大的领导们眼睛一亮。不久,由校领导率领的专家考察组前往天津滨海新区,探讨开展科技合作事宜,双方一拍即合,迅速签署了科技合作协议。
2009年6月9日,国防科大与滨海新区共建国家超级计算天津中心的协议,得到国家科技部正式批复,该校千万亿次超级计算机“天河一号”还未诞生,就已经“名花有主”。
有了天津滨海新区的应用需求与配套资金支持,“天河一号”的研制速度明显加快,彰显了军民融合式创新的巨大威力。4个月后,“天河一号”研制成功。根据协议,我国首台千万亿次超级计算机系统“天河一号”部署在天津滨海新区。
“天河一号”投入使用后,天津将成为我国首个具有千万亿次计算能力的国家超算中心,也是世界上少数几个具有千万亿次计算能力的超算中心之一。
目前,包括石油勘探数据处理、海洋环境数值模拟、生物医药研究、航空航天装备研制、资源勘测和卫星遥感数据处理、气象预报、气候预测等众多领域的首批用户正翘首以待。
据国家超级计算天津中心主任刘光明介绍,目前,“天河一号”已经接到了来自中海油、胜利油田、天津地区的生物医药研究机构以及一些中等规模企业的使用意向。有关专家预计,此举将有力带动天津滨海新区高科技服务产业发展和高端信息产业发展,为经济、社会发展提供高科技支撑。
“天河一号”的研制成功,既是我国高性能计算机技术发展的一个重大突破,也是国防科大贯彻军民结合、寓军于民方针的成功实践,对促进国家科技发展和国防现代化建设具有重要意义。
《科学时报》 (2010-3-9 A3 2009年中国十大科技进展专题报道)