【簡介:】通透的玻璃房里,放著一臺從美國買來的超級計算機。房間鑰匙由美方人員保管,中國科學家經過授權才能進入玻璃房,并且得在美方監(jiān)視下上機操作。
超級計算機運算的內容,必須經過
通透的玻璃房里,放著一臺從美國買來的超級計算機。房間鑰匙由美方人員保管,中國科學家經過授權才能進入玻璃房,并且得在美方監(jiān)視下上機操作。
超級計算機運算的內容,必須經過美方允許。操作完成后,美方會馬上封鎖玻璃房。監(jiān)控日志還要定期上交給美國政府審查。
這是一段被中國超級計算機界頻頻提起的真實過往。
改革開放前后的中國,缺乏自研超級計算機的技術。為進行石油勘測,中國石油工業(yè)部花大價錢購買了一臺 IBM 超級計算機。
花錢買得了設備,卻買不了技術。20 世紀 80 年代的西方國家正對中國進行高技術封鎖,其中就包括超級計算機。
美國雖然賣了超級計算機給中國,但依然嚴加監(jiān)視以防核心技術泄密,因此就有了“玻璃房”的故事。
中國科學院院士、前國防科技大學校長楊學軍談起這段歷史時說:“這是中國科研工作者心中永遠的痛......就像農民自家沒糧,母親自己沒奶喂孩子?!焙髞碇袊罅χС肿匝谐売嬎銠C,國防科技大學是中堅力量,楊學軍成了超級計算機“天河一號”的總設計師。
顧名思義,超級計算機(又稱巨型機、高性能計算機)能一般個人電腦所不能。個人電腦通常是四核、六核或者八核處理器,而超級計算機聚集了數以千計萬計甚至更多的處理器,可處理大量的數據和高速運算。
眾所周知,“兩彈一星”是國家硬實力的體現,而超級計算機也是“兩彈一星”級別的國之重器。
上到軍用的模擬核試驗,下到民用的天氣預測,遠到太空探索,近到人類基因測序,都有巨大的計算量門檻,要想更快地得到計算結果,只能靠超級計算機。
美國是全球最早投入這個領域的的國家,自 20 世紀 50 年代后期起,就研發(fā)超級計算機以滿足國防和軍事需求。60-70 年代,全球的超級計算機行業(yè)基本由兩家美國公司主導。日本也不遑多讓,20 世紀 80 年代起大規(guī)模補貼超級計算機科研項目。
1993 年開始,美國田納西大學、德國曼海姆大學以及美國能源部的伯克利國家實驗室,每年都會發(fā)布兩次全球前 500 的超級計算機排名(TOP500)。發(fā)布時間一次在 6 月,一次在 11 月。
排名依據基準程序 LINPACK 測試值來進行。1993 年 6 月至 2010 年 11 月,TOP500 第一名都是美國和日本交替把持。
中國國家層面的超級計算機自研事業(yè)始于 1978。那年 3 月在全國科學技術大會上,鄧小平一句“中國要搞四個現代化,不能沒有巨型機”,開啟了自研超級計算機的歷史進程。
40 年間,國防科技大學的“銀河”與“天河”系列,中科曙光的“曙光”系列,聯想的“深騰”系列,以及無錫江南計算技術研究所的“神威”系列陸續(xù)登場,讓中國超級計算機事業(yè)從一片荒蕪走向與美日比肩。
從無到有的“爭氣機”
“我剛好 60 歲,就是豁出這條老命,也一定要把我國的巨型機搞出來?!?/p>
1978 年,國防科技大學接到了自研超級計算機的任務,當時任該大學計算機研究所所長的慈云桂立下了軍令狀,“每秒一億次一次不少(運算速度 1 億次/秒),6 年時間一天不拖,預算經費一分不超”。
慈云桂可謂中國計算機界的一代宗師。從電子管計算機到晶體管計算機,再到集成電路計算機,中國計算機每一次升級換代,他都是主要推手。
但超級計算機對他來說,依然是一座攀登難度極高的大山。1978 年,慈云桂帶領團隊研制的通用計算機系統 151-4,運算速度不過每秒二百萬次,距離每秒一億次的超級計算機還有非常大的差距。
接到任務后,慈云桂帶著團隊成立了十多個攻關小組,“吃在工廠,睡在機房”。
研發(fā)過程中自然是問題頻出。團隊花幾個月做出來的方案,慈云桂狠下心來一口否決了,帶著大家重新研制更加先進的總體方案。
冷液技術研發(fā)遇到困難,不得已采用容易操作的冷風技術。為了保證機器的穩(wěn)定性和可靠性,團隊要對 2.5 萬條繞接線、12 萬個饒接點和200 多萬個焊點逐一檢查。
最終,慈云桂團隊通過創(chuàng)造性地提出“雙向量陣列”結構,大大提高了機器的運算速度。不僅經費沒超,還提前一年完成了研制任務。
曾經指揮研究“兩彈一星”的國防部長張愛萍,給這臺超級計算機起名為“銀河”。
當時一位前政協副主席在聽完慈云桂團隊匯報后說:“1930 年的紅軍打長沙是壯舉,50 年后,你們在長沙研制成功銀河-I 巨型計算機更是成功的壯舉?!?/p>
銀河-I 的誕生打破了西方大國在超級計算機上的技術封鎖,讓中國成為繼美國和日本后,世界上第 3 個可以自主研制超級計算機的國家。這臺計算機也因此得一別名:“爭氣機”。
國家的意志
1983 年,除了銀河-I 的研制成功,還發(fā)生了兩件對中國超級計算機界影響深遠的事情。
一件是不起眼的小事:南京通信工程學院的本科生楊學軍,報考了國防科技大學研究生,投身于超級計算機的研究。
他的畢業(yè)論文是關于向量巨型機編譯技術,慈云桂看了之后在論文旁邊寫:此人要想辦法留下來。
后來,楊學軍畢業(yè)留校,參與了銀河-II 的研制。銀河-Ⅲ 在 1994 年立項上?,年僅 31 歲的楊學軍被任命為總設計師。
再后來,他成了天河一號的總設計師,幫助中國第一次坐上最快超級計算機的寶座。
另一件是影響全球格局的大事:任職三年的美國總統里根,提出了“戰(zhàn)略防御倡議”(SDI,又名“星球大戰(zhàn)”計劃)。
“星球大戰(zhàn)”計劃是冷戰(zhàn)的產物。里根政府宣稱要改變同歸于盡(MAD)的核平衡戰(zhàn)略,轉而通過天基和地基系統,來防御核武器的攻擊。
當時中國專家們普遍認為,“星球大戰(zhàn)”表面上是針對蘇聯的防御計劃,但實質還有其他目的。
“(美國)試圖通過該計劃的實施,促進國防科技發(fā)展,進而帶動高新技術和國民經濟的全面振興,以確保美國在高科技領域獨占鰲頭,最終達到搶占21世紀戰(zhàn)略制高點的目的?!?時任航天部空間技術院科技委副主任的楊嘉墀說。
“星球大戰(zhàn)”計劃出臺后,不少國家和聯盟都跟進制定相應的政策:蘇聯和東歐集團制定了“科技進步綜合綱領”,日本提出“今后十年科學技術振興基本政策”,西歐 17 國聯合簽訂了“尤里卡計劃”......
在這樣的大背景下,包括楊嘉墀在內的 4 位科學家上書鄧小平等中央領導人,建議“跟蹤世界戰(zhàn)略性高技術發(fā)展”。
鄧小平對該建議表示了支持,很快“高技術研究發(fā)展計劃”出爐。因為 4 位科學家上書和鄧小平同志批復時間都是 1986 年 3 月,所以該計劃又稱之為“863 計劃”。
863 計劃中,“智能計算機”被單獨列為一個主題項目(即 306 主題)。
“國家智能計算機研究開發(fā)中心”(以下簡稱智能中心)應運而生,并且選中了“中國科學院計算技術研究所”(以下簡稱中科院計算所)為依托單位。
創(chuàng)立于 1956 年的計算所,是中科院的王牌部隊。在這里,誕生了中國第一臺通用數字電子計算機,以及首枚通用 CPU 芯片。計算所還為 “兩彈一星” 成功上天完成了數據處理工作。
和國防科技大學一樣,中科院計算所后來也成為了中國超級計算機界的中流砥柱。從中科院計算所獨立出去的曙光,一直是 863 計劃 306 主題的主力。
自主研發(fā)深騰系列超級計算機的聯想,1984 年成立時也是計算所的班底。聯想最早的名字叫“計算所新技術發(fā)展公司”,其創(chuàng)始人柳傳志曾在計算所做了 13 年研究。就連參與神威系列研制的國家并行計算機工程技術研究中心,依托單位也是中科院計算所。
1990 年,智能中心正式成立。成立之初,它就面臨著發(fā)展戰(zhàn)略選擇的難題。
20 世紀 80 年代,世界興起人工智能熱的第二次高潮。當時,卡耐基梅隆大學設計了一個專家系統,每年可以為商業(yè)公司節(jié)省四千萬美元,引發(fā)許多國家和公司的跟進。
新算法(專家系統)對算力提出了新要求。在計算機專家淵一博的領導下,日本于 1982 年公布了“第五代計算機系統”十年研究計劃,希望研發(fā)出劃時代的超級計算機,讓機器能夠與人對話、翻譯語言、解釋圖像,并且像人一樣推理。
“當時全世界正處于‘人工智能熱’的高潮,日本‘五代機’也好評如潮。在這樣的背景下,中國順勢而為走‘五代機’的路,看起來順理成章、無可非議?!?06 主題專家組組長、中國工程院院士汪成為說。
事實上,306 主題的全稱“智能計算機”,正是起源于跟隨日本“五代機”的策略。
但在執(zhí)行過程中 306 主題專家組發(fā)現,日本“五代機”主要目標是實現自然語言翻譯,這個方向并不是很適合當時中國的國情。同期美國的研發(fā)重點是個人計算機、高速工作站、超級計算機和互聯網,更具有借鑒意義。
專家組決定改變技術路線,負責這一主題的智能中心把研究方向從“智能計算機”調整為“高性能并行計算機系統”。
這一決定很快被驗證是正確的。專家系統存在的問題逐漸暴露出來:應用領域狹窄、知識獲取困難、維護費用居高不下......日本“五代機”計劃也隨之宣告失敗,人工智能進入第二次低谷。
計算的“曙光”
306 主題戰(zhàn)略轉移的決策,催生了曙光系列。曙光一號研發(fā)過程中,當時智能中心的主任李國杰主導了全新的技術路線和科研模式。
20 世紀 80 年代開始,李國杰就在從事計算機的并行處理研究。1981 他年出國攻讀博士學位,師從美國計算機權威華云生教授。1986 年底回國后,一直在中國科學院計算所工作。
有留學經歷的李國杰,看到了中國研制超級計算機傳統路徑的不足。
長期以來,中國在封閉條件下研制計算機,采用分立元器件做主板,一切從頭做起。研制周期短則 5-6 年,長則 7-8 年,往往機器研制出來就已經落后了,難以被市場所接受。
為了提高中國超級計算機的產品化和商品化程度,李國杰大膽開辟了新的路徑。技術上,他在國內首次采用大規(guī)模集成電路來研制并行計算機。計算機系統方面,他讓團隊在 UNIX 源代碼的基礎上,自行設計并行操作系統 SNIX。
科研模式上,李國杰派了一支 6 人小隊到美國硅谷。他把這種“借樹開花、借腹生子”的做法稱為“洋插隊”——利用國外協作配套完善的大環(huán)境,加速并行計算機的研制。
1993 年 10 月,曙光一號超級計算機誕生,峰值運算速度達每秒 6.4 億次,在多個技術上都取得了突破,比如采用全對稱共享存儲多處理結構、操作系統核心實現并行化。
而且,曙光一號投資少(直接研制經費只有 200 萬元)、研制周期短(從正式開發(fā)到成果鑒定只有一年半)、產品化程度高,與中國過去的超級計算機研制形成鮮明對比。1994 年,曙光一號被寫進了政府工作報告中。
1995 年,智能中心又推出了曙光 1000,實現了多個第一:第一臺自研的大規(guī)模并行處理機結構的計算機,第一臺實際運算速度突破每秒 10 億次大關的超級計算機,第一次獨立進入市場售賣。
過去幾十年間,中國超級計算機的研制生產都是為了滿足特殊部門的需要,以行政手段確定用戶推廣使用。曙光 1000 的研制推廣最開始也是政府行為。
但在經過產品化后,曙光天潮系列(含曙光 1000 和曙光 1000A)逐漸走上商品化銷售的道路。
1997 年,曙光天潮 1000A 落戶遼河油田。這是中國超級計算機第一次獨立進入市場,實現了國產超級計算機商品化零的突破,打破了進口產品對中國超級計算機市場的壟斷。
開篇提到的“玻璃房”故事,曙光用 1000A 為它畫上了句號。
為了更加適應市場需求,曙光于 1996 年獨立了出來,成立有限公司,李國杰任曙光公司董事長兼總經理,開啟了產業(yè)化的路程。
新公司選址時,李國杰要求離中科院計算所遠一點,以“斷掉”心理上的依賴。于是,曙光從計算所搬到了中關村水磨西街的四合院里,緊挨著清華大學。
曙光獨立時,中國互聯網剛剛起步,但李國杰敏銳察覺到,互聯網大量的信息服務和數據處理需求,需要超級服務器來滿足。
通常,超級計算機多用于科學工程計算,追求最高的計算速度。而超級服務器是更加通用的高端計算機,除科學計算外,更多地用于事務處理與網絡服務。
于是,超級服務器成為曙光一個重要的發(fā)展方向。
1998 年和 1999 年,曙光 2000-I 和曙光 2000-II 超級服務器相繼推出,率先在中國研制成功大規(guī)模 UNIX 機群系統。
其中,曙光 2000-II 的峰值速度超過 1100 億次。有資料顯示,美國計算機界的權威學者來參觀曙光 2000-II 后,在向美國政府寫的報告中指出,中國高性能計算機研制已從落后走到非常接近西方的水平。
2000 年,曙光 3000 超級服務器發(fā)布,峰值速度達每秒 4032 億次。這臺超級服務器在研制初期,就被北京華大基因研究中心“預訂”,在中國超級計算機史上創(chuàng)下先例。
曙光系列頻頻升級的同時,863 計劃在計算機系統研發(fā)方面的內涵也發(fā)生了變化。
1999 年至 2000 年間,863 計劃 306 主題進行重大課題“ 國家高性能計算環(huán)境” 。這意味著,不僅要研制超級計算機,還要用所研制的機器建立高性能計算環(huán)境,更好地支持高性能計算的應用。
每秒 4000 億次的曙光 3000 正是這一課題的成果之一。此外,課題還建立了 5 個高性能計算中心,以此構建起國家高性能計算環(huán)境。
2002 年,“ 十一五” 863計劃啟動了“ 高性能計算機及核心軟件” 重大專項,其主要任務是研制每秒 4 萬億次的超級計算機,研究和突破網格關鍵技術。
863 計劃這兩次新動作,體現了中國打造超級計算機理念的變化:之前為缺乏超級計算機研制技術而補課,當下更加注重超級計算機資源的整合和應用。
相應地,超級計算機的研制模式也在改變。從“ 十五” 863計劃開始,超級計算機的研發(fā)打破了過去定向委托一家承擔的做法,引入了競爭機制。比如,研發(fā) 4 萬億次超級計算機這一任務,同時落在了聯想和曙光上。
聯想第一臺超級計算機是 2002 年研發(fā)成功的深騰 1800,峰值運算速度為 1 萬億次。2003 年,聯想率先研制成功深騰 6800,峰值速度達 5.3 萬億次,在 2003 年 11 月 TOP500 榜單中排第 14 位。
2004 年,曙光 4000A 也順利誕生,峰值速度可達 11.2 萬億次。在 2004 年 6 月 TOP500 排名中,曙光 4000A 位列第十。這是 863 計劃研發(fā)的超級計算機首次進入世界前十。
中國超算的里程碑
2008 年對中國、對中國超級計算機界來說,都是一個非常重要的年份。
這一年,北京舉辦了奧運會。開幕式上,李寧腳踏“祥云”在“空中跑道”奔跑時,一副中國式畫卷沿“空中跑道”展開。
這幅畫卷的數字影像正是由 233 萬億次的曙光 5000A 計算而成的。
這臺有著“魔方”之稱的超級計算機,是當時除美國以外世界上最快的高性能計算機系統。但“魔方”也僅是“十一五”863計劃的一個階段性成果。
2006 年,“十一五”863計劃設立了 “高效能計算機及網格服務環(huán)境” 重大項目,將研制千萬億次高效能計算機列為主要目標之一。
“超級計算機的發(fā)展規(guī)律是每 10 年性能提高 1000 倍。2000 年的國際先進水平是 1 萬億次,到 2010 年肯定會達到千萬億次級。要占領制高點,必須盡快開始研制千萬億次計算機?!?上文提到的天河一號總設計師楊學軍說。
2004-2006 年間,中國最快的超級計算機曙光 4000A,運行速度只有 11.2 萬億次。一步跨越到千萬億次超級計算機不太實際。因此,千萬億次超級計算機的研制分兩步走。
第一階段,曙光和聯想分別研究百萬億次超級計算機,為千萬億次超級計算機積累經驗。第二階段,中科院計算所和曙光、國防科技大學和浪潮、國家并行計算中心和無錫江南計算所分別研制千萬億次超級計算機。
2008 年,233 萬億次的曙光 5000A 和 157 萬億次的深騰 7000 相繼登場。前者位在 TOP500 中排名 10,后者在 TOP500 中排名 19。
曙光 5000A 和深騰 7000 的誕生意味著,中國成為全球第二個有能力研制百萬億超級計算機的國家。
但美國還是走得更快些,2008 年上半年 IBM 就推出了千萬億次的走鵑,比楊學軍預測的 2010 年還要早。
第二階段的努力在 2009-2010 年間看到了成果。國防科技大學和浪潮聯合研制的千萬億次超級計算機分兩期完成研制,2009 年誕生了天河一號,峰值運行速度 1206 萬億次。
2010 年,第二期天河一號 A 研制成功。在 11 月的 TOP500 排名中,天河一號 A 以每秒 4700 萬億次的峰值運行速度、2566 萬億次持續(xù)運行速度值,把美國的橡樹嶺國家實驗室的美洲虎比了下去。
這是一個里程碑式的事件——中國自研的超級計算機,第一次在超級計算機 TOP500 榜單中名列第一。
天河一號還在國際上帶起了一個新的超級計算機體系結構。
傳統構建超級計算機的方法是集成更多的 CPU,但增加 CPU 數量受到功耗、占地面積、系統可靠性方面的限制。
“按傳統方法構建一臺每秒百億億次超級計算機,需要占地 1.3 萬平方米,將近兩個足球場那么大;需要用電 320 兆瓦,相當于一個大中型城市的用電量”。
天河一號總設計師楊學軍沒有沿用傳統方法,而是率先采用了 CPU+GPU 異構融合的體系結構,第一次從工程實現上證明了 GPU 可以被用于超級計算機。
由于這種結構能耗低、成本低、集成度高,很快國際上就掀起了一股異構超級計算機的熱潮。
中科院計算所和曙光研制的曙光 6000(星云)也不遑多讓。這臺超級計算機達到了 1271 萬億次的峰值性能,在 2010 年 11 月的 TOP500 中位居第三,排在天河一號 A 和美洲豹之后。
無錫江南計算技術研究所研制的神威藍光,也達到了 1100 萬億次的峰值運算速度。
三個千萬億超級計算機中,神威藍光雖然運算速度較慢,但它是唯一全面采用中國自研 CPU “申威”的機器。
自研的 CPU 可以支撐起速度領先的超級計算機,這件事的重要性在近幾年越發(fā)顯現。
“芯”的戰(zhàn)爭,不變的定律
2019 年 6 月,繼中興、華為之后,美國特朗普政府將制裁矛頭瞄準了中國超算領域 5 家機構。
美國商務部工業(yè)和安全局發(fā)布公告稱,將把中科曙光、成都海光集成電路設計公司、成都海光微電子技術公司、天津海光信息技術公司和無錫江南計算技術研究所列入實體清單。
三家海光系企業(yè)都是曙光的子公司,也就是說,這次制裁的目標實質只有兩個:曙光和無錫江南計算技術研究所。
事實上,早在 2015 年,國防科技大學、國家超級計算長沙中心、國家超級計算廣州中心和國家超級計算天津中心就被列入到實體清單里。
從天河系列(國防科技大學)到曙光系列(中科曙光)和神威系列(江南計算技術研究所),中國超級計算機三大系列全部受到美國制裁。制裁旨在卡住中國超算的“脖子”,封鎖最關鍵的芯片。
近年來,中國和美國在超級計算機領域的競爭越發(fā)激烈。2013 年 6 月起,天河二號以每秒 5.49 億億次的峰值性能,霸榜 TOP500 3 年。2016 年 6 月,神威·太湖之光以每秒 12.54 億億次的峰值性能接棒天河二號。直到 2018 年 6 月,美國能源部宣布建成峰值 18.77 億億次的 Summit,才重奪 TOP500 榜首位置。
國防科技大學 2015 年被美國列入實體名單后,采用英特爾至強處理器的天河二號,原定的升級計劃馬上被打斷。
神威·太湖之光則沒有這樣的擔憂。“國家希望能采用另一種技術路線來研制新的超算。新超算從布局之初的思路就是要打造擁有全國產架構、自主可控的軟硬件?!眹页売嬎銦o錫中心主任、清華大學教授楊廣文說。
神威·太湖之光采用的 CPU 和神威藍光的 CPU 是同一個系列——中國自研的“申威”。楊廣文解釋:“‘申威’系列的技術路線比較明晰而穩(wěn)定,而且采用上一代‘申威’ CPU 的神威藍光為神威·太湖之光的發(fā)展做了很好的鋪墊和嘗試。”
神威系列超級計算機和“申威”系列芯片,都出自無錫江南計算技術研究所。2003 年,當中國自研超級計算機還處在萬億次階段時,江南計算技術研究所為解決在超算和國防、信息安全領域的芯片困境,就已經開始設計自己的高性能芯片。
超級計算機技術內涵龐雜,涉及架構、通信、存儲、集群很多領域,但在高水平的競爭中,芯片還是最核心的部分。天河二號被“卡住脖子”后,在 2018 年借助中國自研的 Matrix-2000 加速卡才完成升級。
當下超級計算機領域競賽焦點是 E 級(秒鐘運算一百億億次)超算的研發(fā),中國為此正在準備的三個方案,全部使用國產 CPU 和加速器。
1978 年,因為“玻璃房”,中國科研人員走上了自主研制超級計算機的道路。如今中美關系緊張,美方又把芯片鎖進了“玻璃房”。競爭的內容在變,但不變的是——唯有掌握核心技術,才不會受制于人。
主要參考資料:
電腦報:中國第一超級電腦煉成記
人物:追記中國巨型機之父慈云桂
AMiner:2018 超級計算機研究報告
中科曙光:三遷背后的故事
永立潮頭,破浪前進-----慶祝中科院計算所創(chuàng)建四十五周年
“863”計劃:一個偉大科技工程的臺前幕后
回顧與展望—863計劃高性能計算方向的實踐
這個 “最強大腦”,對中國國防的重要性堪比 “兩彈一星”!
超級計算機全球四連冠:天河二號背后故事