算力賦能科研和一流人才培養
2024-04-11 21:41:35教育部陽(yáng)光高考信息平臺
數據和算法在科學(xué)研究乃至整個(gè)社會(huì )發(fā)展中正發(fā)揮著(zhù)越來(lái)越重要的作用。到2025年底,全國范圍內普惠易用、綠色安全的綜合算力基礎設施體系將初步成型,這將成為“數智化”轉型的基石。
近日,OpenAI發(fā)布的文本生成視頻模型Sora引爆全球?梢灶A料,大算力和AI融合將會(huì )在未來(lái)幾十年誕生巨量的新知識和數字資源,甚至可能超過(guò)歷史所有知識總和。
作為高校管理者、科研工作者,這不得不讓我們反思,高水平大學(xué)作為一流學(xué)科建設及拔尖人才培養最重要的場(chǎng)所,發(fā)展新階段的算力賦能顯得尤為重要。
數據和算法驅動(dòng)的科研模式正加速發(fā)展
2007年,數據庫專(zhuān)家吉姆·格雷做了著(zhù)名的演講“科學(xué)方法的一次革命”。吉姆·格雷是1998年的圖靈獎得主,在演講中,他提出科學(xué)研究的范式將從之前的實(shí)驗范式、理論范式和仿真范式這三種范式,發(fā)展到數據密集型的科學(xué)發(fā)現。此后,隨著(zhù)海量數據成為新的科學(xué)研究基礎設施,構造基于數據的、開(kāi)放協(xié)同的研究與創(chuàng )新模式,已逐漸成為科學(xué)發(fā)現的重要領(lǐng)域。
2012年,基于深度神經(jīng)網(wǎng)絡(luò )算法AlexNet的出色表現,以機器學(xué)習為手段的數據分析和處理成為科學(xué)研究的新熱點(diǎn)。其中,AlphaFlod是最具代表性的工作之一。AlphaFold2在國際生物信息學(xué)蛋白質(zhì)結構預測程序大賽中得分超過(guò)90分,被認為是計算生物學(xué)領(lǐng)域的一項重大成就,也是朝著(zhù)解決生物學(xué)界持續數十年之久的重大挑戰邁進(jìn)的一大步。諾貝爾獎獲得者、結構生物學(xué)家文卡·拉馬克里希南稱(chēng)這一結果為“蛋白質(zhì)折疊問(wèn)題上的驚人進(jìn)展”,并認為“它將從根本上改變生物學(xué)研究”。
近年來(lái),AI4Science的概念逐漸流行,并被認為是科學(xué)研究的第五范式,即使用人工智能開(kāi)發(fā)新的科學(xué)發(fā)現工具。AI4Science已經(jīng)被認為是代表機器學(xué)習和自然科學(xué)領(lǐng)域最激動(dòng)人心的前沿方向之一。2023年11月,卡內基梅隆大學(xué)的研究團隊在《自然》雜志上發(fā)表了基于GPT-4的自動(dòng)化AI系統Coscientist,它能夠自主計劃、設計和執行人類(lèi)發(fā)明的化學(xué)反應。盡管還存在一定的爭議,但以大模型為引擎的科研正在迅速成為各學(xué)科當下最有前景的方向之一。
算力已成為高?蒲泻桶渭馊瞬排囵B的核心要素之一
從過(guò)去10多年的發(fā)展可以看出,算力已逐漸成為科學(xué)發(fā)現的重要基礎,而且其重要性還在加速提升,甚至在一定程度上成為科學(xué)研究最重要的基礎設施之一。通用計算、智能計算、超級計算構建的融合算力中心在高校學(xué)科發(fā)展中,發(fā)揮了不可替代的作用,已經(jīng)成為名副其實(shí)的科研創(chuàng )新基座之一,其重要性也愈發(fā)凸顯。
用大模型打造新的研究范式正成為潮流,但是這些都建立在大量計算資源需求的基礎上。雖然OpenAI沒(méi)有公布相關(guān)數據,但根據業(yè)界的推測,GPT-3175B模型需要355個(gè)GPU年,即全球最快的一塊GPU運行355年的運算量,單次訓練運行成本為460萬(wàn)美元。而作為升級版,GPT-4的參數規模比GPT-3大10倍以上。據稱(chēng),GPT-4的訓練成本約為6300萬(wàn)美元。美國麻省理工學(xué)院斥資10億美元建設全球第一個(gè)計算學(xué)院——蘇世民計算學(xué)院,學(xué)生不僅學(xué)計算機,還學(xué)計算數學(xué)、計算物理、計算化學(xué)等基于計算的專(zhuān)業(yè)交叉課程。上海交大網(wǎng)絡(luò )信息中心將最初的單核串行程序代碼性能進(jìn)行優(yōu)化,高效的聲子玻爾茲曼輸運方程算法通過(guò)上海交大高性能計算中心,并行計算效率最高提升了1.8萬(wàn)倍。
高校站在科學(xué)研究和人才培養的第一線(xiàn),這兩項任務(wù)在創(chuàng )新研究和基礎設施需求等方面是相通的。高水平的科學(xué)研究需要拔尖人才,而如果沒(méi)有參與高水平的科學(xué)研究,所謂的“人才”也難以被稱(chēng)為拔尖人才。隨著(zhù)科研對算力的需求越來(lái)越大,拔尖人才培養同樣需要更多的算力來(lái)支持?梢灶A見(jiàn),算力指標將很快成為衡量高校人才培養能力的一個(gè)重要方面。
超大規模的算力需求需要新的建設模式
對于高校來(lái)說(shuō),很多時(shí)候需要定制化的本地計算,多學(xué)科主流應用需要進(jìn)行頻繁的效率測試與個(gè)性化調優(yōu),因此在多數情況下無(wú)法直接使用商用算力。
目前國內高校的算力建設大多完全依靠自身投入,僅有少數高校借助國家超算中心的建設,形成較高的算力資源。即便如此,高校僅憑自身力量能夠滿(mǎn)足的算力需求依然十分有限。
由此可見(jiàn),無(wú)論是科研還是拔尖人才培養,僅依靠高校自身提供算力的模式將越來(lái)越力不從心。為適應新的形勢,高校的算力建設需要新的模式。一種模式是,上海市乃至長(cháng)三角高校之間互聯(lián)互通,形成算力池,共享共用;另一種模式是,高校與企業(yè)聯(lián)合共建算力,通過(guò)打通算力調度,一方面企業(yè)將算力提供給學(xué)校支持科研和人才培養,另一方面高校也能夠通過(guò)產(chǎn)學(xué)研合作,為企業(yè)的算力賦能,形成算力附加值。
加強高校校級算力建設以應對未來(lái)挑戰
基于上述思路,上海大學(xué)已經(jīng)開(kāi)始了這方面的嘗試和探索。學(xué)校早在多年前就確定了包括“五朵金花”(微電子、人工智能、生物醫藥、新能源、量子科技),“五大陣地”(城市社會(huì )治理、考古與文保、新海派文化、藝術(shù)技術(shù)、數字經(jīng)濟與管理)在內的“五五戰略”發(fā)展規劃,并于2019年就策劃啟動(dòng)了新一輪自有算力的建設。學(xué)校自主建設的算力有力地推動(dòng)了“五五戰略”的發(fā)展,但是依然難以滿(mǎn)足各學(xué)科及人才培養對算力指數級增長(cháng)的需求。
在這一背景下,學(xué)校聯(lián)合企業(yè)共建了“自強5000”一期共享算力平臺,學(xué)?烧{用的算力超過(guò)2000張GPU加速卡,整體算力規模已經(jīng)躋身國內高校前列。通過(guò)學(xué)校統一身份平臺為所有師生開(kāi)通自強5000算力統一調度服務(wù)平臺,有力支撐學(xué)校的科學(xué)研究和人才培養,同時(shí)也為學(xué)校應對未來(lái)的挑戰做好充足的準備。
上海大學(xué)堅持校級算力平臺一體化統籌建設,學(xué)校信息化工作辦公室成立專(zhuān)門(mén)的算力中心,推動(dòng)專(zhuān)業(yè)超算人才隊伍建設,更好地做好超算運營(yíng)服務(wù),經(jīng)過(guò)一年多運行已經(jīng)取得明顯成效。本次教育部本科教育教學(xué)審核評估,有專(zhuān)家建議在學(xué)校高水平大學(xué)建設過(guò)程中,面向全校的本科生全覆蓋開(kāi)設AI、超算等新一代信息技術(shù)素養相關(guān)課程,提升本科生、研究生數據處理和AI素養能力水平,推進(jìn)算力+課程、算力+大賽、算力+科研融合課程。
未來(lái)2-3年內,上海大學(xué)除了在高水平大學(xué)建設過(guò)程中加強算力建設外,也將進(jìn)一步加強算力應用生態(tài)建設,并繼續加強校企合作,探索出上大特色的算力建設模式和場(chǎng)景應用,進(jìn)一步將算力建好、用好,為學(xué)校高水平大學(xué)建設奠定扎實(shí)的算力基礎。
此外,學(xué)校還將充分利用上海教育城域網(wǎng)與各高;ヂ(lián)互通,搭建共享算力網(wǎng)和算力池,全面提升全市高校算力能力水平,賦能一流人才培養。