9月27日,由數(shù)字開(kāi)物協(xié)辦的“2024產(chǎn)學(xué)研融通創(chuàng)新活動(dòng)——AI大模型應(yīng)用場(chǎng)景”在北京召開(kāi),會(huì)上,中國(guó)信通院人工智能研究所基礎(chǔ)軟硬件部主任李論發(fā)表題為《大模型應(yīng)用落地趨勢(shì)與路徑》的主題演講,她分享了大模型的演進(jìn),深入探討了大模型應(yīng)用落地趨勢(shì)與路徑。
2024產(chǎn)學(xué)研融通創(chuàng)新活動(dòng)——AI大模型應(yīng)用場(chǎng)景
她表示,大模型已經(jīng)成為新型智能化基礎(chǔ)設(shè)施,具備規(guī)??蓴U(kuò)展性強(qiáng)、多任務(wù)適應(yīng)性強(qiáng)、能力可塑性強(qiáng)等關(guān)鍵特征。大模型技術(shù)的范式變遷,特別是以Transformer為基礎(chǔ)的大模型的突破,為行業(yè)提供了通用賦能技術(shù)。算法演進(jìn)是模型發(fā)展的關(guān)鍵,強(qiáng)化模型理解和多模態(tài)發(fā)展是演進(jìn)的重點(diǎn)。她提到,盡管大模型技術(shù)占據(jù)主導(dǎo)地位,但專用小模型的并行發(fā)展和大模型的小型化同樣重要。
中國(guó)信通院人工智能研究所基礎(chǔ)軟硬件部主任李論演講
李論表示,大模型的落地需要模型本身智能化水平提升和高效的訓(xùn)練推算系統(tǒng)支持。模型智能水平提升可以通過(guò)構(gòu)建更大規(guī)模的模型系統(tǒng)來(lái)實(shí)現(xiàn),同時(shí),針對(duì)特定行業(yè)場(chǎng)景,通過(guò)微調(diào)和算法改造,提升模型與場(chǎng)景的契合度。
在她看來(lái),模型演進(jìn)的關(guān)鍵在于強(qiáng)化模型理解增強(qiáng)和多模態(tài)發(fā)展。開(kāi)源模型和商業(yè)模型將并行發(fā)展,如何協(xié)同應(yīng)用是未來(lái)關(guān)注點(diǎn)。同時(shí),大模型的可控性,特別是代碼層級(jí)、智能層級(jí)、開(kāi)發(fā)迭代的可控性、內(nèi)容層面的可控性、智能水平的可控性,都需要重點(diǎn)關(guān)注。
李論認(rèn)為,突破多模態(tài)瓶頸,增加視頻、音頻等多模態(tài)的通用模型是未來(lái)重點(diǎn),行業(yè)模型的高價(jià)值、大規(guī)模應(yīng)用落地場(chǎng)景是一個(gè)新的原點(diǎn)。開(kāi)源在驅(qū)動(dòng)產(chǎn)業(yè)智能水平基準(zhǔn)線提升方面發(fā)揮著關(guān)鍵作用。
她表示,模型應(yīng)用落地需要將其作為系統(tǒng)性問(wèn)題來(lái)考慮,計(jì)算能力受大模型性能影響,兩者相互制約,HPC和AI的融合,特別是萬(wàn)卡、千卡規(guī)模布局是難點(diǎn)也是機(jī)會(huì)。
李論認(rèn)為,構(gòu)建大模型應(yīng)用底座需要軟硬件高效協(xié)同的新型基礎(chǔ)設(shè)施,實(shí)現(xiàn)基礎(chǔ)設(shè)施平臺(tái)化。底座構(gòu)建需要解決Scale up和Scale out問(wèn)題,以及硬件和軟件的協(xié)同適配問(wèn)題。大規(guī)模擴(kuò)展的網(wǎng)絡(luò)架構(gòu),面向大語(yǔ)言模型的定制化、國(guó)產(chǎn)化、規(guī)?;募軜?gòu)體系也在不斷出現(xiàn)。
最后,李論表示,未來(lái)一段時(shí)間模型水平發(fā)展仍然遵循規(guī)模定律,計(jì)算在一定情況下決定了大模型規(guī)模天花板。底層是軟硬高效協(xié)同的大系統(tǒng),中間層以Transformer架構(gòu)為核心驅(qū)動(dòng)通用智能探索的大算法,上層是以模型為中心的大生態(tài)。中國(guó)信通院也在做一系列研究性工作,試圖解決大模型在工程化落地過(guò)程中與底座融合一體,實(shí)現(xiàn)工程化應(yīng)用的方向。
以下是本場(chǎng)主題演講實(shí)錄:
中國(guó)信通院人工智能研究所基礎(chǔ)軟硬件部主任李論:各位專家,各位現(xiàn)場(chǎng)的業(yè)界同仁大家上午好,我是中國(guó)信息通信研究院人工智能研究所軟硬件與生態(tài)部李論,今天由我代表所里做分享報(bào)告。我的分享主要分成四部分,從大模型的范式變遷到模型的演進(jìn),底座的支撐和展望建議。
中國(guó)信通院人工智能研究所基礎(chǔ)軟硬件部主任李論演講
首先是范式變遷,其實(shí)我們知道從去年、前年開(kāi)始整個(gè)大模型技術(shù)架構(gòu)就在快速發(fā)展,以Transformer為基礎(chǔ)的大模型不斷在突破,也取得了業(yè)界的共識(shí),大模型已經(jīng)成為了這一時(shí)期的通用賦能技術(shù),也成為了我們面向未來(lái)的一種新型智能化基礎(chǔ)設(shè)施。主要有三個(gè)關(guān)鍵特征,包括規(guī)??蓴U(kuò)展性強(qiáng)、多任務(wù)適應(yīng)性強(qiáng)、能力可塑性強(qiáng)。到今天我們可以看到,今年模型整個(gè)的發(fā)展都是非常迅猛的,特別是從我們之前的語(yǔ)言類模型再到現(xiàn)在的多模態(tài)模型,再到具身智能整個(gè)發(fā)展,大模型也在封閉的機(jī)器世界完全到了和物理世界之間的交互發(fā)展的過(guò)程,使得我們整個(gè)大模型技術(shù)未來(lái)可以在更加復(fù)雜的,能夠在千行百業(yè)中深度應(yīng)用的可能性。
第二個(gè)也想說(shuō)的是這個(gè)模型怎么能夠落地,一方面是模型本身的智能化水平提升,還有一塊是如何訓(xùn)和推大模型,其實(shí)從現(xiàn)在來(lái)看,整個(gè)大模型的系統(tǒng)是復(fù)雜的實(shí)驗(yàn)工程。一方面是模型本身的智能水平,另外一方面它對(duì)整個(gè)計(jì)算量的提升是非常迅速的,從早期我們做大模型、小模型的訓(xùn)練只需要單卡、多機(jī)、多卡就能完成,現(xiàn)在千卡、萬(wàn)卡的智算集群也在不斷演進(jìn)。
我們認(rèn)為從現(xiàn)在來(lái)看,模型的尺寸增加仍然是精度最有效的提升方式,這里面有兩點(diǎn),一個(gè)是我們?nèi)?gòu)建更大規(guī)模的模型系統(tǒng)來(lái)做模型的創(chuàng)新發(fā)展和應(yīng)用落地。我們可以看到無(wú)論是這些基礎(chǔ)的大模型廠商還是一些典型的行業(yè)企業(yè),國(guó)企、央企,都在試圖建模型的底座,試圖能夠把模型真正在行業(yè)里做微調(diào),甚至構(gòu)建行業(yè)的大模型,讓它真正能夠落地。
提升智能水平其中一個(gè)方式就是構(gòu)建更大規(guī)模的系統(tǒng),來(lái)承載更大規(guī)模參數(shù)的模型訓(xùn)練。當(dāng)然,我們可以看到不是所有有資本或者有實(shí)力的單位都可以搞這么大規(guī)模的系統(tǒng)的,在現(xiàn)有系統(tǒng)下如何提升模型的智能水平,能夠讓模型和它的典型場(chǎng)景深入契合,這也是我們的一個(gè)關(guān)鍵,這就涉及到了關(guān)鍵的點(diǎn),比如說(shuō)在行業(yè)落地的過(guò)程中訓(xùn)練的數(shù)據(jù)、微調(diào)的數(shù)據(jù)至關(guān)重要,它是在有效的資源下提升模型和行業(yè)結(jié)合的關(guān)鍵。第二個(gè)去做一系列的算法層面的改造。
第二,算法演進(jìn)。我們認(rèn)為強(qiáng)化模型理解增強(qiáng)和多模態(tài)的發(fā)展是模型演進(jìn)的關(guān)鍵,這里面也在討論一個(gè)范疇,就是目前人工智能的發(fā)展,大模型技術(shù)確實(shí)是在主導(dǎo)的位置。大模型不是一個(gè)模型形態(tài),其實(shí)是研發(fā)創(chuàng)新和訓(xùn)練的范式,但同時(shí)專用的小模型也在并行發(fā)展,特別是還有另外一個(gè),如何把大模型小型化,真正能在行業(yè)中釋放技術(shù)的能力和范疇也是我們關(guān)鍵的重點(diǎn)。
從目前來(lái)看,模型整個(gè)關(guān)鍵任務(wù)的能力是在不斷提升的,特別是在典型的通用智能的任務(wù)里,同時(shí)開(kāi)源模型也在不斷追趕這個(gè)差距。我們可以看到現(xiàn)在很多行業(yè)在落地的過(guò)程中都會(huì)兩條腿走路,一方面會(huì)考慮一些開(kāi)源的模型試一試、用一用、跑一跑,另外也會(huì)和主要商業(yè)化的廠商做溝通,去看一看他們商業(yè)模型或者用模型工程化平臺(tái)做落地,所以有一個(gè)議題就是開(kāi)閉源模型怎么結(jié)合,以及大模型、小模型怎么協(xié)同,這也是大家現(xiàn)在關(guān)注的重點(diǎn)。
其中一個(gè)核心就是模型作為基礎(chǔ)底座有一個(gè)關(guān)鍵點(diǎn),是將來(lái)的可控問(wèn)題,特別是針對(duì)一些大的行業(yè)領(lǐng)域,大模型作為基礎(chǔ)設(shè)施之后它的代碼層級(jí)、智能層級(jí)如何可控,開(kāi)發(fā)迭代的可控、內(nèi)容層面的可控、智能水平的可控,都是我們需要關(guān)注的點(diǎn)。
同時(shí)我們認(rèn)為突破模型模態(tài)的瓶頸,增加視頻、音頻多模態(tài)的通用模型是后面的重點(diǎn),可以看到這個(gè)判定在去年、前年我們已經(jīng)做過(guò)了,多模態(tài)的基模研究到今天我們?nèi)匀徽J(rèn)為還沒(méi)有到收斂的階段,一個(gè)是多模態(tài)對(duì)齊問(wèn)題,多模態(tài)視頻生成的問(wèn)題,包括今年以來(lái)不斷出來(lái)的ChatGPT4o,谷歌相關(guān)的模型大家都在解決這樣的問(wèn)題?,F(xiàn)在有不同的陣營(yíng),現(xiàn)在發(fā)展還是比較快的,從今天來(lái)看我們知道基礎(chǔ)模型的發(fā)展已經(jīng)收斂了,但行業(yè)模型的落地,或者行業(yè)模型高價(jià)值大規(guī)模應(yīng)用落地場(chǎng)景是一個(gè)新的原點(diǎn)。
此外也想表達(dá)一個(gè)事情,就是開(kāi)源的作用,今天我們可以看到確實(shí)在行業(yè)里實(shí)際應(yīng)用的很多大模型還是以閉源模型服務(wù)方式在提供,但是我們認(rèn)為開(kāi)源是整個(gè)驅(qū)動(dòng)產(chǎn)業(yè)智能水平基準(zhǔn)線提升的一個(gè)關(guān)鍵,能夠整體性抬高大模型技術(shù)在各行業(yè)應(yīng)用的可能性的基礎(chǔ)。特別是像這些開(kāi)源模型和與做軟硬件的適配結(jié)合,對(duì)上服務(wù)模型平臺(tái)的集成,這樣生態(tài)的能力也是我們?cè)诖竽P蛻?yīng)用落地過(guò)程中選型需要關(guān)注的要點(diǎn)。
第三,底座支撐。到今天我們認(rèn)為模型的原始創(chuàng)新其實(shí)是跟底下的大模型訓(xùn)推系統(tǒng)高度結(jié)合或者深度耦合的,我們?nèi)タ茨P蛻?yīng)用落地的時(shí)候要把它當(dāng)作系統(tǒng)性的問(wèn)題來(lái)考慮,而且我們認(rèn)為真正能落地,計(jì)算的能力是受到大模型性能的影響的,兩者之間有相互制約關(guān)系,HPC和AI的融合,往萬(wàn)卡、千卡方面布局這一塊是難點(diǎn)、卡點(diǎn),也是機(jī)會(huì)。
所以在這個(gè)層面上我們認(rèn)為有三個(gè)非常關(guān)鍵的要點(diǎn),軟硬高效協(xié)同的新型基礎(chǔ)設(shè)施,整個(gè)人工智能產(chǎn)業(yè)鏈的形態(tài)在發(fā)生變化,早期的時(shí)候我們產(chǎn)業(yè)的水平化是非常顯著的,從芯片、框架、平臺(tái)、模型到應(yīng)用,每個(gè)產(chǎn)業(yè)鏈都有自己關(guān)鍵的產(chǎn)品。到今天來(lái)看,因?yàn)楝F(xiàn)在整個(gè)主導(dǎo)路線變成了大模型、大數(shù)據(jù)、大算力,以大模型為主導(dǎo)的載體或者智能的核心,底層的產(chǎn)業(yè)鏈體系架構(gòu)也在往基礎(chǔ)設(shè)施的方向發(fā)展,所以我們會(huì)發(fā)現(xiàn)芯片從單點(diǎn)變成了大規(guī)模的集群,里面涉及到網(wǎng)絡(luò)的問(wèn)題,涉及到萬(wàn)卡規(guī)模性的問(wèn)題,上面的框架從我們?cè)缙诘募筛黝愋∧P偷哪P蛶?kù)、工具鏈,解決工程化的問(wèn)題,到現(xiàn)在我們會(huì)發(fā)現(xiàn)像DeepSpeed分布式加速框架成為了關(guān)鍵,再到平臺(tái)層,平臺(tái)層也是一樣的,我們相當(dāng)于集成了若干大模型做相關(guān)的工作,它的集約性、平臺(tái)屬性會(huì)更凸顯。在早期一公里碎片化的問(wèn)題,我們相信在今天模型落地的過(guò)程中能有所緩解,實(shí)現(xiàn)真正設(shè)施的平臺(tái)化。
這里面有幾個(gè)簡(jiǎn)單的點(diǎn)可以簡(jiǎn)要講一講,一個(gè)是怎么構(gòu)建這個(gè)底座,這里面有個(gè)Scale up和Scale out的問(wèn)題,一方面我們會(huì)發(fā)現(xiàn)現(xiàn)在硬件和軟件的協(xié)同適配的問(wèn)題,是我們關(guān)注的重點(diǎn)。第二個(gè)是真正把規(guī)模擴(kuò)展到百卡、千卡、萬(wàn)卡的時(shí)候,追求線性集群的擴(kuò)展能力也是非常難的,仍然是現(xiàn)在工程界和學(xué)術(shù)界共同在解決的問(wèn)題。當(dāng)然還有大規(guī)模擴(kuò)展的網(wǎng)絡(luò)架構(gòu),面向大語(yǔ)言模型的定制化、國(guó)產(chǎn)化、規(guī)?;募軜?gòu)體系在不斷出現(xiàn)。
最后我們的挑戰(zhàn)和建議,如何準(zhǔn)確度量智算集群系統(tǒng),來(lái)實(shí)現(xiàn)大模型在各行業(yè)落地過(guò)程中的底座問(wèn)題,其實(shí)很多行業(yè)真正用的時(shí)候是用的大模型壓縮之后的小模型能力,終端邊緣側(cè)設(shè)備到底是什么形態(tài)來(lái)承載這種模型?我的實(shí)際應(yīng)用場(chǎng)景,不同的實(shí)際場(chǎng)景里,軟硬件的結(jié)構(gòu)怎么融合模型和底下的硬件體系,實(shí)現(xiàn)多元化的能力也是我們關(guān)注的一個(gè)重點(diǎn),所以關(guān)于底座的構(gòu)建,軟硬件的適配以及差異化的運(yùn)營(yíng)也是我們的觀點(diǎn)。
第四,展望建議。我們認(rèn)為未來(lái)一段時(shí)間模型水平發(fā)展仍然是遵循規(guī)模定律的,計(jì)算在一定情況下決定了大模型規(guī)模天花板,在底層我們認(rèn)為是軟硬高效協(xié)同的大系統(tǒng),中間這一層還是以Transformer架構(gòu)為核心驅(qū)動(dòng)通用智能探索的大算法,上面的模型平臺(tái)是以模型為中心的大生態(tài)。
當(dāng)然中國(guó)信通院也在做一系列研究性的工作,我們也試圖去解決大模型真正在工程化落地過(guò)程中我們需要跟底座融合一體,真正實(shí)現(xiàn)工程化應(yīng)用的方向。我們就構(gòu)建了一套體系叫AISHPERF,實(shí)現(xiàn)兼容適配和面向不同類型場(chǎng)景系統(tǒng)化能力的驗(yàn)證和測(cè)試。我們也構(gòu)建了一個(gè)人工智能的推進(jìn)組,匯聚了產(chǎn)業(yè)鏈上下游70多家企業(yè)和研究機(jī)構(gòu),也歡迎各單位如果有意可以加入進(jìn)來(lái),共同推動(dòng)我們?cè)诖竽P蜁r(shí)代人工智能落地過(guò)程中工程化的,大系統(tǒng)的,協(xié)同的問(wèn)題。
中國(guó)信通院建設(shè)了人工智能軟硬件協(xié)同和適配驗(yàn)證中心,這個(gè)中心就落地在了亦莊信創(chuàng)園,這個(gè)中心也承載了國(guó)家層面上現(xiàn)在在推動(dòng)的人工智能軟硬件協(xié)同相關(guān)的技術(shù)攻關(guān)、標(biāo)準(zhǔn)制定、生態(tài)培育、測(cè)試驗(yàn)證等一系列的相關(guān)工作,也歡迎大家的關(guān)注。
最后,我相信在這個(gè)時(shí)代大模型的技術(shù)紅利確實(shí)已經(jīng)可以在各行業(yè)中落地,這里面的核心是怎么解決最后一公里和工程化相關(guān)的工作的,能夠把這個(gè)能力充分釋放出來(lái),也希望和業(yè)界共同推動(dòng)大模型的應(yīng)用發(fā)展,謝謝。