據(jù)華爾街日報(bào)12月3日報(bào)道,亞馬遜云計(jì)算部門Amazon Web Services(AWS)本周二宣布了兩項(xiàng)重要?jiǎng)討B(tài),一是宣布打造由數(shù)十萬顆自研Trainium芯片組成的超級計(jì)算機(jī)集群“Ultracluster”;二是推出全新服務(wù)器“Ultraserver”。
亞馬遜云計(jì)算
“Ultracluster”是亞馬遜位于德克薩斯州奧斯汀的AI芯片設(shè)計(jì)實(shí)驗(yàn)室研發(fā)的最新成果,AWS透露“Ultracluster”將用于支持AI初創(chuàng)企業(yè)Anthropic的模型訓(xùn)練工作。Anthropic是亞馬遜投資的重點(diǎn)對象,并于近期獲得了亞馬遜追加的40億美元投資。
這個(gè)名為“Project Rainier”的集群項(xiàng)目將位于美國,預(yù)計(jì)將在2025年投入使用,屆時(shí)將成為全球最大的AI模型訓(xùn)練集群之一。AWS表示,其Ultracluster項(xiàng)目的計(jì)算性能是Anthropic當(dāng)前訓(xùn)練集群的五倍,能夠顯著提升AI模型的訓(xùn)練效率。
Ultraserver服務(wù)器由64顆自研芯片互聯(lián)組成,采用創(chuàng)新的設(shè)計(jì)架構(gòu),為客戶提供強(qiáng)大的算力支持。Ultraserver通過將64顆芯片集成到一個(gè)封裝中,組合了四臺服務(wù)器,每臺服務(wù)器包含16顆Trainium芯片,相比之下,某些Nvidia的GPU服務(wù)器僅包含8顆芯片.
AWS副總裁Dave Brown表示,為了使這些芯片協(xié)同工作為一臺服務(wù)器,AWS利用其網(wǎng)絡(luò)技術(shù)“NeuronLink”實(shí)現(xiàn)四臺服務(wù)器的高效通信,從而將計(jì)算能力提升至83.2 PetaFLOPS。AWS表示,從體積來看,Ultraserver更接近于冰箱大小的主機(jī)計(jì)算機(jī),而非緊湊型個(gè)人電腦。
AWS的AI芯片布局始于2018年發(fā)布的Inferentia芯片,這是一款專門用于AI推理計(jì)算的芯片;2020年,推出首款A(yù)I模型訓(xùn)練芯片Trainium;隨后在2023年發(fā)布了性能更強(qiáng)的Trainium2,目前已經(jīng)向客戶全面開放使用。據(jù)AWS透露,下一代Trainium3芯片及基于其的服務(wù)器正在開發(fā)中,其性能將達(dá)到當(dāng)前版本的四倍。
據(jù)統(tǒng)計(jì),2024年全球AI芯片市場規(guī)模達(dá)1175億美元,預(yù)計(jì)到2027年將增長至1933億美元,其中Nvidia占據(jù)約95%的市場份額。AWS首席執(zhí)行官M(fèi)att Garman表示:“目前在GPU領(lǐng)域,幾乎只有Nvidia一家選擇。但我們相信,客戶需要更多的選擇。”