在剛剛過去的春節(jié),科技界再次見證了一場顛覆性技術(shù)革命的誕生,2月16日凌晨OpenAI悄無聲息向業(yè)界扔出一枚“王炸”——正式發(fā)布了首款文生視頻模型"Sora",繼文本、圖像之后,OpenAI在視頻領(lǐng)域放出大招,AI文生視頻技術(shù)邁入了一個(gè)全新的發(fā)展階段。
首款文生視頻模型Sora
OpenAI官方表示:“Sora是能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ),相信這一功能將成為實(shí)現(xiàn)AGI的重要里程碑。”
AI 文生視頻技術(shù)
根據(jù)OpenAI官方發(fā)布的技術(shù)報(bào)告以及對外展示的48個(gè)視頻,Sora是基于Transformer架構(gòu)的文本條件擴(kuò)散模型,能夠根據(jù)文本提示生成長達(dá)一分鐘的視頻,甚至能夠擴(kuò)展現(xiàn)有視頻。
OpenAI官方發(fā)布的技術(shù)報(bào)告
Sora的技術(shù)報(bào)告還強(qiáng)調(diào)了其在理解復(fù)雜場景、物理屬性和場景關(guān)系方面的能力,以及在圖像和視頻編輯任務(wù)上的靈活性。
Sora生成的視頻不僅在視覺上具有高清畫質(zhì),而且在光影處理、物理效果(如遮擋和碰撞)、運(yùn)動(dòng)連續(xù)性等方面表現(xiàn)出接近真實(shí)世界的水平,相較于以往模型在生成視頻時(shí)可能出現(xiàn)的人物形象不一致等問題,Sora還能準(zhǔn)確呈現(xiàn)角色和視覺風(fēng)格的一致性,使得視頻場景更加自然連貫。
這些特性使得Sora在制作短視頻、動(dòng)畫、電影畫面和視頻游戲渲染方面展現(xiàn)出巨大的潛力。
Sora的特性
Sora一經(jīng)發(fā)布,迅速在全球范圍內(nèi)掀起驚濤巨浪,馬斯克在X平臺(tái)回復(fù)網(wǎng)友“gg humans”,AI文生視頻創(chuàng)企Runway聯(lián)合創(chuàng)始人兼CEO Cristóbal Valenzuela感嘆以前需要花費(fèi)一年的進(jìn)展,變成了幾個(gè)月就能實(shí)現(xiàn),又變成了幾天、幾小時(shí)。
Sora被認(rèn)為在人工智能領(lǐng)域取得了重大突破,它的出現(xiàn)被視為通用人工智能(AGI)實(shí)現(xiàn)的重要里程碑,360董事長周鴻祎認(rèn)為Sora意味著AGI實(shí)現(xiàn)將從10年縮短到1年,并且可能給廣告業(yè)、電影預(yù)告片、短視頻行業(yè)帶來巨大的顛覆。
《MIT科技評(píng)論》主編指出:“Sora的出現(xiàn),無疑是人工智能發(fā)展歷程中的一個(gè)里程碑,它的誕生意味著我們正逐步接近一個(gè)‘文字即視頻’的新時(shí)代。”
中國科學(xué)院空天信息研究院的譚劍副研究員表示:“Sora的出現(xiàn),開啟了創(chuàng)作力和想象力的時(shí)代。”他進(jìn)一步指出,Sora在理解地球物理世界的規(guī)律方面取得了巨大進(jìn)展,這不僅僅是技術(shù)上的突破,更是對傳統(tǒng)計(jì)算機(jī)圖形學(xué)領(lǐng)域的一次顛覆。
不過也有人對其帶來的內(nèi)容真實(shí)性問題和倫理考量表示擔(dān)憂,指出“確保內(nèi)容的真實(shí)透明成為了一個(gè)重要議題”;圖靈巨頭LeCun認(rèn)為,僅根據(jù)文字提示生成逼真的視頻,并不代表模型理解了物理世界。生成視頻的過程與基于世界模型的因果預(yù)測完全不同。
Sora的發(fā)布讓文生視頻技術(shù)進(jìn)入新的發(fā)展階段,會(huì)逐步打破傳統(tǒng)的內(nèi)容創(chuàng)作模式,給廣告、游戲、影視等行業(yè)帶來前所未有的挑戰(zhàn)和機(jī)遇。
隨著技術(shù)的迭代,企業(yè)能高效低成本地進(jìn)行產(chǎn)品演示、內(nèi)容制作、廣告創(chuàng)意設(shè)計(jì)等多元化的數(shù)字內(nèi)容生產(chǎn),這將進(jìn)一步加速企業(yè)向智能化內(nèi)容創(chuàng)作與傳播的轉(zhuǎn)型步伐,并可能重塑未來多媒體信息生態(tài)。