在熱烈的Sora討論背后,我們應(yīng)該怎樣理性認(rèn)知,冷思考是什么?《通信產(chǎn)業(yè)報(bào)》全媒體記者特別遴選了業(yè)界最關(guān)注的十個(gè)問(wèn)題,通過(guò)專(zhuān)家的采訪,和你一起理解Sora以及由此應(yīng)該認(rèn)知的機(jī)會(huì)。
01 Sora本質(zhì)是什么?
作為OpenAI公司開(kāi)發(fā)的一款文生視頻模型,Sora能夠?qū)⒂脩?hù)輸入的文本描述轉(zhuǎn)化為相應(yīng)的視頻內(nèi)容,不僅可以生成長(zhǎng)達(dá)一分鐘的視頻,且能完全遵照用戶(hù)的Prompt并保持視覺(jué)質(zhì)量。自然語(yǔ)言處理、高清視頻生成、遵循指令三大能力是其核心優(yōu)勢(shì)。作為文生視頻模型,在模型方面,Sora模型基于擴(kuò)散型變換器(diffusion transformer)架構(gòu),這是一種深度學(xué)習(xí)模型,能夠?qū)㈦S機(jī)噪聲逐漸轉(zhuǎn)化為有意義的圖像或視頻內(nèi)容。Sora通過(guò)訓(xùn)練,學(xué)會(huì)了理解和處理文本提示,將用戶(hù)的描述轉(zhuǎn)化為視頻內(nèi)容,它不僅能夠生成具有連貫性的場(chǎng)景和運(yùn)動(dòng)的鏡頭,還能夠模擬復(fù)雜的場(chǎng)景和角色表情,為視頻增添更多細(xì)節(jié)和想象力。
02 Sora的技術(shù)核心是什么?
Sora這一技術(shù)的核心在于結(jié)合了自然語(yǔ)言處理技術(shù)和視頻生成技術(shù),其采用了先進(jìn)的深度學(xué)習(xí)算法和大規(guī)模視頻數(shù)據(jù)集進(jìn)行訓(xùn)練,使得模型能夠?qū)W習(xí)到視頻生成所需的各種特征和規(guī)律,Sora模型通過(guò)深度學(xué)習(xí)和語(yǔ)義分析來(lái)理解并解析輸入的文本描述,捕捉其中的關(guān)鍵信息和意圖。然后,基于這些信息,模型能夠自動(dòng)生成符合描述要求的視頻內(nèi)容,在這之中,Sora模型因其具備強(qiáng)大的語(yǔ)義理解能力,能夠準(zhǔn)確捕捉用戶(hù)輸入文本中的細(xì)節(jié)和要點(diǎn),從而生成更加精準(zhǔn)、生動(dòng)的視頻內(nèi)容,來(lái)滿(mǎn)足不同領(lǐng)域、不同需求的創(chuàng)作者。
03 Sora的首批真實(shí)場(chǎng)景是什么?
目前,Sora模型的發(fā)布為以影視制作、廣告創(chuàng)意、教育培訓(xùn)、社交媒體為代表的視頻創(chuàng)作領(lǐng)域帶來(lái)了無(wú)限的可能性和機(jī)遇。其中,在廣告領(lǐng)域,廣告商可以利用Sora快速生成符合品牌調(diào)性的宣傳視頻;在媒體行業(yè),新聞機(jī)構(gòu)可以利用Sora制作生動(dòng)形象的新聞報(bào)道;在教育領(lǐng)域,教育機(jī)構(gòu)可以借助Sora制作有趣的教學(xué)視頻,提升學(xué)生的學(xué)習(xí)興趣和效果。此外,Sora還可以應(yīng)用于游戲、娛樂(lè)等多個(gè)領(lǐng)域。也正因此,Sora的發(fā)布對(duì)全球AI行業(yè)產(chǎn)生深遠(yuǎn)的影響,它將極大地降低視頻制作的門(mén)檻和成本,使得更多的人和企業(yè)能夠利用視頻進(jìn)行表達(dá)和傳播,為更多行業(yè)帶來(lái)全新的商業(yè)模式和服務(wù)形態(tài)。
04 Sora的版權(quán)和安全隱私問(wèn)題怎么辦?
事實(shí)上,Sora等文本到視頻的人工智能項(xiàng)目在創(chuàng)作過(guò)程中涉及大量?jī)?nèi)容,自然引發(fā)版權(quán)問(wèn)題。一方面,Sora在訓(xùn)練過(guò)程中可能使用了受版權(quán)保護(hù)的內(nèi)容,這引發(fā)了關(guān)于如何合法使用這些內(nèi)容的問(wèn)題。另一方面,由于Sora能夠生成高度逼真的視頻內(nèi)容,如果不加以限制和監(jiān)管,可能會(huì)被濫用于制作虛假信息或侵犯他人隱私。在安全隱私上,由于Sora文生視頻模型需要大量的數(shù)據(jù)作為訓(xùn)練樣本,這些數(shù)據(jù)可能包含用戶(hù)的隱私信息,如果這些數(shù)據(jù)被不當(dāng)使用或泄露,就可能對(duì)用戶(hù)的隱私造成威脅。
05 Sora將如何影響通信行業(yè)?
作為一款文生視頻模型,隨著Sora等類(lèi)似應(yīng)用的普及,視頻流量將大幅增加,對(duì)固定及移動(dòng)通信網(wǎng)絡(luò)的帶寬需求也將隨之不斷提升,同時(shí),Sora等大型AI模型需要強(qiáng)大的計(jì)算能力和高效的數(shù)據(jù)中心網(wǎng)絡(luò)來(lái)支持其運(yùn)行,這意味著數(shù)據(jù)中心需要更高的帶寬和更低的延遲來(lái)確保模型的訓(xùn)練和推理效率,最后則是為了減少數(shù)據(jù)傳輸延遲和提高用戶(hù)體驗(yàn),越來(lái)越多的計(jì)算任務(wù)將在網(wǎng)絡(luò)邊緣完成,這也將加速通信業(yè)對(duì)于邊緣計(jì)算的建設(shè)。
06 Sora背后團(tuán)隊(duì)與應(yīng)用限制如何?
Sora炸場(chǎng),其背后技術(shù)團(tuán)隊(duì)也正在持續(xù)引爆關(guān)注。出乎意料的是,這支團(tuán)隊(duì)很年輕,兩位負(fù)責(zé)人都是在2023年剛剛博士畢業(yè),團(tuán)隊(duì)里甚至有00后選手,還專(zhuān)門(mén)招了藝術(shù)生,頂級(jí)人才持續(xù)星聚,驚得眾人開(kāi)始重新考量OpenAI的技術(shù)領(lǐng)先性。然而,盡管Sora的技術(shù)能力非常強(qiáng)大,但它目前還無(wú)法完全替代復(fù)雜的影視制作,例如,對(duì)于敘事復(fù)雜、多視角的《三體》這樣的作品,Sora尚不能實(shí)現(xiàn)從概念到成品的完整制作。此外,就目前的展示內(nèi)容來(lái)看,并不意味著它已經(jīng)“讀懂”了物理規(guī)律,Sora對(duì)真實(shí)世界的模擬還有很多提升空間。
07 Sora模型對(duì)算力需求有多大?
OpenAI發(fā)布的全新AI生成視頻模型Sora,一方面,采用擴(kuò)散模型+Transformer架構(gòu),需要通過(guò)超大量數(shù)據(jù)集來(lái)擴(kuò)大模型規(guī)模并提高模型表現(xiàn),對(duì)訓(xùn)練和推理端算力的需求提升非常明顯;另一方面,視頻模型的訓(xùn)練和推理需求預(yù)計(jì)比文本、圖像又增加了一個(gè)維度,從而有望帶來(lái)AI芯片持續(xù)增長(zhǎng)的需求。此外,多模態(tài)大模型應(yīng)用后,視頻內(nèi)容的傳輸預(yù)計(jì)帶來(lái)網(wǎng)絡(luò)帶寬的升級(jí)。Sora模型從文本、圖像邁入視頻大模型,使用了大規(guī)模訓(xùn)練和超大數(shù)據(jù)集,是通向通用AI的里程碑,AI服務(wù)器、GPU等算力設(shè)備的需求預(yù)期被再次抬升到新的高度。據(jù)推測(cè),整個(gè)Sora模型可能有30億個(gè)參數(shù),為此,OpenAI啟動(dòng)了“造芯”計(jì)劃,以應(yīng)對(duì)其龐大的計(jì)算需求。
08 Sora的“最佳試煉場(chǎng)”或?qū)⒃谠钪妫?/span>
Sora橫空出世,特別適合制作那些在現(xiàn)實(shí)中難以拍攝、對(duì)想象力要求特別高的內(nèi)容,之前拍攝特效視頻需要用到特殊技巧,現(xiàn)在只需要輸入一段充滿(mǎn)想象力的文字即可生成,Sora的最大貢獻(xiàn)是作為革命性平臺(tái),極大降低了視頻輸出成本,這被一度看作是元宇宙發(fā)展的核心桎梏。隨著時(shí)間的推移,Sora會(huì)推動(dòng)AI生成視頻快速規(guī)?;?,AI生成視頻、AI生成虛擬世界前景非常樂(lè)觀,AI數(shù)字人、AI視頻是元宇宙的重要支撐基礎(chǔ),大模型和元宇宙的結(jié)合,將推動(dòng)元宇宙走近用戶(hù)。
09 Sora有望成為“世界模型”?
OpenAI深夜放大招,Sora展現(xiàn)出的視頻生成能力讓網(wǎng)友驚呼“逆天”,“世界模型”“世界模擬器”成為Sora的重要標(biāo)簽。以前的AI視頻,都單鏡頭生成的,Sora能在同一視頻中設(shè)計(jì)出多個(gè)鏡頭,同時(shí)保持角色和視覺(jué)風(fēng)格的一致性,這種級(jí)別的多鏡頭一致性,是Gen 2和Pika都完全無(wú)法企及的,Sora在訓(xùn)練過(guò)程中表現(xiàn)出了與其他模型不同的涌現(xiàn)能力,不得不說(shuō)是個(gè)奇跡。另外,從投資角度來(lái)看,Sora背后的涌現(xiàn)能力為自動(dòng)駕駛、設(shè)計(jì)等需要現(xiàn)實(shí)世界建模的行業(yè)也提供了明確方向。從技術(shù)角度出發(fā),Sora帶給業(yè)界最大的啟發(fā)是DIT模型,即以Transformer為主干的擴(kuò)散模型,盡管它們已經(jīng)是非常成熟的技術(shù),但之前很少有人將兩者放在一起??梢哉f(shuō),Sora的效果已經(jīng)完全跳出了用冷兵器短兵相接的時(shí)代,已經(jīng)有了世界模型的雛形。
10 一批創(chuàng)新公司要“消失了”?
OpenAI的Sora文生視頻模型自發(fā)布以來(lái),引起了廣泛關(guān)注和討論。Sora模型能夠根據(jù)文本描述生成長(zhǎng)達(dá)60秒的視頻,這一技術(shù)突破不僅展示了AI在視頻內(nèi)容創(chuàng)作領(lǐng)域的潛力,也預(yù)示著未來(lái)視頻制作和消費(fèi)方式的重大變革,Sora模型的推出,可能會(huì)加劇視頻生成領(lǐng)域的競(jìng)爭(zhēng),無(wú)疑將對(duì)內(nèi)容創(chuàng)作、媒體制作、娛樂(lè)產(chǎn)業(yè)等多個(gè)領(lǐng)域產(chǎn)生深遠(yuǎn)影響。值得關(guān)注的是,Sora是一個(gè)偉大的工程進(jìn)步,距離商業(yè)化還有一段路要走,除了確保在關(guān)鍵領(lǐng)域占領(lǐng)導(dǎo)地位、突破技術(shù)、建立平臺(tái)外,也會(huì)做垂類(lèi)應(yīng)用,創(chuàng)新公司仍有很大發(fā)展空間。此外,從OpenAI的論文不難看出,Sora幫助很多創(chuàng)業(yè)公司節(jié)約了數(shù)以千萬(wàn)計(jì)的探索成本,但同時(shí)也給創(chuàng)業(yè)者提供了很大的想象空間。
資訊來(lái)源:通信產(chǎn)業(yè)網(wǎng)公眾號(hào)
作者:黨博文 胡媛、視頻:莉君、編輯:曉燕、指導(dǎo):辛文