作者:劉宗智
在ChatGPT問世一年多后,OpenAI再度“進化”,日前發(fā)布首個AI文字生成視頻模型Sora。使用者只需通過文字描述場景,Sora就能生成類似電影的逼真場景,涵蓋多個角色、不同類型動作和背景細節(jié)等,最高能生成1分鐘左右的1080P高清視頻,引發(fā)業(yè)界極大的震撼。Sora的出現(xiàn)被看作“人工智能領域的一次重大突破”,顯著提高了AI文字生成視頻的能力上限,為今后的文明進步帶來更多樣的可能性。Sora究竟是什么?未來將給影視行業(yè)帶來哪些變化與挑戰(zhàn)?
效果媲美“大片”
近日,由Sora生成的一段時長59秒的視頻,在社交網(wǎng)絡上廣為流傳。畫面中,一位戴墨鏡、身穿紅裙皮衣、踩著皮靴的女人,漫步在東京街頭,鏡頭流暢地推到了她的臉部,可以清晰地看到她臉上的雀斑和皮膚紋理。這個一鏡到底的視頻不需要人來拍攝和剪輯,只要把一段文字描述輸入Sora后由AI直接生成。此外,OpenAI還公布了其他幾段視頻,幾只巨大的毛茸茸的猛犸象踏著白雪皚皚的草地走近、一個毛茸茸的小怪物跪在融化的紅蠟燭旁邊……視頻質量媲美“大片”,視覺效果也十分逼真。
除了生成的畫面高度接近現(xiàn)實物理世界,OpenAI介紹,Sora可以實現(xiàn)視頻中的主題始終保持一致,即使暫時離開視野也不會發(fā)生變化,并可以一次性生成多機位視頻,還可以依靠對語言的深入理解準確地解釋提示詞,保留角色和視覺風格。有網(wǎng)友感慨,“它將把視頻內容帶入‘零基礎創(chuàng)作’時代”。
電影學者李超在接受齊魯晚報采訪時,向記者展示了一段由AI提煉的相關背景介紹:Sora模型的核心是擴散模型,它從“隨機噪聲”開始,經過上百個細致的處理階段,最終演化成為一個連貫且生動的視頻場景。此外,Sora還結合了語言理解和視覺生成技術,能夠創(chuàng)建復雜的場景和角色?!癝ora實際上是物理世界通用模擬器?!崩畛M一步解釋說。
不少科技從業(yè)人員也從不同角度對Sora進行點評。馬斯克在社交平臺上踴躍發(fā)言,“人類愿賭服輸”“人類借助AI之力將創(chuàng)造出卓越作品”;AI文生視頻創(chuàng)企Runway聯(lián)合創(chuàng)始人克里斯托瓦爾·巴倫蘇埃拉感慨后浪拍前浪,以前需要花費一年的進展,變成了幾個月就能實現(xiàn),又變成了幾天、幾小時;出門問問創(chuàng)始人李志飛在朋友圈感嘆:“LLM(大型語言模型)ChatGPT是虛擬思維世界的模擬器,以LLM為基礎的視頻生成模型Sora是物理世界的模擬器,物理和虛擬世界都被建模和模擬了,到底什么是現(xiàn)實?”
360創(chuàng)始人、董事長周鴻祎近日則公開表示,這意味著AGI(人工通用智能)實現(xiàn)將從10年縮短到1年。他預言Sora“可能給廣告業(yè)、電影預告片、短視頻行業(yè)帶來巨大的顛覆”,并且認為OpenAI“手里的武器并沒有全拿出來”“AGI不是10年、20年的問題,可能一兩年很快就可以實現(xiàn)”。
Sora將會替代誰
Sora的出現(xiàn)也為影視行業(yè)的發(fā)展,帶來了更為廣闊的想象空間。有業(yè)內人士認為,未來一些不需要特別復雜情節(jié)的視頻,能夠借助Sora完成。Sora會像當年的智能手機一樣,降低內容創(chuàng)作者門檻,從而使內容供給更加豐富。
在李超看來,以Sora為首的人工智能文字生成視頻模型,將會帶來三方面的變化。一是影視行業(yè)本身,二是拓展到社會,三是將會給人類的科技文明帶來極大提升?!霸谟耙晞?chuàng)作中,但凡涉及想象類的,都需要構建世界觀,比如里面的重力磁場、能量交換模式等。傳統(tǒng)模式下,需要依靠人類對物理世界規(guī)則的理解,而Sora已經掌握了人類所有的知識,它會比人更具系統(tǒng)性和全面性。那么在此前提下,Sora模擬的場景在物理規(guī)則方面會更加完整。Sora作為物理世界的通用模擬器,今后很有可能會應用于社會場景。在由人工智能構建的虛擬世界中,我們會有完善的社會系統(tǒng)、社會身份、個人資產,還會有能源交換行為和情感交換行為??萍紝用妫酝槐阌谘芯康奈⒂^和宏觀世界也可以在其中進行模擬、實驗?!?/p>
技術浪潮下的影視產業(yè),重塑與變革必然勢不可當。不過,面對新事物的產生,人們不免喜憂參半。不少網(wǎng)友擔憂地表示,未來導演、攝像、化妝、道具、剪輯、配音等一大批從業(yè)人員或將失業(yè)。對此,李超認為,Sora將會代替大部分基礎性、重復性的工作,很可能會出現(xiàn)兩種分化,一種是擅長使用AI工具的人,一種是創(chuàng)新性人才,“越是創(chuàng)意維度高的工作,替代性越低”,視頻作品的創(chuàng)意性、故事性、藝術性,將在更加海量的作品競爭中標準越來越高。
最大短板是“靈韻”
1分鐘的視頻并不長,但對于AI文字生成視頻可以算是巨大飛躍。過去一年多,ChatGPT、Midjourney等現(xiàn)象級爆款應用橫空出世,AI生成文字、生成圖片技術的飛速發(fā)展讓人興奮,相比之下,AI生成視頻領域雖有Runway、Pika、Meta、谷歌等多個明星公司入局,但因技術難度更大,發(fā)展仍處于早期,每次生成的視頻只能達到十多秒的時長。而Sora將視頻長度拉長到了60秒,這一突破意味著,由其生成的視頻信息承載力更強,內容更豐富,達到了很多短視頻平臺的內容發(fā)布要求。Sora在細節(jié)處理、語言理解、視頻擴展等方面的表現(xiàn)令人耳目一新,這也是它與其他AI生成視頻模型能夠拉開差距的重要原因。
Sora雖然能力驚人,但水平還不夠“封神”。OpenAI稱,它可能難以準確模擬復雜場景的物理原理,并且可能無法理解因果關系的具體實例。此外,該模型還可能混淆提示的空間細節(jié),例如混淆左右,并且可能難以精確描述隨著時間推移發(fā)生的事件,例如遵循特定的相機軌跡。
短時期內Sora或許存在一定的硬性技術問題,但當這些問題被很好地解決以后,Sora就與藝術家們創(chuàng)作的影視作品完全相同了嗎?本雅明在《機械復制時代的藝術作品》一書中提出了“靈韻”的概念,在他看來,靈韻是事物為彰顯自身的獨特性而散發(fā)的一種微妙的氣質,藝術一方面宣稱自身的獨一無二,另一方面又與日常生活和普通事物保持一定的距離感。Sora能對影視場景進行大眾化生產,但與“真人創(chuàng)作的影視作品”相比,缺失了獨特性和距離感,這就導致了靈韻的消逝。
由此看來,即使技術升級的Sora能創(chuàng)作所謂的長篇影視作品,但這些作品和“真人創(chuàng)作的作品”最大的區(qū)別也是最后的區(qū)隔就在于靈韻的有無,Sora可以帶來絢麗的畫面、逼真的場景,可以“整合”經典電影場景,但可能永遠無法為我們帶來一個演員面對戲劇沖突時真人的“應激”表演?!罢嫒恕眲?chuàng)造出的藝術作品是具有靈韻的,能讓我們無比期待,Sora能做到嗎?
編輯:李君超