行業(yè)分析 | 刷屏科技圈!還不了解Sora是什么?看完這篇你就懂了
2024-03-13來源:廣發(fā)基金
在中國的農(nóng)歷年期間,AI行業(yè)也仿佛進(jìn)入了辭舊迎新之際,人們見證了一系列引人注目的進(jìn)步。其中,OpenAI團(tuán)隊發(fā)布的Sora模型,猶如一顆璀璨的星辰,它高效的降維處理能力讓人不禁遐想其是否迎來了向通用人工智能(AGI)的加速轉(zhuǎn)變。
01 Sora是什么?
Sora采用先進(jìn)的深度學(xué)習(xí)架構(gòu),將視頻數(shù)據(jù)轉(zhuǎn)換為低維度的潛在空間表示,再通過空間-時間圖塊(Spacetime latent patches)對其進(jìn)行分解。
這種方法受到了大規(guī)模語言模型成功經(jīng)驗(yàn)的啟發(fā),將多樣化的視覺數(shù)據(jù)統(tǒng)一為一個可處理的格式。Sora可以通過壓縮網(wǎng)絡(luò)將原始視頻數(shù)據(jù)降維,然后將這些壓縮后的表示分解為一系列圖塊(patches),再將這些圖塊(patches)轉(zhuǎn)變?yōu)榱钆疲╰okens)輸入到模型中。Sora進(jìn)一步利用這些圖塊(patches)在多種分辨率、持續(xù)時間和縱橫比的視頻和圖像上進(jìn)行訓(xùn)練,是一個以擴(kuò)散模型為基礎(chǔ)、結(jié)合transformer架構(gòu)的生成模型,能夠從噪聲輸入圖塊(patches)中預(yù)測出原始的“干凈”圖塊(patches)。
該模型具備了以下7項(xiàng)獨(dú)特的優(yōu)勢:
?。?)視頻生成長度可達(dá)1分鐘,遠(yuǎn)超其他文生視頻模型。熱門的runway gen2一次生成4秒,可向后每次擴(kuò)展4秒(最多到20秒);pika 3秒,可向后每次擴(kuò)展4秒到15秒;開源的stable video diffusion 能生成3秒。
?。?)能夠向前或向后擴(kuò)展視頻,以及連接視頻。人們可以使用Sora在兩個輸入視頻之間逐漸插值,在完全不同主題和不同場景構(gòu)圖的視頻之間創(chuàng)建無縫過渡。這一視頻擴(kuò)展和連接的能力,將有望用于長視頻制作。
?。?)鏡頭控制能力,3D空間的一致性。Sora可以生成具有動態(tài)鏡頭運(yùn)動的視頻,隨著攝像機(jī)的移動和旋轉(zhuǎn),人物和場景元素在三維空間中能保持連貫的運(yùn)動。
?。?)長期連續(xù)性和物體持久性。Sora通常能夠有效地對短期和長期依賴關(guān)系進(jìn)行建模,例如可以保留人、動物和物體,即使它們被遮擋或離開鏡頭;它還可以在單個樣本中生成同一角色的多個鏡頭,在整個視頻中保持外觀。OpenAI官網(wǎng)稱Sora解決了一個具有挑戰(zhàn)性的問題,即確保一個主題即使暫時離開視野也能保持不變。
?。?)模擬真實(shí)世界交互。Sora有時可以模擬簡單的影響真實(shí)世界狀態(tài)的動作。例如,一位畫家可以在畫布上留下持續(xù)一段時間的新筆觸,或者一個人吃漢堡并留下咬痕。
?。?)模擬數(shù)字世界。Sora能夠模擬人工過程,例如視頻游戲,Sora可以同時通過基本策略控制 Minecraft游戲中的玩家,同時還可以高保真地渲染世界及其動態(tài)。
?。?)語言理解,遵循指示。OpenAI在視頻上使用了在Dall E3引入的re-caption技術(shù),首先訓(xùn)練一個高度描述性的標(biāo)題生成模型,然后使用它為訓(xùn)練集當(dāng)中的所有視頻生成文本標(biāo)題。OpenAI發(fā)現(xiàn),基于高度描述性視頻標(biāo)題的培訓(xùn)可以提高文本保真度以及視頻的整體質(zhì)量。OpenAI還利用GPT將簡短的用戶提示轉(zhuǎn)換為更長的詳細(xì)標(biāo)題,讓Sora能夠準(zhǔn)確遵循用戶提示生成高質(zhì)量的視頻。
02 Sora的局限性?
盡管Sora在視頻生成領(lǐng)域展現(xiàn)了前所未有的能力,但它仍存在一些局限性。
例如,Sora在模擬一些基本物理交互(如玻璃破碎)時并不總是能夠準(zhǔn)確捕捉其物理特性,且在某些情況下對物體狀態(tài)的改變(如食物被吃掉)的模擬也不總是正確的。
此外,盡管Sora在處理短視頻和長視頻時通常能夠有效地模擬短期和長期依賴關(guān)系,但在長視頻樣本中,仍可能存在一些不連貫性或物體突然出現(xiàn)等問題。
03 Sora誕生的啟示?
即使有一些缺陷,Sora大模型的問世仍舊是AI領(lǐng)域的一大飛躍,其對我國AI行業(yè)的啟示是多維的。
首先,它強(qiáng)調(diào)了創(chuàng)新在推動技術(shù)進(jìn)步中的核心作用,鼓勵我國AI企業(yè)加大研發(fā)投入,尤其是在深度學(xué)習(xí)和計算機(jī)視覺領(lǐng)域。
其次,Sora的成功利用了數(shù)據(jù)的多樣性和質(zhì)量,這提示中國可以利用其龐大的數(shù)據(jù)資源,培育適應(yīng)本土市場的AI應(yīng)用。
此外,Sora的誕生也凸顯了建立AI倫理規(guī)范和法規(guī)政策體系,以確保技術(shù)健康和可持續(xù)發(fā)展的必要性。
同時,國際合作與競爭的日益加劇,提醒中國需要在全球AI競技場上積極布局。人才是關(guān)鍵,Sora的出現(xiàn)進(jìn)一步說明了高級AI技術(shù)人才的重要性,將促使教育體系加大對相關(guān)專業(yè)人才培養(yǎng)的力度。
最后,Sora在視頻生成方面的應(yīng)用潛力為多個行業(yè)提供了創(chuàng)新思路,特別是內(nèi)容創(chuàng)造和媒體傳播,這為未來的行業(yè)應(yīng)用革新開辟了道路。
?。ㄗ髡撸簭V發(fā)基金研究發(fā)展部 吳鵬)
風(fēng)險提示:基金有風(fēng)險,投資需謹(jǐn)慎。本資料不構(gòu)成本公司任何業(yè)務(wù)的宣傳推介材料、投資建議或保證,也不作為任何法律文件。本基金管理人承諾以誠實(shí)信用、勤勉盡責(zé)的原則管理和運(yùn)用基金資產(chǎn),但不保證基金一定盈利,也不保證最低收益?;疬^往業(yè)績和獲獎情況不預(yù)示未來表現(xiàn)。投資者在投資基金前應(yīng)認(rèn)真閱讀《基金合同》和《招募說明書》等基金法律文件,全面認(rèn)識基金產(chǎn)品的風(fēng)險收益特征,在了解產(chǎn)品情況及聽取銷售機(jī)構(gòu)適當(dāng)性意見的基礎(chǔ)上,根據(jù)自身的風(fēng)險承受能力、投資期限和投資目標(biāo),對基金投資作出獨(dú)立決策,選擇合適的基金產(chǎn)品。
相關(guān)閱讀
[an error occurred while processing this directive]
娇妻穿丁字裤公交车被c| 天堂中文最新版在线官网在线 | 日本三级吃奶头添泬无码苍井空| 色欲久久综合亚洲精品蜜桃| 女人下边紧了好还是松点好| 久久精品国产亚洲AV大全| 熟妇人妻中文字幕| 欧美一区二区三区视频在线观看| 精品女同一区二区三区免费站 | 欧美性生 活18~19| 粉嫩AV久久一区二区三区| 亚洲av无码日韩精品影片| 国产日韩精品中文字无码| 浓毛妇女老太bbwbbw| 精品久久人人妻人人做精品| 国产精品永久久久久久久久久| 久久久久久久人妻无码中文字幕爆 | 被黑人猛躁10次高潮视频| 亚洲 自拍 另类 欧美 综合| 进女小姪女体内的视频| 久久久久久av无码免费网站下载 | 免费少妇a级毛片| 国产亚洲精品久久久久久小舞| 97碰碰碰免费公开在线视频| 久久久久se色偷偷亚洲精品av| 精品一区二区三区自拍图片区| 无码国精品一区二区免费| 老师在办公室被躁在线观看| 男攻男受过程无遮掩视频| 99久久精品毛片免费播放高潮| 亚洲成熟丰满熟妇高潮xxxxx| 丁香色欲久久久久久综合网| 精品一区二区三区免费播放| 久久99国产综合精品尤物| 国产一区二区三区乱码| 性一交一乱一伦a片| 日韩电影一区二区三区| 无套中出丰满人妻无码| 漂亮人妻被强了bd影片| 他用嘴巴含着我奶头好舒服| 中文字幕日韩欧美一区二区三区|