智駕網(wǎng) 2024-12-17 12:46
圖森未來(lái)發(fā)布首款圖生視頻大模型“Ruyi”,并對(duì)外開源
分享
憑借在幀間一致性、動(dòng)作流暢性方面的卓越表現(xiàn),以及和諧自然的色彩呈現(xiàn)和構(gòu)圖,Ruyi大模型將為視覺敘事提供全新的可能性。

12月17日 - 圖森未來(lái)今日正式發(fā)布“Ruyi”圖生視頻大模型,并將Ruyi-Mini-7B版本正式開源,用戶可以從huggingface上下載使用。圖森表示,希望通過開源模式,讓更多AIGC愛好者和社區(qū)成員能夠自由體驗(yàn)。


“Ruyi”專為在消費(fèi)級(jí)顯卡(例如 RTX 4090)上運(yùn)行而設(shè)計(jì), 并提供詳盡的部署說明和 ComfyUI 工作流,以便用戶能夠快速上手。


圖森未來(lái)介紹,Ruyi是圖森未來(lái)正式發(fā)布的第一款“圖生視頻”模型。


憑借在幀間一致性、動(dòng)作流暢性方面的卓越表現(xiàn),以及和諧自然的色彩呈現(xiàn)和構(gòu)圖,Ruyi大模型將為視覺敘事提供全新的可能性。


同時(shí),該模型還針對(duì)動(dòng)漫和游戲場(chǎng)景進(jìn)行深度學(xué)習(xí),將成為ACG愛好者理想的創(chuàng)意伙伴。


Ruyi是一個(gè)基于DiT架構(gòu)的圖生視頻模型,它由兩部分構(gòu)成:一個(gè)Casual VAE模塊負(fù)責(zé)視頻數(shù)據(jù)的壓縮和解壓,一個(gè)Diffusion Transformer負(fù)責(zé)壓縮后的視頻生成。其中Casual VAE模塊會(huì)將空間分辨率壓縮至1/8,時(shí)間分辨率壓縮至1/4,壓縮后每個(gè)像素由16位的BF16進(jìn)行表示。DiT部分使用3D full attention,在空間上使用2D RoPE進(jìn)行位置編碼,時(shí)間上使用sin_cos進(jìn)行位置編碼,最終的loss選用了DDPM進(jìn)行訓(xùn)練。模型的總參數(shù)量約為7.1B,使用了約200M個(gè)視頻片段進(jìn)行訓(xùn)練。


整個(gè)訓(xùn)練分為了4個(gè)階段:


在第一階段我們使用約200M的視頻數(shù)據(jù)+30M圖片數(shù)據(jù)進(jìn)行256分辨率的預(yù)訓(xùn)練,訓(xùn)練batch size為4096,共訓(xùn)練350k個(gè)iteration至充分收斂。


第二階段使用了約60M的視頻數(shù)據(jù)進(jìn)行384-512分辨率的多尺度微調(diào)訓(xùn)練,訓(xùn)練batch size為1024,共訓(xùn)練了60k個(gè)iteration。


第三階段使用了約20M的高質(zhì)量視頻數(shù)據(jù)和8M的高質(zhì)量圖片進(jìn)行384-1024分辨率的多尺度微調(diào),訓(xùn)練batch size根據(jù)顯存大小進(jìn)行動(dòng)態(tài)調(diào)整,共訓(xùn)練約10k個(gè)iteration。


第四階段使用了10M的精選高質(zhì)量視頻數(shù)據(jù)進(jìn)行了圖生視頻的訓(xùn)練,訓(xùn)練batch size為1024,共訓(xùn)練約10k個(gè)iteration。


不過,Ruyi目前仍然存在手部畸形、多人時(shí)面部細(xì)節(jié)崩壞、不可控轉(zhuǎn)場(chǎng)等問題,我們正在改進(jìn)這些缺點(diǎn),在日后的更新中對(duì)它們進(jìn)行修復(fù)。


隨著AIGC領(lǐng)域競(jìng)爭(zhēng)的日益激烈,圖森未來(lái)認(rèn)為: 最佳應(yīng)用場(chǎng)景是孵化生成式AI工具的原動(dòng)力。公司致力于利用大模型降低動(dòng)漫和游戲內(nèi)容的開發(fā)周期和開發(fā)成本。因此,Ruyi將持續(xù)聚焦在如何真正解決行業(yè)痛點(diǎn)。


本次發(fā)布的Ruyi大模型,已經(jīng)可以實(shí)現(xiàn)輸入關(guān)鍵幀后,生成之后5秒的內(nèi)容,或輸入兩個(gè)關(guān)鍵幀,由模型生成中間的過渡內(nèi)容,降低開發(fā)周期。


圖森表示,未來(lái)將持續(xù)深耕場(chǎng)景需求,在此基礎(chǔ)上實(shí)現(xiàn)直接生成CUT的突破。同時(shí)圖森表示,在下一次的發(fā)布中,將同時(shí)發(fā)布兩個(gè)版本,為不同需求的創(chuàng)作者提供更加靈活的選擇。

x

收藏 0
打賞
相關(guān)標(biāo)簽:
電話:010-65030507
郵箱:editor@autor.com.cn
地址:北京市朝陽(yáng)區(qū)朝外大街乙6號(hào)朝外SOHO D座5097室
北京智駕時(shí)代傳媒科技有限公司          Copyright © 2014 - 2022
Autor.com.cn All Rights Reserved. 版權(quán)所有 AutoR智駕 智能汽車網(wǎng)
京ICP備14027737號(hào)-1      京公網(wǎng)安備 11010502038466號(hào)
電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證:京B-20211307
關(guān)注官方微信