4個驚艷的AI項目,開源了!
大家好,今天繼續(xù)聊聊科技圈發(fā)生的那些事。
三維參數(shù)導(dǎo)引下可控一致的人體圖像動畫生成項目。只需要一張照片,就能讓照片里的人物動起來。
給出一個動作視頻,Champ 可以讓不同的人像復(fù)刻出相同的動作。
我們先來看看真實人物照片的效果:
而在虛擬人物和不同風(fēng)格的照片下,Champ 也有不錯的表現(xiàn):
項目主要依靠于人體網(wǎng)格恢復(fù)模型,從輸入視頻中提取參數(shù)化三維人體網(wǎng)格模型 SMPL 序列,渲染不同的信息控制視頻的生成。
在項目的框架圖中,我們可以看到,Champ 采用了一個多層運動融合模塊(MLMF),通過深度、骨骼、蒙版、法線、語義幾項信息控制視頻的細(xì)節(jié)生成,使其更加真實靈動。這五項信息,也可以通過 節(jié)點的示例工作流生成。
另外,Champ 利用 SMPL 保持了生成視頻中人物體型的一致。通過對齊體型參數(shù),Champ 在保持人物的體態(tài)和動作方面超過了其他 SOTA 工作。
效果比較
項目提供了體驗 demo,如果需要本地部署,會根據(jù)所生成的分辨率占用顯存,分辨率越高,顯存占用越大,需要一定硬件支持,感興趣的小伙伴也可以試試分段生成。
項目地址:
https://github.com/fudan-generative-vision/champ
基于視覺條件并行去噪的無限長度和高保真虛擬人視頻生成項目。
在這個項目里,我們能看到:
而作為虛擬人視頻生成項目,MuseV 在生成場景的方面也有不錯的表現(xiàn)。
MuseV 支持以下幾種生成方式:圖像到視頻、文本到圖像到視頻、視頻到視頻。另外,它還能兼容 Stable Diffusion 的生態(tài)系統(tǒng)。
并行去噪
對于當(dāng)前的生成方案,如果不對齊視頻和圖像的首幀條件,首幀的信息可能會被破壞,所以 MuseV 一般有如下的使用流程:
由于訓(xùn)練數(shù)據(jù)類型有限,MuseV 在較低分辨率下具有更大的動作范圍,但視頻質(zhì)量較低;在高分辨率下,畫質(zhì)更好、但動作范圍較小??赡苓€需要使用更多類型的數(shù)據(jù)進(jìn)行訓(xùn)練,如高質(zhì)量、高分辨率的視頻數(shù)據(jù)集。
在近期的更新中,作者團(tuán)隊更新了 Huggingface 的 GUI ,可以在線進(jìn)行體驗。
Huggingface地址:
https://huggingface.co/spaces/AnchorFake/MuseVDemo
作者團(tuán)隊的主頁上還說到,他們即將發(fā)布的 MuseTalk(一個實時高質(zhì)量的唇同步模型,在 MuseV 項目的主頁也已經(jīng)給出演示 demo 了)可與 MuseV 配合使用,生成的效果會更好,可以期待一手。
項目地址:
https://github.com/TMElyralab/MuseV
一個具有分解雙分支擴(kuò)散的圖像修復(fù)模型。對于畫面上的 Mask 區(qū)域(蒙版,存在缺失的部分),BrushNet 可以對其進(jìn)行修復(fù)。此外,BrushNet 對于任何已經(jīng)預(yù)先訓(xùn)練好的擴(kuò)散模型都可以實現(xiàn)“即插即用”。
效果展示
模型在給定蒙版和蒙版圖像輸入的情況下輸出一個未繪制的圖像。首先,對掩模進(jìn)行下采樣以適應(yīng)潛空間的大小,并將掩模圖像輸入 VAE 編碼器以對齊潛在空間的分布。然后,將噪聲潛伏、掩碼圖像潛伏和下采樣掩碼連接起來作為輸入。接下來從模型中提取特征,特征去噪后,生成的圖像和蒙版圖像與模糊蒙版混合,生成圖像。
BrushNet 不會修改預(yù)訓(xùn)練的擴(kuò)散模型的權(quán)重,可以實現(xiàn)保存尺度調(diào)整,也可以進(jìn)一步自定義非 Mask 區(qū)域的保存比例。這使得 BrushNet 具有很強(qiáng)的靈活性,實現(xiàn)即插即用。
作者團(tuán)隊還展示了將 BrushNet 與不同的擴(kuò)散模型相結(jié)合的能力,其中有:
不同模型下的效果
根據(jù)用戶個人的需求,可以靈活選用已經(jīng)訓(xùn)練好的 SD 模型進(jìn)行集成,只需要選擇自己滿意的效果即可。
項目地址:
https://github.com/TencentARC/BrushNet
這是一款開源的爬蟲項目,用于爬取小紅書、抖音、快手、B站、微博的視頻、圖片、評論、點贊、轉(zhuǎn)發(fā)等信息。
MediaCrawler 基于 playwright 庫搭橋,保留登錄成功后的上下文瀏覽器環(huán)境,通過執(zhí)行 JS 表達(dá)式獲取一些加密參數(shù)。通過這樣的方式,免去了復(fù)現(xiàn)核心加密 JS 代碼,逆向難度大大降低。在 Python 環(huán)境下搭建項目也使得這個項目的可擴(kuò)展性大大提升,潛力無限。
該項目有以下三種登錄態(tài):
作者也對登錄的準(zhǔn)備工作進(jìn)行了說明,方便用戶使用。
而且,MediaCrawler 具備模塊化設(shè)計,用戶可以根據(jù)自己的使用需求,定義爬取的關(guān)鍵詞、指定目錄等??梢詫崿F(xiàn)抓取策略的“私人定制”。
順提一句,作者曾將這個在幾天之內(nèi)就獲取 10k+ star 數(shù)的項目親手刪除。當(dāng)我們再一次看到它的時候,主頁上新增了很多免責(zé)聲明。想必作者自己也不希望這個功能如此便捷的爬蟲項目給自己帶來什么麻煩吧。
項目地址:
https://github.com/NanmiCoder/MediaCrawler
好了,本期的內(nèi)容就是這么多,我們下期再見!
轉(zhuǎn)載請注明來自浙江中液機(jī)械設(shè)備有限公司 ,本文標(biāo)題:《4個驚艷的AI項目,開源了!》
還沒有評論,來說兩句吧...