見過用 GAN 來 P 圖,見過用 GAN P 視頻嗎?瞧,原本一直在面無表情地講話的人,全程露出了微笑;原本得 4、50 歲的人,直接變 20 幾歲了:
另一邊,正在微笑唱歌的“赫敏”一下子憤怒起來,還能換上一張幾歲小孩的臉:
美國前總統(tǒng)也如此,4 種版本的面部狀態(tài)信手拈來,甚至連性別都給 P 成女的了:
不管人臉表情和狀態(tài)如何變化,這些視頻都沒有給人任何違和感,全程如此的絲滑~哦對,除了真人,動漫視頻里的臉也可以 P:
有點厲害了。
基于 GAN 的視頻面部編輯
這個模型出自以色列特拉維夫大學。
眾所周知,GAN 在其潛空間內(nèi)編碼豐富語義的能力,已經(jīng)被廣泛用于人臉編輯。不過將它用在視頻中還是有點挑戰(zhàn)性:一個是缺乏高質(zhì)量數(shù)據(jù)集,一個是需要克服時間一致性 (temporal coherency)這一基本障礙。
不過研究人員認為,第二點這個障礙主要是人為的。因為原視頻本具備時間一致性,編輯后的視頻卻變了,部分原因就是在 editing pipeline 中對一些組件(component)處理不當。而他們提出的這個視頻人臉語義編輯框架,相對于當前技術水平做出了重大改進:只采用了標準的非時序 StyleGAN2,對 GAN editing pipeline 中的不同組件進行分析,確定哪些組件具備一致性,就用這些組件來操作。整個過程不涉及任何用來維持時間一致性的額外操作。具體流程一共分為六步:
1、輸入視頻首先被分割成幀,每幀中的人臉都被裁剪下來并對齊;
2、使用預訓練的 e4e 編碼器,將每張已裁剪的人臉反演到預訓練的 StyleGAN2 的潛空間中;
3、在所有并行幀中使用 PTI(最新提出的一種視頻人臉編輯方法)對生成器進行微調(diào),糾正初始反演中的錯誤,恢復全局一致性;
4、所有幀通過使用固定的方向和步長,線性地操縱其軸心潛碼(pivot latent codes)進行相應編輯;
5、再次微調(diào)生成器,將背景和編輯過的人臉“縫合”在一起;
6、反轉(zhuǎn)對齊步驟,并將修改后的人臉粘貼回視頻中。
△ 注意頸部曾產(chǎn)生了大量瑕疵,在最后一步完全修復好
和 SOTA 模型對比
這個模型效果到底有多好,來個對比就知道:
第一個是變年輕、第二、三個都是變老??梢悦黠@看到目前的 SOTA 模型(Latent Transformer)和 PTI 模型中的人臉會“抽巴”,并出現(xiàn)一些偽影,而這個新模型就避開了這些問題。
此外,研究人員還進行了時間一致性測試。指標包含兩個:
局部時間一致性(TL-ID),通過現(xiàn)成的一致性檢測網(wǎng)絡來評估相鄰兩幀之間的一致性。TL-ID 分數(shù)越高,表明該方法產(chǎn)生的效果越平滑,沒有明顯的局部抖動。
全局時間一致性(TG-ID),同樣使用一致性檢測網(wǎng)絡來評估所有可能的幀(不一定相鄰)之間的相似性。得分為 1 表示該方法成功保持了和原視頻的時間一致性。
結果如下:
可以看到,這個新模型在兩項指標中都略勝一籌。
最后,代碼將于 2 月 14 號發(fā)布,感興趣的朋友可以蹲一蹲了~
論文地址:
https://arxiv.org/abs/2201.08361
項目主頁:
https://stitch-time.github.io/
網(wǎng)站首頁 |網(wǎng)站簡介 | 關于我們 | 廣告業(yè)務 | 投稿信箱
Copyright © 2000-2020 hngelin.com All Rights Reserved.
中國網(wǎng)絡消費網(wǎng) 版權所有 未經(jīng)書面授權 不得復制或建立鏡像
聯(lián)系郵箱:920 891 263@qq.com
新津县| 江油市| 石渠县| 鄂托克前旗| 嘉义县| 随州市| 新巴尔虎右旗| 依兰县| 遂平县| 民丰县| 萍乡市| 江油市| 大足县| 秦安县| 江源县| 开鲁县| 博客| 阿图什市| 淮北市| 临沭县| 衡东县| 淅川县| 通河县| 固阳县| 铜川市| 海宁市| 西安市| 屏南县| 达孜县| 宁安市| 宜昌市| 卓资县| 宿松县| 绥江县| 额尔古纳市| 水富县| 博客| 万荣县| 镇江市| 宣化县| 顺平县|