1 數字人表情自動生成與制作生成概要
近年來, 随着以深度學習為核心的人工智能技術的飛速發展, 虛拟數字人技術受到了越來越多的關注. 虛拟數字人技術包括人物形象的設計建模、人臉的 3D 生成、人物動作表情的捕捉與生成、音視頻的合成顯示與交互等, 特别是聚焦人物頭部的虛拟數字人表情在虛拟世界中有着廣闊的應用前景。就拿電影行業來說,電影制作團隊能夠利用數字人技術為觀衆呈現出更加逼真和震撼的視覺效果。這種技術的飛速發展為電影等行業帶來了無限的可能性和超強的視覺感受,許多優秀的電影作品都運用了數字人技術,使曆史人物、虛構角色和神奇生物在銀幕上栩栩如生。比如,詹姆斯·卡梅隆執導的科幻巨作《阿凡達:水之道》就采用了先進的數字人技術,将人類與納美族的虛構世界相融合,并且為演員添加了CG數字角色豐富細膩的表情,為觀衆提供了逼真的視覺享受。《複仇者聯盟》中利用數字人表情生成技術,使觀衆能夠看到年輕版的托尼·斯塔克、史蒂夫·羅傑斯和索爾·奧丁森等角色,為電影增添了情感色彩與無限回憶。
高質量虛拟數字人中, 數字人的微表情生成主要依賴于真人的頭部與面部動作捕捉, 如高分辨率相機,表情捕捉系統等; 這種方法過度依賴昂貴的設備和專業的表演人員。如何利用前沿人工智能技術突破這些限制, 實現高清逼真的數字人表情生成 , 已迅速成為虛拟數字人最受關注的方向之一,也是未來數字虛拟人和人工智能技術結合的探索領域[4] 。數字虛拟人由于無實物的特征,它有區别于真實人臉的标記捕捉算法,尤其在電影中,傳統的制作方法是先标記點捕捉真實人臉數據,然後直接用運動數據匹配模型,但問題也會很多,例如許多數據需要大量的修正工作,而本文介紹的這種工作流程,主要針對于數字人角色的無标記點面部捕捉方法[5],如下圖所1所示。

圖1 傳統标記表情捕捉與新的無标記表情捕捉對比
在面部表情捕捉完成的同時,再根據數字虛拟人添加的動畫(包括骨骼的綁定),和聲音的錄制,最終發布在數字人平台,生成數字虛拟對象。
2 基于表情生成的數字人制作技術
2.1基于Soft Mod Manipulator工具的面部表情生成
Soft Mod Manipulator是與Maya軟件無縫整合的面部表情生成插件。通過拖拽将插件拉入Maya軟件之中,可以在輸入欄輸入面部表情的信息和參數,生成無标記的可控制點,然後通過綁定到模型上,達到控制住模型表面變化的目的。

圖2 基于Soft Mod Manipulator的窗口面闆
Dilb庫是較為經典的人臉特征檢測庫,其人臉特征點檢測又快又準。基于Dilb的人臉檢測方法可以測出68個特征點,但實際利用OpenCV算法可以算出更多的檢測點,不過,本文這裡對傳統的檢測點進行了優化,通過抓住模型重要發生表情的部位,即明顯的表情特診點,然後運用Soft Mod Manipulator綁定他,來收集這些特征點轉化為捕捉點就可以了。根據Dilb庫檢測的這些表情重要表情特征點包括:
(1)眼部一圈部位,取重要位置的點;比如左,右眼角;上、下眼部的左右兩端;
(2)眉頭和眉梢中間的點,這些點都會随着表情的變化而改變位置;
(3)兩側嘴角,以及嘴的上下兩邊的部位,這些點對嘴的左右運動和上下張合有明顯 的影響;
(4)臉頰部位的點,會因眼部的變化而受影響。
(5)鼻翼和人中部位,會因嘴部的變化而受影響。
上述這些表情特征點的三三兩兩組合,可以涵蓋大多數角色微表情所産生的變形,包括喜、怒、哀、樂及說話等面部表情。見圖3。

圖3 CG人物的主要表情特征點
根據Dilb檢測的這些點進行劃分,利用Soft Mod Manipulator綁定住角色的重要特征點部位,即可生成面部的捕捉點,在面闆中分别調整和控制這些點的參數,最後成功生成下圖中的表情。見圖4。

圖4 Close eyes 與 mouth smile 表情圖
2.2 Blend shape與各種微表情的融合變形
Blend shape是一種動畫融合技術,如著名的3Dsmax、Maya、Blend等軟件均有該功能。在Maya裡可以作為表情的專門制作技術,除了用Open CV 介紹的Blend shape動畫技術之外,最直接的方法就是使用Maya中自帶的Blend shape融合工具,Maya中的Blend shape變形器是将一個對象的形狀改變成其他對象的形狀,它也是通過記錄特征點或目标點的位置變化, 從而改變面部表情網格的變化,達到使角色發生表情變化的目的。
在制作的過程中,需要注意的是必須進入角色(目标)對象的元素組件才能響應的調整位置變化。與其他軟件的變形器有所不同,Blend shape有一個編輯器,使用該變形器屬性可以控制每個融合變形器對目标對象的影響、也可以創建新的融合變形器,包括設置關鍵幀、表情動畫等,同時它可以支持非人物角色的變形效果的生成。但另外值得注意的是,每一種表情,比如左眼閉上,就需要相應的運用Blend shape生成單獨的一種表情,随後将具備該表情的模型單獨複制出來一個新的模型。需要生成多少模型,就複制出多少模型。見圖5。最終将生成出來的N種模型表情在Blend shape中進行集中的管理。另外,每一個臉部的關鍵點一般隻有一個,除非涉及到局部大範圍的變化,可涉及兩到三個點。以下是對每個關鍵點進行了定義,列出了共7個變形部位。所有這些變形點的任意組合基本涵蓋了整個表情動畫。這樣的簡化設計對制作Blend shape模型非常有利。

圖5 左;Blend shape 生成的多種表情模型 右;各部分關鍵點對應的Key
2.3 關鍵權值的計算方法
如果要讓表情的微變化有一個準确的數值,可以利用Maya與Unity3D引擎中Blend shape的相似屬性來完成。這裡提出的方案就是首先将Maya中模型的數據導入Unity3D,接着可利用Unity 3D中Blend shape中的一個Basis(基礎形狀),所有的關鍵點Key對應的形變都是相對于這一基礎形狀完成的。可以用算法算出關鍵點的變化值,從而得出精确的特征點位移的變化。這個變化值可以這樣計算;在表情變化前有一個校準過程,即獲取關鍵點的原始坐标,這裡命名為E_ori(n)。
D(n)= E(n)- E_ori(n)
這樣一種權值計算方法是基于頭部絲毫不動的情況下才能進行,表情生成後最終需要錄制成視頻,因此避免不了頭部運動帶來的偏差。這裡介紹另一種相對坐标的方式,考慮到面部點與點距離和穩定性的問題,因此要找到一個發生各種表情都相對不變的點作為參考點E0,
初始化标準階段,各個點的坐标為E_ori,各個點相對于E0的差值D_ori為:
D_or(n)=E_ori(n)- E0_ori(n)
在運行階段,各個點相對于E0差值的變量為:
D(n)=E(n)-E0- D_or(n)
當然,上述的計算方法是基于臉部姿态基本不變或者變化并不明顯的情況下完成出來的,如果是基于視頻類(如電影中虛拟角色)幀圖像的二維坐标改變,假若臉部的姿态發生大的變化,各個關鍵點的位置就會改變,那樣的話就要重新再計算了。
3 .AIGC賦予數字人智能生成
完成數字人微表情的生成之後,經過動畫與音頻的處理,就可以利用人工智能生成(AIGC)的方式賦予數字人智能化應用。随着人工智能(AI)技術在深度學習(DL)、語言處理(NLP)、計算機視覺(CV)等領域的不斷突破,各種數字技術公司尤其是電影娛樂公司加大了對智能數字人的技術升級工作。
一般來說,我們可以通過傳統的3D軟件制作的角色三維模型來進行數字人智能化生成,但随着AI算法和AIGC的發展,出現了更多的生成方式。一種是基于AIGC的圖像生成和視頻生成,它能夠達到次時代遊戲人物的精度,這種生成方式可用Meta Human Creator 或 HeyGen,用戶可以自定義生成數字人。另一種就是參數化模型的數字人生成,這種生産方式目前還在研究當中。這裡主要介紹AIGC相關的圖像和視頻的生成方式。見圖6;分别以虛拟互動遊戲《Racing Games》中的數字人與科幻電影《阿凡達:水之道》為例,來介紹電影中的數字人生成。

圖6 基于AIGC的智能圖像生成過程與智能視頻生成過程
在AIGC數字人生成之前,還應當注意兩個重要的智能生成方式,先來介紹圖像生成,他包含材料與資産管理和圖像模型視頻增強。采取批量數據處理法和圖像模型視頻增強。在後期進行幀對幀的動畫合成處理。尤其是在圖像模型視頻增強部分,分别使用了Animate Diff on、Hotshot-XL和Vision Crafter三大AI視頻生成軟件集合。處理多種鏡頭下的LoRA模型。方便文本轉動圖和支持AI智能動畫生成的功能。在上兩章,本文已經研究了CG角色的表情生成技術,随後可以運用AIGC生成算法的便利,基于上圖中圖像和視頻的生成方法,來初步達到産品級的效果質量。其代表性的有Niverse Avatar和 Unreal Engine的 Meta Human Creator等平台。在這裡以DI-D平台為例,載入數字人,通過輸入表情、錄制聲音,發布文本等形式跨模态生成數字人動畫。見圖7。


圖7 數字人表情與動畫的智能生成簡略圖(作品來源于Racing Games 虛拟互動遊戲)
介紹一下AIGC的另一種智能生成方式,那就是視頻生成。在《《阿凡達:水之道》影片中,制作方大量運用了該圖像生成的流程管理方式,針對大量的數字模型管理,采用視頻生成模型的流程管理。當然,真人電影還是有賴于動作捕捉技術,除了制作好的CG角色微表情之外,還要采用光學式動作捕捉,利用攝像機陣列和傳感器記錄來跟蹤表情和人體數據。除以上圖表中的技術實施以外,還運用了 WetaM對真實人物的面部進行捕捉和表情映射,将之給予CG角色。在整個後期數字流程的動态管理上,添加采用Blackmagic Design提供的Teranex AV 格式轉換器、Smart Videohub 12G 40X40矩陣、DeckLink 8K pro采播放卡等等設備進行集中生成。使得表情群集的圖像生成更加便利和快捷。見圖8。

圖8 基于視頻生成的數字人表情管理
圖文:徐明明