NVIDIA开源Audio2Face模型及SDK

赵美心

2025-09-25 16:36:02

148 浏览

9月25日，NVIDIA将开源Audio2Face模型与SDK，让所有游戏和3D应用开发者都可以构建并部署带有先进动画的高精度角色。NVIDIA将开源Audio2Face的训练框架，任何人都可以针对特定用例对现有模型进行微调与定制。

NVIDIA Audio2Face通过生成式AI驱动的实时面部动画与嘴形同步，加速写实数字角色的创作流程。Audio2Face利用AI根据音频输入生成逼真的面部动画。这项技术通过分析音素、语调等声学特征，创建动画数据流，并映射至角色的面部表情。这些动画数据既可用于离线渲染预设的资产，也可实时传输到动态的、由AI驱动的角色，实现准确的嘴形同步与情感表达。

Audio2Face模型已广泛应用于游戏、媒体娱乐以及客户服务等行业。众多独立软件厂商ISV与游戏开发商都在其应用中采用了Audio2Face。游戏开发者包括Codemasters、GSC Game World、网易、完美世界。ISV包括Convai、Inworld AI、Reallusion、Streamlabs和UneeQ。

以下是开源工具的完整列表，更多详情请查看面向游戏开发的 NVIDIA ACE。

工具包用途

Audio2Face SDK 运行面部动画的库与文档，适用于在本地PC或云端创作

Autodesk Maya插件具有本地运行功能的参考插件（v2.0），允许用户在 Maya 中发送音频输入并接收角色的面部动画。

虚幻引擎 5 插件适用于 UE 5.5 和 5.6 的 UE5 插件 (v2.5)，允许用户在虚幻引擎5中发送音频输入并接收角色的面部动画。

Audio2Face训练框架训练框架(v1.0)，可使用用户的自有数据创建Audio2Face模型。

Audio2Face训练样本数据用于快速上手训练框架的示例数据。

Audio2Face模型回归(v2.2)与扩散(v3.0)模型，用于生成唇形同步

Audio2Emotion模型生产 (v2.2)和实验(v3.0) 模型，用于从音频推理情绪状态