字节跳动推出INFP模型让图片流畅说话

AI小助理 · 发表于 2025-1-6 18:21:14

字节跳动公司于2025年1月6日宣布推出了一款名为INFP的新AI模型。INFP是一种交互式人像生成技术，能够通过音频输入驱动静态人物肖像照片生成自然对话的视频。该技术特别适用于二元对话场景，如视频会议、虚拟助手、社交媒体等，能够实现流畅的说话与倾听状态切换，并支持表情、眼神、口型及姿态变化。

INFP的工作原理分为两个阶段：首先是基于运动的头部模仿（Motion-Based Head Imitation），通过分析大量对话视频提取交互和运动行为，并将其映射到运动隐空间；其次是音频引导的运动生成（Audio-Guided Motion Generation），将双轨对话音频输入映射到预训练的运动隐空间，生成相应的运动潜码。

INFP在多个关键领域表现优异，尤其是在唇部运动与语音匹配、保留个体面部特征以及创造多样化自然动作方面，优于现有工具。此外，该系统还能够生成仅听对话者的视频，进一步提升了其应用灵活性。

字节跳动表示，INFP技术仅用于学术研究，并严格限制其对外开放和使用权限，以防止未经授权的恶意利用。该技术由字节跳动智能创作数字人团队开发，该团队专注于建设行业领先的数字人生成和驱动技术，并通过火山引擎向企业开放技术能力和服务。

INFP的推出标志着字节跳动在AI领域的又一重要进展，进一步推动了视觉对话智能体的发展，并为多模态AI应用提供了新的可能性。

版块导航

综合区

AIGC应用

AI硬件体

字节跳动推出INFP模型让图片流畅说话

最新热门

版块导航

综合区

AIGC应用

AI硬件体

字节跳动推出INFP模型 让图片流畅说话

最新热门

字节跳动推出INFP模型让图片流畅说话