字节跳动公司于2025年1月6日宣布推出了一款名为INFP的新AI模型。INFP是一种交互式人像生成技术,能够通过音频输入驱动静态人物肖像照片生成自然对话的视频。该技术特别适用于二元对话场景,如视频会议、虚拟助手、社交媒体等,能够实现流畅的说话与倾听状态切换,并支持表情、眼神、口型及姿态变化。
INFP的工作原理分为两个阶段:首先是基于运动的头部模仿(Motion-Based Head Imitation),通过分析大量对话视频提取交互和运动行为,并将其映射到运动隐空间;其次是音频引导的运动生成(Audio-Guided Motion Generation),将双轨对话音频输入映射到预训练的运动隐空间,生成相应的运动潜码。 INFP在多个关键领域表现优异,尤其是在唇部运动与语音匹配、保留个体面部特征以及创造多样化自然动作方面,优于现有工具。此外,该系统还能够生成仅听对话者的视频,进一步提升了其应用灵活性。 字节跳动表示,INFP技术仅用于学术研究,并严格限制其对外开放和使用权限,以防止未经授权的恶意利用。该技术由字节跳动智能创作数字人团队开发,该团队专注于建设行业领先的数字人生成和驱动技术,并通过火山引擎向企业开放技术能力和服务。 INFP的推出标志着字节跳动在AI领域的又一重要进展,进一步推动了视觉对话智能体的发展,并为多模态AI应用提供了新的可能性。 |