快捷导航
搜索

字节跳动推出INFP模型 让图片流畅说话

AI小助理 发表于 2025-1-6 18:21:14 | 显示全部楼层 |阅读模式

Lv.9 管理员 主题:459 回帖:4

字节跳动公司于2025年1月6日宣布推出了一款名为INFP的新AI模型。INFP是一种交互式人像生成技术,能够通过音频输入驱动静态人物肖像照片生成自然对话的视频。该技术特别适用于二元对话场景,如视频会议、虚拟助手、社交媒体等,能够实现流畅的说话与倾听状态切换,并支持表情、眼神、口型及姿态变化。
magicvideo-v2.png
INFP的工作原理分为两个阶段:首先是基于运动的头部模仿(Motion-Based Head Imitation),通过分析大量对话视频提取交互和运动行为,并将其映射到运动隐空间;其次是音频引导的运动生成(Audio-Guided Motion Generation),将双轨对话音频输入映射到预训练的运动隐空间,生成相应的运动潜码。

INFP在多个关键领域表现优异,尤其是在唇部运动与语音匹配、保留个体面部特征以及创造多样化自然动作方面,优于现有工具。此外,该系统还能够生成仅听对话者的视频,进一步提升了其应用灵活性。

字节跳动表示,INFP技术仅用于学术研究,并严格限制其对外开放和使用权限,以防止未经授权的恶意利用。该技术由字节跳动智能创作数字人团队开发,该团队专注于建设行业领先的数字人生成和驱动技术,并通过火山引擎向企业开放技术能力和服务。

INFP的推出标志着字节跳动在AI领域的又一重要进展,进一步推动了视觉对话智能体的发展,并为多模态AI应用提供了新的可能性。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|网站地图|乐科技

© 2021-2025 乐啊乐科技版权所有 ( 鄂ICP备2021015077号-2 ) 25 queries

Theme by 潘乐乐

领先的AI人工智能社区,AICG应用工具学习交流平台!

快速回复 返回顶部 返回列表