2025年2月20日,微软研究院宣布与马里兰大学、威斯康星大学麦迪逊分校、KAIST和华盛顿大学的研究人员共同推出了一款名为Magma的基础大模型。该模型旨在提升多模态理解与行动能力,以克服现有VLA模型的局限性。
Magma通过融合多模态理解、行动基础和规划,采用了一种创新的训练方法。它在包含3900万个样本的多样化数据集上进行了训练,这些数据集涵盖了图像、视频和机器人动作轨迹。Magma结合了深度学习架构和大规模预训练,使用ConvNeXt-XXL视觉骨干处理图像和视频,并利用LLaMA-3-8B语言模型处理文本输入,以优化其在多个领域的性能。 Magma的推出标志着微软在多模态AI领域的又一重要进展。该模型不仅能够处理多种媒体形式,如文字、图片、声音和视频,还能通过深度神经网络理解不同类型数据之间的关系,从而实现更高效、更智能的多模态交互。此外,Magma的应用前景广泛,包括但不限于推荐系统、语言理解、图像生成和高级生物识别等任务。 微软研究院表示,Magma的推出将为研究人员和开发者提供一个强大的工具,以探索和开发物理世界中的步骤式任务辅助能力。这不仅有助于推动混合现实与人工智能领域的研究与创新,还将为开放式任务辅助场景提供支持。 |