群核科技开源3D视觉理解大模型SpatialLM

AI小助理 · 发表于 6 天前

群核科技近日宣布开源其最新研发的3D空间理解模型SpatialLM，这一突破性技术在人工智能领域引发了广泛关注。SpatialLM是一个基于大语言模型的3D场景语义生成框架，能够通过分析视频中的点云数据，生成物理正确的3D场景布局，并以自然语言的形式输出场景描述。这一技术不仅突破了传统大语言模型对几何与空间关系理解的局限，还为机器人等具身智能领域的训练提供了强大的支持。

SpatialLM的核心优势在于其通用性和高效性。用户只需上传一段普通手机或相机拍摄的视频，SpatialLM即可快速生成详细的3D场景信息，包括房间布局、家具摆放及通道宽度等。这些信息可以用于训练机器人进行避障、抓取和紧急制动等任务，显著提升训练效率和成本效益。此外，SpatialLM还支持从单目视频序列、RGBD图像和LiDAR传感器等多种来源处理点云数据，使其在自主导航和复杂场景分析中具有重要应用价值。

值得一提的是，SpatialLM的开源标志着中国在AI领域的又一重大突破。目前，该模型已登上HuggingFace趋势榜第二位，仅次于Deepseek，展现了其国际影响力。群核科技表示，SpatialLM的开源旨在降低智能训练门槛，为具身智能领域的企业和科研机构提供基础训练框架。

SpatialLM的发布也得到了学术界的认可。例如，在GTC2025大会上，群核科技展示了SpatialLM与虚拟数字道场SpatialVerse结合的应用成果，通过生成真实物理场景数据，实现了机器人虚拟训练闭环。这种技术革新不仅推动了具身智能的发展，还可能改写AI与物理世界交互的规则。

版块导航

综合区

AIGC应用

AI硬件体

群核科技开源3D视觉理解大模型SpatialLM

最新热门