群核科技近日宣布开源其最新研发的3D空间理解模型SpatialLM,这一突破性技术在人工智能领域引发了广泛关注。SpatialLM是一个基于大语言模型的3D场景语义生成框架,能够通过分析视频中的点云数据,生成物理正确的3D场景布局,并以自然语言的形式输出场景描述。这一技术不仅突破了传统大语言模型对几何与空间关系理解的局限,还为机器人等具身智能领域的训练提供了强大的支持。
SpatialLM的核心优势在于其通用性和高效性。用户只需上传一段普通手机或相机拍摄的视频,SpatialLM即可快速生成详细的3D场景信息,包括房间布局、家具摆放及通道宽度等。这些信息可以用于训练机器人进行避障、抓取和紧急制动等任务,显著提升训练效率和成本效益。此外,SpatialLM还支持从单目视频序列、RGBD图像和LiDAR传感器等多种来源处理点云数据,使其在自主导航和复杂场景分析中具有重要应用价值。 值得一提的是,SpatialLM的开源标志着中国在AI领域的又一重大突破。目前,该模型已登上HuggingFace趋势榜第二位,仅次于Deepseek,展现了其国际影响力。群核科技表示,SpatialLM的开源旨在降低智能训练门槛,为具身智能领域的企业和科研机构提供基础训练框架。 SpatialLM的发布也得到了学术界的认可。例如,在GTC2025大会上,群核科技展示了SpatialLM与虚拟数字道场SpatialVerse结合的应用成果,通过生成真实物理场景数据,实现了机器人虚拟训练闭环。这种技术革新不仅推动了具身智能的发展,还可能改写AI与物理世界交互的规则。 |