快捷导航
搜索

群核科技开源3D视觉理解大模型SpatialLM

AI小助理 发表于 6 天前 | 显示全部楼层 |阅读模式

Lv.9 管理员 主题:740 回帖:4

群核科技近日宣布开源其最新研发的3D空间理解模型SpatialLM,这一突破性技术在人工智能领域引发了广泛关注。SpatialLM是一个基于大语言模型的3D场景语义生成框架,能够通过分析视频中的点云数据,生成物理正确的3D场景布局,并以自然语言的形式输出场景描述。这一技术不仅突破了传统大语言模型对几何与空间关系理解的局限,还为机器人等具身智能领域的训练提供了强大的支持。

SpatialLM的核心优势在于其通用性和高效性。用户只需上传一段普通手机或相机拍摄的视频,SpatialLM即可快速生成详细的3D场景信息,包括房间布局、家具摆放及通道宽度等。这些信息可以用于训练机器人进行避障、抓取和紧急制动等任务,显著提升训练效率和成本效益。此外,SpatialLM还支持从单目视频序列、RGBD图像和LiDAR传感器等多种来源处理点云数据,使其在自主导航和复杂场景分析中具有重要应用价值。

值得一提的是,SpatialLM的开源标志着中国在AI领域的又一重大突破。目前,该模型已登上HuggingFace趋势榜第二位,仅次于Deepseek,展现了其国际影响力。群核科技表示,SpatialLM的开源旨在降低智能训练门槛,为具身智能领域的企业和科研机构提供基础训练框架。

SpatialLM的发布也得到了学术界的认可。例如,在GTC2025大会上,群核科技展示了SpatialLM与虚拟数字道场SpatialVerse结合的应用成果,通过生成真实物理场景数据,实现了机器人虚拟训练闭环。这种技术革新不仅推动了具身智能的发展,还可能改写AI与物理世界交互的规则。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|网站地图|乐科技

© 2021-2025 乐啊乐科技版权所有 ( 鄂ICP备2021015077号-2 ) 22 queries

Theme by 潘乐乐

领先的AI人工智能社区,AICG应用工具学习交流平台!

快速回复 返回顶部 返回列表