AMD 最近发布了其开源平台 ROCm 的最新版本——ROCm 6.3。这一版本的更新标志着在人工智能(AI)和高性能计算(HPC)领域的重要进步,为开发者提供了强大的新工具和优化功能。
ROCm 6.3 版本的核心亮点包括: SGLang 的集成:SGLang 是一个专为 AMD Instinct GPU 优化的运行时环境,用于加速 AI 推理。通过集成 SGLang,AMD 承诺可以显著提高吞吐量,达到 6 倍的提升,并且集成了 Python 和预配置的 ROCm Docker 容器,使得使用更加便捷。 Transformer 深度优化:ROCm 6.3 中重新设计了 FlashAttention-2,以优化 AI 训练和推理。这一改进显著提升了 Transformer 架构的性能,加快了 AI 模型的训练和推理速度,增强了应用的响应能力和效率。 Fortran 编译器的加入:ROCm 6.3 引入了全新的 Fortran 编译器,支持直接 GPU 卸载,并完美集成了 HIP 内核和 ROCm 库。这为 Fortran 开发者提供了更强大的 GPU 计算能力,助力科学计算和工程仿真领域的高性能计算需求。 计算机视觉库的增强:ROCm 6.3 对计算机视觉库进行了增强,包括 AV1 编解码支持和 GPU 加速 JPEG 解码等功能,提高了图像处理效率,为多媒体应用开发提供了技术支持。 ROCFFT 的多节点 FFT 支持:ROCm 6.3 引入了多节点 FFT 支持,实现了高性能的分布式 FFT 计算,改变了 HPC 工作流。 此外,AMD 还将 ROCm 6.2 中引入的 Omnitrace 和 Omniperf 更名为 ROCm System Profiler 和 ROCm Compute Profiler,以提升可用性和稳定性,并与 ROCm 分析生态系统实现无缝对接。 ROCm 6.3 的发布不仅展示了 AMD 在 AI 和 HPC 领域的创新潜力,也为开发者提供了更多选择和机会,特别是在生成式 AI 和计算应用优化方面。未来,随着技术演进和平台完善,AMD GPU 的应用场景将拓展至更多领域,展现卓越性能和潜力。 |