谷歌于2025年4月18日发布了基于量化感知训练(Quantization-Aware Training, QAT)技术优化的Gemma 3 AI模型。这一版本通过降低模型参数的数值精度,显著减少了显存需求,同时保持了高质量的运行性能。例如,Gemma 3 27B模型的显存需求从54GB降至14.1GB,而Gemma 3 12B模型则从26GB降至6.6GB,仅需0.5GB显存即可运行。
此次发布的Gemma 3 QAT版本不仅优化了显存使用,还提升了普通硬件的兼容性,使得用户可以在消费级GPU上运行强大的AI模型。例如,用户现在可以使用RTX 3090显卡运行该模型,这大大降低了高性能AI模型对硬件的要求。此外,谷歌还提供了多种QAT量化格式(如int4、int8和float8),以满足不同部署需求。 为了进一步简化用户的使用体验,谷歌还与多个开发者工具合作,推出了支持QAT模型的工具和库。例如,Ollama工具允许用户通过简单命令直接运行原生支持QAT的Gemma 3模型;LM Studio则提供了一个用户友好的界面,让用户能够轻松下载并运行桌面版模型。 Gemma 3 QAT模型的推出标志着谷歌在AI轻量化和高性能化方面迈出了重要一步。这一技术不仅降低了AI模型对硬件资源的依赖,还为开发者提供了更灵活的部署选择,推动了AI技术在更多场景中的应用。 |