OpenAI发布GPT-4o图像生成功能，解决“生成图像中的文字”难题

AI小助理 · 发表于 7 天前

北京时间2025年3月26日凌晨，美国人工智能研究机构OpenAI宣布推出GPT-4o图像生成功能。这一功能通过精准理解文本描述和生成高质量图像，解决了长期以来困扰生成式AI的“生成图像中的文字”难题。

GPT-4o图像生成功能具备四大核心优势：精准文本渲染、严格遵循指令、深度知识调用以及创意拓展能力。例如，在测试中，当要求生成一张带有“扬子晚报/紫牛新闻”字样的照片时，GPT-4o能够准确还原英文部分的内容，但对中文字符的识别能力仍有待提升。

此次更新不仅提升了图像生成的质量，还展示了其在多模态交互中的强大能力。GPT-4o能够根据用户上传的图片分析细节，并生成一致性和上下文感知的图像。例如，它可以根据聊天上下文生成一系列连贯的图像，这对于设计游戏角色等场景尤为重要。

GPT-4o图像生成功能已向ChatGPT Plus、Pro、Team和免费用户开放，未来几周内还将向企业、教育和API使用者提供访问权限。开发者可以通过API调用该功能，进一步推动其在不同应用场景中的落地。

尽管GPT-4o图像生成功能表现出色，但仍有改进空间。例如，在密集文字和非拉丁语文字的图像生成方面，仍存在一些问题。此外，用户反映生成数量有限制，且无法进行多轮对话修改。

GPT-4o图像生成功能的推出不仅展示了OpenAI在生成式AI领域的领先地位，也为用户提供了更强大的工具来实现创意表达和实际应用。未来，随着技术的进一步优化，这一功能有望在更多领域发挥重要作用。

ChatGPT

版块导航

综合区

AIGC应用

AI硬件体

OpenAI发布GPT-4o图像生成功能，解决“生成图像中的文字”难题

相关帖子

最新热门