北京时间2025年3月26日凌晨,美国人工智能研究机构OpenAI宣布推出GPT-4o图像生成功能。这一功能通过精准理解文本描述和生成高质量图像,解决了长期以来困扰生成式AI的“生成图像中的文字”难题。
![]() GPT-4o图像生成功能具备四大核心优势:精准文本渲染、严格遵循指令、深度知识调用以及创意拓展能力。例如,在测试中,当要求生成一张带有“扬子晚报/紫牛新闻”字样的照片时,GPT-4o能够准确还原英文部分的内容,但对中文字符的识别能力仍有待提升。 此次更新不仅提升了图像生成的质量,还展示了其在多模态交互中的强大能力。GPT-4o能够根据用户上传的图片分析细节,并生成一致性和上下文感知的图像。例如,它可以根据聊天上下文生成一系列连贯的图像,这对于设计游戏角色等场景尤为重要。 GPT-4o图像生成功能已向ChatGPT Plus、Pro、Team和免费用户开放,未来几周内还将向企业、教育和API使用者提供访问权限。开发者可以通过API调用该功能,进一步推动其在不同应用场景中的落地。 尽管GPT-4o图像生成功能表现出色,但仍有改进空间。例如,在密集文字和非拉丁语文字的图像生成方面,仍存在一些问题。此外,用户反映生成数量有限制,且无法进行多轮对话修改。 GPT-4o图像生成功能的推出不仅展示了OpenAI在生成式AI领域的领先地位,也为用户提供了更强大的工具来实现创意表达和实际应用。未来,随着技术的进一步优化,这一功能有望在更多领域发挥重要作用。 |