在深度学习领域,生成式 AI 图像模型如 DALL·E 和 GPT Image 已经成为图像生成的核心工具。它们都能够通过自然语言提示生成图像,但在质量、功能和应用场景上存在显著差异。
由 OpenAI 开发,专注于创意图像生成。从 V2 的多功能编辑到 V3 的极致画质,持续引领行业标准。
基于 GPT 架构,强化了指令跟随能力与文本渲染,是复杂交互与精确控制的首选工具。
| 模型 | 核心功能 | 图像质量 | 支持操作 | 适用场景 |
|---|---|---|---|---|
| DALL·E 2 | 生成、编辑、变体 | 中等至高 | 生成、编辑、变化 | 快速生成多样化素材,需要局部修改 |
| DALL·E 3 | 极致生成 | 极高 (HD) | 仅图像生成 | 追求最高画质,无需后期编辑,长文本理解 |
| GPT Image | 交互式生成与编辑 | 高 (文本/细节强) | 生成、编辑 | 复杂指令跟随,海报设计,含文字图像 |
掌握提示词的结构是生成高质量图像的关键。以下是一个通用的“万能公式”:
"A cat sitting on a chair."
结果:普通,缺乏细节。
"A fluffy white Siamese cat sitting on a velvet vintage chair in a sunlit Victorian room, oil painting style, warm lighting, cinematic composition."
结果:细节丰富,风格明确,光影动人。
# 风格 (Style)
Cyberpunk, Steampunk, Ukiyo-e, Pixel Art, 3D Render, Photorealistic, Watercolor
# 光照 (Lighting)
Golden Hour, Neon Lights, Soft Lighting, Cinematic Lighting, Volumetric Lighting
# 视角 (View)
Wide Angle, Macro, Drone View, Isometric View, Eye Level
# 质量 (Quality)
4k, 8k, High Resolution, Highly Detailed, Masterpiece
点击 Prompt 即可复制,尝试在 API 中使用这些风格。
from openai import OpenAI
client = OpenAI()
try:
result = client.images.generate(
model="dall-e-3",
prompt="a white siamese cat, 4k, highly detailed",
size="1024x1024",
quality="standard",
n=1
)
print(result.data[0].url)
except Exception as e:
print(f"Error: {e}")
from openai import OpenAI
client = OpenAI()
result = client.images.generate(
model="gpt-image-1",
prompt="A futuristic city with flying cars and neon lights",
size="1024x1024"
)
print(result.data[0].url)
DALL·E 3 图像生成流程示意图