引言

我在之前写过一篇使用Stable Diffusion来进行AI绘画的教程，如今两年多过去了，SD革新换代了很多版本，原先的教程已经不再具有指导意义，但是想学习SD的同学仍然可以去关注一下我里面提到的几个博主。即使是在今日，SD仍然具有很高的创作自由度和可操控性，是“老一代AI画师”的首选。

需要注意的是，AI在一次对话中的总“脑容量”是有限度的，而当你一次把一个巨大的任务丢给他时，分配到每个任务的token就变少了，导致其处理效果变差、幻觉增加。因此一个有效的方案是主动做步骤拆解（分多次对话输入）并进行输入的预处理，如：

当你要AI搜索某个东西生成介绍图/名片/大纲等内容时，可以先让AI搜索该内容并整理成一份生图指南，然后第二次对话再让AI根据这份生图指南来生成图片。这对于直接架构在Gemini上面的Nano Banana尤其好用。
当你给AI输入大片内容时，优先使用Markdown或Latex格式文档，其次是Word和Excel，最次才是图片和PDF。如果可行，先使用工具把PDF的内容提取出来转换成其他格式。

Gemini 系列

Nano Banana (Pro)

Nano Banana Pro是目前基于Gemini 3 Pro推出的原生多模态绘图模型，因此Nano Banana (Pro)有以下几个特色：

强搜索和推理能力，能够根据你的文字和需求智能推理生图结果，即使你表述的比较隐晦
很强的写字能力，因此使用Nano Banana (Pro)来做简图和PPT是其非常常用的一项功能
多模态能力。所谓多模态就是指AI能同时调用好几个工具（生图、搜索、各种专用MCP工具等）

使用

太简单了，直接在Gemini里面用就行

实战

Step 1

1
2
3

根据这篇论文，提取其关键信息（主要工作和关键结论），给出一份markdown格式的Nano Banana Pro生图指导，用于生成一篇介绍该论文主要工作的海报。
(Input: 我的毕设)
(这一步可以参考下文的“方法2：JSON格式的图片指南”来做，生成的更具体)

Nano Banana Pro 海报生图指导
Prompt:
A professional academic infographic poster for a university thesis presentation.
	Title: "Magnetic Levitation Gravity Compensator for Precision Positioning Platforms".
	……(略)

Step 2

根据下文```中的论文生图总结和指南，生成一份海报，作者署名为Paradox，增加学院院徽（input）和浙江大学校徽
```
Prompt
```

Step 3

对图做如下修改：
1. 更正浙大电气工程学院院徽图形为输入图形
2. 采用更直观（能展现内部）的拓扑图，并稍微减小图片比例
3. 文字多一点，介绍一下原理
(Input: 院徽)

好像还是有点不太智能，可以看到还是有两个不足：在文字太多时还是会产生一定乱码（但是基本形状还在，能看出是什么字，比老一代AI直接全部乱造字好太多）；以及局部修改无法奏效。

升级与微调

在上文的“实战”中可以看到，即使我希望他修改院徽（把右上角的院徽图案换成浙大电院，并且我给出了院徽的图片），他还是没能很好的做到。这是由于自然语言化的Prompt无法很好地让AI理解这幅图以及局部修改要求。

方法1：Gemini 输入编辑器

把所需修改的图片喂给Gemini时，点击该图片即可弹出图片编辑器。用画笔直接圈出你想要修改的内容，然后用同种颜色的文字在附近写上修改方案。一次性可以修改多处地方，但建议不要多于3处。

1 2	（圈出右上角错误院徽，并标注“替换为'电院院徽.jpg'”）按照要求修改图片"NanoBanana02.jpg"

可以看到图标被正确替换了

方法2：JSON格式的图片指南

详情参见JSON格式的图片指南

1 2	（这一步不打开生图功能）将图片转换成JSON格式，包括图片尺寸、文字、结构、内容和详细信息，把JSON里面的英文转换成中文

AI返回：
{
  "图片元数据": {
    "类型": "学术海报 / 毕业设计展示",
    "预估尺寸": "1024x585 ",
    "主色调": "科技蓝, 灰色, 白色"
  },
  "海报头部信息": {
    "标题": "精密定位平台磁悬浮重力补偿器研究",
    "副标题": "浙江大学电气工程学院 本科生毕业设计",
    "作者": "Paradox",
    "机构Logo": ["浙江大学 (左上)", "ISEE (右上)"]
  },
  "核心内容结构": [
    {
      "区块位置": "左侧",
      "区块标题": "混合优化策略与结构设计",
      "详细内容": {
        "方法一": {
          "名称": "田口正交试验法",
          …………(略)

1 2	（把JSON修改后复制给AI，然后丢入原图。这里我修改了部分文字，并把尺寸改为4k）按照要求修改图片"NanoBanana03.jpg"

可以看到海报中的文字已经全部如我所预期的那样进行了更改（具体文字我没放出来，你们可以对比一下前后两张图的内容，是有不同的

这张图采用的分辨率很高，可能加载很慢，耐心等一下。如果发现文字还有乱的那可能是图片被压缩了，我这边原图是完美的

NotebookLM

NotebookLM也是Google旗下的，直接搜索进入即可。NotebookLM在文献管理和PPT生成方面比较强大。如下图所示，你可以添加自己的文件，也可以在网上搜索其他资料，然后生成你所需要的PPT。

PPT生成指南

本小节参考：PPT 制作 AI 提示词速查手册：50+ 个拿来即用的实战 Prompt 库

Step1. PPT风格与大纲生成

如同我在引言中说的，把生图和生图指南分开是一个极好的策略，让专人干专门的事。

你可以直接使用这个PPT风格与大纲生成Gem，如果你用的不是Gemini，那么可以点击上文的本小节参考链接，把这段Prompt喂给相应的AI。

把你用于产生PPT的材料作为输入喂给Gemini，然后指定要求（下文是可用参考）：

目标受众：{受众，例如：公司高管 / 技术团队 / 产品经理 / 普通用户} 
演示目的：{目的，例如：技术分享 / 项目汇报 / 产品介绍 / 教学使用} 
整体篇幅：{页数，例如：10 页以内 / 15～20 页} 
风格要求：{风格}
视觉效果：{视觉效果}

风格：
1. 专业，内容呈现以准确、逻辑、严谨为主，强调框架化表达（适合企业汇报、战略沟通、技术述职）
2. 简洁，尽量减少装饰性内容，保留一级标题/二级标题，无其他内容，结构干净利落（适合快速阅读、高管场景）
3. 具象比喻，通过贴近生活的例子、比喻、类比，让复杂内容变得容易理解（适合面向小朋友、非专业受众群体）
4. 故事化，内容以叙事链条组织，用“背景—冲突—解决—结果”模型推动 （适合产品发布、经验分享）
5. 数据驱动，强调数据、指标、趋势、对比分析，以数据结论作为核心逻辑（适合商业分析、调研报告）
6. 教学，结构更加循序渐进，以解释概念、举例说明、对比差异、步骤演示为主（适合教学、培训类）
7. 激励，采用鼓舞语气和积极愿景，强调“为什么重要”“我们要做什么” （适合团队动员、年度启动会、愿景介绍）
8. 产品展示，突出场景镜头、用户价值、功能亮点、体验流程，强调“好处和使用方式”（适用于新品发布、方案宣讲）
9. 思维导图，以概念之间的关联为主线，用层次化结构展开知识网络（适合复杂主题）

视觉效果：
1. 极简留白，以大量留白、弱化装饰、突出内容主体为核心，整体视觉干净现代（适合专业场景、高管简报）
2. 强调色块，通过大色块和模块化布局强化层级关系，使重点更醒目（适合方案展示、运营复盘）
3. 卡片式布局，以卡片、分区、分栏组织内容，让阅读更轻松清晰（适合内容较多、结构化信息）
4. 图标驱动，以统一风格的图标、符号表达概念，降低文字密度、增强可读性（适合流程讲解、结构说明）
5. 插画或手绘感，采用柔和插画或轻松手绘笔触，增强亲和力与友好度（适合科普、教学、文化主题）
6. 科技质感，以线条、渐变、光效构建轻科技氛围，视觉更现代（适合 AI、数据、互联网主题）
7. 深色主题，以暗色背景配亮色文字形成强对比，强调稳重与冲击力（适合正式场景、数据展示）
8. 信息可视化，以图表、趋势图、结构图作为主视觉，减少大段文字（适合分析汇报、研究报告）
9. 分镜叙事，以类似电影分镜的结构呈现画面连续性，使内容更具故事流动感（适合产品发布、战略叙述）
10. 品牌一致，严格遵循品牌色、字体体系与风格规范，整体一致性强（适合外部宣讲、品牌官方材料）

然后，Gemini会返回给你一个PPT风格指南和大纲，你可以针对大纲进行修改、微调，直至满意。

Step2. PPT生图

新开一个生图窗口，先把PPT风格指南喂给AI，这一步可以不用打开生图。

然后把PPT大纲一页一页地喂给AI，如果有参考图或需要丢进去的图也可以一并作为输入喂给他

生成图后根据需求微调，最后在WPS中组装即可。

生图进阶技巧

文字修复

文字清晰度提升Prompt

如果你的内容是强文字性的，比如海报、时间轴、PPT等，可以考虑在输入时加入这个Prompt：

1	基于文档内容，生成一张中文信息图，要求xxx分辨率，文字和背景保持高对比度，中文字体采用xxx，确保中文笔画清晰易读，文字清晰

记得把其中的xxx替换掉

使用高分辨率（4k或8k）并下载原图，可以显著提高文字清晰度，注意一定要下载原图才行，预览状态下还是会有乱码

文字修复技术

现在市面上仍然没有极好的AI生图文字修复技术，一个比较好的方法是使用Canva软件，他可以帮你把图文做区分，然后你自己手动修改；WPS的图片转PPT也能实现类似的功能。

缺点是二者都要付费。

图片信息提取与重构

JSON格式的图片指南

JSON是一种格式化、结构化的语言指令，兼具代码的可复现性和自然语言的可读性，因此使用JSON格式的生图指南可以有效指导AI进行图片修改。

1 2	（这一步不打开生图功能）将图片转换成JSON格式，包括图片尺寸、文字、结构、内容和详细信息，把JSON里面的英文转换成中文

这种JSON格式的代码可以让你精确地针对内容进行修改和删除，比如你拍照时不想要后面的某个游客，你就可以用这种方式删除；或者你觉得后面这把椅子是银色的太丑了，你可以在图片的JSON描述中把一把银色的椅子替换成一把棕色的木质椅子。

此外，他充分地提取出了文字，也就是说你可以对具体内容（比如PPT）进行微调。同时他直接告诉AI你在生图的时候需要写哪些文字，而不是让AI先自己梳理大纲然后再提取文字（使分析功能占用了生图的token）

1	把JSON修改后复制给AI，然后丢入原图

Gem风格提取指南

如果你阅读过我的文章从手动、半自动到全自动，当一个2G网的鼠鼠决定学习如何使用AI | Paradox's Website，那么你一定知道有Gem这个东西。相较于每次提取图片信息就要写一段JSON并且你不能知道他的产出方法，那么为什么不写一个Gem呢？

Gem的生成方法请参照我的上述那篇文章。

风格化图片生成

有了上述两种技巧，你就可以在生图时用结构化语言指定生图的风格，把海报或PPT变成你想要的风格。