引言

我在之前写过一篇使用Stable Diffusion来进行AI绘画的教程,如今两年多过去了,SD革新换代了很多版本,原先的教程已经不再具有指导意义,但是想学习SD的同学仍然可以去关注一下我里面提到的几个博主。即使是在今日,SD仍然具有很高的创作自由度和可操控性,是“老一代AI画师”的首选。

需要注意的是,AI在一次对话中的总“脑容量”是有限度的,而当你一次把一个巨大的任务丢给他时,分配到每个任务的token就变少了,导致其处理效果变差、幻觉增加。因此一个有效的方案是主动做步骤拆解(分多次对话输入)并进行输入的预处理,如:

  • 当你要AI搜索某个东西生成介绍图/名片/大纲等内容时,可以先让AI搜索该内容并整理成一份生图指南,然后第二次对话再让AI根据这份生图指南来生成图片。这对于直接架构在Gemini上面的Nano Banana尤其好用。
  • 当你给AI输入大片内容时,优先使用Markdown或Latex格式文档,其次是Word和Excel,最次才是图片和PDF。如果可行,先使用工具把PDF的内容提取出来转换成其他格式。

Gemini 系列

Nano Banana (Pro)

Nano Banana Pro是目前基于Gemini 3 Pro推出的原生多模态绘图模型,因此Nano Banana (Pro)有以下几个特色:

  1. 强搜索和推理能力,能够根据你的文字和需求智能推理生图结果,即使你表述的比较隐晦
  2. 很强的写字能力,因此使用Nano Banana (Pro)来做简图和PPT是其非常常用的一项功能
  3. 多模态能力。所谓多模态就是指AI能同时调用好几个工具(生图、搜索、各种专用MCP工具等)

使用

太简单了,直接在Gemini里面用就行

实战

Step 1

1
2
3
根据这篇论文,提取其关键信息(主要工作和关键结论),给出一份markdown格式的Nano Banana Pro生图指导,用于生成一篇介绍该论文主要工作的海报。
(Input: 我的毕设)
(这一步可以参考下文的“方法2:JSON格式的图片指南”来做,生成的更具体)
1
2
3
4
5
Nano Banana Pro 海报生图指导
Prompt:
A professional academic infographic poster for a university thesis presentation.
Title: "Magnetic Levitation Gravity Compensator for Precision Positioning Platforms".
……(略)

Step 2

1
2
3
4
根据下文```中的论文生图总结和指南,生成一份海报,作者署名为Paradox,增加学院院徽(input)和浙江大学校徽
```
Prompt
```

Step 3

1
2
3
4
5
对图做如下修改:
1. 更正浙大电气工程学院院徽图形为输入图形
2. 采用更直观(能展现内部)的拓扑图,并稍微减小图片比例
3. 文字多一点,介绍一下原理
(Input: 院徽)

好像还是有点不太智能,可以看到还是有两个不足:在文字太多时还是会产生一定乱码(但是基本形状还在,能看出是什么字,比老一代AI直接全部乱造字好太多);以及局部修改无法奏效

升级与微调

在上文的“实战”中可以看到,即使我希望他修改院徽(把右上角的院徽图案换成浙大电院,并且我给出了院徽的图片),他还是没能很好的做到。这是由于自然语言化的Prompt无法很好地让AI理解这幅图以及局部修改要求

方法1:Gemini 输入编辑器

把所需修改的图片喂给Gemini时,点击该图片即可弹出图片编辑器。用画笔直接圈出你想要修改的内容,然后用同种颜色的文字在附近写上修改方案。一次性可以修改多处地方,但建议不要多于3处

1
2
(圈出右上角错误院徽,并标注“替换为'电院院徽.jpg'”)
按照要求修改图片"NanoBanana02.jpg"

可以看到图标被正确替换了

方法2:JSON格式的图片指南

详情参见JSON格式的图片指南

1
2
(这一步不打开生图功能)
将图片转换成JSON格式,包括图片尺寸、文字、结构、内容和详细信息,把JSON里面的英文转换成中文
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
AI返回:
{
"图片元数据": {
"类型": "学术海报 / 毕业设计展示",
"预估尺寸": "1024x585 ",
"主色调": "科技蓝, 灰色, 白色"
},
"海报头部信息": {
"标题": "精密定位平台磁悬浮重力补偿器研究",
"副标题": "浙江大学电气工程学院 本科生毕业设计",
"作者": "Paradox",
"机构Logo": ["浙江大学 (左上)", "ISEE (右上)"]
},
"核心内容结构": [
{
"区块位置": "左侧",
"区块标题": "混合优化策略与结构设计",
"详细内容": {
"方法一": {
"名称": "田口正交试验法",
…………(略)
1
2
(把JSON修改后复制给AI,然后丢入原图。这里我修改了部分文字,并把尺寸改为4k)
按照要求修改图片"NanoBanana03.jpg"

可以看到海报中的文字已经全部如我所预期的那样进行了更改(具体文字我没放出来,你们可以对比一下前后两张图的内容,是有不同的

这张图采用的分辨率很高,可能加载很慢,耐心等一下。如果发现文字还有乱的那可能是图片被压缩了,我这边原图是完美的

NotebookLM

NotebookLM也是Google旗下的,直接搜索进入即可。NotebookLM在文献管理和PPT生成方面比较强大。如下图所示,你可以添加自己的文件,也可以在网上搜索其他资料,然后生成你所需要的PPT。

PPT生成指南

本小节参考:PPT 制作 AI 提示词速查手册:50+ 个拿来即用的实战 Prompt 库

Step1. PPT风格与大纲生成

如同我在引言中说的,把生图和生图指南分开是一个极好的策略,让专人干专门的事。

你可以直接使用这个PPT风格与大纲生成Gem,如果你用的不是Gemini,那么可以点击上文的本小节参考链接,把这段Prompt喂给相应的AI。

把你用于产生PPT的材料作为输入喂给Gemini,然后指定要求(下文是可用参考):

1
2
3
4
5
目标受众:{受众,例如:公司高管 / 技术团队 / 产品经理 / 普通用户} 
演示目的:{目的,例如:技术分享 / 项目汇报 / 产品介绍 / 教学使用}
整体篇幅:{页数,例如:10 页以内 / 15~20 页}
风格要求:{风格}
视觉效果:{视觉效果}
1
2
3
4
5
6
7
8
9
10
风格:
1. 专业,内容呈现以准确、逻辑、严谨为主,强调框架化表达(适合企业汇报、战略沟通、技术述职)
2. 简洁,尽量减少装饰性内容,保留一级标题/二级标题,无其他内容,结构干净利落(适合快速阅读、高管场景)
3. 具象比喻,通过贴近生活的例子、比喻、类比,让复杂内容变得容易理解(适合面向小朋友、非专业受众群体)
4. 故事化,内容以叙事链条组织,用“背景—冲突—解决—结果”模型推动 (适合产品发布、经验分享)
5. 数据驱动,强调数据、指标、趋势、对比分析,以数据结论作为核心逻辑(适合商业分析、调研报告)
6. 教学,结构更加循序渐进,以解释概念、举例说明、对比差异、步骤演示为主(适合教学、培训类)
7. 激励,采用鼓舞语气和积极愿景,强调“为什么重要”“我们要做什么” (适合团队动员、年度启动会、愿景介绍)
8. 产品展示,突出场景镜头、用户价值、功能亮点、体验流程,强调“好处和使用方式”(适用于新品发布、方案宣讲)
9. 思维导图,以概念之间的关联为主线,用层次化结构展开知识网络(适合复杂主题)
1
2
3
4
5
6
7
8
9
10
11
视觉效果:
1. 极简留白,以大量留白、弱化装饰、突出内容主体为核心,整体视觉干净现代(适合专业场景、高管简报)
2. 强调色块,通过大色块和模块化布局强化层级关系,使重点更醒目(适合方案展示、运营复盘)
3. 卡片式布局,以卡片、分区、分栏组织内容,让阅读更轻松清晰(适合内容较多、结构化信息)
4. 图标驱动,以统一风格的图标、符号表达概念,降低文字密度、增强可读性(适合流程讲解、结构说明)
5. 插画或手绘感,采用柔和插画或轻松手绘笔触,增强亲和力与友好度(适合科普、教学、文化主题)
6. 科技质感,以线条、渐变、光效构建轻科技氛围,视觉更现代(适合 AI、数据、互联网主题)
7. 深色主题,以暗色背景配亮色文字形成强对比,强调稳重与冲击力(适合正式场景、数据展示)
8. 信息可视化,以图表、趋势图、结构图作为主视觉,减少大段文字(适合分析汇报、研究报告)
9. 分镜叙事,以类似电影分镜的结构呈现画面连续性,使内容更具故事流动感(适合产品发布、战略叙述)
10. 品牌一致,严格遵循品牌色、字体体系与风格规范,整体一致性强(适合外部宣讲、品牌官方材料)

然后,Gemini会返回给你一个PPT风格指南和大纲,你可以针对大纲进行修改、微调,直至满意。

Step2. PPT生图

新开一个生图窗口,先把PPT风格指南喂给AI,这一步可以不用打开生图。

然后把PPT大纲一页一页地喂给AI,如果有参考图或需要丢进去的图也可以一并作为输入喂给他

生成图后根据需求微调,最后在WPS中组装即可。

生图进阶技巧

文字修复

文字清晰度提升Prompt

如果你的内容是强文字性的,比如海报、时间轴、PPT等,可以考虑在输入时加入这个Prompt:

1
基于文档内容,生成一张中文信息图,要求xxx分辨率,文字和背景保持高对比度,中文字体采用xxx,确保中文笔画清晰易读,文字清晰

记得把其中的xxx替换掉

使用高分辨率(4k或8k)并下载原图,可以显著提高文字清晰度,注意一定要下载原图才行,预览状态下还是会有乱码

文字修复技术

现在市面上仍然没有极好的AI生图文字修复技术,一个比较好的方法是使用Canva软件,他可以帮你把图文做区分,然后你自己手动修改;WPS的图片转PPT也能实现类似的功能。

缺点是二者都要付费。

图片信息提取与重构

JSON格式的图片指南

JSON是一种格式化、结构化的语言指令,兼具代码的可复现性和自然语言的可读性,因此使用JSON格式的生图指南可以有效指导AI进行图片修改。

1
2
(这一步不打开生图功能)
将图片转换成JSON格式,包括图片尺寸、文字、结构、内容和详细信息,把JSON里面的英文转换成中文

这种JSON格式的代码可以让你精确地针对内容进行修改和删除,比如你拍照时不想要后面的某个游客,你就可以用这种方式删除;或者你觉得后面这把椅子是银色的太丑了,你可以在图片的JSON描述中把一把银色的椅子替换成一把棕色的木质椅子

此外,他充分地提取出了文字,也就是说你可以对具体内容(比如PPT)进行微调。同时他直接告诉AI你在生图的时候需要写哪些文字,而不是让AI先自己梳理大纲然后再提取文字(使分析功能占用了生图的token)

1
把JSON修改后复制给AI,然后丢入原图

Gem风格提取指南

如果你阅读过我的文章从手动、半自动到全自动,当一个2G网的鼠鼠决定学习如何使用AI | Paradox's Website,那么你一定知道有Gem这个东西。相较于每次提取图片信息就要写一段JSON并且你不能知道他的产出方法,那么为什么不写一个Gem呢?

Gem的生成方法请参照我的上述那篇文章。

风格化图片生成

有了上述两种技巧,你就可以在生图时用结构化语言指定生图的风格,把海报或PPT变成你想要的风格。