纯小白也能变大画师?AI绘画第二弹!更智能、更高级
引言
我在之前写过一篇使用Stable Diffusion来进行AI绘画的教程,如今两年多过去了,SD革新换代了很多版本,原先的教程已经不再具有指导意义,但是想学习SD的同学仍然可以去关注一下我里面提到的几个博主。即使是在今日,SD仍然具有很高的创作自由度和可操控性,是“老一代AI画师”的首选。
需要注意的是,AI在一次对话中的总“脑容量”是有限度的,而当你一次把一个巨大的任务丢给他时,分配到每个任务的token就变少了,导致其处理效果变差、幻觉增加。因此一个有效的方案是主动做步骤拆解(分多次对话输入)并进行输入的预处理,如:
- 当你要AI搜索某个东西生成介绍图/名片/大纲等内容时,可以先让AI搜索该内容并整理成一份生图指南,然后第二次对话再让AI根据这份生图指南来生成图片。这对于直接架构在Gemini上面的Nano Banana尤其好用。
- 当你给AI输入大片内容时,优先使用Markdown或Latex格式文档,其次是Word和Excel,最次才是图片和PDF。如果可行,先使用工具把PDF的内容提取出来转换成其他格式。
Gemini 系列
Nano Banana (Pro)
Nano Banana Pro是目前基于Gemini 3 Pro推出的原生多模态绘图模型,因此Nano Banana (Pro)有以下几个特色:
- 强搜索和推理能力,能够根据你的文字和需求智能推理生图结果,即使你表述的比较隐晦
- 很强的写字能力,因此使用Nano Banana (Pro)来做简图和PPT是其非常常用的一项功能
- 多模态能力。所谓多模态就是指AI能同时调用好几个工具(生图、搜索、各种专用MCP工具等)
使用
太简单了,直接在Gemini里面用就行
实战
Step 1
1 | 根据这篇论文,提取其关键信息(主要工作和关键结论),给出一份markdown格式的Nano Banana Pro生图指导,用于生成一篇介绍该论文主要工作的海报。 |
1 | Nano Banana Pro 海报生图指导 |
Step 2
1 | 根据下文```中的论文生图总结和指南,生成一份海报,作者署名为Paradox,增加学院院徽(input)和浙江大学校徽 |
Step 3
1 | 对图做如下修改: |
好像还是有点不太智能,可以看到还是有两个不足:在文字太多时还是会产生一定乱码(但是基本形状还在,能看出是什么字,比老一代AI直接全部乱造字好太多);以及局部修改无法奏效。
升级与微调
在上文的“实战”中可以看到,即使我希望他修改院徽(把右上角的院徽图案换成浙大电院,并且我给出了院徽的图片),他还是没能很好的做到。这是由于自然语言化的Prompt无法很好地让AI理解这幅图以及局部修改要求。
方法1:Gemini 输入编辑器
把所需修改的图片喂给Gemini时,点击该图片即可弹出图片编辑器。用画笔直接圈出你想要修改的内容,然后用同种颜色的文字在附近写上修改方案。一次性可以修改多处地方,但建议不要多于3处。
1 | (圈出右上角错误院徽,并标注“替换为'电院院徽.jpg'”) |
可以看到图标被正确替换了
方法2:JSON格式的图片指南
详情参见JSON格式的图片指南
1 | (这一步不打开生图功能) |
1 | AI返回: |
1 | (把JSON修改后复制给AI,然后丢入原图。这里我修改了部分文字,并把尺寸改为4k) |
可以看到海报中的文字已经全部如我所预期的那样进行了更改(具体文字我没放出来,你们可以对比一下前后两张图的内容,是有不同的
这张图采用的分辨率很高,可能加载很慢,耐心等一下。如果发现文字还有乱的那可能是图片被压缩了,我这边原图是完美的
NotebookLM
NotebookLM也是Google旗下的,直接搜索进入即可。NotebookLM在文献管理和PPT生成方面比较强大。如下图所示,你可以添加自己的文件,也可以在网上搜索其他资料,然后生成你所需要的PPT。
PPT生成指南
本小节参考:PPT 制作 AI 提示词速查手册:50+ 个拿来即用的实战 Prompt 库
Step1. PPT风格与大纲生成
如同我在引言中说的,把生图和生图指南分开是一个极好的策略,让专人干专门的事。
你可以直接使用这个PPT风格与大纲生成Gem,如果你用的不是Gemini,那么可以点击上文的本小节参考链接,把这段Prompt喂给相应的AI。
把你用于产生PPT的材料作为输入喂给Gemini,然后指定要求(下文是可用参考):
1 | 目标受众:{受众,例如:公司高管 / 技术团队 / 产品经理 / 普通用户} |
1 | 风格: |
1 | 视觉效果: |
然后,Gemini会返回给你一个PPT风格指南和大纲,你可以针对大纲进行修改、微调,直至满意。
Step2. PPT生图
新开一个生图窗口,先把PPT风格指南喂给AI,这一步可以不用打开生图。
然后把PPT大纲一页一页地喂给AI,如果有参考图或需要丢进去的图也可以一并作为输入喂给他
生成图后根据需求微调,最后在WPS中组装即可。
生图进阶技巧
文字修复
文字清晰度提升Prompt
如果你的内容是强文字性的,比如海报、时间轴、PPT等,可以考虑在输入时加入这个Prompt:
1 | 基于文档内容,生成一张中文信息图,要求xxx分辨率,文字和背景保持高对比度,中文字体采用xxx,确保中文笔画清晰易读,文字清晰 |
记得把其中的xxx替换掉
使用高分辨率(4k或8k)并下载原图,可以显著提高文字清晰度,注意一定要下载原图才行,预览状态下还是会有乱码
文字修复技术
现在市面上仍然没有极好的AI生图文字修复技术,一个比较好的方法是使用Canva软件,他可以帮你把图文做区分,然后你自己手动修改;WPS的图片转PPT也能实现类似的功能。
缺点是二者都要付费。
图片信息提取与重构
JSON格式的图片指南
JSON是一种格式化、结构化的语言指令,兼具代码的可复现性和自然语言的可读性,因此使用JSON格式的生图指南可以有效指导AI进行图片修改。
1 | (这一步不打开生图功能) |
这种JSON格式的代码可以让你精确地针对内容进行修改和删除,比如你拍照时不想要后面的某个游客,你就可以用这种方式删除;或者你觉得后面这把椅子是银色的太丑了,你可以在图片的JSON描述中把一把银色的椅子替换成一把棕色的木质椅子。
此外,他充分地提取出了文字,也就是说你可以对具体内容(比如PPT)进行微调。同时他直接告诉AI你在生图的时候需要写哪些文字,而不是让AI先自己梳理大纲然后再提取文字(使分析功能占用了生图的token)
1 | 把JSON修改后复制给AI,然后丢入原图 |
Gem风格提取指南
如果你阅读过我的文章从手动、半自动到全自动,当一个2G网的鼠鼠决定学习如何使用AI | Paradox's Website,那么你一定知道有Gem这个东西。相较于每次提取图片信息就要写一段JSON并且你不能知道他的产出方法,那么为什么不写一个Gem呢?
Gem的生成方法请参照我的上述那篇文章。
风格化图片生成
有了上述两种技巧,你就可以在生图时用结构化语言指定生图的风格,把海报或PPT变成你想要的风格。











