万字保姆级教程!Stable Diffusion完整入门指南
来源:极绘AI(jihuiai)
AI绘画工具的操作技巧
随着人工智能技术的不断发展,许多领域都得到了极大的拓展和进步。AI绘图也是其中之一,它可以让我们以更高效、更精确的形式进行制图,使我们创意和想象力不再受制于能力水平。今日,咱们就一同来探讨一下Stable Diffusion其中的技巧。
1.工作场景中AI绘画工具的挑选
目前文生图的主流AI绘画平台主要有三种:Midjourney、Stable Diffusion、DALL·E。如果要在具体工作场景中运用,我更推荐Stable Diffusion。
通过分析,Stable Diffusion在数据安全性(可本地部署)、扩展性(完善插件多)、风格丰富度(诸多模型可供下载,还可以训练已有风格模型)、花费版权(开源免费、可商用)等方面更适合我们的工作场景。
三种布署安装方法:云端布署、本地部署、本机安装,各有优缺点。当本机硬件条件适用的情形下,推荐本地部署,其他状况推荐云端方法。
1.Stable Diffusion基础操作
文生图
如图所示Stable Diffusion Web UI的操作面板主要分为:模型地区、功能地区、参数地区、出图地区。
txt2img为文照片功能,关键参数介绍:
1、正向提示词:描述图片中希望发生的内容
2、反向提示词:描述图片当中希望发生的内容
3、Sampling method:采样方法,推荐选择Eulera或DPM++系列,取样速度快
4、Sampling steps:迭代计步,数值越大图象质量越好,生成时间越久,一般控制在30-50就能出效果
5、Restore faces:可以优化面部生成
6、Width/Height:生成图片的宽高,越大越耗费显存,生成时间越久,一般方图512x512,竖图512x768,需要更大尺寸,可以去Extras功能里进行等比超清放大
7、CFG:提示词关联性,数值越大越有关,数值越小越不相关,一般建议7-12区间
8、Batchcount/Batchsize:生成批号和每次数量,如果需要多图,可以调节下每次数量
9、Seed:种子数,-1表明随机,同样的种子数能保持图象的一致性,如果觉得一张图的结构不错,但对风格不满意,可以将种子数固定,再调整prompt生成
图生图
img2img功能能够生成与原图类似构图颜色的画像,或是特定一部分信息进行转换。可以重点应用Inpaint图象修复这个功能:
1、Resize mode:缩放方式,Just re size只调整图片大小,假如输入与输出长宽比例不同,照片能被拉申。Crop and resize裁切与调整大小,假如输入与输出长宽比例不同,便以照片中心向四周,将占比以外内容进行裁切。Resize and fill调整大小与添充,假如输入与输出分辨率不同,便以照片中心向四周,将比例内多余的部分进行填充
2、Maskblur:蒙版模糊度,值越大与原图边缘的过多越光滑,越小则边沿越锋利
3、Maskmode:蒙版方式,Inpaintmasked只重绘涂色部分,Inpaintnotmasked重绘除了涂色的部分
4、MaskedContent:蒙版内容,fill用别的内容填充,original在原来的基础上重绘
5、Inpaintarea:重绘地区,Wholepicture整个图象地区,Onlymasked只在蒙版区域
6、Denoisingstrength:重绘力度,值越大越充分发挥,越小越和原图贴近
ControlNet
安装完ControlNet后,在txt2img和img2img参数面板中都能够启用ControlNet。操作指南:
1、Enable:开启ControlNet
2、LowVRAM:低显存方式提升,提议8G显存下列打开
3、Guessmode:猜想方式,可以不设置提示词,自动生成照片
4、Preprocessor:挑选预处理器,主要有OpenPose、Canny、HED、Scribble、Mlsd、Seg、NormalMap、Depth
5、Model:ControlNet模型,模型选择要和预处理器对应
6、Weight:权重影响,应用ControlNet生成图片的权重占比影响
7、Guidancestrength(T):引导强度,值为1时,代表每迭代1步便会被ControlNet引导1次
8、Annotator resolution:数值越高,预处理图象越细致
9、Cannylow/highthreshold:操纵最少和最高取样深层
10、Resizemode:图像大小方式,默认挑选缩放至适宜
11、Canvaswidth/height:画板宽高
12、Create blank canvas:建立空缺画板
13、Preview an not at or result:浏览注解器结果,获得一张ControlNet模型提取的特点照片
14、Hidean not at or result:掩藏浏览图象窗口
LoRA模型训练表明
前面提到LoRA模型具备训练速度快,模型大小适中(100MB上下),配置要求低(8G显存),能用少量照片训练出风格效果的优点。
下列简单介绍该模型的训练方式:
第1步:数据预处理
在Stable Diffusion Web UI功能面板中,挑选Train训练功能,选中Preprocess images预处理图象功能。在Source directory栏填入你要训练的照片储放目录,在Destination directory栏填入预处理文档导出目录。width和height为预处理图片的宽高,默认512x512,建议把要训练的图片尺寸统一改为这个规格,提高响应速度。勾选Auto focal pointcrop自动焦点裁切,勾选Use deep booru for caption自动识别图中的元素并打上标签。点击Preprocess开展照片预处理。
第2步:配备模型训练参数
这里可以将模型训练放到GoogleColab中进行,启用Colab的免费15GGPU将大大提升模型训练速率。LoRA调整模型训练工具我建议使用Kohya,运作KohyaColab:https://colab.research.google.com/github/Linaqruf/kohya-trainer/blob/main/fast-kohya-trainer.ipynb
配备训练参数:
先在content目录建立training_dir/training_data目录,将流程1里的预处理文件上传至该数据训练目录。随后配备调整模型取名和信息训练目录,在Download Pretrained Model栏配备需要参考的预训练模型文件。其他参数值可以根据需要调节设定。
第3步:训练模型
参数配置结束后,运行程序即可进行模型训练。训练过的模型将被放到training_dir/output目录,我们下载safetensors文件类型模型,存放到stable-diffusion-webui/models/Lora目录中即可启用该模型。因为直接在Colab下载速度较慢,此外断掉Colab连接后也将清除模型文件,这里建议在Extras中配置huggingface的WriteToken,将模型文件上传到huggingface中,再从huggingfaceFile中下载,下载速度大大提高,文档也可进行备份。
2.Prompt语法技巧
文生图模型的精髓在于Prompt提示词,如何写好Prompt将影响图像的生成品质。
提示词结构型
Prompt提示词可分为4段式构造:画质风格+画面主体+画面细节+风格参照
1、界面风格:通常是大模型或LoRA模型Tag、正向画质词、画作类型等
2、画面主体:界面核心内容、主体人/事/物/景、主体特点/动作等
3、画面细节:情景细节、人物细节、环境灯光、画面构图等
4、风格参照:艺术风格、渲染器、EmbeddingTag等
提示词语法
1、提示词排列:越前边的词越受AI重视,关键事物提示词放前边
2、提高/变弱:(提示词:权重数值),默认1,超过1加强,小于1变弱。如(doctor:1.3)
3、混和:提示词|提示词,完成多个因素混和,如[red|blue]hair红蓝色头发混和
4、+和AND:用于连接短提示词,AND两边得加空格
5、分步渲染:[提示词A:提示词B:数值],先按提示词A生成,在设置的数值后朝提示词B转变。如[dog:cat:30]前30步画狗后边的画猫,[dog:cat:0.9]前边90%画狗后边10%画猫
6、正向提示词:masterpiece,bestquality等画质词,用以提高画质
7、反向提示词:nsfw,badhands,missingfingers……,用以不愿在画面中发生的内容
8、Emoji:适用emoji,如形容表情,装饰手
3.ChatGPT辅助生成提示词
大家也可以借助ChatGPT帮我们生成提示词参照。
给ChatGPT一段实例参照:https://dreamlike.art/guides/using-openai-chat-gpt-to-write-stable-diffusion-prompts
依据参照生成Prompts,再添加细节润饰
4.Stable Diffusion全中文环境配置
在实际使用中,我们也可以把Stable Diffusion配备满足汉语环境,这将大大增加操作好感度。全中文环境包括了Stable Diffusion Web UI的汉化和Prompt适用中文输入。
Stable Diffusion Web UI汉化
安装汉语拓展插件:点击Extensions挑选Install from URL,输入https://github.com/VinsonLaro/stable-diffusion-webui-chinese,点击Install,并重启WebUI
转换到汉语方式:在Settings面板中,将Userinterface中的Localization设成Chinese汉语方式,重启WebUI即可转换到汉语页面
Prompt中文输入
下载提示词汉语拓展插件:https://github.com/butaixianran/Stable-Diffusion-Webui-Prompt-Translator,将项目作为zip文件下载,解压后放到stable-diffusion-webui/extensions目录中,重启WebUI
启用百度翻译API:去http://api.fanyi.baidu.com申请一个免费APIKey,并把翻译服务开通。在管理控制台的开发者信息页中确定APPID和密匙
在Stable Diffusion Web UI的Prompt Translator面板中,挑选百度翻译引擎,并把办理的APPID和密匙填好进来,点击储存
应用:在Stable Diffusion Web UI页面顶端会出现一个翻译菜单栏,大家在提示词文本框中输入中文,点击菜单栏里的翻译就能自动把提示词换成英语
结语
本文简要介绍了AI绘画工具Stable Diffusion的技巧,这些技术的出现促使AI绘画具有了具体的生产能力,设计师们可以充分利用好这些强悍的生产设备来提高设计效率。