万字保姆级教程!Stable Diffusion完整入门指南

来源:极绘AIjihuiai

AI绘画工具的操作技巧

随着人工智能技术的不断发展,许多领域都得到了极大的拓展和进步。AI绘图也是其中之一,它可以让我们以更高效、更精确的形式进行制图,使我们创意和想象力不再受制于能力水平。今日,咱们就一同来探讨一下Stable Diffusion其中的技巧。

1.工作场景中AI绘画工具的挑选

 

目前文生图的主流AI绘画平台主要有三种:MidjourneyStable DiffusionDALL·E。如果要在具体工作场景中运用,我更推荐Stable Diffusion

通过分析,Stable Diffusion在数据安全性(可本地部署)、扩展性(完善插件多)、风格丰富度(诸多模型可供下载,还可以训练已有风格模型)、花费版权(开源免费、可商用)等方面更适合我们的工作场景。

三种布署安装方法:云端布署、本地部署、本机安装,各有优缺点。当本机硬件条件适用的情形下,推荐本地部署,其他状况推荐云端方法。

1.Stable Diffusion基础操作

文生图

如图所示Stable Diffusion Web UI的操作面板主要分为:模型地区、功能地区、参数地区、出图地区。

txt2img为文照片功能,关键参数介绍:

1、正向提示词:描述图片中希望发生的内容

2、反向提示词:描述图片当中希望发生的内容

3Sampling method:采样方法,推荐选择EuleraDPM++系列,取样速度快

4Sampling steps:迭代计步,数值越大图象质量越好,生成时间越久,一般控制在30-50就能出效果

5Restore faces:可以优化面部生成

6Width/Height:生成图片的宽高,越大越耗费显存,生成时间越久,一般方图512x512,竖图512x768,需要更大尺寸,可以去Extras功能里进行等比超清放大

7CFG:提示词关联性,数值越大越有关,数值越小越不相关,一般建议7-12区间

8Batchcount/Batchsize:生成批号和每次数量,如果需要多图,可以调节下每次数量

9Seed:种子数,-1表明随机,同样的种子数能保持图象的一致性,如果觉得一张图的结构不错,但对风格不满意,可以将种子数固定,再调整prompt生成

 

图生图

img2img功能能够生成与原图类似构图颜色的画像,或是特定一部分信息进行转换。可以重点应用Inpaint图象修复这个功能:

1Resize mode:缩放方式,Just re size只调整图片大小,假如输入与输出长宽比例不同,照片能被拉申。Crop and resize裁切与调整大小,假如输入与输出长宽比例不同,便以照片中心向四周,将占比以外内容进行裁切。Resize and fill调整大小与添充,假如输入与输出分辨率不同,便以照片中心向四周,将比例内多余的部分进行填充

2Maskblur:蒙版模糊度,值越大与原图边缘的过多越光滑,越小则边沿越锋利

3Maskmode:蒙版方式,Inpaintmasked只重绘涂色部分,Inpaintnotmasked重绘除了涂色的部分

4MaskedContent:蒙版内容,fill用别的内容填充,original在原来的基础上重绘

5Inpaintarea:重绘地区,Wholepicture整个图象地区,Onlymasked只在蒙版区域

6Denoisingstrength:重绘力度,值越大越充分发挥,越小越和原图贴近

 

ControlNet

安装完ControlNet后,在txt2imgimg2img参数面板中都能够启用ControlNet。操作指南:

1Enable:开启ControlNet

2LowVRAM:低显存方式提升,提议8G显存下列打开

3Guessmode:猜想方式,可以不设置提示词,自动生成照片

4Preprocessor:挑选预处理器,主要有OpenPoseCannyHEDScribbleMlsdSegNormalMapDepth

5ModelControlNet模型,模型选择要和预处理器对应

6Weight:权重影响,应用ControlNet生成图片的权重占比影响

7Guidancestrength(T):引导强度,值为1时,代表每迭代1步便会被ControlNet引导1

8Annotator resolution:数值越高,预处理图象越细致

9Cannylow/highthreshold:操纵最少和最高取样深层

10Resizemode:图像大小方式,默认挑选缩放至适宜

11Canvaswidth/height:画板宽高

12Create blank canvas:建立空缺画板

13Preview an not at or result:浏览注解器结果,获得一张ControlNet模型提取的特点照片

14Hidean not at or result:掩藏浏览图象窗口

 

LoRA模型训练表明

前面提到LoRA模型具备训练速度快,模型大小适中(100MB上下),配置要求低(8G显存),能用少量照片训练出风格效果的优点。

下列简单介绍该模型的训练方式:

1步:数据预处理

Stable Diffusion Web UI功能面板中,挑选Train训练功能,选中Preprocess images预处理图象功能。在Source directory栏填入你要训练的照片储放目录,在Destination directory栏填入预处理文档导出目录。widthheight为预处理图片的宽高,默认512x512,建议把要训练的图片尺寸统一改为这个规格,提高响应速度。勾选Auto focal pointcrop自动焦点裁切,勾选Use deep booru for caption自动识别图中的元素并打上标签。点击Preprocess开展照片预处理。

2步:配备模型训练参数

这里可以将模型训练放到GoogleColab中进行,启用Colab的免费15GGPU将大大提升模型训练速率。LoRA调整模型训练工具我建议使用Kohya,运作KohyaColabhttps://colab.research.google.com/github/Linaqruf/kohya-trainer/blob/main/fast-kohya-trainer.ipynb

配备训练参数:

先在content目录建立training_dir/training_data目录,将流程1里的预处理文件上传至该数据训练目录。随后配备调整模型取名和信息训练目录,在Download Pretrained Model栏配备需要参考的预训练模型文件。其他参数值可以根据需要调节设定。

3步:训练模型

参数配置结束后,运行程序即可进行模型训练。训练过的模型将被放到training_dir/output目录,我们下载safetensors文件类型模型,存放到stable-diffusion-webui/models/Lora目录中即可启用该模型。因为直接在Colab下载速度较慢,此外断掉Colab连接后也将清除模型文件,这里建议在Extras中配置huggingfaceWriteToken,将模型文件上传到huggingface中,再从huggingfaceFile中下载,下载速度大大提高,文档也可进行备份。

 

2.Prompt语法技巧

 

文生图模型的精髓在于Prompt提示词,如何写好Prompt将影响图像的生成品质。

提示词结构型

Prompt提示词可分为4段式构造:画质风格+画面主体+画面细节+风格参照

1、界面风格:通常是大模型或LoRA模型Tag、正向画质词、画作类型等

2、画面主体:界面核心内容、主体人///景、主体特点/动作等

3、画面细节:情景细节、人物细节、环境灯光、画面构图等

4、风格参照:艺术风格、渲染器、EmbeddingTag

 

提示词语法

1、提示词排列:越前边的词越受AI重视,关键事物提示词放前边

2、提高/变弱:(提示词:权重数值),默认1,超过1加强,小于1变弱。如(doctor:1.3)

3、混和:提示词|提示词,完成多个因素混和,如[red|blue]hair红蓝色头发混和

4+AND:用于连接短提示词,AND两边得加空格

5、分步渲染:[提示词A:提示词B:数值],先按提示词A生成,在设置的数值后朝提示词B转变。如[dog:cat:30]30步画狗后边的画猫,[dog:cat:0.9]前边90%画狗后边10%画猫

6、正向提示词:masterpiece,bestquality等画质词,用以提高画质

7、反向提示词:nsfw,badhands,missingfingers……,用以不愿在画面中发生的内容

8Emoji:适用emoji,如形容表情,装饰手

 

3.ChatGPT辅助生成提示词

 

大家也可以借助ChatGPT帮我们生成提示词参照。

ChatGPT一段实例参照:https://dreamlike.art/guides/using-openai-chat-gpt-to-write-stable-diffusion-prompts

依据参照生成Prompts,再添加细节润饰

 

4.Stable Diffusion全中文环境配置

 

在实际使用中,我们也可以把Stable Diffusion配备满足汉语环境,这将大大增加操作好感度。全中文环境包括了Stable Diffusion Web UI的汉化和Prompt适用中文输入。

Stable Diffusion Web UI汉化

安装汉语拓展插件:点击Extensions挑选Install from URL,输入https://github.com/VinsonLaro/stable-diffusion-webui-chinese,点击Install,并重启WebUI

转换到汉语方式:在Settings面板中,将Userinterface中的Localization设成Chinese汉语方式,重启WebUI即可转换到汉语页面

Prompt中文输入

下载提示词汉语拓展插件:https://github.com/butaixianran/Stable-Diffusion-Webui-Prompt-Translator,将项目作为zip文件下载,解压后放到stable-diffusion-webui/extensions目录中,重启WebUI

启用百度翻译API:去http://api.fanyi.baidu.com申请一个免费APIKey,并把翻译服务开通。在管理控制台的开发者信息页中确定APPID和密匙

Stable Diffusion Web UIPrompt Translator面板中,挑选百度翻译引擎,并把办理的APPID和密匙填好进来,点击储存

应用:在Stable Diffusion Web UI页面顶端会出现一个翻译菜单栏,大家在提示词文本框中输入中文,点击菜单栏里的翻译就能自动把提示词换成英语

 

结语

本文简要介绍了AI绘画工具Stable Diffusion的技巧,这些技术的出现促使AI绘画具有了具体的生产能力,设计师们可以充分利用好这些强悍的生产设备来提高设计效率。