一、基础模型和外挂VAE模型 Ⅰ. 基本术语讲解在这个AI的艺术世界里,预调的基础模型(也称为大模型或底层模型)如同画家手中的调色板,奠定了整个图像作品的基础风格。它们就像是艺术家未经雕琢的画布,奠定了画面的基础色调和纹理。然而,这个基础框架并非孤立存在,变分自编码器(VAE),如同后期的魔法滤镜,赋予作品独特的个性和艺术感。 VAE全名Variational auto encoder,它的巧妙之处在于它并非直接施加色彩,而是通过调整图像的内在结构,实现一种潜藏在像素深处的美学变化。当我们在大模型的内部世界遇到VAE性能问题,比如不协调或审美不符时,就像更换镜头寻找更符合我们创意思路的滤镜,这时就需要引入独立的VAE模块,或是精细调整其权重,以实现理想的艺术效果。 对于模型爱好者和开发者来说,如何下载并确保模型的质量至关重要。这里有两个资源库供您挑选和下载:
Ⅱ. 不同基础模型的区别:如下图显示,左边的图是二次元风格,右边的图是写实风格,模型的不同决定了基础的图像样子。 Ⅲ. 不同外挂VAE模型的区别:如下图显示,该张图片展示了是否外挂VAE的差别,可以看到在加载新的一个VAE模型后,图片变得清晰起来。 我们往下看,下面的图片展示了不同VAE模型下的图片差别,可以清晰看见图片的展现效果都不一样,“滤镜”效果完全不同。 【总结】:所以,选用不同的VAE模型在制图的过程中很有必要,具体选用哪个模型,小编建议是用XYZ Plot(做出如图1-3的效果)选出你最喜欢的那一个。 二、clip终止层数 (clip skip) 大家想要深入理解 clip终止层数 需从Stable diffusion的原理入手,具体原理可以参考这两篇文章: 【SD原理性】: https://openaccess.thecvf.com/content/CVPR2022/papers/Rombach_High-Resolution_Image_Synthesis_With_Latent_Diffusion_Models_CVPR_2022_paper.pdf 【SD解释性】: https://stable-diffusion-art.com/how-stable-diffusion-work/ 简单来说,我们可以将Stable diffusion理解为一个扩散模型(Stable:稳定的;diffusion:扩散),通过你所给的prompt词扩散出你想要的东西。 例如,当我们尝试生成一个人的插图时,会是这样的一个情况(当然,实际情况可能远比这个更复杂): 为什么是到12层呢?可能会有同学有所疑问,原因是因为在该版本的模型中,深度为12层。 而你想处理到那一层就是: clip的终止层数(clipskip)
简而言之,随着剪辑跳过的增加,要处理的层数逐渐减少。结果就是详细信息被按顺序丢弃,没有反映的提示数量增加了。(一个词含有的意思很少,需要扩散来丰富) 再举一个比较具体的例子: Prompt:masterpiece, best quality, 1girl, white hair, black skirt, purple eyes, full body, black dress. 三:迭代步数(采样步数) 首先,我们简单介绍一下Stable diffusion的相关原理。小编前天发布的SD文章也有详细介绍,这里再简单地提一下。 我们可以把模型理解为一个迭代过程——从文本输入生成随机噪声开始的重复循环,每一步都会消除一些噪声,并随着迭代步数的增加会产生更高质量的图像。而当完成所需的步骤数时,重复就会停止(可以结合第五节采样方式来看)。 一般来说,大约25个采样步骤(20个也可以)通常足以获得高质量图像,使用更多的步骤可能会产生略有不同的图片,但不一定有更好的质量。此外,当我们使用的步骤越多,生成图像所需的时间就会越多。不过在大多数情况下,额外的等待时间是不值得的。 例如,一个“太空中的小狗”的展示(迭代步数从1-100,gif图片较大可能需要一定的等待时间): 迭代步数为4-7时,小狗会从斑点中显现,然后在生成大约20-25个步骤后,它就达到了较高质量。 超过25个步骤后不会造成质量的显着差异,只是小狗的形状将会反复变化,但没有产生更多细节。 |