PS:就本文的结论而言,我相信你已经或多或少的有所体会了。也因此,本文更多的是展现一个思考的过程,而不是一个纯粹的结论。
AIGC 是什么?它是指通过机器学习、自然语言处理等人工智能技术,让计算机自动生成文字、图像、音频、视频等各种类型的内容。它能够帮助企业和个人降低创作成本、提高生产效率、增强创意输出等。
开始之前,先说结论:哪怕仅就当前的 AIGC 成熟度,我们都明白:人类应该去做更高价值的事,也因此在当前的工作模式上呈现的是,三步区:
因此,对于诸多通用的大众领域,人类这样的碳基生物而言,如果不能从思维框架来驾驭 AIGC。而对于细分领域来说,只要在足够卷的情况下,AIGC 也会给予我们更多的惊喜。
与 ChatGPT 的黑盒相比,类似于 Stable Diffusion 白盒开源,可以让我们更了解 Prompt 应该如何编写?如何更好地利用 AIGC。所以,本文的第一部分就是从现有的 AI 绘画的变化来看,如何更好的利用 AIGC。而第二部分则是结合 ChatGPT 的现状来看,如何更好的利用 AIGC。
注意:请在取得授权的情况下,进行个人模型的练习,避免侵犯个人肖像权。
我们的例子,依旧是基于 Stable Diffusion,开源模型与开源软件才是人类的未来。太长不看图:
对于一个绘画过程来说,我们可以通过如下的方式,逐步引导绘图应用:
总的来说:过滤不合理的图像,就能提升生成质量。我们就可以,设计出初步符合需求(在不看 AI 画出来的手情况下)的框架性方案。
Negative Prompt 会将模型的目标从一般的高概率生成样本转换为生成与负向提示不匹配的低概率样本,从而迫使模型更加关注图像的细节和特征,提高其生成的图像的质量和逼真度。
我们的故事依旧可以从:微笑的女孩探出火车窗外
故事开开始,简单地翻译成英语,来作为我们的 prompt:smiling girl leaning out the train window
。在只有 Prompt 的情况下,会生成各种奇怪的图形,所以我们需要添加 Negative Prompt。
所以在 Stable Diffusion 里,我们就可以通过它来提升质量:
而从结果来看,模型与我们想要的图,还存在一定的距离。对于 ChatGPT 也是类似的,所以我们需要相似的模式:诸如于 写一个不超过 800 字的作文
,又或者是 写一个作文,要求如下:1. 不超过 800 字
。
ControlNet 是一种神经网络结构,旨在通过添加额外条件来控制扩散模型。在特定场景下,ControlNet被用于生成类似建模效果(法线贴图)的中间图和相关的图像。这种技术可以被应用于多个领域,如骨骼绑定、精准控线、线稿上色、深度图结构透视精准重绘等。
简单来说,在人像领域,通过手绘特定的姿势、从照片中解析等方式,创建一个人物姿势,绘制出来的图便采用类似的格式。如下图所示:
从形状和生成的效果来说,除了脸部等细节不是特定令人满意之外,基本能满足使用的需求。而在更好地机器加持下,我们能得到更高分辨率,就可以靠人工修复脸部的问题。
而在写作场景之下,只要我们给了 ChatGPT 大纲,那么他就能帮助我们生成文章。唯一的问题是,我们不能添加上自己的写作风格、历史作品,否则我们可以更加容易使用这个作品。而在那之前,我们需要思考什么是我们的作品?什么是我们的风格?
注意:请在取得授权的情况下,进行模型的练习与作品创作。除了 DreamBootb 还有其他工具可使用,但由于时间限制,我就没有展开进一步研究。
融合个人模型是指将训练后的个人风格和特点融入到 AI 绘画模型中,使其生成的画作更贴近个人风格和需求,提高生成画作的个性化和定制化。
诸如在 Stable Diffusion 中,我们可以用自己的头像结合 DreamBooth 等工具训练,以得到一个融合自己风格的模型。在二次元世界里,最常被使用的是 "个人头像",以用于生成动漫或者 idol。效果如下:
PS:在取得某人同意的情况下,放一张动画化的结果(当然了,取的是不像本人的照片):
在 Stable Diffusion 的模型尝试之后,我们可以发现:云 GPU + 模型可插件化 + 算力要求逐步下降之后,会使得个人的小模型会变成越来越普及,所以我训练的模型也只在云上跑了几分钟。
众所周知,当前的 AI 绘图还存在诸多细节问题,比如手、脚等,因此需要一定的人类修复画师。又有一部分人自此成为了服务于 AI 的打工人。如下是使用 InPaint 修复手部时生产出来的,人类画师就需要从中挑选出合适的照片:
最后,总算,先找到一张可以凑合着交差的:
除此,还可以选择对图形进行裁剪,或者使用 Photoshop 等工具进行重绘等。
要想清晰的表达自己的需求,我们需要:
当然了,在 Stable Diffusion 里,还可以通过 Inpaint 等方式进行修复。
在先前的两篇文章里,我们已经不断地在探索适合于个人的 AI 策略:
对于我来说,我的 AI 策略大致是:
对于修复与完善来说,由于 AI 本身是无法达到这么精细的,所以我的想法是持续构建小工具。
首先,我们要理解 AIGC 真的带来变化,尽管现今的 AI 并不能完整的代替我们,但是已经能大大提升效率。
作为一个知名的 “开源挖抗” 作者,在我使用 GitHub Copilot 的初期,觉得这 TM(Trademark) 就是一个智障。而我适应了:如何与智障沟通之后,我悟了,我才是 ”智障“ —— 只有理解机器的 API 与工作方式,才能利用好机器。
AI 工具无法替代个人的感性思考和直觉,所以个人在设计过程是非常重要性的。
强化设计是指通过 AI 技术释放个人的创造力,帮助个人在设计中实现更高效、更优质的创造成果。这个策略的核心在于使用 AIGC 工具来自动生成大量的创意元素,例如图像、文字、音频等,从而将创造的效率提高到一个新的水平。
在实践中,个人可以通过以下方式强化自己的构架能力:
除此,我们还应该熟练掌握使用 AIGC 工具的方法,尤其是一些高级的特性。例如,对于文本生成任务,可以使用 Negative Prompt 等技巧提高生成的质量;对于图像生成任务,则可以使用 ControlNet 等技术实现更精准的控制。
PS:此处需要持续寻找合适的工具,就当前而言,只有 AI 绘图领域是相对比较成熟(可用)的。
每个人的知识面是不同的,知识体系也是不同的。因此,我们不能期望一个通用的大模型能够满足所有人的需求。相反,我们应该尝试构建适合自己领域的小模型。通过选择合适的数据集、算法和网络结构,我们可以快速训练出一个专门用于解决自己问题的小型模型。这个模型不需要太复杂,只需要满足自己的需求即可。这样可以提高模型的效率和准确度,并且减少训练时间和计算资源的消耗。
例如,对于一个博客作者来说,可以使用 GPT-3 来帮助自己快速生成博客文章的开头或结尾段落,也可以通过训练自己的小模型,生成符合自己风格的文章内容。对于一名摄影师来说,可以通过构建小模型来辅助自己完成相册的排版、图像剪辑等工作。
所以,对于而言,我有 900+ 的博客,从中训练出来的写作风格,大概是能像我的 —— 也存在不同时机的风格不一样的问题。
对于探索而言,也是最近才有时间和精力去探索,加入了公司的相关讨论群后,也获得了更多的输入。只是对于我来说,更多的是想把 AI 融入到日常事务中,以提升工作效率,所以也不想去创建微信群。
对于技巧来说,其实更多的是要去理解 AI 是如何 work 的,并将这种模式整合到自己的思维方式里。
除此,我们还可以思考如何将思维框架赋予 AI,以完成更闭环的工作。诸如于 GitHub Copilot 可以帮我们写代码,但是无法从宏观上理解业务问题、整体性的架构问题,生成的代码只是从局部考虑的。因此,我们需要通过不断地磨炼自己的技能和能力,来提高自己的综合素质和创造力。如我正在持续丰富的 phodal/prompt-patterns 也算是我的磨炼技巧。
最后,再让 AI 总结一下四个策略:
结论,AI 在短期内还是智障,但是已经可以大大提升效率了。
围观我的Github Idea墙, 也许,你会遇到心仪的项目