种种离谱图画或荒诞、或魔幻,对当事人,无疑是一场生活意外。
初次上手AI的萌新们满怀期待,本以为搭上了前沿技术快船,只是没想到技术直接越过人类常识,给刚见面的网友们一通电子毒打。
AI绘画是怎么变离谱的?为什么AI绘画会产生如此离谱的案例?这要从AI生成步骤展开一二。
图片生成模型一般由两部分组成,一部分用于文本到图像理解,将文本与图像做关联,另一部分为图像生成。
以近年最火的Stable Diffusion为例,该模型就包括CLIP文本-图像的多模态部分、生成图像的Diffusion部分。
△ 图源:Paul Mooney
AI生成图片离谱,一方面,问题出在文本-图像部分。
即:训练过程中,模型内将一些本来无关的特征做了不当地、单一化地关联。
有网友反映意间的AI画red bodysuit,AI只会一个劲画EVA中的明日香,就可能是将「red bodysuit」关键词与明日香进行了直接关联。
另一种可能性是训练后的模型也可能忽略一些关键特征,导致对人像识别有误。很多人像最终变成动物甚至建筑物,可能与此有关。
但上面解释还不是全部,问题也可能与生成部分有关。
由于动漫风格绘图模型的训练集本身有倾向性,也可能导致生成过程中,最终结果带着「男男向腐文化」、「身材性感化肌肉化」、「人像萌化娘化物化」、「物体拟人化」等等特征。
上述问题一直存在。
前段时间大火的NovelAI,就因生成的二次元妹子常有三条腿而遭吐槽,甚至有网友靠此种细节来分辨是否AI生成的作品。
与之类似,动漫风AI长时间都处理不好「吃面条」问题,生成图中,筷子、头发、面条、手指常被混淆:
△这还不算最离谱的 图源:@ShiShizUta
此类问题,即便头部AI模型也无法完全解决。
就在今年10月,科技博主Andy Baio就在社交媒体上po出一系列Stable Diffusion生成的奇葩图片。
这当中,有手指乱套的: