雨说-农码一生-哈佛大学砸场子：DALL-E 2只是「粘合怪」，生成正确率只有22%

　　新智元报道

　　编辑：LRS

　　DALL-E 2 生成的图像确实令人惊叹，但它也有弊端，哈佛大学最新研究表明，文本提示内的关系它根本都不懂，生成图像的正确率仅有 22%！

　　DALL-E 2 刚发布的时候，生成的画作几乎能完美复现输入的文本，高清的分辨率、强大的绘图脑洞也是让各路网友直呼「太炫酷」。

　　但最近哈佛大学的一份新研究论文表明，尽管 DALL-E 2 生成的图像很精致，但它可能只是把文本中的几个实体粘合在一起，甚至都没有理解文本中表述的空间关系！

　　论文链接：https://arxiv.org/pdf/2208.00005.pdf

　　数据链接：https://osf.io/sm68h/

　　比如说给出一句文本提示为「A cup on a spoon」，可以看到 DALL-E 2 生成的图像中，可以看到有部分图像就没有满足「on」关系。

　　但在训练集中，DALL-E 2 可能见到的茶杯和勺子的组合都是「in」，而「on」则比较少见，所以在两种关系的生成上，准确率也并不相同。

　　所以为了探究 DALL-E 2 是否真的能理解文本中的语义关系，研究人员选择了 15 类关系，其中 8 个为空间关系（physical relation），包括 in, on, under, covering, near, occluded by， hanging over 和 tied to；7 个动作关系（agentic relation），包括 pushing, pulling, touching, hitting, kicking, helping 和 hindering.

　　文本中的实体集合限制为 12 个，选取的都是简单的、各个数据集中常见的物品，分别为：box， cylinder, blanket, bowl, teacup, knife; man, woman, child, robot, monkey 和 iguana（鬣蜥）.

　　对于每类关系，创建 5 个 prompts，每次随机选择 2 个实体进行替换，最终生成 75 个文本提示。提交到 DALL-E 2 渲染引擎后，选择前 18 张生成图像，最终获得 1350 张图像。

　　随后研究人员从 180 名标注人员中通过常识推理测试选拔出 169 名参与到标注的过程。

　　实验结果发现，DALL-E 2 生成的图像和用于生成图像的文本提示之间一致性的平均值在 75 个 prompt 中仅为 22.2%

　　不过很难说 DALL-E 2 到底是否真正「理解」了文本中的关系，通过观察标注人员的一致性评分，按照0％、25％和 50％的一致同意阈值来看，对每个关系进行的 Holm-corrected 的单样本显著性检验表明，所有 15 个关系的参与者同意率在α = 0.95（pHolm < 0.05）时都明显高于0%；但只有 3 个关系的一致性明显高于 25%，即 touching, helping 和 kicking，没有关系的一致性高于 50%。

　　所以即使不对多重比较进行校正，事实就是 DALL-E 2 生成的图像并不能理解文本中两个物体的关系。

　　结果还表明，DALL-E 在把两个不相关物体联系在一起的能力可能没有想象中那么强，比如说「A child touching a bowl」的一致性达到了 87%，因为在现实世界中的图像，孩子和碗出现在一起的频率很高。

　　而「A monkey touching an iguana」生成的图像，最终一致率只有 11%，而且在渲染出来的图像中甚至会出现物种错误。

　　所以 DALL-E 2 中的图像部分类别是开发较完善的，比如孩子与食物，但有些类别的数据中还需要继续训练。

　　不过当前 DALL-E 2 在官网上还是主要展示其高清晰度和写实风格，还没有搞清楚其内在到底是把两个物体「粘在一起」，还是真正理解文本信息后再进行图像生成。

　　研究人员表示，关系理解是人类智力的基本组成部分，DALL-E 2 在基本的空间关系方面表现不佳（例如 on，of）表明，它还无法像人类一样如此灵活、稳健地构建和理解这个世界。

　　不过网友表示，能开发出「胶水」把东西粘在一起已经是一个相当伟大的成就了！DALL-E 2 并非 AGI，未来仍然有很大的进步空间，至少我们已经开启了自动化生成图像的大门！

　　DALL-E 2 还有啥问题？

　　实际上，DALL-E 2 一发布，就有大量的从业者对其优点与缺陷进行了深入剖析。

　　博客链接：https://www.lesswrong.com/posts/uKp6tBFStnsvrot5t/what-dall-e-2-can-and-cannot-do

　　用 GPT-3 写小说略显单调，DALL-E 2 可以为文本生成一些插图，甚至对长文本生成连环画。

　　比如说 DALL-E 2 可以为图片增加特征，如「A woman at a coffeeshop working on her laptop and wearing headphones, painting by Alphonse Mucha」，可以精确生成绘画风格、咖啡店、戴耳机、笔记本电脑，等等。

　　但如果文本中的特征描述涉及两个人，DALL-E 2 可能就会忘了哪些特征属于哪个人物，比如输入文本为：

a young dark-haired boy resting in bed, and a grey-haired older woman sitting in a chair beside the bed underneath a window with sun streaming through, Pixar style digital art.

　　一个年轻的黑发男孩躺在床上，一个灰头发的老妇坐在窗户下面的床旁边的椅子上，阳光穿过，皮克斯风格的数字艺术。