大语言模型能否具备空间智能？

（这篇博文用英文攥写并翻译自ChatGPT）

最近，我们学校庆祝了计算机科学与人工智能专业成立60周年。为了纪念这一时刻，组织者邀请了Fernando Pereira发表关于语言形式与意义之间联系的演讲。多年来，这个主题一直吸引着语言学家、计算机科学家和认知研究人员的关注。

在演讲中，Pereira提出了一个发人深省的例子。他提问：“Bob坐在Alice的右边，Jack在Bob的左边。如果每个人都将自己的名牌传给右边的人，最后谁会拿到哪个名牌？

令人惊讶的是，当这个问题被测试在一个大语言模型（LLM）上时，它未能给出正确答案（我自己还没试过，但这并不重要）。这引发了我的好奇：大语言模型能否获得空间智能？

我想到的一个潜在解决方案是将文本到图像的组件与文本编码器结合起来。通过生成图像，我们或许能够保留语言编码器遗漏的空间信息。

为了获得更多见解，我联系了哥伦比亚大学一位专攻计算机视觉的朋友。然而，他表达了怀疑态度。他指出，当前的图像生成模型，如稳定扩散、DALLE和Imagen，在文本理解上严重依赖于CLIP。因此，如果大语言模型在理解空间关系上遇到困难，那么图像生成也可能会面临同样的挑战。

尽管我们都认识到将问题转换为代码或逻辑推理可能会解决这一问题，但这偏离了最初的目标：赋予大语言模型空间智能。而且，随着空间场景变得越来越复杂，创建逻辑表示变得愈发困难。

暂时先把这个想法留在这里。随着我深入研究这一课题并收集更多见解，我也许会更新这篇文章。