关于AI未来几年发展的粗浅看法

今天偶然间和几个朋友聊到未来几年AI的发展趋势问题。关于AI 未来几年的看法，核心观点是：大众对AI的发展可能有些“过度乐观”，当前对AI能力的估计过高。如果缺乏“杀手级”的应用场景，AI的热潮是否可能在两到三年后消退，最终刺破一个“巨大泡沫”？

我也认为现如今AI的真实表现其实远不如大众心里的预期，新兴媒体的推波助澜，让大模型显得无所不能，但在实际应用中却处处受限，距离理想效果还有很长的路要走。至于AI产业的未来发展，我相信工业界的评估更多是从管理、商业、技术等多个方面结合过往经验来全面考量的。我作为一名纯技术理论背景的学生，只能从个人背景的角度出发，分享对某个“点”的看法，舍弃我不懂的商业和管理角度，单从理论和技术出发，谈一些不成熟的见解。

当下学术界对于大语言模型的研究主要集中在如何降低算力需求，即提升模型效率，亦或是提高模型内部的知识密度，同时结合外挂的各种形式的知识库来提高大语言模型的表现，比如说大火的vLLM，和其他各种微信公众号广泛传播的开源项目。诚然，在如此飞速的发展下，在2-3年后也许真的会进入瓶颈期，即模型内部的知识密度已经非常大，外挂知识库的形式也有了被广泛认同的“best practice”解决方案。到那时，我们或许再也不像2022年-2023年那样，隔三差五就能看到大语言模型每一次都比上一次要“聪明”很多的情况。这通常意味着基础理论或模型架构需要新的突破。

现如今的大模型普遍采用Transformer架构，那么到时候面临的问题就会是：Transformer是最优解吗？其实这个问题在近两年已经被得到广泛讨论，关注度比较高的当然是Mamba和TTT。由于算力和数据的限制，我个人没有条件对这两个架构进行深入实验，但我猜想工业界已有所尝试。然而，到目前为止，还没有基于Mamba架构的成熟大模型出现，我猜测是因为效果不如预期。但即便如此，Transformer应当也不是最优解。

Transformer的拥护者们认为多头注意力机制，或自注意力机制是“大道至简”的解决方案。既然传统方法的缺陷是难以捕捉长距离依赖，那么干脆就舍弃时序建模，转而计算每对tokens的相关性，这样不就解决了距离的问题吗？转到空间模型还能实现并行计算，可谓是一举多得。然而，也有一部分人认为Transformer的解决方式是不够优雅的，甚至可以说是“丑陋”的。人类语言本身具有天然的时序性，阅读时也是按顺序进行的。Transformer这种抛弃语言本身时序性的方式，可以说是一种“暴力”解法，并不符合自然规律。我本人其实更倾向于后者，即Transformer是一种高效的暂时解法，或类似“曲线救国”的方案，但我个人并不认为这是最终解法。至于为什么“返璞归真”的Mamba并没有得到广泛应用，它到底还存在什么缺陷，这一点也许还需要更深入的研究。

回到最初的问题，当大语言模型陷入瓶颈，我认为总是会有下一个Transformer出现。之前David Barber教授也提到大语言模型中还存在许多“不优雅”的方法，例如被许多人诟病的teacher forcing。这也说明目前的许多解法都是折中方案，而当下一个足以颠覆游戏的基础架构应运而生的时候，第二波AI浪潮或许会再次掀起。我们可以回顾一下被广泛应用的神经网络架构及其出现的时间：RNN（1986年），LSTM（1997年）、CNN（1998年）、ResNet（2012年）、GAN（2014年）、Transformer（2016年）。新架构出现的时间间隔呈现缩短的趋势，以上每一个架构在其时都具有颠覆性意义，甚至至今仍被广泛使用。现在已是2024年，距离Transformer的提出已经过去了8年，谁能保证在未来两到三年内不会出现下一个更加优雅的game changer呢？

以上只是一些回家路上的随想，先挖个坑，等时间充裕些了再补一篇详细的分析吧。