LLM

解锁语言模型:激活向量控制
解锁语言模型:激活向量控制

(这篇博文用英文攥写并翻译自ChatGPT) 相关论文: Extracting Latent Steering Vectors from Pretrained Language Modes (Subramani et al., 2022) Steering Language Models With Activation Engineering (Turner et al., 2024) Adaptive Activation Steering: A Tuning-Free LLM Truthfulness Improvement Method for Diverse Hallucinations Categories (Wang et al., 2024) Improving Instruction-Following in Language Models through Activation Steering (Stolfo et al., 2024) 近来,自然语言处理(NLP)的发展揭示了无需昂贵的微调或再训练即可控制大型语言模型(LLM)的新方法。在这些方法中,通过操纵LLM的潜在激活进行控制已成为一种强大的手段。从Subramani et al. (2022) 提出的潜在控制向量,到Turner et al. (2024) 提出的激活相加(ActAdd),该领域扩展出了自适应激活控制(ACT)和指令遵循控制(IFS),进一步完善了激活工程的概念。本文深入探讨了这些进展,重点介绍其机制、优势及应用。

12月 3, 2024

关于AI未来几年发展的粗浅看法
关于AI未来几年发展的粗浅看法

今天偶然间和几个朋友聊到未来几年AI的发展趋势问题。关于AI 未来几年的看法,核心观点是:大众对AI的发展可能有些“过度乐观”,当前对AI能力的估计过高。如果缺乏“杀手级”的应用场景,AI的热潮是否可能在两到三年后消退,最终刺破一个“巨大泡沫”? 我也认为现如今AI的真实表现其实远不如大众心里的预期,新兴媒体的推波助澜,让大模型显得无所不能,但在实际应用中却处处受限,距离理想效果还有很长的路要走。至于AI产业的未来发展,我相信工业界的评估更多是从管理、商业、技术等多个方面结合过往经验来全面考量的。我作为一名纯技术理论背景的学生,只能从个人背景的角度出发,分享对某个“点”的看法,舍弃我不懂的商业和管理角度,单从理论和技术出发,谈一些不成熟的见解。 当下学术界对于大语言模型的研究主要集中在如何降低算力需求,即提升模型效率,亦或是提高模型内部的知识密度,同时结合外挂的各种形式的知识库来提高大语言模型的表现,比如说大火的vLLM,和其他各种微信公众号广泛传播的开源项目。诚然,在如此飞速的发展下,在2-3年后也许真的会进入瓶颈期,即模型内部的知识密度已经非常大,外挂知识库的形式也有了被广泛认同的“best practice”解决方案。到那时,我们或许再也不像2022年-2023年那样,隔三差五就能看到大语言模型每一次都比上一次要“聪明”很多的情况。这通常意味着基础理论或模型架构需要新的突破。 现如今的大模型普遍采用Transformer架构,那么到时候面临的问题就会是:Transformer是最优解吗?其实这个问题在近两年已经被得到广泛讨论,关注度比较高的当然是Mamba和TTT。由于算力和数据的限制,我个人没有条件对这两个架构进行深入实验,但我猜想工业界已有所尝试。然而,到目前为止,还没有基于Mamba架构的成熟大模型出现,我猜测是因为效果不如预期。但即便如此,Transformer应当也不是最优解。 Transformer的拥护者们认为多头注意力机制,或自注意力机制是“大道至简”的解决方案。既然传统方法的缺陷是难以捕捉长距离依赖,那么干脆就舍弃时序建模,转而计算每对tokens的相关性,这样不就解决了距离的问题吗?转到空间模型还能实现并行计算,可谓是一举多得。然而,也有一部分人认为Transformer的解决方式是不够优雅的,甚至可以说是“丑陋”的。人类语言本身具有天然的时序性,阅读时也是按顺序进行的。Transformer这种抛弃语言本身时序性的方式,可以说是一种“暴力”解法,并不符合自然规律。我本人其实更倾向于后者,即Transformer是一种高效的暂时解法,或类似“曲线救国”的方案,但我个人并不认为这是最终解法。至于为什么“返璞归真”的Mamba并没有得到广泛应用,它到底还存在什么缺陷,这一点也许还需要更深入的研究。 回到最初的问题,当大语言模型陷入瓶颈,我认为总是会有下一个Transformer出现。之前David Barber教授也提到大语言模型中还存在许多“不优雅”的方法,例如被许多人诟病的teacher forcing。这也说明目前的许多解法都是折中方案,而当下一个足以颠覆游戏的基础架构应运而生的时候,第二波AI浪潮或许会再次掀起。我们可以回顾一下被广泛应用的神经网络架构及其出现的时间:RNN(1986年),LSTM(1997年)、CNN(1998年)、ResNet(2012年)、GAN(2014年)、Transformer(2016年)。新架构出现的时间间隔呈现缩短的趋势,以上每一个架构在其时都具有颠覆性意义,甚至至今仍被广泛使用。现在已是2024年,距离Transformer的提出已经过去了8年,谁能保证在未来两到三年内不会出现下一个更加优雅的game changer呢? 以上只是一些回家路上的随想,先挖个坑,等时间充裕些了再补一篇详细的分析吧。

8月 2, 2024

大语言模型能否具备空间智能?
大语言模型能否具备空间智能?

(这篇博文用英文攥写并翻译自ChatGPT) 最近,我们学校庆祝了计算机科学与人工智能专业成立60周年。为了纪念这一时刻,组织者邀请了Fernando Pereira发表关于语言形式与意义之间联系的演讲。多年来,这个主题一直吸引着语言学家、计算机科学家和认知研究人员的关注。 在演讲中,Pereira提出了一个发人深省的例子。他提问:“Bob坐在Alice的右边,Jack在Bob的左边。如果每个人都将自己的名牌传给右边的人,最后谁会拿到哪个名牌? 令人惊讶的是,当这个问题被测试在一个大语言模型(LLM)上时,它未能给出正确答案(我自己还没试过,但这并不重要)。这引发了我的好奇:大语言模型能否获得空间智能? 我想到的一个潜在解决方案是将文本到图像的组件与文本编码器结合起来。通过生成图像,我们或许能够保留语言编码器遗漏的空间信息。 为了获得更多见解,我联系了哥伦比亚大学一位专攻计算机视觉的朋友。然而,他表达了怀疑态度。他指出,当前的图像生成模型,如稳定扩散、DALLE和Imagen,在文本理解上严重依赖于CLIP。因此,如果大语言模型在理解空间关系上遇到困难,那么图像生成也可能会面临同样的挑战。 尽管我们都认识到将问题转换为代码或逻辑推理可能会解决这一问题,但这偏离了最初的目标:赋予大语言模型空间智能。而且,随着空间场景变得越来越复杂,创建逻辑表示变得愈发困难。 暂时先把这个想法留在这里。随着我深入研究这一课题并收集更多见解,我也许会更新这篇文章。

10月 13, 2023