Posts

关于AI未来几年发展的粗浅看法

今天偶然间和几个朋友聊到未来几年AI的发展趋势问题。关于AI 未来几年的看法，核心观点是：大众对AI的发展可能有些“过度乐观”，当前对AI能力的估计过高。如果缺乏“杀手级”的应用场景，AI的热潮是否可能在两到三年后消退，最终刺破一个“巨大泡沫”？我也认为现如今AI的真实表现其实远不如大众心里的预期，新兴媒体的推波助澜，让大模型显得无所不能，但在实际应用中却处处受限，距离理想效果还有很长的路要走。至于AI产业的未来发展，我相信工业界的评估更多是从管理、商业、技术等多个方面结合过往经验来全面考量的。我作为一名纯技术理论背景的学生，只能从个人背景的角度出发，分享对某个“点”的看法，舍弃我不懂的商业和管理角度，单从理论和技术出发，谈一些不成熟的见解。当下学术界对于大语言模型的研究主要集中在如何降低算力需求，即提升模型效率，亦或是提高模型内部的知识密度，同时结合外挂的各种形式的知识库来提高大语言模型的表现，比如说大火的vLLM，和其他各种微信公众号广泛传播的开源项目。诚然，在如此飞速的发展下，在2-3年后也许真的会进入瓶颈期，即模型内部的知识密度已经非常大，外挂知识库的形式也有了被广泛认同的“best practice”解决方案。到那时，我们或许再也不像2022年-2023年那样，隔三差五就能看到大语言模型每一次都比上一次要“聪明”很多的情况。这通常意味着基础理论或模型架构需要新的突破。现如今的大模型普遍采用Transformer架构，那么到时候面临的问题就会是：Transformer是最优解吗？其实这个问题在近两年已经被得到广泛讨论，关注度比较高的当然是Mamba和TTT。由于算力和数据的限制，我个人没有条件对这两个架构进行深入实验，但我猜想工业界已有所尝试。然而，到目前为止，还没有基于Mamba架构的成熟大模型出现，我猜测是因为效果不如预期。但即便如此，Transformer应当也不是最优解。 Transformer的拥护者们认为多头注意力机制，或自注意力机制是“大道至简”的解决方案。既然传统方法的缺陷是难以捕捉长距离依赖，那么干脆就舍弃时序建模，转而计算每对tokens的相关性，这样不就解决了距离的问题吗？转到空间模型还能实现并行计算，可谓是一举多得。然而，也有一部分人认为Transformer的解决方式是不够优雅的，甚至可以说是“丑陋”的。人类语言本身具有天然的时序性，阅读时也是按顺序进行的。Transformer这种抛弃语言本身时序性的方式，可以说是一种“暴力”解法，并不符合自然规律。我本人其实更倾向于后者，即Transformer是一种高效的暂时解法，或类似“曲线救国”的方案，但我个人并不认为这是最终解法。至于为什么“返璞归真”的Mamba并没有得到广泛应用，它到底还存在什么缺陷，这一点也许还需要更深入的研究。回到最初的问题，当大语言模型陷入瓶颈，我认为总是会有下一个Transformer出现。之前David Barber教授也提到大语言模型中还存在许多“不优雅”的方法，例如被许多人诟病的teacher forcing。这也说明目前的许多解法都是折中方案，而当下一个足以颠覆游戏的基础架构应运而生的时候，第二波AI浪潮或许会再次掀起。我们可以回顾一下被广泛应用的神经网络架构及其出现的时间：RNN（1986年），LSTM（1997年）、CNN（1998年）、ResNet（2012年）、GAN（2014年）、Transformer（2016年）。新架构出现的时间间隔呈现缩短的趋势，以上每一个架构在其时都具有颠覆性意义，甚至至今仍被广泛使用。现在已是2024年，距离Transformer的提出已经过去了8年，谁能保证在未来两到三年内不会出现下一个更加优雅的game changer呢？以上只是一些回家路上的随想，先挖个坑，等时间充裕些了再补一篇详细的分析吧。

August 2, 2024 阅读

大语言模型能否具备空间智能？

（这篇博文用英文攥写并翻译自ChatGPT）最近，我们学校庆祝了计算机科学与人工智能专业成立60周年。为了纪念这一时刻，组织者邀请了Fernando Pereira发表关于语言形式与意义之间联系的演讲。多年来，这个主题一直吸引着语言学家、计算机科学家和认知研究人员的关注。在演讲中，Pereira提出了一个发人深省的例子。他提问：“Bob坐在Alice的右边，Jack在Bob的左边。如果每个人都将自己的名牌传给右边的人，最后谁会拿到哪个名牌？令人惊讶的是，当这个问题被测试在一个大语言模型（LLM）上时，它未能给出正确答案（我自己还没试过，但这并不重要）。这引发了我的好奇：大语言模型能否获得空间智能？我想到的一个潜在解决方案是将文本到图像的组件与文本编码器结合起来。通过生成图像，我们或许能够保留语言编码器遗漏的空间信息。为了获得更多见解，我联系了哥伦比亚大学一位专攻计算机视觉的朋友。然而，他表达了怀疑态度。他指出，当前的图像生成模型，如稳定扩散、DALLE和Imagen，在文本理解上严重依赖于CLIP。因此，如果大语言模型在理解空间关系上遇到困难，那么图像生成也可能会面临同样的挑战。尽管我们都认识到将问题转换为代码或逻辑推理可能会解决这一问题，但这偏离了最初的目标：赋予大语言模型空间智能。而且，随着空间场景变得越来越复杂，创建逻辑表示变得愈发困难。暂时先把这个想法留在这里。随着我深入研究这一课题并收集更多见解，我也许会更新这篇文章。

October 13, 2023 阅读

记EACL 2023克罗地亚之旅

五月初，我因发表论文而荣幸地受邀参加了2023年在克罗地亚杜布罗夫尼克举行的EACL 2023会议。在会议期间，我与许多新朋友结识，并且我们进行了思想的交流和碰撞，不仅增长了见识，还了解了许多行业内的有趣故事和经历。除此之外，我还有幸亲眼目睹了君临城最美的日落，这一景象令人难以忘怀。

May 11, 2023 阅读

对比学习简介

（这篇博文用英文攥写并翻译自ChatGPT）有关阅读材料: The Beginner’s Guide to Contrastive Learning SimCSE: Simple Contrastive Learning of Sentence Embeddings A Simple Framework for Contrastive Learning of Visual Representations Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks 背景对比学习旨在通过将语义上接近的邻居聚集在一起并将非邻居推开来学习有效的表示。最初，对比学习应用于计算机视觉任务。如下图所示，我们期望模型学习具有相同标签的两个图像之间的关联性，以及具有不同标签的图像对之间的差异。这个想法与人类从经验中学习的方式非常相似。人类不仅可以从积极信号中学习，还可以从纠正负面行为中学习。对比学习中的关键步骤是：定义距离度量正样本的生成/选择负样本的生成/选择通常情况下，样本被编码到向量空间中，欧几里得距离将被用来表示一对样本之间的距离。一旦我们找到生成/选择正负样本的策略，我们就可以定义一个三元组 $(x, x^+, x^-)$，其中包含一个锚定样本 $x$，一个正样本 $x^+$ 和一个负样本 $x^-$。三元组损失可以表示为： $$ L = max(0, ||x - x^{+}||^2 - ||x - x^{-}||^2 + m) $$ 三元组损失被广泛用作对比学习的目标函数。 SimCSE：面向NLP的对比学习框架 SimCSE包括两个版本：无监督和监督，如下图所示。无监督SimCSE从批内负样本中预测输入句子本身，并应用不同的隐藏丢弃掩码。监督SimCSE利用NLI数据集，将蕴含（前提-假设）对作为正例，将矛盾对以及批内其他实例作为负例。假设一组成对示例 $\mathcal{D} = {(x_i, x_i^+)}_{i=1}^m$，其中 $x_i$ 和 $x_i^+$ 语义相关。令 $\mathbf{h}_i$ 和 $\mathbf{h}_i^+$ 表示 $x_i$ 和 $x_i^+$ 的表示，$(x_i, x_i^+)$ 的训练目标与 $N$ 对小批量为：

August 8, 2022 阅读

对比学习简介

（这篇博文用英文攥写并翻译自ChatGPT）有关阅读材料: The Beginner’s Guide to Contrastive Learning SimCSE: Simple Contrastive Learning of Sentence Embeddings A Simple Framework for Contrastive Learning of Visual Representations Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks 背景对比学习旨在通过将语义上接近的邻居聚集在一起并将非邻居推开来学习有效的表示。最初，对比学习应用于计算机视觉任务。如下图所示，我们期望模型学习具有相同标签的两个图像之间的关联性，以及具有不同标签的图像对之间的差异。这个想法与人类从经验中学习的方式非常相似。人类不仅可以从积极信号中学习，还可以从纠正负面行为中学习。对比学习中的关键步骤是：定义距离度量正样本的生成/选择负样本的生成/选择通常情况下，样本被编码到向量空间中，欧几里得距离将被用来表示一对样本之间的距离。一旦我们找到生成/选择正负样本的策略，我们就可以定义一个三元组 $(x, x^+, x^-)$，其中包含一个锚定样本 $x$，一个正样本 $x^+$ 和一个负样本 $x^-$。三元组损失可以表示为： $$ L = max(0, ||x - x^{+}||^2 - ||x - x^{-}||^2 + m) $$ 三元组损失被广泛用作对比学习的目标函数。 SimCSE：面向NLP的对比学习框架 SimCSE包括两个版本：无监督和监督，如下图所示。无监督SimCSE从批内负样本中预测输入句子本身，并应用不同的隐藏丢弃掩码。监督SimCSE利用NLI数据集，将蕴含（前提-假设）对作为正例，将矛盾对以及批内其他实例作为负例。假设一组成对示例 $\mathcal{D} = {(x_i, x_i^+)}_{i=1}^m$，其中 $x_i$ 和 $x_i^+$ 语义相关。令 $\mathbf{h}_i$ 和 $\mathbf{h}_i^+$ 表示 $x_i$ 和 $x_i^+$ 的表示，$(x_i, x_i^+)$ 的训练目标与 $N$ 对小批量为：

August 8, 2022 阅读

Transformer - Attention Is All You Need

Brief introduction to the famous paper about Transformers: Attention Is All You Need (这篇博文用英文攥写并由ChatGPT进行翻译，如果有误请参照英文原文) Transformer Paper: Attention Is All You Need Github link of Transformer 1. 背景编码器-解码器自注意力前馈网络位置编码数据集: WMT 2014英法翻译任务评估指标: BLEU (bilingual evaluation understudy) BLEU使用n-gram计算修改后的精度度量来度量候选文本与参考文本之间的相似性。其思想是，如果参考中的一个词已经匹配，则不能再次匹配该词。 $\text{Count}_{\text{clip}} = \min (\text{count, Max_Ref_Count})$ $$ \text{BLEU} = \text{BP} \times \exp(\sum_{n=1}^N \mathbf{w_n}\log P_n) $$ $\text{BP}$ (Brevity Penalty，简洁惩罚)将在候选长度与参考翻译长度相同时为1。 $N$: n-grams $\mathbf{w_n}$: 每个修改后精度的权重在Transformer问世之前，序列到序列模型，尤其是LSTM，在下游NLP任务中占据主导地位。Transformer引入了自注意力机制，使注意力机制更加可并行化和高效。使用自注意力机制替代LSTM，在翻译任务中实现了更高的准确性。基于Transformer的预训练模型: BERT (使用Transformer编码器), GPT (使用Transformer解码器), ALBERT 2. Seq2Seq和Attention 详情请参见斯坦福224N有关Sequence-to-Sequence Models and Attention的介绍:

January 8, 2021 阅读

Singular Value Decomposition

Brief introduction to Singular Value Decomposition (SVD) 1. What is SVD (Singular Value Decomposition)? 1.1 Definition Define $ \mathbf{ X } = (\vec{x_1}) $ as a $n\times m$ matrix ($n \ge m$). A fraction of $\mathbf{X}$ is: $$ \mathbf{X} = \mathbf{ U }\mathbf{ \Sigma } \mathbf{ V }^\top $$ where: $ \mathbf{U} $: $n \times n$ unitary matrix ($\mathbf{U}^* = \mathbf{U}^{-1}$) $ \mathbf{\Sigma} $: $n \times m$ rectangular diagonal matrix with non-negative real numbers on the diagonal

October 27, 2020 阅读

Real-Time Speech Recognition Using Python

A step-by-step guidance to create a simple real-time speech recogniser

March 5, 2020 阅读

Interesting exploration of i++ and ++i in Java

An interesting discover of using i++ and ++i in Java loop

February 24, 2020 阅读

Structural Testing

Def: judging test suite thoroughness based on the structure of the program itself Also known as white-box testing Distinguish from functional testing (black-box testing) structural testing is still testing product functionality against its specification only the measure of thoroughness has changed Why need structural testing: Executing all control flow elements does not guarantee finding all faults Increase confidence in thoroughness of testing Practical use: Firstly create functional test suite Then measure structural coverage to identify see what is missing Statement testing & Branch testing Statement testing:

February 5, 2020 阅读