作者:Dylan Wang, Dr. Nick

1、技术堆栈

AI2.0 时代需要新一代的基础设施来支撑大模型的训练与推理、生成式 AI 应用的规模化落地,其核心要素,如算力、数据服务、大模型服务都需精细化的设计和重构,而非简单的服务器或 GPU 实例的堆砌。当下,人工智能正在改变技术堆栈。为了在新的人工智能浪潮中增加价值,了解每个技术堆栈层的潜在动态、它们如何相互作用以及它们与以前的技术堆栈不同的原因至关重要。

探秘Web3.0 AI产业链(上半部)

1.模型层

大模型是指具有数千万甚至数亿参数的深度学习模型。大模型的原理是基于深度学习,它利用大量的数据和计算资源来训练具有大量参数的神经网络模型。通过不断地调整模型参数,使得模型能够在各种任务中取得最佳表现。总体来说,大模型就是参数+架构,即更多的参数,更先进的架构。

大模型发展至今经历了从量变到质变的过程。

量变:大模型的能力提升会遵循“规模法则”,随着数据量、算力、参数量提升,大模型的压缩损失率持续降低,模型能力持续提升。

质变:当模型体量足够大时,模型会出现类似人类“开悟”般的涌现能力,经过思维链提示后(一步步思考),模型 推理能力随模型规模扩大显著提升。

(1)从CNN架构到Transformer类架构再到大模型

卷积神经网络(CNN)架构是一个重要的里程碑,尤其擅长图像分类和目标检测任务。但由于难以生成高分辨率任务、难以捕捉图像全局结构和语义信息,CNN在图片的发展上遇到了瓶颈。同时CNN结构在向文本类进行应用拓展时遇到了阻碍,如CNN采用RNN(循环神经网络)按顺序对文本进行处理,即无法同时处理大量的文本信息,且容易遗忘已经输入的文本信息。基于CNN架构的缺陷,Transformer架构的出现解决了CNN面临的问题。

Transformer 模型是一种深度学习架构,通常而言,传统的顺序模型(例如循环神经网络 (RNN))在捕获远程依赖性和实现并行计算方面存在局限性。为了解决这些问题,Transformer 模型引入了自注意力机制,通过广泛使用该机制,模型能够在生成输出时权衡输入序列中不同位置的重要性。

在图像生成领域,Transformer类架构可以有效地捕捉图像的全局结构和语义信息,同时也可以生成高分辨率、逼真的图像。从而近年来,Transformer类架构在图像生成领域也开始逐渐被应用,在自然语言处理领域的机器翻译任务中,Transformer已经成为了一种主流的模型架构。

真正让Transformer 架构大放异彩的是他在文本处理方面的突出能力。

  • 首先,Transformer 模型通过引入位置编码层,有效地捕捉输入序列中的长距离依赖关系,使得模型能够理解单词在句子中的上下文。

  • 同时,引入了注意力机制(Attention),使得模型在解码输出标记时能够聚焦于句子中最相关的单词。

  • 最后,Transformer摒弃了RNN(循环神经网络)的顺序处理方式,以并行化的方式处理数据,从而实现更大规模的并行计算和更快速的训练。Transformer 深度学习模型的优势之一是能够同时处理多个单词。这得益于 Transformer 的并行计算能力,使得它能够更高效地处理序列数据。

Transformer架构会走向何方?多模态架构可能是一个主流方向,他可以建立统一的、跨场景/任务的模型,将不同类型的数据(如图像、文本、音频等)融合起来,极大地拓展了人工智能认知并理解世界的能力边界。多模态学习在不同模态间搭建了桥梁,使得基础模型通过迁移学习和规模涌现达到能力跃迁成为可能,极大加速了通用模型的演进。2023年10月,斯坦福大学提出新架构:Monarch Mixer,在该模型中无需注意力机制(Attention),有望成为Transformer的替代者。

探秘Web3.0 AI产业链(上半部)

有了transformer架构的支撑,大模型的革命随之到来。从最初的 Transformer 论文到2017 年谷歌推行 transformer 模型,继而 2018 年第一代 GPT 现身,Transformer模型基于其对文本处理和并行计算的突出优势极大地推动了大语言模型的发展。

最先运用Transformer架构推出大模型并占据首发优势的有Google的BERT和GPT。通过预训练的 Transformer 模型,双向编码器表示(BERT)在自然语言理解任务中取得了显著的突破。BERT 的核心思想是通过在大规模无标签的文本数据上进行预训练,使模型学习到丰富的语言表示。BERT 模型具备双向性,能够同时考虑一个词在上下文中的左侧和右侧信息,从而更好地捕捉词语的语义和语境。

随之GPT系列的推出让全世界为之震惊。GPT(Generative Pre-trained Transformer)专注于处理自然语言处理(NLP)相关任务,如机器翻译、问答、文本摘要等。具体而言,GPT-3 是最新的模型,相比于 GPT-2,其引入了许多新的功能和改进。除此之外,GPT-3 的模型容量达到了惊人的 1750 亿个机器学习参数,而 GPT-2 只有 15 亿个参数。具备如此巨大的参数容量,GPT-3 在自然语言处理任务中展现出了令人惊叹的性能。它具备更强大的语言理解和生成能力,能够更准确地理解和生成自然语言文本。

探秘Web3.0 AI产业链(上半部)

如今,全世界的AI公司都在奋力地涌入大语言模型的赛道,中国的百度、科大讯飞、微软等公司纷纷入局,大语言模型也进入了各大公司混战的阶段。根据输入类型的不同,当下的大模型主要可以分为以下三大类:

  • 语言大模型(NLP):是指在自然语言处理(Natural Language Processing,NLP)领域中的一类大模型,通常用于处理文本数据和理解自然语言。这类大模型的主要特点是它们在大规模语料库上进行了训练,以学习自然语言的各种语法、语义和语境规则。例如:GPT 系列(OpenAI)、Bard(Google)。

  • 视觉大模型(CV):是指在计算机视觉(Computer Vision,CV)领域中使用的大模型,通常用于图像处理和分析。这类模型通过在大规模图像数据上进行训练,可以实现各种视觉任务,如图像分类、目标检测、图像分割、姿态估计、人脸识别等。例如:VIT 系列(Google)、文心UFO、华为盘古 CV、INTERN(商汤)。

  • 多模态大模型:是指能够处理多种不同类型数据的大模型,例如文本、图像、音频等多模态数据。这类模型结合了 NLP 和 CV 的能力,以实现对多模态信息的综合理解和分析,从而能够更全面地理解和处理复杂的数据。例如:DingoDB 多模向量数据库、DALL-E(OpenAI)、midjourney。

(2)模型的机器学习过程

大模型的机器学习主要由算法、算力和数据这三个要素构成:

  • 算法:大模型发展的推手。是一系列解决问题、实现特定功能的有序指令和步骤,它直接决定了内容的生成能力和效果

  • 数据:大模型发展的燃料。体现了对现实世界的反映与提现,大模型的质量与训练数据量呈正相关关系。

  • 算力:大模型发展的基础。体现了对信息数据的处理能力;自深度学习等算法出现以后,全球的算力需求快速上涨,2012年以来,全球的算力需求增长30万倍。

探秘Web3.0 AI产业链(上半部)

有了数据、算法、算力这三个要素作为支撑,才能对模型进行训练,进而实现机器学习。大模型通过以下四个步骤来实现机器学习。

步骤一:数据收集与预处理。

《AI x Crypto 报告》中用皮肤科医生的例子对数据的重要性进行了阐述。如果我们想建立一个供皮肤科医生使用的模型,首先就要给这个模型看足够多的人脸的数据,然后,我们请专业皮肤科医生来评估是否存在皮肤病。那么在这个过程中,我们找到的人脸数据的质量和数量就变得尤为重要。只有通过足够大的样本和足够精准的数据才能让大模型进行识别判断。

步骤二:根据任务目标选择合适的算法模型。

构建大模型所需要的机器学习算法大致可以分为三类:监督学习、无监督学习以及强化学习。

  • 监督学习算法 (Supervised Algorithms):在监督学习训练过程中,可以由训练数据集学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。该算法要求特定的输入/输出,首先需要决定使用哪种数据作为范例。比如在皮肤科医生模型的例子中,在我们把各种人脸和皮肤数据拿给大模型看的同时,需要有一个医生告诉大模型图片上的人脸得了什么皮肤病。 比如把图片1打上标签“青春痘”,把图片2打上标签“湿疹”等等。大模型有了这些数据和对应的标签之后就可以提取这些信息加以运用。当我们把一个新患者的人脸拿给大模型看之后,大模型就会把图片上的数据和过往输入的范例信息进行匹配,最后得出结论。但是这种方法的成本较高,不仅需要大量的数据,还需要很多给数据贴标签的人工成本。

  • 无监督学习算法 (Unsupervised Algorithms):这类算法没有特定的目标输出,主要特征是算法将数据集分为不同的组。回到皮肤科医生的例子,这一次我们把人脸数据输送给大模型之后不给每一份数据打上标签,也就是不告诉大模型每一个患者得了什么病。此时模型会检查所有这些数据,并试图自己根据数据的特征找出模式或分组。比如说,这个模型可能把泛红的皮肤病都归类为一组,然后把起疙瘩的皮肤病归为另一组。无监督学习是许多流行的机器学习模型的支柱,例如大型语言模型(LLM)。ChatGPT不需要人类通过提供标签来教它如何说每个句子。它只需分析语言数据中的模式,并学会预测下一个单词。

  • 强化学习算法 (Reinforcement Algorithms):强化学习普适性强,主要基于决策进行训练,算法根据输出结果(决策)的成功或错误来训练自己,通过大量经验训练优化后的算法将能够给出较好的预测。比如说皮肤病的大模型,我们把一个皮肤病患者的信息输入给大模型,大模型给出了一个错误的答案。这是环境给大模型一个负反馈。之后大模型会继续自主探索出不同的答案,直到找到了正确的答案,得到了环境的正反馈为止。这就是强化学习算法的特点,不断地在错误中学习来达到自身的强化。

探秘Web3.0 AI产业链(上半部)

算法是用来定义整个大模型训练过程的。选定了一个算法之后,大模型就能够通过该算法来对数据进行处理训练。事实上,为了提高大模型的准确性,上述集中机器学习的算法常常是一起出现的。比如GPT的训练就将以上几种算法融合在一起。在《State of GPT》这份报告中,大模型的训练包括以下四个阶段,预训练阶段(Pretraining)、有监督微调阶段(Supervised Finetuning)、奖励建模阶段(Reward Modeling)、强化学习阶段(Reinforcement Learing)。其中,预训练阶段采用无监督学习算法将大量的数据输入大模型中进行自主分组,进入监督微调阶段后,通过监督学习算法用少量人为攥写的语料做微调,给数据标上标签。奖励建模阶段和强化学习阶段采用强化学习算法,基于有监督微调模型,对同一提示多次调用模型产生不同的输出,请人来对不同的输出进行评分。基于评分数据,训练出奖励模型。通过不断地试错、评分与强化最终形成了震惊世界的GPT。

探秘Web3.0 AI产业链(上半部)

步骤三:训练

大模型训练过程是指通过大数据训练出一个复杂的神经网络模型,通过大量数据的训练确定网络中权重和偏置的值,使其能够适应特定的功能。在训练中需要调整神经网络权重以使损失函数最小,通过反向传播来执行训练以更新每层中的权重。综合来看,大模型训练中最重要的两个要素是参数和架构,因而训练也围绕着这两个元素展开。

首先,我们要选择一个合适的架构作为神经网络模型,例如当前的大语言模型大多都选择了Transformer类架构。如果我们想让构造出的神经网络更复杂更有效,就需要增加参数量。而训练大模型的过程就是增加模型中的参数量,丰富模型神经网络的过程。

《大模型的算力基础设施:GPU 初识》中介绍了大模型训练神经网络的原理,一个简单的神经网络如下图所示,它只有一个输入层、一个输出层和一个隐藏层:

探秘Web3.0 AI产业链(上半部)

为了提升神经网络的能力,通过训练增加了神经网络内部的参数,让神经网络拥有更多的隐藏层,也称为深度神经网络。

探秘Web3.0 AI产业链(上半部)

神经网络最基本的单元或者说最简单的形式叫做感知机,它有若干个输入信号,加权求和后,再通过一个激活函数激活,形成感知机的输出。

探秘Web3.0 AI产业链(上半部)

上述过程其实就是对大脑神经信号处理的一种简单模拟:

探秘Web3.0 AI产业链(上半部)

从中能够看到,对于相同的输入信号,输出结果影响的主要因素就是信号权重,也就是参数值,不同信号对应不同的权重,最终形成了参数值权重矩阵,这些参数值权重就是知识的表征。

让我们回到皮肤科医生的例子,皮肤科大模型训练的流程大致如下:

  • 将患者的数据信息输入给大模型的神经网络

  • 大模型对输入的信息进行处理

  • 大模型对患者的情况进行判断并输出结果

  • Transformer结构根据大模型输出结果的准确性对参数以及权重进行小幅修改:生成了新的参数

  • 由于生成了新的参数,模型的复杂度和预测准确性进一步提升

  • 不断输入新数据重复训练直到皮肤科大模型神经网络的预测结果基本正确为止

这一过程本质上是顺序性的。我们首先通过整个网络传递一个数据点,看看预测结果如何,然后更新模型的权重,丰富模型的参数量。大模型和其他模型的核心区别就是参数量的多寡。小模型通常指参数较少、层数较浅的模型,它们具有轻量级、高效率、易于部署等优点,适用于数据量较小、计算资源有限的场景,例如移动端应用、嵌入式设备、物联网等。而当模型的训练数据和参数不断扩大,直到达到一定的临界规模后,其表现出了一些未能预测的、更复杂的能力和特性,模型能够从原始训练数据中自动学习并发现新的、更高层次的特征和模式,这种能力被称为“涌现能力”。

GPT Transformer 是一个拥有超大规模参数的深度神经网络模型,正是这些参数的取值(权重)组合在一起,才能输出了相应的预测结果(概率),而 Transformer 就是通过预测结果,再反向更新自己的参数权重。经过不断的数据输入和训练,GPT-3 的模型容量达到了惊人的 1750 亿个机器学习参数,而 GPT-2 只有 15 亿个参数。具备如此巨大的参数容量,GPT-3 在自然语言处理任务中展现出了令人惊叹的性能。GPT-4在120层中总共包含了1.8万亿参数,而GPT-3只有约1750亿个参数。 也就是说,GPT-4的规模是GPT-3的10倍以上。

步骤四:推理

推理是指利用训练好的神经网络模型进行运算,利用输入的新数据来一次性获得正确结论的过程。当我使用ChatGPT并得到回应时,模型正在执行推理。我们就可以使用这个训练好的大模型完成特定任务发过程就是推理。推理本质上是利用输入的新数据“一次性”获得正确结论的过程,他不需要和训练一样需要循环往复的调整参数,因此对算力的需求也会低很多。训练大模型可能要花费数千万美元,但进行一次推理只需几分之一。

训练也有以下几个步骤。首先在使用皮肤科医生大模型时,我们需要对这个大模型进行测试。我们给大模型输入一个全新的患者信息,让大模型进行推理,以验证模型的质量。然后我们可以对大模型进行部署。比如一些用户想要在手机上就享受到皮肤科医生大模型的服务,客户需要在手机端上传自己的病情图片。这样手机通过互联网向我们的中心大模型发送请求,然后在大模型上进行推理,生成结果。另一种方法是直接把皮肤科大模型存在手机这个终端上,这样图片就无需上传至大模型总部,只需要在用户的手机上就能实现推理。

探秘Web3.0 AI产业链(上半部)

探秘Web3.0 AI产业链(上半部)

我们将上述机器学习的步骤不断重复,模型也在重复中实现了迭代升级。事实上,对于大模型公司而言,训练与推理是他们最大的花销。

模型层的竞争

模型正在开启“智能即服务”(IQaaS)的时代,胜方将在人才、数据及计算能力的角逐中敲定。拓展模型性能亦意味着拓展高品质的数据集。

在算法层面,当下 AI 技术的发展尚且处于持续迭代与提升的进程之中。未来的发展趋向主要会体现在深度学习算法的多模态及大模型方面,以及在自主学习、知识迁移与增量学习等方面的创新。此将进一步提升 AI 算法的智能水准与应用范畴,推动 AI 技术的广泛应用。

模型层以高研发壁垒以及高运行成本为主要特点,一方面从数据基础和训练成本来看,模型层的研发均需要体量较大的数据来完成,另一方面从运行成本来看,模型层的运行需要较强算力的支持。

  • 数据壁垒:模型能力较大程度上依靠训练数据,且对数据的需求量正在不断膨胀,大厂往往具备优质数据,具备竞争优势

探秘Web3.0 AI产业链(上半部)

  • 训练成本:模型训练对芯片、服务器等算力设施的需求较大,带来较高的训练成本,每个token的训练成本大概为六倍的模型参数数量

  • 运行成本:根据推算,ChatGPT运行成本在9.1-45.6亿美元每年,运行成本较为高昂

探秘Web3.0 AI产业链(上半部)

基于上述模型层高研发投入的特点,竞争门槛将持续提升,参与者会持续减少,走向寡头格局。

(3)模型层的发展方向

模型进化方向1:多模态,感知理解升级+拓展人机交互形式

多模态指文字、图片、音频、视频等多种数据类型;多模态大模型不仅可以像人类一样看和听,理解视觉、音频等信息背后的规律,完成复杂的推理,还可以生成图片、视频、音频、3D等多模态内容。

多模态大模型将带来以下改变:

  • 提高泛娱乐、商业等场景内容创作效率。多模态大模型的图像、视频、3D生成能力可以广泛应用于影视、音乐、游戏等泛娱乐场景的内容创作,同时加速广告、电商等商业场景的营销创意效率。

  • 感知交互升级带动终端硬件革新。多模态大模型可以处理视觉提示,例如我们在图片中圈出物体,模型可以对圈出的部分针对性分析这种能力未来可以适配触屏、眼动追踪、手势追踪等人机交互形式;另一方面,多模态大模型可以对物理世界建模,优化自动驾驶、机器人感知控制技术。

  • 拓展落地场景提升AI渗透率。语言大模型最大的应用场景是教育、办公;多模态大模型将具备图像、视频分析与推理能力,可应用于泛娱乐、交通 (自动驾驶) 、工业 (检测与自动化)、安防 (城市管理) 等场景。

探秘Web3.0 AI产业链(上半部)

模型进化方向2:多种模型组合

按照应用领域的不同,大模型主要可以分为 L0、L1、L2 三个层级:

· 通用大模型 L0:是指可以在多个领域和任务上通用的大模型。它们利用大算力、使用海量的开放数据与具有巨量参数的深度学习算法,在大规模无标注数据上进行训练,以寻找特征并发现规律,进而形成可“举一反三”的强大泛化能力,可在不进行微调或少量微调的情况下完成多场景任务,相当于 AI 完成了“通识教育”。

· 行业大模型 L1:是指那些针对特定行业或领域的大模型。它们通常使用行业相关的数据进行预训练或微调,以提高在该领域的性能和准确度,相当于 AI 成为“行业专家”。

· 垂直大模型 L2:是指那些针对特定任务或场景的大模型。它们通常使用任务相关的数据进行预训练或微调,以提高在该任务上的性能和效果。

短周期内通用类大模型市场热度较高,长周期内多种模型组合是未来发展方向。根据模型体量,模型可分为大模型、小模型、微模型。大模型参数量大,算力强,具备通用类问题处理能力。小模型多专注于垂类领域,往往在垂直场景具备充足的数据以及问题处理能力。微模型更加个性化,由用户个人数据训练而成。大模型和小模型具备不同的优势,分别通过压缩技术以及教师模型进行整合来提高问题处理能力,能够实现1+1大于2的效果,可能是未来模型层的发展方向。

探秘Web3.0 AI产业链(上半部)

根据 Menlo 的 Enterprise AI 报告,60% 的企业使用多个模型并将提示路由到性能最高的模型。这种多模型方法消除了单模型依赖性,提供了更高的可控性,并降低了成本。

探秘Web3.0 AI产业链(上半部)

模型进化方向3: AI Agent

AI Agent相对语言大模型最大的改进是增加自主行动能力,在实现目标过程中无需人类干预。Agent+大模型将有望构建具备自主思考、决策和执行能力的智能体,进一步提升大模型的应用能力。在人工智能领域,AI Agent视为能够使用传感器感知周围环境、做出决策并使用执行器做出响应的人工实体。对比AI与人类的交互模式,AI Agent 较目前广泛使用的Copilot模式更加的独立,能够自主调用资源完成任务,人类在其中起到督促和评估的作用。AI Agent具有更广泛的应用范围可处理多个任务,并在不同领域中执行各种功能;具有更自然和灵活的交互方式,能够理解复杂的自然语言指令,与用户进行更智能对话。

探秘Web3.0 AI产业链(上半部)

从结构上,AI Agent=大模型+记忆+规划+工具使用

  • 记忆:大模型储存知识、更新知识的成本高;为大模型增加记忆库,可以实现低成本的数据更新。

  • 规划:当大模型遇到新的复杂目标时,模型可以像AlphaGo下象棋一样,将目标一步步拆解,穷尽不同策略下可能出现的结果,选择最优的行动策略;另外,当模型生成错误的代码时,模型可以利用反思机制分析错误的原因,不断修改生成的代码,直到实现目标

  • 工具使用:AI Agent在遇到自身难以解决的问题时,会像人一样选择合适的外部工具,通过上网搜索、操作应用、使用专用AI模型解决问题。

探秘Web3.0 AI产业链(上半部)

当前,各大ai公司都在紧锣密鼓地布局ai agent。如最为著名的OpenAl的ChatGPT就是早期ai agent的代表,虽然ChatGPT还没有实现自主行动,但是它显示了与网络整体更广泛互动的潜力,也为后续的ai agent发展建立了必不可少的基础。再如, Bard是谷歌构建更加交互式搜索体验战略的关键组成部分,并预计在2024年会有更多特定垂直领域的应用案例,比如旅游、医疗和教育等。同时,Meta最近推出的MetaAI集成了28个生成式AI聊天机器人,这种机器人可以更为定制化地适应各大企业的需求,在ai agent的探索中更进一步。

Ai agent在高速发展的同时不断向标准化、专业化、外包化这些方向深耕。当前,我们还处在通用大模型的时代,通用工具现在可以处理从总结文本到计划旅行的各种任务,但是这样通用工具的缺点也很明显,即专业化不够,不能帮助客户在某一个细分领域解决更为具体的问题。在这样的核心痛点下,ai agent显著地朝着专业化发展。未来,ai的市场将被很多专攻于某一细分领域的ai瓜分,这些ai能够为企业执行更为具体的任务。如帮助首席财务官管理成本或帮助销售团队识别新的客户群等。这些任务都对ai的准确性和可靠性以及最核心的专业化程度提出了更高的要求。

2、数据

(1)数据需求日益膨胀

数据是大模型训练必不可少的核心要素,数据的数量和质量直接影响着大模型训练效果和大模型的性能。

探秘Web3.0 AI产业链(上半部)

模型能力较大程度上依靠训练数据,且对数据的需求量正在不断膨胀。用GPT来举例,GPT更新迭代所需的数据量正在呈指数级别上升。因此,数据的数量、质量以及处理数据的方式将成为大模型产业竞争的重点环节。

探秘Web3.0 AI产业链(上半部)

在数据层面的发展方面可能会遇到一些潜在的问题。让我们还以皮肤科医生大模型为例。首先如果我们希望训练出的大模型足够准确,就需要为其提供足够多的数据,那就需要足够的患者样本。但是如果大模型已经穷尽了可以找到的所有患者样本,没有新的数据提供训练之后,大模型又应该如何进行自我迭代呢?这就是数据层可能面临的第一个问题:日益增长的数据需求与受限的数据供给。其次,我问给皮肤科医生大模型提供的患者图像最好是清晰的,分辨率高的。模糊的的图像、低质量的数据会对大模型的严重影响模型的学习能力。紧接着,当前网络上充斥着由大模型生成的虚拟数据,如果使用这些数据来对皮肤科大模型训练,将导致生成的模型出现不可逆转的缺陷。同时,在使用不同算法任务对大模型进行训练时,不同的算法有着不同的数据处理难点。数据的收集和使用可能会出现隐私与安全方面的问题。如何有效地应对、解决这些问题既是数据层面临的挑战,也是下一个时期发展的重点。

探秘Web3.0 AI产业链(上半部)

(2)数据层难点一:数据的数量

前文提到,训练大模型对数据的需求量正在不断膨胀。图像和视频数据仅仅可以维持到2024年,数据稀缺性可能成为训练模型时的一项潜在障碍。为了有效应对这一发展难题,目前在数据层面有如下主要的发展方向:

  • 更大的数据集。一般来说,数据集的规模应与模型规模成指数增长,以防止过度拟合并确保性能稳定。对于一个拥有数十亿参数的模型来说,这往往意味着要策划包含数十亿token或示例的数据集。例如,谷歌的BERT模型是在包含超过25亿个单词的整个英文维基百科和包含约8亿个单词的BooksCorpus上进行训练的。而Meta的 LLama则是在1.4万亿个词库的基础上进行训练的。这些数字强调了我们所需的数据集的规模——随着模型向万亿个参数发展,数据集必须进一步扩大。这种扩展可以确保模型能够捕捉到人类语言的细微差别和多样性,因此开发庞大、高质量的数据集与模型本身的架构创新同样重要。Giza、Bittensor、Bagel和FractionAI等公司正在满足这一领域的特殊需求。

  • 对数据进行扩充等处理来形成新的数据。首先,我们我们可以将数据进行扩充。数据扩增就像是给数据改头换面,从老一套中创造出新的面貌。比如,原来我们给皮肤科医生大模型输入了患者A和患者B的图片数据。下一次,我们把这两张图片做出一些小改动,比如旋转了A患者的照片,放大了另一张照片,或者改变了B患者照片的光线。这样,虽然我们没有拍摄任何新的照片,但是就模型而言增加了数据集。其次,大模型在进行推理步骤时也能够产生数据。比如用户在使用皮肤科医生这个大模型时给大模型的反馈也会生成新的数据点,形成训练大模型数据集的一部分。这种方法非常适合收集数据,因为它会不断产生新的场景和挑战,帮助大模型从广泛的经验中学习。这一过程可以在多台机器上并行执行。由于推理的计算成本很低(与训练相比),这一过程对硬件的要求也很低。最后一个存在争议的办法是合成数据。合成数据是指通过算法、生成模型甚至是模拟生成的人工数据,而不是由人类直接创建的,其特征和模式模仿真实世界数据。合成数据通过允许研究人员以低成本的方式生成大规模、多样化和可控的训练数据集,是数据枯竭的一个强有力的解决方案。

探秘Web3.0 AI产业链(上半部)

(3)数据层难点二:数据的质量数据的质量和数量同样重要,高质量数据能达到事半功倍的效果。有证据表明,在精简过的高质量数据集上进行训练,会达到与在完整数据集上训练相似甚至更好的效果。Coatue提出,高质量的数据可以在30%的数据量水平上发挥出相同的效果。

然而高质量数据即将到达增长瓶颈,Coatue在《The AI Revolution》中提出到2026年,高质量文本数据可能很快耗尽。

探秘Web3.0 AI产业链(上半部)

合成数据有助于清洗、提炼数据集,以便进行微调,同时合成数据可以作为真实世界数据的补充。尽管目前仍然无法与真实数据相媲美,但合成数据是当前值得探索的前沿。然而,在创建高质量、可归因的合成样本方面仍有改进空间。提高合成数据质量的两个可能的方法如下:

  • 未来的研究应侧重于开发新的先进技术(例如基于生成对抗网络 (GAN) 或扩散模型等),这些技术可以控制和操纵生成数据的特定属性,从而能够创建多样化和可定制的合成数据集。

  • 研究人员还应探索可以结合领域知识的方法,以确保生成的数据遵循目标领域中存在的底层约束和模式。

探秘Web3.0 AI产业链(上半部)

除了要再去训练大模型的过程中提高输入数据的质量外,还需要警惕数据攻击。当数据集被恶意攻击后,可能造成数据质量的大幅度下降。如数据毒化攻击,在这种攻击中,通过添加扰动来破坏训练数据,从而欺骗分类器,导致不正确的输出。比如可能会有人使用错误的数据攻击我们的皮肤科医生大模型,这将导致大模型性能的下降。为了维护数据集的质量,我们需要在创建开放数据集时建立一个强大的质量控制层,以避免恶意攻击。

(4)数据层难点三:合成数据的负面影响

前文提到,合成数据在解决数据数量与质量的难点方面有望做出突出贡献,但是合成数据也存在着其固有的缺陷。首先是如何确保合成数据的真实性和保真度?训练虚假、幻觉或偏见合成数据的模型可能无法泛化到现实世界场景。如果设计和验证不够细心,合成数据可能会放大偏差或引入新的偏差。

GPT-3.5 和 GPT-4 等模型是使用网络上的所有数据训练而成的。然而,这些模型目前正在被广泛使用,因此一年后互联网上的大量内容将由这些模型生成。这意味着,GPT-5 及以后的模型将使用 GPT-4 生成的数据进行训练。在合成数据上训练模型的效果如何?研究发现,在合成数据上训练语言模型会导致生成的模型出现不可逆转的缺陷。

  • 合成数据可能导致模型偏差。是人工生成而非从现实世界来源收集的,可能无法准确代表人类价值观和偏好的细微差别和复杂性。这种差异会导致人工智能模型学习来自偏差的、缺乏依据的或误解现实世界场景的数据。因此,使用合成数据训练的人工智能系统可能会表现出与人类期望不符的行为,从而可能导致意想不到的后果甚至有害行为。

  • 合成数据引入的歧义会使解释和理解人工智能模型的决策过程变得困难。

  • 合成数据潜在的滥用问题。当前的人工智能模型越来越能生成类似人类的数据,包括文本、图像、歌曲 ,甚至视频。当合成数据用于冒充真人、操纵舆论或影响政治进程时,可能会特别危险。此外,合成数据驱动的错误信息的传播会侵蚀人们对合法信息来源的信任,使人们越来越难以区分真假信息。

探秘Web3.0 AI产业链(上半部)

解决方案与发展方向:

  • 对合成数据进行监督。随着对有效的人工智能治理和监管需求的增长,合成数据将在启用更可信赖的可扩展监督机制方面发挥越来越重要的作用,这些机制将促进稳健、可问责和安全的部署人工智能技术,造福社会。

  • 合成数据的自我提升。如果模型能够生成比原始训练集更高质量的数据,那么它可以通过迭代学习增强后的合成数据来潜在地提升其性能,这种自我提升能力可能会导致出现更先进的人工智能系统,这些系统能够随着时间的推移自主地磨练技能和知识。尽管近期工作在这个方向上取得了令人鼓舞的进展,但自我提升的上限及其有效性的根本原因仍是悬而未决的问题。

  • 找出数据集中的合成数据并剔除。这需要追溯这些数据的最初来源。围绕数据出处(追踪数据来源)的解决方案存在重大机遇。

(5)数据层的难点四:不同算法的限制

监督学习:前文提到,监督学习本质上是用人工为数据打上标签。《AI x Crypto 报告》中总结了这一点在实际操作中的诸多挑战:

  • 主观性:决定数据的标签可能是主观的,从而导致模糊不清和潜在的伦理问题。一个人认为合适的标签,另一个人可能会有不同的看法。

  • 标签有差异:同一个人有时会给完全相同的句子贴上不同的标签。这就降低了数据集的质量,因为它在标签中引入了差异。在实践中,20% 的标签无法使用的情况并不少见。

  • 缺乏专家注释者:对于一个小众的医疗应用,人们可能很难获得大量有意义的标签数据。这是由于能够提供这些标签的人员(医学专家)十分稀缺。

  • 高成本:当试图收集大量高质量数据集时,成本可能高得惊人。由于上述问题,如果需要对数据集进行标注,成本尤其高昂。

强化学习:强化学习依赖于通过与环境互动而产生的数据,这通常需要复杂的模拟或真实世界的实验。

这一过程可能会耗费大量资源和时间,对于物理机器人或复杂环境而言尤其如此。如果机器人在真实世界中接受训练,那么它从试验和错误中学习可能会导致事故。奖励稀少且延迟:在收到有意义的反馈之前,代理可能需要探索大量的行动,从而难以学习有效的策略。

同时,确保所收集数据的多样性和代表性至关重要;否则,代理可能会过度适应狭隘的经验集,而不能通用化。在探索(尝试新行动)和利用(使用已知的成功行动)之间取得平衡使数据收集工作更加复杂,需要复杂的策略才能有效收集有用的数据。

(6)数据层的难点五:数据的隐私问题

“高价值数据 (HVD) 是指对组织或个人极有价值的数据,因为它有可能对每个人的生活产生重大影响——从人工智能到交易信息,从身份到医疗保健数据,从访问控制到去中心化社交,从密码到生物识别——高价值数据被编织到我们社会的基础设施中。”而这些数据的隐私性是否能得到保障是数据技术发展的核心议题。隐私问题的可能解决方案如下:

  • web3项目的隐私加密技术。中的“隐私”概念已成为私人货币和阻止链上可追溯性的代名词。web3中的“隐私”概念不仅可以应用在虚拟货币上,还可以成为解决数据隐私安全的重要工具。如web3领域的Privasea利用了全同态加密(FHE)技术来训练处理加密数据的AI模型,确保输入的隐私性。它能够系统处理这些加密输入,并生成只有用户能够解密的加密输出。这种方法可以保护用户数据不被泄露,解决了AI应用中的重大隐私和安全问题。

  • 合成数据:合成数据可以通过创建不包含敏感个人信息的匿名或去标识数据集来帮助缓解隐私问题。

3、算力层

(1)大模型对算力的需求

在数据呈指数级增长的后摩尔时代,基于强大算力支持的AI技术正在蓬勃成长,同时对算力的要求也与日俱增。

训练需求:训练需要高密集的计算,通过神经网络算出结果后,如果发现错误或未达到预期,这时这个错误 会通过网络层反向传播回来,该网络需要尝试做出新的推测,在每一次尝试中,它都要调整大量的参数,还必须兼顾其它属性。再次做出推测后再次校验,通过一次又一次循环往返,直到其得到“最优”的权 重配置,达成预期的正确答案,所以训练是一个消耗巨量算力的怪兽。

随着AI训练成本持续上升,LLM(大型语言模型)的参数数量已从2018年的9400万参数发展到商业上可用的1750亿参数的GPT-3,预计GPT-4将超过1万亿。有数据显示,训练一个AI模型所需的算力将每2年涨275倍。

综合来看,算力需求增长的驱动力有两个:

  • 2018年以后,模型训练所需要的算力需求正在以2个月翻一倍的速度增长。

  • 各大厂商的模型训练从语言模型转向多模态模型,这增加了算力需求。

探秘Web3.0 AI产业链(上半部)

推理需求:推理是利用训练好的模型,使用新数据推理出各种结论,它是借助神经网络模型并行运算,利用输入的新数据“一次性”获得正确结论的过程,他不需要和训练一样需要循环往复的调整参数,因此对算力的需求也会低很多。

但是随着大模型的实际应用场景愈发丰富,推理需求甚至有望超过训练需求。中长期来看,推理将接力训练,成为算力投资增长的主要贡献。当前的算力需求仍以大模型训练为主,未来伴随应用的不断落地,推理需求逐步释放,中长期将成为算力需求的主力。区别于训练侧,推理侧的算力需求无法重复使用,而是跟随应用场景、用户数量、使用频次的增长而扩展。

探秘Web3.0 AI产业链(上半部)

仅以GPT这一项使用场景为例,持续的推理可能需要比一次性训练更多的计算。假设 100M 用户每天进行 10 次查询,则每天产生的计算需求增加了4倍。

探秘Web3.0 AI产业链(上半部)

Menlo Ventures最近的企业AI调查表明,几乎95%的AI支出都用于运行时和预训练。即使是像 Writer 这样复杂的 AI 构建者,也将超过 80% 的计算时间用于推理,而不是训练。

探秘Web3.0 AI产业链(上半部)

基于算力需求的膨胀,全球芯片市场的规模将持续膨胀。

探秘Web3.0 AI产业链(上半部)

(2)GPU与大模型训练

GPU,Graphics Processing Unit,即图形处理器,和 CPU 一样,GPU 也是一种计算处理芯片。最初主要应用在 2D 和 3D 图形渲染和图像处理领域,比如电子游戏、视频编辑等场景。GPU 是计算芯片,而后者还包括显存、总线、风扇、外围设备接口等一系列组件。随着时代的发展,GPU 的应用范围越来越广,在图形领域之外,尤其是科学计算与人工智能领域(尤其是基于神经网络的机器学习),也取得了显著和辉煌的成就。

大模型的训练和推理过程,和图像处理一样,都包含大量高强度的并行计算。GPU 的架构设计天然适用于那种大量的、简单的 、重复的、相似的计算任务,这能充分的发挥 GPU 的并行处理能力。而大模型中的transformer结构由于拥有并行处理能力因而可以与GPU的特性完美地结合。

主流大模型所基于的 Transformer 是一种深度神经网络架构。而神经网络可以看作一个包含了巨大规模参数的大函数。在需要大量算力的训练和推理步骤中,这个大函数最主要的就是进行大量的矩阵运算。如进行标量乘法、矩阵加法、矩阵乘法、矩阵转置等。在Transformer架构下,运行神经网络这样一个大函数可以被分解成互不干涉、各自独立的小步骤。以矩阵乘法运算为例,两个矩阵的每一个行列相乘,都是互不相干,可独立进行的计算过程,需要通过并行计算进而实现有效处理。

探秘Web3.0 AI产业链(上半部)

如果计算可以并行完成,我们可以使用并行编程方法和GPU加速计算。比如,可以使用多个 GPU 的核进行并行计算。GPU的核,称为流式多处理器(Stream Multi-processor,SM),是一个独立的任务处理单元。并行计算是一种将特定计算分解成可以同时进行的独立的较小计算的计算方式。然后重新组合或同步计算结果,形成原来较大计算的结果。更大的任务可以分解成的任务数量取决于特定硬件上包含的内核数量,CPU通常有4个、8个或16个核心,而GPU可能有数千个。这就是为什么在transformer大模型时代,GPU是一个更好的选择。

探秘Web3.0 AI产业链(上半部)

Transformer 神经网络架构中的输入处理、编码处理、解码处理、输出处理等环节,包含大量矩阵乘法的并行运算。因此,在基础运算的维度上,Transformer 更适合应用 GPU 架构。从Transformer 神经网络基本矩阵运算,以及 Transformer 系统架构角度,都是 GPU 架构发挥的舞台。NVIDIA GPU 当前的主流架构代号是 Hopper,Hopper 架构一个显著改进是,在内核层面实现了一个 Transformer 引擎,提供了对 Transformer 的原生支持。可以说是Transformer架构的横空出世才让GPU日渐成为了炙手可热的焦点。

由于大模型训练导致全球算力需求激增,GPU的需求量也将迎来爆发。根据COATUE的估计,全球市场对GPU的需求将以25%的速度逐年攀升。

探秘Web3.0 AI产业链(上半部)

(3)ASIC与大模型推理

ASIC,全称为Application Specific Integrated Circuit,中文名为专用集成电路芯片,顾名思义,是一种为了专门目的或者算法而设计的芯片。只要是为了某一类算法,或者是某一类用户需求而去专门设计的芯片,都可以称之为ASIC。ASIC 则完全为某类功能或者算法专门设计,通用性较低的同时,拥有对某一类算法最好的性能。

推理芯片更加关注功耗、时延、成本,且对精度要求相对较低。ASIC芯片在推理领域具有明显优势,有望在该领域率先出现爆品。根据CSET数据,ASIC芯片在推理领域优势明显,其效率和速度约为CPU的100-1000倍,相较于GPU和FPGA具备显著竞争力。

探秘Web3.0 AI产业链(上半部)

我们来看当下较为领先的“推理 ASIC”亦或是“LLM 专用 ASIC”Groq,Groq 由谷歌TPU 团队成员创立,在经过了几年的默默发展后,最终在2024 年 2 月一鸣惊人,运行在Groq 平台上的Meta Llama 2 模型,实现了领先的推理速度,将大模型的推理速度带到了500 Token/s,而GPT-4 的输出速度则在40 Token/s,是顶级云计算供应商的18倍。 Groq在延时(Latency)这个用户核心痛点上提供了卓越的解决方案。Groq LPU搭配Meta Llama 2 70B能在7分钟内就能生成与莎士比亚《哈姆雷特》相同数量的单词,比普通人的打字速度快75倍。

探秘Web3.0 AI产业链(上半部)

伴随推理侧需求释放,ASIC方案有望加速渗透。在早期大模型快速迭代的训练端爆发阶段,算力及互联带宽为核心指标,同时使用通用芯片可避免专门研发定制芯片所带来的高投入和高风险,故高算力通用GPU为此阶段硬件端最优解。随着大规模应用部署的推理端放量阶段到来,偏应用定制化且具备成本、功耗、体积等优势的ASIC方案渗透率有望快速提升。

探秘Web3.0 AI产业链(上半部)

(4)算力层有哪些难点?如何解决?

算力层难点一:“摩尔定律已死”

1965年4月19日,时任仙童半导体研究负责人、后来成为英特尔联合创始人之一的戈登·摩尔,在《电子学》(Electronics)杂志上发表论文,预测集成电路芯片上可容纳的晶体管数目,每隔18-24个月便会增加一倍,微处理器的性能提高一倍,或价格下降一半。

从行业角度来看,业界一直遵循这一定律,随着年份推移而指数型尺寸微缩,从而诞生出90nm、65nm、45nm、32nm、28nm——每一代制程节点都能在给定面积上,容纳比前一代多一倍的晶体管。

2000年之前,每一代芯片的性能提升来自两个方面:一是按照Denard(登纳德)微缩效应,每代芯片的频率提升带来了40%的改进;二是每代芯片晶体管密度提升带来的体系结构的改进符合波拉克法则,即平方根级别的提升,达41%。将这两方面的性能提升迭加,最终得到1.97倍,于是每代会有差不多一倍的提升,而且,芯片晶体管密度的“摩尔定律”可换算成性能的“摩尔定律”。

但如今,Denard微缩效应遇到了元件物理的瓶颈,早已失效,单核性能的提升没法纯粹依靠主频的提升。如今,“摩尔定律”已经越来越偏离最早的预测。一个很明显的事实是,14nm以下先进节点之后,晶体管密度的增速在放缓,芯片主频的提升速度变慢,性能的改善越来越难。2005年之前的20年里,微处理器的性能提升了近1000倍,也就是每两年提升一倍。但之后的十多年,芯片性能并没有达到这个速度。

探秘Web3.0 AI产业链(上半部)

如今,“摩尔定律”已进一步发展到亚1纳米级别。2022年3月,清华大学集成电路学院任天令教授团队在英国《自然》(Nature)杂志上发表一篇论文:利用石墨烯薄膜超薄的单原子层厚度和优异的导电性能作为栅极,科研团队首次实现了长度为0.34 纳米 (nm) 栅极长度的石墨烯晶体管,并具有良好的电学性能。

要知道,0.34nm大约只是单个碳原子大小。所以这意味着,利用新的半导体栅极材料,曾经放在你手掌中的电子元件,未来可能会变成原子,从我们的世界里面消失,甚至芯片无法被人类所触碰到。

栅极是一种开关晶体管的芯片组件,是衡量晶体管尺寸的关键指标。“在未来,人们几乎不可能制造小于0.34nm 的栅极长度,”任天令教授接受采访时表示,“这(0.34nm)可能是‘摩尔定律’的最后一个节点。”

据《经济学人》统计,从2012年到2018年,用于训练大型模型的计算能力已增长了30万倍,并且约每三个半月翻一番。值得注意的是,支持这一发展速度需要的远不止摩尔定律所能实现的改进。更何况如今正值摩尔定律走向枯竭之际,如何不断提升系统性能以满足人工智能训练的需求?后摩尔时代的AI革命显然需要新的颠覆——从计算架构开始,做算法、硬件和软件的共同优化变得尤为关键。

为了应对继续增长以至于漫无边际的算力需求以及接近极限的摩尔定律,以下可能是算力层解决以上难题的方式:

  • 量子计算。量子计算是一种解决方式——利用量子力学的反直觉特性来大幅加速某些类型的计算。比如,微软研究院量子架构与计算小组负责人提出一种称为葛洛沃算法(Grover's algorithm)的量子计算技术,该技术有望大大提高计算速度。因为关于机器学习的一种思考方式是将其视作优化问题,即计算机试图在数百万个变量之间折中取舍,以求出误差尽可能小的解。

  • 借助于协处理器。Denard微缩效应遇到了元件物理的瓶颈,早已失效,单核性能的提升没法纯粹依靠主频的提升。于是,行业内出现了多核处理器、AI 芯片、专用集成电路(ASIC)或FPGA(现场可编程门阵列)芯片等,以提升芯片吞吐量性能,而非单个核心的计算性能。摩尔定律/串行计算的成熟正在将更多工作负载转移到并行计算上,这是通过使用独立的协处理器/加速器(如GPU、定制芯片(ASIC)和可编程芯片(FPGA))实现的。截至2023年11月,全球500强企业中有186台机器使用了协处理器,比五年前的137个系统有所增加;500强中的协处理器/加速器使用在环比上持平,在同比上增长了约5%;500强超级计算机的总计算性能增长到了7.0 exaflops,同比增长了45%。

  • Web3机遇,充分利用闲置算力。去中心化计算通过算力的租赁、共享、调度等综合利用现有计算资源,为Web 3生态系统中的各种应用提供了一个安全、低成本、无停机服务的算力解决方案。去中心化计算将成本和责任分散到多个实体,在长期内更加可负担和可持续,目前市场上的Web 3去中心化算力平台能够提供比中心化算力平台普遍低80-90%的价格。

算力层难点二:中央计算带来的苛刻条件以及延时困扰

传统云计算(或者说是中央计算)模式下存在的高延迟、网络不稳定和低带宽问题。举一个现实的例子,几乎所有人都遇到过手机APP 出现“无法访问错误”的情况 ,这样的一些错误就和网络状况、云服务器带宽限制有关系。由于资源条件的限制,云计算服务不可避免收到高延迟、和网络不稳定带来的影响。

波音787为例,其每一个飞行来回可产生TB级的数据,美国每个月收集360万次飞行记录;监视所有飞机中的25000个引擎,每个引擎一天产生588GB的数据。这样一个级别的数据,如果都上传到云计算的服务器中,无论对于算力和带宽,都提出了苛刻的要求。风力发电机装有测量风速、螺距、油温等多种传感器,每隔几毫秒测一次,用于检测叶片、变速箱、变频器等的磨损程度,一个具有500个风机的风场一年会产生2PB的数据。如此PB 级别的数据,如果实时上传到云计算中心并产生决策,无论从算力和带宽的角度,都提出了苛刻的要求,更不要说由于延迟而产生的即时响应问题。可能的解决方案有以下两个:

边缘计算:

边缘计算是为应用开发者和服务提供商在网络的边缘侧提供云服务和IT环境服务;目标是在靠近数据输入或用户的地方提供计算、存储和网络带宽。边缘化计算将有力地解决上述中心化计算带来的苛刻要求以及由于延迟而产生的即时响应问题。通过将部分或者全部处理程序迁移至靠近用户或数据收集点,边缘计算能够大大减少在云中心模式站点下给应用程序所带来的影响。由于部署在设备侧附近,可以通过算法即时反馈决策,并可以过滤绝大部分的数据,有效降低云端的负荷,使得海量连接和海量数据处理成为可能。所以,边缘计算将作为云计算的补充,在未来共同存在于物联网的体系架构中。

边缘计算的优点主要如下:

  • 低延迟:计算能力部署在设备侧附近,设备请求实时响应;

  • 低带宽运行:将工作迁移至更接近于用户或是数据采集终端的能力能够降低站点带宽限制所带来的影响。尤其是当边缘节点服务减少了向中枢发送大量数据处理的请求时。

  • 隐私保护:数据本地采集,本地分析,本地处理,有效减少了数据暴露在公共网络的机会,保护了数据隐私。

在边缘设备上运行 AI 模型可能有助于缓解 GPU 短缺问题。比如Apple 芯片本地模型运行的速度与 GPU 上运行居然一样快。

探秘Web3.0 AI产业链(上半部)

雾计算:边缘计算的一个分支领域

雾计算是一种网络架构,是指使用终端设备在现场进行大量边缘计算时用于存储、通信、传输数据的架构。美银认为,雾计算和云计算之间是互补的关系,未来可能会形成混合/多云的部署业态。随着应用程序迁移到云端,混合/多云方法正在被部署。云计算和边缘计算是互补的,采用分布式方法可以通过不同方法解决不同需求来创造价值。IDC的一项调查显示,42%的企业受访者在设计和实施关键组件(包括基础设施、连接性、管理和安全)方面存在困难。从长远来看,边缘数据聚合和分析与云访问的规模化能力(如分析和模型训练)的结合,将创造一个建立在数字化边缘交互之上的新经济。

(5)迎接算力未来的星辰大海

高性能计算(HPC):高性能计算 是指通过聚合计算能力来提供比传统计算机或服务器更强大的计算性能。高性能计算 (HPC) 或超级计算和日常计算一样,区别只在于它的计算能力更强大。它能够通过聚合结构,使用多台计算机和存储设备,以极高速度处理大量数据。在实际应用中,有一些工作负载(例如 DNA 测序)对于任何一台计算机来说都过于庞大。对此,HPC 或超级计算环境可以使多个节点(计算机)以集群(互联组)的形式协同作业,在短时间内执行海量计算,从容应对这些规模庞大而又极其复杂的工作负载挑战。高性能计算在以下几个方面都有突出表现:

  • 减少物理测试:HPC 可用于创建仿真,而无需用户进行物理测试。例如在测试汽车事故时,与实际碰撞测试相比,HPC 可以更加经济、便捷地生成碰撞模拟。

  • 速度:基于最新 CPU、图形处理单元 (GPU) 和诸如 RDMA(远程直接内存访问)的低延迟网络结构,以及全闪存本地存储和块存储设备,HPC 可以在数分钟内完成以往需要数周才能完成的大量计算。

  • 成本:HPC 可以更快速、更低成本地提供答案。此外,借助基于云技术的 HPC,即使是小型企业和初创企业也能轻松运行 HPC 工作负载 — 只需为实际使用的资源付费且可按需扩展和收缩。

HPC 支持多种类型的工作负载,其中常见的两种是并行工作负载和紧密耦合工作负载。

  • 并行工作负载:指被细分为多个小型、简单、独立任务的计算问题,这些任务可以同时运行,通常相互之间几乎没有通信。例如,一家企业可能向某节点集群中的各个处理器核心提交了 1 亿条信用卡记录。其中,处理一条信用卡记录即是一项小任务,当 1 亿条记录分布在整个集群上时,1 亿个小任务就能以惊人的速度同时(并行)执行。并行工作负载的常见使用场景包括风险模拟、分子建模、上下文搜索和物流模拟。

  • 密耦合工作负载:通常占用较多的共享资源,并分解为相互之间持续通信的小任务。换言之,集群中的各个节点在执行处理时会相互通信。紧密耦合工作负载的常见使用场景包括计算流体动力学、天气预报建模、材料模拟、汽车碰撞仿真、地理空间模拟和交通管理。

由于高性能计算对于科技的严苛要求以及高技术壁垒,高性能计算是计算机科学与工程的“皇冠”。高性能计算是计算机技术的源头之一。 互联网产业依赖的数据中心的核心技术,诸如 Hadoop 等并行编程工具和 RDMA 等远程通信技术大多脱胎于此。因此,高性能计算机被视为计算机科学与工程的“皇冠”,高性能计算也成为衡量国家之间综合实力的基准之一。

基于高性能计算,以下行业有望迎来突破性进展

  • 航空航天:创建复杂模拟,例如飞机机翼上的气流

  • 制造: 通过模拟来增强新产品(例如自动驾驶)的设计、制造和测试,从而生产更加安全的汽车和更轻的零部件,提高流程效率,促进创新

  • 金融科技 (fintech):执行复杂风险分析、高频交易、财务建模和欺诈检测

  • 基因组学:通过 DNA 测序、药物相互作用分析和蛋白质分析来推进系谱学研究

  • 医疗卫生:研发药物、研发疫苗以及为罕见和常见疾病研究创新疗法

  • 媒体和娱乐: 创建动画、渲染电影特效、转码大型媒体文件以及创建沉浸式娱乐体验

  • 石油和天然气:执行空间分析,测试储层模型,从而预测油气资源分布位置;对流体流动和地震数据处理等进行模拟

空间计算:

空间计算是指通过使用AR/VR技术,将用户的图形界面融入真实物理世界,从而改变人机交互的计算机。实际上,我们正在到达人机交互的一个转折点:从传统的键盘和鼠标配置转向触摸手势、对话式AI和增强视觉计算交互的边缘。美银认为,继PC和智能手机之后,空间计算有潜力推动下一波颠覆性变革——使技术成为我们日常行为的一部分,用实时数据和通信连接我们的物理和数字生活。

脑机接口:

脑机接口是指通过人类和动物的脑波直接与外部世界互动。美银指出,像Neuralink这样的初创公司正在研究通过植入物(BCI)实现人机合作,在动物实验环节已经实现了脑波控制设备,早期人类临床试验仍在进行中。目前,脑机接口(BCI)和脑脑接口(CBI)技术正在开发中,已有通过思想控制手部动作的实例。Synchron的方案是在供应大脑的血管中放置一个布有传感器和电极的网格管,可以从中接收神经元信号,信号被传递到外部单元后,将被翻译并传达给计算机。临床试验中,瘫痪的个体能够发短信、发电子邮件,以及网上银行和购物。Neural的植入物包括神经线,这些线通过神经外科机器人插入大脑以拾取神经信号,临床患者现可以通过思考移动计算机鼠标。