使用推理服务器加速大型Transformer模型的推理

这是讨论 nvidia fastertransformer 库的两部分系列的第一部分，该库是用于对任意大小（多达数万亿个参数）的transformer进行分布式推理的最快库之一。它提供了 fastertransformer 的概述，包括使用该库的好处。
使用 fastertransformer 和 triton 推理服务器部署 gpt-j 和 t5（第 2 部分）是一个指南，说明了使用 fastertransformer 库和 triton 推理服务器以具有张量并行性的最佳方式为 t5-3b 和 gpt-j 6b 模型提供服务。
transformers 是当今最具影响力的 ai 模型架构之一，正在塑造未来 ai 研发的方向。它们最初是作为自然语言处理（nlp）的工具而发明的，现在几乎用于任何 ai 任务，包括计算机视觉、自动语音识别、分子结构分类和金融数据处理。考虑到如此广泛使用的是注意力机制，它显着提高了模型的计算效率、质量和准确性。
具有数千亿参数的大型基于 transformer 的模型的行为就像一个巨大的百科全书和大脑，其中包含有关它所学到的一切的信息。他们以独特的方式对所有这些知识进行结构化、表示和总结。拥有具有大量先验知识的此类模型使我们能够使用新的强大的一次性或少量学习技术来解决许多 nlp 任务。
由于它们的计算效率，transformer可以很好地扩展——通过增加网络的规模和训练数据的数量，研究人员可以改善观察并提高准确性。
然而，训练如此大的模型并非易事。这些模型可能需要比一个 gpu 供应更多的内存——甚至是数百个 gpu。值得庆幸的是，nvidia 研究人员已经创建了强大的开源工具，例如 nemo megatron，可以优化训练过程。
快速和优化的推理使企业能够充分发挥这些大型模型的潜力。最新研究表明，增加模型和数据集的大小可以提高这种模型在不同领域（nlp、cv 等）下游任务上的质量。
同时，数据表明这种技术也适用于多域任务。（例如，参见 openai 的 dalle-2 和 google 的 imagen 等关于文本到图像生成的研究论文。）依赖于大型模型的“冻结”拷贝的 p-tuning 等研究方向甚至增加了拥有稳定且优化的推理流程。此类大型模型的优化推理需要分布式多 gpu 多节点解决方案。
用于加速推断大型transformer的库
nvidia fastertransformer （ft）是一个库，用于实现基于transformer的神经网络推理的加速引擎，特别强调大型模型，以分布式方式跨越许多 gpu 和节点。
fastertransformer 包含transformer块的高度优化版本的实现，其中包含编码器和解码器部分。
使用此模块，您可以运行完整的编码器-解码器架构（如 t5）以及仅编码器模型（如 bert）或仅解码器模型（如 gpt）的推理。它是用 c++/cuda 编写的，依赖于高度优化的 cublas、cublaslt 和 cusparselt 库。这使您可以在 gpu 上构建最快的transformer推理流程。
图 1.使用张量并行（张量 mp 分区）和管道并行（管道 mp 分区），在四个 gpu 之间分布了几个 transformer / attention 块
与 nvidia tensorrt 等其他编译器相比，ft 的显着特点是它支持以分布式方式推断大型transformer模型。
上图显示了如何使用张量并行（tp）和流水线并行（pp）技术将具有多个经典transformer/attention的神经网络拆分到多个 gpu 和节点上。
当每个张量被分成多个块时，就会发生张量并行性，并且张量的每个块都可以放置在单独的 gpu 上。在计算过程中，每个块在不同的 gpu 上单独并行处理，并且可以通过组合来自多个 gpu 的结果来计算结果（最终张量）。
当模型被深度拆分并将不同的完整层放置到不同的 gpu/节点上时，就会发生流水线并行。
在底层，启用节点间/节点内通信依赖于 mpi 和 nvidia nccl。使用此软件堆栈，您可以在多个 gpu 上以张量并行模式运行大型transformer，以减少计算延迟。
同时，tp 和 pp 可以结合在一起，在多 gpu 和多节点环境中运行具有数十亿和数万亿个参数（相当于 tb 级权重）的大型 transformer 模型。
除了 c 中的源代码，fastertransformer 还提供 tensorflow 集成（使用 tensorflow 操作）、pytorch 集成（使用 pytorch 操作）和 triton 集成作为后端。
目前，tensorflow op 仅支持单 gpu，而 pytorch op 和 triton 后端都支持多 gpu 和多节点。
为了避免为模型并行性而拆分模型的额外工作，fastertransformer 还提供了一个工具，用于将模型从不同格式拆分和转换为 fastertransformer 二进制文件格式。然后 fastertransformer 可以直接以二进制格式加载模型。
目前，ft 支持 megatron-lm gpt-3、gpt-j、bert、vit、swin transformer、longformer、t5 和 xlnet 等模型。您可以在 github 上的 fastertransformer 存储库中查看最新的支持矩阵。
ft 适用于计算能力》= 7.0 的 gpu，例如 v100、a10、a100 等。
图 2.gpt-j 6b 模型推断和加速比较
fastertransformer 中的优化
与深度学习训练的通用框架相比，ft 使您能够获得更快的推理管道，并且基于 transformer 的 nn 具有更低的延迟和更高的吞吐量。
允许 ft 对 gpt-3 和其他大型transformer模型进行最快推理的一些优化技术包括：
层融合——预处理阶段的一组技术，将多层神经网络组合成一个单一的神经网络，将使用一个单一的内核进行计算。这种技术减少了数据传输并增加了数学密度，从而加速了推理阶段的计算。例如， multi-head attention 块中的所有操作都可以合并到一个内核中。
图 3. nvidia faster transformer 库中缓存机制的演示
自回归模型/激活缓存的推理优化
为了防止通过transformer重新计算每个新token 生成器的先前键和值，ft 分配一个缓冲区来在每一步存储它们。
虽然需要一些额外的内存使用，但 ft 可以节省重新计算的成本、在每一步分配缓冲区以及连接的成本。该过程的方案上图所示。相同的缓存机制用于 nn 的多个部分。
内存优化
与 bert 等传统模型不同，大型 transformer 模型具有多达数万亿个参数，占用数百 gb 存储空间。即使我们以半精度存储模型，gpt-3 175b 也需要 350 gb。因此有必要减少其他部分的内存使用。
例如，在 fastertransformer 中，我们在不同的解码器层重用了激活/输出的内存缓冲区。由于 gpt-3 中的层数为 96，因此我们只需要 1/96 的内存量用于激活。
使用 mpi 和 nccl 实现节点间/节点内通信并支持模型并行性
在 gpt 模型中，fastertransormer 同时提供张量并行和流水线并行。对于张量并行性，fastertransformer 遵循了 megatron 的思想。对于自注意力块和前馈网络块，ft 按行拆分第一个矩阵的权重，并按列拆分第二个矩阵的权重。通过优化，ft 可以将每个 transformer 块的归约操作减少到两倍。
对于流程并行性，fastertransformer 将整批请求拆分为多个微批，隐藏了通信的泡沫。 fastertransformer 会针对不同情况自动调整微批量大小。
matmul 内核自动调整（gemm 自动调整）
矩阵乘法是基于transformer的神经网络中主要和最繁重的操作。 ft 使用来自 cublas 和 cutlass 库的功能来执行这些类型的操作。重要的是要知道 matmul 操作可以在“硬件”级别使用不同的低级算法以数十种不同的方式执行。
gemmbatchedex 函数实现 matmul 操作，并以“cublasgemmalgo_t”作为输入参数。使用此参数，您可以选择不同的底层算法进行操作。
fastertransformer 库使用此参数对所有底层算法进行实时基准测试，并为模型的参数和您的输入数据（注意层的大小、注意头的数量、隐藏层的大小）选择最佳的一个。此外，ft 对网络的某些部分使用硬件加速的底层函数，例如 __expf、__shfl_xor_sync。
精度较低的推理
ft 的内核支持使用 fp16 和 int8 中的低精度输入数据进行推理。由于较少的数据传输量和所需的内存，这两种机制都允许加速。同时，int8 和 fp16 计算可以在特殊硬件上执行，例如张tensor core（适用于从 volta 开始的所有 gpu 架构），以及即将推出的 hopper gpu 中的transformer引擎。
更多
快速的 c++ beamsearch 实现
针对 tensorparallelism 8 模式优化 all-reduce 当模型的权重部分在 8 个 gpu 之间拆分时
具有 fastertransformer 后端的 nvidia triton 推理服务器
nvidia triton 推理服务器是一款开源推理服务软件，有助于标准化模型部署和执行，在生产中提供快速且可扩展的 ai。 triton 稳定且快速，允许您使用准备好的 docker 容器以简单的方式运行 ml/dl 模型的推理，该容器仅使用一行代码和简单的类似 json 的配置。
triton 支持使用多个后端的模型，例如 pytorch、torchscript、tensorflow、onnxruntime 和 openvino。 triton 采用您在其中一个框架中训练的导出模型，并使用相应的后端为您透明地运行该模型进行推理。它也可以使用自定义后端进行扩展。 triton 使用 http/grpc api 包装您的模型，并为多种语言提供客户端库。
图 4. triton 推理服务器，具有多个后端，用于对使用不同框架训练的模型进行推理
triton 包含 fastertransformer 库作为后端（图 4），该库支持使用 tp 和 pp 运行大型transformer模型的分布式多 gpu、多节点推理。今天，带有 fastertransformer 后端的 triton 支持 gpt-j、gpt-megatron 和 t5 模型。
关于作者
denis timonin 是一名深度学习解决方案架构师和工程师，目前在 nvidia 从事世界上最大的神经网络的训练和推理，并在计算机视觉、自然语言处理和自动语音识别领域构建人工智能解决方案。在此之前，丹尼斯在华为研究了移动设备的小型精确神经网络，并构建了复杂的人工智能管道，用于金融数据分类、医学图像分割、目标检测和跟踪。
bo yang hsueh 是 fastertransformer 的领导者和主要开发人员。三年前他参加了 transformer 加速赛。最近，他专注于大型 nlp 模型加速，包括 t5 和 gpt-j 等公共模型。杨波获得国立交通大学计算机科学硕士学位。

6月以来，多家公司开始布局芯片产业
采用采用反激转换器如何消除米勒效应
所有的苟且，都是你看不到生活的细节
中兴通讯打造智慧家庭新体验 Apple发布全新iPhone SE
边烧水边充电的创意产品
使用推理服务器加速大型Transformer模型的推理
苹果A12：GPU性能比骁龙845高一倍！
半导体并购大戏开场,半导体整合期逐渐逼近
如何利用PWM调光原理实现三基色灯的各种闪亮效果
家用防盗报警器哪种好
set_input_delay中-add_delay的作用简析
华为p50E与p50的区别是什么
特斯拉持续大降价,打击的却是传统豪车企业
一加5、小米6、荣耀v9谁更强?一加5、小米6、华为荣耀v9性能区别对比评测
你想如何涨薪？那得先问问机器人
一场声势浩大的智能家居行业“大战”如约而至！
智慧物流仓储5G+蓝牙+GPS/北斗RTK人员定位系统解决方案
模数转换器ADC分类及参数
苏宁小Biu智能闹钟拆解：实现动画互动交流
中国汽车信息安全发展现状与趋势