使用NVIDIA CUDA流顺序内存分配器

大多数 cuda 开发人员都熟悉 cudamalloc 和 cudafree api 函数来分配 gpu 可访问内存。然而，这些 api 函数长期以来一直存在一个障碍：它们不是按流排序的。在本文中，我们将介绍新的 api 函数 cudamallocasync 和 cudafreeasync ，它们使内存分配和释放成为流式有序操作。
在本系列的第 2 部分中，我们通过共享一些大数据基准测试结果来强调这一新功能的好处，并为修改现有应用程序提供代码 mig 定量指南。我们还介绍了在多 gpu 访问和 ipc 使用环境中利用流顺序内存分配的高级主题。这一切都有助于提高现有应用程序的性能。
流排序效率
下面左边的代码示例效率低下，因为第一个 cudafree 调用必须等待 kernela 完成，所以它会在释放内存之前同步设备。为了提高运行效率，可以预先分配内存，并将其调整为两种大小中的较大值，如右图所示。
cudamalloc(&ptra, sizea);kernela<>(ptra);cudafree(ptra); // synchronizes thedevice before freeing memorycudamalloc(&ptrb, sizeb);kernelb<>(ptrb);cudafree(ptrb);
cudamalloc(&ptr, max(sizea, sizeb));kernela<>(ptr);kernelb<>(ptr);cudafree(ptr);
这增加了应用程序中的代码复杂性，因为内存管理代码与业务逻辑分离。当涉及到其他图书馆时，问题就更加严重了。例如，考虑 kernela 由库函数启动的情况，而不是：
libraryfunca(stream);cudamalloc(&ptrb, sizeb);kernelb<>(ptrb);cudafree(ptrb); void libraryfunca(cudastream_t stream) { cudamalloc(&ptra, sizea); kernela<>(ptra); cudafree(ptra); } 这对于应用程序来说要提高效率要困难得多，因为它可能无法完全查看或控制库正在执行的操作。为了避免这个问题，库必须在第一次调用该函数时分配内存，并且在库被取消初始化之前永远不会释放内存。这不仅增加了代码的复杂性，而且还会导致库占用内存的时间超过需要的时间，从而可能会阻止应用程序的另一部分使用该内存。
有些应用程序通过实现自己的自定义分配器，进一步提前分配内存。这为应用程序开发增加了大量复杂性。 cuda 旨在提供一种低工作量、高性能的替代方案。
cuda 11 。 2 引入了流式有序内存分配器来解决这些类型的问题，并添加了 cudamallocasync 和 cudafreeasync 。这些新的 api 函数将内存分配从同步整个设备的全局作用域操作转移到流顺序操作，从而使您能够将内存管理与 gpu 工作提交结合起来。这消除了同步未完成 gpu 工作的需要，并有助于将分配的生命周期限制为访问它的 gpu 工作。考虑下面的代码示例：
cudamallocasync(&ptra, sizea, stream);kernela<>(ptra);cudafreeasync(ptra, stream); // no synchronization necessarycudamallocasync(&ptrb, sizeb, stream); // can reuse the memory freed previouslykernelb<>(ptrb);cudafreeasync(ptrb, stream); 现在可以在函数范围内管理内存，如下面启动 kernela 的库函数示例所示。
libraryfunca(stream);cudamallocasync(&ptrb, sizeb, stream); // can reuse the memory freed by the library callkernelb<>(ptrb);cudafreeasync(ptrb, stream); void libraryfunca(cudastream_t stream) { cudamallocasync(&ptra, sizea, stream); kernela<>(ptra); cudafreeasync(ptra, stream); // no synchronization necessary} 流有序分配语义
所有常用的流排序规则都适用于 cudamallocasync 和 cudafreeasync 。从 cudamallocasync 返回的内存可以被任何内核或 memcpy 操作访问，只要内核或 memcpy 被命令在分配操作之后和解除分配操作之前以流顺序执行。解除分配可以在任何流中执行，只要命令在分配操作之后以及在 gpu 上对该内存的所有流进行所有访问之后执行。
实际上，流顺序分配的行为就像分配和自由是内核一样。如果 kernela 在流上生成有效缓冲区，并且 kernelb 在同一流上使其无效，则应用程序可以按照适当的流顺序在 kernela 之后和 kernelb 之前自由访问缓冲区。
下面的示例显示了各种有效用法。
auto err = cudamallocasync(&ptr, size, streama);// if cudamallocasync completes successfully, ptr is guaranteed to be// a valid pointer to memory that can be accessed in stream order assert(err == cudasuccess); // work launched in the same stream can access the memory because// operations within a stream are serialized by definition kernel<>(ptr); // work launched in another stream can access the memory as long as// the appropriate dependencies are added cudaeventrecord(event, streama);cudastreamwaitevent(streamb, event, 0);kernel<>(ptr);// synchronizing the stream at a point beyond the allocation operation// also enables any stream to access the memory cudaeventsynchronize(event);kernel<>(ptr); // deallocation requires joining all the accessing streams. here,// streamd will be deallocating.// adding an event dependency on streamb ensures that all accesses in// streamb will be done before the deallocation cudaeventrecord(event, streamb);cudastreamwaitevent(streamd, event, 0); // synchronizing streamc also ensures that all its accesses are done before// the deallocation cudastreamsynchronize(streamc);cudafreeasync(ptr, streamd); 图 1 显示了在前面的代码示例中指定的各种依赖关系。如您所见，所有内核都被命令在分配操作之后执行，并在释放操作之前完成。
图 1 在流之间插入依赖关系的各种方法，以确保访问使用 cudamallocasync.
内存分配和释放不能异步失败。由于调用 cudamallocasync 或 cudafreeasync （例如，内存不足）而发生的内存错误会通过调用返回的错误代码立即报告。如果 cudamallocasync 成功完成，则返回的指针将保证是指向内存的有效指针，可以按照适当的流顺序安全访问。
err = cudamallocasync(&ptr, size, stream);if (err != cudasuccess) { return err;}// now you’re guaranteed that ‘ptr’ is valid when the kernel executes on streamkernel<>(ptr);cudafreeasync(ptr, stream); cuda 驱动程序使用内存池实现立即返回指针的行为。
内存池
流顺序内存分配器将存储池的概念引入 cuda 。内存池是以前分配的内存的集合，可以重新用于将来的分配。在 cuda 中，池由 cudamempool_t 句柄表示。每个设备都有一个默认池的概念，可以使用 cudadevicegetdefaultmempool 查询其句柄。
您还可以显式创建自己的池，直接使用它们，或者将它们设置为设备的当前池，并间接使用它们。创建显式池的原因包括自定义配置，如本文后面所述。当没有显式创建的池被设置为设备的当前池时，默认池将充当当前池。
在没有显式池参数的情况下调用 cudamallocasync 时，每次调用都会从指定的流推断设备，并尝试从该设备的当前池分配内存。如果池内存不足， cuda 驱动程序将调用操作系统以分配更多内存。对 cudafreeasync 的每次调用都会将内存返回到池中，然后可在后续 cudamallocasync 请求中重新使用该内存。池由 cuda 驱动程序管理，这意味着应用程序可以在多个库之间实现池共享，而无需这些库相互协调。
如果使用 cudamallocasync 发出的内存分配请求由于相应内存池的碎片而无法提供服务， cuda 驱动程序通过将池中未使用的内存重新映射到 gpu 虚拟地址空间的连续部分来对池进行碎片整理。重新映射现有池内存而不是从操作系统分配新内存也有助于降低应用程序的内存占用。
默认情况下，在事件、流或设备上的下一次同步操作期间，池中累积的未使用内存将返回到操作系统，如下面的代码示例所示。
cudamallocasync(ptr1, size1, stream); // allocates new memory into the poolkernel<>(ptr);cudafreeasync(ptr1, stream); // frees memory back to the poolcudamallocasync(ptr2, size2, stream); // allocates existing memory from the poolkernel<>(ptr2);cudafreeasync(ptr2, stream); // frees memory back to the poolcudadevicesynchronize(); // frees unused memory accumulated in the pool back to the os// note: cudastreamsynchronize(stream) achieves the same effect here 在池中保留内存
在某些情况下，将内存从池返回到系统可能会影响性能。考虑下面的代码示例：
for (int i = 0; i < 100; i++) { cudamallocasync(&ptr, size, stream); kernel<>(ptr); cudafreeasync(ptr, stream); cudastreamsynchronize(stream);} 默认情况下，流同步会导致与该流的设备关联的任何池将所有未使用的内存释放回系统。在本例中，这将在每次迭代结束时发生。因此，没有内存可供下次 cudamallocasync 调用重用，而必须通过昂贵的系统调用来分配内存。
为了避免这种昂贵的重新分配，应用程序可以配置一个释放阈值，以使未使用的内存在同步操作之后保持不变。释放阈值指定池缓存的最大内存量。在同步操作期间，它会将所有多余的内存释放回操作系统。
默认情况下，池的释放阈值为零。这意味着池中使用的内存在每次同步操作期间都会释放回操作系统。下面的代码示例演示如何更改释放阈值。
cudamempool_t mempool;cudadevicegetdefaultmempool(&mempool, device);uint64_t threshold = uint64_max;cudamempoolsetattribute(mempool, cudamempoolattrreleasethreshold, &threshold);for (int i = 0; i < 100; i++) { cudamallocasync(&ptr, size, stream); kernel<>(ptr); cudafreeasync(ptr, stream); cudastreamsynchronize(stream); // only releases memory down to “threshold” bytes} 使用非零释放阈值可以从一个迭代到下一个迭代重用内存。这只需要简单的簿记，并使 cudamallocasync 的性能独立于分配的大小，从而显著提高了内存分配性能（图 2 ）。
图 2 使用 cudamallocasync 设置和不设置释放阈值（与 0 。 4mb 性能相关的所有值，阈值分配）。
池阈值只是一个提示。在相同的内存池中［0］可以隐式释放内存分配，以使内存分配成功。例如，对 cudamalloc 或 cumemcreate 的调用可能会导致 cuda 从与同一进程中的设备关联的任何内存池中释放未使用的内存来为请求提供服务
这在应用程序使用多个库的情况下尤其有用，其中一些库使用 cudamallocasync ，而另一些库不使用 cudamallocasync 。通过自动释放未使用的池内存，这些库不必相互协调以使各自的分配请求成功。
cuda 驱动程序自动将内存从池重新分配给不相关的分配请求时存在限制。例如，应用程序可能使用不同的接口（如 vulkan 或 directx ）来访问 gpu ，或者可能有多个进程同时使用 gpu 。这些上下文中的内存分配请求不会自动释放未使用的池内存。在这种情况下，应用程序可能必须通过调用 cudamempooltrimto 显式释放池中未使用的内存。
size_t bytestokeep = 0;cudamempooltrimto(mempool, bytestokeep); bytestokeep 参数告诉 cuda 驱动程序它可以在池中保留多少字节。任何超过该大小的未使用内存都会释放回操作系统。
通过内存重用提高性能
cudamallocasync 和 cudafreeasync 的 stream 参数有助于 cuda 高效地重用内存，避免对操作系统进行昂贵的调用。考虑下面的琐碎代码示例。
cudamallocasync(&ptr1, size1, stream);kernela<>(ptr1);cudafreeasync(ptr1, stream);cudamallocasync(&ptr2, size2, stream);kernelb<>(ptr2);
图 3 同一流中的内存重用。
在这个代码示例中， ptr2 是在 ptr1 被释放后按流顺序分配的。 ptr2 分配可以重用用于 ptr1 的部分或全部内存，而无需任何同步，因为 kernela 和 kernelb 在同一个流中启动。因此，流排序语义保证 kernelb 在 kernela 完成之前不能开始执行和访问内存。通过这种方式， cuda 驱动程序可以帮助降低应用程序的内存占用，同时提高分配性能。
cuda 驱动程序还可以跟踪通过 cuda 事件插入的流之间的依赖关系，如以下代码示例所示：
cudamallocasync(&ptr1, size1, streama);kernela<>(ptr1);cudafreeasync(ptr1, streama);cudaeventrecord(event, streama);cudastreamwaitevent(streamb, event, 0);cudamallocasync(&ptr2, size2, streamb);kernelb<>(ptr2);
图 4 跨流的内存重用，它们之间有事件依赖关系。
由于 cuda 驱动程序知道流 a 和 b 之间的依赖关系，因此它可以重用 ptr1 为 ptr2 使用的内存。流 a 和 b 之间的依赖关系链可以包含任意数量的流，如下面的代码示例所示。
cudamallocasync(&ptr1, size1, streama);kernela<>(ptr1);cudafreeasync(ptr1, streama);cudaeventrecord(event, streama);for (int i = 0; i < 100; i++) { cudastreamwaitevent(streams[i], event, 0); // streams[] is a previously created array of streams cudaeventrecord(event, streams[i]);}cudastreamwaitevent(streamb, event, 0);cudamallocasync(&ptr2, size2, streamb);kernelb<>(ptr2); 如有必要，应用程序可以基于每个池禁用此功能：
int enable = 0;cudamempoolsetattribute(mempool, cudamempoolreusefolloweventdependencies, &enable); cuda 驱动程序还可以在没有应用程序指定的显式依赖项的情况下，有机会重用内存。虽然这种启发式方法可能有助于提高性能或避免内存分配失败，但它们会给应用程序增加不确定性，因此可以在每个池的基础上禁用。考虑下面的代码示例：
cudamallocasync(&ptr1, size1, streama);kernela<>(ptr1);cudafreeasync(ptr1);cudamallocasync(&ptr2, size2, streamb);kernelb<>(ptr2);cudafreeasync(ptr2); 在此场景中， streama 和 streamb 之间没有明确的依赖关系。但是， cuda 驱动程序知道每个流执行了多远。如果在第二次调用 streamb 中的 cudamallocasync 时， cuda 驱动程序确定 kernela 已在 gpu 上完成执行，则它可以重用 ptr1 用于 ptr2 的部分或全部内存。
图 5 跨流的机会主义内存重用。
如果 kernela 尚未完成执行， cuda 驱动程序可以在两个流之间添加隐式依赖项，以便 kernelb 在 kernela 完成之前不会开始执行。
图 6 通过内部依赖关系重用内存。
应用程序可以按如下方式禁用这些启发式：
int enable = 0;cudamempoolsetattribute(mempool, cudamempoolreuseallowopportunistic, &enable);cudamempoolsetattribute(mempool, cudamempoolreuseallowinternaldependencies, &enable); 概括
在本系列的第 1 部分中，我们介绍了新的 api 函数 cudamallocasync 和 cudafreeasync ，这两个函数使内存分配和释放成为流顺序操作。使用它们可以避免通过 cuda 驱动程序维护的内存池对操作系统进行昂贵的调用。
在本系列的第 2 部分中，我们分享了一些基准测试结果，以展示流顺序内存分配的好处。我们还提供了一个逐步修改现有应用程序的方法，以充分利用此高级 cuda 功能。
关于作者
vivek kini 是 nvidia 的高级系统软件工程师。他致力于 cuda 驱动程序，特别关注内存管理功能。他旨在简化 cuda 应用程序的内存管理，而不牺牲它们所需的性能。
jake hemstad 是一个高级开发工程师 nvidia ，他在开发高性能 cuda c ++软件加速数据分析。他同样关心开发高质量的软件，正如他实现最佳的 gpu 性能一样，也是现代 c ++设计的倡导者。在 nvidia 之前，他参加了明尼苏达大学的研究生院，在那里他与桑迪亚国家实验室在任务并行 hpc 运行时间和稀疏线性求解器上工作。

我们该怎样确认比特币的法律地位
康佳特推出10款搭载最新英特尔嵌入式处理器的COM Express Type6模块
Windows下编译工具CMake的安装和最简使用
新兴业态涌现人工智能产业集群初步形成
2638A数据采集系统/数字多用表的基本功能和特性分析
使用NVIDIA CUDA流顺序内存分配器
母线弧光保护在中低压电力系统中的应用
投影机的输出端子
爱立信预计全球5G用户在未来6年内将达到26亿
4名股东发行股份、换债券及支付现金购买其持有高仕电研100%股权
采用J2ME技术的手机地图服务系统设计
车载红外光幕系统无触摸屏的解决方案
荷兰出新规！ASML部分DUV***将禁运，国产半导体设备发展别无选择
植物生理生态监测系统的功能特点是什么
软驱基本结构及软盘控制器
2018年镜头出货量九强名单曝光
电流检测集成电路阻止过损伤-Current-Sense IC
快讯：王俊凯解除与英特尔合作关系腾讯向股东派发京东股票意味着啥中国稀土集团有限公司成立
Piccolo USB工具
中国电信的线下渠道已经成为主力军