azure 支持 nvidia 的 t4 张量核心图形处理单元( gpus ) ,这是为以经济高效的方式部署机器学习推断或分析工作负载而优化的。使用 apache spark ™ azure synapse analytics 针对 nvidia gpu 的部署进行了优化,加上预安装的库,提供了一种利用 gpu 为各种数据处理和机器学习任务提供动力的简单方法。 gpu-accelerated spark 的 azure synapse 版本内置了对 rapids 加速的支持,与在 cpu 上运行相比,它在标准分析基准上的性能提升至少是在 cpu 上运行的 2 倍,所有这些都没有任何代码更改。
目前, azure synapse 中的 gpu 加速功能可用于 按请求进行私人预览 。
nvidia gpu 加速的好处
nvidia gpu 提供了极高的计算性能,将并行处理引入多核服务器,以加速苛刻的工作负载。 cpu 由几个为顺序串行处理而优化的内核组成,而。另一方面, gpu 具有大规模并行体系结构,由数千个更小、更高效的内核组成,设计用于同时处理多个任务。考虑到 数据科学家将 80% 的时间花在数据预处理上 , gpu s 是加速数据处理管道的关键工具,而不仅仅依赖于包含 cpu 的管道。
构建这些管道的最有效和最熟悉的方法之一是使用 apache spark ™。 apache spark 中 nvidia gpu 加速的好处™ 包括:
更快地完成数据处理、查询和模型训练,从而加快迭代速度,缩短洞察时间。
相同的 gpu 加速基础架构有助于消除 spark 和 ml / dl 框架对复杂决策和调优的需求。
需要更少的计算节点;降低基础架构成本,并有助于避免与规模相关的问题。
nvidia 和 azure synapse 协作
nvidia 和 azure synapse 合作为数据科学家和数据工程师带来 gpu 加速。这种集成将使客户能够自由地使用 nvidia gpu for apache spark ™ 无代码更改且体验与 cpu 群集相同的应用程序。此外,这一合作将继续增加对最新 nvidia gpu 和网络产品的支持,并为希望通过数据工程、数据准备和机器学习的单一管道提高生产率和节约成本的大数据客户提供持续增强。
apache spark ™ azure synapse 中的 3 。 0 gpu 加速
而 apache spark ™ 提供开箱即用的 gpu 支持,配置和管理所有必需的硬件以及安装所有低级库需要付出大量的努力。当您尝试启用 gpu 的 apache spark™ 时 在 azure synapse 中,您会立即注意到一个非常简单的用户体验:
幕后繁重的工作 :为了有效使用 gpu ,库用于与主机上的图形卡进行通信。安装和配置这些库需要时间和精力。 azure synapse 负责预安装这些库,并通过与 gpu apache spark™ 集成,在计算节点之间建立所有复杂的网络池。在短短几分钟内,您就可以不再担心设置问题,而是专注于解决业务问题。
优化的 spark 配置 :通过 nvidia 和 azure synapse 之间的合作,我们为支持 gpu 的 apache spark 提供了最佳配置™ 游泳池。因此,您的工作负载以最佳方式运行,为您节省了时间和运营成本。
包含数据准备和 ml 库 :启用 gpu 的 apache spark ™ azure synapse 中的池内置了两个流行的库,支持更多功能:
rapids 用于数据准备 : rapids 是一套开源软件库和 api ,用于完全在 gpu 上执行端到端的数据科学和分析管道,以大幅提高速度,尤其是在大型数据集上。 rapids apache 加速器 spark ™ 构建在 nvidia cuda 和 ucx 之上,支持 gpu 加速 sql 、数据帧操作和 spark 洗牌。由于没有利用这些加速的代码更改,您还可以加速依赖 linux 基金会 三角洲湖 或微软 hyperspace 索引的数据管道(这两种索引都是在 back 中可用的)。
hummingbird 用于加速对传统 ml 模型的评分和推理。 hummingbird 是一个用于将传统 ml 运算符转换为张量的库,其目标是加速传统机器学习模型的推理(评分/预测)。
图 1 : spark azure synapse 中的数据准备和 ml 。
当运行 nvidia 决策支持( nds )测试查询时(源自行业已知基准测试),超过 1 tb 的拼花地板数据,我们的早期结果表明 gpus 可以在不改变任何代码的情况下,将总体查询性能提高近 2 倍。
图 2 :总体性能结果。
联系我们 如果您有兴趣被添加到私人预览列表中。
使用 azure synapse 中提供的有限时间免费数量 尝试新功能。
图 3 :当前 azure synapse 产品。
关于作者
alexander spiridonov 是 nvidia 的研究员、开发人员和数据分析师,担任解决方案架构师。最近,他领导了 nvidia 和微软之间的几个联合项目,涉及使用最新 gpu 技术优化 azure 管道。
rahul potharaju 是微软 azure 数据集团的主要大数据研发经理,致力于 azure synapse 分析。他领导了几项开源工作,包括 spark 的 hyperspace 和。 net 。他的作品在顶级会议上广泛发表,并在 sigmm 和 tomm 等场所获奖。此前,他在微软的灰色系统实验室( gsl )担任研究员。他获得了计算机科学博士学位。毕业于普渡大学与西北大学微软研究和计算机科学硕士学位的联合工业合作。他是摩托罗拉工程卓越奖和普渡钻石奖的获得者。 rahul 的工作已经被微软内部的几个商业团体采纳,并赢得了微软值得信赖的可靠性。
电流模式控制倍流整流器ZVS PWM全桥DC-DC变换器的研
2018国产品牌汽车发展现状
Link Visual 2.0:让普通摄像头轻松拥有AI能力
如何自修三星手机锂电池
用法多样的览邦F9 FreeBuds Plus多模式耳机,能满足用户不同的需求
如何在Azure Synapse上构建NVIDIA GPU
室外光缆如果冷接会出现哪些不良后果
智能巡检机器人在温州铁路南站上岗
开车14年没驾照!老司机中的战斗机,14年驾龄竟然无驾照!10月驾考新规出炉你怕吗?
同步电机的极数是啥意思?2极、4极、6极、8极有什么区别?
设计抗混叠滤波器的三个指导原则
小米5X与MIUI9发布会看点汇总、发布会在线直播观看,小米5X配置即将揭晓
小米 MIX2/魅族 PRO7/荣耀 V10/一加 5T评测,到底哪一款才是你的菜?
MAX2044 2.3GHz至4.0GHz SiGe混频器,
C语言拆解循环 以空间换时间
10分钟掌握EV1527无线模块编解码
如何测试红外传感器以确保其正常工作
第十章 OLED(硬件IIC)
5G速度与4G速度一致?5G的真正用途在哪
面对2019年半导体产业“寒冬”,瑞萨电子如何应对?