nvidia 深度学习培训中心( dli )发布了加速数据科学教材套,该研究所与佐治亚理工学院的 polo chau 教授和 prairie view a & m 大学的董锡双教授共同开发。
综合教材涵盖数据收集和预处理、加速数据科学 rapids、可扩展和分布式计算 gpu – 加速机器学习、数据可视化和图形分析等基础和高级主题,并满足了高等教育和研究机构对学生教授数据科学技能的日益增长的需求。
加速数据科学教学包包括以下重点模块:
数据科学与技术导论 rapids
数据收集和预处理( etl )
数据集中的数据伦理和偏见
数据集成和分析
数据可视化
使用 hadoop 、 hive 、 spark 、 hbase 和 rapids 的可扩展计算
基于 dask 和 ucx 的可扩展计算
机器学习:分类
机器学习:聚类和降维
神经网络
图形分析
流数据
基因组学
文本分析
cpu vs gpu – 加速数据科学
数据科学团队、代码备份和版本控制
团队项目(假新闻检测)
该工具包还涵盖了公平性和数据偏见等文化敏感话题,以及来自代表性不足群体的挑战和重要人物。
讲座幻灯片和讲稿、动手实验室、 jupyter 笔记本、解决方案(以私人回购形式持有)、样本数据集、测验/考试问题/答案、 gpu 通过免费 aws 云学分提供的计算资源,以及免费 dli 在线课程/证书都包括在内。讲座视频计划在下一版本中发布。
rapids 数据科学框架是 gpu 加速的库集合,用于在 gpu 上完全执行端到端数据科学管道。使用 rapids 的主要目标是加速典型数据科学工作流的各个部分,从而加速数据准备和机器学习中完整的端到端工作流。
第一个基于 jupyter 笔记本电脑的实验室之一让学生使用 pandas 和 cudf 直接进入 rapids 。 pandas 是一个建立在 python 编程语言之上的数据分析和操作工具,用于执行各种任务(例如:加载、加入、聚合、, cudf 是一个基于 rapids 的 gpu 数据帧库,有助于通过 gpu 加速执行类似功能。
学生们首先要理解如何在 cudf 中创建数据帧对象,为这些对象分配值,然后调用方法并对值应用用户定义的函数。一旦学生掌握了如何使用 cudf 数据帧,他们的任务就是从 kaggle 的netflix 电影数据集中创建一个数据帧。
图 1 。教学包模块 1 的快照: rapids 实验室简介。
从那里,学生们学习如何操作和查询数据,从删除缺失的列和值、查询和查找唯一值,到对数据进行排序、计数和分组。学生将感受到使用 rapids 和 gpu 与教学包中也包含的传统方法相比是多么快速和简单。作为实验室的一项额外任务,最后要求学生使用 cudf 一个热编码将数据集的电影和电视节目标题转换为 0 和 1 的向量,以提高分析数据的准确性。
周教授说:“数据科学揭示了数据在解决社会挑战和大规模复杂问题方面的巨大潜力,几乎涵盖了商业、技术、科学、工程、医疗保健、政府等各个领域。”随着数据在数量、速度和复杂性方面的不断增长,对数据科学人才和技能的需求不断增加,以帮助设计最佳解决方案。”
关于作者
joe bungo 是 nvidia 的深度学习培训中心( dli )项目经理,在那里他能够在大学中使用深度学习和 gpu 加速计算技术,包括课程和教材开发、 dli 大学大使/讲师认证、促进学术生态系统和实践研讨会。此前,他在 arm 公司管理大学项目,并担任应用工程师。乔获得了得克萨斯大学奥斯汀分校计算机科学学位。
首个“机器人雇佣中介公司”成立 做那些目前由人类所承担的繁重活
国内自主品牌紫光芯能THA6x可直接替代英飞凌Infineon TC-387
医疗废物追溯管理系统
CS5366应用设计2lane TypeC转HDMI4K60HZ+PD+U3多功能扩展坞方案参考电路图
自制LED旋律灯diy图解
NVIDIA深度学习加速数据科学教材套满足教学需求
基于多内核的操作系统内生安全技术
液晶技术要完蛋了吗?OLED技术崛起
疫情之下中央空调被质疑 加快了中央空调的产品革新速度
欧洲电信标准化协会(ETSI)正式批准AVS3成为超高清视频编码标准
女神节送什么礼物好?三月八号女神节礼物推荐
空馈相控阵是怎么回事呢
LED平板灯用2835灯珠好不好
ADC和DAC的技术参数
成像系统中的CCD合并:提高信噪比和帧速率
[ 谐振技术 ] 电缆串联谐振试验装置可对变压器进行交流耐压试验吗?
薄膜电容器的滤波作用
DS1847/DS1848查找表的考虑因素
美国政府正在努力驳回Maksim Zaslavskiy的诉讼
如何让超宽带(UWB)信号测试变得简单易行?