2019年,你还想做数据科学家吗?

人工智能的火爆带动了对数据科学家的大量需求。看到急缺的岗位和高薪,谁能不动心呢?可是你确定想好要成为一名数据科学家了吗?你知道成为一名ds,需要具备什么技能吗?那就请准备好,下面我们要开车了!
你可能已经从媒体铺天盖地的报道中,了解到数据科学家这个抬头非常火。
根据uipath数据显示,2018年12113个岗位争夺ai人才,数据科学家需求量排名第二。
于是很多人萌生了入行、或者转行做数据科学家的念头。那么接着就带来一个问题:如何成为一名数据科学家呢?
接下来,由《getting started with sql》(o’reilly)和《learning rxjava》(packt) 二书的作者、美国西南航空的企业顾问thomas nield,献上这份《2019年数据科学家成长指南》。
废话不多说,马上进入战斗。
round 1:不考证完全没问题。当然考了也可以
不要把工作后宝贵的时间,浪费在考证上。「数据科学」不过是「商业分析」的一个分支,而且通常学校的知识总是和当前的科技前沿脱节。如果真的想学建议去coursera或者可汗学院自学。
当然,证书多了终归是好事嘛。如果你非要去学校考证,建议考物理或者运筹学的研究生。我了解到很多一流的数据科学家,基本都是这俩专业毕业的。
花个几年时间研究生毕业后,明天就会更好?反正有个数据科学初创公司的创始人说:
博士学历不重要;硕士学历无可无不可;学士毕业必须有,因为用人单位最低要求就是大学毕业。
https://towardsdatascience.com/do-you-need-a-graduate-degree-for-data-science-8e3d0ef39253
round 2:成为一个数据科学家真的需要了解这么多领域吗?
这是一张6年前的图,里面甚至连tensorflow都没有。
而且我觉得,数据科学发展到现在,已经非常碎片化和细分化了。根本没必要搞的这么复杂。
round 3:我应该学哪门语言呢?需要从linux入手吗?
数据科学家是一个跨平台物种,操作系统不重要。
语言的话,scala早就过气了,r解决数学问题非常爽,python才是万能的。一条python在手,数据科学跟我走。
不过需要了解一些库,类似pandas用来处理数据帧,matplotlib用来创建图表。
round 4:学会python很关键!学不会也没关系
python学起来超简单。不过,你可能也不用非得学会python。
作为人类,要善用工具。数据科学不止眼前的脚本和机器学习,还有远方的数据可视化。这个时候显然tableau更好用,也更美观。
tableau
不过涉及到数据清洗、管理、转换、加载等,就需要用到alteryx了,鼠标拖拽就能搞定。
新智元点评:所以买个tableau就可以称为数据科学家了?
从淘宝买个激活码岂不是要变成二手科学家?
round 5:明明靠excel和ppt就能搞定,为什么非要学python呢?
首先,能为你的简历增加光环。
其次,之前也说过,python简直万能。通过jupyter notebook逐步完成每个数据分析阶段,让每一步都可视化,就像你正在创建一个可以与他人分享的故事。
划重点:毕竟,沟通和讲故事才是数据科学的重要组成部分。
数据科学和软件工程很大程度可以划等号。不同之处在于,数据科学必须有数据,软件工程就不一定了。
wiki网页是一个非常好的数据来源,抓取网页并使用beautiful soup解析他们,就得到了大量非结构化文本数据。
round 6:懂nosql行,不懂也没事
非机构化数据才能激发我们的想象力,结构化数据只能固化我们的逻辑能力。
如今像谷歌facebook这样的大厂,拥有大量的非机构化数据,他们就像裁判一样,「数据科学」的定义权掌握在他们手里。剩下我们这些运动员,只好用无聊的sql咯。
利用非结构化数据,大厂可以通过挖掘用户内容、邮件、故事,用于广告或者其他途径。
而我们也可以利用非结构化数据,对社交媒体上的帖子进行,做一些nlp应用比如聊天机器人。
nosql更擅长存储这类数据。但是对于数据科学家来说,nosql也不是必须要掌握的,除非做数据工程师。而且现在apache kafka比nosql更火,所以你也知道该学什么了。
有的人可能不知道,数据科学家分为两种角色。数据工程师使用生产系统并帮助使数据和模型可用;而数据科学家则负责机器学习以及数学建模。
这个时候,利用朴素贝叶斯算法,就可以去预测文本的分类。我打算建议从具有均值和标准差的正态分布开始。也许用z分数和线性回归计算一些概率或两个。
round 7:学会线性代数很重要。不会的话……也行吧
传统智慧认为线性代数是许多数据科学的基石,因此掌握线性代数很重要。将矩阵相乘和相加(称为点积),将一直伴随着你。
听起来很无聊对吧,但这就是机器学习在做的事情。当你进行线性回归或构建自己的神经网络时,你将使用随机权重值进行大量矩阵乘法和缩放。
不过实际上,你可能也不需要学习线性代数,因为有像tensorflow和 scikit-learn这样的框架和库,帮你解决掉最枯燥乏味的线代部分。
呃,实际上,也别用tensorflow,用keras。
round 8:棒。总之都能用excel实现,所以会用excel就可以被称为数据科学家了?
机器学习通常在做两个任务:回归,或者分类。但技术上来说,分类就是回归。
决策树、神经网络、支持向量机、逻辑回归、线性回归都执行某种形式的曲线拟合。
所以,我们也可以不负责任的说:机器学习只是回归。神经网络实际上只是具有一些非线性函数的多层回归。图像识别也是回归。
round 9:为什么大家现在不怎么谈论算法了?
因为这些优化问题已经在很长一段时间内得到了令人满意的解决,而且这些方法在很早以前也没太多人讨论。
运筹学已经提供了许多机器学习使用的优化算法。同时也为常见“ai”问题提供了许多解决方案。
ai炒作重新点燃了机器学习及其解决的问题类型:图像识别,自然语言处理,图像生成等。
机器学习,深度学习…今天被炒作的任何东西,通常都不能解决离散优化问题,人们尝试过,但效果非常不理想。
所以有人说深度学习是否已经达到了极限,ai寒冬又双来了。
round 10:ai玩游戏已经超神,接下来会取代人类工作吗?
首先我们要明确一点。人们已经找到了一些巧妙的回归应用,例如计算围棋和象棋最优移动(离散优化也可以做),或自动驾驶的汽车计算转向的方向。
但是,回归只能将这么多的应用组合起来,完成单一任务。
现在我们好好思考一下,你会担心职业星际争霸选手威胁到你的工作吗?你觉得打星际,和你打excel之间,有多少重叠的交集呢?
如果你连人类星际选手都不怕,你为什么还怕一个回归呢?ai玩星际再强,它也只会玩星际。
round 11:一句话解释什么是数据科学家,让你爷爷也能听懂
数据科学的界限正在模糊。它可以是任何东西,也可以什么都不是。成为数据科学家你需要掌握很多东西,但就算没掌握也不会致命。
天哪❗️
不过幸好,这个世界上还是有人能说明白到底什么是数据科学和数据科学家的。一句话解释数据科学家:
数据科学家是比软件工程师更懂统计、比统计学家更懂软件工程的一个人。
round 12:已疯
所以,2019年,你还想做数据科学家吗?

触景无限入选中关村高企协榜单:人工智能行业“潜力10强企业”
什么是颜色识别传感器 案列解析颜色识别传感器的工作原理
连续纤维3D打印技术的优势及应用介绍
微软分割式摄像头系统专利,可避免可折叠双屏设备的相机凸起问题
基于云的虚拟开发平台加速物联网应用软件开发
2019年,你还想做数据科学家吗?
DS21Q4x, DS215x, and DS21x5y T
CCD视觉检测设备的优势与缺陷是什么
学技术 | ST NFC近场通信晶片ST21NFCD在手机上的应用
工业智能化席卷全球 本土机器人制造企业铆足了干劲
e2studio开发三轴加速度计LIS2DW12(1)----轮询获取加速度数据
灵动MM32 MCU助力全国大学生智能汽车竞赛
高通骁龙三款新U跑分成绩曝光,像牙膏厂看齐?
目前市面上最小的Linux卡片电脑Quark介绍
霍尔开关电路
贴片排阻有方向吗_排阻有正负极吗
5G 基带芯片竞争激烈,6 家芯片供应商分庭抗礼
集成模拟前端MAX2991的功能特点及适用范围
区块链促进企业可持续性发展的8个显著的方式介绍
redis数据分片集群模式介绍