编者按:上mooc、读教科书、一遍又一遍地刷题……在毕业前,如果你对未来还是这样一幅态度,那你几乎就是在虚度光阴。虽然数据科学家是未来最“性感”的工作,但要成为“性感”的人,枯坐灯前当个书呆子可不成……
在毕业前,也许你是个勤奋的人,一直很努力地自学教材,也会上在线课程充实自我,但临近毕业,现在的你在做些什么呢?数据科学家是一份令人望而生畏的工作,一方面,毕业生不知道自己水平是否足以胜任;另一方面,面试人员往往也很难从毕业生身上看出他们的全部实力。
但每个人都有走出象牙塔的一天,为了让自己在社会上更有实力,你准备好迎接挑战了吗?如果你的梦想是当一名数据科学家,下面是dataoptimal创始人john sullivan给你的5项技能建议。实践是进入数据科学世界的最佳方式,而掌握热门的必备技能将使你在职场上面面俱到。
1.数据清理
不要以为其他分析师会帮你处理好一切,作为一名数据科学家,如果你刚接手一个新项目,你可以把项目总用时里的80%用来做数据清理,这是科学的。无论是多高级的数据团队,数据清理始终是从业人员心中的巨大痛点,换个角度看,这也是你的机遇。如果你能证明自己在数据清理上面经验丰富,那你的价值实现指日可待。
为了锻炼这方面的能力,记得找一些混乱的数据集,多多练习,多多积累。
如果你用的编程语言是python,pandas是个好库;如果是r语言,dplyr包也是个不错的选择。换句话说,语言和库只是工具,但你用它们做的事是一样的:
导入数据
添加多个数据集
检测缺失值
检测异常值
填补缺失值
保证数据质量
2.探索性数据分析
数据科学的另一个重要技能是探索性数据分析(eda)。当有人扔给你一份数据时,你对这份数据完全陌生,又没有足够的业务背景,会不会感觉无从下手?如果你什么都不管,直接把数据喂给各种模型,却发现效果不好,因为你没有好的特征,那么你可能需要的是数据探索。
eda是对已有数据在尽可能少的假定下进行探索,通过各种可视化方法探明数据结构、规律的一种数据分析方法,它能让你建立起对数据的直觉。从效果上来看,eda允许分析师从数据中得出结论以推动业务影响,这个影响可以是客户群分析,也可以是季节性销售趋势。让自己和公司获得意料之外的惊喜,这是eda的魅力。
对于eda,python用户可以用pandas和matplotlib,r语言用户可以用ggplot2包。一个精通eda的人需要熟练这些技巧:
为数据分析制定问题
表明趋势
表明变量间的协变
用可视化结果(散点图、直方图等)有效地传达结果
3.交互式数据可视化
交互式数据可视化包括仪表板等工具。这些工具对数据科学团队以及更多面向业务的终端用户都很有用。仪表板允许数据科学团队进行协作,并一起商议见解。更重要的是,它们为面向业务的客户提供了一种交互式工具,后者往往专注于战略目标,而非技术细节。一般情况下,数据科学项目的最终呈现应该是以仪表板的形式出现的。
对于python用户,bokeh和plotly库非常适合创建仪表板。对于r用户,请务必查看rstudio的shiny软件包。无论是那种,你的仪表板上都要遵循:
包含和客户需求相关的各项指标
创建有用的feature
布局合理(如f-pattern可以在客户扫视时,让他们记住大部分内容)
切换演示文稿频率合理
生成报告或其他自动操作
4.机器学习
机器学习是数据科学的重要组成部分。当然,这不是说你现在就得开始学习构建复杂的深度学习模型,事实上,大多数工作都不需要你有太高的机器学习知识水平。线性回归、逻辑回归,会用这些简单算法就够了,而且这些东西也更容易让你的领导理解,理解是沟通的基础。
如果要在这方面积累经验,记得做客户留存预测、贷款预测、欺诈检测这类项目。这不是说预测植物品种这类问题不好,只是前者能帮你积累更多业务常识。
如果你是python用户,用scikit-learn库。对于r用户,用caret包。同样的,下面是必须要呈现的内容:
为什么要选这个特定模型
把数据拆成训练集和测试集(k倍交叉验证),避免过拟合
选择正确的评估指标(auc、adj-r2、混淆矩阵等)
调整超参数
5.沟通
沟通是所有工作的必备技能。优秀数据科学家和普通数据科学家的区别在于前者能有效传达结果,而后者不能。无论展示的模型有多花哨,如果你看到客户后连嘴巴都张不开,他们又怎么会支持你的成果?ppt和笔记本电脑是沟通必备工具,你也可以用jupyter notebook或rmarkdown文件和客户交流项目。
确保了解你的目标听众是谁,向高管们展示和向机器学习专家展示完全不是一码事。一定要掌握这些技能:
了解目标受众
提供相关可视化
ppt不要过长
ppt演示流畅
结果和业务影响紧密结合(降低成本?增加收入?)
辛辛苦苦做完项目后,不要把文件随便乱丢,要养成收集、记录的好习惯。你可以用github pages把文件免费转成静态网页,为你的潜在雇主提供了解你的资料。
最后,只要是入了数据的门,无论短时间内岗位是不是称心如意,接受了这份工作就保持积极态度,继续不断尝试项目,快乐工作,快乐找更好的工作!
华为合作罗德与施瓦茨共同测试5G V2X无线电技术
硫化氢检测仪的主要作用及使用注意事项
教学会议一体机是怎样满足教学使用需求的?
苏宁极物自造的智能空调正式上线 宣告全面杀入大家电领域
喷雾干燥机数据采集远程监控系统解决方案
John Sullivan给你的5项技能建议,实践是进入数据科学世界的最佳方式
小米Note3什么时候上市?最新消息:小米Note3发布日期确定,配置、颜值都很给力,攒钱吧!
三大运营商5G承载标准不统一
福建正式启动红色文化VR/AR体验馆
USB接口电路的原理图分析
T-SQL语句中流程控制语句的系统讲解
TIA Portal版本和CPU中程序版本在上传时的兼容性
在PCB布局中如何高效的使用光耦合器?
大数据给安防带来深刻变革 安防的范围正逐渐扩大
失联卫星被找回,“草根”对科学界做出大贡献
制造业生产持续恢复_5月制造业PMI为50.6%
铁塔公司采用新技术实现电信联通100MHz共享载波的5G共建共享
机器人行业的Windows系统D:PLOY介绍
亿光科技推出全新一代多样化LED节能系列产品
三星电子拒绝确认是否有亚马逊索赔一事