近日,数据科学网站kdnuggets发布 2018年数据科学和机器学习工具调查结果。下面一起来看看调查结果
最受青睐的分析、数据科学、机器学习工具
图1:2018年的最受青睐的工具及其在2016 - 2017年调查中的份额
*为了更有效的比较,kdnuggets重新计算了2016年,2017年问卷调查结果,排除了受访者“单一”的选项。
下表是前11名的工具排行,其中每个工具至少有20%的份额:
表1:kdnuggets2018年顶级分析/数据科学/ ml软件调查
在这里,“2018%share”是指使用该工具的受访者百分比,“%change 2018 vs 2017”是表示2017年调查的变化 ,用绿色表示增长幅度达到10%以上,红色表示下降幅度达到10%以上。
今年,每名受访者的平均使用工具数量为7个,略高于2017年投票中的6.75(不包括单一工具回复)。
与2017年软件投票相比,今年前11名中,出现了一个新面孔keras,keras取代了去年knime的位置。下面是针对以上数据的一些观察发现:
python消灭了r
到2017年,python已经拥有超过50%的份额,如今已经将其份额提高到66%,而在我们此次的调查中,r份额首次出现下降,而且是一下子降到50%以下。
rapidminer激增
在过去的几次调查中,rapidminer一直是最大的数据科学平台之一,它的份额从2017年的33%大幅增加到50%左右。
这样的增长速度是否是因为厂商的推广带来的呢?rapidminer创始人兼总裁ingo mierswa的表示:
与许多供应商一样,rapidminer通过多种渠道向用户推广kdnuggets问卷调查,之前我们也做过同样的推广,但与之前不同的是,首先今年得到了更好的回应,超过400位用户亲自回复了邮件,更重要的是,最近一年里,rapidminer的月活跃用户增长了300% ,因此可以向更多的用户发送了关于kdnuggets问卷调查的邮件。
sql是稳定的
sql(包括spark sql和sql to hadoop工具在内)在最近的3次调查中仍然占有约40%的份额。所以,如果你是一位有抱负的数据科学家,学习sql吧,它可能会对你很有用!
趋势
在调查中,使用率超过2%的新工具是spark sql,拥有11.7%的份额。
下表列出了2018年份额增长20%以上的工具,并在2018年达到至少3%的份额。
表 2:使用率增幅最大的主要分析/数据科学/机器学习工具
整合
值得一提的是,在2017年拥有2%以上份额的56个工具中,有19个(仅约三分之一)工具在2018年份额有所增加,而有37个的份额下降。结合datawatch收购angoss,minitab收购salford等近期的收购案可以表明,数据科学平台的整合即将展开。
2018年拥有3%以上份额,却在2018年份额下降25%以上的工具见下表:
表 3:使用率跌幅最大的主要分析/数据科学工具
深度学习工具
使用深度学习工具的受访者比例保持稳定,2018年有33%的受访者表示使用深度学习工具,2017年为32%,2016年为18%。 谷歌tensorflow依然是最主要的平台。
顶级深度学习工具排名如下:
● tensorflow, 29.9%
● keras, 22.2%
● pytorch, 6.4%
● theano, 4.9%
● other deep learning tools, 4.9%
● deeplearning4j, 3.4%
● microsoft cognitive toolkit (prev. cntk), 3.0%
● apache mxnet, 1.5%
● caffe, 1.5%
● caffe2, 1.2%
● tflearn, 1.1%
● torch, 1.0%
● lasagne, 0.3%
大数据工具:hadoop被抛弃
2018年,约33%的开发者使用hadoop或spark等大数据工具 - 与2017年大致相同,但hadoop使用率显著下降,下降幅度高达35%,以下是详细信息:
编程语言
python似乎不仅超过了r,还包括大多数其他语言,目前python和sql,java和c / c ++几乎保持在相同水平。自从kdnuggets 进行这项调查以来,r第一次出现了下降。其他语言同样也有所下降。
以下是按热门度排序的主要编程语言:
● python, 65.6% (was 59.0% in 2017), 11% up
● r, 48.5% (was 56.6%), 14% down
● sql, 39.6% (was 39.2%), 1% up
● java, 15.1% (was 15.5%), 3% down
● unix, shell/awk/gawk, 9.2% (was 10.8%), 15% down
● other programming and data languages, 6.9%, (was 7.6%), -9% down
● c/c++, 6.8%, (was 7.1%), 3% down
● scala, 5.9%, (was 8.3%), 29% down
● perl, 1.0% (was 1.9%), 46% down
● julia, 0.7% (was 1.2%), 45% down
● lisp, 0.3% (was 0.4%), -25% down
● clojure, 0.2% (was 0.3%), -38% down
● f, # 0.1% (was 0.5%), -73% down
完整结果和 3 年来的趋势
以下表格展示了调查结果的细节(此处仅列出排名前 20 的工具):
基于NiosⅡ的电能质量监测系统设计
下一代AI芯片性能翻倍?新技术可以模仿人脑来节省能源
粮食镉大米重金属检测仪的功能特点说明
华为小米增速快 2018年第一季度智能手机最新报告出炉
英国政府拨出150亿改善5G服务 VR时代即将到来
2018年数据科学和机器学习工具调查
5G模组的马拉松谁能笑到最后
电工最实用的经验公式
华为荣耀9、努比亚Z17、小米6、OPPOR11都是颜值担当你会怎么选?华为荣耀9、努比亚Z17、小米6、OPPOR11区别对比评
机电伺服系统一般由哪些环节组成_机电伺服系统的主要特点
5G给企业带来什么样的变革
手机无线充电需要打开什么功能
THR焊点机械强度测试
谷歌AI挑战ChatGPT:Apprentice Bard
英特尔公布新一代处理器的性能数据
常用光纤激光器简介
基于单电感非隔离PN831X芯片系列的LED照明电源驱动方案
沪电全力备战 5G建网,并规划年底完成黄石二厂建设
如何完成Mysql主从复制的在线配置
台湾5G频谱最终拍卖总价约合328.61亿人民币 创下全球单一频宽最高价