机器学习是我们这个时代最具变革性的技术,它具有从太空探索到财务,医学和科学的巨大应用。据估计,未来对机器学习专家的需求将会不断增加,今年估计增长约60%。
最重要的是,该行业在过去几年中经历了巨大的变革。以前,要成为一名机器学习专家,你需要有一个博士学位(或一些高学历),但现在已经不是这样了。由于大型科技公司如alphabet(谷歌母公司),ibm,微软等公司的参与,现在任何人都可以更轻松地开始机器学习。
这不,youtube上的大咖siraj raval就发起了一个挑战赛:#100daysofmlcode。
什么是#100daysofmlcode?
这是向机器学习开发人员(专家或新手)发出的挑战,要求在接下来的100天内每天至少花一小时学习和构建机器学习模型。内容有易到难,由此也可以看得出博主avik-jain的用心良苦。
其中一名叫avik jain的机器学习爱好者,创建了一个100-days-of-ml-code的项目,很快引起了大家的注意,截至今日,该项目已经获得了11570个「star」以及1993个「fork」(github地址:https://github.com/avik-jain/100-days-of-ml-code)。
更不可思议的是,他还创建了该项目的中文版
从他的github主页可以看到他共创建了6个项目:
目前作者的100天计划,已经进行到第54天,已有的内容包括:
有监督学习
● 数据预处理
● 简单线性回归
● 多元线性回归
● 逻辑回归
● k近邻法(k-nn)
● 支持向量机(svm)
● 决策树
● 随机森林
无监督学习
● k-均值聚类
● 层次聚类
这里我们通过介绍第一天的数据预处理来深入了解下这个项目
数据预处理
第一步导入库
importnumpyasnpimportpandasaspd
第2步:导入数据集
dataset=pd.read_csv('data.csv')x=dataset.iloc[:,:-1].valuesy=dataset.iloc[:,3].values
第3步:处理丢失数据
fromsklearn.preprocessingimportimputerimputer=imputer(missing_values=nan,strategy=mean,axis=0)imputer=imputer.fit(x[:,1:3])x[:,1:3]=imputer.transform(x[:,1:3])
第4步:解析分类数据
fromsklearn.preprocessingimportlabelencoder,onehotencoderlabelencoder_x=labelencoder()x[:,0]=labelencoder_x.fit_transform(x[:,0])
创建虚拟变量
onehotencoder=onehotencoder(categorical_features=[0])x=onehotencoder.fit_transform(x).toarray()labelencoder_y=labelencoder()y=labelencoder_y.fit_transform(y)
第5步:拆分数据集为训练集合和测试集合
fromsklearn.cross_validationimporttrain_test_splitx_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2,random_state=0)
第6步:特征量化
fromsklearn.preprocessingimportstandardscalersc_x=standardscaler()x_train=sc_x.fit_transform(x_train)x_test=sc_x.fit_transform(x_test)
通过6步完成数据预处理。此例子中用到的数据地址:https://github.com/avik-jain/100-days-of-ml-code/blob/master/datasets/data.csv
可以看出他每天的计划都包含一张学习图片,操作补流程、相应的代码,以及用到的数据
简单线性回归 | 第2天
多元线性回归 | 第3天
逻辑回归 | 第4天
Aspinity推出RAMP平台 帮助“永远在线”传感设备超长待机
三角形减压起动控制线路原理
离线语音技术给智能照明带来更多选择
IIC面试问题汇总
vscode快捷键设置
100天让你学会机器学习的项目!
技术新知:硅的“终结者”,石墨烯是神奇材料吗?
高压开关柜常见故障解析
英飞特电子EUM-BG系列驱动电源在体育场馆的应用
工业首100G ,通信新领航
接地电弧对配电网安全运行的危害
视比特机器人完成A+轮过亿元融资,中金资本旗下基金领投
e络盟开售博通紧凑型光谱仪,进一步扩充测试与分析产品阵容
LED调光器是怎么调光的?
Altium Designer使用问题:难以编辑和选择多边形铺铜
汽车电子及电子连接器制造企业合兴股份发布2022第一季度报告
防护服血液穿透的仪器特征和主要用途是什么
三轴缠绕机设备就是应用在生产热风管上
华为Mate 60 Pro内部还有哪些信息值得关注?
城市道路照明智能化_无线路灯控制系统设计