机器学习过程中的通用步骤

我们在进行机器学习过程中一个通用步骤主要有以下几个方面：
1）明确问题
实现什么目标
需要什么数据这个问题：如果公司有大量的数据，可以确定最终的目标是什么；如果没有则需要通过目标来确定数据集
2）获取数据
自己公司内部的数据（项目上使用），如数据库等
开源数据集，如：uci、googletrends、kaggle、aws公用数据集、imagenet、minist、麻省理工大学人脸识别、歌曲数据库、图像处理coco、视频数据集youtube等等
3）数据格式整理
往往我们的数据大多都是数据库文件数据，并不是里面所有的维度信息都是需要用到的，所以这里需要进行相应的处理。
把收集到的数据转换为txt，csv，xsl等的形式，方便机器学习库进行读取
原始数据的所有的变量量化，进一步转变为含数据（data）和标签（labels）的数据框形式，方便建模。
4）数据预处理
偏差检测：即检查导致偏差的因素，并识别离散值与噪声值。
数据清洗：即处理缺失值与噪声。
数据标准化
5）数据拆分
将数据集随机打乱按照7:3或者8比2或者其他拆分为训练集和测试集。
6）根据场景采用不同的合适机器学习模型
考虑因素：
数据的维度大小，数据的质量和数据的特征属性；
可以利用的计算资源；
所在的项目组对该项目的时间预计；
手上的数据能应用在哪些项目中；
选择的依据如果要进行降维操作，那么你可以使用主成分分析方法（pca）；
如果要快速进行手写数字预测，那么你可以使用决策树或者逻辑回归；
如果要进行数据分层操作，那么你可以使用分层聚类。
7）设置损失函数loss
0-1损失函数也就是说，当预测错误时，损失函数为1，当预测正确时，损失函数值为0。该损失函数不考虑预测值和真实值的误差程度。只要错误，就是1。
平方损失函数是指预测值与实际值差的平方。
绝对值损失函数该损失函数的意义和上面差不多，只不过是取了绝对值而不是求绝对值，差距不会被平方放大。
对数损失函数
hinge loss
8）设置学习率
对于不同大小的数据集，调节不同的学习率
在每次迭代中调节不同的学习率
9）测试，检验
综上整个大致流程如图所示：

把衣服变成“显示器”,有望在不远的将来变为现实
浅谈ACE人工智能区块链
新型超低损耗大有效面积光纤U3LA就成为新时代超高速骨干传送网的主要选择
浅析射频/微波CAE软件工具与设计匹配
联想研发的新款VR头显，不需要连接手机电脑
机器学习过程中的通用步骤
高性能射频调制器促成多载波通信发送器设计
三星Galaxy P系列手机曝光，或将是三星首个搭载屏下指纹识别的智能手机
两款ADAU1701电路应用方案
TDA6101Q各引脚功能及电压
基于接触电阻的压力传感器阵列技术
苹果Apple Watch明年可预购将强力刺激终端穿戴产品
2023年AR设备销量同比增长258%，雷鸟创新连续三季度蝉联市场第一
电阻率怎么算_电阻率的单位换算
广西广电网络发布了前三季度运营业绩报告
厉害了Word米！小米笔记本12月23日发布：支持4G网络+可插SIM卡
PCB大厂IBIDEN青柳发生火灾
高端家电十年蜕变为美好生活打开了新空间
配电室SF6环境智能监测系统：实现高效、智能的配电室环境管理
SAR与Σ-Δ型ADC架构的对比,多路复用应用面临的挑战