预约成功

1、机器学习新手常犯的错误有哪些——当然要使用默认损失函数
一开始,均方误差作为一个损失函数是一个很好的默认选择。然而,当需要处理实际问题时,这种没有特殊设计的损失函数很少能给出最优解。
进行欺诈检测。为了与您的真实业务目标相一致,您需要按照欺诈造成的美元损失金额的比例惩罚假阴性类别。使用均方误差可以给你一个好的结果,但它不会是目前最好的结果。
重要提示:每次都要自定义损失函数,以便与目标紧密匹配。
2、机器学习新手常犯的错误有哪些——对所有问题使用一种算法/方法
许多人在完成本教程后开始在所有情况下使用相同的算法。这很常见。他们认为这个算法的效果和其他算法一样。这种假设是非常糟糕的,最终会导致非常糟糕的结果。
解决方案是让数据为您选择模型。预处理数据后,将其馈送到几个不同的模型以查看结果。你会知道哪些型号最合适,哪些不合适。
重要提示:如果你总是使用相同的算法,这可能意味着你的结果不是最好的。
3、机器学习新手常犯的错误有哪些——忽略异常值
异常值有时很重要,有时可以忽略不计,这取决于具体情况。以收入预测为例。有时收入会突然发生很大变化。这有助于观察这一现象并了解其原因。有时异常值是由某种错误引起的,因此您可以安全地忽略它们并从数据中删除它们。
从模型的角度来看,一些模型对异常值更敏感。以AdaBoost为例,它将异常值作为重要的例子,赋予它们很大的权重,而决策树则可能简单地将异常值视为一种错误的分类。
要点:每次工作前,仔细观察数据,确定是否应忽略异常值。如果没有,请仔细观察。
4、机器学习新手常犯的错误有哪些——循环特性处理不当
一天24小时,一周7天,一年12个月,风向是周期性的。许多新手机器学习工程师不知道他们可以通过将这些特性转换为表示形式来保存信息,例如23:00和0:00。
例如,处理一个小时的最佳方法是计算它的sin和COS,这样就可以将周期性特征表示为圆的(x,y)坐标。在用这种方式表示的时间里,23:00和0:00是数值中相邻的两个数字,仅此而已。
重要提示:如果在研究中遇到周期性特征,但没有将其转换为表示形式,则将向模型中添加垃圾数据。
5、机器学习新手常犯的错误有哪些——非标准L1/L2正则化
L1和L2正则化惩罚大系数,这是正则化线性或logistic回归的常用方法。然而,许多机器学习工程师在使用正则化之前并没有意识到标准化特征的重要性。
假设您有一个线性回归模型,其特征之一是“交易金额”。如果交易金额为美元,其系数应为美元系数的100倍。这可能会导致偏差,使模型惩罚实际较小的特征。为了避免这一问题,我们需要对这些特征进行标准化,使得正则化等于所有特征。
以上就是《机器学习新手常犯的错误有哪些?想做好人工智能就不要犯错》的全部内容,从文字我们能看到,许多人在完成本教程后开始在所有情况下使用相同的算法。这很常见,环球网校小编提醒您,如果你想知道更多人工智能知识,可以点击下方资料下载链接。