🚇调优指南
一. 设置合适的验证集比例

由于验证集是由整体数据集切分得来的,剩下的数据就是训练集,所以验证集和训练集就是零和关系。
验证集变大那么训练集就会变小,如果训练集太小那么可能会导致模型拟合不足甚至性能不佳。反之,验证集如果太小,它可能无法准确反映现实世界数据的真实分布。 这可能会导致过度拟合,即模型在训练集上表现出色,但在验证集上表现不佳,更重要的是,在未见过的数据上表现不佳。
二. 自动机器学习-最大尝试时长(秒)

由于资源限制,目前自动机器学习-最大尝试时长(秒) 最高支持600秒。
三. 自动特征工程-最大实验次数

由于资源限制,目前自动特征工程-最大实验次数最高支持10次。
四. 特征生成模式

如果高级特征生成得较少,那么可以选择更有创造力模型,这会让算法更主动地寻找高级有效特征,为模型提供更多信息,从而得到更好的模型效果。
如果高级特征生成得较多,那么可以选择更有精确模型,这会让算法更严谨地寻找高级有效特征,降低模型过拟合的风险,提高模型的鲁棒性。
五. 深度特征搜索
特征搜索是一个无限空间内进行的,例如:特征A和B组合成一个C的特征,特征C和A还可以组合成D特征等等,那么开启深度搜索可能得到更深层次的特征。

六. 数据配置
检查数据是一个非常重要的步骤,平台上会根据整体的数据从统计学上给出一个初步判断,但从实际物理意义上不一定是完全正确的。检查可以从两个方面。
列特征:特别需要注意的是,id类有多种,唯一标识的id列需要忽略否则可能造成过拟合。对于时间序列的任务,时间列索引和时间组标识需要配置好。
是否类别特征:由于特征捆绑中类别和数值特征的方式不同,以及对机器学习模型也有较大的影响,所以请确认特征是否为类别特征。

最后更新于
这有帮助吗?