找回密码
 注册
Simdroid-非首页
查看: 396|回复: 0

[07.原创分享] 【技术】DTEmpower核心功能技术揭秘(7) - ROD基于回归分析的...

[复制链接]
发表于 2022-7-19 10:26:35 | 显示全部楼层 |阅读模式 来自 江苏南京
本帖最后由 天洑软件 于 2022-7-19 10:33 编辑

概述
《DTEmpower核心功能技术揭秘》系列的文章围绕着如何提升机器学习模型的精度,介绍了AIOD、AIAgent、autoML等核心技术。其中AIOD异常点检测技术融合了数十种常见的异常检测算法,用以识别数据集中的异常点;AIAgent和autoML是对训练算法的提升。

本系列的第七篇文章将继续围绕如何让算法逼近模型上限的问题,介绍一种基于回归分析的异常点检测技术-Regression Based Outlier Detection(ROD)技术。不同于传统的异常检测算法,ROD方法是在模型训练的基础上后处理的进行异常点剔除的方法。所以,如何选择合适的异常点剔除个数需要较多的测试,以寻找到最适用于当前测试集的模型。

该技术模块集成于DTEmpower中的每个回归算法节点,能够帮助用户在剔除“潜在异常点”的同时,提高了模型的精度和泛化能力。

图1  DTEmpower中每个算法节点都集成有ROD异常点检测功能,用户只需要打开对应开关按钮“activate_remove_malform”,并配置异常点剔除的个数“remove_malform_top_N”和迭代次数“remove_malform_times”,即可开启算法节点的ROD异常点检测功能

基于DTEmpower的ROD建模实战
1. 船舶兴波阻力回归分析① 数据集介绍:方案中采用的数据集是经SHIPFLOW软件计算兴波阻力的数据集,该数据集中含有5个输入参数,目标参数是兴波阻力eval_CWTWC。
② 建模方法:采用图2所示的建模方法,对输入和输出之间的映射关系进行回归分析建模。该方法采用了GBDT、Random Forest和ExtraTrees训练算法进行回归分析建模。然后对比在激活ROD和不激活ROD的情况下,模型的R2、MAE等指标。

图2 基于DTEmpower软件平台的船舶兴波阻力回归分析,选取了GBDT、RandomForest和ExtraTrees算法建立输入输出变量的映射关系。其中ROD异常点检测功能在算法节点的属性配置界面,用户需要结合“activate_remove_malform” “remove_malform_top_N”和“remove_malform_times”3个参数进行搭配使用



③ 实验分析:针对本数据集,可以直观的发现部分样本的eval_CWTWC变量量级较大,因此在使用异常点检测模块之前,使用DTEmpower的【变量范围】节点删除量级过大的数据(结果见图3)。而图4所示的试验结果也证明了ROD在清除异常点、提高模型精度的有效性。


图3 基于DTEmpower软件平台进行数据过滤前后的数据分布,可以看到过滤后的数据集整体基本上已经处于一个合理的数据分布状态


图4 随着ROD功能模块不断的删除数据集中的异常点,可以看到3种算法模型的R2指标(越大模型精度越高)呈现出明显的上升趋势,而其MAE指标呈现明显的下降趋势。这表明ROD功能模块在清除异常点、提高模型精度的优秀性能


2. 风机测点结构应力快速评估
① 数据集介绍:某头部风机制造商提供的结构应力评估数据集,含有15维输入特征,共2400个样本,目标是快速评估测点的结构应力。② 建模方法:根据图5所示的建模流程,采用随机森林算法进行模型训练,然后对比在激活ROD和不激活ROD的情况下模型的精度指标。


图5 基于DTEmpower软件平台的风机测点结构应力快速评估建模方案,方案中选取2种常见算法进行模型的训练。DTEmpower提供了一站式的数据建模解决方案,通过简单的节点拖拽即可搭建完整的建模流程,其中ROD功能更是集成于每一个算法节点,帮助用户构建高精度的机器学习模型


③ 实验分析:实验结果如图6所示。

图6 随着ROD功能模块不断的删除数据集中的异常点,可以直观的看到模型的R2指标(越大模型精度越高)呈现明显的上升趋势(左图),MAPE指标(越小模型精度越高)呈现出明显的下降趋势(右图)。这表明ROD功能模块在清除异常点、提高模型精度的有效性


总结

数据和特征决定了模型的上限,数据中的异常点会对模型的精度造成严重的影响。而DTEmpower中的ROD技术直接以提高模型的精度为目标,寻找并剔除样本中的“潜在异常点”。

实际工业场景中的应用案例和对比实验,也证明了ROD功能模块在挖掘工业数据集中的“潜在异常点”方面的优秀性能,可高效地辅助用户构建高精度模型。

DTEmpower软件平台提供的数据挖掘、特征工程和智能的异常点检测等一站式解决方案,不仅可以帮助用户快速、便捷地构建精度较高的数据模型,其技术的创新应用势必会给工业数据研究者持续带来福音。



您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|小黑屋|联系我们|仿真互动网 ( 京ICP备15048925号-7 )

GMT+8, 2024-4-20 10:11 , Processed in 0.033745 second(s), 11 queries , Gzip On, MemCache On.

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表