当前位置:首页 > 经验 >

机器学习的模型如何落地(一份机器学习模型再训练终极指南)

来源:原点资讯(www.yd166.com)时间:2022-10-30 05:55:56作者:YD166手机阅读>>

这两种方法可能会训练多个模型,会有很多分到底给哪个是一个问题。一般情况会融合一下给一个分,具体操作有两点原则,第一点来源不同的数据一般不统一训练模型,因为数据不同源本来就会对数据就会有一个约束,如APP上数据本来就有前置约束,有一个数据分布约束,而普通方式采集数据是没有分布约束的,分布数据会在训练时对某些数据有优待或忽视,就会体现在某些特征上。

举个例子如覆盖率,一个源覆盖率是10%,另一个是80%,两个源的数据放在一起训练,无论第一个源特征如何好会因为覆盖率直接被干掉。第二个就是源特质导致本身特征强弱,判断一个人有没有逾期在批款是一个很重要的事情,这种数据很少,大多拿到的是申请的数据,这个时候模型出来不能说申请的特征强。我们希望多源都能对模型进行单独训练得到的分再用自策略或stacking进行同步调整,这样每个源带来的信息都能在最终分里体现。

多模型融合的目标第一个就是融合多个模型的结果,使结果更为全面可信。不同模型有不同的特质,部分模型可能更倾向于召回,部分模型可能更倾向于准确,融合能集多家之长。第二个就是融合多源的结果,提高覆盖率。采取stacking的方法,让模型覆盖率突破单一源的覆盖率到多源最大覆盖率。这种方式不仅能融合多种模型效果,还能将源的特征带过来,对于两个源交叉部分判断更为准确,非交叉部分继承对应单模型的效果。

机器学习的模型如何落地,一份机器学习模型再训练终极指南(5)

多模型融合方法,第一个就是从策略上进行融合,第二种就是stacking多模型融合。结果更加稳健,在各大比赛及具体应用上均被证明有较好的效果,在多源融合的时候,将不同模型出来的结果统一到一个量纲上。在客户使用方面一种是直接拿分,有些客户希望将分作为一个子feature进入上层模型。第二种是需要准确率、召回率自己把控。有的用户是直接拿结果,直接用该分数对应的结果对客户进行判断,简单明了。

机器学习的模型如何落地,一份机器学习模型再训练终极指南(6)

接下来介绍下数美天网的客户分/广告行为分,希望通过行为上的数据对客户进行评分。实现方法就是有一个行为计算器,来一个事件计算一个得分,风险是一个逐渐累加的过程,但是评分会越来越稳定。

优点有很多:

(1)计算量小,可线上实时计算。每有一个event事件就更新一次,不用存储事件。

(2)存储空间小,不需要线下存储。

(3)部署简单,只需要对线上event事件接收那里接一个脚本写RNNcell。

(4)人工介入少,因为其为事件纬度,所以特征只需要对事件本身负责,无需太多特征工程,相较于传统的评分模式,该方法只需要线下训完RNN参数后即可上线,无需人工去分析各种case,各种调试加减分等。

几点注意,主要涉及到算法上的妥协:

(1)正常RNN对与样本event长短有定式要求,所以这里需要一个假设:线下训练用一个较长的事件长度,来近似无限长度,一般是100、1000、1500等。

(2)第二个就是很难在RNN这一点做一个妥协,不同人的在相同位置的事件并不代表同一时间的事件,且不同人的前后两次事件在时间域上也不相同。如一个人可能在事件2和3间隔一秒,另一个人可能在前天上午间隔10分钟,但是在RNN期望这个是一样的,解决方法需要从特征层面为模型提供一个参照点。

(3)由于线下有padding过程,而线上并无padding,因此在线下会有bias累加,而在线上没有bias累加,所以需要RNNcell丢掉bias。

机器学习的模型如何落地,一份机器学习模型再训练终极指南(7)

第三个讲一下数美天网—反欺诈,反欺诈主要是反部分人通过一些策略薅羊毛、钻空子。目前业内的通用做法还是分析case,人工做策略,算算术,卡阈值。反欺诈本来是一个黑白对抗的过程,依据历史badcase分析得出策略、阈值滞后于欺诈。我们目前探索采用无监督的方式自动发现异常用户,采用诸DBSCAN,iForest等方法对海量的客户数据进行自动化分析,尽可能节省人的介入和成本。

实际过程采用多维维护,这里有两种更为高效,人工介入更少。一种是SiftScience,一种是Datavisor,SiftScience属于传统机器学习中监督学习的范畴,解决方案是双模型 Live Machine Learning模式,利用通用模型收缩问题的target,对召回的部分会采用特化模型Live Machine Learning实现线上自学习。第二种就是DataVisor,该公司主打的是无监督学习,类DT自动化选择策略,相互互补、相互验证,为客户提供建议。数美方面结合这两者,会有全局/特化监督学习模型,或策略,精确定位欺诈行为及用户,涉及RNN或者策略分析将问题找到。同时会用非监督学习方法探测可能存在的潜在异常行为,这种潜在异常行为可能是判断异常爆发的行为。如黑产先注册一百个账户等有需求自动激活,但是可以通过无监督的方法抓取。

机器学习的模型如何落地,一份机器学习模型再训练终极指南(8)

栏目热文

使用机器学习模型一般步骤(机器学习训练好的模型怎么用)

使用机器学习模型一般步骤(机器学习训练好的模型怎么用)

选自horace博客作者:Horace He机器之心编译编辑:Juniper深度学习是门玄学?也不完全是。每个人都想让模...

2022-10-30 05:52:38查看全文 >>

机器学习建模基础知识(机器学习软件建模)

机器学习建模基础知识(机器学习软件建模)

来源 | 算法进阶责编 | 寇雪芹头图 | 下载于视觉中国前言:机器学习作为人工智能领域的核心组成,是计算机程序学习数据...

2022-10-30 05:32:38查看全文 >>

机器学习建模方法(适合新手的建模软件)

机器学习建模方法(适合新手的建模软件)

在数据的世界中,机器学习已经成为不可或缺的工具。机器学习可以帮助发现隐藏在大量数据中的特定知识。很多时候,这些知识都不是...

2022-10-30 05:49:27查看全文 >>

三种机器学习模型(最新机器学习模型)

三种机器学习模型(最新机器学习模型)

AI 科技大本营按:本文节选自微软亚洲研究院机器学习研究团队刘铁岩、陈薇、王太峰、高飞合著的《分布式机器学习:算...

2022-10-30 05:16:01查看全文 >>

机器学习模型训练步骤(机器学习训练步骤)

机器学习模型训练步骤(机器学习训练步骤)

本文是为机器学习初学者准备的,目的是了解制作一个真正好的机器学习模型所涉及的不同步骤,以及应该避免哪些错误。本文并不是任...

2022-10-30 05:25:41查看全文 >>

机器学习模型步骤(机器学习模型的搭建)

机器学习模型步骤(机器学习模型的搭建)

来源:Datawhale本文约5200字,建议阅读9分钟。本文用手绘图的方式讲解了机器学习模型构建的全流程。周末在家无聊...

2022-10-30 05:29:32查看全文 >>

机器学习建模流程(机器学习模型训练全流程)

机器学习建模流程(机器学习模型训练全流程)

根据3D科学谷的市场观察,从电子商务网站和流媒体平台内置的推荐工具到智能手机中复杂的图像编辑,人工智能和机器学习应用程序...

2022-10-30 05:35:32查看全文 >>

机器学习算法建模过程视频(机器学习 预测算法)

机器学习算法建模过程视频(机器学习 预测算法)

上课的学员至少要有一定的第一性原理计算 或 量子化学计算基础,或者曾经上过初级班的课程。本次培训通知是机器学习专题(6天...

2022-10-30 05:21:56查看全文 >>

机器学习模型怎么软件化(机器学习训练好的模型怎么上线)

机器学习模型怎么软件化(机器学习训练好的模型怎么上线)

SiliconLabs本篇博客文章介绍了物联网结合机器学习(ML)的应用场景,以及如何基于Silicon Labs(亦称...

2022-10-30 05:56:48查看全文 >>

怎么做机器学习模型(机器学习模型演示)

怎么做机器学习模型(机器学习模型演示)

作者 | CloudFactory译者 | 天道酬勤 责编 | 徐威龙出品 | AI科技大本营(ID:rgznai100...

2022-10-30 06:01:45查看全文 >>

文档排行