当前位置:首页 > 经验 >

机器学习的模型如何落地(一份机器学习模型再训练终极指南)

来源:原点资讯(www.yd166.com)时间:2022-10-30 05:55:56作者:YD166手机阅读>>

本文根据数美科技李田老师在2018年 DataFun AI Talk中分享的《机器学习在数美业务上的落地》编辑整理而成。


导读:今天分享的内容有数美科技在机器学习领域用到的技术以及落地应用碰到的一些问题,落地应用和paper上面区别很大,有时限于工程问题会对其进行功能上的改进或者是一些妥协。首先讲机器学习三大领域,然后介绍数美业务中数美天信、数美天网、数美天净业务中用到的机器学习方法和所做的一些妥协。


01

机器学习三大领域

机器学习的模型如何落地,一份机器学习模型再训练终极指南(1)

机器学习分为三大领域,首先是监督学习,主要应用场景有分类场景和评分场景。在业务中有很多业务需求,如需要对一个人行为进行评分来判断是否拦截。数美业务有:天信 - 可信度评分,天网 - 客户评分/广告行为分,天净 - 涉政、涉黄、涉恐、涉暴的内容识别与拦截。数美各项业务中常见的算法有逻辑回归、决策树,以及当下比较流行的xgboost,分类场景的大*器,各项kaggle比赛的宠儿,大量应用于生产实践上。还有就是一些深度学习算法,如DNN、CNN,以及与序列学习相关的RNN。

第二个领域就是无监督学习,这在反欺诈中是比较重要的技术。很多时候跟黑产对抗的时候,黑产变化我们也得变化,但是反欺诈的成本远远高于黑产的成本,因此很难用监督学习的方法跟上黑产的脚步。异常点监测、离群分析、关联挖掘提供了一种更好的非人工方式,正常人在互联网里无论是社交行为还是购买行为、对话等有自己的一个passion,黑产有一种不同于正常人的行为,是很罕见、奇怪的做法,可以通过技术将其抓取出来。主要的业务有反欺诈、反作弊,最基础的聚类算法,在各项聚类中作为baseline——K-means,目前业内较为流行的发现异常/离群簇算法,且不会对簇形状有要求——DBSCAN,还有Iforest是高效的异常点发掘算法,将数据用一棵树来表针,还能区分哪些叶子节点算异常节点哪些不算。

机器学习的模型如何落地,一份机器学习模型再训练终极指南(2)

第三个领域是增强学习,目前还没有太多应用,目前比较流行的算法有Q-learning及其各项衍生、MCTS 蒙特卡洛树搜索、RHGA滚动遗传算法。这几类算法有一个约束就是它需要一个playreview,游戏AI、自动驾驶、智能机器人的playreview是很好定义的。游戏怎么玩都是知道,自动驾驶的目标、使用范围都是可以抽象的。但是如果用在反欺诈、漏洞分析就会存在局限性,如何将过程变为程序可理解,以及过程中存在很多随机性行为导致很难去学习。

--

02

在数美业务上落地

机器学习的模型如何落地,一份机器学习模型再训练终极指南(3)

接下来讲三个领域具体在数美业务中的落地,首先是数美天信。

数美天信本质是用多方数据为人进行信用背书,激励人在社会上各个方面构建良好的信用记录,并使之成为人的信用资本。可信度的架构如上图所示,将数据提供方提供的数据进行结构化,有一种方法将所有提供方的数据结构放入多方来源结构数据表,然后进行统计策略上分析,或者监督学习的方法进行模型制定,将策略和模型进行线上部署,当客户对一个人进行查询时通过选择模型策略对用户进行信用评估。原先评分卡做法就是IOE、WOE、AR等,我们有所保留有所突破,也会用同样的方法来判断对目标的贡献,也有自己的模式做这些东西。

传统模式评分卡分为三步做特征、选特征、训模型,做特征主要是某段时间你干了什么事,某一类事情干了多少次。然后进入选特征,尽量将特征做的少一点、简单一点便于可控,主要特征有IP、WOE、行为数据等,还有依据Xgboost生成树的节点选择特征。最后依据选出的特征做模型。做特征是一个开放的过程,你需要去猜测那些特征可能对我们的评分有贡献,然后在选特征时测试那些对我们实际有用的特征。由于这个过程人的介入太多了,所以采用序列化模式做这些事情。构造这个人的事件序列,如金融中一个例子,你先注册、申请、批款,将这种以序列的方式进行模型训练,就不用考虑那么多特征,还有一些其他优点,如部署方面的优点,后续会介绍到。

机器学习的模型如何落地,一份机器学习模型再训练终极指南(4)

首页 123下一页

栏目热文

使用机器学习模型一般步骤(机器学习训练好的模型怎么用)

使用机器学习模型一般步骤(机器学习训练好的模型怎么用)

选自horace博客作者:Horace He机器之心编译编辑:Juniper深度学习是门玄学?也不完全是。每个人都想让模...

2022-10-30 05:52:38查看全文 >>

机器学习建模基础知识(机器学习软件建模)

机器学习建模基础知识(机器学习软件建模)

来源 | 算法进阶责编 | 寇雪芹头图 | 下载于视觉中国前言:机器学习作为人工智能领域的核心组成,是计算机程序学习数据...

2022-10-30 05:32:38查看全文 >>

机器学习建模方法(适合新手的建模软件)

机器学习建模方法(适合新手的建模软件)

在数据的世界中,机器学习已经成为不可或缺的工具。机器学习可以帮助发现隐藏在大量数据中的特定知识。很多时候,这些知识都不是...

2022-10-30 05:49:27查看全文 >>

三种机器学习模型(最新机器学习模型)

三种机器学习模型(最新机器学习模型)

AI 科技大本营按:本文节选自微软亚洲研究院机器学习研究团队刘铁岩、陈薇、王太峰、高飞合著的《分布式机器学习:算...

2022-10-30 05:16:01查看全文 >>

机器学习模型训练步骤(机器学习训练步骤)

机器学习模型训练步骤(机器学习训练步骤)

本文是为机器学习初学者准备的,目的是了解制作一个真正好的机器学习模型所涉及的不同步骤,以及应该避免哪些错误。本文并不是任...

2022-10-30 05:25:41查看全文 >>

机器学习模型步骤(机器学习模型的搭建)

机器学习模型步骤(机器学习模型的搭建)

来源:Datawhale本文约5200字,建议阅读9分钟。本文用手绘图的方式讲解了机器学习模型构建的全流程。周末在家无聊...

2022-10-30 05:29:32查看全文 >>

机器学习建模流程(机器学习模型训练全流程)

机器学习建模流程(机器学习模型训练全流程)

根据3D科学谷的市场观察,从电子商务网站和流媒体平台内置的推荐工具到智能手机中复杂的图像编辑,人工智能和机器学习应用程序...

2022-10-30 05:35:32查看全文 >>

机器学习算法建模过程视频(机器学习 预测算法)

机器学习算法建模过程视频(机器学习 预测算法)

上课的学员至少要有一定的第一性原理计算 或 量子化学计算基础,或者曾经上过初级班的课程。本次培训通知是机器学习专题(6天...

2022-10-30 05:21:56查看全文 >>

机器学习模型怎么软件化(机器学习训练好的模型怎么上线)

机器学习模型怎么软件化(机器学习训练好的模型怎么上线)

SiliconLabs本篇博客文章介绍了物联网结合机器学习(ML)的应用场景,以及如何基于Silicon Labs(亦称...

2022-10-30 05:56:48查看全文 >>

怎么做机器学习模型(机器学习模型演示)

怎么做机器学习模型(机器学习模型演示)

作者 | CloudFactory译者 | 天道酬勤 责编 | 徐威龙出品 | AI科技大本营(ID:rgznai100...

2022-10-30 06:01:45查看全文 >>

文档排行