当前位置:首页 > 经验 >

机器学习建模的步骤(机器学习建模的一般流程)

来源:原点资讯(www.yd166.com)时间:2022-10-30 05:22:05作者:YD166手机阅读>>

机器之心转载

来源:知乎

作者:蒋铮尧

本文将简单谈谈基于序列建模的强化学习方法。

大规模生成模型在近两年为自然语言处理甚至计算机视觉带来的巨大的突破。最近这股风潮也影响到了强化学习,尤其是离线强化学习(offline RL),诸如 Decision Transformer (DT)[1], Trajectory Transformer(TT)[2], Gato[3], Diffuser[4]这样的方法,将强化学习的数据(包括状态,动作,奖励和 return-to-go)当成了一串去结构化的序列数据,并将建模这些序列数据作为学习的核心任务。这些模型都可以用监督或自监督学习的方法来训练,避免了传统强化学习中比较不稳定的梯度信号。即便使用复杂的策略提升 (policy improvement) 和估值 (value estimation) 方法,它们在离线强化学习中都展现了非常好的表现。

本篇将简单谈谈这些基于序列建模的强化学习方法,下篇笔者将介绍我们新提出的,Trajectory Autoencoding Planner(TAP),一种用 Vector Quantised Variational AutoEncoder (VQ-VAE)进行序列建模并进行高效的隐动作空间(latent action space)内规划的方法。

Transformer 与强化学习

Transformer 架构 [5] 于 2017 年提出之后慢慢引发了自然语言处理的革命,后续的 BERT 和 GPT-3 逐渐将自监督 Transformer 这个组合不断推向新的高度,在自然语言处理领域不断涌现出少样本 (few-shot) 学习等性质的同时,也开始向诸如计算机视觉的领域不断扩散[6][7]。

然而对于强化学习来说,这个进程似乎在 2021 年之前都不是特别明显。在 2018 年,多头注意力机制也被引入强化学习 [8],这类工作基本都是应用在类似半符号化(sub-symbolic) 的领域尝试解决强化学习泛化的问题。之后这类尝试就一直处于一种不温不火的状态。根据笔者个人的体验,实际上 Transformer 在强化学习上也并没有展现出稳定的压倒性的优势,而且还很难训练。在 20 年我们的一个用 Relational GCN 做强化学习的工作中 [9],我们其实也在背后试过 Transformer,但是基本比传统结构(类似 CNN)差得多,很难稳定训练得到一个能用的 policy。为什么 Transformer 和传统在线强化学习(online RL)的相性比较差还是个开放问题,比如 Melo[10] 解释说是因为传统的 Transformer 的参数初始化不适合强化学习,在此我就不多做讨论了。

2021 年年中,Decision Transformer (DT)和 Trajectory Transformer(TT)的发表掀起了 Transformer 在 RL 上应用的新大潮。这两个工作的思路其实很直接:如果 Transformer 和在线强化学习的算法不是很搭,那要不干脆把强化学习当成一个自监督学习的任务?趁着离线强化学习这个概念也很火热,这两个工作都将自己的主要目标任务锁定为建模离线数据集(offline dataset),然后再将这个序列模型用作控制和决策。

对于强化学习来说,所谓序列就是由状态(state) s ,动作(action)

机器学习建模的步骤,机器学习建模的一般流程(1)

,奖励(reward) r 和价值(value) v 构成的轨迹(trajectory)

机器学习建模的步骤,机器学习建模的一般流程(2)

。其中价值目前一般是被用 return-to-go 来替代,可以被看成是一种蒙特卡洛估计(Monte Carlo estimation)。离线数据集就由这一条条轨迹构成。轨迹的产生和环境的动力学模型(dynamics)以及行为策略(behaviour policy)

机器学习建模的步骤,机器学习建模的一般流程(3)

有关。而所谓序列建模,就是要建模产生产生这个序列的概率分布(distribution),或者严格上说是其中的一些条件概率。

机器学习建模的步骤,机器学习建模的一般流程(4)

栏目热文

如何自己创建机器学习模型(机器学习的一般过程建立一个模型)

如何自己创建机器学习模型(机器学习的一般过程建立一个模型)

作者:Eryk Lewinson 翻译:张睿毅校对:张睿毅 本文约4200字,建议阅读10分钟本文我们主要使用非常知名的...

2022-10-30 05:35:47查看全文 >>

机器学习模型的流程图(机器学习模型建模步骤)

机器学习模型的流程图(机器学习模型建模步骤)

作者 | 陆春晖责编 | Carol出品 | AI科技大本营(ID:rgznai100)背景时间序列类问题是数据分析领域...

2022-10-30 05:59:41查看全文 >>

机器学习模型国内实例(机器学习模型评价实例)

机器学习模型国内实例(机器学习模型评价实例)

据合肥晚报报道 近日,记者从中国科学技术大学获悉,该校化学与材料科学学院罗毅、江俊教授团队与自动化系尚伟伟等合作,成功开...

2022-10-30 05:51:07查看全文 >>

机器学习建模平台(免费的三维建模软件)

机器学习建模平台(免费的三维建模软件)

当前,隐私计算融合了人工智能、密码学、区块链以及计算芯片等一系列软硬件技术,有助于实现多方数据“可用不可见”,已成为打破...

2022-10-30 05:38:55查看全文 >>

机器学习最佳模型(机器学习常见的学习模型)

机器学习最佳模型(机器学习常见的学习模型)

机器学习是计算机科学中最引人入胜的领域之一。它在许多行业都有应用,任何人都可以学习。在这篇博文中,我将为初学者介绍一些排...

2022-10-30 05:52:01查看全文 >>

机器学习模型选型(机器学习模型思路)

机器学习模型选型(机器学习模型思路)

隐私计算作为一个快速发展的领域,其技术复杂发展快,其技术和应用还不被很多期望采用隐私计算的机构和个人熟知,而隐私计算技术...

2022-10-30 05:41:11查看全文 >>

机器学习场景建模(各类机器学习模型适用场景)

机器学习场景建模(各类机器学习模型适用场景)

实时离线一体化概述在讲实时离线一体化概述前,可以先回顾一下之前两位阿里同学的精彩演讲。 离线实时一体化数仓与湖仓一体--...

2022-10-30 05:51:30查看全文 >>

机器学习建模环境是什么(机器学习的模型是什么)

机器学习建模环境是什么(机器学习的模型是什么)

人工智能技术作为产业数字化转型的新兴动力和重点产业,被 《“十四五”数据经济发展规划》列为未来五年推动数字经济发展的重要...

2022-10-30 05:48:59查看全文 >>

途乐5.6省油还是4.0省油(途乐4.0哪个模式最省油)

途乐5.6省油还是4.0省油(途乐4.0哪个模式最省油)

日产途乐这款车进入国内市场的时间并不长,虽然说在名气上不如霸道、陆巡,但途乐的历史并不短。途乐Y2,已经是途乐的第六代车...

2022-10-30 05:46:42查看全文 >>

途乐4.0真实油耗论坛(途乐4.0真实油耗小熊油耗)

途乐4.0真实油耗论坛(途乐4.0真实油耗小熊油耗)

日产途乐Y62是平行进口车市场上非常热门的一款车型,2018年平行进口途乐在全国共销售了2.28万辆,一举超越了丰田普拉...

2022-10-30 05:54:37查看全文 >>

文档排行