当前位置:首页 > 经验 >

机器学习建模的步骤(机器学习建模的一般流程)

来源:原点资讯(www.yd166.com)时间:2022-10-30 05:22:05作者:YD166手机阅读>>

Decision Transformer

DT 的做法是建模一个从过往数据和价值到动作的映射 (return-conditioned policy),也就是建模了一个动作的条件概率的数学期望

机器学习建模的步骤,机器学习建模的一般流程(5)

。这种思路很类似于 Upside Down RL[11],不过很有可能背后的直接动机是模仿 GPT2/3 那种根据提示词(prompt) 完成下游任务的做法。这种做法的一个问题是要决定什么是最好的目标价值

机器学习建模的步骤,机器学习建模的一般流程(6)

没有一个比较系统化的方法。然而 DT 的作者们发现哪怕将目标价值设为整个数据集中的最高 return,最后 DT 的表现也可以很不错。

机器学习建模的步骤,机器学习建模的一般流程(7)

Decision Transformer, Figure 1

对于有强化学习背景的人来说,DT 这样的方法能取得很强的表现是非常反直觉的。如果说 DQN,策略梯度(Policy Gradient)这类方法还可以只把神经网络当成一个能做插值泛化的拟合函数,强化学习中的策略提升、估值仍然是构造策略的核心的话。DT 就完全可以说是以神经网络为核心的了,背后它如何把一个可能不切实际的高目标价值联系到一个合适的动作的整个过程都完全是黑箱。DT 的成功可以说从强化学习的角度来看有些没有道理,不过我觉得这也正是这种实证研究的魅力所在。笔者认为神经网络,或者说 Transformer 的泛化能力可能超乎整个 RL 社群之前的预期。

DT 在所有序列建模方法中也是非常简单的,几乎所有强化学习的核心问题都在 Transformer 内部被解决了。这种简单性是它目前最受青睐的原因之一。不过它黑盒的性质也导致我们在算法设计层面上失去了很多抓手,传统的强化学习中的一些成果很难被融入其中。而这些成果的有效性已经在一些超大规模的实验(如 AlphaGo, AlphaStar, VPT)中被反复证实了。

Trajectory Transformer

TT 的做法则更类似传统的基于模型的强化学习 (model-based RL) 的规划(planning)方法。在建模方面,它将整个序列中的元素都离散化,然后用了 GPT-2 那样的离散的自回归(auto-regressive)方式来建模整个离线数据集。这使得它能够建模任意给定除去 return-to-go 的序列的后续

机器学习建模的步骤,机器学习建模的一般流程(8)

栏目热文

如何自己创建机器学习模型(机器学习的一般过程建立一个模型)

如何自己创建机器学习模型(机器学习的一般过程建立一个模型)

作者:Eryk Lewinson 翻译:张睿毅校对:张睿毅 本文约4200字,建议阅读10分钟本文我们主要使用非常知名的...

2022-10-30 05:35:47查看全文 >>

机器学习模型的流程图(机器学习模型建模步骤)

机器学习模型的流程图(机器学习模型建模步骤)

作者 | 陆春晖责编 | Carol出品 | AI科技大本营(ID:rgznai100)背景时间序列类问题是数据分析领域...

2022-10-30 05:59:41查看全文 >>

机器学习模型国内实例(机器学习模型评价实例)

机器学习模型国内实例(机器学习模型评价实例)

据合肥晚报报道 近日,记者从中国科学技术大学获悉,该校化学与材料科学学院罗毅、江俊教授团队与自动化系尚伟伟等合作,成功开...

2022-10-30 05:51:07查看全文 >>

机器学习建模平台(免费的三维建模软件)

机器学习建模平台(免费的三维建模软件)

当前,隐私计算融合了人工智能、密码学、区块链以及计算芯片等一系列软硬件技术,有助于实现多方数据“可用不可见”,已成为打破...

2022-10-30 05:38:55查看全文 >>

机器学习最佳模型(机器学习常见的学习模型)

机器学习最佳模型(机器学习常见的学习模型)

机器学习是计算机科学中最引人入胜的领域之一。它在许多行业都有应用,任何人都可以学习。在这篇博文中,我将为初学者介绍一些排...

2022-10-30 05:52:01查看全文 >>

机器学习模型选型(机器学习模型思路)

机器学习模型选型(机器学习模型思路)

隐私计算作为一个快速发展的领域,其技术复杂发展快,其技术和应用还不被很多期望采用隐私计算的机构和个人熟知,而隐私计算技术...

2022-10-30 05:41:11查看全文 >>

机器学习场景建模(各类机器学习模型适用场景)

机器学习场景建模(各类机器学习模型适用场景)

实时离线一体化概述在讲实时离线一体化概述前,可以先回顾一下之前两位阿里同学的精彩演讲。 离线实时一体化数仓与湖仓一体--...

2022-10-30 05:51:30查看全文 >>

机器学习建模环境是什么(机器学习的模型是什么)

机器学习建模环境是什么(机器学习的模型是什么)

人工智能技术作为产业数字化转型的新兴动力和重点产业,被 《“十四五”数据经济发展规划》列为未来五年推动数字经济发展的重要...

2022-10-30 05:48:59查看全文 >>

途乐5.6省油还是4.0省油(途乐4.0哪个模式最省油)

途乐5.6省油还是4.0省油(途乐4.0哪个模式最省油)

日产途乐这款车进入国内市场的时间并不长,虽然说在名气上不如霸道、陆巡,但途乐的历史并不短。途乐Y2,已经是途乐的第六代车...

2022-10-30 05:46:42查看全文 >>

途乐4.0真实油耗论坛(途乐4.0真实油耗小熊油耗)

途乐4.0真实油耗论坛(途乐4.0真实油耗小熊油耗)

日产途乐Y62是平行进口车市场上非常热门的一款车型,2018年平行进口途乐在全国共销售了2.28万辆,一举超越了丰田普拉...

2022-10-30 05:54:37查看全文 >>

文档排行