当前位置:首页 > 影视动漫 >

模型预测精度太低(模型参数复制后准确率降低)

来源:原点资讯(www.yd166.com)时间:2023-05-11 00:35:03作者:YD166手机阅读>>

这篇文章力图回答三个建模中比较关心问题:1、如何控制模型的复杂度;2、如何构建建模要预测的指标(Y);3、寻找什么样的特征作为解释变量。

有监督模型分为预测类和解析类两种模型。前者多用于商业预测中,后者多用于学术研究和政策效果分析中。

模型预测精度太低,模型参数复制后准确率降低(1)

对于解析类模型,目前大家的观点基本统一,那就是力求β是准确的,至于模型预测是否准确,不做严格要求。至于预测类模型,有很多人认为越准越好。这看似正确的观点其实隐藏着风险。我们先来看一下预测的误差(Err)吧。

模型预测精度太低,模型参数复制后准确率降低(2)

预测误差由两部分组成,分别是来自训练模型时由于模型不够精确导致的预测偏差和实际数据与训练数据之间的抽样方差。对于后者,我一开始也不理解。既然是事实,数据就一套,哪里来的方差呢?这其实是统计学中很基础却难以理解的一个概念,这里面可以拿“平行宇宙”拿做一个比拟。假设想做一个预测胚胎未来成长到18岁时身高的模型,输入变量是基因,输出是未来的身高。此处,我们假设有1万个平行宇宙,也就是同样基因的这个人有1万种活法,都会成长到18岁。根据理论,他们的身高服从正态分布,每个平行空间的这个人身高的均值是常数,但是具体到每个空间里的这个人的身高可能差别很大。比如有一个空间里的这个人在发育期营养充沛,所以长得高;而有的空间中由于各种原因阻碍了发育。我们拥有的训练集那怕是全都拿来,也是从一部分平行空间中随机产出的。由于我们只有基因数据作为输入变量,其他的因素,比如营养条件、突发事件都是不可控的,因此永远存在来自抽样上的Var的影响。

模型预测精度太低,模型参数复制后准确率降低(3)

有人肯定会说用大数据建模,不抽样,是不是就会避免抽样上的方差影响了。其实深入理解“平行宇宙”的概念之后,就没有这种疑问了。因为样本均来自历史,历史上发生的事件无非是从平行宇宙中随机出现的。有一句话“人不能两次踏进同一条河流“,未来经常和历史很像,但是未来永远不会再现历史。我们永远无法穷尽所有的平行宇宙,因此也永远无法提前预知未来出现的具体是哪一个。上帝在掷色子,未来要出现的情况,是从一个分布中随机产生出来的。

Var大小是由事物本身的特点决定的。很多人关心一个模型可以预测有多准,甚至拿模型预测准确度作为衡量一个建模工程师的重要标准,这是很片面的。之前听到有一个做化学建模的人嘲笑做股票量化建模的专家,说他们做的模型预测精度太低了,在他们那个领域是不可能发表出论文的。这其实是研究对象的不可决定因素的方差大小导致的。化学属于自然科学,实验中虽然有随机的不可控因素,但毕竟占比很小。而股票市场如果是强有效的话,可控因素就很少,因此模型本身的Var就很大。当然,股票投资建模的人不会和化学领域预测建模的人一比高低,他只要比行业内的同伴预测精度高就可以了。

理解了Var的由来,下面我们谈一下建模中是否要把模型做的越精确越好。首先我们讨论训练数据中的被预测变量和实际运用时的被预测变量是来自一个总体(独立同分布)的情况。

模型预测精度太低,模型参数复制后准确率降低(4)

首页 12下一页

栏目热文

采样步长和仿真步长(离散系统采样时间和仿真步长)

采样步长和仿真步长(离散系统采样时间和仿真步长)

Simulink仿真Simulink是MATLAB中的一种可视化仿真工具, 基于MATLAB的框图设计环境,是实现动态系...

2023-05-11 00:37:38查看全文 >>

iclr是什么模型(mlr模型是啥)

iclr是什么模型(mlr模型是啥)

萧箫 发自 凹非寺量子位 | 公众号 QbitAI用深度生成模型搞科学发现,是不少AI大牛最近的研究新动向。就在最新一届...

2023-05-11 00:25:50查看全文 >>

iclr知识图谱(如何学好iclr)

iclr知识图谱(如何学好iclr)

雷锋网 AI 科技评论:ICLR 2020 正在进行,但总结笔记却相继出炉。我们曾对 ICLR 2020 上的图机器学习...

2023-05-11 00:35:34查看全文 >>

iclr最新优化算法(lr算法公式)

iclr最新优化算法(lr算法公式)

作者丨GlobalTrack编辑丨极市平台论文链接:https://openreview.net/pdf?id=6kxA...

2023-05-11 00:11:32查看全文 >>

二建报名居住证怎么弄(二建报名后怎么查询报名信息)

二建报名居住证怎么弄(二建报名后怎么查询报名信息)

对于第一次尝试报名考试的我,哪知道报名就给了我半血伤害,实在是不容易,今天我就整理了一下我的报名历程,分享给大家,也让...

2023-05-11 00:09:29查看全文 >>

时序预测常见模型(时序预测强化学习)

时序预测常见模型(时序预测强化学习)

作者 | arit Maitra编译 | 1 1=6来源 | 量化投资与机器学习(ID:Lhtz_Jqxx)0 前言时间...

2023-05-10 23:54:31查看全文 >>

lr性能测试的完整过程(lr做app性能测试)

lr性能测试的完整过程(lr做app性能测试)

对于有若干个复杂的联机交易业务流管理系统的公司,公司内部测试团队对于性能测试实施管理方式都有一套轻量型的工作模式让新手借...

2023-05-10 23:56:29查看全文 >>

lr模型计算简单吗(lr分析方法)

lr模型计算简单吗(lr分析方法)

来源:机器学习算法与自然语言处理本文共6600字,建议阅读13分钟。本文为你带来22道机器学习常见的面试问题和回答。1、...

2023-05-11 00:26:08查看全文 >>

bilstm模型代码详细解释(bilstm算法的优缺点)

bilstm模型代码详细解释(bilstm算法的优缺点)

一、介绍1.1 文章组织本文简要介绍了BiLSTM的基本原理,并以句子级情感分类任务为例介绍为什么需要使用LSTM或Bi...

2023-05-10 23:58:29查看全文 >>

garch模型预测有什么不足(通俗理解garch模型)

garch模型预测有什么不足(通俗理解garch模型)

开始期货的笔记啦~~~~~期货从业太简单了 不写笔记了,包括证券从业两门也太基础了,所以不写了。基金从业虽然也很简单却也...

2023-05-11 00:10:53查看全文 >>

文档排行