模型预测精度太低（模型参数复制后准确率降低）

这篇文章力图回答三个建模中比较关心问题：1、如何控制模型的复杂度；2、如何构建建模要预测的指标（Y）；3、寻找什么样的特征作为解释变量。

有监督模型分为预测类和解析类两种模型。前者多用于商业预测中，后者多用于学术研究和政策效果分析中。

模型预测精度太低,模型参数复制后准确率降低(1)

对于解析类模型，目前大家的观点基本统一，那就是力求β是准确的，至于模型预测是否准确，不做严格要求。至于预测类模型，有很多人认为越准越好。这看似正确的观点其实隐藏着风险。我们先来看一下预测的误差（Err）吧。

模型预测精度太低,模型参数复制后准确率降低(2)

预测误差由两部分组成，分别是来自训练模型时由于模型不够精确导致的预测偏差和实际数据与训练数据之间的抽样方差。对于后者，我一开始也不理解。既然是事实，数据就一套，哪里来的方差呢？这其实是统计学中很基础却难以理解的一个概念，这里面可以拿“平行宇宙”拿做一个比拟。假设想做一个预测胚胎未来成长到18岁时身高的模型，输入变量是基因，输出是未来的身高。此处，我们假设有1万个平行宇宙，也就是同样基因的这个人有1万种活法，都会成长到18岁。根据理论，他们的身高服从正态分布，每个平行空间的这个人身高的均值是常数，但是具体到每个空间里的这个人的身高可能差别很大。比如有一个空间里的这个人在发育期营养充沛，所以长得高；而有的空间中由于各种原因阻碍了发育。我们拥有的训练集那怕是全都拿来，也是从一部分平行空间中随机产出的。由于我们只有基因数据作为输入变量，其他的因素，比如营养条件、突发事件都是不可控的，因此永远存在来自抽样上的Var的影响。

模型预测精度太低,模型参数复制后准确率降低(3)

有人肯定会说用大数据建模，不抽样，是不是就会避免抽样上的方差影响了。其实深入理解“平行宇宙”的概念之后，就没有这种疑问了。因为样本均来自历史，历史上发生的事件无非是从平行宇宙中随机出现的。有一句话“人不能两次踏进同一条河流“，未来经常和历史很像，但是未来永远不会再现历史。我们永远无法穷尽所有的平行宇宙，因此也永远无法提前预知未来出现的具体是哪一个。上帝在掷色子，未来要出现的情况，是从一个分布中随机产生出来的。

Var大小是由事物本身的特点决定的。很多人关心一个模型可以预测有多准，甚至拿模型预测准确度作为衡量一个建模工程师的重要标准，这是很片面的。之前听到有一个做化学建模的人嘲笑做股票量化建模的专家，说他们做的模型预测精度太低了，在他们那个领域是不可能发表出论文的。这其实是研究对象的不可决定因素的方差大小导致的。化学属于自然科学，实验中虽然有随机的不可控因素，但毕竟占比很小。而股票市场如果是强有效的话，可控因素就很少，因此模型本身的Var就很大。当然，股票投资建模的人不会和化学领域预测建模的人一比高低，他只要比行业内的同伴预测精度高就可以了。

理解了Var的由来，下面我们谈一下建模中是否要把模型做的越精确越好。首先我们讨论训练数据中的被预测变量和实际运用时的被预测变量是来自一个总体（独立同分布）的情况。

模型预测精度太低,模型参数复制后准确率降低(4)