当前位置:首页 > 经验 >

如何自己创建机器学习模型(机器学习的一般过程建立一个模型)

来源:原点资讯(www.yd166.com)时间:2022-10-30 05:35:47作者:YD166手机阅读>>

图 5:使用正弦/余弦变换拟合。垂直线将训练集和测试集分开。

图 5 显示,该模型能够拾取数据的总体趋势,识别具有较高和较低的周期。但是,预测的幅度似乎不太准确,乍一看,这种拟合似乎比使用第一种方法,虚拟变量,实现的拟合更差(图 2)。

在我们讨论第三种特征工程技术之前,值得一提的是,这种方法存在一个严重的缺点,尤其会在使用基于树的模型时,缺点很明显。最初设计,基于树的模型就是基于当时的单个特征进行拆分。正如我们之前提到的,正弦/余弦特征应该同时考虑,以便正确识别一段时间内的时间点。

方法#3:径向基函数

最后一种方法使用径向基函数。我们不会详细介绍它们的实际情况,但您可以在此处阅读有关该主题的更多信息。从本质上讲,我们再次希望解决第一种方法遇到的问题,即我们的时间特征具有连续性。

我们使用方便的scikit-lego库,它提供了RepeatmentBasisFunction类,并指定了以下参数:

  • 我们要创建的基函数的数量(我们选择:12个)。
  • 用于为 径向基函数(RBF)编制索引的列。我们这里采用的列是,该观测值来自一年中的哪一天。
  • 输入范围 – 我们这里,范围是从1到365。
  • 如何处理数据帧的其余列,我们将使用这些数据帧来拟合估计器。"drop"将仅保留创建的 RBF 功能,"passthrough "将保留旧功能和新功能。

rbf = RepeatingBasisFunction(n_periods=12, column="day_of_year", input_range=(1,365), remainder="drop") rbf.fit(X) X_3 = pd.DataFrame(index=X.index, data=rbf.transform(X)) X_3.plot(subplots=True, figsize=(14, 8), sharex=True, title="Radial Basis Functions", legend=False);

如何自己创建机器学习模型,机器学习的一般过程建立一个模型(9)

图 6:12 个径向基函数。

图 6 展示,我们使用日数作为输入,创建了 12 个径向基函数。每条曲线都包含有关多靠近本年某一天的信息(在选择此列的情况下)。例如,第一条曲线测量从1月1日开始的距离,因此它在每年的第一天达到峰值,在之后和当初升高的幅度对称地减小。

根据设计,基函数在输入范围内的间距相等。我们选择了12,因为我们希望RBF类似于月份。这样,每个函数都会显示到月份第一天的距离(由于月份的长度不相等)。

与前面的方法类似,让我们使用 12 个RBF 特征去拟合线性回归模型。

model_3 = LinearRegression().fit(X_3.iloc[:TRAIN_END], y.iloc[:TRAIN_END]) results_df["model_3"] = model_3.predict(X_3) results_df[["actuals", "model_3"]].plot(figsize=(16,4), title="使用RBF特征拟合") plt.axvline(date(2020, 1, 1), c="m", linestyle="--");

如何自己创建机器学习模型,机器学习的一般过程建立一个模型(10)

图 7:使用径向基函数拟合。垂直线将训练集和测试集分开。

图 7 显示,当使用 RBF 功能时,该模型能够准确地捕获真实数据。

使用径向基函数时,我们可以调整两个关键参数:

  • 径向基函数的数目,
  • 钟形曲线的形状 – 可以使用 RepeatingBasis 函数的宽度参数对其进行修改。

调整这些参数值的一种方法是使用网格搜索来确定给定数据集的最佳值。

最终比较

我们可以执行以下代码段,以生成编码时间相关信息的不同方法的数字比较。

results_df.plot(title="对比不同时间特征的拟合",figsize=(16,4), color = ["c", "k", "b", "r"]) plt.axvline(date(2020, 1, 1), c="m", linestyle="--");

如何自己创建机器学习模型,机器学习的一般过程建立一个模型(11)

图 8:使用基于不同时间特征获得的模型,比较拟合。垂直线分开的是训练集和测试集

图 8 表明,径向基函数与所考虑的方法最接近。正弦/余弦特征允许模型拾取主要模式,但不足以完全捕获系列的动态。

使用下面的代码段,我们计算每个模型在训练集和测试集上的平均绝对误差。我们预计训练集和测试集的分数之间非常相似,因为生成的序列几乎完全是周期性的 - 年份之间的唯一区别是随机分量。

当然,在现实生活中情况并非如此,在现实中,随着时间的推移,我们会在同一时期之间遇到更多的变化。但是,在这种情况下,我们还会使用许多其他特征(例如趋势,或时间流逝的某种度量)来解释这些变化。

score_list = [] for fit_col in ["model_1", "model_2", "model_3"]: scores = { "model": fit_col, "train_score": mean_absolute_error( results_df.iloc[:TRAIN_END]["actuals"], results_df.iloc[:TRAIN_END][fit_col] ), "test_score": mean_absolute_error( results_df.iloc[TRAIN_END:]["actuals"], results_df.iloc[TRAIN_END:][fit_col] ) } score_list.append(scores) scores_df = pd.DataFrame(score_list) scores_df

与之前一样,我们可以看到使用RBF特征的模型产生了最佳拟合,而正弦/余弦特征的表现最差。我们对训练集和测试集所得分数之间的相似性假设也得到了证实。

如何自己创建机器学习模型,机器学习的一般过程建立一个模型(12)

栏目热文

机器学习模型的流程图(机器学习模型建模步骤)

机器学习模型的流程图(机器学习模型建模步骤)

作者 | 陆春晖责编 | Carol出品 | AI科技大本营(ID:rgznai100)背景时间序列类问题是数据分析领域...

2022-10-30 05:59:41查看全文 >>

机器学习模型国内实例(机器学习模型评价实例)

机器学习模型国内实例(机器学习模型评价实例)

据合肥晚报报道 近日,记者从中国科学技术大学获悉,该校化学与材料科学学院罗毅、江俊教授团队与自动化系尚伟伟等合作,成功开...

2022-10-30 05:51:07查看全文 >>

机器学习建模平台(免费的三维建模软件)

机器学习建模平台(免费的三维建模软件)

当前,隐私计算融合了人工智能、密码学、区块链以及计算芯片等一系列软硬件技术,有助于实现多方数据“可用不可见”,已成为打破...

2022-10-30 05:38:55查看全文 >>

机器学习最佳模型(机器学习常见的学习模型)

机器学习最佳模型(机器学习常见的学习模型)

机器学习是计算机科学中最引人入胜的领域之一。它在许多行业都有应用,任何人都可以学习。在这篇博文中,我将为初学者介绍一些排...

2022-10-30 05:52:01查看全文 >>

如何验证机器学习模型(机器学习模型划分三种)

如何验证机器学习模型(机器学习模型划分三种)

作者丨黄星源、奉现来源丨Datawhale编辑丨极市平台本文从构建数据验证集、模型训练、模型加载和模型调参四个部分对深度...

2022-10-30 05:48:46查看全文 >>

机器学习建模的步骤(机器学习建模的一般流程)

机器学习建模的步骤(机器学习建模的一般流程)

机器之心转载来源:知乎作者:蒋铮尧本文将简单谈谈基于序列建模的强化学习方法。大规模生成模型在近两年为自然语言处理甚至计算...

2022-10-30 05:22:05查看全文 >>

机器学习模型选型(机器学习模型思路)

机器学习模型选型(机器学习模型思路)

隐私计算作为一个快速发展的领域,其技术复杂发展快,其技术和应用还不被很多期望采用隐私计算的机构和个人熟知,而隐私计算技术...

2022-10-30 05:41:11查看全文 >>

机器学习场景建模(各类机器学习模型适用场景)

机器学习场景建模(各类机器学习模型适用场景)

实时离线一体化概述在讲实时离线一体化概述前,可以先回顾一下之前两位阿里同学的精彩演讲。 离线实时一体化数仓与湖仓一体--...

2022-10-30 05:51:30查看全文 >>

机器学习建模环境是什么(机器学习的模型是什么)

机器学习建模环境是什么(机器学习的模型是什么)

人工智能技术作为产业数字化转型的新兴动力和重点产业,被 《“十四五”数据经济发展规划》列为未来五年推动数字经济发展的重要...

2022-10-30 05:48:59查看全文 >>

途乐5.6省油还是4.0省油(途乐4.0哪个模式最省油)

途乐5.6省油还是4.0省油(途乐4.0哪个模式最省油)

日产途乐这款车进入国内市场的时间并不长,虽然说在名气上不如霸道、陆巡,但途乐的历史并不短。途乐Y2,已经是途乐的第六代车...

2022-10-30 05:46:42查看全文 >>

文档排行