如何自己创建机器学习模型（机器学习的一般过程建立一个模型）

作者：Eryk Lewinson 翻译：张睿毅校对：张睿毅本文约4200字，建议阅读10分钟本文我们主要使用非常知名的Python包，以及依赖于一个相对不为人知的scikit-lego包。

标签：数据帧，精选，机器学习， Python，技术演练

如何自己创建机器学习模型,机器学习的一般过程建立一个模型(1)

设置和数据

在本文中，我们主要使用非常知名的Python包，以及依赖于一个相对不为人知的scikit-lego包，这是一个包含许多有用功能的库，这些功能正在扩展scikit-learn的功能。我们导入所需的库，如下所示：

import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from datetime import date from sklearn.linear_model import LinearRegression from sklearn.preprocessing import FunctionTransformer from sklearn.metrics import mean_absolute_error from sklego.preprocessing import RepeatingBasisFunction

为了简单起见，我们使用自生成数据。在此示例中，我们使用人工时间序列。我们首先创建一个空的数据帧，其索引跨越四个日历年（我们使用pd.date_range）。然后，我们创建两列：

day_nr – 表示时间流逝的数字索引
day_of_year – 一年中的第一天

最后，我们必须创建时间序列本身。为此，我们将两条变换的正弦曲线和一些随机噪声结合起来。用于生成数据的代码基于scikit-lego文档中包含的代码。

# 避免重复 np.random.seed(42) # 生成日期的数据格式 range_of_dates = pd.date_range(start="2017-01-01", End="2020-12-30") X = pd.DataFrame(index=range_of_dates) # 创建日期数据的序列 X["day_nr"] = range(len(X)) X["day_of_year"] = X.index.day_of_year # 生成目标成分 signal_1 = 3 4 * np.sin(X["day_nr"] / 365 * 2 * np.pi) signal_2 = 3 * np.sin(X["day_nr"] / 365 * 4 * np.pi 365/2) noise = np.random.normal(0, 0.85, len(X)) # 合并获取目标序列 y = signal_1 signal_2 noise # 画图 y.plot(figsize=(16,4), title="Generated time series");

如何自己创建机器学习模型,机器学习的一般过程建立一个模型(2)