自定义模型集成

介绍

QlibModel Zoo 包含 LightGBMMLPLSTM 等模型。这些模型是 Forecast Model 的示例。除了 Qlib 提供的默认模型外,用户还可以将自己的自定义模型集成到 Qlib 中。

用户可以根据以下步骤集成他们自己的自定义模型。

  • 定义一个自定义模型类,该类应为 qlib.model.base.Model 的子类。

  • 编写一个配置文件,描述自定义模型的路径和参数。

  • 测试自定义模型。

自定义模型类

自定义模型需要继承 qlib.model.base.Model 并重写其中的方法。

  • 重写 __init__ 方法
    • Qlib 将初始化的参数传递给 __init__ 方法。

    • 配置中的模型超参数必须与`__init__`方法中定义的参数一致。

    • 代码示例:在以下示例中,配置文件中的模型超参数应包含如`loss:mse`的参数。

      def __init__(self, loss='mse', **kwargs):
          if loss not in {'mse', 'binary'}:
              raise NotImplementedError
          self._scorer = mean_squared_error if loss == 'mse' else roc_auc_score
          self._params.update(objective=loss, **kwargs)
          self._model = None
      
  • 重写`fit`方法
    • ``Qlib``调用fit方法来训练模型。

    • 参数必须包括训练特征`dataset`,该特征在接口中设计。

    • 参数可以包括一些带有默认值的`可选`参数,例如`GBDT`的`num_boost_round = 1000`。

    • 代码示例:在以下示例中,`num_boost_round = 1000`是一个可选参数。

      def fit(self, dataset: DatasetH, num_boost_round = 1000, **kwargs):
      
          # prepare dataset for lgb training and evaluation
          df_train, df_valid = dataset.prepare(
              ["train", "valid"], col_set=["feature", "label"], data_key=DataHandlerLP.DK_L
          )
          x_train, y_train = df_train["feature"], df_train["label"]
          x_valid, y_valid = df_valid["feature"], df_valid["label"]
      
          # Lightgbm need 1D array as its label
          if y_train.values.ndim == 2 and y_train.values.shape[1] == 1:
              y_train, y_valid = np.squeeze(y_train.values), np.squeeze(y_valid.values)
          else:
              raise ValueError("LightGBM doesn't support multi-label training")
      
          dtrain = lgb.Dataset(x_train.values, label=y_train)
          dvalid = lgb.Dataset(x_valid.values, label=y_valid)
      
          # fit the model
          self.model = lgb.train(
              self.params,
              dtrain,
              num_boost_round=num_boost_round,
              valid_sets=[dtrain, dvalid],
              valid_names=["train", "valid"],
              early_stopping_rounds=early_stopping_rounds,
              verbose_eval=verbose_eval,
              evals_result=evals_result,
              **kwargs
          )
      
  • 重写`predict`方法
    • 参数必须包括参数`dataset`,该参数将用于获取测试数据集。

    • 返回`预测分数`。

    • 请参考`Model API <../reference/api.html#module-qlib.model.base>`_以获取fit方法的参数类型。

    • 代码示例:在以下示例中,用户需要使用`LightGBM`预测测试数据`x_test`的标签(如`preds`)并返回它。

      def predict(self, dataset: DatasetH, **kwargs)-> pandas.Series:
          if self.model is None:
              raise ValueError("model is not fitted yet!")
          x_test = dataset.prepare("test", col_set="feature", data_key=DataHandlerLP.DK_I)
          return pd.Series(self.model.predict(x_test.values), index=x_test.index)
      
  • 重写`finetune`方法(可选)
    • 此方法对用户是可选的。当用户希望在自己的模型上使用此方法时,他们应继承``ModelFT``基类,该基类包含`finetune`的接口。

    • 参数必须包括参数`dataset`。

    • 代码示例:在以下示例中,用户将使用`LightGBM`作为模型并对其进行微调。

      def finetune(self, dataset: DatasetH, num_boost_round=10, verbose_eval=20):
          # Based on existing model and finetune by train more rounds
          dtrain, _ = self._prepare_data(dataset)
          self.model = lgb.train(
              self.params,
              dtrain,
              num_boost_round=num_boost_round,
              init_model=self.model,
              valid_sets=[dtrain],
              valid_names=["train"],
              verbose_eval=verbose_eval,
          )
      

配置文件

配置文件在`Workflow <../component/workflow.html#complete-example>`_文档中有详细描述。为了将自定义模型集成到``Qlib``中,用户需要修改配置文件中的"model"字段。配置描述了使用哪些模型以及如何初始化它。

  • 示例:以下示例描述了关于上述自定义lightgbm模型的配置文件中的`model`字段,其中`module_path`是模块路径,class`是类名,`args`是传递给__init__方法的超参数。该字段中的所有参数通过**kwargs`在`__init__`中传递给`self._params`,除了`loss = mse`。

    model:
        class: LGBModel
        module_path: qlib.contrib.model.gbdt
        args:
            loss: mse
            colsample_bytree: 0.8879
            learning_rate: 0.0421
            subsample: 0.8789
            lambda_l1: 205.6999
            lambda_l2: 580.9768
            max_depth: 8
            num_leaves: 210
            num_threads: 20
    

用户可以在``examples/benchmarks``中找到``Model``基线的配置文件。不同模型的所有配置都列在相应的模型文件夹下。

模型测试

假设配置文件为 examples/benchmarks/LightGBM/workflow_config_lightgbm.yaml,用户可以运行以下命令来测试自定义模型:

cd examples  # Avoid running program under the directory contains `qlib`
qrun benchmarks/LightGBM/workflow_config_lightgbm.yaml

备注

qrunQlib 的内置命令。

此外,Model 也可以作为单独模块进行测试。示例已在 examples/workflow_by_code.ipynb 中给出。

参考

要了解更多关于 Forecast Model 的信息,请参考 Forecast Model: Model Training & PredictionModel API