モデル トレーニングの例

このセクションには、多くの一般的なオープンソース ライブラリを使用して、Azure Databricksで機械学習モデルをトレーニングする方法を示す例が含まれています。

AutoML を使用することもできます。これは、モデル トレーニング用のデータセットを自動的に準備し、scikit-learn や XGBoost などのオープンソース ライブラリを使用して一連の試用版を実行し、試用の実行ごとにソース コードを含むPython ノートブックを作成して、コードを確認、再現、変更することもできます。

機械学習の例

パッケージ ノートブック 機能
scikit-learn 機械学習のチュートリアル Unity カタログ、分類モデル、MLflow、Hyperopt および MLflow を使用したハイパーパラメーターの自動チューニング
scikit-learn エンドツーエンド事例 Unity カタログ、分類モデル、MLflow、Hyperopt および MLflow、XGBoost を使用したハイパーパラメーターの自動チューニング
MLlib MLlib の例 二項分類、デシジョン ツリー、GBT 回帰、構造化ストリーミング、カスタム トランスフォーマー
xgboost XGBoost の例 Python、PySpark、Scala、単一ノード ワークロード、分散トレーニング

ハイパーパラメーター チューニングの例

Azure Databricksでのハイパーパラメーター調整の一般的な情報については、「Hyperparameter のチューニングを参照してください。

Hyperopt のオープンソース バージョンはメンテナンスされなくなりました。

Hyperopt は、16.4 LTS ML 以降の databricks Runtime for Machine Learningには含まれません。 Azure Databricksでは、非推奨の Hyperopt 分散ハイパーパラメーター 調整機能と同様のエクスペリエンスを実現するために、単一ノードの最適化に Optuna または RayTune を使用することをお勧めします。 Azure Databricksでの RayTune の使用の詳細について説明します。

パッケージ Notebook 機能
Optuna Optuna の概要 Optuna、分散Optuna、scikit-learn、MLflow
Hyperopt 分散ハイパーオプト 分散型 Hyperopt、scikit-learn、MLflow
Hyperopt モデルの比較 分散 hyperopt を使用して、ハイパーパラメーター空間でさまざまなモデルの種類を同時に検索します
Hyperopt 分散トレーニングのアルゴリズムと hyperopt Hyperopt、MLlib
Hyperopt Hyperopt のベスト プラクティス さまざまなサイズのデータセットでのベスト プラクティス