このセクションには、多くの一般的なオープンソース ライブラリを使用して、Azure Databricksで機械学習モデルをトレーニングする方法を示す例が含まれています。
AutoML を使用することもできます。これは、モデル トレーニング用のデータセットを自動的に準備し、scikit-learn や XGBoost などのオープンソース ライブラリを使用して一連の試用版を実行し、試用の実行ごとにソース コードを含むPython ノートブックを作成して、コードを確認、再現、変更することもできます。
機械学習の例
| パッケージ | ノートブック | 機能 |
|---|---|---|
| scikit-learn | 機械学習のチュートリアル | Unity カタログ、分類モデル、MLflow、Hyperopt および MLflow を使用したハイパーパラメーターの自動チューニング |
| scikit-learn | エンドツーエンド事例 | Unity カタログ、分類モデル、MLflow、Hyperopt および MLflow、XGBoost を使用したハイパーパラメーターの自動チューニング |
| MLlib | MLlib の例 | 二項分類、デシジョン ツリー、GBT 回帰、構造化ストリーミング、カスタム トランスフォーマー |
| xgboost | XGBoost の例 | Python、PySpark、Scala、単一ノード ワークロード、分散トレーニング |
ハイパーパラメーター チューニングの例
Azure Databricksでのハイパーパラメーター調整の一般的な情報については、「Hyperparameter のチューニングを参照してください。
注
Hyperopt のオープンソース バージョンはメンテナンスされなくなりました。
Hyperopt は、16.4 LTS ML 以降の databricks Runtime for Machine Learningには含まれません。 Azure Databricksでは、非推奨の Hyperopt 分散ハイパーパラメーター 調整機能と同様のエクスペリエンスを実現するために、単一ノードの最適化に Optuna または RayTune を使用することをお勧めします。 Azure Databricksでの RayTune の使用の詳細について説明します。
| パッケージ | Notebook | 機能 |
|---|---|---|
| Optuna | Optuna の概要 | Optuna、分散Optuna、scikit-learn、MLflow |
| Hyperopt | 分散ハイパーオプト | 分散型 Hyperopt、scikit-learn、MLflow |
| Hyperopt | モデルの比較 | 分散 hyperopt を使用して、ハイパーパラメーター空間でさまざまなモデルの種類を同時に検索します |
| Hyperopt | 分散トレーニングのアルゴリズムと hyperopt | Hyperopt、MLlib |
| Hyperopt | Hyperopt のベスト プラクティス | さまざまなサイズのデータセットでのベスト プラクティス |