このセクションには、パイプライン開発者向けのリファレンスと手順が含まれています。
データの読み込みと変換は、ストリーミング テーブルと具体化されたビューを定義するクエリによってパイプラインに実装されます。 これらのクエリを実装するために、Lakeflow Spark 宣言パイプラインは SQL インターフェイスと Python インターフェイスをサポートしています。 これらのインターフェイスは、ほとんどのデータ処理のユース ケースで同等の機能を提供するため、パイプライン開発者は、最も使い慣れたインターフェイスを選択できます。
Python開発
Python コードを使用してパイプラインを作成します。
| トピック | Description |
|---|---|
| Pythonを使用してパイプラインコードを開発する | Pythonでのパイプライン開発の概要。 |
| Lakeflow Spark 宣言パイプライン Python言語リファレンス | Python pipelines モジュールのリファレンス ドキュメントです。 |
| パイプラインの依存関係Python管理 | パイプラインでPython ライブラリを管理する手順。 |
| Git フォルダーまたはワークスペース ファイルから Python モジュールをインポートします | Azure Databricksに格納Pythonモジュールを使用する手順。 |
SQL 開発
SQL コードを使用してパイプラインを作成します。
| トピック | Description |
|---|---|
| SQL を使用して Lakeflow Spark 宣言パイプライン コードを開発する | SQL でのパイプライン開発の概要。 |
| パイプライン SQL 言語リファレンス | Lakeflow Spark 宣言パイプラインの SQL 構文のリファレンス ドキュメント。 |
| Databricks SQL でパイプラインを使用する | Databricks SQL を使用してパイプラインを操作します。 |
その他の開発トピック
次のトピックでは、piplines を開発する他の方法について説明します。
| トピック | Description |
|---|---|
| パイプラインをバンドル プロジェクトに変換する | 既存のパイプラインをバンドルに変換します。これにより、ソース管理された YAML ファイルでデータ処理構成を管理して、ターゲット環境へのメンテナンスと自動デプロイを容易にできます。 |
| Lakeflow Spark 宣言パイプラインを使用したメタプログラミング |
dlt-meta を使用してパイプラインを作成します。 open source dlt-meta ライブラリを使用して、メタデータ ドリブン フレームワークを使用してパイプラインの作成を自動化します。チュートリアル: 異なるパラメーターを使用して複数のフローを作成する。 Pythonのループ内に複数のフローを作成します。 |
| ローカル開発環境でパイプライン コードを開発する | パイプラインをローカルで開発するためのオプションの概要。 |