マッピングデータフロー内のソート変換

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

Data Factory in Microsoft Fabric は、よりシンプルなアーキテクチャ、組み込みの AI、および新機能を備えた次世代のAzure Data Factoryです。 データ統合を初めて使用する場合は、Fabric Data Factory から始めます。 既存の ADF ワークロードをFabricにアップグレードして、データ サイエンス、リアルタイム分析、レポートの新機能にアクセスできます。

データ フローは、Azure Data Factory パイプラインとAzure Synapse Analytics パイプラインの両方で使用できます。 この記事は、マッピング データ フローに適用されます。 変換を初めて使用する場合は、入門記事「 マッピング データ フローを使用したデータの変換」を参照してください。

ヒント

Dataflow Gen2 の同等の変換 (並べ替え) については、データ フロー ユーザーのマッピングに関する Dataflow Gen2 のガイドを参照してください。

並べ替え変換を使用すると、現在のデータ ストリームで受信した行を並べ替えることができます。 個々の列を選択し、昇順または降順に並べ替えることができます。

マッピング データ フローは、複数のノードとパーティションにデータを分散する Spark クラスターで実行されます。 後続の変換でデータを再パーティション分割することを選択した場合、データのシャッフリングが原因で並べ替えが失われる可能性があります。 データ フローで並べ替え順序を維持する最善の方法は、変換の [最適化] タブで単一のパーティションを設定し、並べ替え変換をできるだけシンクの近くに保持することです。

構成

並べ替えの設定

大文字と小文字の区別をしない: 文字列やテキスト フィールドを並べ替えるときに大文字と小文字を区別するかどうか

Sort Only Within Partitions (パーティション内でのみ並べ替え): データ フローは spark 上で実行されるため、各データ ストリームはパーティションに分割されます。 この設定では、データ ストリーム全体を並べ替えるのではなく、受信パーティション内でのみデータを並べ替えます。

並べ替え条件: どの列を並べ替えるか、および並べ替えを行う順序を選択してください。 順序によって並べ替えの優先順位が決まります。 データ ストリームの先頭または末尾に null を表示するかどうかを選択します。

計算列

並べ替えを適用する前に列の値を変更または抽出するには、列の上にマウス ポインターを移動し、[計算列] を選択します。 式ビルダーで、列値を使用する代わりに、並べ替え操作の式を作成します。

データ フローのスクリプト

構文

<incomingStream>
    sort(
        desc(<sortColumn1>, { true | false }),
        asc(<sortColumn2>, { true | false }),
        ...
    ) ~> <sortTransformationName<>

並べ替えの設定

次のコード スニペットには、上記の並べ替え構成に対するデータ フロー スクリプトが含まれています。

BasketballStats sort(desc(PTS, true),
    asc(Age, true)) ~> Sort1

並べ替え後、集計変換を使用できます。