Freigeben über


Binärformat in Azure Data Factory und Synapse Analytics

Gilt für: Azure Data Factory Azure Synapse Analytics

Tipp

Data Factory in Microsoft Fabric ist die nächste Generation von Azure Data Factory mit einer einfacheren Architektur, integrierter KI und neuen Features. Wenn Sie mit der Datenintegration noch nicht vertraut sind, beginnen Sie mit Fabric Data Factory. Vorhandene ADF-Workloads können auf Fabric aktualisiert werden, um auf neue Funktionen in der Datenwissenschaft, Echtzeitanalysen und Berichterstellung zuzugreifen.

Binäres Format wird für die folgenden Connectors unterstützt: Amazon S3, Amazon S3-kompatibler Speicher, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, HTTP, Oracle Cloud Storage und SFTP.

Sie können binary dataset in Copy-Aktivität, GetMetadata activity oder Delete activity verwenden. Bei Verwendung des Binary-Datasets analysiert der Dienst den Dateiinhalt nicht, sondern behandelt ihn as-is.

Hinweis

Wenn Sie ein binäres Dataset in der Kopieraktivität verwenden, können Sie aus diesem Dataset nur in ein binäres Dataset kopieren.

Dataset-Eigenschaften

Eine vollständige Liste mit den Abschnitten und Eigenschaften, die zum Definieren von Datasets zur Verfügung stehen, finden Sie im Artikel zu Datasets. Dieser Abschnitt enthält eine Liste der Eigenschaften, die vom binären Dataset unterstützt werden.

Eigenschaft Beschreibung Erforderlich
Typ Die „type“-Eigenschaft des Datasets muss auf Binär festgelegt werden. Ja
Standort Speicherorteinstellungen der Datei(en) Jeder dateibasierte Anschluss verfügt über seinen eigenen Ortstyp und unterstützte Eigenschaften unter location. Informationen hierzu finden Sie im Abschnitt > „Dataset-Eigenschaften“ des Artikels über Connectors. Ja
Datenkomprimierung Gruppe von Eigenschaften zum Konfigurieren der Dateikomprimierung. Konfigurieren Sie diesen Abschnitt, wenn Sie während der Aktivitätsausführung eine Komprimierung/Dekomprimierung durchführen möchten. Nein
Typ Der zum Lesen und Schreiben von Binärdateien verwendete Codec für die Komprimierung.
Zulässige Werte sind bzip2, gzip, deflate, ZipDeflate, Tar und TarGzip.
Beachten Sie, dass bei Verwendung der Kopieraktivität zum Dekomprimieren von ZipDeflate-/TarGzip-/Tar-Dateien und zum Schreiben in den dateibasierten Senkendatenspeicher diese Dateien standardmäßig in den Ordner <path specified in dataset>/<folder named as source compressed file>/ extrahiert werden. Verwenden Sie in diesem Fall preserveZipFileNameAsFolder/preserveCompressionFileNameAsFolder als Quelle der Kopieraktivität, um zu steuern, ob der Name der komprimierten Dateien als Ordnerstruktur beibehalten werden soll.
Nein
level Das Komprimierungsverhältnis. Wenden Sie es an, wenn das Dataset in der Senke der Kopieraktivität verwendet wird.
Zulässige Werte sind Optimal oder Sehr schnell.
- Schnellster: Der Komprimierungsvorgang wird schnellstmöglich abgeschlossen, auch wenn die sich ergebende Datei nicht optimal komprimiert ist.
- Optimal: Die Daten sollten optimal komprimiert sein, auch wenn der Vorgang eine längere Zeit in Anspruch nimmt. Weitere Informationen finden Sie im Thema Komprimierungsstufe .
Nein

Nachfolgend sehen Sie ein Beispiel für binäres Dataset für Azure Blob Storage:

{
    "name": "BinaryDataset",
    "properties": {
        "type": "Binary",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            },
            "compression": {
                "type": "ZipDeflate"
            }
        }
    }
}

Eigenschaften der Kopieraktivität

Eine vollständige Liste mit den Abschnitten und Eigenschaften zum Definieren von Aktivitäten finden Sie im Artikel Pipelines. Dieser Abschnitt enthält eine Liste der Eigenschaften, die von der Binary-Quelle und -Senke unterstützt werden.

Hinweis

Wenn Sie ein binäres Dataset in der Kopieraktivität verwenden, können Sie aus diesem Dataset nur in ein binäres Dataset kopieren.

„Binär“ als Quelle

Die folgenden Eigenschaften werden im Abschnitt *source* der Kopieraktivität unterstützt.

Eigenschaft Beschreibung Erforderlich
Typ Die „type“-Eigenschaft der Quelle für die Kopieraktivität muss auf BinarySource festgelegt werden. Ja
Formatierungseinstellungen Eine Gruppe von Eigenschaften. Weitere Informationen zu Leseeinstellungen für Binärdateien finden Sie in der Tabelle unten. Nein
Store-Einstellungen Eine Gruppe von Eigenschaften für das Lesen von Daten aus einem Datenspeicher. Jeder dateibasierte Connector verfügt unter storeSettings über eigene unterstützte Leseeinstellungen. Informationen hierzu finden Sie im Abschnitt über die> Eigenschaften der Copy-Aktivität im Artikel über Connectors. Nein

Unterstützte Leseeinstellungen für Binärdateien unter formatSettings:

Eigenschaft Beschreibung Erforderlich
Typ Der Typ von „formatSettings“ muss auf BinaryReadSettings festgelegt werden. Ja
Kompressionseigenschaften Eine Gruppe von Eigenschaften zur Festlegung, wie Daten bei einem bestimmten Komprimierungscodec dekomprimiert werden können. Nein
Zip-DateinamenAlsOrdnerBeibehalten
(unter compressionProperties->type als ZipDeflateReadSettings)
Diese Eigenschaft gilt, wenn das Eingabedataset mit der ZipDeflate-Komprimierung konfiguriert wurde. Sie gibt an, ob der Name der ZIP-Quelldatei während Kopiervorgängen als Ordnerstruktur beibehalten werden soll.
– Lautet der Wert true (Standard) , schreibt der Dienst die entpackten Dateien in <path specified in dataset>/<folder named as source zip file>/.
– Lautet der Wert false, schreibt der Dienst die entpackten Dateien direkt in <path specified in dataset>. Stellen Sie sicher, dass es in unterschiedlichen ZIP-Quelldateien keine doppelten Dateinamen gibt, um Racebedingungen oder unerwartetes Verhalten zu vermeiden.
Nein
preserveCompressionFileNameAsFolder
(unter compressionProperties->type als TarGZipReadSettings oder TarReadSettings)
Gilt, wenn das Eingabedataset mit der Komprimierung TarGzip/Tar konfiguriert wurde. Gibt an, ob der Name der komprimierten Quelldatei während Kopiervorgängen als Ordnerstruktur beibehalten werden soll.
– Lautet der Wert true (Standard) , schreibt der Dienst die dekomprimierten Dateien in <path specified in dataset>/<folder named as source compressed file>/.
– Lautet der Wert false, schreibt der Dienst die dekomprimierten Dateien direkt in <path specified in dataset>. Stellen Sie sicher, dass es in unterschiedlichen Quelldateien keine doppelten Dateinamen gibt, um Racebedingungen oder unerwartetes Verhalten zu vermeiden.
Nein
"activities": [
    {
        "name": "CopyFromBinary",
        "type": "Copy",
        "typeProperties": {
            "source": {
                "type": "BinarySource",
                "storeSettings": {
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true,
                    "deleteFilesAfterCompletion": true
                },
                "formatSettings": {
                    "type": "BinaryReadSettings",
                    "compressionProperties": {
                        "type": "ZipDeflateReadSettings",
                        "preserveZipFileNameAsFolder": false
                    }
                }
            },
            ...
        }
        ...
    }
]

„Binär“ als Senke

Die folgenden Eigenschaften werden im Abschnitt *sink* der Kopieraktivität unterstützt.

Eigenschaft Beschreibung Erforderlich
Typ Die „type“-Eigenschaft der Quelle für die Kopieraktivität muss auf BinarySink festgelegt werden. Ja
Store-Einstellungen Eine Gruppe von Eigenschaften für das Schreiben von Daten in einen Datenspeicher. Jeder dateibasierte Connector verfügt unter storeSettings über eigene unterstützte Schreibeinstellungen. Informationen hierzu finden Sie im Abschnitt über die> Eigenschaften der Copy-Aktivität im Artikel über Connectors. Nein