Condividi tramite


Formato binario in Azure Data Factory e Synapse Analytics

APPLICABILE A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Data Factory in Microsoft Fabric è la nuova generazione di Azure Data Factory, con un'architettura più semplice, un'intelligenza artificiale predefinita e nuove funzionalità. Se non si ha familiarità con l'integrazione dei dati, iniziare con Fabric Data Factory. I carichi di lavoro di Azure Data Factory esistenti possono eseguire l'aggiornamento a Fabric per accedere a nuove funzionalità tra data science, analisi in tempo reale e creazione di report.

Il formato binario è supportato per i connettori seguenti: Amazon S3Amazon S3 Compatible Storage, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, File di Azure, File System, FTP, Google Cloud StorageHDFS, HTTP, Oracle Cloud Storage e SFTP.

È possibile utilizzare il dataset Binary nell'Attività di copia, Attività di recupero metadati o nell'Attività di eliminazione. Quando si usa il set di dati Binario, il servizio non analizza il contenuto del file ma lo considera as-is.

Nota

Quando si usa il set di dati Binario nell'attività di copia, è possibile copiare solo dal set di dati binario al set di dati binario.

Proprietà del set di dati

Per un elenco completo delle sezioni e delle proprietà disponibili per la definizione dei set di dati, vedere l'articolo Set di dati. In questa sezione viene fornito un elenco delle proprietà supportate dal set di dati Binario.

Proprietà Descrizione Richiesto
tipo La proprietà type del set di dati deve essere impostata su Binary.
posizione Impostazioni di posizione dei file. Ogni connettore basato su file ha il proprio tipo di percorso e le proprietà supportate in location. Vedere i dettagli nell'articolo del connettore -> sezione Proprietà del set di dati.
compressione Gruppo di proprietà per configurare la compressione dei file. Configurare questa sezione se si desidera eseguire la compressione/decompressione durante l'esecuzione dell'attività. No
tipo Codec di compressione usato per leggere/scrivere file binari.
I valori consentiti sono bzip2, gzip, deflate, ZipDeflate, Tar o TarGzip.
Nota quando si usa l'attività Copy per decomprimere i file ZipDeflate/TarGzip/Tar e scrivere nell'archivio dati sink basato su file, per impostazione predefinita i file vengono estratti nella cartella:<path specified in dataset>/<folder named as source compressed file>/, usare preserveZipFileNameAsFolder/preserveCompressionFileNameAsFolder su origine attività Copy per controllare se mantenere il nome dei file compressi come struttura di cartelle.
No
livello Rapporto di compressione. Applicare quando il set di dati viene usato nel sink dell'attività di copia.
I valori consentiti sono ottimale o più veloce.
- Fastest: l'operazione di compressione deve essere completata il più rapidamente possibile, anche se il file risultante non viene compresso in modo ottimale.
- Optimal: l'operazione di compressione deve comprimere il file in modo ottimale, anche se il completamento richiede più tempo. Per maggiori informazioni, vedere l'argomento relativo al livello di compressione .
No

Di seguito è riportato un esempio di set di dati Binary in Archiviazione BLOB di Azure:

{
    "name": "BinaryDataset",
    "properties": {
        "type": "Binary",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            },
            "compression": {
                "type": "ZipDeflate"
            }
        }
    }
}

Proprietà dell'attività di copia

Per un elenco completo delle sezioni e delle proprietà disponibili per la definizione delle attività, vedere l'articolo sulle pipeline. In questa sezione viene fornito un elenco delle proprietà supportate dall'origine e dal sink Binary.

Nota

Quando si usa il set di dati Binario nell'attività di copia, è possibile copiare solo dal set di dati binario al set di dati binario.

Binario come fonte

Nella sezione *source* dell'attività Copy sono supportate le proprietà seguenti.

Proprietà Descrizione Richiesto
tipo La proprietà type dell'origine dell'attività di copia deve essere impostata su BinarySource.
impostazioniFormato Gruppo di proprietà. Fare riferimento alla tabella delle impostazioni di lettura binaria di seguito. No
impostazioniDelNegozio Un gruppo di proprietà su come leggere i dati da un archivio dati. Ogni connettore basato su file dispone di proprie impostazioni di lettura supportate in storeSettings. Vedere i dettagli nell'articolo del connettore -> sezione Proprietà dell'attività Copy. No

Impostazioni di lettura binarie supportate in formatSettings:

Proprietà Descrizione Richiesto
tipo Il tipo di formatSettings deve essere impostato su BinaryReadSettings.
compressionProperties Gruppo di proprietà su come decomprimere i dati per un determinato codec di compressione. No
preserveZipFileNameAsFolder
(in compressionProperties->type come ZipDeflateReadSettings)
Si applica quando il set di dati di input è configurato con compressione ZipDeflate. Indica se mantenere il nome del file ZIP di origine come struttura di cartelle durante la copia.
- Se impostato su true (impostazione predefinita), il servizio scrive i file decompressi in <path specified in dataset>/<folder named as source zip file>/.
- Se impostato su false, il servizio scrive i file decompressi direttamente in <path specified in dataset>. Verificare di non disporre di nomi di file duplicati in file zip di origine diversi per evitare corse o comportamenti imprevisti.
No
preserveCompressionFileNameAsFolder
(in compressionProperties->type come TarGZipReadSettings o TarReadSettings)
Si applica quando il set di dati di input è configurato con compressione TarGzip/Tar. Indica se mantenere il nome del file compresso di origine come struttura delle cartelle durante la copia.
- Se impostato su true (impostazione predefinita), il servizio scrive i file decompressi in <path specified in dataset>/<folder named as source compressed file>/.
- Se impostato su false, il servizio scrive i file decompressi direttamente in <path specified in dataset>. Verificare di non disporre di nomi di file duplicati in file di origine diversi per evitare corse o comportamenti imprevisti.
No
"activities": [
    {
        "name": "CopyFromBinary",
        "type": "Copy",
        "typeProperties": {
            "source": {
                "type": "BinarySource",
                "storeSettings": {
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true,
                    "deleteFilesAfterCompletion": true
                },
                "formatSettings": {
                    "type": "BinaryReadSettings",
                    "compressionProperties": {
                        "type": "ZipDeflateReadSettings",
                        "preserveZipFileNameAsFolder": false
                    }
                }
            },
            ...
        }
        ...
    }
]

Binary come sink

Nella sezione *sink* dell'attività Copy sono supportate le proprietà seguenti.

Proprietà Descrizione Richiesto
tipo La proprietà type dell'origine dell'attività di copia deve essere impostata su BinarySink.
impostazioniDelNegozio Gruppo di proprietà su come scrivere i dati in un archivio dati. Ogni connettore basato su file dispone delle proprie impostazioni di scrittura supportate in storeSettings. Vedere i dettagli nell'articolo del connettore -> sezione Proprietà dell'attività Copy. No