Freigeben über


Excel Dateiformat in Azure Data Factory und Azure Synapse Analytics

Gilt für: Azure Data Factory Azure Synapse Analytics

Tipp

Data Factory in Microsoft Fabric ist die nächste Generation von Azure Data Factory mit einer einfacheren Architektur, integrierter KI und neuen Features. Wenn Sie mit der Datenintegration noch nicht vertraut sind, beginnen Sie mit Fabric Data Factory. Vorhandene ADF-Workloads können auf Fabric aktualisiert werden, um auf neue Funktionen in der Datenwissenschaft, Echtzeitanalysen und Berichterstellung zuzugreifen.

Folgen Sie diesem Artikel, wenn Sie die Excel-Dateien parsen. Der Dienst unterstützt sowohl das „.xls“ als auch „.xlsx“-Format.

Excel Format wird für die folgenden Connectors unterstützt: Amazon S3, Amazon S3 Kompatibler Speicher, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, HTTP, Oracle Cloud Storage und SFTP. Es wird als Quelle, aber nicht als Sink unterstützt.

Hinweis

Das „.xls“-Format wird bei Verwendung von HTTP nicht unterstützt.

Dataset-Eigenschaften

Eine vollständige Liste mit den Abschnitten und Eigenschaften, die zum Definieren von Datasets zur Verfügung stehen, finden Sie im Artikel zu Datasets. Dieser Abschnitt enthält eine Liste der Eigenschaften, die vom Excel-Dataset unterstützt werden.

Eigenschaft Beschreibung Erforderlich
Typ Die Typeigenschaft des Datasets muss auf Excel festgelegt werden. Ja
Standort Speicherorteinstellungen der Datei(en) Jeder Dateibasierte Connector verfügt unter location über seinen eigenen Ortstyp und unterstützte Eigenschaften. Ja
Blattname Der Excel Arbeitsblattname zum Lesen von Daten. Geben Sie sheetName oder sheetIndex an.
sheetIndex Der Excel Arbeitsblattindex zum Lesen von Daten ab 0. Geben Sie sheetName oder sheetIndex an.
range Der Zellenbereich im jeweiligen Arbeitsblatt zum Ermitteln der selektiven Daten, z. B.:
Nicht angegeben: Das gesamte Arbeitsblatt wird als Tabelle ab der ersten nicht leeren Zeile und Spalte gelesen.
- A3: Eine Tabelle wird ab der angegebenen Zelle gelesen, wobei alle Zeilen darunter und alle Spalten rechts davon dynamisch erkannt werden.
- A3:H5: Dieser feste Bereich wird als Tabelle gelesen.
- A3:A3: Liest diese einzelne Zelle.
Nein
firstRowAsHeader Gibt an, ob die erste Zeile des jeweiligen Arbeitsblatts bzw. Bereichs als Headerzeile mit den Namen der Spalten behandelt werden soll.
Zulässige Werte sind true und false (Standard).
Nein
nullWert Gibt die Zeichenfolgendarstellung eines Nullwertes an.
Der Standardwert ist eine leere Zeichenfolge.
Nein
Kompression Gruppe von Eigenschaften zum Konfigurieren der Dateikomprimierung. Konfigurieren Sie diesen Abschnitt, wenn Sie während der Aktivitätsausführung eine Komprimierung/Dekomprimierung durchführen möchten. Nein
Typ
(unter compression )
Der zum Lesen und Schreiben von JSON-Dateien verwendete Komprimierungscodec.
Zulässige Werte sind bzip2, gzip, deflate, ZipDeflate, TarGzip, Tar, snappy und lz4. Standardmäßig erfolgt keine Komprimierung.
Hinweis: Der Kopiervorgang unterstützt derzeit "snappy" & "lz4" nicht, und der Zuordnungsdatenfluss unterstützt "ZipDeflate", "TarGzip" und "Tar" nicht.
Hinweis: Bei Verwendung der Kopieraktivität zum Dekomprimieren einer oder mehrerer ZipDeflate-Dateien und zum Schreiben in den dateibasierten Senkendatenspeicher werden Dateien in den folgenden Ordner extrahiert: <path specified in dataset>/<folder named as source zip file>/.
Nein.
Ebene
(unter compression )
Das Komprimierungsverhältnis.
Zulässige Werte sind Optimal oder Sehr schnell.
- Schnellster: Der Komprimierungsvorgang wird schnellstmöglich abgeschlossen, auch wenn die sich ergebende Datei nicht optimal komprimiert ist.
- Optimal: Die Daten sollten optimal komprimiert sein, auch wenn der Vorgang eine längere Zeit in Anspruch nimmt. Weitere Informationen finden Sie im Thema Komprimierungsstufe .
Nein

Nachfolgend finden Sie ein Beispiel für Excel Datasets für Azure Blob Storage:

{
    "name": "ExcelDataset",
    "properties": {
        "type": "Excel",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, retrievable during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            },
            "sheetName": "MyWorksheet",
            "range": "A3:H5",
            "firstRowAsHeader": true
        }
    }
}

Eigenschaften der Kopieraktivität

Eine vollständige Liste mit den Abschnitten und Eigenschaften zum Definieren von Aktivitäten finden Sie im Artikel Pipelines. Dieser Abschnitt enthält eine Liste der Eigenschaften, die von der Excel Quelle unterstützt werden.

Excel als Quelle

Die folgenden Eigenschaften werden im Abschnitt *source* der Kopieraktivität unterstützt.

Eigenschaft Beschreibung Erforderlich
Typ Die type-Eigenschaft der Quelle der Kopieraktivität muss auf ExcelSource festgelegt sein. Ja
Speichereinstellungen Eine Gruppe von Eigenschaften für das Lesen von Daten aus einem Datenspeicher. Jeder dateibasierte Connector verfügt unter storeSettings über eigene unterstützte Leseeinstellungen. Nein
"activities": [
    {
        "name": "CopyFromExcel",
        "type": "Copy",
        "typeProperties": {
            "source": {
                "type": "ExcelSource",
                "storeSettings": {
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true
                }
            },
            ...
        }
        ...
    }
]

Eigenschaften von Mapping Data Flow

Beim Zuordnen von Datenflüssen können Sie Excel Format in den folgenden Datenspeichern lesen: Azure Blob Storage, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3 und SFTP. Sie können auf Excel Dateien verweisen, indem Sie entweder Excel Dataset oder ein inline-Dataset verwenden.

Quelleigenschaften

In der folgenden Tabelle sind die Eigenschaften aufgeführt, die von einer Excel Quelle unterstützt werden. Sie können diese Eigenschaften auf der Registerkarte Quelloptionen bearbeiten. Bei Verwendung eines Inlinedatasets werden zusätzliche Dateieinstellungen angezeigt. Diese entsprechen den Eigenschaften, die im Abschnitt zu den Dataseteigenschaften beschrieben sind.

Name Beschreibung Erforderlich Zulässige Werte Datenflussskript-Eigenschaft
Platzhalterpfade Alle Dateien, die dem Platzhalterpfad entsprechen, werden verarbeitet. Überschreibt den Ordner und den Dateipfad, die im Dataset festgelegt sind. nein String[] wildcardPaths
Partitionsstammpfad Für partitionierte Dateidaten können Sie einen Partitionsstammpfad eingeben, um partitionierte Ordner als Spalten zu lesen. nein String partitionRootPath
Liste mit den Dateien Gibt an, ob Ihre Quelle auf eine Textdatei verweist, in der die zu verarbeitenden Dateien aufgelistet sind. nein true oder false Dateiliste
Spalte, in der der Dateiname gespeichert wird Erstellt eine neue Spalte mit dem Namen und Pfad der Quelldatei. nein String rowUrlColumn
Nach Abschluss Löscht oder verschiebt die Dateien nach der Verarbeitung. Dateipfad beginnt mit dem Containerstamm nein Löschen: true oder false
Verschieben: ['<from>', '<to>']
purgeFiles
Dateien verschieben
Nach der letzten Änderung filtern Filtern Sie Dateien nach dem Zeitpunkt ihrer letzten Änderung. nein Zeitstempel modifiedAfter
modifiedBefore
Finden keiner Dateien zulässig Falls TRUE, wird kein Fehler ausgelöst, wenn keine Dateien gefunden werden. nein true oder false ignoreNoFilesFound

Quellbeispiel

Die folgende Abbildung ist ein Beispiel für eine Excel Quellkonfiguration beim Zuordnen von Datenflüssen mithilfe des Datasetmodus.

Excel source

Das zugehörige Datenflussskript ist:

source(allowSchemaDrift: true,
    validateSchema: false,
    wildcardPaths:['*.xls']) ~> ExcelSource

Wenn Sie ein Inline-Dataset verwenden, werden im Zuordnungsdatenfluss die folgenden Quelloptionen angezeigt.

Excel Quell-Inlinedatensatz

Das zugehörige Datenflussskript ist:

source(allowSchemaDrift: true,
    validateSchema: false,
    format: 'excel',
    fileSystem: 'container',
    folderPath: 'path',
    fileName: 'sample.xls',
    sheetName: 'worksheet',
    firstRowAsHeader: true) ~> ExcelSourceInlineDataset

Hinweis

Das Zuordnen des Datenflusses unterstützt das Lesen geschützter Excel Dateien nicht, da diese Dateien möglicherweise Vertraulichkeitshinweise enthalten oder bestimmte Zugriffsbeschränkungen erzwingen, die den Zugriff auf ihre Inhalte einschränken.

Behandeln sehr großer Excel Dateien

Der Excel Connector unterstützt keine Streaminglesevorgänge für die Copy-Aktivität und muss die gesamte Datei in den Arbeitsspeicher laden, bevor Daten gelesen werden können. Zum Importieren von Schema-, Vorschaudaten oder Aktualisieren eines Excel Datasets müssen die Daten vor dem Http-Anforderungstimeout (100s) zurückgegeben werden. Bei großen Excel Dateien werden diese Vorgänge möglicherweise nicht innerhalb dieses Zeitrahmens abgeschlossen, was zu einem Timeoutfehler führt. Wenn Sie große Excel Dateien (>100MB) in einen anderen Datenspeicher verschieben möchten, können Sie eine der folgenden Optionen verwenden, um diese Einschränkung zu umgehen:

  • Verwenden Sie die selbst gehostete Integrationslaufzeit (Self-Hosted Integration Runtime, SHIR), und verwenden Sie dann die Copy-Aktivität, um die große Excel Datei in einen anderen Datenspeicher mit dem SHIR zu verschieben.
  • Teilen Sie die große Excel Datei in mehrere kleinere Dateien auf, und verwenden Sie dann die Copy-Aktivität, um den Ordner mit den Dateien zu verschieben.
  • Verwenden Sie eine Datenflussaktivität, um die große Excel Datei in einen anderen Datenspeicher zu verschieben. Dataflow unterstützt streaminglesevorgänge für Excel und kann große Dateien schnell verschieben/übertragen.
  • Konvertieren Sie die große Excel-Datei manuell in das CSV-Format, und verwenden Sie dann eine Copy-Aktivität, um die Datei zu verschieben.