Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Gilt für:
Azure Data Factory
Azure Synapse Analytics
Tipp
Data Factory in Microsoft Fabric ist die nächste Generation von Azure Data Factory mit einer einfacheren Architektur, integrierter KI und neuen Features. Wenn Sie mit der Datenintegration noch nicht vertraut sind, beginnen Sie mit Fabric Data Factory. Vorhandene ADF-Workloads können auf Fabric aktualisiert werden, um auf neue Funktionen in der Datenwissenschaft, Echtzeitanalysen und Berichterstellung zuzugreifen.
Folgen Sie diesem Artikel, wenn Sie die Excel-Dateien parsen. Der Dienst unterstützt sowohl das „.xls“ als auch „.xlsx“-Format.
Excel Format wird für die folgenden Connectors unterstützt:
Hinweis
Das „.xls“-Format wird bei Verwendung von HTTP nicht unterstützt.
Dataset-Eigenschaften
Eine vollständige Liste mit den Abschnitten und Eigenschaften, die zum Definieren von Datasets zur Verfügung stehen, finden Sie im Artikel zu Datasets. Dieser Abschnitt enthält eine Liste der Eigenschaften, die vom Excel-Dataset unterstützt werden.
| Eigenschaft | Beschreibung | Erforderlich |
|---|---|---|
| Typ | Die Typeigenschaft des Datasets muss auf Excel festgelegt werden. | Ja |
| Standort | Speicherorteinstellungen der Datei(en) Jeder Dateibasierte Connector verfügt unter location über seinen eigenen Ortstyp und unterstützte Eigenschaften. |
Ja |
| Blattname | Der Excel Arbeitsblattname zum Lesen von Daten. | Geben Sie sheetName oder sheetIndex an. |
| sheetIndex | Der Excel Arbeitsblattindex zum Lesen von Daten ab 0. | Geben Sie sheetName oder sheetIndex an. |
| range | Der Zellenbereich im jeweiligen Arbeitsblatt zum Ermitteln der selektiven Daten, z. B.: Nicht angegeben: Das gesamte Arbeitsblatt wird als Tabelle ab der ersten nicht leeren Zeile und Spalte gelesen. - A3: Eine Tabelle wird ab der angegebenen Zelle gelesen, wobei alle Zeilen darunter und alle Spalten rechts davon dynamisch erkannt werden.- A3:H5: Dieser feste Bereich wird als Tabelle gelesen.- A3:A3: Liest diese einzelne Zelle. |
Nein |
| firstRowAsHeader | Gibt an, ob die erste Zeile des jeweiligen Arbeitsblatts bzw. Bereichs als Headerzeile mit den Namen der Spalten behandelt werden soll. Zulässige Werte sind true und false (Standard). |
Nein |
| nullWert | Gibt die Zeichenfolgendarstellung eines Nullwertes an. Der Standardwert ist eine leere Zeichenfolge. |
Nein |
| Kompression | Gruppe von Eigenschaften zum Konfigurieren der Dateikomprimierung. Konfigurieren Sie diesen Abschnitt, wenn Sie während der Aktivitätsausführung eine Komprimierung/Dekomprimierung durchführen möchten. | Nein |
| Typ (unter compression ) |
Der zum Lesen und Schreiben von JSON-Dateien verwendete Komprimierungscodec. Zulässige Werte sind bzip2, gzip, deflate, ZipDeflate, TarGzip, Tar, snappy und lz4. Standardmäßig erfolgt keine Komprimierung. Hinweis: Bei Verwendung der Kopieraktivität zum Dekomprimieren einer oder mehrerer ZipDeflate-Dateien und zum Schreiben in den dateibasierten Senkendatenspeicher werden Dateien in den folgenden Ordner extrahiert: <path specified in dataset>/<folder named as source zip file>/. |
Nein. |
| Ebene (unter compression ) |
Das Komprimierungsverhältnis. Zulässige Werte sind Optimal oder Sehr schnell. - Schnellster: Der Komprimierungsvorgang wird schnellstmöglich abgeschlossen, auch wenn die sich ergebende Datei nicht optimal komprimiert ist. - Optimal: Die Daten sollten optimal komprimiert sein, auch wenn der Vorgang eine längere Zeit in Anspruch nimmt. Weitere Informationen finden Sie im Thema Komprimierungsstufe . |
Nein |
Nachfolgend finden Sie ein Beispiel für Excel Datasets für Azure Blob Storage:
{
"name": "ExcelDataset",
"properties": {
"type": "Excel",
"linkedServiceName": {
"referenceName": "<Azure Blob Storage linked service name>",
"type": "LinkedServiceReference"
},
"schema": [ < physical schema, optional, retrievable during authoring > ],
"typeProperties": {
"location": {
"type": "AzureBlobStorageLocation",
"container": "containername",
"folderPath": "folder/subfolder",
},
"sheetName": "MyWorksheet",
"range": "A3:H5",
"firstRowAsHeader": true
}
}
}
Eigenschaften der Kopieraktivität
Eine vollständige Liste mit den Abschnitten und Eigenschaften zum Definieren von Aktivitäten finden Sie im Artikel Pipelines. Dieser Abschnitt enthält eine Liste der Eigenschaften, die von der Excel Quelle unterstützt werden.
Excel als Quelle
Die folgenden Eigenschaften werden im Abschnitt *source* der Kopieraktivität unterstützt.
| Eigenschaft | Beschreibung | Erforderlich |
|---|---|---|
| Typ | Die type-Eigenschaft der Quelle der Kopieraktivität muss auf ExcelSource festgelegt sein. | Ja |
| Speichereinstellungen | Eine Gruppe von Eigenschaften für das Lesen von Daten aus einem Datenspeicher. Jeder dateibasierte Connector verfügt unter storeSettings über eigene unterstützte Leseeinstellungen. |
Nein |
"activities": [
{
"name": "CopyFromExcel",
"type": "Copy",
"typeProperties": {
"source": {
"type": "ExcelSource",
"storeSettings": {
"type": "AzureBlobStorageReadSettings",
"recursive": true
}
},
...
}
...
}
]
Eigenschaften von Mapping Data Flow
Beim Zuordnen von Datenflüssen können Sie Excel Format in den folgenden Datenspeichern lesen: Azure Blob Storage, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3 und SFTP. Sie können auf Excel Dateien verweisen, indem Sie entweder Excel Dataset oder ein inline-Dataset verwenden.
Quelleigenschaften
In der folgenden Tabelle sind die Eigenschaften aufgeführt, die von einer Excel Quelle unterstützt werden. Sie können diese Eigenschaften auf der Registerkarte Quelloptionen bearbeiten. Bei Verwendung eines Inlinedatasets werden zusätzliche Dateieinstellungen angezeigt. Diese entsprechen den Eigenschaften, die im Abschnitt zu den Dataseteigenschaften beschrieben sind.
| Name | Beschreibung | Erforderlich | Zulässige Werte | Datenflussskript-Eigenschaft |
|---|---|---|---|---|
| Platzhalterpfade | Alle Dateien, die dem Platzhalterpfad entsprechen, werden verarbeitet. Überschreibt den Ordner und den Dateipfad, die im Dataset festgelegt sind. | nein | String[] | wildcardPaths |
| Partitionsstammpfad | Für partitionierte Dateidaten können Sie einen Partitionsstammpfad eingeben, um partitionierte Ordner als Spalten zu lesen. | nein | String | partitionRootPath |
| Liste mit den Dateien | Gibt an, ob Ihre Quelle auf eine Textdatei verweist, in der die zu verarbeitenden Dateien aufgelistet sind. | nein |
true oder false |
Dateiliste |
| Spalte, in der der Dateiname gespeichert wird | Erstellt eine neue Spalte mit dem Namen und Pfad der Quelldatei. | nein | String | rowUrlColumn |
| Nach Abschluss | Löscht oder verschiebt die Dateien nach der Verarbeitung. Dateipfad beginnt mit dem Containerstamm | nein | Löschen: true oder false Verschieben: ['<from>', '<to>'] |
purgeFiles Dateien verschieben |
| Nach der letzten Änderung filtern | Filtern Sie Dateien nach dem Zeitpunkt ihrer letzten Änderung. | nein | Zeitstempel | modifiedAfter modifiedBefore |
| Finden keiner Dateien zulässig | Falls TRUE, wird kein Fehler ausgelöst, wenn keine Dateien gefunden werden. | nein |
true oder false |
ignoreNoFilesFound |
Quellbeispiel
Die folgende Abbildung ist ein Beispiel für eine Excel Quellkonfiguration beim Zuordnen von Datenflüssen mithilfe des Datasetmodus.
Das zugehörige Datenflussskript ist:
source(allowSchemaDrift: true,
validateSchema: false,
wildcardPaths:['*.xls']) ~> ExcelSource
Wenn Sie ein Inline-Dataset verwenden, werden im Zuordnungsdatenfluss die folgenden Quelloptionen angezeigt.
Das zugehörige Datenflussskript ist:
source(allowSchemaDrift: true,
validateSchema: false,
format: 'excel',
fileSystem: 'container',
folderPath: 'path',
fileName: 'sample.xls',
sheetName: 'worksheet',
firstRowAsHeader: true) ~> ExcelSourceInlineDataset
Hinweis
Das Zuordnen des Datenflusses unterstützt das Lesen geschützter Excel Dateien nicht, da diese Dateien möglicherweise Vertraulichkeitshinweise enthalten oder bestimmte Zugriffsbeschränkungen erzwingen, die den Zugriff auf ihre Inhalte einschränken.
Behandeln sehr großer Excel Dateien
Der Excel Connector unterstützt keine Streaminglesevorgänge für die Copy-Aktivität und muss die gesamte Datei in den Arbeitsspeicher laden, bevor Daten gelesen werden können. Zum Importieren von Schema-, Vorschaudaten oder Aktualisieren eines Excel Datasets müssen die Daten vor dem Http-Anforderungstimeout (100s) zurückgegeben werden. Bei großen Excel Dateien werden diese Vorgänge möglicherweise nicht innerhalb dieses Zeitrahmens abgeschlossen, was zu einem Timeoutfehler führt. Wenn Sie große Excel Dateien (>100MB) in einen anderen Datenspeicher verschieben möchten, können Sie eine der folgenden Optionen verwenden, um diese Einschränkung zu umgehen:
- Verwenden Sie die selbst gehostete Integrationslaufzeit (Self-Hosted Integration Runtime, SHIR), und verwenden Sie dann die Copy-Aktivität, um die große Excel Datei in einen anderen Datenspeicher mit dem SHIR zu verschieben.
- Teilen Sie die große Excel Datei in mehrere kleinere Dateien auf, und verwenden Sie dann die Copy-Aktivität, um den Ordner mit den Dateien zu verschieben.
- Verwenden Sie eine Datenflussaktivität, um die große Excel Datei in einen anderen Datenspeicher zu verschieben. Dataflow unterstützt streaminglesevorgänge für Excel und kann große Dateien schnell verschieben/übertragen.
- Konvertieren Sie die große Excel-Datei manuell in das CSV-Format, und verwenden Sie dann eine Copy-Aktivität, um die Datei zu verschieben.
Zugehöriger Inhalt
- Übersicht über die Kopieraktivität
- Lookup-Aktivität
- GetMetadata-Aktivität