Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Ein häufiges Szenario beim Onboarding in Azure Data Explorer ist das Aufnehmen von historischen Daten, manchmal auch als Backfill bezeichnet. Der Prozess umfasst das Erfassen von Daten aus einem vorhandenen Speichersystem in eine Tabelle, die eine Sammlung von Extents ist.
Zum Erfassen historischer Daten verwenden Sie die CreationTime-Erfassungseigenschaft, um die Erstellungszeit von Datenbereichen auf den Zeitpunkt der Erstellung der Daten festzulegen. Die Verwendung der Erstellungszeit als Aufnahmepartitionskriterium kann Ihre Daten entsprechend Ihren Cache - und Aufbewahrungsrichtlinien altern und Zeitfilter effizienter gestalten.
Standardmäßig wird die Erstellungszeit für Umfange auf den Zeitpunkt festgelegt, zu dem Sie die Daten aufnehmen, was möglicherweise nicht zu dem Verhalten führen kann, das Sie erwarten. Angenommen, Sie haben eine Tabelle, die einen Cachezeitraum von 30 Tagen und einen Aufbewahrungszeitraum von zwei Jahren hat. Im normalen Fluss werden daten, die während der Produktion produziert werden, 30 Tage zwischengespeichert und dann in den Kaltspeicher verschoben. Nach zwei Jahren, basierend auf der Erstellungszeit, werden ältere Daten Tag für Tag entfernt. Wenn Sie jedoch zwei Jahre an historischen Daten aufnehmen, bei denen die Daten standardmäßig mit der Erstellungszeit als Zeitpunkt der Aufnahme gekennzeichnet werden. Dieses Verhalten kann das gewünschte Ergebnis möglicherweise nicht erzeugen, weil:
- Alle Daten landen im Cache und bleiben 30 Tage lang dort und verwenden mehr Cache als erwartet.
- Ältere Daten werden jeweils nicht täglich entfernt. Daher werden Daten länger als nötig im Cluster aufbewahrt und nach zwei Jahren alle gleichzeitig entfernt.
- Daten, die zuvor nach Datum im Quellsystem gruppiert wurden, können nun in demselben Ausmaß zusammengefasst werden, das zu ineffizienten Abfragen führt.
In diesem Artikel erfahren Sie, wie Sie historische Daten partitionieren:
Verwenden Sie die
creationTimeAufnahmeeigenschaft während der Aufnahme (empfohlen)Nehmen Sie nach Möglichkeit historische Daten mithilfe der
creationTimeErfassungseigenschaft ein, mit der Sie die Erstellungszeit der Ausmaße festlegen können, indem Sie sie aus der Datei oder dem BLOB-Pfad extrahieren. Wenn ihre Ordnerstruktur kein Erstellungsdatumsmuster verwendet, strukturieren Sie Die Datei oder den BLOB-Pfad so, dass sie die Erstellungszeit widerspiegeln. Mithilfe dieser Methode nehmen Sie die Daten mit der richtigen Erstellungszeit in die Tabelle ein, und die Cache- und Aufbewahrungszeiträume werden ordnungsgemäß angewendet.Hinweis
Standardmäßig werden Erweiterungen nach Erstellungszeit (Erfassung) partitioniert, und in den meisten Fällen ist es nicht erforderlich, eine Datenpartitionierungsrichtlinie festzulegen.
Verwenden Sie eine Partitionierungsrichtlinie nach dem Import.
Wenn Sie die Eigenschaften der
creationTime-Aufnahme nicht verwenden können, wie zum Beispiel beim Einfügen von Daten mit dem Azure Cosmos DB-Connector, wo Sie die Erstellungszeit nicht kontrollieren können oder wenn Sie Ihre Ordnerstruktur nicht umstrukturieren können, können Sie die Tabelle nach der Aufnahme neu partitionieren, um denselben Effekt mithilfe der Partitionierungsrichtlinie zu erzielen. Diese Methode kann jedoch unter Umständen einiges an Versuch und Irrtum erfordern, um Richtlinieneinstellungen zu optimieren, und ist weniger effizient als die Verwendung dercreationTimeAufnahmeeigenschaft. Verwenden Sie diese Methode nur, wenn es nicht möglich ist, diecreationTime-Aufnahmeeigenschaft zu verwenden.
Voraussetzungen
- Ein Microsoft-Konto oder eine Microsoft Entra-Benutzeridentität. Sie benötigen kein Azure-Abonnement.
- Ein Azure Data Explorer Cluster und eine Datenbank. Erstellen eines Clusters und einer Datenbank
- Ein Speicherkonto.
- Installieren Sie LightIngest für die empfohlene Methode der Verwendung der Aufnahmeeigenschaft während der
creationTimeAufnahme.
Erfassen historischer Daten
Partitionieren Sie historische Daten mithilfe der Erfassungseigenschaft während der creationTime Aufnahme. Wenn Sie diese Methode nicht verwenden können, können Sie die Tabelle nach dem Einlesen mithilfe einer Partitionierungsrichtlinie neu aufteilen.
LightIngest ist nützlich, um historische Daten aus einem vorhandenen Speichersystem in Azure Data Explorer zu laden. Während Sie Ihren eigenen Befehl mithilfe der Liste der Befehlszeilenargumente erstellen können, zeigt dieser Artikel, wie Sie diesen Befehl über einen Assistenten zur Datenaufnahme automatisch generieren. Zusätzlich zum Erstellen des Befehls können Sie diesen Prozess verwenden, um eine neue Tabelle zu erstellen und eine Schemazuordnung zu erstellen. Dieses Tool ermittelt das Schema-Mapping aus Ihrem Datensatz.
Ziel
Wählen Sie in der Azure Data Explorer Web-UI im linken Menü Query aus.
Klicken Sie mit der rechten Maustaste auf die Datenbank, in der Sie die Daten aufnehmen möchten, und wählen Sie dann "LightIngest" aus.
Das Fenster "Daten aufnehmen" wird geöffnet, wobei die Registerkarte "Ziel " ausgewählt ist. Die Felder Cluster und Datenbank werden automatisch aufgefüllt.
Wählen Sie eine Zieltabelle aus. Wenn Sie Daten in eine neue Tabelle aufnehmen möchten, wählen Sie "Neue Tabelle" aus, und geben Sie dann einen Tabellennamen ein.
Hinweis
Tabellennamen können bis zu 1.024 Zeichen umfassen, einschließlich Leerzeichen, alphanumerischen Zeichen, Bindestrichen und Unterstrichen. Sonderzeichen werden nicht unterstützt.
Wählen Sie die Option Weiter: Quelle aus.
Quelle
Wählen Sie unter "Quelle auswählen" entweder " URL hinzufügen" oder "Container auswählen" aus.
Wenn Sie eine URL hinzufügen, geben Sie unter "Mit Quelle verknüpfen" den Kontoschlüssel oder die SAS-URL zu einem Container an. Sie können die SAS-URL manuell oder automatisch erstellen.
Wenn Sie einen Container aus Ihrem Speicherkonto auswählen, wählen Sie In den Dropdownmenüs Ihr Speicherabonnement, Ihr Speicherkonto und den Container aus.
Hinweis
Die Erfassung unterstützt eine maximale Dateigröße von 6 GB. Es wird empfohlen, Dateien zwischen 100 MB und 1 GB zu importieren.
Wählen Sie erweiterte Einstellungen aus, um zusätzliche Einstellungen für den Aufnahmeprozess mithilfe von LightIngest zu definieren.
Definieren Sie im Bereich "Erweiterte Konfiguration " die LightIngest-Einstellungen gemäß der folgenden Tabelle.
Eigenschaft Beschreibung Erstellungszeitmuster Mit dieser Angabe können Sie die Ingestionszeit-Eigenschaft des erstellten Umfangs mit einem Muster überschreiben, zum Beispiel, um ein Datum basierend auf der Ordnerstruktur des Containers anzuwenden. Siehe auch Erstellungsmusterzeit. Blob-Namensmuster Geben Sie das Muster an, mit dem die zu erfassenden Dateien identifiziert werden. Es werden alle Dateien erfasst, die dem Blob-Namensmuster im angegebenen Container entsprechen. Unterstützt Platzhalter. Schließen Sie das Muster in doppelte Anführungszeichen ein. Tag Ein Tag, das den aufgenommenen Daten zugewiesen wird. Das Tag kann eine beliebige Zeichenfolge sein. Beschränken der Anzahl von Dateien Geben Sie die Anzahl der einzulesenden Dateien an. Es werden die ersten nDateien erfasst, die dem Blob-Namensmuster entsprechen (bis zur angegebenen Anzahl).Warten Sie nicht, bis die Aufnahme abgeschlossen ist. Wenn diese Einstellung festgelegt ist, werden die Blobs für die Erfassung in die Warteschlange eingereiht, ohne den Erfassungsprozess zu überwachen. Ist die Einstellung nicht festgelegt, überprüft LightIngest ständig den Ingestionsstatus, bis die Ingestion abgeschlossen ist. Nur ausgewählte Elemente anzeigen Listet die Dateien im Container auf, erfasst sie aber nicht. Wählen Sie "Fertig" aus, um zur Registerkarte "Quelle " zurückzukehren.
Wählen Sie optional "Dateifilter" aus, um die Daten zu filtern, um nur Dateien in einem bestimmten Ordnerpfad oder mit einer bestimmten Dateierweiterung aufzunehmen.
Standardmäßig wird eine der Dateien im Container zufällig ausgewählt und zum Generieren des Schemas für die Tabelle verwendet.
Geben Sie optional unter Schemadefinitionsdatei die zu verwendende Datei an.
Wählen Sie die Option Weiter: Schema aus, um Ihre Tabellenspaltenkonfiguration anzuzeigen und zu bearbeiten.
Schema
Die Schemaregisterkarte bietet eine Vorschau der Daten.
Um den Befehl "LightIngest" zu generieren, wählen Sie "Weiter: Aufnahme starten" aus.
Optional können Sie:
- Ändern Sie das automatisch abgeleitete Datenformat , indem Sie im Dropdownmenü das gewünschte Format auswählen.
- Ändern Sie den automatisch abgeleiteten Zuordnungsnamen. Sie können alphanumerische Zeichen und Unterstriche verwenden. Leerzeichen, Sonderzeichen und Bindestriche werden nicht unterstützt.
- Bei Verwendung einer vorhandenen Tabelle können Sie Keep current table schema (Aktuelles Tabellenschema beibehalten) auswählen, wenn das Tabellenschema dem ausgewählten Format entspricht.
- Wählen Sie die Befehlsanzeige, um die aus Ihren Eingaben generierten automatischen Befehle anzuzeigen und zu kopieren.
- Spalten bearbeiten. Wählen Sie unter "Teildatenvorschau" die Spaltendropdownmenüs aus, um verschiedene Aspekte der Tabelle zu ändern.
Die Änderungen, die Sie an einer Tabelle vornehmen können, hängen von den folgenden Parametern ab:
- Der Tabellentyp ist neu oder vorhanden.
- Der Mapping-Typ ist neu oder vorhanden.
| Tabellentyp | Zuordnungstyp | Verfügbare Anpassungen |
|---|---|---|
| Neue Tabelle | Neue Zuordnung | Datentyp ändern, Spalte umbenennen, Neue Spalte, Spalte löschen, Spalte aktualisieren, Aufsteigend sortieren, Absteigend sortieren |
| Vorhandene Tabelle | Neue Zuordnung | Neue Spalte (auf der Sie dann datentypen, umbenennen und aktualisieren können), Spalte aktualisieren, Aufsteigend sortieren, Absteigend sortieren |
| Vorhandene Zuordnung | Aufsteigend sortieren, Absteigend sortieren |
Hinweis
Wenn Sie eine neue Spalte hinzufügen oder eine Spalte aktualisieren, können Sie Zuordnungstransformationen ändern. Weitere Informationen finden Sie unter Zuordnungstransformationen.
Datenimport
Wenn der Befehl "Tabelle", "Zuordnung" und "LightIngest" grüne Häkchen anzeigt, aktivieren Sie oben rechts im Feld "Generiert" das Kopiersymbol, um den generierten LightIngest-Befehl zu kopieren.
Hinweis
Bei Bedarf können Sie das Tool LightIngest herunterladen, indem Sie "LightIngest herunterladen" auswählen.
Um den Aufnahmevorgang abzuschließen, müssen Sie LightIngest mit dem kopierten Befehl ausführen.