Freigeben über


Glossar der technischen Terminologie Azure Databricks

Ein

Zugriffssteuerungsliste (Access Control List, ACL)

Eine Liste der Berechtigungen, die an den Arbeitsbereich, den Cluster, den Auftrag, die Tabelle oder das Experiment angefügt sind. Eine ACL gibt an, welchen Benutzern oder Systemprozessen Zugriff auf die Objekte gewährt wird und welche Vorgänge für die Ressourcen zulässig sind. In einer typischen ACL umfasst jeder Eintrag ein Subjekt und einen Vorgang. Siehe Zugriffssteuerungslisten.

Zugriffsmodus

Ein Sicherheitsfeature, das bestimmt, wer eine Computeressource und die Daten verwenden kann, auf die sie während der Verwendung der Computeressource zugreifen können. Jede Computeressource in Azure Databricks verfügt über einen Zugriffsmodus. Weitere Informationen finden Sie unter Zugriffsmodi.

ACID-Transaktionen

Datenbanktransaktionen, die zuverlässig verarbeitet werden. ACID steht für „Atomarität, Konsistenz, Isolation, Dauerhaftigkeit (Atomicity, Consistency, Isolation, Durability)“. Siehe Bewährte Methoden für Zuverlässigkeit.

Agent Bricks

Azure Databricks Features, mit denen Sie hochwertige KI-Lösungen erstellen können.

Künstliche Intelligenz (KI)

Die Fähigkeit eines Computers, intelligentes menschliches Verhalten zu imitieren. Siehe KI und Machine Learning in Databricks.

KI-Agent

Eine Anwendung mit komplexen Begründungsfunktionen, die es ihr ermöglichen, einen eigenen Plan zu erstellen und die Aufgabe gemäß den verfügbaren Tools auszuführen. Siehe Agent-Systementwurfsmuster.

KI-Funktionen

Die integrierten SQL-Funktionen, mit denen Sie KI direkt aus SQL in Azure Databricks auf Ihre Daten anwenden können. Siehe Anreichern von Daten mithilfe von KI-Funktionen.

KI-Gateway

Die Azure Databricks Lösung zum Verwalten und Überwachen von LLM-Endpunkten, Codierungs-Agents und Endpunkten für die Modellbereitstellung. Verwenden Sie AI-Gateway, um die Nutzung zu analysieren, Berechtigungen zu konfigurieren und Kapazität über Anbieter hinweg zu verwalten. Siehe KI-Gateway.

KI-Playground

Ein Azure Databricks Feature, mit dem Benutzer in Ihrem Azure Databricks Arbeitsbereich mit generativen KI-Modellen interagieren, testen und vergleichen können. Siehe Chatten mit LLMs und prototypischen generativen KI-Apps mit KI-Playground.

Anomalieerkennung

Techniken und Tools, die verwendet werden, um ungewöhnliche Muster zu identifizieren, die nicht dem erwarteten Verhalten in Datasets entsprechen. Azure Databricks erleichtert die Anomalieerkennung durch ihre maschinellen Lern- und Datenverarbeitungsfunktionen.

Apache Iceberg

Ein Open-Source-Tabellenformat für Analyse-Workloads, das Schemaentwicklung, Zeitreise und ausgeblendete Partitionierung unterstützt. Azure Databricks unterstützt Iceberg-Tabellen, die von Unity Catalog und von fremden Katalogen verwaltet werden. Siehe Was ist Apache Iceberg in Azure Databricks?.

Apache Spark

Ein Open-Source-, verteiltes Computersystem, das für Big Data-Workloads verwendet wird. Siehe Apache Spark -Übersicht.

Künstliche neuronale Netze (Artificial Neural Network, ANN)

Ein Computersystem, das der Funktionsweise der Neuronen im menschlichen Gehirn nachempfunden ist.

Vermögenswert

Eine Entität in einem Azure Databricks Arbeitsbereich (z. B. ein Objekt oder eine Datei).

Überwachungsprotokoll

Eine Aufzeichnung von Benutzeraktivitäten und -aktionen innerhalb der Azure Databricks Umgebung, entscheidend für Sicherheit, Compliance und betriebliche Überwachung. Siehe Referenz zu Diagnoseprotokollen.

Autoloader

Ein Datenerfassungsfeature, dass neue Datendateien inkrementell und effizient verarbeitet, sobald sie im Cloudspeicher eingehen, ohne zusätzliche Einrichtung. Siehe Was ist Autoloader?.

AutoML

Ein Azure Databricks-Feature, das das Anwenden von maschinellem Lernen auf Ihre Datasets vereinfacht, indem automatisch der beste Algorithmus und die hyperparameter-Konfiguration für Sie gefunden werden. Siehen Was ist AutoML?.

Automatisierte Datenherkunft

Der Prozess der automatischen Nachverfolgung und Visualisierung des Datenflusses von seinem Ursprung über verschiedene Transformationen bis zu seiner endgültigen Form, der für das Debuggen, die Compliance und das Verständnis von Datenabhängigkeiten unerlässlich ist. Azure Databricks erleichtert dies durch Integrationen mit Datenlinientools.

Automatische Skalierung, horizontal

Hinzufügen oder Entfernen von Executors basierend auf der Anzahl der Aufgaben, die auf die Planung warten. Dies geschieht dynamisch während eines einzelnen Updates.

Automatische Skalierung, vertikal

Erhöhen oder Verringern der Größe eines Computers (Treiber oder Executor) auf der Grundlage des Arbeitsspeicherdrucks (oder dessen Fehlens). Dies geschieht nur zu Beginn eines neuen Updates.

Azure Databricks

Eine Version von Databricks, die für die Microsoft Azure Cloudplattform optimiert ist.

B

Batchverarbeitung

Eine Methode der Datenverarbeitung, mit der Sie explizite Anweisungen zum Verarbeiten einer festen Menge statischer, nicht veränderlicher Daten in einem einzelnen Vorgang definieren. Azure Databricks verwendet Spark SQL oder DataFrames. Siehe Standardanschlüsse in Lakeflow Connect.

Verzerrungserkennung und -minderung

Der Prozess der Identifizierung und Behandlung von Voreingenommenheiten in Daten- und Machine Learning-Modellen, um Fairness und Genauigkeit zu gewährleisten. Databricks bietet Tools und Integrationen, um Verzerrungen zu erkennen und zu mindern. Siehe Überwachung von Fairness und Trend für Klassifizierungsmodelle.

Business Intelligence (BI)

Die Strategien und Technologien, die von Unternehmen für die Datenanalyse und die Verwaltung von Unternehmensinformationen verwendet werden.

C

Katalog (Unity Catalog)

Die erste Ebene des dreistufigen Namespaces von Unity Catalog (catalog.schema.table-etc).) Ein Katalog ist ein Container für Schemas, der wiederum Tabellen, Ansichten, Volumes, Modelle und Funktionen enthält. Siehe Was sind Kataloge in Azure Databricks?.

Katalog-Explorer

Ein Azure Databricks-Feature, das eine Benutzeroberfläche zum Durchsuchen und Verwalten von Daten, Schemas (Datenbanken), Tabellen, Modellen, Funktionen und anderen KI-Ressourcen bereitstellt. Sie können sie verwenden, um Datenobjekte und Besitzer zu finden, Datenbeziehungen über Tabellen hinweg zu verstehen und Berechtigungen und Freigaben zu verwalten. Siehe Was ist der Katalog-Explorer?.

Untergeordnete Instanz

Bei einer untergeordneten Instanz handelt es sich um einen während des Schreibvorgangs kopierten Klon der ursprünglichen Datenbankinstanz. Sie kann aus dem aktuellen Zeitpunkt oder aus einem historischen Zeitpunkt innerhalb des Aufbewahrungsfensters erstellt werden. Siehe "Daten und Zeitreisen wiederherstellen".

CICD oder CI/CD

Die kombinierten Praktiken von Continuous Integration (CI) und Continuous Delivery (CD). Siehe CI/CD auf Azure Databricks.

Daten bereinigen

Daten, die einen Datenbereinigungsprozess durchlaufen haben, bei dem beschädigte oder ungenaue Datensätze aus einer Datensatzgruppe, einer Tabelle oder einer Datenbank erkannt und korrigiert (oder entfernt) werden und der sich auf die Identifizierung unvollständiger, falscher, ungenauer oder irrelevanter Teile der Daten bezieht und dann die schmutzigen oder groben Daten ersetzt, ändert oder löscht.

Reinräume

Ein Azure Databricks-Feature, das Delta Sharing und serverlose Berechnung verwendet, um eine sichere und datenschutzgeschützte Umgebung bereitzustellen, in der mehrere Parteien vertrauliche Unternehmensdaten teilen und ohne direkten Zugriff auf die Daten der anderen zusammenarbeiten können. Mit "Clean Rooms" können Benutzer aus anderen Databricks-Konten zusammenarbeiten, um Erkenntnisse über gemeinsame Projekte wie Werbekampagnen, Investitionsentscheidungen oder Forschung und Entwicklung zu gewinnen, ohne den Zugriff auf sensible, zugrunde liegende Daten zu teilen. Siehe What is Azure Databricks Clean Rooms?.

Cloudplattformanbieter

Ein Unternehmen, das eine Cloud Computing-Plattform bereitstellt. Beispiel: Microsoft Azure, Amazon Web Services (AWS) und Google Cloud Platform (GCP).

Cluster

Eine nicht serverlose Computeressource, die in Notizbüchern, Aufträgen und Lakeflow Spark Declarative Pipelines verwendet wird. Der Begriff compute hat cluster in der gesamten benutzeroberfläche Azure Databricks ersetzt, wird aber weiterhin in der Cluster-API und in Metadaten verwendet.

Compute

Bezieht sich auf Computeressourcen, bei denen es sich um Infrastrukturelemente handelt (Hardware oder Software), die durch das Empfangen, Analysieren und Speichern von Daten das Lösen von Problemen und die Entwicklung von Lösungen ermöglichen. Berechnen.

Continuous Pipeline

Eine Pipeline, die alle Tabellen kontinuierlich aktualisiert, wenn neue Daten in die Eingabe gelangen, ohne zu stoppen. Siehe Ausgelöste vs. Continuous Pipeline-Modus.

D

gerichteter azyklischer Graph (DAG)

Eine Methode zum Darstellen der Abhängigkeiten zwischen Vorgängen in einem Workflow oder einer Pipeline. In einem DAG-Verarbeitungsmodell werden Vorgänge als Knoten in einem gerichteten azyklischen Graph dargestellt, wobei die Ränder die Abhängigkeiten zwischen Vorgängen darstellen.

Datenkatalog

Ein Metadatenverwaltungstool zum Verwalten von Datenquellen, das Informationen zur Struktur, zum Speicherort und zur Verwendung der Daten bereitstellt. Azure Databricks integriert sich mit externen Datenkatalogen für eine verbesserte Metadatenverwaltung.

Datenverwaltung

Die Praxis der Verwaltung der Verfügbarkeit, Integrität, Sicherheit und Nutzbarkeit von Daten, einschließlich Richtlinien, Verfahren und Technologien zur Sicherstellung der Datenqualität und -compliance.

Datenerfassung

Der Prozess des Importierens, Übertragens, Ladens und Verarbeitens von Daten aus verschiedenen Quellen in Azure Databricks zur Speicherung, Analyse und Verarbeitung.

Data Lake

Ein großes Speicher-Repository, das eine große Menge an Rohdaten in seinem systemeigenen Format enthält, bis sie benötigt werden.

Data Lakehouse

Ein Datenverwaltungssystem, das die Vorteile von Data Lakes und Data Warehouses kombiniert. Ein Data Lakehouse bietet skalierbare Speicher- und Verarbeitungskapazität für moderne Organisationen, die ein isoliertes System für die Verarbeitung verschiedener Workloads vermeiden möchten, z. B. Machine Learning (ML) und Business Intelligence (BI). Ein Data Lakehouse kann dazu beitragen, eine einzige Wahrheitsquelle zu schaffen, redundante Kosten zu beseitigen und die Aktualität der Daten sicherzustellen. Siehe Was ist ein Data Lakehouse?.

Datenprofilerstellung

Überwacht die statistischen Eigenschaften und die Qualität der Daten in allen Tabellen in Ihrem Konto. Sie können das Feature auch verwenden, um die Leistung von Machine Learning-Modellen und Modellbereitstellungsendpunkten nachzuverfolgen, indem Sie Rückschlusstabellen überwachen, die Modellausgaben und Vorhersagen enthalten. Siehe Datenprofilerstellung.

Datenpipeline

Eine Reihe von Phasen, in denen Daten generiert, gesammelt, verarbeitet und in ein Ziel verschoben werden. Databricks erleichtert die Erstellung und Verwaltung komplexer Datenpipelines für die Batch- und Echtzeitdatenverarbeitung.

Datenschutz

Die Praxis des Schutzes personenbezogener Daten vor unbefugtem Zugriff, unbefugter Verwendung, Offenlegung oder Diebstahl. Azure Databricks betont robuste Datenschutz- und Sicherheitsfeatures, einschließlich End-to-End-Verschlüsselung, rollenbasierter Zugriffssteuerung und Einhaltung wichtiger Datenschutzbestimmungen, um vertrauliche Informationen zu schützen und die Datengovernance sicherzustellen.

Datenvisualisierung

Ein Datenverwaltungsansatz, mit dem eine Anwendung Daten abrufen und bearbeiten kann, ohne dass technische Details zu den Daten erforderlich sind, z. B. wie sie formatiert oder wo sie physisch gespeichert sind. Azure Databricks können als Teil einer Datenvirtualisierungsebene dienen, indem sie nahtlosen Zugriff auf und Analyse von Daten über verschiedene Quellen hinweg ermöglicht.

Datenhaltung

Bezieht sich auf das Sammeln und Speichern von Daten aus mehreren Quellen, sodass schnell auf Geschäftserkenntnisse und Berichte zugegriffen werden kann. Die Lakehouse-Architektur und Databricks SQL stellen Data Warehousing-Cloudfunktionen in Ihren Data Lakes zur Verfügung. Siehe Data Warehouse-Architektur.

Datenbankkatalog

Eine Unity-Katalog-Katalogentität, die eine Postgres-Datenbank in einer Instanz darstellt. Dies ähnelt konzeptuell einem fremden Katalog im Unity-Katalog. Siehe Registrieren Ihrer Datenbank im Unity-Katalog.

Datenbankinstanz

Eine Datenbankinstanz verwaltet Speicher- und Computeressourcen und stellt die Endpunkte bereit, mit denen Benutzer eine Verbindung herstellen. Sehen Sie sich an, was eine Datenbankinstanz ist?.

Datenbausteine

Eine einheitliche, offene Analyseplattform zum Erstellen, Bereitstellung, Teilen und Verwalten von Daten, Analysen und KI-Lösungen der Unternehmensklasse in großem Maßstab. Die Databricks Data Intelligence Platform integriert sich mit dem Cloudspeicher und der Sicherheit in Ihrem Cloud-Konto und übernimmt in Ihrem Auftrag die Verwaltung und Bereitstellung der Cloud-Infrastruktur. Siehe What is Azure Databricks?.

Databricks AI/BI

Ein Business Intelligence-Produkt, das das Verständnis der Semantik Ihrer Daten bereitstellt und die Self-Service-Datenanalyse ermöglicht. AI/BI basiert auf einem zusammengesetzten KI-System, das Erkenntnisse aus dem gesamten Lebenszyklus Ihrer Daten auf der Databricks-Plattform gewinnt, einschließlich ETL-Pipelines, Datenherkunft und anderer Abfragen. Siehe Databricks AI/BI.

KI-Funktionen von Databricks

Die Daten-Intelligenz-Engine, die die Databricks-Plattform antreibt. Es ist ein zusammengesetztes KI-System, das die Verwendung von KI-Modellen, Abruf-, Bewertungs- und Personalisierungssystemen kombiniert, um die Semantik der Daten und Nutzungsmuster Ihrer Organisation zu verstehen. Siehe Databricks AI-Hilfsfunktionen.

Databricks-Apps

Ein Azure Databricks-Feature, mit dem Entwickler sichere Daten und KI-Anwendungen direkt auf der Azure Databricks Plattform mithilfe von Python oder Node.js Frameworks erstellen und bereitstellen können. Apps werden auf serverlosem Compute ausgeführt und in Unity-Katalog, Databricks SQL und OAuth integriert. Siehe Databricks-Apps.

Deklarative Automatisierungspakete

Ein Tool, das die Einführung von Bewährten Methoden im Software-Engineering erleichtert, einschließlich Versionskontrolle, Code-Review, Testen und kontinuierliche Integration und Bereitstellung (CI/CD) für Ihre Daten- und KI-Projekte. Bündel ermöglichen es, Azure Databricks Ressourcen wie Aufträge, Pipelines und Notizbücher als Quelldateien zu beschreiben. Erfahren Sie , was deklarative Automatisierungspakete sind?.

Genie Code

Ein KI-basierter Begleitprogrammierer und Support-Agent, der Sie effizienter macht, während Sie Notebooks, Abfragen, Dashboards und Dateien erstellen. Der Assistent generiert, optimiert, vervollständigt, erläutert und korrigiert Code und Abfragen, sodass Sie Fragen schnell beantworten können. Siehe Genie Code.

Databricks-Befehlszeilenschnittstelle

Eine Befehlszeilenschnittstelle für Azure Databricks, mit der Benutzer Databricks-Arbeitsbereiche verwalten und automatisieren und Aufträge, Notizbücher und Bibliotheken bereitstellen können. Siehe Was ist die Databricks-Befehlszeilenschnittstelle?.

Databricks Connect

Eine Clientbibliothek, mit der Entwickler ihre bevorzugten IDEs, Notizbücher und anderen Tools mit Azure Databricks verbinden können, um Spark-Code remote auszuführen. Siehe Was ist Databricks Connect?.

Databricks-Containerdienste

Eine Azure Databricks-Funktion, mit der Sie beim Erstellen von Rechenressourcen ein Docker-Image angeben können. Siehe Anpassen von Containern mit dem Databricks-Containerdienst.

Databricks-Marketplace

Ein offenes Forum für den Austausch von Datenprodukten. Anbieter müssen über ein Azure Databricks Konto verfügen, aber Empfänger können jeder sein. Marketplace-Ressourcen umfassen Datasets, Azure Databricks Notizbücher, Azure Databricks Solution Accelerators und KI-Modelle (Machine Learning). Datasets werden in der Regel als Kataloge tabellarischer Daten verfügbar gemacht, obwohl nicht tabellarische Daten in Form von Azure Databricks Volumes ebenfalls unterstützt werden. Siehe Was ist der Databricks-Marketplace?.

Databricks Runtime

Eine für Big Data-Analysen optimierte Runtime. Databricks bietet auch Databricks Runtime für Machine Learning, die für machine learning Workloads optimiert ist. Weitere Informationen finden Sie unter Versionshinweise, Versionen und Kompatibilität von Databricks Runtime.

Databricks SQL (DBSQL)

Eine Sammlung von Diensten, die Data Warehouse-Funktionen und Leistung für Ihre vorhandenen Data Lakes bereitstellen. Databricks SQL unterstützt offene Formate und standard ANSI SQL. Mit einem plattforminternen SQL-Editor und -Dashboardtools können Teammitglieder direkt im Arbeitsbereich mit anderen Azure Databricks Benutzern zusammenarbeiten. Weitere Informationen siehe Data-Warehousing auf Azure Databricks.

DBUs

Eine Databricks-Einheit (Databricks Unit, DBU) ist eine normalisierte Einheit der Rechenleistung auf der Databricks Lakehouse Platform, die für Messungs- und Preiszwecke verwendet wird. Die Anzahl der DBUs, die eine Workload verbraucht, wird durch Verarbeitungsmetriken gesteuert, welche die verwendeten Computeressourcen und die Menge der verarbeiteten Daten umfassen können. Siehe Azure Databricks Components.

Databricks File System (DBFS)

Ein verteiltes Dateisystem, das in einen Azure Databricks Arbeitsbereich eingebunden und auf Azure Databricks Compute verfügbar ist. Azure Databricks empfiehlt die Verwendung von Unity-Katalogvolumes anstelle von DBFS für den Zugriff auf nicht tabellarische Daten. Weitere Informationen unter Was ist DBFS?.

DataFrame

Eine Datenstruktur, die Daten in einer zweidimensionalen Tabelle mit Zeilen und Spalten organisiert, ähnlich wie eine Kalkulationstabelle. DataFrames sind eine der gängigsten Datenstrukturen, die in modernen Datenanalysen verwendet werden, da sie eine flexible und intuitive Möglichkeit zum Speichern und Arbeiten mit Daten sind. Siehe Tutorial: Laden und Transformieren von Daten mithilfe von Apache Spark DataFrames.

Dataset

Eine strukturierte Sammlung von Daten, die für die Analyse oder Verarbeitung organisiert und gespeichert wurden. Die Daten in einem Dataset beziehen sich in der Regel auf irgendeine Weise aufeinander und stammen aus einer einzigen Quelle oder sind für ein einzelnes Projekt vorgesehen.

Delta Lake

Eine Open Source-Speicherebene, die in Data Lakes für Zuverlässigkeit sorgt. Delta Lake bietet ACID-Transaktionen, skalierbare Metadatenverarbeitung sowie die Vereinheitlichung von Streaming und Batchdatenverarbeitung. Siehe Was ist Delta Lake in Azure Databricks?.

Pipelines

Ein deklaratives Framework für die Erstellung zuverlässiger, verwaltbarer und testbarer Datenverarbeitungspipelines. Sie definieren die Transformationen, die für Ihre Daten ausgeführt werden sollen, und Lakeflow Spark Declarative Pipelines verwaltet die Aufgaben-Orchestrierung, Clusterverwaltung, Überwachung, Datenqualität und Fehlerbehandlung. Siehe Lakeflow Spark Declarative Pipelines.

Pipelines-Datasets

Streamingtabellen, materialisierte Sichten und Ansichten, die als Ergebnis deklarativer Abfragen verwaltet werden.

Delta-Freigabe

Ermöglicht es Ihnen, Daten und KI-Ressourcen in Azure Databricks für Benutzer außerhalb Ihrer Organisation freizugeben, unabhängig davon, ob diese Benutzer Azure Databricks verwenden oder nicht. Auch als Open-Source-Projekt für die Freigabe tabellarischer Daten verfügbar, besteht durch die Nutzung in Azure Databricks zusätzlich die Möglichkeit, nicht tabellarische, unstrukturierte Daten, KI-Modelle, Ansichten, gefilterte Daten und Notizbücher freizugeben. Siehe Was ist Delta Sharing?.

Delta-Tabellen

Das Standarddatentabellenformat in Azure Databricks und ist ein Feature des Datenframeworks Delta Lake Open Source. Delta-Tabellen werden in der Regel für Data Lakes verwendet, bei denen Daten über Streaming oder in großen Batches erfasst werden. Siehe Azure Databricks Tables.

E

Einbetten (Substantiv)

Eine mathematische Darstellung des semantischen Inhalts von Daten, z. B. Text oder Bilder, ausgedrückt als Vektor von Zahlen. Einbettungen werden in Azure Databricks für die Vektorsuche, die Abruferweiterung und andere KI-Anwendungen verwendet. Anders als beim Begriff "Einbetten" wie beim Einbetten eines Dashboards in eine Benutzeroberfläche. Siehe Mosaic AI-Vektorsuche.

ETL (Extrahieren, Transformieren und Laden)

Ein moderner Ansatz für die Datenintegration, der Daten aus Quellen extrahiert, in das Zielsystem lädt und anschließend im Zielsystem transformiert. Siehe Lernprogramm: Erstellen einer ETL-Pipeline mit Lakeflow Spark Declarative Pipelines.

Externe Tabelle

Eine Tabelle, die im Unity-Katalog registriert ist, in der sich die Daten an einem externen Cloudspeicherort befinden. Unity Catalog verwaltet Metadaten und Zugriffssteuerung, aber der Datenlebenszyklus wird außerhalb von Azure Databricks verwaltet. Weitere Informationen finden Sie unter Arbeiten mit externen Tabellen.

F

Featurespeicher

Ein zentrales Repository zum Speichern, Verwalten und Bereitstellen von Features für Machine Learning-Modelle. Siehe Databricks Feature Store.

Feinabstimmung

Der Prozess der Übernahme eines vorab trainierten Machine Learning-Modells und einer Weiterbildung zu einem kleineren, domänenspezifischen Dataset, um seine Leistung für eine bestimmte Anwendung zu optimieren. Siehe Trainieren von KI- und ML-Modellen.

Fluss

Ein Flow ist ein Prozess in Lakeflow Spark Declarative Pipelines, der Daten liest, transformiert und in ein Ziel schreibt.

Fremdtabelle

Eine schreibgeschützte Tabelle im Unity-Katalog, deren Daten von einem Katalog außerhalb des Unity-Katalogs verwaltet werden, z. B. AWS Glue oder Snowflake. Azure Databricks verwendet lakehouse Federation, um Metadaten abzurufen und die Tabelle aus dem Objektspeicher zu lesen. Siehe "Arbeiten mit Fremdtabellen".

Grundlagenmodelle

Große ML-Modelle, die vorab trainiert werden, um sie für spezifischere Aufgaben im Bereich Sprachverständnis und -generierung zu optimieren. Siehe Databricks Foundation Model-APIs.

G

Geniecode

Ein autonomer KI-Partner, der speziell für die Datenarbeit in Azure Databricks entwickelt wurde. Genie Code ist tief in Unity Catalog integriert und bietet kontextbezogenes Bewusstsein für Ihre Tabellen, Spalten und Linien, um komplexe, mehrstufige Datenaufgaben zu beschleunigen. Siehe Genie Code.

Genie Space

Ein Azure Databricks KI/BI-Feature, mit dem Geschäftsteams mithilfe natürlicher Sprache mit ihren Daten interagieren können. Domänenexperten konfigurieren Genie-Räume mit Datasets, Beispielabfragen und Richtlinien, damit Genie Geschäftsfragen in SQL-Abfragen übersetzen kann. Sehen Sie Was ist ein Genie-Raum.

Generative KI

Eine Art künstlicher Intelligenz, die sich auf die Fähigkeit von Computern konzentriert, Modelle zum Erstellen von Inhalten wie Bildern, Text, Code und synthetischen Daten zu verwenden. Generative KI-Anwendungen basieren auf generativen KI-Modellen: großen Sprachmodellen (LLMs) und Foundation-Modellen. Siehe KI und Machine Learning in Databricks.

Git-Ordner

Ein visueller Git-Client, der in den Azure Databricks Arbeitsbereich integriert ist, der Versionssteuerung, Zusammenarbeit und CI/CD-Funktionen für Notizbücher und Dateien bereitstellt. Früher bekannt als Repos. Siehe Azure Databricks Git-Ordner.

I

Ableitung

Der Prozess der Verwendung eines trainierten maschinellen Lernmodells zum Generieren von Vorhersagen oder Ausgaben aus neuen Eingabedaten. Azure Databricks unterstützt Echtzeit- und Batch-Ableitung über Mosaik AI Model Serving. Siehe Modelle bereitstellen mithilfe von Mosaic AI Model Serving.

Init-Skript

Ein Shellskript, das beim Start einer Azure Databricks Computeressource ausgeführt wird. Init-Skripts können Pakete installieren, Konfigurationen ändern oder Umgebungsvariablen festlegen. Weitere Informationen finden Sie unter Was sind Initskripts?.

J

Auftrag

Die primäre Einheit für die Planung und Orchestrierung von Produktionsworkloads für Azure Databricks. Ein Auftrag enthält mindestens einen Auftrag. Siehe Lakeflow Jobs.

L

Lakeflow Connect

Bietet integrierte Connectors zum Erfassen von Daten aus Unternehmensanwendungen und Datenbanken. Die resultierende Aufnahmepipeline wird vom Unity-Katalog gesteuert und durch serverlose Rechenkapazität sowie Lakeflow Spark Declarative Pipelines unterstützt. Siehe Managed Connectors in Lakeflow Connect.

Lakehouse Federation

Die Abfrageverbundplattform für Azure Databricks. Der Begriff „Abfrageverbund“ beschreibt eine Sammlung von Funktionen, mit deren Hilfe Benutzer und Systeme Abfragen für mehrere isolierte Datenquellen ausführen können, ohne alle Daten in ein einheitliches System migrieren zu müssen. Azure Databricks verwendet Unity-Katalog zum Verwalten des Abfrageverbunds. Siehe Was ist Lakehouse Federation?.

Lakebase

Azure Databricks Lakebase ist eine OLTP-Datenbank, die in Ihr Lakehouse integriert ist. Eine OLTP-Datenbank (Online Transaction Processing) ist eine spezielle Art von Datenbanksystem, mit der hohe Mengen von Transaktionsdaten in Echtzeit effizient verarbeitet werden können. Lakebase ermöglicht es Ihnen, eine OLTP-Datenbank auf Azure Databricks zu erstellen und OLTP-Workloads in Ihr Lakehouse zu integrieren.

See Lakebase.

Lakebase-Endpunkt

Ein Lakebase-Endpunkt ist der primäre Datenbankzugriffspunkt für Ihre Lakebase Postgres-Datenbank. Jeder Endpunkt wird durch eine eindeutige Endpunkt-ID identifiziert und innerhalb einer einzelnen Cloudregion ausgeführt. Ein Endpunkt kann als einzelne Recheneinheit oder mit hoher Verfügbarkeit konfiguriert werden. Dabei wird eine primäre Recheneinheit mit einer oder mehreren sekundären Recheneinheiten verbunden, um automatisches Failover zu ermöglichen. Sie stellen eine Verbindung mit Ihrer Datenbank über die Verbindungszeichenfolgen des Endpunkts her.

Siehe Hohe Verfügbarkeit.

Large Language Model (LLM)

Ein Modell zur Verarbeitung natürlicher Sprache, das für Aufgaben wie das Beantworten offener Fragen, Chats, Inhaltszusammenfassung, Ausführung nahezu beliebiger Anweisungen, Übersetzungen und Inhalts- und Codegenerierung entwickelt wurde. LLMs werden von umfangreichen Datensätzen mit erweiterten Algorithmen für maschinelles Lernen trainiert, um die Muster und Strukturen der menschlichen Sprache zu erlernen. Siehe Large Language Models (LLMs) in Databricks.

Bibliothek

Ein Paket mit Code, das für das Notebook oder den Auftrag verfügbar ist, das bzw. der in Ihrem Cluster ausgeführt wird. Databricks-Runtimes enthalten zahlreiche Bibliotheken, und Sie können auch eigene Bibliotheken hochladen. Siehe Installieren von Bibliotheken.

Flüssigkeitsclustering

Ein Azure Databricks-Datenlayoutoptimierungsfeature für Delta- und Iceberg-Tabellen, das Daten basierend auf angegebenen Spalten inkrementell clustert, um die Abfrageleistung zu verbessern. Im Gegensatz zur herkömmlichen Partitionierung passt sich das Flüssigclustering an die Änderung von Datenmustern an. Siehe Verwenden von Flüssigclustering für Tabellen.

M

verwaltete Tabelle

Eine Tabelle, deren Datendateien und Metadaten vom Unity-Katalog vollständig verwaltet werden. Verwaltete Tabellen werden immer im Delta- oder Iceberg-Format gespeichert und profitieren von der automatisierten Wartung durch predictive Optimization. Siehe Unity Catalog verwaltete Tabellen in Azure Databricks für Delta Lake und Apache Iceberg.

Materialisierte Sicht

Eine Ansicht, die vorkompiliert und gespeichert wurde, damit sie mit geringerer Latenz oder wiederholt ohne redundante Berechnung abgefragt werden kann. Siehe Materialisierte Ansichten.

Medallion-Architektur

Ein Datenmodellmuster, das verwendet wird, um Daten in einem Lakehouse logisch zu organisieren, mit dem Ziel, die Struktur und Qualität der Daten schrittweise und fortlaufend zu verbessern, wenn sie durch jede Ebene der Architektur fließen (von Bronze- zu Silber- zu Gold-Schichttabellen). Was ist die Medallion Lakehouse-Architektur?.

Metastore

Die Komponente, in der alle Strukturinformationen der verschiedenen Tabellen und Partitionen im Data Warehouse gespeichert werden. Hierzu zählen unter anderem Spalten- und Spaltentypinformationen, die zum Lesen und Schreiben von Daten erforderlichen Serialisierer und Deserialisierer sowie die entsprechenden Dateien, in denen die Daten gespeichert sind. Siehe Metastore.

Metrikansicht

Ein Unity Catalog-Objekt, das eine zentrale Möglichkeit zum Definieren und Verwalten wiederverwendbarer Geschäftsmetriken bietet. Metrikansichten trennen Measuredefinitionen von Dimensionsgruppierungen, sodass Sie Metriken einmal definieren und flexibel in jeder Dimension abfragen können. Siehe Metrikansichten des Unity-Katalogs.

MLflow

Die größte Open Source KI-Engineering-Plattform für Agents, LLMs und ML-Modelle. MLflow ermöglicht Es Teams aller Größen, ihre KI-Anwendungen zu debuggen, zu bewerten, zu überwachen und zu optimieren und gleichzeitig Kosten zu steuern und den Zugriff auf Modelle und Daten zu verwalten. MLflow auf Azure Databricks ist ein vollständig verwalteter Dienst mit zusätzlichen Funktionen für Unternehmenskunden und bietet eine skalierbare und sichere verwaltete Bereitstellung von MLflow. Siehe MLflow auf Databricks.

MLflow-Ablaufverfolgung

Ein Feature von MLflow für GenAI, das End-to-End-Observability bietet, indem jeder Schritt protokolliert wird, der von einem KI-Agent oder einer Anwendung ausgeführt wird. Verwenden Sie MLflow-Tracking zum Debuggen, Monitoring und Prüfen des Agentenverhaltens in der Entwicklung und Produktion. Siehe MLflow Tracing - GenAI Observability.

Modellkontextprotokoll (MCP)

Ein Open-Source-Standard, der KI-Agents mit Tools, Ressourcen, Eingabeaufforderungen und anderen kontextbezogenen Informationen über eine standardisierte Schnittstelle verbindet. Azure Databricks stellt verwaltete, externe und benutzerdefinierte MCP-Server bereit. Siehe Model Context Protocol (MCP) für Databricks.

Modelltraining

Der Prozess der Schulung von maschinellem Lernen und Deep Learning-Modellen auf Azure Databricks mit vielen beliebten Open-Source-Bibliotheken. Siehe Trainieren von KI- und ML-Modellen.

Mosaik-KI

Das Feature, das einheitliche Tools zum Erstellen, Bereitstellen, Bewerten und Steuern von KI- und ML-Lösungen bietet – vom Erstellen von Predictive ML-Modellen bis hin zu den neuesten generativen KI-Apps. Siehe KI und Machine Learning in Databricks.

Mosaik KI-Modell-Dienste

Die einheitliche Schnittstelle zur Bereitstellung, Steuerung und Abfrage von KI-Modellen für Echtzeit- und Batch-Inference. Siehe Modelle bereitstellen mithilfe von Mosaic AI Model Serving.

Training von Mosaic AI-Modellen

Das Feature, mit dem Sie Ihre eigenen Daten verwenden können, um ein Basismodell anzupassen und seine Leistung für Ihre spezifische Anwendung zu optimieren. Durch die vollständige Parameteroptimierung oder das fortlaufende Training eines Basismodells können Sie Ihr eigenes Modell mit deutlich weniger Daten, Zeit und Rechenressourcen trainieren, als ein Modell von Grund auf neu zu trainieren. Siehe Feinabstimmung von Foundation-Modellen.

Mosaic AI-Vektorsuche

Ein Vektorsuchindex, der in die Databricks Data Intelligence Platform integriert ist und in seine Governance- und Produktivitätstools integriert ist. Siehe Mosaic AI-Vektorsuche.

N

Notebook

Eine interaktive Webschnittstelle, die von Datenwissenschaftlern und Ingenieuren zum Schreiben und Ausführen von Code in mehreren Sprachen (z. B. Python, Scala, SQL) im selben Dokument verwendet wird. Siehe Databricks-Notizbücher.

O

OAuth

OAuth ist ein offener Standard für die Zugriffsdelegierung, der häufig als Möglichkeit für Internetbenutzer verwendet wird, Websites oder Anwendungen Zugriff auf ihre Informationen auf anderen Websites zu gewähren, aber ohne ihnen die Kennwörter zu geben. Siehe Zugriff auf Azure Databricks-Ressourcen autorisieren.

P

Partner Connect

Ein Programm von Databricks bietet Integrationen, die von unabhängigen Softwareherstellern verwaltet werden, um eine Verbindung mit den meisten Unternehmensdatensystemen herstellen zu können. Siehe Was ist Databricks Partner Connect?.

Persönliches Zugriffstoken (PAT)

Eine Zeichenfolge, die zur Authentifizierung eines Benutzers beim Zugriff auf ein Computersystem anstelle eines Kennworts verwendet wird. Siehe Zugriff auf Azure-Databricks-Ressourcen autorisieren.

Photon

Ein leistungsstarkes Databricks-natives vektorisiertes Abfragemodul, das Ihre SQL-Workloads und DataFrame-API-Aufrufe schneller ausführt, um Ihre Gesamtkosten pro Workload zu senken. Photon ist mit Apache Spark-APIs kompatibel, sodass es mit Ihrem vorhandenen Code funktioniert. Siehe Was ist Photon?.

Predictive Optimization

Ein Azure Databricks-Feature, das Wartungsvorgänge automatisch in verwalteten Tabellen im Unity-Katalog identifiziert und ausführt, um die Abfrageleistung zu verbessern und die Speicherkosten zu reduzieren. Siehe Prädiktive Optimierung für verwaltete Unity Catalog-Tabellen.

Pipeline

Ein DAG von Tabellen, Ansichten, materialisierten Sichten, Flüssen und Senken, die in einer Abhängigkeitsreihenfolge aktualisiert werden, die vom System bestimmt wird.

R

Abfragengestützte Generierung (RAG)

Eine Technik, mit der ein großes Sprachmodell (LLM) erweiterte Antworten generieren kann, indem die Eingabeaufforderung eines Benutzers mit unterstützenden Daten erweitert wird, die aus einer externen Informationsquelle abgerufen wurden. Durch Einbinden dieser abgerufenen Informationen ermöglicht RAG dem LLM, genauere, qualitativ hochwertige Antworten zu generieren, als wenn der Prompt nicht mit zusätzlichem Kontext erweitert worden wäre. Siehe RAG (Retrieval Augmented Generation) auf Azure Databricks.

E

Schema (Unity Catalog)

Das untergeordnete Element eines Katalogs in Unity Catalog, das Tabellen, Ansichten, Volumes, Modelle und Funktionen enthalten kann. Ein Schema ist die zweite Ebene des dreistufigen Namespaces von Unity Catalog (catalog.schema.table-etc).) Siehe Was ist Unity Catalog?.

Serverloses Computing

Die von Azure Databricks verwaltete Berechnung reduziert den Verwaltungsaufwand und bietet sofortige Berechnung zur Verbesserung der Benutzerproduktivität. Siehe Herstellen einer Verbindung mit serverlosem Compute.

Dienstprinzipal

Eine Identität, die für die Verwendung mit automatisierten Tools, laufenden Aufträgen und Anwendungen erstellt wurde. Sie können den Zugriff eines Dienstprinzipals auf Ressourcen mithilfe von Berechtigungen auf die gleiche Weise wie ein Azure Databricks Benutzer einschränken. Im Gegensatz zu einem Azure Databricks-Benutzer ist ein Dienstprinzipal eine API-exklusive Identität. Er kann nicht direkt auf die Azure Databricks UI oder Databricks CLI zugreifen. Siehe Dienstprinzipale.

Senke (Pipelines)

Eine Senke ist ein Ziel für einen Flow, der in ein externes System (z. B. Kafka, Kinesis, Delta) schreibt.

SQL-Warehouse

Eine Computeressource, mit der Sie Daten in Azure Databricks abfragen und untersuchen können. Siehe Herstellen einer Verbindung mit einem SQL-Warehouse.

Streamverarbeitung

Eine Datenverarbeitungsmethode, mit der Sie eine Abfrage für ein ungebundenes, kontinuierlich wachsendes Dataset definieren und dann Daten in kleinen, inkrementellen Batches verarbeiten können. Azure Databricks Datenstromverarbeitung verwendet strukturiertes Streaming. Siehe Konzepte des strukturierten Streamings.

Streaming

Streaming bezieht sich auf alle Medieninhalte – live oder aufgezeichnet – (d. h. einen Datenstrom), die über das Internet an Computer und mobile Geräte übermittelt und in Echtzeit wiedergegeben werden. Siehe Konzepte des strukturierten Streamings.

Streaminganalysen

Der Prozess der Analyse von Daten, die kontinuierlich von verschiedenen Quellen generiert werden. Azure Databricks unterstützt Streaminganalysen über strukturiertes Streaming, was die Verarbeitung und Analyse von Livedaten für Echtzeiteinblicke ermöglicht.

Strukturiertes Streaming

Ein skalierbares und fehlertolerantes Datenstromverarbeitungsmodul, das auf dem Spark SQL-Modul basiert und komplexe Berechnungen als Streamingabfragen ermöglicht. Siehe Konzepte des strukturierten Streamings.

Streamingtabelle

Eine verwaltete Tabelle, in die ein Datenstrom geschrieben wird. Siehe Streamingtabellen.

Systemtabellen

Azure Databricks-gehosteter analytischer Datenspeicher der Betriebsdaten Ihres Kontos, wie Überwachungsprotokolle, abrechnungsfähige Nutzung und Datenherkunft. Systemtabellen sind im system Katalog im Unity-Katalog verfügbar. Siehe "Überwachen der Kontoaktivität mit Systemtabellen".

Synchronisierte Tabelle

Eine synchronisierte Tabelle ist eine schreibgeschützte Unity Catalog-Postgres-Tabelle, die Daten automatisch von einer Unity Catalog-Tabelle mit Ihrer Datenbankinstanz synchronisiert. Weitere Informationen finden Sie unter Serve Lakehouse-Daten mit synchronisierten Tabellen (Lakebase Provisioned).

T

Tabelle

Eine Tabelle befindet sich in einem Schema und enthält Datenzeilen. Alle in Azure Databricks erstellten Tabellen verwenden standardmäßig Delta Lake. Tabellen, die von Delta Lake unterstützt werden, werden auch als „Delta-Tabellen“ bezeichnet. Siehe Azure Databricks Tables.

Ausgelöste Pipeline

Eine Pipeline, die alle Daten erfasst, die zu Beginn der Aktualisierung für jede Tabelle verfügbar waren, die in Abhängigkeitsreihenfolge ausgeführt und dann beendet wird. Siehe Ausgelöste vs. Continuous Pipeline-Modus.

U

benutzerdefinierte Funktion (UDF)

Eine benutzerdefinierte Funktion, die von einem Benutzer erstellt wurde, um die integrierten Funktionen von SQL oder einer Programmiersprache zu erweitern. In Azure Databricks können UDFs im Unity Catalog für die Verwaltung registriert und arbeitsbereichsübergreifend wiederverwendet werden. Siehe Was sind benutzerdefinierte Funktionen (UDFs, User Defined Functions)?.

Unity-Katalog

Ein Azure Databricks-Feature, das zentrale Zugriffssteuerungs-, Überwachungs-, Linien- und Datenermittlungsfunktionen für Azure Databricks Arbeitsbereiche bereitstellt. Siehe Was ist Unity Catalog?.

V

Vektordatenbank

Eine Datenbank, die zum Speichern und Abrufen von Einbettungen optimiert ist. Einbettungen sind mathematische Darstellungen des semantischen Inhalts von Daten, in der Regel Text- oder Bilddaten. Databricks bietet einen Vektorsuchindex, mit dem Sie Vektordatenbankfeatures in Ihren Delta-Tabellen verwenden können. Siehe Mosaic AI-Vektorsuche.

Sicht

Eine virtuelle Tabelle, die von einer SQL-Abfrage definiert wird. Sie speichert keine Daten selbst, sondern bietet eine Möglichkeit, Daten aus einer oder mehreren Tabellen in einem bestimmten Format oder einer Abstraktion darzustellen. Siehe Was ist eine Ansicht?.

Volumes (Unity Catalog)

Unity Catalog-Objekte, die Governance über nicht tabellarische Datasets ermöglichen. Volumes stellen ein logisches Speichervolume an einem Cloudobjektspeicherort dar. Volumes bieten Funktionen zum Zugreifen auf Dateien sowie zum Speichern, Verwalten und Organisieren von Dateien. Siehe Was sind Unity Catalog-Volumes?.

W

Lakeflow-Aufträge

Die Reihe von Tools, mit denen Sie Datenverarbeitungsaufgaben auf Azure Databricks planen und koordinieren können. Siehe Lakeflow Jobs.

Workload

Die Menge der Verarbeitungsfunktion, die zum Ausführen einer Aufgabe oder Gruppe von Aufgaben erforderlich ist. Azure Databricks identifiziert zwei Arten von Workloads: Datentechnik (Auftrag) und Datenanalyse (allzweckübergreifend). Siehe Azure Databricks Components.

Arbeitsbereich

Eine Organisationsumgebung, in der Databricks-Benutzer Objekte wie Notebooks, Experimente, Abfragen und Dashboards entwickeln, durchsuchen und freigeben können. Siehe Arbeitsbereich-UI.