Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questa pagina è una panoramica delle funzionalità disponibili quando si usa Databricks Feature Store con Unity Catalog.
Databricks Feature Store offre un registro centrale per le funzionalità usate nei modelli di intelligenza artificiale e Machine Learning. Le tabelle e i modelli di funzionalità vengono registrati nel Unity Catalog, offrendo governance integrata, tracciabilità e condivisione e scoperta di funzionalità tra diverse aree di lavoro. Con Databricks, l'intero flusso di lavoro di training del modello viene eseguito su una singola piattaforma, tra cui:
- Pipeline di dati che inseriscono dati non elaborati, creano tabelle delle funzionalità, eseguono il training di modelli ed eseguono l’inferenza batch.
- Modellare e gestire gli endpoint disponibili con un solo clic e che forniscono millisecondi di latenza.
- Monitoraggio di dati e modelli.
Quando si usano le funzionalità del magazzino di funzionalità per eseguire l'addestramento dei modelli, il modello tiene automaticamente traccia della provenienza delle funzionalità usate nell'addestramento. In fase di inferenza, il modello cerca automaticamente i valori delle funzionalità più recenti. L'archivio delle caratteristiche offre anche un calcolo su richiesta delle caratteristiche per le applicazioni in tempo reale. Il feature store gestisce tutte le attività di calcolo delle caratteristiche. In questo modo si elimina la discrepanza tra training e inferenza, garantendo che i calcoli delle feature utilizzati durante l'inferenza siano gli stessi di quelli utilizzati durante il training del modello. Semplifica anche in modo significativo il codice lato client, poiché tutte le ricerche e i calcoli delle funzionalità vengono gestiti dall'archivio funzionalità.
Annotazioni
Questa pagina illustra la progettazione delle funzionalità e le funzionalità di gestione per le aree di lavoro abilitate per Unity Catalog. Se l'area di lavoro non è abilitata per il Catalogo Unity, consultare Area di lavoro Feature Store (deprecato).
Panoramica dei concetti
Per una panoramica del funzionamento di Databricks Feature Store e un glossario dei termini, consultare Panoramica e glossario del Feature Store.
Progettazione di funzionalità
| Caratteristica / Funzionalità | Description |
|---|---|
| Tabelle delle funzionalità | Creare e usare tabelle delle funzionalità. |
Individuare e condividere funzionalità
| Caratteristica / Funzionalità | Description |
|---|---|
| Esplorare le funzionalità nel catalogo unity | Esplorare e gestire le tabelle delle funzionalità usando Esplora cataloghi e l'interfaccia utente delle funzionalità. |
| Usare tag con tabelle delle funzionalità e funzioni in Unity Catalog | Utilizzare semplici coppie chiave-valore per classificare e gestire le tabelle delle funzionalità e le loro caratteristiche. |
Usare le funzionalità nei flussi di lavoro di training
| Caratteristica / Funzionalità | Description |
|---|---|
| Eseguire il training di modelli con tabelle delle funzionalità | Usare le funzionalità per eseguire il training dei modelli. |
| Join delle funzionalità a un momento specifico | Usare la correttezza al momento specifico per creare un set di dati di addestramento che rifletta i valori delle feature al momento in cui è stata registrata un'osservazione dell'etichetta. |
| Python API | Informazioni di riferimento sulle API Python |
Caratteristiche di servizio
| Caratteristica / Funzionalità | Description |
|---|---|
| Feature Store online di Databricks | Fornire dati delle caratteristiche alle applicazioni online e ai modelli di machine learning in tempo reale. Basato su Databricks Lakebase. |
| Servizio di Modelli con ricerca automatica delle caratteristiche | Cercare automaticamente i valori delle funzionalità da un negozio online. |
| Endpoint di erogazione delle funzionalità | Offrire funzionalità a modelli e applicazioni all'esterno di Databricks. |
| Calcolo delle funzionalità su richiesta | Calcolare i valori delle caratteristiche al momento dell'inferenza. |
Governance e provenienza delle funzionalità
| Caratteristica / Funzionalità | Description |
|---|---|
| Governance e derivazione delle funzionalità | Usare Il catalogo unity per controllare l'accesso alle tabelle delle funzionalità e visualizzare la derivazione di una tabella delle funzionalità, un modello o una funzione. |
Esercitazioni
| Tutorial | Description |
|---|---|
| Notebook di esempio per iniziare |
Notebook di base. Illustra come creare una tabella delle funzionalità, usarla per eseguire il training di un modello ed eseguire l'assegnazione dei punteggi batch usando la ricerca automatica delle funzionalità. Mostra anche l'interfaccia utente di Feature Engineering per cercare funzionalità e visualizzare la provenienza. Esempio di notebook taxi. Illustra il processo di creazione di funzionalità, l'aggiornamento e l'uso di tali funzionalità per il training del modello e l'inferenza batch. |
| Esempio: Distribuire ed eseguire query su un endpoint di distribuzione delle funzionalità | Esercitazione e notebook di esempio che mostrano come distribuire ed eseguire query su un endpoint di erogazione delle funzionalità. |
| Esempio: usare le funzionalità con applicazioni RAG strutturate | Esercitazione che illustra come usare le tabelle online di Databricks e gli endpoint di gestione delle funzionalità per il recupero di applicazioni di generazione aumentata (RAG). |
Requisiti
- L’area di lavoro deve avere il catalogo Unity abilitato.
- La progettazione delle funzionalità in Unity Catalog richiede Databricks Runtime 13.3 LTS o versione successiva.
Se la tua area di lavoro non soddisfa questi requisiti, consulta Workspace Feature Store (deprecato) per informazioni su come utilizzare il Workspace Feature Store legacy.
Tipi di dati supportati
La progettazione delle funzionalità in Unity Catalog e l'archivio delle funzionalità dell'area di lavoro legacy supportano i tipi di dati PySpark seguenti :
IntegerTypeFloatTypeBooleanTypeStringTypeDoubleTypeLongTypeTimestampTypeDateTypeShortTypeArrayType-
BinaryType[1] -
DecimalType[1] -
MapType[1] -
StructType[2]
[1] BinaryType, DecimalType e MapType sono supportati in tutte le versioni di Feature Engineering in Unity Catalog e nello Workspace Feature Store v0.3.5 o versione successiva.
[2] StructType è supportato in Feature Engineering v0.6.0 o versione successiva.
I tipi di dati elencati in precedenza supportano tipi di funzionalità comuni nelle applicazioni di Machine Learning. Ad esempio:
- È possibile archiviare vettori densi, tensori e incorporamenti come
ArrayType. - È possibile memorizzare vettori, tensori e incorporamenti sparsi come
MapType. - È possibile archiviare il testo come
StringType.
Quando vengono pubblicate nei negozi online, le funzionalità di ArrayType e MapType sono archiviate in formato JSON.
L’interfaccia utente di Feature Store visualizza i metadati sui tipi di dati delle funzionalità:
Ulteriori informazioni
Per altre informazioni sulle procedure consigliate, scaricare la Guida completa agli store di funzionalità.