Modelli linguistici di grandi dimensioni

Importante

Il runtime di intelligenza artificiale per le attività a nodo singolo è disponibile in anteprima pubblica. L'API di training distribuita per i carichi di lavoro con più GPU rimane in beta.

Questa pagina fornisce esempi di notebook per ottimizzare i modelli di linguaggio di grandi dimensioni usando AI Runtime. Questi esempi illustrano vari approcci all'ottimizzazione, inclusi metodi efficienti per i parametri, ad esempio Low-Rank Adaptation (LoRA) e l'ottimizzazione completa con supervisione.

Tutoriale	Descrizione
Ottimizzare il modello Qwen2-0.5B	Ottimizzare in modo efficiente il modello Qwen2-0.5B utilizzando l'apprendimento con rinforzo tramite Transformer (TRL), i kernel Liger per un addestramento efficiente in termini di memoria e LoRA per una messa a punto efficiente dei parametri.
Ottimizzare Llama-3.2-3B con Unsloth	Ottimizzare Llama-3.2-3B usando la libreria Unsloth.
Ottimizzazione con supervisione con DeepSpeed e TRL	Usare l'API Python gpu serverless per eseguire l'ottimizzazione con supervisione (SFT) usando la libreria TRL (Transformer Reinforcement Learning) con l'ottimizzazione DeepSpeed ZeRO Stage 3.
Ottimizzazione di LORA con Axolotl	Usare l'API Python della GPU serverless per ottimizzare un modello 7B di Olmo3 usando la libreria Axolotl.
Ottimizzazione distribuita di Qwen2-0.5B	Ottimizzare il modello Qwen2-0.5B utilizzando i Kernel LoRA e Liger per un training distribuito efficiente dal punto di vista della memoria con riduzione dei parametri.
Distribuzione e ottimizzazione fine di Llama-3.2-3B con Unsloth	Affinare Llama-3.2-3B usando l'addestramento distribuito su più GPU con la libreria Unsloth per un addestramento ottimizzato nell'efficienza dei parametri.
Ottimizzare Llama 3.1 8B con LLM Foundry	Ottimizzare il modello Llama 3.1 8B usando Mosaic LLM Foundry con strategie di training distribuite e valutazione del modello.
Ottimizzare GPT-OSS 120B con DDP e FSDP	Ottimizzare il modello GPT-OSS 120B di OpenAI usando l'ottimizzazione con supervisione su GPU H100 con strategie di training distribuite DDP e FSDP.
Training distribuito con PyTorch FSDP	Eseguire il training dei modelli Transformer usando PyTorch Fully Sharded Data Parallel (FSDP) per partizionare i parametri del modello tra più GPU.

Video dimostrativo

Questo video illustra in dettaglio il notebook di esempio Ottimizzare Llama-3.2-3B con Unsloth (12 minuti).

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-04

Condividi tramite

Modelli linguistici di grandi dimensioni

Video dimostrativo

Commenti e suggerimenti

Risorse aggiuntive