大型语言模型（LLM）

重要

用于单节点任务的 AI 运行时为公共预览版。多 GPU 工作负载的分布式训练 API 仍为 Beta 版。

本页提供了使用 AI 运行时微调大型语言模型（LLM）的笔记本示例。这些示例演示了各种微调方法，包括低秩适应（Low-Rank Adaptation，LoRA）和完全监督微调等高效参数方法。

教程	说明
微调 Qwen2-0.5B 模型	使用 Transformer 强化学习（TRL）、Liger 内核（用于内存高效训练）和 LoRA（用于参数高效微调）高效地微调 Qwen2-0.5B 模型。
使用 Unsloth 微调 Llama-3.2-3B	使用 Unsloth 库微调 Llama-3.2-3B。
使用 DeepSpeed 和 TRL 进行监督式微调	使用 Serverless GPU Python API 结合 DeepSpeed ZeRO 第 3 阶段优化，通过 Transformer 强化学习（TRL）库运行监督式微调（SFT）。
使用 Axolotl 进行 LORA 微调	使用无服务器 GPU Python API，通过 Axolotl 库对 Olmo3 7B 模型进行微调。
分布式微调 Qwen2-0.5B	使用 LoRA 和 Liger 内核微调 Qwen2-0.5B 模型，以便通过参数减少进行内存高效的分布式训练。
使用 Unsloth 对 Llama-3.2-3B 进行分布式微调	微调 Llama-3.2-3B，将分布式训练与 Unsloth 库配合使用，以优化参数高效训练。
使用 LLM Foundry 微调 Llama 3.1 8B	微调 Llama 3.1 8B 模型，使用 Mosaic LLM Foundry，并结合分布式训练策略和模型评估。
利用 DDP 和 FSDP 对 GPT-OSS 120B 进行微调	微调 OpenAI 的 GPT-OSS 120B 模型，使用 DDP 和 FSDP 分布式训练策略对 H100 GPU 进行监督微调。
使用 PyTorch FSDP 进行分布式训练	使用 PyTorch 完全分片数据并行（FSDP）训练 Transformer 模型，以便在多个 GPU 上分片模型参数。

视频演示

此视频详细讲解了使用 Unsloth 进行微调 Llama-3.2-3B 的示例笔记本（12 分钟）。

反馈

此页面是否有帮助？

Last updated on 2026-04-04