图书简介:
第1章 大模型原理与技术概要
1.1 图解大模型结构
1.1.1 大语言模型(LLM)结构全景图
1.1.2 输入层:分词、Token映射与向量生成
1.1.3 输出层:Logits、概率分布与解码
1.1.4 多模态语言模型(MLLM、VLM)
1.2 大模型训练全景图
1.3 Scaling Law(性能的四大扩展规律)
第2章 SFT(监督微调)
2.1 多种微调技术图解
2.1.1 全参数微调、部分参数微调
2.1.2 LoRA(低秩适配微调)——四两拨千斤
2.1.3 LoRA衍生:QLoRA、AdaLoRA、PiSSA等
2.1.4 基于提示的微调:Prefix-Tuning等
2.1.5 Adapter Tuning
2.1.6 微调技术对比
2.1.7 如何选择微调技术
2.2 SFT原理深入解析
2.2.1 SFT数据与ChatML格式化
2.2.2 Logits与Token概率计算
2.2.3 SFT的Label
2.2.4 SFT的Loss图解
2.2.5 对数概率(LogProbs)与LogSoftmax
2.3 指令收集和处理
2.3.1 收集指令的渠道和方法
2.3.2 清洗指令的四要素
2.3.3 数据预处理及常用工具
2.4 SFT实践指南
2.4.1 如何缓解SFT引入的幻觉?
2.4.2 Token级Batch Size的换算
2.4.3 Batch Size与学习率的Scaling Law
2.4.4 SFT的七个技巧
第3章 DPO(直接偏好优化)
3.1 DPO的核心思想
3.1.1 DPO的提出背景与意义
3.1.2 隐式的奖励模型
3.1.3 Loss和优化目标
3.2 偏好数据集的构建
3.2.1 构建流程总览
3.2.2 Prompt的收集
3.2.3 问答数据对的清洗
3.2.4 封装和预处理
3.3 图解DPO的实现与训练
3.3.1 模型的初始化
3.3.2 DPO训练全景图
3.3.3 DPO核心代码的提炼和解读
3.4 DPO实践经验
3.4.1 β参数如何调节
3.4.2 DPO对模型能力的多维度影响
3.5 DPO进阶
3.5.1 DPO和RLHF(PPO)的对比
3.5.2 理解DPO的梯度
第4章 免训练的效果优化技术
4.1 提示工程
4.1.1 Zero-Shot、One-Shot、Few-Shot
4.1.2 Prompt设计的原则
4.2 CoT(思维链)
4.2.1 CoT原理图解
4.2.2 ToT、GoT、XoT等衍生方法
4.2.3 CoT的应用技巧
4.2.4 CoT在多模态领域的应用
4.3 生成控制和解码策略
4.3.1 解码的原理与分类
4.3.2 贪婪搜索
4.3.3 Beam Search(波束搜索):图解、衍生
4.3.4 Top-K、Top-P等采样方法图解
4.3.5 其他解码策略
4.3.6 多种生成控制参数
4.4 RAG(检索增强生成)
4.4.1 RAG技术全景图
4.4.2 RAG相关框架
4.5 功能与工具调用(Function Calling)
4.5.1 功能调用全景图
4.5.2 功能调用的分类
第5章 强化学习基础
5.1 强化学习核心
5.1.1 强化学习:定义与区分
5.1.2 强化学习的基础架构、核心概念
5.1.3 马尔可夫决策过程(MDP)
5.1.4 探索与利用、ε-贪婪策略
5.1.5 On-policy和Off-policy
5.1.6 在线/离线强化学习(Online/Offline RL)
5.1.7 强化学习分类图
5.2 价值函数、回报预估
5.2.1 奖励、回报、折扣因子(R、G、γ)
5.2.2 反向计算回报
5.2.3 四种价值函数:Qπ、Vπ、V*、Q*
5.2.4 奖励、回报、价值的区别
5.2.5 贝尔曼方程——强化学习的基石
5.2.6 Q和V的转换关系、转换图
5.2.7 蒙特卡洛方法(MC)
5.3 时序差分(TD)
5.3.1 时序差分方法
5.3.2 TD-Target和TD-Error
5.3.3 TD(λ)、多步TD
5.3.4 蒙特卡洛、TD、DP、穷举搜索的区别
5.4 基于价值的算法
5.4.1 Q-learning算法
5.4.2 DQN
5.4.3 DQN的Loss、训练过程
5.4.4 DDQN、Dueling DQN等衍生算法
5.5 策略梯度算法
5.5.1 策略梯度(Policy Gradient)
5.5.2 策略梯度定理
5.5.3 REINFORCE和Actor-Critic
5.6 多智能体强化学习(MARL)
5.6.1 MARL的原理与架构
5.6.2 MARL的建模
5.6.3 MARL的典型算法
5.7 模仿学习(IL)
5.7.1 模仿学习的定义、分类
5.7.2 行为克隆(BC)
5.7.3 逆向强化学习(IRL)
5.7.4 生成对抗模仿学习(GAIL)
5.8 强化学习高级拓展
5.8.1 基于环境模型(Model-Based)的方法
5.8.2 分层强化学习(HRL)
5.8.3 分布价值强化学习(Distributional RL)
第6章 策略优化算法
6.1 Actor-Critic(演员-评委)架构
6.1.1 从策略梯度到Actor-Critic
6.1.2 Actor-Critic架构图解
6.2 优势函数与A2C
6.2.1 优势函数(Advantage)
6.2.2 A2C、A3C、SAC算法
6.2.3 GAE(广义优势估计)算法
6.2.4 γ和λ的调节作用
6.3 PPO及其相关算法
6.3.1 PPO算法的演进
6.3.2 TRPO(置信域策略优化)
6.3.3 重要性采样(Importance Sampling)
6.3.4 PPO-Penalty
6.3.5 PPO-Clip
6.3.6 PPO的Loss的扩展
6.3.7 TRPO与PPO的区别
6.3.8 图解策略模型的训练
6.3.9 深入解析PPO的本质
6.4 GRPO算法
6.4.1 GRPO的原理
6.4.2 GRPO与PPO的区别
6.5 确定性策略梯度(DPG)
6.5.1 确定性策略vs随机性策略
6.5.2 DPG、DDPG、TD3算法
第7章 RLHF与RLAIF
7.1 RLHF(基于人类反馈的强化学习)概要
7.1.1 RLHF的背景、发展
7.1.2 语言模型的强化学习建模
7.1.3 RLHF的训练样本、总流程
7.2 阶段一:图解奖励模型的设计与训练
7.2.1 奖励模型(Reward Model)的结构
7.2.2 奖励模型的输入与奖励分数
7.2.3 奖励模型的Loss解析
7.2.4 奖励模型训练全景图
7.2.5 奖励模型的Scaling Law
7.3 阶段二:多模型联动的PPO训练
7.3.1 四种模型的角色图解
7.3.2 各模型的结构、初始化、实践技巧
7.3.3 各模型的输入、输出
7.3.4 基于KL散度的策略约束
7.3.5 基于PPO的RLHF核心实现
7.3.6 全景图:基于PPO的训练
7.4 RLHF实践技巧
7.4.1 奖励欺骗(Reward Hacking)
7.4.2 拒绝采样(Rejection Sampling)微调
7.4.3 强化学习与RLHF的训练框架
7.4.4 RLHF的超参数
7.4.5 RLHF的关键监控指标
7.5 基于AI反馈的强化学习
7.5.1 RLAIF的原理图解
7.5.2 CAI:基于宪法的强化学习
7.5.3 RBR:基于规则的奖励
第8章 逻辑推理能力优化
8.1 逻辑推理(Reasoning)相关技术概览
8.1.1 推理时计算与搜索
8.1.2 基于CoT的蒸馏
8.1.3 过程奖励模型与结果奖励模型(PRM/ORM)
8.1.4 数据合成
8.2 推理路径搜索与优化
8.2.1 MCTS(蒙特卡洛树搜索)
8.2.2 A*搜索
8.2.3 BoN采样与蒸馏
8.2.4 其他搜索方法
8.3 强化学习训练
8.3.1 强化学习的多种应用
8.3.2 自博弈(Self-Play)与自我进化
8.3.3 强化学习的多维创新
第9章 综合实践与性能优化
9.1 实践全景图
9.2 训练与部署
9.2.1 数据与环境准备
9.2.2 超参数如何设置
9.2.3 SFT训练
9.2.4 对齐训练:DPO训练、RLHF训练
9.2.5 推理与部署
9.3 DeepSeek的训练与本地部署
9.3.1 DeepSeek的蒸馏与GRPO训练
9.3.2 DeepSeek的本地部署与使用
9.4 效果评估
9.4.1 评估方法分类
9.4.2 LLM与VLM的评测框架
9.5 大模型性能优化技术图谱
展开
近年来,大模型、具身智能机器人、自动驾驶、AGI、AIGC等技术方向已成为科技行业与资本市场的关注焦点,被广泛视为未来数年的核心发展趋势。这些技术正逐步改变人类的生活方式、社会形态及全球科技竞争格局。大模型作为推动这些技术进步的核心引擎,其潜力与重要性正日益突显。
人脑约有800 亿个神经元,这些神经元通过100 万亿至1000 万亿个突触(类似于“参数”)相互连接,以实现信息传递。相比之下,当前,大模型的参数量主要处于百亿至万亿级别,通常不及人脑参数量的千分之一,却已在多个领域展现出与人类博士水平相当的能力。
此外,人一生中大约能阅读10 亿个Token(词元),而大模型仅需几周至几个月即可完成对100000 亿个Token 的学习与训练。这些数据涵盖了广泛的学科知识与互联网公开信息,使大模型在知识覆盖面和信息处理效率上远超人类。
得益于训练语料在知识广度、规模与多样性上的优势,大模型的知识体系横跨多个领域。大模型不仅被应用于互联网业务,还在自动驾驶、机器人、金融、设计、教育等行业展现出巨大潜力。凭借卓越的泛化能力,大模型正以破竹之势推动技术革新与行业进步。对于个人而言,学习和掌握大模型技术无疑为迈向未来增添了一项重要技能。本书将以
深入浅出的方式,结合大量自制原理图、表格与示例,为读者全面解析大模型的核心技术,帮助读者更高效地理解与应用这些技术。
本书主要内容
文本作为承载与传递各学科知识的主要媒介,通常以书籍、论文、网页和代码等形式存在。在大模型的训练与应用中,大语言模型(LLM)占据核心地位,并进一步衍生出视觉语言模型(VLM)和多模态大语言模型(MLLM)等形式。本书以LLM 为主线,深入解析大模型的结构、原理、训练算法与实践,其中绝大部分内容也适用于VLM 和MLLM。大模型的训练与调优算法是其技术体系的核心,通常分为预训练和后训练两个阶段。预训练阶段依赖海量数据和高性能算力,成本高昂,单次训练往往耗资数千万元乃至数亿元,主要由少数公司主导。相比之下,后训练阶段更贴近实际应用场景,拥有庞大的开发者和从业者群体。开源大模型为开发者提供了利用基座模型进行特定训练的灵活性,而闭源大模型通常以API、网页或云服务形式封装训练与微调过程,使模型的训练与调优更加高效便捷。为帮助读者全面掌握大模型相关技术,本书的内容架构分为以下三部分。
(1)监督学习与调优:第1~4 章的内容涵盖大模型的基础技术与训练流程,监督微调(SFT)训练原理,DPO 算法与对齐训练,生成与解码策略,以及思维链(CoT)、提示工程、检索增强生成(RAG)和工具调用等实用技术。
(2)强化学习:第5~8 章重点介绍强化学习的基础理论与分类,包括模仿学习、多智能体强化学习、DQN 系列算法、DPG 系列算法、A2C、PPO、GRPO、RLHF、RLAIF、MCTS 等。此外,还涵盖逻辑推理(Reasoning)能力优化、推理时计算与搜索、自博弈(Self-Play)等技术。
(3)综合实践:第9 章讲述大模型的训练与实践、DeepSeek 的训练与部署,包括数据与环境准备、SFT 训练、DPO 训练、RLHF 训练、蒸馏模型效果评估、部署及性能优化。
展开