01. 引言:技术背景与发展动因
大模型 (Large Models) 并非一蹴而就,而是深度学习十年发展的集大成者。其核心在于通过Scaling Laws(缩放定律),利用海量数据和参数量激发模型的Emergent Abilities(涌现能力)。
Scaling Laws
模型性能与计算量、数据集大小、参数量呈幂律关系。算力越大、数据越多,模型越强。
Emergent Abilities
当模型规模突破一定阈值(如 100B 参数),突然具备了小模型不具备的推理、代码生成等能力。
范式转变
从 "Pre-train + Fine-tune" (BERT时代) 转向 "Pre-train + Prompt / In-context Learning" (GPT时代)。
02. 大模型技术栈概览
大模型技术栈是一个高度复杂的系统工程,可以类比为建造一座摩天大楼。地基是算力硬件,钢筋混凝土是数据,设计图纸是算法,施工队是训练框架,装修是微调与对齐,最后交付使用的是应用。
我们将技术栈自下而上分为六大核心层级:
- 基础设施层 (Infrastructure)
- 数据层 (Data)
- 算法层 (Algorithm)
- 训练层 (Training)
- 推理与部署层 (Inference & Deployment)
- 应用层 (Application)
03. 数据层:智能的燃料
数据质量决定了模型的上限。大模型训练需要处理 PB 级别的文本数据。
1. 数据采集 (Collection)
来源包括 CommonCrawl (网页), GitHub (代码), Wikipedia (百科), 书籍与论文。
2. 数据清洗 (Cleaning)
去除 HTML 标签、低质量文本、隐私信息(PII 过滤)。使用启发式规则或分类模型过滤垃圾数据。
3. 去重 (Deduplication)
使用 MinHash + LSH 等算法进行模糊去重,防止模型“死记硬背”重复内容,提升泛化能力。
4. 分词 (Tokenization)
将文本转换为模型可理解的数字序列。主流算法为 BPE (Byte Pair Encoding)。
04. 算法层:智慧的引擎
当前大模型几乎全部基于 Transformer 架构(Decoder-only 为主)。
核心组件
- Self-Attention (自注意力机制): 捕捉长距离依赖,理解上下文关系。
- FFN (前馈神经网络): 存储知识,通常采用 SwiGLU 激活函数。
- Positional Encoding (位置编码): RoPE (Rotary Positional Embedding) 是目前标配,支持外推更长窗口。
- Normalization: RMSNorm 替代 LayerNorm,训练更稳定。
典型架构代表:
05. 训练层:从无知到博学
训练是将数据注入算法的过程,分为三个主要阶段。
Phase 1: Pre-training (预训练)
目标: 学习通用语言知识。
方法: Next Token Prediction
(自监督学习)。
挑战: 大规模分布式训练的稳定性与效率。
Phase 2: SFT (有监督微调)
目标: 激发指令遵循能力,学会“对话”。
数据: 高质量的 Prompt-Response
对。
技术: LoRA, QLoRA (参数高效微调)。
Phase 3: RLHF / DPO (对齐)
目标: 符合人类价值观(有用、诚实、无害)。
方法: 奖励模型 (Reward Model) + PPO
强化学习,或直接偏好优化 (DPO)。
06. 推理与部署:速度与成本的博弈
模型训练好后,如何高效地服务用户是工程化的核心。
关键加速技术
- KV Cache: 缓存 Attention 的 Key/Value 矩阵,避免重复计算。
- PagedAttention (vLLM): 像操作系统管理内存一样管理显存,极大提升吞吐量。
- Quantization (量化): FP16 -> INT8 / INT4,减少显存占用,加速计算 (GPTQ, AWQ)。
- Speculative Decoding (投机采样): 用小模型猜,大模型验,加速生成。
主流推理框架:
07. 应用层:价值的落地
这是用户直接接触的层面,通过 Prompt Engineering 和 Agent 机制解决实际问题。
RAG (检索增强生成)
外挂知识库,解决幻觉问题和知识时效性问题。流程:Embedding -> 向量库检索 -> 注入 Context -> 生成。
Agents (智能体)
具备感知、规划、工具使用能力。能够自主拆解任务、调用 API、执行复杂流程。
08. 大模型技术栈全景图
下图展示了从底层硬件到上层应用的完整技术流向与层级依赖。
09. 总结与未来趋势
多模态融合 (Multimodal)
不仅是文本,图像、视频、音频的理解与生成将成为标配 (如 GPT-4o, Sora)。
端侧模型 (On-device AI)
高性能小模型 (SLM) 运行在手机和 PC 上,保护隐私且低延迟。
自主智能体 (Autonomous Agents)
从“对话者”进化为“行动者”,能够长期规划并解决复杂现实任务。