大模型技术栈全景解析

The Full Stack of Large Language Models

从底层算力到上层应用,深度解构 LLM 的技术奥秘与工程实践。

01. 引言:技术背景与发展动因

大模型 (Large Models) 并非一蹴而就,而是深度学习十年发展的集大成者。其核心在于通过Scaling Laws(缩放定律),利用海量数据和参数量激发模型的Emergent Abilities(涌现能力)

Scaling Laws

模型性能与计算量、数据集大小、参数量呈幂律关系。算力越大、数据越多,模型越强。

Emergent Abilities

当模型规模突破一定阈值(如 100B 参数),突然具备了小模型不具备的推理、代码生成等能力。

范式转变

从 "Pre-train + Fine-tune" (BERT时代) 转向 "Pre-train + Prompt / In-context Learning" (GPT时代)。

02. 大模型技术栈概览

大模型技术栈是一个高度复杂的系统工程,可以类比为建造一座摩天大楼。地基是算力硬件,钢筋混凝土是数据,设计图纸是算法,施工队是训练框架,装修是微调与对齐,最后交付使用的是应用。

我们将技术栈自下而上分为六大核心层级:

03. 数据层:智能的燃料

数据质量决定了模型的上限。大模型训练需要处理 PB 级别的文本数据。

1. 数据采集 (Collection)

来源包括 CommonCrawl (网页), GitHub (代码), Wikipedia (百科), 书籍与论文。

CommonCrawl The Pile

2. 数据清洗 (Cleaning)

去除 HTML 标签、低质量文本、隐私信息(PII 过滤)。使用启发式规则或分类模型过滤垃圾数据。

CCNet TextFixer

3. 去重 (Deduplication)

使用 MinHash + LSH 等算法进行模糊去重,防止模型“死记硬背”重复内容,提升泛化能力。

4. 分词 (Tokenization)

将文本转换为模型可理解的数字序列。主流算法为 BPE (Byte Pair Encoding)。

SentencePiece Tiktoken HuggingFace Tokenizers

04. 算法层:智慧的引擎

当前大模型几乎全部基于 Transformer 架构(Decoder-only 为主)。

核心组件

  • Self-Attention (自注意力机制): 捕捉长距离依赖,理解上下文关系。
  • FFN (前馈神经网络): 存储知识,通常采用 SwiGLU 激活函数。
  • Positional Encoding (位置编码): RoPE (Rotary Positional Embedding) 是目前标配,支持外推更长窗口。
  • Normalization: RMSNorm 替代 LayerNorm,训练更稳定。

典型架构代表:

GPT-4 (MoE) Llama 3 (Dense) Mistral (MoE) Qwen

05. 训练层:从无知到博学

训练是将数据注入算法的过程,分为三个主要阶段。

Phase 1: Pre-training (预训练)

目标: 学习通用语言知识。
方法: Next Token Prediction (自监督学习)。
挑战: 大规模分布式训练的稳定性与效率。

Megatron-LM DeepSpeed PyTorch FSDP

Phase 2: SFT (有监督微调)

目标: 激发指令遵循能力,学会“对话”。
数据: 高质量的 Prompt-Response 对。
技术: LoRA, QLoRA (参数高效微调)。

PEFT Axolotl

Phase 3: RLHF / DPO (对齐)

目标: 符合人类价值观(有用、诚实、无害)。
方法: 奖励模型 (Reward Model) + PPO 强化学习,或直接偏好优化 (DPO)。

06. 推理与部署:速度与成本的博弈

模型训练好后,如何高效地服务用户是工程化的核心。

关键加速技术

  • KV Cache: 缓存 Attention 的 Key/Value 矩阵,避免重复计算。
  • PagedAttention (vLLM): 像操作系统管理内存一样管理显存,极大提升吞吐量。
  • Quantization (量化): FP16 -> INT8 / INT4,减少显存占用,加速计算 (GPTQ, AWQ)。
  • Speculative Decoding (投机采样): 用小模型猜,大模型验,加速生成。

主流推理框架:

vLLM TensorRT-LLM TGI (Text Generation Inference) Llama.cpp (端侧)

07. 应用层:价值的落地

这是用户直接接触的层面,通过 Prompt Engineering 和 Agent 机制解决实际问题。

RAG (检索增强生成)

外挂知识库,解决幻觉问题和知识时效性问题。流程:Embedding -> 向量库检索 -> 注入 Context -> 生成。

LangChain LlamaIndex Milvus/Pinecone

Agents (智能体)

具备感知、规划、工具使用能力。能够自主拆解任务、调用 API、执行复杂流程。

AutoGPT BabyAGI OpenAI Assistants API

08. 大模型技术栈全景图

下图展示了从底层硬件到上层应用的完整技术流向与层级依赖。

应用层 (Application Layer) ChatBot / Copilot RAG (Knowledge Base) Autonomous Agents 部署与推理层 (Deployment & Inference) Optimization Quantization (INT8/4), Pruning Inference Engine vLLM, TensorRT-LLM, TGI Serving API Gateway, Load Balancing 模型与训练层 (Model & Training) Transformer Architecture Self-Attention Feed Forward (FFN) Training Pipeline Pre-training SFT (Fine-tune) RLHF / DPO 数据层 (Data Layer) Raw Data Cleaning & Filter Deduplication Tokenization Datasets (CommonCrawl, Github...) 基础设施层 (Infrastructure) Hardware (GPU/TPU) Cluster Network (IB) Cloud Platform

09. 总结与未来趋势

多模态融合 (Multimodal)

不仅是文本,图像、视频、音频的理解与生成将成为标配 (如 GPT-4o, Sora)。

端侧模型 (On-device AI)

高性能小模型 (SLM) 运行在手机和 PC 上,保护隐私且低延迟。

自主智能体 (Autonomous Agents)

从“对话者”进化为“行动者”,能够长期规划并解决复杂现实任务。