神经网络架构搜索 (NAS) 详解

1. 引言与定义

神经网络架构搜索（Neural Architecture Search, NAS） 是自动化机器学习（AutoML）领域的核心技术。NAS旨在自动设计性能优越的深度神经网络架构，减少人工干预。

传统上，神经网络架构（如 ResNet、Inception、Transformer）是由人类专家耗费数月甚至数年时间精心设计的。NAS 的核心目标是将这一过程自动化：在给定的约束条件下（如计算量、延迟、内存、能耗），自动在巨大的架构候选空间中发现性能（如准确率、效率）最优的模型。

图1：NAS核心流程 - 搜索策略在搜索空间中采样架构，评估策略反馈性能，指导下一步搜索。

2. 核心价值与动机

为何我们需要 NAS？

突破人类极限： 手工设计往往依赖直觉和经验，难以遍历海量的架构组合。NAS 已经证明能发现比人类设计更高效的架构（如 EfficientNet、AmoebaNet）。
多目标优化： 在移动端或边缘设备部署时，我们需要在精度、时延（Latency）、能耗、模型大小之间做权衡。人工微调极度耗时，而 NAS 可以在帕累托前沿（Pareto Front）上自动搜索最优解。
民主化 AI： 降低了非专家用户设计高性能模型的门槛，让更多领域专家能够利用深度学习解决实际问题。
特定任务优化： 针对特定数据集或硬件平台，NAS 可以找到比通用架构更优的定制化解决方案。

3. 搜索空间 (Search Space)

搜索空间定义了 NAS 算法可以"看到"和"选择"的所有可能的网络结构。它直接决定了算法的上限和搜索效率。

3.1 主要类型

链式结构 (Chain-structured)： 简单的层堆叠，搜索每一层的类型（Conv, Pool）、核大小、通道数、激活函数等。早期 NAS 方法多采用此类型。
多分支结构 (Multi-branch)： 类似于 ResNet 或 Inception，允许层之间存在跳跃连接（Skip Connection）或并行分支。增加了架构的表达能力。
基于 Cell 的搜索 (Cell-based)： 搜索微小的结构单元（Normal Cell 和 Reduction Cell），然后通过堆叠这些 Cell 构建整个网络。这是目前最主流的方法，能大幅缩小搜索空间，提高搜索效率。代表作：NASNet、ENAS、DARTS。
层次化搜索 (Hierarchical)： 在多个层次上进行搜索，包括宏观架构（网络深度、宽度）和微观结构（Cell 内部连接）。

图2：搜索空间类型对比 - 从简单的层堆叠到复杂的微架构（Cell）设计。

3.2 搜索空间设计原则

表达能力： 搜索空间应该足够大，能够包含高性能架构。
搜索效率： 空间不宜过大，否则搜索成本过高。需要通过专家知识或约束来缩小空间。
可迁移性： 在小数据集上搜索的架构应该能够迁移到大数据集。

4. 搜索策略 (Search Strategy)

搜索策略决定了如何在庞大的搜索空间中高效地找到最优解。这相当于在地图上寻找宝藏的导航算法。

图3：搜索策略概览 - 三大主流流派原理对比。

4.1 详细对比

强化学习 (RL)： 使用 Controller（通常是 RNN）生成架构描述，将架构的验证准确率作为奖励信号，通过策略梯度算法优化 Controller。优点是灵活，缺点是样本效率低，需要大量架构评估。
进化算法 (EA)： 维护一个架构种群，通过变异、交叉产生新架构，淘汰性能差的个体。优点是并行性好，缺点是需要大量计算资源。
梯度优化： 将离散搜索空间松弛为连续空间，使用梯度下降优化架构参数。优点是搜索效率高（GPU小时级别），缺点是可能陷入局部最优。

5. 性能评估策略 (Performance Estimation)

评估一个搜索到的架构有多好，是 NAS 中最昂贵的一步。如果每个候选架构都从头训练到收敛，搜索可能需要数千个 GPU 天。因此，高效的性能评估策略至关重要。

图4：性能评估策略对比 - 权重共享通过复用权重极大地加速搜索。

5.1 主要方法

完整训练： 从头训练每个候选架构直到收敛。最准确但极其耗时（数千 GPU 天）。
早停： 只训练少量 epoch 来估计性能。速度快但可能不准确。
权重共享 (One-Shot)： 训练一个包含所有候选操作的超网，子架构从超网继承权重。代表：ENAS、One-Shot NAS、SPOS。极大加速，但存在排名不一致问题。
性能预测器： 训练一个模型预测架构的性能，避免实际训练。
Zero-Shot： 基于网络初始化状态的统计特性预测性能，完全无需训练。

6. DARTS详解

DARTS (Differentiable Architecture Search) 是 NAS 发展史上的里程碑。它将离散的搜索空间松弛为连续空间，使得可以用梯度下降来优化架构参数，搜索效率从数千 GPU 天降低到几个 GPU 天。

6.1 核心思想

在离散搜索中，每条边只能选择一种操作。DARTS 使用 Softmax 将所有操作进行加权混合：

o(x) = Σ (exp(α_i) / Σ exp(α_j)) * op_i(x)

其中 α 是可学习的架构参数。搜索完成后，选择权重最大的操作离散化。

图5：DARTS 流程 - 将离散路径选择转化为连续权重优化。

6.2 双层优化

DARTS 需要同时优化两组参数：网络权重 w（训练集）和架构参数 α（验证集）。这是一个双层优化问题，DARTS 使用近似方法高效求解。

6.3 优缺点

优点： 搜索效率极高（1-4 GPU 天），易于实现，可扩展性好。
缺点： 存在性能崩溃问题，对超参数敏感，可能陷入局部最优。

7. 经典方法对比

方法	搜索策略	搜索空间	搜索成本	代表成果
NASNet (2017)	强化学习	Cell-based	~2000 GPU天	CIFAR-10 SOTA
ENAS (2018)	RL + 权重共享	Cell-based	~0.5 GPU天	大幅降低成本
AmoebaNet (2018)	进化算法	Cell-based	~3150 GPU天	ImageNet SOTA
DARTS (2019)	梯度优化	Cell-based	~1-4 GPU天	可微分高效
EfficientNet (2019)	RL + 复合缩放	深度+宽度+分辨率	中等	精度-效率SOTA
Once-for-All (2020)	渐进式训练	超网	训练一次	多硬件优化

8. 实际应用场景

🖼️ 计算机视觉

图像分类： EfficientNet 系列在 ImageNet 上取得 SOTA。
目标检测： NAS-FPN、Auto-FPN 自动设计特征金字塔网络。
语义分割： Auto-DeepLab 搜索编码器-解码器结构。

📝 自然语言处理

Transformer 优化： AutoFormer、Evolved Transformer 搜索更高效的 Transformer 变体。
语言模型： 搜索 RNN、LSTM 替代架构。

📱 移动端部署

MobileNet 系列： 针对移动设备优化的轻量级网络。
硬件感知 NAS： 考虑延迟、能耗、内存等硬件约束。
Once-for-All： 一次训练，支持多种硬件平台。

🔬 其他领域

语音识别： 搜索声学模型架构。
推荐系统： AutoCTR 自动设计点击率预测模型。
强化学习： NAS for RL 搜索策略网络。

9. 挑战与未来方向

当前挑战

计算成本： 尽管有权重共享，大规模搜索依然昂贵。
性能差距： 搜索阶段和重新训练之间的性能排名不一致。
鲁棒性： 对随机种子和超参数敏感，可复现性差。
泛化能力： 小数据集搜索的架构迁移到大数据集可能失效。
公平性： 不同架构的训练技巧可能影响评估结果。

未来方向

Zero-Shot NAS： 通过网络拓扑特性直接预测性能，无需训练。
NAS + Transformers： 自动设计高效的 Transformer 变体。
硬件感知 NAS： 针对特定硬件搜索最优架构。
多任务 NAS： 搜索在多个任务上都表现良好的通用架构。
可解释 NAS： 理解为什么某些架构性能好。
NAS Benchmark： 标准化评估协议加速研究。

10. 总结

神经网络架构搜索（NAS）正在重塑深度学习的开发范式。它将工程师从繁琐的架构调优中解放出来，专注于更高层面的搜索空间和策略设计。

核心要点

三大核心组件： 搜索空间（决定上限）、搜索策略（决定效率）、性能评估（决定成本）。
主流方法： 从早期的 RL/EA（高成本）到梯度优化（高效率），再到 Zero-Shot（无需训练）。
实用价值： EfficientNet、Once-for-All 等方法已在工业界广泛应用。
开放问题： 性能差距、鲁棒性、泛化能力仍需改进。

NAS 不仅是一项技术，更是 AI 民主化的重要推动力。随着算法和硬件的进步，未来 AI 模型的设计将更加自动化、高效化和智能化。

目录索引

NEURAL ARCHITECTURE
SEARCH