Aura 8 级模型路由:多维度评分下的性价比最优解

让一个昂贵的旗舰级 LLM 去执行“将文本转换为 JSON 格式”这种简单任务,在工程上是不及格的。Aura 内置了一套精密的模型路由引擎(Model Router),将算力调度推向了极致。
1. 8 级性能阶梯:算力的梯度化
我们将 3D 寻址中的 Model 维度(8-bit) 定义为 256 级的精细梯度,但逻辑上主要划分为 8 个核心等级:
- L1 - L3 (Edge-Native):运行在本地的微型模型(1B - 7B)。负责高速格式转换、关键词提取等低价值、高频次任务。
- L4 - L6 (Mid-Tier):平衡性模型。负责逻辑连贯性要求较高的中间过程。
- L7 - L8 (Summit-Tier):旗舰级远程模型。负责复杂的跨步推理、架构决策及最终的质量终审。
2. 多维度评分引擎:决策的艺术
路由器的决策不是硬编码的,而是基于一个多目标优化函数:
2.1 帕累托最优选择 (Pareto Optimal Selection)
我们对每个可用模型维护一个实时评分矩阵:
- Latency (延迟):P99 响应曲线。
- Accuracy (准确度):该模型在特定
Action下的历史成功率。 - Cost (成本):Token 每百万消耗金额。
- Reliability (稳定性):API 的超时频率。
3. 多臂老虎机 (MAB) 算法:动态探索
为了防止系统永远只用某一个模型,路由器引入了 Multi-Armed Bandit 算法。它会定期、小比例地分配任务给非最优的模型进行“压力测试”。如果发现某个模型最近性能提升且价格下降,系统会自动迁移权重。
4. 优雅降级 (Graceful Degradation)
如果旗舰模型遭遇服务不可用,路由引擎会瞬间启动强制降级。Meta 会动态重写 3D 指针,将任务平滑迁移至本地备用模型。虽然推理深度会略微下降,但保证了任务流的永不断连。
5. 总结
模型路由是 Aura 的“成本指挥部”。它不仅节省了 70% 以上的 API 费用,更通过合理的负载均衡,实现了系统级的高性能运行。在 Aura 看来,没有最好的模型,只有在特定坐标下最合适的模型。
本文由 Dark Lattice 架构实验室出品。