Solon v3.10.3

summary (上下文压缩)配置指南

</> markdown
2026年4月15日 上午9:33:49

1、上下文压缩配置指南

上下文大小summaryWindowSize 建议summaryWindowToken 建议适用场景与策略建议
20k10 - 158,000 - 12,000紧凑型: 必须频繁触发 Summarization。由于容量有限,需严格控制工作内存,防止超出导致的强制截断。
100k30 - 4024,000 - 32,000均衡型: 能够容纳较长的代码段或多轮 ReAct 思考。32k 是目前大多数模型保持高召回率(Recall)的黄金线。
200k50 - 6048,000 - 64,000扩展型: 适合复杂任务编排。利用长上下文减少摘要频率,保持原始 Tool Call 链路的完整性。
1m (100万)100 - 150128,000+海量型: 此时 maxTokens 更多是为了控制成本和响应延迟。通常设为 128k 即可覆盖绝大多数超长对话。

2、重要提醒

  • 摘要窗口越大,有助于 llm 理解上下文;但是,上下文的 token 也会越大(越费钱)
  • 搞要窗口太小,llm 不好施展拳脚(还可能处处受制。比如:读取的文件,很快就被压缩了)