2026 年选 LLM API 的 5 个重点

价格已经不是主要痛点。Context window、推理 token、cache 命中率、输出速度、开源 vs 闭源——这 5 件事在 2026 年才是选型的关键。

1. 标价不是你的实际帐单

定价页上的标题数字——例如「每 1M input tokens $0.50」——其实是你最没办法控制的部分。2026 年各大主流提供商的 input 单价已经差不多收敛：旗舰模型大致落在 $1～$5 / M tokens 之间；中等模型（GPT-4o mini、Claude Haiku、Gemini Flash）彼此差距已经只剩几美分。

真正会拉开差距的是 output 单价，通常是 input 的 3～5 倍，而且会随你的 prompt 让模型「话多不多」线性扩张。一个 $3 input / $15 output 的模型，对一个回答简短但 context 很长的 RAG 系统而言，会远比 $1 input / $20 output 便宜。先量你的实际 input/output 比例，再选模型——而不是反过来。

2. 推理 token 是新的隐形成本

OpenAI o 系列和 Claude 的 extended thinking 模式都会计费推理 token——模型在产出可见答案前内部跑过的 chain-of-thought。这些 token 算 output。一个「请认真思考」的 prompt，推理过程可能比最终答案长 5～20 倍。也就是说：可见输出只有 100 tokens 的问题，实际付费的可能是 2,000 tokens——而你看不到。

两个推论：（1）对成本敏感的工作流，最便宜的推理模型往往比最贵的非推理模型还贵；（2）比价时必须比「每个任务的全包成本」，不是 $/M output tokens。提供商的定价页很少把这件事讲清楚，得自己用真实 prompt 量一遍。

3. 缓存命中率比单价更重要

Prompt caching 从 2024 年的「锦上添花」，到 2026 年已经变成影响月费最大的单一杠杆。各家提供商的 cached input 现在都收 10～25% 标准价。对 agent 类工作流——长 system prompt 在多轮对话里反复出现——cache 命中率高的话，月费可以直接砍掉 60～80%。

但有个陷阱：cache 命中率取决于你的 prompt 结构，不是模型本身。两家标价完全一样 $/M 的提供商，最终帐单可能差好几倍——差异来自他们怎么去重前缀、cache 保留多久。在 scale 之前一定要先跑一周真实流量、从 dashboard 拉 cache hit 指标。标价「比较贵」的那家常常反而胜出。

4. 输出速度决定单位经济模型

对聊天 UX 来说，tokens/秒每翻一倍，感受到的响应时间就砍半。但对批次和背景作业，输出速度决定一台机器在撞到 concurrency limit 之前能并发多少请求——这是单位经济模型的硬天花板，不只是体验问题。

2026 年最快的模型（Groq 上跑的 Llama 变种、Gemini Flash、高吞吐量的 DeepSeek V4）可以推到 200～400 tokens/秒。最慢的推理模型，一旦 thinking trace 开始跑，可能掉到 20～40 tps。这是 10 倍的吞吐量差距。要做即时应用就实测和你工作流相似的速度，别看官方行销图。

5. 开源 vs 闭源：差距已经不在能力，在运维

2026 年，最强的开源权重模型（Llama 4、DeepSeek V4、Qwen 3）在大多数 benchmark 上已经逼近 GPT-5 和 Claude Opus 4.6。「开源够不够强」这个问题对多数工作流来说已经不再重要——答案是够。真正的问题变成：你想不想自己跑推理。

盈亏平衡点大致在每天 5,000 万～1 亿 tokens 的持续吞吐量。超过这个量级，自己跑一组 GPU 集群跑开源模型，会比同等闭源模型的 API 便宜。低于这个量级，运维成本——uptime、scaling、模型更新、量化选择——几乎都让数字回头倾向 managed API。如果你的流量起伏大、不稳定，就算尖峰时段自 host 看起来更便宜，还是留在 API 上比较安稳。

总结

挑模型时，价格应该是最后一步——前面要先量过：你的 input/output 比例、prompt 结构（cache 命中潜力）、是否需要推理、延迟预算。本站的模型表是依 input 单价排序的，那是起点不是答案。答案来自你自己的 production log。

本文由 Allen Pan 撰写。如有勘误或想交流，欢迎来信 allen@xyzsleep.com。

1. 标价不是你的实际帐单

2. 推理 token 是新的隐形成本

3. 缓存命中率比单价更重要

4. 输出速度决定单位经济模型

5. 开源 vs 闭源：差距已经不在能力，在运维

总结

延伸阅读