2026 年选 LLM API 的 5 个重点

价格已经不是主要痛点。Context window、推理 token、cache 命中率、输出速度、开源 vs 闭源——这 5 件事在 2026 年才是选型的关键。

1. 标价不是你的实际帐单

定价页上的标题数字——例如「每 1M input tokens $0.50」——其实是你最没办法控制的部分。2026 年各大主流提供商的 input 单价已经差不多收敛:旗舰模型大致落在 $1~$5 / M tokens 之间;中等模型(GPT-4o mini、Claude Haiku、Gemini Flash)彼此差距已经只剩几美分。

真正会拉开差距的是 output 单价,通常是 input 的 3~5 倍,而且会随你的 prompt 让模型「话多不多」线性扩张。一个 $3 input / $15 output 的模型,对一个回答简短但 context 很长的 RAG 系统而言,会远比 $1 input / $20 output 便宜。先量你的实际 input/output 比例,再选模型——而不是反过来。

2. 推理 token 是新的隐形成本

OpenAI o 系列和 Claude 的 extended thinking 模式都会计费推理 token——模型在产出可见答案前内部跑过的 chain-of-thought。这些 token 算 output。一个「请认真思考」的 prompt,推理过程可能比最终答案长 5~20 倍。也就是说:可见输出只有 100 tokens 的问题,实际付费的可能是 2,000 tokens——而你看不到。

两个推论:(1)对成本敏感的工作流,最便宜的推理模型往往比最贵的非推理模型还贵;(2)比价时必须比「每个任务的全包成本」,不是 $/M output tokens。提供商的定价页很少把这件事讲清楚,得自己用真实 prompt 量一遍。

3. 缓存命中率比单价更重要

Prompt caching 从 2024 年的「锦上添花」,到 2026 年已经变成影响月费最大的单一杠杆。各家提供商的 cached input 现在都收 10~25% 标准价。对 agent 类工作流——长 system prompt 在多轮对话里反复出现——cache 命中率高的话,月费可以直接砍掉 60~80%。

但有个陷阱:cache 命中率取决于你的 prompt 结构,不是模型本身。两家标价完全一样 $/M 的提供商,最终帐单可能差好几倍——差异来自他们怎么去重前缀、cache 保留多久。在 scale 之前一定要先跑一周真实流量、从 dashboard 拉 cache hit 指标。标价「比较贵」的那家常常反而胜出。

4. 输出速度决定单位经济模型

对聊天 UX 来说,tokens/秒每翻一倍,感受到的响应时间就砍半。但对批次和背景作业,输出速度决定一台机器在撞到 concurrency limit 之前能并发多少请求——这是单位经济模型的硬天花板,不只是体验问题。

2026 年最快的模型(Groq 上跑的 Llama 变种、Gemini Flash、高吞吐量的 DeepSeek V4)可以推到 200~400 tokens/秒。最慢的推理模型,一旦 thinking trace 开始跑,可能掉到 20~40 tps。这是 10 倍的吞吐量差距。要做即时应用就实测和你工作流相似的速度,别看官方行销图。

5. 开源 vs 闭源:差距已经不在能力,在运维

2026 年,最强的开源权重模型(Llama 4、DeepSeek V4、Qwen 3)在大多数 benchmark 上已经逼近 GPT-5 和 Claude Opus 4.6。「开源够不够强」这个问题对多数工作流来说已经不再重要——答案是够。真正的问题变成:你想不想自己跑推理。

盈亏平衡点大致在每天 5,000 万~1 亿 tokens 的持续吞吐量。超过这个量级,自己跑一组 GPU 集群跑开源模型,会比同等闭源模型的 API 便宜。低于这个量级,运维成本——uptime、scaling、模型更新、量化选择——几乎都让数字回头倾向 managed API。如果你的流量起伏大、不稳定,就算尖峰时段自 host 看起来更便宜,还是留在 API 上比较安稳。

总结

挑模型时,价格应该是最后一步——前面要先量过:你的 input/output 比例、prompt 结构(cache 命中潜力)、是否需要推理、延迟预算。本站的模型表是依 input 单价排序的,那是起点不是答案。答案来自你自己的 production log。