Gemini 2.0 Flash 即將關閉:2026 年替代模型與 API 價格比較
Google 已標示 Gemini 2.0 Flash 與 2.0 Flash-Lite 將在 2026-06-01 停止服務。本文比較 2.5 Flash-Lite、2.5 Flash、Gemini 3 Flash 與 3.1 Flash-Lite 的價格與遷移選擇。
1. 為什麼現在要處理
Google 的 Gemini 淘汰項目頁面
已經把 gemini-2.0-flash 和 gemini-2.0-flash-lite 的停用日期列為
2026-06-01。這不是普通的版本提醒;模型關閉後,端點就不能繼續使用。生產環境如果還在呼叫 2.0 Flash 系列,最好在停用前完成遷移,而不是等錯誤日誌出現。
紙面上的遷移路徑很直接:2.0 Flash 換到 2.5 Flash,2.0 Flash-Lite 換到 2.5 Flash-Lite。但成本並不只是換個 model id。2.5 Flash-Lite 大致保留舊 Flash 的價格級距;2.5 Flash 的 output 價格明顯更高;Gemini 3 系列則提供更新的模型生命週期,但 token 單價也會上升。
2. 替代模型快速比較
| 目前模型 | 預設替代 | 適合情境 |
|---|---|---|
gemini-2.0-flash-lite | gemini-2.5-flash-lite | 大量分類、資料抽取、路由、翻譯、簡單多模態任務。 |
gemini-2.0-flash | gemini-2.5-flash | 聊天、RAG、agent 工作流,以及需要 1M context window 的應用。 |
| 準備做第二次遷移 | gemini-3.1-flash-lite | 想轉向較新的 Gemini 3 低價模型、且能接受較高 token 單價的團隊。 |
Gemini 3 Flash Preview 和 Gemini 3.5 Flash 對多數 2.0 Flash 使用者來說不是「維持原成本」的替代品。只有當模型能力、grounding 或更新行為比帳單穩定更重要時,才值得優先測試。
3. 價格差在哪裡
下表使用 Google Gemini API 定價頁 在 2026-05-24 查閱到的公開數字。除非特別說明,價格單位都是每 100 萬文字 / 圖片 / 影片 tokens 的美元價格。
| 模型 | Input | Output | Cached input |
|---|---|---|---|
| Gemini 2.0 Flash | $0.10 | $0.40 | $0.025 |
| Gemini 2.0 Flash-Lite | $0.075 | $0.30 | 不支援 |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | $0.01 |
| Gemini 2.5 Flash | $0.30 | $2.50 | $0.03 |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | $0.025 |
| Gemini 3 Flash Preview | $0.50 | $3.00 | $0.05 |
最大的變化在 output。2.0 Flash 換到 2.5 Flash 時,input 從 $0.10 到 $0.30,是 3 倍;output 從 $0.40 到 $2.50,是 6.25 倍。如果你的應用會輸出長回答、解釋文字或 agent 軌跡,這次遷移就不只是小版本升級。
Search grounding 也要分開看。2.5 Flash 系列沿用舊結構:付費層級每天 1,500 個 grounded prompts 免費,之後每 1,000 個 grounded prompts 收 $35。Gemini 3 系列則是所有 Gemini 3 模型共享每月免費額度,之後每 1,000 個 search queries 收 $14。一個 prompt 可能觸發多次 search query,所以不要只看表面單價。
4. 依工作負載選模型
大量分類、資料抽取、內容審核、路由和翻譯,先從 2.5 Flash-Lite 開始。它最接近 2.0 Flash-Lite,也能覆蓋不少輕量 2.0 Flash 工作負載。
客服聊天和 RAG,先測 2.5 Flash。output 價格確實提高,但 1M context window 與 context caching 對長 system prompt、政策文件、檢索片段反覆使用的工作流很重要。
Agent 與工具呼叫工作流,2.5 Flash-Lite 和 2.5 Flash 都要測。真正的成本取決於模型重試次數、工具呼叫次數,以及是否產生很長的中間推理。Google 定價頁標示 output 含 thinking tokens 的模型,帳單可能比可見回答長度漲得更快。
Search-grounded 回答要把 token 成本和 grounding 成本拆開看。Gemini 3 系列的 search 單位價格看起來更低,但模型 token 價更高,且一次 prompt 可能產生多個 search queries。
5. 遷移檢查清單
- 先在 staging 環境替換 model id,不要直接改 production。
- 重放真實 prompts,並記錄 input tokens、output tokens、thinking tokens、cache hit 與工具呼叫。
- 用真實 input/output 比例估算月費,不要只看定價表。
- 檢查是否依賴 preview 模型、rate limit 或 search grounding 行為。
- 在 2026-06-01 前至少並跑幾天,再逐步切流量。
如果只想要一個預設答案:2.0 Flash-Lite 遷到 2.5 Flash-Lite;2.0 Flash 遷到 2.5 Flash 之前,先量 output 長度。如果 output 帳單太高,先試 2.5 Flash-Lite,不要直接跳到 Gemini 3 模型。