Gemini 2.0 Flash 即將關閉：2026 年替代模型與 API 價格比較

Google 已標示 Gemini 2.0 Flash 與 2.0 Flash-Lite 將在 2026-06-01 停止服務。本文比較 2.5 Flash-Lite、2.5 Flash、Gemini 3 Flash 與 3.1 Flash-Lite 的價格與遷移選擇。

1. 為什麼現在要處理

Google 的 Gemini 淘汰項目頁面已經把 gemini-2.0-flash 和 gemini-2.0-flash-lite 的停用日期列為 2026-06-01。這不是普通的版本提醒；模型關閉後，端點就不能繼續使用。生產環境如果還在呼叫 2.0 Flash 系列，最好在停用前完成遷移，而不是等錯誤日誌出現。

紙面上的遷移路徑很直接：2.0 Flash 換到 2.5 Flash，2.0 Flash-Lite 換到 2.5 Flash-Lite。但成本並不只是換個 model id。2.5 Flash-Lite 大致保留舊 Flash 的價格級距；2.5 Flash 的 output 價格明顯更高；Gemini 3 系列則提供更新的模型生命週期，但 token 單價也會上升。

2. 替代模型快速比較

目前模型	預設替代	適合情境
`gemini-2.0-flash-lite`	`gemini-2.5-flash-lite`	大量分類、資料抽取、路由、翻譯、簡單多模態任務。
`gemini-2.0-flash`	`gemini-2.5-flash`	聊天、RAG、agent 工作流，以及需要 1M context window 的應用。
準備做第二次遷移	`gemini-3.1-flash-lite`	想轉向較新的 Gemini 3 低價模型、且能接受較高 token 單價的團隊。

Gemini 3 Flash Preview 和 Gemini 3.5 Flash 對多數 2.0 Flash 使用者來說不是「維持原成本」的替代品。只有當模型能力、grounding 或更新行為比帳單穩定更重要時，才值得優先測試。

3. 價格差在哪裡

下表使用 Google Gemini API 定價頁在 2026-05-24 查閱到的公開數字。除非特別說明，價格單位都是每 100 萬文字 / 圖片 / 影片 tokens 的美元價格。

模型	Input	Output	Cached input
Gemini 2.0 Flash	$0.10	$0.40	$0.025
Gemini 2.0 Flash-Lite	$0.075	$0.30	不支援
Gemini 2.5 Flash-Lite	$0.10	$0.40	$0.01
Gemini 2.5 Flash	$0.30	$2.50	$0.03
Gemini 3.1 Flash-Lite	$0.25	$1.50	$0.025
Gemini 3 Flash Preview	$0.50	$3.00	$0.05

最大的變化在 output。2.0 Flash 換到 2.5 Flash 時，input 從 $0.10 到 $0.30，是 3 倍；output 從 $0.40 到 $2.50，是 6.25 倍。如果你的應用會輸出長回答、解釋文字或 agent 軌跡，這次遷移就不只是小版本升級。

Search grounding 也要分開看。2.5 Flash 系列沿用舊結構：付費層級每天 1,500 個 grounded prompts 免費，之後每 1,000 個 grounded prompts 收 $35。Gemini 3 系列則是所有 Gemini 3 模型共享每月免費額度，之後每 1,000 個 search queries 收 $14。一個 prompt 可能觸發多次 search query，所以不要只看表面單價。

4. 依工作負載選模型

大量分類、資料抽取、內容審核、路由和翻譯，先從 2.5 Flash-Lite 開始。它最接近 2.0 Flash-Lite，也能覆蓋不少輕量 2.0 Flash 工作負載。

客服聊天和 RAG，先測 2.5 Flash。output 價格確實提高，但 1M context window 與 context caching 對長 system prompt、政策文件、檢索片段反覆使用的工作流很重要。

Agent 與工具呼叫工作流，2.5 Flash-Lite 和 2.5 Flash 都要測。真正的成本取決於模型重試次數、工具呼叫次數，以及是否產生很長的中間推理。Google 定價頁標示 output 含 thinking tokens 的模型，帳單可能比可見回答長度漲得更快。

Search-grounded 回答要把 token 成本和 grounding 成本拆開看。Gemini 3 系列的 search 單位價格看起來更低，但模型 token 價更高，且一次 prompt 可能產生多個 search queries。

5. 遷移檢查清單

先在 staging 環境替換 model id，不要直接改 production。
重放真實 prompts，並記錄 input tokens、output tokens、thinking tokens、cache hit 與工具呼叫。
用真實 input/output 比例估算月費，不要只看定價表。
檢查是否依賴 preview 模型、rate limit 或 search grounding 行為。
在 2026-06-01 前至少並跑幾天，再逐步切流量。

如果只想要一個預設答案：2.0 Flash-Lite 遷到 2.5 Flash-Lite；2.0 Flash 遷到 2.5 Flash 之前，先量 output 長度。如果 output 帳單太高，先試 2.5 Flash-Lite，不要直接跳到 Gemini 3 模型。

本文由 Allen Pan 撰寫。如有勘誤或想交流，歡迎來信 allen@xyzsleep.com。

1. 為什麼現在要處理

2. 替代模型快速比較

3. 價格差在哪裡

4. 依工作負載選模型

5. 遷移檢查清單

延伸閱讀