AI 處理長任務難穩定？Claude Sonnet 4.5 問世！30 小時長任務不中斷，效能超越 GPT-5 與 Gemini

重點一：Anthropic 發布 Claude Sonnet 4.5，稱其為迄今最強；可在長時程任務中連續執行超過 30 小時，並在多項基準測試領先同業。
重點二：Sonnet 4.5 在 SWE-bench Verified 取得 77.2%、在 OSWorld 取得 61.4%，超過 OpenAI 的 GPT-5 Codex 與 Google 的 Gemini 2.5 Pro；並強化電腦操作與代理能力。
重點三：Anthropic 同步推出 Claude Code 2.0 與 Claude Agent SDK，並為網頁與 App 新增程式執行、檔案建立與文件／試算表／簡報生成功能；API 價格延續 Sonnet 4。

Anthropic 推出中階旗艦模型 Claude Sonnet 4.5，官方稱其為「迄今最強」版本；能在複雜的多步長任務中「連續專注」超過 30 小時，同時在多項公開基準測試刷新成績，展現程式開發、電腦操作與推理計算的整體提升。

相較前代 Sonnet 4.0，4.5 在 OSWorld 電腦使用測試由 42.2% 大幅躍升至 61.4%，並於 SWE-bench Verified 取得 77.2%；整體表現超越 OpenAI 的 GPT-5 Codex 與 Google 旗下的 Gemini 2.5 Pro，凸顯其在實務開發與代理任務上的即戰力。

程式、電腦操作、多語知識⋯同步進化

Anthropic 指出，Claude Sonnet 4.5 的核心強項在於「可在真實環境中更穩定地完成長鏈任務」。雖然公司未披露 30 小時連續工作的具體任務內容，但強調其代理行為在長時間情境下維持一致性，減少過去常見的上下文遺失與錯誤累積。

就量化表現，該模型於 SWE-bench Verified 拿下 77.2%，在 OSWorld 取得 61.4% 並居於領先，分別高於 OpenAI 的 GPT-5 Codex 的 74.5% 與 Google 的 Gemini 2.5 Pro 的 67.2%。同時，在 AIME 2024（數學競賽基準）、MMMLU（14 種非英語科目知識）與 Vals AI Finance Agent（金融分析代理）等評測亦見進步，其中金融代理測試達 92%。

此外，Anthropic 表示已降低模型在「sycophancy（逢迎）」「deception（欺瞞）」「power-seeking（權力尋求）」與「鼓勵妄想傾向」等風險行為，回應外界對聊天機器人社會化使用的關注。

根據《Ars Technica》報導，儘管業界對廠商自行公布的基準成績向來持審慎態度（可能受資料汙染或設計偏誤影響），Sonnet 4.5 仍相較 4.0 呈現實質躍進；並獲知名開發者 Simon Willison 初步肯定，稱其在程式能力上優於其近週常用的 GPT-5 Codex。

（延伸閱讀｜Claude AI ��用真相公開！77% 企業用 AI 做自動化，軟體開發竟是最大應用？）

速度即智慧！Claude Sonnet 4.5 更快、更簡潔

Willison 引述 Cora（cora.computer）總經理 Kieran Klaassen 的說法指出，Claude Sonnet 4.5 在 Claude Code／App 中「體感快約 50%」。同樣的大型程式碼評審任務，Sonnet 4.5 約 2 分鐘完成，GPT-5 Codex 約 10 分鐘。在「速度也是智慧的一個維度」的前提下，更利於長時間配對工作。亦即， 能在大型上下文與多檔案間保持專注、不亂飄，並且更可引導、結果更一致、回覆更簡潔。

Willison 舉例，他將三份營運試算表交給模型，便能迅速生成可用的第三季投資人更新 Word 文件。至於 Klaassen 則指出，在 Cora（Every 的郵件管理工具）專案裡有一個程式錯誤，先用 Claude Opus 4.1 嘗試未能解決，但換成 Claude Sonnet 4.5 後約 20 分鐘就修復。

Willison 總結指出，若使用者以 Claude Code 為日常編程主力，Sonnet 4.5 是更快、更可靠、可引導性更優的新夥伴；但若是 GPT-5 Codex 擁護者，編程難題仍建議以 Codex 為先。若是新專案、vibe coding，或需要 Claude「勤勉＋速度」組合的任務，就值得考慮 Sonnet 4.5。

（延伸閱讀｜Vibe Coding 首選模型 Claude 為何最會寫程式？用 AI 強化 AI！官方透露 3 大關鍵）

用價格換市占！Claude Sonnet 4.5「加速不加價」

為配合模型升級，Anthropic 同步發布 Claude Code 2.0（命令列 AI 代理）與 Claude Agent SDK（代理開發套件），瞄準開發者打造客製化程式代理的需求。Claude Code 2.0 引入「checkpoint（檢查點）」以保存進度並可回滾，更新終端介面，並上線原生 VS Code 擴充；API 端亦新增「context editing（脈絡編輯）」與更佳的長任務記憶工具，改善長流程代理工作的穩定性。

在使用者端，Claude 網頁與 App 介面新增「程式碼執行」與「檔案建立」，並可在對話中直接產生試算表、投影片與文件；「Claude for Chrome」擴充則強化瀏覽器內的網站導航與表單／資料處理。

此外，Anthropic 推出為期五天的研究預覽「Imagine with Claude（與 Claude 想像）」供 Max 訂閱者體驗，展示模型在即時產生軟體上的潛力。

值得注意的是，Anthropic 以兩段式階梯定價包裝 Claude Sonnet 4.5。第一段針對標準 200K 上下文長度：輸入每百萬 token 3 美元、輸出 15 美元。

這個價位直接把同家前代旗艦 Opus 4.1（輸入 15 美元、輸出 75 美元）的成本拉低到約五分之一，形成「以中檔價格提供近旗艦能力」的攻勢，目標明確對準主流對手如 GPT‑5 等。

第二段則針對超長上下文（超過 200K）：輸入每百萬 6 美元、輸出 22.5 美元。這是「超長加價、但仍維持性價比」的設計，讓需要長文脈的用例有合理成本，同時透過輸出端維持較高單價，以控制推理時間與算力消耗。

其策略核心是以「低輸入價」促進更多資料餵入與多步推理，並以輸出價差回收算力成本；配合「混合推理／擴展思考模式」，當開啟更長思考與高準確度輸出時，價格結構自然引導開發者優化 token 使用，避免不必要的長輸出。

簡單來說，這種定價策略的總體效果，是以極致性價比快速搶佔編程與 Agent 場景，讓開發者在可控成本下獲得高階能力，並對競品形成明顯的價格壓力。

（本文轉載自《數位時代》，��稿為 AI 編撰）