文章已取消收藏!
找文章

AI 處理長任務難穩定?Claude Sonnet 4.5 問世!30 小時長任務不中斷,效能超越 GPT-5 與 Gemini

2025.10.03
《數位時代》 李先泰
AI 處理長任務難穩定?Claude Sonnet 4.5 問世!30 小時長任務不中斷,效能超越 GPT-5 與 Gemini

重點一:Anthropic 發布 Claude Sonnet 4.5,稱其為迄今最強;可在長時程任務中連續執行超過 30 小時,並在多項基準測試領先同業。

重點二:Sonnet 4.5 在 SWE-bench Verified 取得 77.2%、在 OSWorld 取得 61.4%,超過 OpenAI 的 GPT-5 Codex 與 Google 的 Gemini 2.5 Pro;並強化電腦操作與代理能力。

重點三:Anthropic 同步推出 Claude Code 2.0 與 Claude Agent SDK,並為網頁與 App 新增程式執行、檔案建立與文件/試算表/簡報生成功能;API 價格延續 Sonnet 4。

Anthropic 推出中階旗艦模型 Claude Sonnet 4.5,官方稱其為「迄今最強」版本;能在複雜的多步長任務中「連續專注」超過 30 小時,同時在多項公開基準測試刷新成績,展現程式開發、電腦操作與推理計算的整體提升。

相較前代 Sonnet 4.0,4.5 在 OSWorld 電腦使用測試由 42.2% 大幅躍升至 61.4%,並於 SWE-bench Verified 取得 77.2%;整體表現超越 OpenAI 的 GPT-5 Codex 與 Google 旗下的 Gemini 2.5 Pro,凸顯其在實務開發與代理任務上的即戰力。

程式、電腦操作、多語知識⋯同步進化

Anthropic 指出,Claude Sonnet 4.5 的核心強項在於「可在真實環境中更穩定地完成長鏈任務」。雖然公司未披露 30 小時連續工作的具體任務內容,但強調其代理行為在長時間情境下維持一致性,減少過去常見的上下文遺失與錯誤累積。

就量化表現,該模型於 SWE-bench Verified 拿下 77.2%,在 OSWorld 取得 61.4% 並居於領先,分別高於 OpenAI 的 GPT-5 Codex 的 74.5% 與 Google 的 Gemini 2.5 Pro 的 67.2%。同時,在 AIME 2024(數學競賽基準)、MMMLU(14 種非英語科目知識)與 Vals AI Finance Agent(金融分析代理)等評測亦見進步,其中金融代理測試達 92%。

Anthropic
Sonnet 4.5 在 SWE-bench Verified 得分77.2%、OSWorld 61.4%,超過 OpenAI GPT-5 Codex 與 Google Gemini 2.5 Pro。

此外,Anthropic 表示已降低模型在「sycophancy(逢迎)」「deception(欺瞞)」「power-seeking(權力尋求)」與「鼓勵妄想傾向」等風險行為,回應外界對聊天機器人社會化使用的關注。

Anthropic
Anthropic指出,已降低模型在逢迎、欺瞞、權力尋求等AI風險行為。

根據《Ars Technica》報導,儘管業界對廠商自行公布的基準成績向來持審慎態度(可能受資料汙染或設計偏誤影響),Sonnet 4.5 仍相較 4.0 呈現實質躍進;並獲知名開發者 Simon Willison 初步肯定,稱其在程式能力上優於其近週常用的 GPT-5 Codex。

(延伸閱讀|Claude AI ��用真相公開!77% 企業用 AI 做自動化,軟體開發竟是最大應用?

速度即智慧!Claude Sonnet 4.5 更快、更簡潔

Willison 引述 Cora(cora.computer)總經理 Kieran Klaassen 的說法指出,Claude Sonnet 4.5 在 Claude Code/App 中「體感快約 50%」。同樣的大型程式碼評審任務,Sonnet 4.5 約 2 分鐘完成,GPT-5 Codex 約 10 分鐘。在「速度也是智慧的一個維度」的前提下,更利於長時間配對工作。亦即, 能在大型上下文與多檔案間保持專注、不亂飄,並且更可引導、結果更一致、回覆更簡潔。

Willison 舉例,他將三份營運試算表交給模型,便能迅速生成可用的第三季投資人更新 Word 文件。至於 Klaassen 則指出,在 Cora(Every 的郵件管理工具)專案裡有一個程式錯誤,先用 Claude Opus 4.1 嘗試未能解決,但換成 Claude Sonnet 4.5 後約 20 分鐘就修復。

Willison 總結指出,若使用者以 Claude Code 為日常編程主力,Sonnet 4.5 是更快、更可靠、可引導性更優的新夥伴;但若是 GPT-5 Codex 擁護者,編程難題仍建議以 Codex 為先。若是新專案、vibe coding,或需要 Claude「勤勉+速度」組合的任務,就值得考慮 Sonnet 4.5。

(延伸閱讀|Vibe Coding 首選模型 Claude 為何最會寫程式?用 AI 強化 AI!官方透露 3 大關鍵

用價格換市占!Claude Sonnet 4.5「加速不加價」

為配合模型升級,Anthropic 同步發布 Claude Code 2.0(命令列 AI 代理)與 Claude Agent SDK(代理開發套件),瞄準開發者打造客製化程式代理的需求。Claude Code 2.0 引入「checkpoint(檢查點)」以保存進度並可回滾,更新終端介面,並上線原生 VS Code 擴充;API 端亦新增「context editing(脈絡編輯)」與更佳的長任務記憶工具,改善長流程代理工作的穩定性。

在使用者端,Claude 網頁與 App 介面新增「程式碼執行」與「檔案建立」,並可在對話中直接產生試算表、投影片與文件;「Claude for Chrome」擴充則強化瀏覽器內的網站導航與表單/資料處理。

此外,Anthropic 推出為期五天的研究預覽「Imagine with Claude(與 Claude 想像)」供 Max 訂閱者體驗,展示模型在即時產生軟體上的潛力。

值得注意的是,Anthropic 以兩段式階梯定價包裝 Claude Sonnet 4.5。第一段針對標準 200K 上下文長度:輸入每百萬 token 3 美元、輸出 15 美元。

這個價位直接把同家前代旗艦 Opus 4.1(輸入 15 美元、輸出 75 美元)的成本拉低到約五分之一,形成「以中檔價格提供近旗艦能力」的攻勢,目標明確對準主流對手如 GPT‑5 等。

Anthropic
Anthropic指出,對標準 200K 上下文長度:輸入每百萬 token $3、輸出 $15。

第二段則針對超長上下文(超過 200K):輸入每百萬 6 美元、輸出 22.5 美元。這是「超長加價、但仍維持性價比」的設計,讓需要長文脈的用例有合理成本,同時透過輸出端維持較高單價,以控制推理時間與算力消耗。

其策略核心是以「低輸入價」促進更多資料餵入與多步推理,並以輸出價差回收算力成本;配合「混合推理/擴展思考模式」,當開啟更長思考與高準確度輸出時,價格結構自然引導開發者優化 token 使用,避免不必要的長輸出。

簡單來說,這種定價策略的總體效果,是以極致性價比快速搶佔編程與 Agent 場景,讓開發者在可控成本下獲得高階能力,並對競品形成明顯的價格壓力。

(本文轉載自《數位時代》,��稿為 AI 編撰)

作者介紹
數位時代
數位時代

1999年開始以雜誌型態出發,聚焦科技財經領域的「新趨勢、新觀念、新人物和新商業模式」的報導。現今已成為橫跨平面與數位載體、結合內容與社群聚集、並且提供知識學習服務的科技媒體品牌;繼續為讀者尋找新經濟的下一個關鍵,為下一步發展預作準備。

喜歡這篇文章嗎?分享或收藏起來!

登入未來商務會員

開啟專屬自己的主題內容,

每日推播重點文章

我還不是會員, 註冊去!
找文章 找解方