北京時間8月8日凌晨,人工智能(AI)領先企業OpenAI正式發布備受矚目的新一代人工智能模型GPT-5。據介紹,GPT-5有諸多亮點,包括根據需求智能切換模型版本,可實現更低的幻覺率、更強的代碼能力,且支持個性化設定等等。OpenAI稱:GPT-5在准確性、速度、推理能力、背景信息識別、結構化思維和問題解決能力方面實現了重大突破,『這是我們迄今為止在編碼和智能體任務方面表現最佳的模型』。
OpenAI稱,GPT-5在關鍵編碼基准測試中處於行業領先水平(SOTA),在SWE-bench Verified測試中得分74.9%,在Aider polyglot測試中得分88%。OpenAI稱,通過訓練,使GPT-5成為真正的編碼協作伙伴。它擅長生成高質量代碼並處理諸如修復漏洞、修改代碼以及解答復雜代碼庫相關問題等任務。該模型具備可控性和協作性——它能夠以極高精度執行非常詳細的指令,並在工具調用前及期間提前解釋其操作原因。OpenAI稱,GPT-5在前端編碼方面也表現出色,在內部測試中,其在70%的前端Web開發任務中表現優於OpenAI o3。
OpenAI稱,與初創公司和企業的早期測試者合作,使用真實世界的編碼任務對GPT-5進行了訓練。GPT-5是公司迄今為止發布的最強大的編碼模型。它在編碼基准測試和實際應用場景中均優於OpenAI o3,並且經過專門優化,在Cursor、Windsurf和Codex CLI等智能體編碼產品中表現尤為出色。
Cursor表示,GPT-5『具有顯著的智能,易於操控,甚至擁有其他模型中不具備的人格特質』。Windsurf指出,GPT-5在其評估中達到最先進水平,且『與其他前沿模型相比,工具調用錯誤率僅為其一半』。
據介紹,GPT-5在持續型智能體任務中同樣表現卓越。在兩個月前剛發布的工具調用基准測試τ2-bench telecom中,以96.7%的成績刷新了業界最優水平。在事實准確性基准測試LongFact和FActScore中,GPT-5的錯誤率僅為o3的五分之一。GPT-5改進的工具智能使其能夠可靠地串聯數十次工具調用(無論串行還是並行),保持路徑一致性,這使其在執行復雜的現實世界端到端任務時表現得遠優於其他模型。它還更精確地遵循工具指令,更好地處理工具錯誤,並在長背景信息內容檢索方面表現出色。人工智能體公司Manus表示,GPT-5『在各種智能體任務中表現出色,即使在未修改任何代碼或調整提示的情況下』。
據介紹,GPT-5的『幻覺』問題大幅改善,在HealthBench Hard Hallucinations測試中錯誤信息率僅為1.6%,遠低於GPT-4o的15.8%。
OpenAI透露,將在API中發布GPT-5的三個版本——GPT-5、GPT-5-mini和GPT-5-nano,以賦予開發人員更多靈活性,在性能、成本和延遲之間進行權衡。GPT-5現已對所有ChatGPT用戶開放,包括免費用戶,付費用戶(Plus、Pro、Team)可獲得更高使用額度或無限使用。
就在不久前,OpenAI再次獲得83億美元融資,超額認購幅度達到了五倍之多,其估值已經增至3000億美元。該公司ChatGPT產品的付費用戶數已突破500萬,『每周有7億人使用ChatGPT』。