OpenAI發布其最強大AI模型GPT-5

時間：2025-08-11 11:09:53　來源：人民郵電報　作者：

　　北京時間8月8日凌晨，人工智能(AI)領先企業OpenAI正式發布備受矚目的新一代人工智能模型GPT-5。據介紹，GPT-5有諸多亮點，包括根據需求智能切換模型版本，可實現更低的幻覺率、更強的代碼能力，且支持個性化設定等等。OpenAI稱：GPT-5在准確性、速度、推理能力、背景信息識別、結構化思維和問題解決能力方面實現了重大突破，『這是我們迄今為止在編碼和智能體任務方面表現最佳的模型』。

　　OpenAI稱，GPT-5在關鍵編碼基准測試中處於行業領先水平(SOTA)，在SWE-bench Verified測試中得分74.9%，在Aider polyglot測試中得分88%。OpenAI稱，通過訓練，使GPT-5成為真正的編碼協作伙伴。它擅長生成高質量代碼並處理諸如修復漏洞、修改代碼以及解答復雜代碼庫相關問題等任務。該模型具備可控性和協作性——它能夠以極高精度執行非常詳細的指令，並在工具調用前及期間提前解釋其操作原因。OpenAI稱，GPT-5在前端編碼方面也表現出色，在內部測試中，其在70%的前端Web開發任務中表現優於OpenAI o3。

　　OpenAI稱，與初創公司和企業的早期測試者合作，使用真實世界的編碼任務對GPT-5進行了訓練。GPT-5是公司迄今為止發布的最強大的編碼模型。它在編碼基准測試和實際應用場景中均優於OpenAI o3，並且經過專門優化，在Cursor、Windsurf和Codex CLI等智能體編碼產品中表現尤為出色。

　　Cursor表示，GPT-5『具有顯著的智能，易於操控，甚至擁有其他模型中不具備的人格特質』。Windsurf指出，GPT-5在其評估中達到最先進水平，且『與其他前沿模型相比，工具調用錯誤率僅為其一半』。

　　據介紹，GPT-5在持續型智能體任務中同樣表現卓越。在兩個月前剛發布的工具調用基准測試τ2-bench telecom中，以96.7%的成績刷新了業界最優水平。在事實准確性基准測試LongFact和FActScore中，GPT-5的錯誤率僅為o3的五分之一。GPT-5改進的工具智能使其能夠可靠地串聯數十次工具調用(無論串行還是並行)，保持路徑一致性，這使其在執行復雜的現實世界端到端任務時表現得遠優於其他模型。它還更精確地遵循工具指令，更好地處理工具錯誤，並在長背景信息內容檢索方面表現出色。人工智能體公司Manus表示，GPT-5『在各種智能體任務中表現出色，即使在未修改任何代碼或調整提示的情況下』。

　　據介紹，GPT-5的『幻覺』問題大幅改善，在HealthBench Hard Hallucinations測試中錯誤信息率僅為1.6%，遠低於GPT-4o的15.8%。

　　OpenAI透露，將在API中發布GPT-5的三個版本——GPT-5、GPT-5-mini和GPT-5-nano，以賦予開發人員更多靈活性，在性能、成本和延遲之間進行權衡。GPT-5現已對所有ChatGPT用戶開放，包括免費用戶，付費用戶(Plus、Pro、Team)可獲得更高使用額度或無限使用。

　　就在不久前，OpenAI再次獲得83億美元融資，超額認購幅度達到了五倍之多，其估值已經增至3000億美元。該公司ChatGPT產品的付費用戶數已突破500萬，『每周有7億人使用ChatGPT』。

責任編輯：宋蔚