栏目分类
你的位置:Kaiyun (中国)智能科技股份有限公司官网 > 新闻资讯 >

GPT-5.4的发布透澈改写了AI Agent的游戏法例——它不仅是首个原生集成野心计操作时代的通用模子,更以亲民价钱贬责了开发者持久濒临的代码时代与知识储备难以兼得的逆境。从金融建模到法律分析,这款OpenAI的计谋级产物正在突破'能说不会作念'的行业天花板,而其83%东谈主类职工水平的推崇与47%的成果培植,符号着AI实在初始招揽复杂职责流。

前两天OpenAI就毫无预兆地细腻推出了GPT-5.4。说的确,AI圈的更新迭代天然频繁,但能实在戳中需求、贬责痛点的升级并未几,而GPT-5.4,恰是我盼了很久的那一款。
我之是以这样期待,中枢等于思找一个能竣工适配OpenClaw的首选模子,贬责之前使用其他模子时的各式别扭和贫苦。
况且此次GPT-5.4的更新,主打的恰是当下最火热的AI Agent标的,它最关节的突破,等于透澈突破了之前大模子多数存在的——能说不会作念的逆境
往日无论是哪款模子,你让它帮你分析竞争敌手,它只会给你一份利用自如的笔墨诠释,但不会我方出手整理数据;你让它帮你整理Excel表格,它只会写一段Python代码让你我方去跑,不会径直操作软件;你让它帮你订机票,它只会一步一步告诉你去哪个网站、点哪个按钮,不会自主完成通盘这个词过程。
中间那谈无法逾越的墙,就叫作念野心计操作,而GPT-5.4,恰是OpenAI第一个把这谈墙透澈拆掉的通用模子。

懂行的东谈主都明晰,当代天下这三十年的发展,底层逻辑全是代码,咱们当今看到的通盘和野心计、互联网联系的东西,小得手机里的一个APP,大到企业的中枢业务系统,险些都开导在代码的基础之上。
是以一个优秀的Agent基座模子,在我看来,必须同期具备三个很强的时代:顶尖的代码时代、塌实的天下知识,以及出色的多模态贯串,除此除外,价钱是否亲民,亦然一个至关伏击的考量成分,这几点不行偏废。
往日咱们在使用Agent模子时,的确堕入了两难的境地,怎样选都合计别扭。Claude Opus 4.6天然全体很强,代码时代和天下知识都很在线,多模态时代也能夸口大部分场景的需求,无谓罕见搭配其他器用,但它的价钱的确贵到离谱,对于咱们这种袖珍团队、通俗开发者来说,持久使用根底扛不住。
更坑的是,Anthropic还径直封禁了OpenClaw的使用权限,我之前订阅的Claude Max Plan额度,只可在Claude自身的Code平台上使用,思在OpenClaw上调用,就只可硬接API,而Claude的API用度高得吓东谈主,小限度试用还好,若是大限度插足使用,我的小钱包朝夕得被榨干。
反不雅OpenAI就良心多了,当初Claude豪恣封禁OpenCode账号的时候,OpenAI径直大手一挥站出来,明确示意不封禁任何账号,还允许第三方器用解放调用Codex的额度,对于OpenClaw天然也不例外,是为数未几能径直通过登录使用、无谓贫苦调用API的顶级模子。
可即便如斯,OpenAI之前的模子也有彰着短板,GPT-5.2的概括推崇中规中矩,代码时代恒久跟不上,处理复杂编程任务时接续掉链子;GPT-5.3-Codex的编程时代如实顶尖,作念任务引申时简直指哪打哪,可它是一款编程特化模子,天下知识差得离谱,输出的内容全是晦涩难解的专科术语,像天书同样,我不是按序员建树,看它写的文档简直头大,把它接入OpenClaw算作念默许模子,简直等于一场不幸,试了一次就径直弃用了。
直到GPT-5.4的细腻发布,才算透澈补皆了通盘短板,贬责了咱们之前遭遇的通盘贫苦。
它的代码时代和GPT-5.3-Codex基本捏平,竣工承袭了后者顶尖的编程水准,处理各式软件工程问题、编写复杂代码都不在话下;天下知识则比GPT-5.2还要塌实,无论是金融、法律等专科规模的知识,照旧日常交流中的学问,都能任性应付。
更伏击的是,它还能径直使用Codex的订阅额度,20好意思元就能获取极佳的使用体验,说是OpenClaw的天选模子,少许不为过。
许多东谈主合计GPT-5.4是倏得冒出来的产物,其实并不是这样,它是OpenAI布局AI Agent赛谈的廓清计谋线上的最新落子。就在两周前,OpenAI刚刚发布了GPT-5.3-Codex,把Codex从只可写代码的Agent,升级成了险些能完成开发者在电脑上通盘事情的万能Agent,还在SWE-Bench Pro和Terminal-Bench等巨擘测试中刷新了行业基准。
更早之前的3月2日,OpenAI还和AWS把原有的38亿好意思元相接扩大到了越过1000亿好意思元,相接期限长达8年,AWS也成为了OpenAI Frontier平台的独家第三方云分发商。再加上同期落地的1100亿好意思元融资,由Amazon、SoftBank和Nvidia各出资数百亿好意思元共同支捏,不出丑出,OpenAI当今根底不仅仅在研发一款好产物,而是在全力冲刺,思要紧紧占据企业AI Agent市集的主导地位。
GPT-5.4的中枢亮点,毫无疑问等于它的原生野心计操作时代,这亦然它和之前通盘模子最本色的永别。它能通过截图精确识别屏幕上的通盘内容,自主发出鼠标点击、键盘输入等指示,在不同的应用之间解放切换,引申复杂的多步职责流。
况且它还能庄重调用Playwright等库,径直操控浏览器和桌面应用,这就意味着,它处理的不再是对于任务的对话,而是任务自己,实在罢了了从“能说”到“会作念”的朝上。
除此除外,它的各项跑分也都相称能打,实力禁止小觑:在GDPval基准测试中,它拿到了83分,这个分数不仅远超Claude Opus 4.6,还越过了83%的通俗办公室职工,能任性应付金融、法律等44种行状的知识职责;在SWE-Bench Pro测试中,57.7分的得益和GPT-5.3-Codex基本捏平,稳稳保住了顶尖的编程水准;在OSWorld-Verified测试中,75分的得益不仅越过了72.4%的东谈主类基线,也超越了Claude Opus 4.6的推崇,操作电脑的速率更是快得离谱。
另外,它还支捏1M-token的超大陡立文窗口,能任性加载完整的代码库、长篇文档或多份论文,贬责了之前Agent引申长周期任务时容易忘事的问题,况且它还能径直接入微软Excel和Google Sheets,在单位格层面完成细巧化的分析和自动化操作,再加上器用搜索功能的优化,全体成果培植了47%,使用体验大幅培植。
发布会上的功能演示长期都很竣工,但实在的锻练照旧执行使用推崇,而GPT-5.4在执行测试中的推崇也相称亮眼。金融科技公司Walleye Capital在里面测试后诠释,GPT-5.4在Excel财务模子评估中,把准确度提高了30个百分点,权臣加速了现象分析的自动化过程,大大勤俭了职工的职责时期。
东谈主才评估平台Mercor的CEO更是径直惊叹它是我方测试过的最佳模子,在处理幻灯片制作、财务建模和法律分析等长周期任务时,推崇得尤为杰出,踏实性和成果都远超预期。
我我方也在Codex上通俗体验了一下,最直不雅的感受等于,它的输出终于说东谈主话了,再也不是之前GPT-5.3-Codex那种晦涩难解的天书,致使还会像通俗东谈主同样吐槽贫苦的职责,接地气又好贯串。不外也有需要警惕的所在,一位每天神用Codex的孤独开发者就领导过,他遭遇过几次模子失实引申任务,却刻意秘密这一事实的情况,这个细节天然不起眼,但对于需要依靠模子完成伏击职责的用户来说,无疑是一个需要要点护理的问题。
天然,GPT-5.4的发布,也让AI Agent赛谈的竞争变得愈加热烈,它的竞争敌手们也莫得闲着。Anthropic的Claude 3.7 Sonnet早在本年2月就上线了Computer Use功能,被定位为专为复杂任务联想的搀杂推理模子,在野心计操作时代上也有可以的推崇;Google的Gemini 2.0系列也在Agentic时代上捏续发力,其Project Mariner也曾可以在Chrome浏览器里自主完成多步操作。
但GPT-5.4和这些竞品的本色各异,在于它是OpenAI第一个把野心计操作时代内置进通用模子的产物——它不是一个需要罕见装配的孤独器用,也不是需要单独调用的API,而是模子自己就自带这种时代。这个原生二字,在工程罢了上意味着更低的延长、更天然的任务衔尾,以及更少的胶水代码,对于那些思快速落地Agent应用的企业来说,这个永别径直影响着部署资本和使用体验。
价钱方面,GPT-5.4天然比GPT-5.2稍作高涨,但比拟Claude Opus 4.6来说,价钱还不到后者的一半,性价比很高。目下,付用度户也曾可以在ChatGPT中使用Thinking版块,Pro版块也同步灵通给了Pro用户和企业用户,推送聘请分批进行的花样,若是没看到新选项,刷新页面或应用就能查验是否可用。
惟一的小缺憾等于,我比及凌晨6点多,OpenClaw目下通过Codex登录的花样,还莫得支捏GPT-5.4,这也导致我暂时还没契机测试它在OpenClaw上的执行推崇。不外好在社区里也曾有许多用户在催促适配,况且先行官们的反映也多数向好,料想用不了多久,OpenClaw就会完成适配,到时候全球就能径直使用这款天选模子了。
总的来说,OpenAI此次的升级的确很塌实,从GPT-5.2的庸俗、GPT-5.3-Codex的偏科,到GPT-5.4的万能,它不仅补皆了自身的短板,也给通盘这个词AI Agent规模带来了新的可能。其实AI Agent的战场,从来就不是哪家跑得更快,而是谁能开赴点把我方镶嵌企业的职责流,成为阿谁无法被替代、拔不掉的存在。
而那位开发者提到的模子秘密失实的问题,也领导着咱们,AI Agent时代的天花板,从来不是它能作念什么,而是咱们敢不敢信任它去作念,信任,才是这场Agent干戈实在的货币。
本文由@为了罐罐 原创发布于东谈主东谈主都是产物司理,未经许可,阻挠转载。
题图来自 UnsplashKaiyun 中国官方认证,基于CC0左券。
下一篇:开yun体育网融券余量累计加多0股-Kaiyun (中国)智能科技股份有限公司官网
