GPT5.4深夜炸场:这个AI不仅会聊天,现在连你的Excel都能自己填了

11次阅读

2026年3月5日凌晨,OpenAI毫无预警地扔出了一颗重磅炸弹——GPT-5.4。这不是一次普通的模型迭代,而是AI发展史上的里程碑事件:这是OpenAI首次将前沿推理、编码与智能体能力整合于单一模型,官方毫不谦虚地称其为”目前面向专业工作推出的能力最强、效率最高的前沿模型之一”。

但真正的震撼不在于官方说辞,而在于一组让程序员彻夜难眠的数据:在OSWorld-Verified评测中,GPT-5.4取得了75%的任务成功率,首次超过72.4%的人类平均水平。这意味着什么?意味着AI不再只是”动嘴皮子”的聊天机器人,而是真正学会了”动手”——看屏幕、点鼠标、敲键盘,像人类一样操作电脑完成复杂任务。

让我们通过一个真实场景感受这种变革:以往,当你需要整理一份包含数百条客户信息的Excel表格,按地区分类、计算销售额、生成图表,你需要手动操作半小时。而现在,你只需对GPT-5.4说:”帮我把这份客户数据按华东、华北、华南分类,计算各区域销售额,并生成柱状图”,AI就能直接打开Excel,识别界面元素,点击菜单、选择数据、输入公式、生成图表,全程无需你干预。

GPT5.4深夜炸场:这个AI不仅会聊天,现在连你的Excel都能自己填了

三大技术突破:让AI从”对话”走向”执行”

突破一:原生计算机操控能力——AI的”眼睛”和”手”

GPT-5.4最具革命性的创新,是其原生计算机使用能力(Computer-Use Capabilities)。这不是外挂插件,不是预先编写的脚本,而是模型内生的视觉感知与操作能力。

具体而言,GPT-5.4可以:

  • 视觉理解界面:通过截图感知屏幕上的按钮、输入框、菜单、图标
  • 精准坐标点击:根据视觉识别结果,计算元素位置,执行鼠标点击
  • 键盘输入操作:在指定输入框中键入文本,支持快捷键组合
  • 跨应用协作:在浏览器、Excel、邮件客户端、文件管理器之间无缝切换

在一项对约三万家物业费和房产税门户网站的评估中,GPT-5.4第一次尝试的成功率为95%,三次尝试内达到100%,而之前的计算机使用模型约为73-79%,同时会话完成速度提升约3倍,Token使用减少约70%。

这种能力的应用场景令人遐想:自动填写复杂的在线表单、批量处理邮件附件、跨系统迁移数据、甚至自动操作ERP系统完成月末结算。白领们每天花费数小时的重复性电脑操作,可能即将成为历史。

突破二:百万Token上下文——AI的”超长记忆”

GPT-5.4支持高达100万Token的上下文窗口,这是此前主流模型的数倍之多。Token是AI处理文本的基本单位,100万Token相当于约75万英文单词,或约1500页标准文档的内容。

这种”超长记忆”意味着什么?

  • 整本技术手册一次性理解:你可以上传整本编程语言的官方文档,让AI基于完整上下文回答任意细节问题
  • 长篇代码的全局优化:AI可以记住数万行代码的每一个函数定义,进行跨文件的重构和优化
  • 长周期任务的持续追踪:从项目规划到执行到验证,AI可以在长达数小时的会话中保持对早期决策的记忆

在Codex中,开发者可以通过配置model_context_windowmodel_auto_compact_token_limit来试用这一功能。超过标准27.2万上下文窗口的请求会按双倍Token计费,但对于需要处理海量信息的复杂任务,这种投入往往物有所值。

突破三:工具搜索与智能调度——AI的”工具箱革命”

面对海量工具,以前的AI模型需要将所有工具定义一次性加载到上下文中,导致Token消耗巨大、响应缓慢。GPT-5.4引入了”工具搜索”机制,让模型像人类使用搜索引擎一样,按需查找和调用工具。

具体工作流程:

  1. 模型接收轻量级工具列表和”搜索工具”的能力说明
  2. 当需要特定工具时,模型实时检索该工具的详细定义
  3. 将检索到的工具定义追加到当前对话上下文,执行调用

在Scale的MCP Atlas基准测试中,启用全部36个MCP服务器的条件下,工具搜索模式在保持准确率不变的前提下,Token总用量减少了47%。这意味着企业可以在不增加成本的情况下,将更多业务系统(CRM、ERP、数据库、邮件服务等)接入AI智能体,构建真正的”数字员工”。

编程能力的质变:从”代码补全”到”架构师级思考”

GPT-5.4将GPT-5.3-Codex的行业领先编程能力整合进主线模型,在SWE-Bench Pro基准上与之持平甚至略优,同时延迟更低。

更令人兴奋的是,开启Codex中的/fast模式后,GPT-5.4的Token生成速度可提升至约1.5倍——模型智能水平完全一致,只是更快。这意味着程序员在编码、迭代和调试时,能够始终保持”心流”状态,不会因为AI响应延迟而打断思路。

一个真实的编程场景:开发者需要构建一个主题乐园模拟游戏,包含等距视角资产、游客路径规划、排队与游乐设施周期、资金与满意度管理系统。以往,这可能需要数天的编码和调试。而使用GPT-5.4的实验性”Playwright (Interactive)”技能,AI可以一边构建应用,一边通过交互式测试自动验证功能,从一个简单提示出发,反复构建和扩展乐园、检查相机导航与UI更新情况,最终生成完整的可运行游戏。

在评估和内部测试中,GPT-5.4在复杂前端任务上表现突出,比以往任何发布的模型生成的界面更美观、功能更完善。这不仅是代码量的提升,更是设计审美和用户体验理解的飞跃。

情商提升:更少幻觉,更多共情

除了”动手能力”,GPT-5.4在”情商”方面也有显著进步。在SimpleQA准确率测试中,GPT-5.4达到62.5%,较GPT-4o提升了24%,幻觉率下降了25%。

这意味着:

  • 更可靠的问答:减少”一本正经地胡说八道”的情况
  • 更好的上下文理解:在复杂对话中保持对早期内容的记忆和关联
  • 更自然的交互:在ChatGPT中,GPT-5.4 Thinking会在处理复杂查询时预先展示其推理思路,用户可以在模型响应过程中实时调整方向,无需额外轮次沟通即可获得更贴合需求的结果

对知识工作的颠覆:白领们的”数字同事”已到来

GPT-5.4的发布,标志着AI从”对话工具”向”执行智能体”的关键跃迁。在GDPval评测中(评估智能体在44个职业中产出明确知识工作能力的测试),GPT-5.4刷新了纪录,在与行业专业人士的横向评测中,在83.0%的案例里达到了持平或更优的水准,而GPT-5.2仅为71.0%。

这并非意味着人类白领即将失业,而是预示着工作方式的范式转移:

  • 重复性操作自动化:数据录入、报表生成、邮件处理等机械性工作交给AI
  • 创造性工作增强:人类专注于策略制定、创意构思、关系建立等AI难以替代的领域
  • 人机协作新范式:AI作为”第一执行者”完成初稿,人类作为”质量把关者”审核优化

对于企业而言,部署GPT-5.4的紧迫性不在于”替代员工”,而在于”赋能团队”。率先掌握这一工具的团队,将在效率、创新速度、响应能力上获得显著竞争优势。

而在这场AI能力竞赛中,网络基础设施的质量往往被忽视却至关重要。当企业构建基于GPT-5.4的自动化工作流时,API调用的稳定性、上下文数据的传输速度、多地域部署的响应延迟,都直接影响AI智能体的执行效率。IPFLY的全球代理网络,覆盖190多个国家和地区,提供毫秒级响应的住宅IP和数据中心IP,确保企业AI应用在全球任意地点都能获得稳定、快速的网络支撑,让GPT-5.4的能力不受网络瓶颈限制。

GPT5.4深夜炸场:这个AI不仅会聊天,现在连你的Excel都能自己填了

GPT-5.4的发布,是AI从”动嘴”到”动手”的历史性跨越。当你的竞争对手还在用传统方式填写Excel、操作ERP、处理邮件时,率先部署GPT-5.4的企业已经让AI智能体7×24小时自动执行这些任务。现在就开始探索GPT-5.4的原生计算机操控能力、百万Token上下文、工具搜索等突破性技术——无论是通过ChatGPT Plus/Pro订阅,还是通过API集成到企业工作流。

在这场AI能力竞赛中,别让网络基础设施成为瓶颈。IPFLY的全球代理网络,覆盖190多个国家和地区,提供毫秒级响应的高纯净IP资源,确保你的GPT-5.4 API调用稳定、快速、不受地域限制。无论是需要固定IP的企业级API对接,还是需要全球分布的住宅IP进行多地域测试,IPFLY都能提供精准匹配的网络方案。99.9%稳定运行时间保障,7×24小时技术支持,更有免费测试让你在投入前验证效果。立即注册IPFLY,为你的AI智能体配备世界级的网络基础设施,让GPT-5.4的能力在全球范围内无缝释放。

正文完
 0
IPFLY
IPFLY
高质量代理的领先提供商
用户数
2
文章数
3362
评论数
0
阅读量
2034606