25 7 月 2025
35 mins read

OpenAI发布ChatGPT智能助手——能为你规划、购物和制作PPT的AI助手

OpenAI Unleashes ChatGPT Agent – The AI Assistant That Can Plan, Shop and Make PowerPoints For You
  • 2025年7月17日,OpenAI发布ChatGPT Agent,将ChatGPT从聊天机器人升级为可浏览网页、填写表单、运行代码、生成Excel与PowerPoint的通用数字助理,并向符合条件的用户上线。
  • Agent的技能工具箱包括一个可视化浏览器、一个文本浏览器、一个终端/控制台、直接API访问,以及能够连接Gmail、GitHub等账户的连接器。
  • 使用方式为“代理模式”,用户通过提示启动任务,屏幕上会以旁白逐步显示Agent的每一步操作,用户可以随时暂停或引导。
  • 安全机制包括在执行敏感操作前需要用户许可、对生物/化学风险的限制、实时内容分类器与第二道安全模型审核,以及红队测试后的拒绝机制。
  • 长期对话记忆在代理模式下被禁用,Agent以无状态方式运行,OpenAI表示未来可能在安全允许时重新启用记忆。
  • 金融交易被禁止,监控模式会在代理浏览银行或交易平台等敏感网站时若用户离开浏览器标签页就暂停活动。
  • 底层模型是OpenAI为代理任务专门构建、独立于GPT-4的强化学习模型,融合了Operator与Deep Research的能力。
  • 输出文件可下载并在标准办公软件中打开,代理还能从零开始生成Excel表格或PowerPoint幻灯片,幻灯片生成仍处于测试阶段且格式可能基础。
  • 初始发布为付费订阅制,向Pro、Plus和Team用户开放,Pro用户每月最多可运行400个代理任务,Plus和Team每月40个,超出可通过积分购买;免费用户尚无时间表。
  • 行业竞争与展望方面,Anthropic在2025年5月推出Claude 2(代号 Opus 4)具备代理能力,Google也在推进代理功能,Meta与亚马逊等也表达相关雄心,显示AI代理成行业趋势。

ChatGPT 从聊天机器人进化为个人助理

OpenAI 对 ChatGPT 进行了重大升级,将这款流行的聊天机器人变成了一个个人 AI 助理,不仅能回答问题,还能代表用户执行操作。这个新功能被称为ChatGPT “Agent”,于周四上线,允许 ChatGPT 使用自己的虚拟计算机“思考”和行动 [1]。实际上,用户现在可以让 ChatGPT 处理多步骤任务——从查找餐厅预订或在线购物,到自主生成完整的电子表格和幻灯片演示文稿 [2]。OpenAI 表示,这种 agent 模式让 AI 能够浏览网站、控制网页浏览器和应用程序、管理文件,并生成如 Excel 文件或 PowerPoint 幻灯片等输出,而不仅仅是输出文本回复 [3]

为什么这很重要: 这次升级是 OpenAI 迄今为止最大胆的一步,旨在将其从静态的问答聊天机器人转变为像数字助理或“代理”一样运作的 AI。与标准聊天机器人不同,AI 代理可以通过代表用户与软件和网站互动,执行复杂的多步骤工作流程 [4]“希望代理能够为用户带来真正的实用价值——真正为他们做事,而不仅仅是输出精美的文本并听起来很厉害,”Enders Analysis 高级媒体分析师 Niamh Burns 指出 [5]。本质上,ChatGPT 的新 agent 模式旨在通过为用户完成真正的在线工作来实现这一承诺,而不仅仅是聊天。

OpenAI 的 ChatGPT Agent 使用内置的“虚拟计算机”为用户浏览网页、填写表单、运行代码,甚至生成 Excel 电子表格或 PowerPoint 演示文稿 [6] [7]

新的 ChatGPT Agent 能做什么?

OpenAI 将 ChatGPT Agent 称为一款通用型数字助理,可以处理各种各样的基于计算机的任务 [8]。它可以完成的一些示例包括:

  • 管理日程和计划:检查你的日历并向你简要介绍即将到来的会议,或者查找你有空的晚上并在 OpenTable 上搜索餐厅预订 [9] [10]。它可以通过对比你的日程和餐厅可用性来规划活动,比如约会之夜。
  • 在线调研和报告:对某个主题进行深度网络调研,并编写一份简明报告或分析。例如,它可以分析趋势(如“Beanie Babies 与 Labubus 的兴起”),并生成摘要或详细的研究论文 [11]
  • 购物和下单:该代理可以为你网上购物。你可以让它根据特定条件寻找商品、比较选项,甚至(在你允许的情况下)下单 [12] [13]。OpenAI 的研究负责人 Isa Fulford 甚至让该代理按照她的具体指示订购了一批纸杯蛋糕——这个任务“花了将近一个小时”,但对她来说仍然比手动操作更轻松 [14]
  • 办公任务 – 电子表格和演示文稿: 也许最引人注目的是,ChatGPT Agent 可以生成可编辑文件。它可以根据你的提示从零开始生成 Excel 电子表格或 PowerPoint 幻灯片 [15]。例如,你可以让它分析竞争对手的数据,并创建一个带有图表总结发现的幻灯片 [16]。它还可以用新数据更新电子表格,或将一组截图转换为格式化的演示文稿 [17]。输出文件可下载,并可在标准办公软件中打开(不过 OpenAI 警告幻灯片生成功能仍处于测试阶段) [18]
  • 使用开发者工具和 API: 在底层,Agent 可以访问编程终端并调用公共 API。这意味着它可以运行代码以执行自定义计算或查询外部服务。它可以通过“连接器”与 Gmail 或 GitHub 等应用集成,在获得用户许可的情况下,拉取信息用于其回复 [19]。OpenAI 表示,ChatGPT Agent 甚至可以填写在线表单,并通过 API 调用与 Google Drive 或 SharePoint 等服务对接 [20]

所有这些能力都是通过为 AI 提供自己的“虚拟浏览器/计算机”来实现的。当你分配任务时,ChatGPT 会浏览网站、点击链接或按钮、滚动页面、填写文本字段、编写和执行代码等——完成任务所需的任何步骤 [21] [22]。它以迭代和自主的方式工作,自行决定接下来使用哪个工具或网站。例如,计划一顿日式晚餐可能包括在 Google 上搜索食谱,然后打开杂货网站订购食材,最后生成购物清单电子表格——所有这些都由 Agent 自动完成,无需用户逐步干预。

ChatGPT Agent 如何工作?

在幕后,ChatGPT Agent 由 OpenAI 专门为代理任务构建的新 AI 模型驱动,这一模型与基础的 GPT-4 模型是分开的 [23]。该模型通过强化学习进行训练,能够处理需要依次使用多种工具(如浏览器、API 和代码)的复杂任务 [24]。事实上,OpenAI 将两个早期的实验系统——Operator(一个浏览/自动化工具)和Deep Research(一个深度分析工具)——合并成了这个统一的代理。“我们意识到这两个产品非常互补,基本上决定合并团队,”Fulford 说 [25]。最终的结果是,这个代理将 Operator 的网页点击能力与 Deep Research 的信息综合能力结合到一个工作流中 [26]

技能工具箱:ChatGPT Agent 配备了多种专用工具,可供其使用 [27]

  • 一个可视化浏览器,可以像人类一样通过常规图形界面与网站交互(点击按钮、浏览页面)
  • 一个基于文本的浏览器,用于发送快速 HTTP 请求并解析原始文本(适用于快速阅读大量文本或无需可视化渲染时) [28]
  • 一个终端/控制台,可让其在沙盒环境中运行代码、操作文件或使用命令行工具 [29]
  • 直接 API 访问,允许其调用外部服务的 API(例如,发布到 Google 日历、查询数据库或从在线服务获取数据) [30]
  • 连接到用户账户的连接器:用户可以连接他们自己的应用(如电子邮件或 GitHub)。在获得许可的情况下,智能体可以从你的电子邮件、日历或其他账户中提取相关信息来完成任务 [31]。例如,如果需要起草摘要,它可能会扫描你的 Gmail 查找最近的消息,或者通过 API 检查你的日历以查找空闲时间段。

这些工具让 AI 能够为任务选择最佳方法。它可能会使用 API 快速检查你的日历空闲情况,然后切换到可视化浏览器,导航需要点击和类人交互的 OpenTable 预订页面 [32]。它可以通过文本浏览器或 API 下载文件,在终端上运行代码对其进行分析或重新格式化,然后在可视化浏览器中打开结果以展示给你 [33]。所有这些都发生在智能体的虚拟机内,与您的实际设备隔离——所以这就像 AI 有了自己的电脑来执行你的指令 [34]

用户体验:对于终端用户来说,使用 ChatGPT Agent 非常简单。该功能通过 ChatGPT 界面中的新“Agent 模式”向有权限的用户开放 [35]。你只需以任务开头输入提示(你也可以输入斜杠命令“/agent”),AI 就会接手处理 [36]。在其工作时,屏幕上会有旁白显示智能体每一步的操作——例如,“正在浏览 maps.google.com……正在搜索‘我附近的意大利餐厅’……”——这样你可以全程跟进 [37] [38]。值得注意的是,你可以随时中断或引导智能体:你可以暂停流程以澄清指令,或要求其采取不同的方法,它会在任务中途适应而不会丢失进度 [39]。这种协作循环旨在让 AI 始终与你的目标保持一致。

安全功能:让 AI 行为受控

赋予AI在网上采取行动的能力带来了明显的安全担忧,OpenAI也承认这种新模式“比以往模型有更多风险[40]。为此,OpenAI实施了一套安全防护措施和限制:

  • 敏感操作需用户许可: “你始终掌控一切,”OpenAI强调 [41]。ChatGPT Agent在执行任何可能带来严重后果的操作前(如购物、发邮件或为你预订服务)都会请求明确确认 [42] [43]。用户必须批准这些不可逆的步骤,防止AI在你不知情的情况下,比如冲动地在亚马逊上订购1000美元的电子产品。
  • “高风险”内容限制(生物/化学):鉴于该代理的增强能力,OpenAI已将其归类为“高生物和化学风险”类别,尽管他们“没有确凿证据”表明它能帮助制造生化武器 [44] [45]。这一预防措施(属于OpenAI的预备框架)意味着额外的防护措施已被激活。具体来说,OpenAI会对每个代理请求实时运行内容分类器,以检查其是否与生物或化学相关,如相关,代理的回复会由第二个安全模型审核,以确保不会提供危险的操作指令 [46] [47]。换句话说,如果有人试图滥用代理,比如制造有毒物质,系统会设计来检测并阻止此类行为。
  • 经过训练以拒绝有害任务: 该代理已被训练为拒绝某些可疑或恶意请求。例如,如果被要求执行明显危险或不道德的操作(如向未知账户转账或执行破坏性命令),它会拒绝 [48]。OpenAI 表示,红队成员和领域专家帮助用“真实场景”测试了系统,以加强这些拒绝机制 [49]
  • 长期记忆已禁用: 一个有趣的限制——ChatGPT 的长期对话记忆在代理模式下被关闭 [50]。通常,ChatGPT 可以记住对话早期或过去会话的信息(如果启用),但 OpenAI 担心聪明的攻击者可能会在代理任务期间利用这一点(通过所谓的提示注入),让代理泄露敏感数据或执行不受欢迎的操作 [51]。因此,代理目前以无状态方式运行,不会携带前一次对话的信息。OpenAI 可能会在未来确认安全后重新启用记忆,但目前这种“额外预防措施”可以避免潜在的数据泄露 [52]
  • 金融交易被禁止: OpenAI 目前也限制了金融操作。例如,即使被要求,代理也不会执行资金转账或股票交易 [53]。实际上,有一项名为“监控模式”的保护措施,如果代理正在浏览某些敏感网站(如银行或交易平台),只要用户离开代理的浏览器标签页,它就会暂停活动,以防止后台发生任何偷偷摸摸的操作 [54]
  • 广泛测试和悬赏计划:OpenAI 宣称该模型拥有他们迄今为止“最全面的安全防护体系”,在威胁建模和监控方面 [55] [56]。他们与外部生物安全专家合作,并让领域专家在发布前对该代理进行了红队测试 [57]。发布的同时,OpenAI 还公布了一份详细的系统卡,解释风险,并提供漏洞悬赏,鼓励外部研究人员报告漏洞 [58] [59]

尽管采取了这些预防措施,OpenAI 也知道当 AI 在真实互联网环境中运行时,仍可能出现意外行为。公司表示将不断迭代优化该代理,并根据需要调整安全措施。目前,建议用户监督代理的操作(界面会通过叙述每一步来鼓励这样做)。“与以往模型相比,这一模型存在更多风险,”OpenAI 承认,这也是他们“现在就采取谨慎态度并实施必要防护措施” [60] [61]

早期局限性:速度与可靠性

现在还别急着解雇你的真人助理。在早期演示和测试中,ChatGPT Agent 展现了令人印象深刻的能力,但也有明显的局限性

  • 缓慢而稳定: 该代理通常需要一段时间才能完成任务。它可能会花几分钟点击和浏览以收集信息,远比直接聊天机器人回答要久得多。在一次演示中,让代理筛选 Google 日历和餐厅网站以推荐晚餐选项大约花了10–15 分钟 [62]。生成复杂的幻灯片或进行大量研究可能需要更长时间(OpenAI 员工指出,测试中制作幻灯片任务花了约 25 分钟) [63]“即使花 15 分钟、半小时,这与你自己做所需的时间相比,已经是很大的提速了,”Fulford 认为,并指出用户可以在代理工作时启动任务,然后去做其他事情 [64]。不过,仍然需要耐心;该代理并非即时完成。OpenAI 的 Yash Kumar 估计,当前版本平均每个任务大约需要 10–15 分钟 [65]
  • 偶尔的小故障: 和所有 AI 一样,代理可能会出错或在某个任务上“卡住”。早期用户反馈结果不一。有些复杂的工作流程可能会让它困惑,或者它可能在执行过程中误解指令。一位早期测试者评论说,该代理“我给它的三个不同任务都失败了……对未来的美好一瞥,但目前还不太实用。” [66]。这强调了该技术虽然先进,但并非万无一失。OpenAI 自己也指出该代理“仍处于早期阶段”,并且“仍然可能出错。” [67]。未来的更新有望提升其可靠性和推理能力。
  • 基本输出质量: PowerPoint/幻灯片生成功能目前处于测试版,这意味着它生成的幻灯片可能看起来比较简单,或者需要进一步润色 [68]。OpenAI 首先专注于确保内容和结构正确,而不是追求炫酷的设计。他们提醒说,格式可能比较基础,有时幻灯片预览和导出的 PowerPoint 文件之间会有差异 [69]。同样,虽然该代理可以编辑电子表格并保持公式,但它还没有达到熟练人类的 Excel 水平。OpenAI 已经在训练下一个版本,以便在演示文稿中生成更多“精致、复杂的输出” [70]
  • 尚未在欧洲上线:值得注意的是,ChatGPT Agent尚未在欧盟上线。OpenAI 正在“努力为欧洲经济区和瑞士开放访问权限” [71]。其他地区(包括美国和英国)的用户已立即获得访问权限,但欧洲用户则需无限期等待。OpenAI 尚未给出欧盟上线的具体时间表 [72]。这很可能与监管问题有关——欧盟严格的数据和人工智能法规可能要求 OpenAI 在推出自主代理前采取额外的合规措施。目前,欧洲用户只能看到该功能在其地区不可用的提示信息。

从积极的一面来看,OpenAI声称新代理的底层模型比以前的版本更为强大,这对处理复杂性来说是个好兆头。据报道,该模型在多个高难度基准测试中取得了最先进的分数 [73]。例如,在“人类最后的考试”——一项涵盖100多个学科的大型专家级测试中,它得分为41.6%,大约是OpenAI此前模型在该测试中得分的两倍 [74]。在一个著名的高难度数学基准测试(FrontierMath)中,它通过工具使用实现了27.4%的准确率,而此前最好的模型仅为6.3% [75]。这些提升表明,当能够使用工具时,该代理在解决复杂的多步骤问题方面要强得多。“OpenAI表示,ChatGPT代理比其以往产品更为强大,”TechCrunch报道 [76]——不过,在更多用户在真实场景中将其推向极限之前,它在受控测试之外到底有多“强大”还有待观察 [77]

可用性:谁可以使用ChatGPT代理?

OpenAI最初将ChatGPT代理作为付费订阅用户的专属福利推出。截至本周,该功能正在为ChatGPT的Pro、Plus和Team套餐用户(大致相当于高级套餐)开放 [78]。Pro用户将在发布当天率先获得访问权限,随后在接下来的几天内向Plus和Team订阅者开放 [79]。企业和教育套餐客户将在“未来几周”内获得该功能,待相关问题解决后 [80] [81]。目前尚未公布免费用户获得代理功能的时间表——鉴于其附加价值和高计算成本,这项功能很可能在可预见的未来仍将作为付费功能存在。

除了分级访问外,OpenAI 还设定了每月使用上限。Pro 订阅用户(最高级别)每月最多可运行400 个代理任务,而 Plus 和 Team 用户每月包含40 个任务 [82] [83]。这一上限确保高成本操作不会失控,但如果用户需要更多,还可以通过积分系统购买额外使用量 [84]。任务按“代理提示”计数,也就是说,每次你激活代理执行某项操作都算作一次。

如前所述,欧洲用户在发布时无法访问 ChatGPT Agent [85]。非欧盟用户切换到代理模式时,会收到关于该功能为实验性质的警告,然后可以继续使用。而欧盟用户则被直接阻止。OpenAI 表示正在为 EEA 地区开放访问,这表明延迟很可能是为了遵守欧盟法规(可能与隐私和 AI 法案有关)。这种按地区限制的发布方式让人联想到此前一些 ChatGPT 功能(如网页浏览)因法律不确定性而在部分地区暂时无法使用。目前,欧盟地区的用户只能等待,直到 OpenAI 确保代理功能符合当地要求。

AI 代理军备竞赛——Google、Anthropic 及其他公司

OpenAI 推进“代理型”AI,正值整个行业趋势转向自主 AI 助手。事实上,竞争对手们也在加紧推出自己的代理类功能:

  • Anthropic 的 Claude:去年,Anthropic(Claude 聊天机器人开发商)推出了一项名为“计算机使用”的功能——本质上让 Claude 能像人类一样使用计算机,比如浏览网站和在用户设备上执行任务 [86]。就在两个月前(2025 年 5 月),Anthropic 推出了其最新模型Claude 2(代号 Opus 4),具备代理功能,并同样启动了特殊生物安全措施以防止滥用 [87]。这表明即使是较小的 AI 初创公司也意识到自主代理的强大能力和潜在风险。
  • Google 的 AI 扩展: Google 一直在致力于将其生成式 AI(如 Bard 和 Assistant)与直接操作集成。他们已经演示了可以在 Gmail 中起草邮件、在 Google Drive 中总结文档,甚至通过其实验性的 “Duet AI” 为 Workspace 控制浏览器 的 AI。《卫报》指出,Google 最近推出了类似的 助手“代理”,可以在应用之间切换以完成用户任务 [88]。此外,就在上周,Google 专门从一家初创公司(Windsurf)聘请了关键员工,以加强其 代理型 AI 项目 [89],凸显了打造类 Jarvis 助手的竞争热潮。
  • 其他参与者:Meta(Facebook)和亚马逊也在财报电话会议上提到过 AI 代理的雄心,这表明所有大型科技公司都将其视为下一个重大趋势 [90]。例如,电商公司设想 AI 代理可以端到端处理客户服务聊天或购物请求。一个引人注目的早期案例是,金融科技公司 Klarna 在 2024 年初报告称,其 AI 客服代理处理了 三分之二的客户聊天,相当于约 700 名人类员工的工作量 [91]。这一成功案例帮助“AI 代理”一词在企业圈中流行起来,从那以后,许多 CEO 一直将基于代理的 AI 作为目标进行宣传 [92]
  • 以往的实验:OpenAI 本身也曾早早涉足代理领域。2025 年 1 月,它发布了 Operator 作为研究预览,称其为 “一个可以上网为你执行任务的代理” [93]。Operator 能够点击并滚动浏览网页。还有 Deep Research 模式,可以撰写长篇分析。然而,这些前身产品的功能范围有限,有时也不够稳定。其他初创公司(如 Adept AI 的 ACT-1)也展示了能够像人类一样在软件中执行命令的代理,但目前还没有成为主流产品。早期的 AI 代理一代在处理复杂任务和可靠性方面表现不佳 [94]——通常需要大量人工干预。科技高管们描绘了 AI 助手无所不能的愿景,但现实总是落后于炒作 [95]

现在,随着 ChatGPT Agent 的推出,OpenAI 正试图超越早期的努力。通过结合(网页浏览 + 分析)的优势,并利用 GPT-4 级别的智能,他们声称终于有了接近宏伟愿景的代理。“这是有史以来最好的代理用户体验。简直疯狂。谁能超越!!”一位激动的用户在发布后发帖称 [96]。虽然这种说法显然有些夸张,但它反映了 AI 社区某些角落的兴奋情绪——我们正逐步接近“J.A.R.V.I.S.”,也就是钢铁侠的虚构 AI 管家,在现实生活中 [97]。目前,ChatGPT Agent 及其同类产品仍然只是朝着这一理想迈出的早期步伐,主要处理研究、编程和基础的在线事务,而非真正的开放式自主 [98]。但竞争的势头已不可忽视:每一家 AI 公司都想成为第一个破解AI 助手日常实用难题的企业。

变现:代理能为 OpenAI 赚钱吗?

随着 ChatGPT Agent 的发布,OpenAI 不仅在展示新技术——也在关注潜在的收入来源。该公司为 ChatGPT 的开发投入了大量补贴(微软投资了数十亿美元),现在需要将其极受欢迎的 AI 变成“赚钱的产品” [99]。代理有可能通过几种方式成为变现的关键:

  • 订阅增值: 简而言之,代理模式是一项高级功能,可以吸引更多用户选择付费方案。通过将其仅限于Plus/Pro订阅者,OpenAI让每月20美元以上的费用对那些希望用AI助手分担工作任务的高阶用户更具吸引力。这就是最直接的即时变现方式:让更多人付费使用ChatGPT。
  • 交易手续费:OpenAI首席执行官Sam Altman曾暗示,将通过AI完成的商业交易收取佣金。他曾推测OpenAI可以“对通过助手促成的销售收取2%的费用” [100]。换句话说,如果ChatGPT Agent帮助你购买商品或预订酒店,OpenAI可能会抽取一小部分佣金(来自商家或通过联盟链接)。这种模式将使AI驱动的购物或预订成为营收来源。最近的代理演示展示了它引导用户完成零售结账,这立即引发了关于OpenAI未来可能整合此类联盟或推荐费用的讨论 [101]
  • 赞助结果/广告:AI助手可能成为广告的新平台。如果代理推荐产品或餐厅,品牌是否会为被推荐而付费?“某种形式的广告或赞助推荐似乎是不可避免的,”分析师Niamh Burns指出,“[AI公司]变现产品的压力日益增加。” [102]。这有先例——搜索引擎通过广告盈利,因此取代搜索的AI也可能如此。然而,OpenAI否认目前在ChatGPT Agent的推荐中使用任何赞助内容 [103]。他们表示,代理不包含付费产品植入,且“没有改变这一点的计划。” [104]。目前,结果应完全基于用户标准和AI判断。不过,一旦助手生态系统成熟,未来广告模式的大门依然敞开。
  • 企业服务:OpenAI 还可以通过将该代理作为企业软件解决方案的一部分来实现盈利。例如,公司可能会付费将 ChatGPT Agent 集成到其内部工具中,或让其处理客户支持。OpenAI 已经在与微软就持续合作进行合同谈判,可以想象,先进的代理将被打包进微软的产品中(这可能间接为 OpenAI 带来收入或有利条件) [105]。据产品负责人 Yash Kumar 称,“企业用例”是该代理设计中的一个重要考量 [106],这意味着 OpenAI 很可能正在思考企业如何利用(并为此付费)这项技术。

在短期内,OpenAI 的重点可能是完善代理并推动订阅。但最终,如果代理变得如承诺般有用,它们可能会促成整个交易或工作流程——而 OpenAI 肯定会寻求从中获取部分价值。公司必须在用户信任(一个推荐产品的代理必须让人觉得公正,才能被信任)与盈利之间取得平衡。他们如何做到这一点,将受到密切关注。正如分析师 Burns 所思考的,如果一个代理为你寻找产品,“这个系统寻找产品的过程中会发生什么?品牌会不会付费让助手推荐自己……?” [107]。OpenAI 坚称目前不会这样做,但经济动机是存在的。

专家反应与前景展望

ChatGPT Agent 的发布引发了专家和早期用户的兴奋与谨慎评论。Ethan Mollick,沃顿商学院以在教育领域实验 AI 而知名的教授,是少数获得早期访问权限的人之一。他的评价很积极:“ChatGPT agent,我认为,是让 AI 做实际工作的重大进步。即使在这个阶段,它也能自主完成研究、组装 Excel 文件(带公式!)、PowerPoint 等工作。” [108]。Mollick 表示,这让人看到了各种代理能力“正在融合”的一瞥,尽管它还不完美 [109]。其他 AI 研究人员也表达了类似观点,对 ChatGPT Agent 能够串联任务并产出以往需要许多手动步骤才能完成的可用结果印象深刻。

与此同时,人们也意识到现实世界的测试才刚刚开始。该代理在混乱的开放互联网环境下能否可靠运行、在浏览时能否避免被骗或误信虚假信息,以及普通用户是否真的觉得它有用——这些都是悬而未决的问题。“它在现实世界中的真正能力还有待观察,”正如TechCrunch指出,之前的代理在面对意外情境时往往很脆弱 [110]。社会上也有更广泛的担忧,即赋予AI更多自主权:即使有权限检查,AI做出奇怪或冒险决策的故事肯定还会出现。OpenAI自己的系统卡也承认“新型风险”,并承诺将持续研究如何缓解这些风险 [111] [112]

目前,ChatGPT Agent的推出标志着AI从单纯的辅助文本生成到实际执行任务的一个里程碑。这是从“聊天机器人”到“代理”范式转变的一部分——AI系统不仅能对话,还能主动采取行动并完成目标“Agent是当下最热门的流行词,”正如WIRED所写,因为许多公司都在追逐这一愿景 [113]。OpenAI已经在这片新领域牢牢插下了旗帜,借助ChatGPT的流行和用户熟悉度,将代理推向大众(至少是付费用户)。

底线:如果你是符合条件的ChatGPT用户,现在可以把某些繁琐或复杂的任务交给AI助手,并观看它一步步完成。这种体验有点神奇——就像拥有一个永不休息的勤奋实习生——同时也有点让人不安,因为AI会自主在网络上“游荡”。这次发布是一个关于普通人如何使用AI代理的宏大实验的开始。正如一位早期用户所说:“[它]能自主很好地完成任务……让人感受到代理正在逐步成型。” [114]在接下来的几个月里,我们将看到ChatGPT Agent是否真的兑现了其便利性和生产力的承诺,以及它与日益壮大的AI助手竞争者相比表现如何。有一点可以肯定:AI行动而不仅仅是聊天的时代,已经正式开启。

来源:

  • Booth, R. (2025年7月17日). 《卫报》——OpenAI推出能够控制文件和网页浏览器的个人助理. [115] [116] [117] [118] [119]
  • OpenAI. (2025年7月17日). 介绍ChatGPT Agent:连接研究与行动(OpenAI官方博客) [120] [121] [122] [123]
  • Field, H. (2025年7月17日). 《The Verge》——OpenAI新的ChatGPT Agent可以控制整台电脑并为你完成任务. [124] [125] [126] [127]
  • Zeff, M. (2025, 7月17日). TechCrunch – OpenAI在ChatGPT中推出通用型代理. [128] [129] [130] [131]
  • Rogers, R. (2025, 7月17日). WIRED – OpenAI的新ChatGPT代理尝试包揽一切. [132] [133] [134] [135]
  • Techmeme. (2025, 7月17日). 关于ChatGPT代理发布的聚合科技新闻(包括Ethan Mollick评论) [136]
Inside ChatGPT, AI assistants, and building at OpenAI — the OpenAI Podcast Ep. 2

References

1. www.theguardian.com, 2. www.theguardian.com, 3. techmeme.com, 4. www.theverge.com, 5. www.theguardian.com, 6. openai.com, 7. techmeme.com, 8. techcrunch.com, 9. openai.com, 10. www.theverge.com, 11. www.theverge.com, 12. www.theguardian.com, 13. www.wired.com, 14. www.wired.com, 15. openai.com, 16. openai.com, 17. openai.com, 18. openai.com, 19. openai.com, 20. www.wired.com, 21. openai.com, 22. techmeme.com, 23. www.theverge.com, 24. www.theverge.com, 25. www.wired.com, 26. www.wired.com, 27. openai.com, 28. openai.com, 29. openai.com, 30. openai.com, 31. openai.com, 32. openai.com, 33. openai.com, 34. openai.com, 35. openai.com, 36. www.theverge.com, 37. openai.com, 38. openai.com, 39. openai.com, 40. www.theguardian.com, 41. www.theguardian.com, 42. www.theguardian.com, 43. www.theverge.com, 44. www.theguardian.com, 45. www.theverge.com, 46. techcrunch.com, 47. techcrunch.com, 48. www.theguardian.com, 49. openai.com, 50. techcrunch.com, 51. techcrunch.com, 52. www.wired.com, 53. www.theverge.com, 54. www.theverge.com, 55. openai.com, 56. openai.com, 57. openai.com, 58. openai.com, 59. openai.com, 60. www.theguardian.com, 61. www.theguardian.com, 62. www.theguardian.com, 63. www.wired.com, 64. www.theverge.com, 65. www.wired.com, 66. techmeme.com, 67. openai.com, 68. openai.com, 69. openai.com, 70. openai.com, 71. openai.com, 72. www.theverge.com, 73. techcrunch.com, 74. techcrunch.com, 75. techcrunch.com, 76. techcrunch.com, 77. techcrunch.com, 78. techcrunch.com, 79. openai.com, 80. openai.com, 81. www.theverge.com, 82. www.wired.com, 83. www.wired.com, 84. openai.com, 85. www.theguardian.com, 86. www.theverge.com, 87. www.theverge.com, 88. www.theguardian.com, 89. www.theverge.com, 90. www.theverge.com, 91. www.theverge.com, 92. www.theverge.com, 93. www.theverge.com, 94. techcrunch.com, 95. techcrunch.com, 96. techmeme.com, 97. www.theverge.com, 98. www.theverge.com, 99. www.wired.com, 100. www.theguardian.com, 101. www.theguardian.com, 102. www.theguardian.com, 103. www.theguardian.com, 104. www.theguardian.com, 105. www.wired.com, 106. www.wired.com, 107. www.theguardian.com, 108. techmeme.com, 109. techmeme.com, 110. techcrunch.com, 111. openai.com, 112. openai.com, 113. www.wired.com, 114. techmeme.com, 115. www.theguardian.com, 116. www.theguardian.com, 117. www.theguardian.com, 118. www.theguardian.com, 119. www.theguardian.com, 120. openai.com, 121. openai.com, 122. openai.com, 123. openai.com, 124. www.theverge.com, 125. www.theverge.com, 126. www.theverge.com, 127. www.theverge.com, 128. techcrunch.com, 129. techcrunch.com, 130. techcrunch.com, 131. techcrunch.com, 132. www.wired.com, 133. www.wired.com, 134. www.wired.com, 135. www.wired.com, 136. techmeme.com

AI Breakthroughs, Bold Plans & Backlash: Inside the 48‑Hour Global AI Frenzy (July 23–24, 2025)
Previous Story

AI 突破、激进计划与反弹:48 小时全球 AI 狂潮内幕(2025 年 7 月 23–24 日)

China’s J-35 Stealth Fighter: Inside the Navy’s New F-35 Rival
Next Story

中国歼-35隐形战机:海军新一代F-35对手揭秘

Go toTop