
前沿资讯
1748082688更新
0
OpenAI宣布将ChatGPT内的自主网页浏览及光标控制代理Operator进行升级,从原先使用的GPT-4o多模态大语言模型更换为o3推理模型。
此次升级于当地时间5月23日在全球范围内发布,作为“研究预览版”向订阅每月200美元的Pro计划付费用户开放。有了谷歌接近每月250美元的顶级AI订阅服务包作为衬托,OpenAI的Pro计划的价格突然显得更亲民了一些。
Operator于2025年1月首次亮相,是OpenAI迈向半自主代理的初步尝试,旨在超越聊天机器人界限,让AI模型代表用户执行更多操作,如通过自主指向、点击、滚动和输入完成预订晚餐、整理购物清单等网页任务。它在云托管的虚拟浏览器中运行,用户可输入请求并实时观察任务执行过程,Operator结合了基于GPT-4o的视觉、推理和交互能力,具备用户确认、观察模式等安全措施,已在旅行规划、公共服务等企业场景中测试。
基于o3模型的Operator在浏览器交互中将更具持续性和准确性,能以更高的成功率完成任务、响应更清晰和全面。对比评估显示,用户更青睐o3模型的风格,其在遵循指令和效率方面表现出色。第三方基准测试中,OSWorld得分从38.1提升至42.9,WebArena得分从48.1提升至62.9,GAIA得分从12.3大幅提升至62.2,实际案例中其输出也更清晰详细。
o3模型继承并微调了安全措施,加强了针对有害任务执行等的训练,敏感操作确认率达94%、金融交易100%确认,提示注入易受攻击性从23%降至20%。o3 Operator在某些高风险网络交互,如电子邮件或金融平台方面保持谨慎,可能需要用户通过观察模式进行监督,或明确拒绝执行操作,这些措施是安全分层方法的一部分,结合模型鲁棒性与实时监控来保障安全。根据OpenAI更新的o3系统卡文档,该模型在生物和化学滥用等类别低于高风险阈值,并且没有原生编码环境或终端访问权限,进一步减少了潜在的滥用途径。
升级后的Operator有望提升AI工程、数据管理等领域人员的工作流程效率,减少测试验证工作量。数据工程师可以更放心地将数据验证和抓取等手动网页交互任务委托给Operator,从而腾出时间进行更高级别的优化工作。基于o3的Operator既实现了能力升级,又提供了风险缓解框架,使其成为现代技术工具包中的实用补充。
参考资料:https://venturebeat.com/ai/openai-updates-operator-to-o3-making-its-200-monthly-chatgpt-subscription-more-enticing/