微软开源了一个新工具Webwright:让 AI 自动帮你写 Playwright 代码

工具推荐 1779939294更新

0

如果你做过网页自动化,大概率用过或者听说过 Playwright。

这是微软开源的一个浏览器自动化库,你可以用它来写代码控制浏览器——自动点击按钮、填写表单、截图、爬取数据等等。非常强大,用过的人都说好。

但用 Playwright 有个前提:你得自己写代码

比如你想让浏览器自动打开百度、搜索"天气",你得自己写这么一段:

browser = playwright.chromium.launch()page = browser.new_page()page.goto("https://baidu.com")page.fill("#kw", "天气")page.click("#su")

每一行代码都是你自己写的,每一个操作步骤都是你自己定的。Playwright 只是帮你执行这些代码,它本质上就是一个工具,你告诉它做什么,它就做什么。

这个模式没什么问题,但局限性也很明显——你得懂代码。

那不会写代码的人怎么办?

这就是 Webwright 想要解决的问题。

这是微软最近开源的一个新项目,名字起得很有意思——Webwright,直译就是"网页工匠"。但它的定位跟 Playwright 不太一样。

Playwright 是给程序员用的工具,Webwright 是让模型帮你操作。

用 Webwright,你不需要写代码。你只需要说一句话:

"帮我打开百度,搜索天气"

然后 AI 自动帮你生成代码、自动执行、完成任务。

对,你没看错——是 AI 帮你写 Playwright 代码,然后帮你执行。

Webwright 是怎么工作的?

这里有个很有意思的设计。

Webwright 没有搞什么花里胡哨的多智能体系统、图引擎、插件层什么的。整个项目拢共才一千五百多行代码,核心逻辑非常清晰。

它的工作流程是这样的:

你输入任务 → AI 分析需求 → 生成 Python 代码(Playwright 脚本)→ 执行 → 返回结果

举个例子,你说"帮我订机票",AI 可能直接生成这样一段代码:

page.goto("https://flights.google.com")page.click("[aria-label='出发地']")page.fill("[aria-label='出发地']", "北京")page.click("[aria-label='目的地']")page.fill("[aria-label='目的地']", "上海")page.click("[aria-label='搜索']")

一次性全给你写出来了,然后自动执行。

生成的代码能复用?

这是 Webwright 另一个很实用的设计。

每次任务执行完,它会自动把 AI 生成的脚本保存到本地。比如保存成 final_script.py

以后,你想干同样的事,直接把这个脚本拿过来改改参数就能用。比如你让 AI 帮你搜了一次"北京天气",下次想搜"上海天气",改两个参数就行,不用再让 AI 重新跑一遍。

而且,Webwright 还支持把脚本改造成参数化的命令行工具,以后直接在终端敲一行命令就搞定了。

说人话就是——AI 不只是帮你干活,它还在帮你沉淀下来一套可以反复用的工具

说再多,不如动手试试。

下面是具体的安装和使用步骤。

环境要求

  • Python 3.10 或更高版本
  • Chromium 浏览器
  • 一个 AI 模型的 API 密钥(支持 OpenAI、Anthropic 或 OpenRouter 等)

安装步骤

# 克隆项目git clone https://github.com/microsoft/webwright.gitcd webwright# 安装依赖pip install -e .playwright install chromium

运行第一个任务

以 OpenAI 为例,先设置 API 密钥:

export OPENAI_API_KEY="你的API密钥"

然后执行任务:

python -m webwright.run.cli \  -c base.yaml \  -c model_openai.yaml \  -t "打开百度首页,截图" \  --start-url https://www.baidu.com \  --task-id demo \  -o outputs

等待几秒钟,你会看到 AI 自动启动浏览器、执行任务、生成截图。

至于效果,微软在论文里公布的数据是:

在 Online-Mind2Web 这个 benchmark 上,GPT-5.4 能达到 86.7% 的任务完成率,Claude Opus 4.7 是 84.7%。

就是说,让 AI 去完成 100 个网页任务,大概能成功完成 85 个左右。剩下的 15 个,可能因为页面太复杂或者 AI 理解错了需求,需要手动介入。

所以这个东西目前还不是完美的通用解决方案,但已经是一个可以实际用起来的起点了。

能跟现有工具集成吗?

如果你现在在用 Claude Code、OpenAI Codex 或者 OpenClaw,Webwright 提供了插件支持,装上之后可以直接用自然语言让这些工具帮你操作浏览器,不需要额外部署什么。

具体的安装方式在 GitHub 主页上写得很清楚,有需要自己去翻。

总结一下。

Playwright 是给程序员用的精密工具,Webwright 是让所有人用的智能助手。

它们不是替代关系,而是互补关系——程序员想要精细控制的时候用 Playwright,想快速自动化的时候用 Webwright。

如果你经常需要做重复性的网页操作,或者想体验一下"说句话 AI 就帮你干活"的感觉,可以去 GitHub 上搜一下 microsoft/webwright,上手试试。

参考资料:

  • Webwright GitHub:https://github.com/microsoft/webwright
  • 微软官方博客:https://www.microsoft.com/en-us/research/articles/webwright-a-terminal-is-all-you-need-for-web-agents/
  • Playwright GitHub:https://github.com/microsoft/playwright