GitHub狂揽1.7万星!这款AI浏览器神器,Token直降93%,零代码搞定自动化
在AI Agent飞速发展的当下,让AI操控浏览器完成自动化操作,早已不是新鲜事。
可实操起来却处处踩坑:传统自动化工具要手写大段代码定位元素,AI解析原始网页HTML,Token消耗惊人,还经常定位失败、运行报错,折腾半天也跑不通一个简单流程。
最近,Vercel Labs开源的一款神器agent-browser彻底火了,上线不到两个月,GitHub星标直接突破1.7万,NPM周下载量超90万次,成了AI开发者、自动化爱好者的心头好。
它专为AI Agent打造,不用写复杂代码,不用精通常规定位语法,大幅降低Token消耗,零基础也能轻松玩转浏览器自动化。

继续话题~
01 告别繁琐代码,解决AI自动化痛点
说起浏览器自动化,大家最先想到的就是Selenium、Puppeteer、Playwright这些老牌工具,虽然好用,但门槛着实不低。
这些工具都是面向人工开发者设计的,想要实现点击、输入、抓取内容,必须手动编写JS、Python代码,精准写出CSS、XPath定位语句,稍微改个网页样式,定位就失效,调试起来极其麻烦。
要是交给AI来操作,问题更严重:AI需要解析整个网页的原始HTML代码,动辄上万Token,成本居高不下,还容易识别错误元素,导致自动化流程中断。
而agent-browser完美攻克了这些难题,它另辟蹊径,提取网页无障碍访问树,给所有可交互元素打上唯一编号(@e1、@e2、@e3……),AI和用户只需要通过编号,就能操控网页,不用管复杂的源码结构。
对比传统方式,它的Token消耗直接暴跌93%,从原先的上万Token,压缩到几百个,运行更稳定、速度更快,就算网页改版,元素编号也不容易失效。
02 三分钟上手,零代码玩转自动化
这款工具最大的亮点就是易用,全程CLI命令操作,不用搭建复杂环境,三步就能跑完一套完整流程,新手也能快速上手。
第一步:快速安装
工具支持多种安装方式,大家可以根据自己的设备选择,推荐新手直接用NPM全局安装,省事又稳定。
NPM全局安装(推荐)
npm install -g agent-browser
agent-browser install
macOS Homebrew安装
brew install agent-browser && agent-browser install
快速体验(npx)
npx agent-browser install && npx agent-browser open example.com
Linux系统
agent-browser install --with-deps
第二步:核心三步工作流
安装完成后,不用写代码,只用三条命令,就能完成打开网页、识别元素、执行操作全流程,页面更新后,重新拍个快照就能继续操作。
1. 打开目标网页
agent-browser open https://example.com
2. 拍摄元素快照,生成编号
agent-browser snapshot -i
3. 执行各类操作(点击、输入、读取内容)
点击元素:
agent-browser click @e2
填写内容:
agent-browser fill @e3 "test@example.com"
读取文本:
agent-browser get text @e1
03 实用功能拉满,覆盖全场景需求
除了基础的点击、输入、读取,agent-browser还自带超多实用功能,不管是日常自动化、数据抓取,还是AI辅助开发,都能完美适配。
截图与文件导出
支持普通截图、全页截图,还能给元素标注编号,适配多模态AI,也能直接把网页保存成PDF。
agent-browser screenshot --annotate page.png
智能等待,解决动态网页问题
遇到动态加载的网页,不用手动设置延时,命令自带等待机制,等网页加载完成、指定元素出现后再执行操作,杜绝报错。
agent-browser wait --load networkidle
多会话与状态持久化
支持同时开启多个浏览器窗口,互不干扰,还能保存登录状态,下次使用直接加载,不用重复登录,适合多账号操作、长期自动化任务。
agent-browser --session buyer open shop.com
完美适配主流AI工具
这也是它的核心优势,能无缝对接Claude Code、Cursor、GitHub Copilot等热门AI编程助手,不管是让AI代写命令,还是集成到自研AI Agent里,都毫无压力。
简易版直接在对话里告知AI用agent-browser操作,进阶版还能导出结构化数据,方便程序解析,适配各类开发场景。
04 和传统工具对比,优势一目了然
很多人会问,agent-browser和Playwright、Puppeteer有什么区别?其实它并不是替代品,而是在Playwright基础上,打造的AI友好层,定位完全不同。
|
对比维度 |
agent-browser |
传统自动化工具 |
|---|---|---|
|
适用对象 |
AI Agent、零基础用户 |
专业开发人员 |
|
操作方式 |
CLI命令,零代码 |
手写编程代码 |
|
Token消耗 |
极低,直降93% |
极高,耗费成本 |
|
元素定位 |
数字编号,稳定不易失效 |
CSS/XPath,易失效 |
|
运行速度 |
Rust架构,响应极快 |
受代码逻辑影响 |
05 常见问题解决,避开使用坑点
使用过程中遇到小问题,照着这些方法解决,轻松搞定大部分故障:
1. 快照为空结果:先执行等待命令,等页面加载完毕再快照
2. 点击无反应:关闭弹窗遮罩,重新快照识别元素
3. 找不到目标元素:添加参数扩大识别范围
4. 超时报错:手动调整超时时长,控制在30秒以内
06 适合人群与使用场景
推荐使用人群
✅ AI开发者,打造智能Agent
✅ 零基础想玩自动化的新手
✅ 需要批量截图、数据抓取的用户
✅ 想降低AI Token成本的从业者
更适合传统工具的场景
需要编写专业端到端测试脚本、跨浏览器兼容测试的场景,依旧可以选用Playwright。
总的来说,agent-browser把AI浏览器自动化的门槛降到了最低,不用代码、不用复杂配置,低成本、高效率,不管是个人使用,还是开发项目,都是一款不可多得的神器。
注:本文转载自【今日头条 - AI布道者】,点击阅读原文进入原文链接