其他 2026-03-27 16:20

GitHub狂揽1.7万星!这款AI浏览器神器,Token直降93%,零代码搞定自动化

在AI Agent飞速发展的当下,让AI操控浏览器完成自动化操作,早已不是新鲜事。

可实操起来却处处踩坑:传统自动化工具要手写大段代码定位元素,AI解析原始网页HTML,Token消耗惊人,还经常定位失败、运行报错,折腾半天也跑不通一个简单流程。

最近,Vercel Labs开源的一款神器agent-browser彻底火了,上线不到两个月,GitHub星标直接突破1.7万,NPM周下载量超90万次,成了AI开发者、自动化爱好者的心头好。

它专为AI Agent打造,不用写复杂代码,不用精通常规定位语法,大幅降低Token消耗,零基础也能轻松玩转浏览器自动化。

 


想要更高效?建议使用算力云平台(www.suanlix.cn):提供GPU云主机、海外VPS、跨境云电脑以及GPU整机(裸金属)租赁,支持分钟计费/包月模式。已上线 OpenClaw等镜像实现一键部署、开机即用,配置可视化 解决操作难点,提供免费大模型,全球30+地域任选(免费闪连加速)让每一位用户在实现任务处理时都能提质增效。
 相关教学:
① OpenClaw 模型部署  ② OpenClaw 飞书部署

 继续话题~

01 告别繁琐代码,解决AI自动化痛点

说起浏览器自动化,大家最先想到的就是Selenium、Puppeteer、Playwright这些老牌工具,虽然好用,但门槛着实不低。

这些工具都是面向人工开发者设计的,想要实现点击、输入、抓取内容,必须手动编写JS、Python代码,精准写出CSS、XPath定位语句,稍微改个网页样式,定位就失效,调试起来极其麻烦。

要是交给AI来操作,问题更严重:AI需要解析整个网页的原始HTML代码,动辄上万Token,成本居高不下,还容易识别错误元素,导致自动化流程中断。

agent-browser完美攻克了这些难题,它另辟蹊径,提取网页无障碍访问树,给所有可交互元素打上唯一编号(@e1、@e2、@e3……),AI和用户只需要通过编号,就能操控网页,不用管复杂的源码结构。

对比传统方式,它的Token消耗直接暴跌93%,从原先的上万Token,压缩到几百个,运行更稳定、速度更快,就算网页改版,元素编号也不容易失效。

02 三分钟上手,零代码玩转自动化

这款工具最大的亮点就是易用,全程CLI命令操作,不用搭建复杂环境,三步就能跑完一套完整流程,新手也能快速上手。

第一步:快速安装

工具支持多种安装方式,大家可以根据自己的设备选择,推荐新手直接用NPM全局安装,省事又稳定。

NPM全局安装(推荐)

  •  
npm install -g agent-browser
agent-browser install

macOS Homebrew安装

  •  
brew install agent-browser && agent-browser install

快速体验(npx)

  •  
npx agent-browser install && npx agent-browser open example.com

Linux系统

  •  
agent-browser install --with-deps

 

第二步:核心三步工作流

安装完成后,不用写代码,只用三条命令,就能完成打开网页、识别元素、执行操作全流程,页面更新后,重新拍个快照就能继续操作。

1. 打开目标网页

  •  
agent-browser open https://example.com

 

2. 拍摄元素快照,生成编号

  •  
agent-browser snapshot -i

 

3. 执行各类操作(点击、输入、读取内容)

点击元素:

  •  
agent-browser click @e2

 

填写内容:

  •  
agent-browser fill @e3 "test@example.com"

 

读取文本:

  •  
agent-browser get text @e1

 

03 实用功能拉满,覆盖全场景需求

除了基础的点击、输入、读取,agent-browser还自带超多实用功能,不管是日常自动化、数据抓取,还是AI辅助开发,都能完美适配。

截图与文件导出

支持普通截图、全页截图,还能给元素标注编号,适配多模态AI,也能直接把网页保存成PDF。

  •  
agent-browser screenshot --annotate page.png

智能等待,解决动态网页问题

遇到动态加载的网页,不用手动设置延时,命令自带等待机制,等网页加载完成、指定元素出现后再执行操作,杜绝报错。

  •  
agent-browser wait --load networkidle

多会话与状态持久化

支持同时开启多个浏览器窗口,互不干扰,还能保存登录状态,下次使用直接加载,不用重复登录,适合多账号操作、长期自动化任务。

  •  
agent-browser --session buyer open shop.com

完美适配主流AI工具

这也是它的核心优势,能无缝对接Claude Code、Cursor、GitHub Copilot等热门AI编程助手,不管是让AI代写命令,还是集成到自研AI Agent里,都毫无压力。

简易版直接在对话里告知AI用agent-browser操作,进阶版还能导出结构化数据,方便程序解析,适配各类开发场景。

04 和传统工具对比,优势一目了然

很多人会问,agent-browser和Playwright、Puppeteer有什么区别?其实它并不是替代品,而是在Playwright基础上,打造的AI友好层,定位完全不同。

对比维度

agent-browser

传统自动化工具

适用对象

AI Agent、零基础用户

专业开发人员

操作方式

CLI命令,零代码

手写编程代码

Token消耗

极低,直降93%

极高,耗费成本

元素定位

数字编号,稳定不易失效

CSS/XPath,易失效

运行速度

Rust架构,响应极快

受代码逻辑影响

05 常见问题解决,避开使用坑点

使用过程中遇到小问题,照着这些方法解决,轻松搞定大部分故障:

1. 快照为空结果:先执行等待命令,等页面加载完毕再快照

2. 点击无反应:关闭弹窗遮罩,重新快照识别元素

3. 找不到目标元素:添加参数扩大识别范围

4. 超时报错:手动调整超时时长,控制在30秒以内

06 适合人群与使用场景

推荐使用人群

✅ AI开发者,打造智能Agent

✅ 零基础想玩自动化的新手

✅ 需要批量截图、数据抓取的用户

✅ 想降低AI Token成本的从业者

更适合传统工具的场景

需要编写专业端到端测试脚本、跨浏览器兼容测试的场景,依旧可以选用Playwright。

总的来说,agent-browser把AI浏览器自动化的门槛降到了最低,不用代码、不用复杂配置,低成本、高效率,不管是个人使用,还是开发项目,都是一款不可多得的神器。

注:本文转载自【今日头条 - AI布道者】,点击阅读原文进入原文链接