GitHub狂揽1.7万星！这款AI浏览器神器，Token直降93%，零代码搞定自动化

在AI Agent飞速发展的当下，让AI操控浏览器完成自动化操作，早已不是新鲜事。

可实操起来却处处踩坑：传统自动化工具要手写大段代码定位元素，AI解析原始网页HTML，Token消耗惊人，还经常定位失败、运行报错，折腾半天也跑不通一个简单流程。

最近，Vercel Labs开源的一款神器agent-browser彻底火了，上线不到两个月，GitHub星标直接突破1.7万，NPM周下载量超90万次，成了AI开发者、自动化爱好者的心头好。

它专为AI Agent打造，不用写复杂代码，不用精通常规定位语法，大幅降低Token消耗，零基础也能轻松玩转浏览器自动化。

想要更高效？建议使用算力云平台（www.suanlix.cn）：提供GPU云主机、海外VPS、跨境云电脑以及GPU整机（裸金属）租赁，支持分钟计费/包月模式。已上线 OpenClaw等镜像，实现一键部署、开机即用，配置可视化解决操作难点，提供免费大模型，且全球30+地域任选（免费闪连加速），让每一位用户在实现任务处理时都能提质增效。

01 告别繁琐代码，解决AI自动化痛点

说起浏览器自动化，大家最先想到的就是Selenium、Puppeteer、Playwright这些老牌工具，虽然好用，但门槛着实不低。

这些工具都是面向人工开发者设计的，想要实现点击、输入、抓取内容，必须手动编写JS、Python代码，精准写出CSS、XPath定位语句，稍微改个网页样式，定位就失效，调试起来极其麻烦。

要是交给AI来操作，问题更严重：AI需要解析整个网页的原始HTML代码，动辄上万Token，成本居高不下，还容易识别错误元素，导致自动化流程中断。

而agent-browser完美攻克了这些难题，它另辟蹊径，提取网页无障碍访问树，给所有可交互元素打上唯一编号（@e1、@e2、@e3……），AI和用户只需要通过编号，就能操控网页，不用管复杂的源码结构。

对比传统方式，它的Token消耗直接暴跌93%，从原先的上万Token，压缩到几百个，运行更稳定、速度更快，就算网页改版，元素编号也不容易失效。

02 三分钟上手，零代码玩转自动化

这款工具最大的亮点就是易用，全程CLI命令操作，不用搭建复杂环境，三步就能跑完一套完整流程，新手也能快速上手。

第一步：快速安装

工具支持多种安装方式，大家可以根据自己的设备选择，推荐新手直接用NPM全局安装，省事又稳定。

NPM全局安装（推荐）

npm install -g agent-browser

agent-browser install

macOS Homebrew安装

brew install agent-browser && agent-browser install

快速体验（npx）

npx agent-browser install && npx agent-browser open example.com

Linux系统

agent-browser install --with-deps

第二步：核心三步工作流

安装完成后，不用写代码，只用三条命令，就能完成打开网页、识别元素、执行操作全流程，页面更新后，重新拍个快照就能继续操作。

1. 打开目标网页

agent-browser open https://example.com

2. 拍摄元素快照，生成编号

agent-browser snapshot -i

3. 执行各类操作（点击、输入、读取内容）

点击元素：

agent-browser click @e2

填写内容：

agent-browser fill @e3 "test@example.com"

读取文本：

agent-browser get text @e1

03 实用功能拉满，覆盖全场景需求

除了基础的点击、输入、读取，agent-browser还自带超多实用功能，不管是日常自动化、数据抓取，还是AI辅助开发，都能完美适配。

截图与文件导出

支持普通截图、全页截图，还能给元素标注编号，适配多模态AI，也能直接把网页保存成PDF。

agent-browser screenshot --annotate page.png

智能等待，解决动态网页问题

遇到动态加载的网页，不用手动设置延时，命令自带等待机制，等网页加载完成、指定元素出现后再执行操作，杜绝报错。

agent-browser wait --load networkidle

多会话与状态持久化

支持同时开启多个浏览器窗口，互不干扰，还能保存登录状态，下次使用直接加载，不用重复登录，适合多账号操作、长期自动化任务。

agent-browser --session buyer open shop.com

完美适配主流AI工具

这也是它的核心优势，能无缝对接Claude Code、Cursor、GitHub Copilot等热门AI编程助手，不管是让AI代写命令，还是集成到自研AI Agent里，都毫无压力。

简易版直接在对话里告知AI用agent-browser操作，进阶版还能导出结构化数据，方便程序解析，适配各类开发场景。

04 和传统工具对比，优势一目了然

很多人会问，agent-browser和Playwright、Puppeteer有什么区别？其实它并不是替代品，而是在Playwright基础上，打造的AI友好层，定位完全不同。

对比维度	agent-browser	传统自动化工具
适用对象	AI Agent、零基础用户	专业开发人员
操作方式	CLI命令，零代码	手写编程代码
Token消耗	极低，直降93%	极高，耗费成本
元素定位	数字编号，稳定不易失效	CSS/XPath，易失效
运行速度	Rust架构，响应极快	受代码逻辑影响

05 常见问题解决，避开使用坑点

使用过程中遇到小问题，照着这些方法解决，轻松搞定大部分故障：

1. 快照为空结果：先执行等待命令，等页面加载完毕再快照

2. 点击无反应：关闭弹窗遮罩，重新快照识别元素

3. 找不到目标元素：添加参数扩大识别范围

4. 超时报错：手动调整超时时长，控制在30秒以内

06 适合人群与使用场景

更适合传统工具的场景

需要编写专业端到端测试脚本、跨浏览器兼容测试的场景，依旧可以选用Playwright。

总的来说，agent-browser把AI浏览器自动化的门槛降到了最低，不用代码、不用复杂配置，低成本、高效率，不管是个人使用，还是开发项目，都是一款不可多得的神器。

注：本文转载自【今日头条 - AI布道者】，点击阅读原文进入原文链接