部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Browser Use - 让AI能够控制你的浏览器

Browser Use - 让AI能够控制你的浏览器

作者头像
wangmcn
发布2025-03-18 19:17:13
发布2025-03-18 19:17:13
24800
代码可运行
举报
文章被收录于专栏:AllTests软件测试AllTests软件测试
运行总次数:0
代码可运行

1、前言

在科技飞速发展的当下,人工智能(AI)已经渗透到我们生活的方方面面,而AI智能体与浏览器的连接,正逐渐成为互联网发展的全新趋势,引发了大众对上网体验变革的无限期待。这种创新的融合,就像是为传统浏览器插上了智能的翅膀,将为我们带来前所未有的互联网交互感受。

本篇将介绍将你的AI代理与浏览器轻松连接,通过AI智能体访问各类网站的自动化框架 - Browser Use

2、简介

Browser Use是将你的AI智能体与浏览器连接起来的最简单方式。它通过提供一个功能强大且操作简单的浏览器自动化接口,让AI智能体能够访问各类网站。

功能特点:

  • 强大的浏览器自动化功能:Browser Use将先进的AI能力与强大的浏览器自动化技术相结合,为AI智能体实现流畅无缝的网页交互体验。
  • 视觉感知与HTML结构提取:将视觉理解能力与HTML结构提取功能相结合,以实现全面的网页交互。
  • 多标签页管理:可自动处理多个浏览器标签页,以适应复杂的工作流程和并行处理需求。
  • 元素追踪:提取被点击元素的 XPath(路径表达式),并重复完全相同的大语言模型(LLM)操作,以实现连贯一致的自动化操作。
  • 自定义操作:添加你自己的操作,比如保存到文件、数据库操作、发送通知,或者处理人工输入等。
  • 自我纠错:具备智能的错误处理机制和自动恢复功能,以保障自动化工作流程的稳健运行。
  • 支持任意大语言模型:与所有基于LangChain的大语言模型兼容,包括GPT-4、Claude 3以及Llama 2。

官网地址:

https://browser-use.com/

3、快速上手

一、安装与智能体设置

1、Browser Use需要Python 3.11或更高版本。

代码语言:javascript
代码运行次数:0
运行
复制
pip install browser-use

2、安装Playwright。

代码语言:javascript
代码运行次数:0
运行
复制
playwright install

3、创建一个智能体。

然后你可以按如下方式使用该智能体:

代码语言:javascript
代码运行次数:0
运行
复制
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
from dotenv import load_dotenv
load_dotenv()

async def main():
    agent = Agent(
        task="Compare the price of gpt-4o and DeepSeek-V3",
        llm=ChatOpenAI(model="gpt-4o"),
    )
    await agent.run()

asyncio.run(main())

4、设置你的大语言模型(LLM)API密钥。

ChatOpenAI以及其他基于Langchain的聊天模型都需要API密钥。你可以将这些密钥存储在你的.env文件中。

代码语言:javascript
代码运行次数:0
运行
复制
OPENAI_API_KEY=

二、Browser Use + DeepSeek-R1

本篇示例,作者使用DeepSeek-R1模型。

访问DeepSeek的API开放平台,购买流量,并创建API key。

https://platform.deepseek.com/

示例脚本:

将引入的智能体(DeepSeek-R1)与API密钥放在同一个脚本文件里。

操作步骤为打开购物网站,输入账户密码登录,查看商品详情,添加购物车,关闭浏览器。

代码语言:javascript
代码运行次数:0
运行
复制
import asyncio
import os

from dotenv import load_dotenv
from langchain_openai import ChatOpenAI
from pydantic import SecretStr

from browser_use import Agent

# dotenv
load_dotenv()

api_key = os.getenv('DEEPSEEK_API_KEY', 'sk-……)
if not api_key:
    raise ValueError('DEEPSEEK_API_KEY is not set')

async def run_search():
    agent = Agent(
        task=(
            '1. 访问 https://www.saucedemo.com/'
            '2. 输入用户名 standard_user, 密码 secret_sauce, 进行登录'
            '3. 点击黑色T-Shirt, 查看详情'
            '4. 将黑色T-Shirt添加到购物车'
            '5. 关闭浏览器'
        ),
        llm=ChatOpenAI(
            base_url='https://api.deepseek.com/v1',
            model='deepseek-chat',
            api_key=SecretStr(api_key),
        ),
        use_vision=False,
    )

    await agent.run()

if __name__ == '__main__':
    asyncio.run(run_search())

运行时,AI识别页面元素:

控制台日志信息:

完整运行过程:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AllTests软件测试 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档