集成：Browserbase

将 Browserbase 无头浏览器与 Haystack 结合使用

作者

Browserbase

GitHub 仓库 PyPI 包

Browserbase 是一个可靠运行、管理和监控无头浏览器的开发者平台。

为您的 AI 数据检索提供动力，使用

无服务器基础设施，提供可靠的浏览器来从复杂的 UI 中提取数据
隐身模式，包含指纹识别策略和自动验证码解决
会话调试器，使用网络时间线和日志检查您的浏览器会话
实时调试，快速调试您的自动化

安装和设置

从 browserbase.com 获取 API 密钥和项目 ID，并在环境变量中设置（BROWSERBASE_API_KEY，BROWSERBASE_PROJECT_ID）。
安装所需的依赖项

pip install browserbase-haystack

使用

您可以使用 BrowserbaseFetcher 将网页加载到 Haystack 中。可选地，您可以设置 text_content 参数将页面转换为纯文本表示。

独立运行

from browserbase_haystack import BrowserbaseFetcher

browserbase_fetcher = BrowserbaseFetcher()
browserbase_fetcher.run(urls=["https://example.com"], text_content=False)

在管道中

from haystack import Pipeline
from haystack.components.generators import OpenAIGenerator
from haystack.components.builders import PromptBuilder
from browserbase_haystack import BrowserbaseFetcher

prompt_template = (
    "Tell me the titles of the given pages. Pages: {{ documents }}"
)
prompt_builder = PromptBuilder(template=prompt_template)
llm = OpenAIGenerator()

browserbase_fetcher = BrowserbaseFetcher()

pipe = Pipeline()
pipe.add_component("fetcher", browserbase_fetcher)
pipe.add_component("prompt_builder", prompt_builder)
pipe.add_component("llm", llm)

pipe.connect("fetcher.documents", "prompt_builder.documents")
pipe.connect("prompt_builder.prompt", "llm.prompt")
result = pipe.run(data={"fetcher": {"urls": ["https://example.com"]}})

参数

urls 必需。要抓取的 URL 列表。
text_content 仅检索文本内容。默认为 False。
session_id 可选。提供现有的会话 ID。
proxy 可选。启用/禁用代理。