集成:Browserbase
将 Browserbase 无头浏览器与 Haystack 结合使用
Browserbase 是一个可靠运行、管理和监控无头浏览器的开发者平台。
为您的 AI 数据检索提供动力,使用
安装和设置
- 从 browserbase.com 获取 API 密钥和项目 ID,并在环境变量中设置(
BROWSERBASE_API_KEY,BROWSERBASE_PROJECT_ID)。 - 安装所需的依赖项
pip install browserbase-haystack
使用
您可以使用 BrowserbaseFetcher 将网页加载到 Haystack 中。可选地,您可以设置 text_content 参数将页面转换为纯文本表示。
独立运行
from browserbase_haystack import BrowserbaseFetcher
browserbase_fetcher = BrowserbaseFetcher()
browserbase_fetcher.run(urls=["https://example.com"], text_content=False)
在管道中
from haystack import Pipeline
from haystack.components.generators import OpenAIGenerator
from haystack.components.builders import PromptBuilder
from browserbase_haystack import BrowserbaseFetcher
prompt_template = (
"Tell me the titles of the given pages. Pages: {{ documents }}"
)
prompt_builder = PromptBuilder(template=prompt_template)
llm = OpenAIGenerator()
browserbase_fetcher = BrowserbaseFetcher()
pipe = Pipeline()
pipe.add_component("fetcher", browserbase_fetcher)
pipe.add_component("prompt_builder", prompt_builder)
pipe.add_component("llm", llm)
pipe.connect("fetcher.documents", "prompt_builder.documents")
pipe.connect("prompt_builder.prompt", "llm.prompt")
result = pipe.run(data={"fetcher": {"urls": ["https://example.com"]}})
参数
urls必需。要抓取的 URL 列表。text_content仅检索文本内容。默认为False。session_id可选。提供现有的会话 ID。proxy可选。启用/禁用代理。
