由 deepset 维护

集成：vLLM

将 vLLM 推理引擎与 Haystack 一起使用

作者

deepset

GitHub 仓库 PyPI 包

只需在您的 Haystack 管道中使用 vLLM，即可利用快速、自托管的 LLM。

概述

vLLM 是一个高吞吐量、内存高效的 LLM 推理和提供引擎。它是一个开源项目，允许在拥有 GPU 资源的情况下，在生产环境中提供开放模型。

vLLM 可以部署为一个实现 OpenAI API 协议的服务器，并且可以与 Haystack 无缝集成。这使得 Haystack 中的 OpenAIGenerator 和 OpenAIChatGenerator 组件能够使用 vLLM。

有关 vLLM + Haystack 的端到端示例，请参阅此笔记本。

安装

需要安装 vLLM。

您可以使用 pip：pip install vllm（有关更多信息，请参阅 vLLM 文档）
对于生产用例，还有许多其他选项，包括 Docker（文档）

pip install haystack-ai vllm

使用

您首先需要运行一个 vLLM OpenAI 兼容服务器。您可以使用 Python 或 Docker 来完成此操作。

然后，您可以在 Haystack 中使用 OpenAIGenerator 和 OpenAIChatGenerator 组件来查询 vLLM 服务器。

from haystack.components.generators.chat import OpenAIChatGenerator
from haystack.dataclasses import ChatMessage
from haystack.utils import Secret

generator = OpenAIChatGenerator(
    api_key=Secret.from_token("VLLM-PLACEHOLDER-API-KEY"),  # for compatibility with the OpenAI API, a placeholder api_key is needed
    model="mistralai/Mistral-7B-Instruct-v0.1",
    api_base_url="https://:8000/v1",
    generation_kwargs = {"max_tokens": 512}
)

response = generator.run(messages=[ChatMessage.from_user("Hi. Can you help me plan my next trip to Italy?")])

集成：vLLM

目录

概述

安装

使用