📘 **TELUS Agriculture & Consumer Goods** 如何通过 **Haystack Agents** 转变促销交易
由 deepset 维护

集成:vLLM

将 vLLM 推理引擎与 Haystack 一起使用

作者
deepset

只需在您的 Haystack 管道中使用 vLLM,即可利用快速、自托管的 LLM。

目录

概述

vLLM 是一个高吞吐量、内存高效的 LLM 推理和提供引擎。它是一个开源项目,允许在拥有 GPU 资源的情况下,在生产环境中提供开放模型。

vLLM 可以部署为一个实现 OpenAI API 协议的服务器,并且可以与 Haystack 无缝集成。这使得 Haystack 中的 OpenAIGeneratorOpenAIChatGenerator 组件能够使用 vLLM。

有关 vLLM + Haystack 的端到端示例,请参阅此笔记本

安装

需要安装 vLLM。

  • 您可以使用 pippip install vllm(有关更多信息,请参阅 vLLM 文档
  • 对于生产用例,还有许多其他选项,包括 Docker(文档
pip install haystack-ai vllm

使用

您首先需要运行一个 vLLM OpenAI 兼容服务器。您可以使用 PythonDocker 来完成此操作。

然后,您可以在 Haystack 中使用 OpenAIGeneratorOpenAIChatGenerator 组件来查询 vLLM 服务器。

from haystack.components.generators.chat import OpenAIChatGenerator
from haystack.dataclasses import ChatMessage
from haystack.utils import Secret

generator = OpenAIChatGenerator(
    api_key=Secret.from_token("VLLM-PLACEHOLDER-API-KEY"),  # for compatibility with the OpenAI API, a placeholder api_key is needed
    model="mistralai/Mistral-7B-Instruct-v0.1",
    api_base_url="https://:8000/v1",
    generation_kwargs = {"max_tokens": 512}
)

response = generator.run(messages=[ChatMessage.from_user("Hi. Can you help me plan my next trip to Italy?")])