由 deepset 维护
集成:vLLM
将 vLLM 推理引擎与 Haystack 一起使用
只需在您的 Haystack 管道中使用 vLLM,即可利用快速、自托管的 LLM。
目录
概述
vLLM 是一个高吞吐量、内存高效的 LLM 推理和提供引擎。它是一个开源项目,允许在拥有 GPU 资源的情况下,在生产环境中提供开放模型。
vLLM 可以部署为一个实现 OpenAI API 协议的服务器,并且可以与 Haystack 无缝集成。这使得 Haystack 中的 OpenAIGenerator 和 OpenAIChatGenerator 组件能够使用 vLLM。
有关 vLLM + Haystack 的端到端示例,请参阅此笔记本。
安装
需要安装 vLLM。
pip install haystack-ai vllm
使用
您首先需要运行一个 vLLM OpenAI 兼容服务器。您可以使用 Python 或 Docker 来完成此操作。
然后,您可以在 Haystack 中使用 OpenAIGenerator 和 OpenAIChatGenerator 组件来查询 vLLM 服务器。
from haystack.components.generators.chat import OpenAIChatGenerator
from haystack.dataclasses import ChatMessage
from haystack.utils import Secret
generator = OpenAIChatGenerator(
api_key=Secret.from_token("VLLM-PLACEHOLDER-API-KEY"), # for compatibility with the OpenAI API, a placeholder api_key is needed
model="mistralai/Mistral-7B-Instruct-v0.1",
api_base_url="https://:8000/v1",
generation_kwargs = {"max_tokens": 512}
)
response = generator.run(messages=[ChatMessage.from_user("Hi. Can you help me plan my next trip to Italy?")])
