嵌入检索

Mixedbread 🤝 deepset: 发布全新德语/英语嵌入模型

了解 deepset 和 Mixedbread 的全新开源德语/英语嵌入模型

2024 年 7 月 18 日

时至 2024 年，但如今大多数模型仍然主要面向英语市场。今天，deepset 和 Mixedbread 联合发布了我们为改变这一现状所做的最新贡献：一个全新的开源德语/英语嵌入模型——deepset-mxbai-embed-de-large-v1。

我们的模型基于 intfloat/multilingual-e5-large，并在 3000 万多对德语检索任务数据上进行了微调。在 NDCG@10 指标上，该指标将检索结果列表与理想排序的预期结果列表进行比较，我们的模型不仅为开源德语嵌入模型设定了新标准，而且在与商业替代品竞争时也表现出色。

模型	平均性能 (NDCG@10)	二进制支持	MRL 支持
deepset-mxbai-embed-de-large-v1	51.7	✅	✅
multilingual-e5-large	50.5	❌	❌
jina-embeddings-v2-base-de	50.0	✅	❌
商业模型
Cohere Multilingual v3	52.4	✅	-

英伟达通过提供最先进的计算资源支持了这项工作。所有训练和评估都在由英伟达赞助的 8xA100 的 Nvidia DGX 上完成。我们对他们为本项目做出的贡献表示极其感激。

如需了解更多信息并深入了解真实世界数据的基准测试，请阅读我们与 Mixedbread 的完整公告文章。您可以在此电子表格中找到基准测试的概述。

存储和推理效率

除了支持德语外，我们还通过以下方法着重改进了这款新嵌入模型的存储和推理效率：

Matryoshka 表示学习 (MRL)：Matryoshka 表示学习可以在不显着降低准确性的情况下减少嵌入模型的输出维度数量。这是通过修改损失函数来实现的，该函数优先在嵌入向量的初始维度中表示重要信息，从而能够截断后续维度。

二进制量化：二进制量化通过将 float32 值转换为二进制值来减小每个维度的尺寸，从而大大提高内存和磁盘空间效率，同时在推理过程中保持高性能。

开始使用 Haystack

您今天就可以在 Haystack 中使用 `SentenceTransformersDocumentEmbedder` 和 `SentenceTransformersTextEmbedder` 组件，以及 `MixedbreadDocumentEmbedder` 和 `MixedbreadTextEmbedder` 的 Mixedbread 集成来开始使用 deepset-mxbai-embed-de-large-v1。

与 Sentence Transformers 嵌入器一起使用

from haystack.components.embedders import SentenceTransformersTextEmbedder, SentenceTransformersDocumentEmbedder

text_embedder = SentenceTransformersTextEmbedder(model="mixedbread-ai/deepset-mxbai-embed-de-large-v1")

document_embedder = SentenceTransformersDocumentEmbedder(model="mixedbread-ai/deepset-mxbai-embed-de-large-v1")

与 Mixedbread 嵌入器一起使用

要开始将此模型与 Haystack 的 Mixedbread 集成配合使用，请安装 `mixedbread-ai-haystack` 并将您的 Mixedbread API 密钥导出到 MXBAI_API_KEY。

from mixedbread_ai_haystack import  MixedbreadAITextEmbedder, MixedbreadAIDocumentEmbedder
from mixedbread_ai import EncodingFormat

text_embedder = MixedbreadAITextEmbedder( model="mixedbread-ai/deepset-mxbai-embed-de-large-v1",
                                          encoding_format=EncodingFormat.BINARY)

document_embedder = MixedbreadAIDocumentEmbedder(model="mixedbread-ai/deepset-mxbai-embed-de-large-v1",
                                                 encoding_format=EncodingFormat.BINARY)

与我们有影响力的 German BERT 模型一样，我们希望这个最先进的模型能够使德语 AI 社区在检索增强生成 (RAG) 领域及其他领域构建创新的产品！

加入我们的 Discord 社区，探索 Haystack。