第 10 天：Jingle Metrics All the Way 🔔

Haystack Elves

Haystack 的精灵们今年不知疲倦地工作，让节日季变得轻松愉快。为了创新，他们用尖端的 AI 解决方案应对挑战。

他们使用语音转文本模型增强了管道，探索了各种 LLM 提供商，并为独特的需求定制了 Haystack 管道。他们构建了支持工具调用和自我反思的 AI Agent，添加了追踪机制，并通过 deepset Studio 加速了开发。为了确保一流的技术栈，他们与 Weaviate、AssemblyAI、NVIDIA NIMs、Arize Phoenix 和 MongoDB 等工具进行了合作。

然而，在将任何内容投入生产之前，还有一个关键步骤：📊 评估 📊

Haystack 为精灵们提供了他们所需的工具，包括与评估框架的集成和内置的评估器。在此基础上，Haystack 生态系统现在拥有一个强大的新工具：EvaluationHarness。该工具通过无需创建单独的评估管道，并使用覆盖来简化配置的比较，从而简化了 Haystack 管道的评估过程。

对于这个挑战，你需要帮助 Haystack 精灵们使用 RAGEvaluationHarness 评估一个简单的 RAG 管道，RAGEvaluationHarness 是 EvaluationHarness 的一个专门扩展，旨在简化和优化 RAG 管道的评估。

🎯 要求

一个具有免费受限模型访问权限的 Hugging Face API 密钥，meta-llama/Llama-3.2-1B-Instruct 和 meta-llama/Llama-3.2-3B-Instruct。请访问模型页面请求访问。入门 Colab 中有更多详细信息。
一个 OpenAI API 密钥，用于将 LLM 驱动的评估器与 EvaluationHarness 一起使用，例如 FaithfulnessEvaluator、ContextRelevanceEvaluator

💝 一些提示

探索“演练：评估”教程，了解 Haystack 中有关评估的所有信息。

有关实际示例，请查看“Cookbook：使用 EvaluationHarness 评估 RAG 管道”和“Cookbook：使用 Haystack 评估 AI”。

⭐ 奖励任务： 更进一步，将混合检索集成到您的管道中。使用带有自定义的 EvaluationHarness 来测试混合检索是否能提高 Recall 和 MRR 👀

🩵 这是入门 Colab

Haystack 的到来

第 10 天：Jingle Metrics All the Way 🔔

🎯 要求

💝 一些提示