📘 **TELUS Agriculture & Consumer Goods** 如何通过 **Haystack Agents** 转变促销交易

Haystack 的到来

通过 10 个挑战,与 Weaviate、AssemblyAI、NVIDIA、Arize AI 和 MongoDB 一起探索 Haystack!🎉

💙 感谢您对 Advent of Haystack 2024 的关注。

虽然投稿现已截止,但整个一月份,解决方案都可以在每个挑战页面上找到。

注册 Haystack 邮件列表,以获取即将举行的活动更新。明年再见!👋

第 10 天:Jingle Metrics All the Way 🔔

Haystack Elves

Haystack 的精灵们今年不知疲倦地工作,让节日季变得轻松愉快。为了创新,他们用尖端的 AI 解决方案应对挑战。

他们使用语音转文本模型增强了管道,探索了各种 LLM 提供商,并为独特的需求定制了 Haystack 管道。他们构建了支持工具调用和自我反思的 AI Agent,添加了追踪机制,并通过 deepset Studio 加速了开发。为了确保一流的技术栈,他们与 Weaviate、AssemblyAI、NVIDIA NIMs、Arize Phoenix 和 MongoDB 等工具进行了合作。

然而,在将任何内容投入生产之前,还有一个关键步骤:📊 评估 📊

Haystack 为精灵们提供了他们所需的工具,包括与评估框架的集成和内置的评估器。在此基础上,Haystack 生态系统现在拥有一个强大的新工具:EvaluationHarness。该工具通过无需创建单独的评估管道,并使用覆盖来简化配置的比较,从而简化了 Haystack 管道的评估过程。

对于这个挑战,你需要帮助 Haystack 精灵们使用 RAGEvaluationHarness 评估一个简单的 RAG 管道,RAGEvaluationHarnessEvaluationHarness 的一个专门扩展,旨在简化和优化 RAG 管道的评估。

🎯 要求

  • 一个具有免费受限模型访问权限的 Hugging Face API 密钥,meta-llama/Llama-3.2-1B-Instructmeta-llama/Llama-3.2-3B-Instruct。请访问模型页面请求访问。入门 Colab 中有更多详细信息。
  • 一个 OpenAI API 密钥,用于将 LLM 驱动的评估器与 EvaluationHarness 一起使用,例如 FaithfulnessEvaluator、ContextRelevanceEvaluator

💝 一些提示

  • 探索“演练:评估”教程,了解 Haystack 中有关评估的所有信息。
  • 有关实际示例,请查看“Cookbook:使用 EvaluationHarness 评估 RAG 管道”和“Cookbook:使用 Haystack 评估 AI”。

⭐ 奖励任务: 更进一步,将混合检索集成到您的管道中。使用带有自定义的 EvaluationHarness 来测试混合检索是否能提高 Recall 和 MRR 👀

🩵 这是入门 Colab