第 7 天:评判玩具,追踪快乐 🧑⚖️
克劳斯太太旁边,圣诞老人重重地靠在椅子上,长舒一口气。
🤶:“怎么了?”
🎅:“玩具太多了,时间不够!圣诞节快到了!”
🤶:“嗯,你不能随便检查几个吗?”
🎅:“真希望那么容易!但我的精灵做的玩具太多了,我们必须确保每个孩子都能得到正确的!”
简精灵在隔壁房间听到了他们的谈话。作为北极黑客松的常客,她最近学了很多关于评估的知识,并认为她可能有一个解决方案。“如果我构建一个LLM 裁判来帮忙呢?”她心想。“我可以用 Arize Phoenix 来记录一切——比如为什么这个玩具是完美匹配,或者为什么不是!”
对于这个挑战,你将帮助简精灵完成以下任务:
- 使用 **Haystack pipeline** 在“大精灵圣诞愿望清单数据库”(BEDCW)中为每个孩子找到最好的玩具
- 使用 **LLM 作为裁判** 评估所有玩具匹配
- 使用开源的追踪和评估工具 Arize Phoenix **监控系统**。
🎯 要求
- 如果你想使用
OpenAIChatGenerator,需要一个 Open API 密钥,但你可以选择任何其他受 Haystack Generators 支持的 LLM。
💡 一些提示
- 看看这个示例 notebook:使用 Phoenix 追踪和评估 Haystack 应用程序
- 在 Arize Phoenix 文档 中查找更多示例
🩵 这是 入门 Colab
