集成:Trafilatura
高效地在网上收集文本和元数据,用于 LLM 和 RAG
目录
概述
Trafilatura 是一个尖端的 Python 包和命令行工具,旨在收集网络文本,并简化将原始 HTML 转换为结构化、有意义数据的过程。其提取组件已无缝集成到 Haystack 中。
将大量的 HTML 转换为基本部分,可以通过专注于实际内容并避免噪音来缓解许多与文本质量相关的问题,这对于 LLM 应用非常有利。
安装
pip install haystack-ai trafilatura
使用
Trafilatura 为 Haystack 转换器中的 HTMLToDocument 组件提供支持。以下是如何使用它
from haystack.components.converters import HTMLToDocument
converter = HTMLToDocument()
results = converter.run(sources=["path/to/sample.html"])
documents = results["documents"]
print(documents[0].content)
# 'This is a text from the HTML file.'
设置
__init__ 和 run 方法接受一个可选的 extraction_kwargs 参数,该参数随后传递给 Trafilatura。它必须是一个包已知的参数字典,以下是一些在此上下文中有用的想法
- HTML 元素的选择
include_comments=True(文章底部的评论部分)include_images=Trueinclude_tables=True(默认启用)prune_xpath=["//p[@class='discarded']"](在提取前修剪树)
- 精度或召回率优化
favor_precision=True(如果您的结果包含太多噪音)favor_recall=True(如果您的文档部分丢失)
