集成：Trafilatura

高效地在网上收集文本和元数据，用于 LLM 和 RAG

作者

Adrien Barbaresi

GitHub 仓库 PyPI 包

概述

Trafilatura 是一个尖端的 Python 包和命令行工具，旨在收集网络文本，并简化将原始 HTML 转换为结构化、有意义数据的过程。其提取组件已无缝集成到 Haystack 中。

将大量的 HTML 转换为基本部分，可以通过专注于实际内容并避免噪音来缓解许多与文本质量相关的问题，这对于 LLM 应用非常有利。

安装

pip install haystack-ai trafilatura

使用

Trafilatura 为 Haystack 转换器中的 HTMLToDocument 组件提供支持。以下是如何使用它

from haystack.components.converters import HTMLToDocument

converter = HTMLToDocument()
results = converter.run(sources=["path/to/sample.html"])
documents = results["documents"]
print(documents[0].content)
# 'This is a text from the HTML file.'

设置

__init__ 和 run 方法接受一个可选的 extraction_kwargs 参数，该参数随后传递给 Trafilatura。它必须是一个包已知的参数字典，以下是一些在此上下文中有用的想法

HTML 元素的选择
- include_comments=True (文章底部的评论部分)
- include_images=True
- include_tables=True (默认启用)
- prune_xpath=["//p[@class='discarded']"] (在提取前修剪树)
精度或召回率优化
- favor_precision=True (如果您的结果包含太多噪音)
- favor_recall=True (如果您的文档部分丢失)

有关更多信息，请参阅官方文档的 Python 用法和函数说明部分。

集成：Trafilatura

目录

概述

安装

使用

设置