由 deepset 维护

集成：Snowflake

一个允许从 Snowflake 数据库检索表的 Snowflake 集成。

作者

Mohamed Sriha

deepset

GitHub Repo PyPI Package

Snowflake 表检索器，用于 Haystack
- 安装
- 使用
- 示例
- 许可证

安装

使用 pip 安装 Snowflake

pip install snowflake-haystack

使用

安装完成后，初始化 SnowflakeTableRetriever 以便与 Haystack 一起使用。该集成支持多种身份验证方法，包括多因素身份验证 (MFA)。

身份验证方法

密码身份验证

from haystack_integrations.components.retrievers.snowflake import SnowflakeTableRetriever
from haystack.utils import Secret

# Traditional password authentication
executor = SnowflakeTableRetriever(
    user="<ACCOUNT-USER>",
    account="<ACCOUNT-IDENTIFIER>",
    authenticator="SNOWFLAKE",
    api_key=Secret.from_env_var("SNOWFLAKE_API_KEY"),
    warehouse="<WAREHOUSE-NAME>",
)

密钥对身份验证 (MFA)

# JWT-based authentication using private key files
executor = SnowflakeTableRetriever(
    user="<ACCOUNT-USER>",
    account="<ACCOUNT-IDENTIFIER>",
    authenticator="SNOWFLAKE_JWT",
    private_key_file=Secret.from_env_var("SNOWFLAKE_PRIVATE_KEY_FILE"),
    private_key_file_pwd=Secret.from_env_var("SNOWFLAKE_PRIVATE_KEY_PWD"),  # Optional if key is encrypted
    warehouse="<WAREHOUSE-NAME>",
)

OAuth 身份验证 (MFA)

# OAuth-based authentication
executor = SnowflakeTableRetriever(
    user="<ACCOUNT-USER>",
    account="<ACCOUNT-IDENTIFIER>",
    authenticator="OAUTH",
    oauth_client_id=Secret.from_env_var("SNOWFLAKE_OAUTH_CLIENT_ID"),
    oauth_client_secret=Secret.from_env_var("SNOWFLAKE_OAUTH_CLIENT_SECRET"),
    oauth_token_request_url="<TOKEN-REQUEST-URL>",
    warehouse="<WAREHOUSE-NAME>",
)

身份验证参数

SnowflakeTableRetriever 支持三种身份验证方法

SNOWFLAKE：传统密码身份验证
- 需要：api_key (密码)
SNOWFLAKE_JWT：带 JWT 令牌的密钥对身份验证 (MFA)
- 需要：private_key_file (私钥文件路径)
- 可选：private_key_file_pwd (如果密钥已加密，则为密码)
OAUTH：基于 OAuth 的身份验证 (MFA)
- 需要：oauth_client_id、oauth_client_secret、oauth_token_request_url

数据库访问

在查询数据库之前，请确保您对表具有 select 访问权限。更多详情请参见此处。

response = executor.run(query="""select * from database_name.schema_name.table_name""")

在组件初始化期间，您可以提供模式和数据库名称，以避免在 SQL 查询中提供它们。

executor = SnowflakeTableRetriever(
    ...
    schema_name="<SCHEMA-NAME>",
    database ="<DB-NAME>"
)

response = executor.run(query="""select * from table_name""")

Snowflake 表检索器返回一个 Pandas 数据帧和一个表的 Markdown 版本。


print(response["dataframe"].head(2))  # Pandas dataframe
#   Column 1  Column 2
# 0       Value1 Value2
# 1       Value1 Value2

print(response["table"])  # Markdown
# | Column 1  | Column 2  |
# |:----------|:----------|
# | Value1    | Value2    |
# | Value1    | Value2    |

在管道中使用 SnowflakeTableRetriever

from haystack import Pipeline
from haystack.utils import Secret
from haystack.components.builders import PromptBuilder
from haystack.components.generators import OpenAIGenerator
from haystack_integrations.components.retrievers.snowflake import SnowflakeTableRetriever

executor = SnowflakeTableRetriever(
    user="<ACCOUNT-USER>",
    account="<ACCOUNT-IDENTIFIER>",
    authenticator="SNOWFLAKE",
    api_key=Secret.from_env_var("SNOWFLAKE_API_KEY"),
    warehouse="<WAREHOUSE-NAME>",
)

pipeline = Pipeline()
pipeline.add_component("builder", PromptBuilder(template="Describe this table: {{ table }}"))
pipeline.add_component("snowflake", executor)
pipeline.add_component("llm", OpenAIGenerator(model="gpt-4o"))

pipeline.connect("snowflake.table", "builder.table")
pipeline.connect("builder", "llm")

pipeline.run(data={"query": "select employee, salary from table limit 10;"})

示例

您可以在此仓库的 example/ 文件夹中找到一个代码示例，展示如何使用 Snowflake Retriever。

许可证

snowflake-haystack 在 Apache-2.0 许可证的条款下分发。