Microsoft Azure Data Lake Storage 连接
要在 Microsoft Azure Data Lake Storage中访问数据,请为其创建连接资产。
Azure Data Lake Storage (ADLS) 是在 Microsoft 公共云 Azure中托管的可扩展数据存储和分析服务。 Microsoft Azure Data Lake Storage 连接支持访问 Gen1 和 Gen2 Azure Data Lake Storage 存储库。
创建与 Microsoft Azure Data Lake Storage 的连接
要创建连接资产,您需要以下连接详细信息:
WebHDFS URL: 用于访问 HDFS的 WebHDFS URL。
要连接到第 2 代 ADLS ,请使用以下格式:
https://<account-name>.dfs.core.windows.net/<file-system>
其中
<account-name>
是创建 ADLS 实例时使用的名称。
对于
<file-system>
,请使用您创建的容器的名称。 有关更多信息,请参阅
Microsoft Data Lake Storage Gen2 文档
。
租户标识: Azure Active Directory 租户标识
客户机标识: 用于授权访问 Microsoft Azure Data Lake Storage 的客户机标识
客户机密钥: 与用于授权访问 Microsoft Azure Data Lake Storage 的客户机标识相关联的认证密钥
选择
服务器代理
以通过代理服务器访问 Azure Data Lake Storage 数据源。 根据其设置,代理服务器可以提供负载均衡,提高安全性和隐私性。 代理服务器设置独立于认证凭证以及个人或共享凭证选择。
代理主机
: 代理 URL。 例如,
https://proxy.example.com
。
代理端口号
: 用于连接到代理服务器的端口号。 例如,
8080
或
8443
。
HTTP 或 HTTPS 的
代理协议
选项是可选的。
对于
专用连接
,要连接到未外部化到因特网的数据库 (例如,在防火墙后) ,必须设置
安全连接
。
单击
资产> 新资产> 连接到数据源
。 请参阅
将连接添加到项目
。
在部署空间中
单击
导入资产> 数据访问> 连接
。 请参阅
向部署空间添加数据资产
。
在平台资产目录中
单击
新建连接
。 请参阅
添加平台连接
。
下一步:从连接添加数据资产
请参阅
通过项目中的连接添加数据
。
Gen1:
-
创建 Azure Active Directory (Azure AD) Web 应用程序,获取应用程序标识,认证密钥和租户标识。
-
然后,必须将 Azure AD 应用程序分配给 Azure Data Lake Storage 帐户文件或文件夹。 遵循
Service-to-service authentication with Azure Data Lake Storage using Azure Active Directory
中的步骤 1 , 2 和 3。
-
Gen2:
-
遵循
从 Azure AD 获取令牌以授权来自客户机应用程序的请求
中的指示信息。 这些步骤将创建新身份。 创建身份后,设置许可权以授予应用程序对 ADLS 的访问权。 Microsoft Azure Data Lake Storage 连接将使用应用程序的关联客户机标识,客户机密钥和租户标识。
-
使用 Storage Explorer 授予 Azure 应用程序对存储容器的访问权。 有关指示信息,请参阅
使用 Azure Storage Explorer 来管理 Azure Data Lake Storage Gen2
中的目录和文件。
支持的文件类型
Microsoft Azure Data Lake Storage 连接支持以下文件类型 :Avro , CSV ,定界文本, Excel , JSON , ORC , Parquet , SAS , SAV , SHP 和 XML。
除平面文件外, Microsoft Azure Data Lake Storage 连接还支持以下 Data Lake 表格式: Delta Lake 和 Iceberg。
Azure Data Lake
父主题:
支持的连接