可以使用存储在
Amazon S3
存储段的文件中的记录作为
ArcGIS Data Pipelines
的输入。
用法说明
使用
Amazon S3
时,请谨记以下信息:
-
要使用
Amazon S3
中的数据集,您必须首先创建一个数据存储项目。 数据存储项目安全地存储凭据和连接信息,以便
Data Pipelines
能够读取数据。 要创建数据存储,请按照以下“连接到
Amazon S3
”部分中的步骤进行操作。
-
要更改之前配置的数据存储项目,使用
数据存储项目
参数移除当前选定项目,然后选择以下选项之一:
-
添加数据存储
- 创建新数据存储项目。
-
选择项目
- 浏览内容以选择现有数据存储项目。
-
使用
数据集路径
参数可指定数据集或者包含数据集的文件夹。 例如,
MyHurricanesDataset
将引用单个文件,
MyFolder/
将引用可用作单个数据集的文件集合。 文件夹中的数据集必须具有相同的方案和文件类型,才能用作单个数据集。 如果文件夹包含不同类型的文件,则可以使用通配符指定文件。 例如,如果文件夹同时包含
.csv
文件和
.orc
文件,则可以使用路径值
MyFolder/*.orc
仅指定
.orc
文件。
-
使用
文件格式
参数可指定在
数据集路径
参数中指定的数据集的文件格式。 以下格式选项可用:
-
CSV 或分隔文件
(例如,
.csv
、
.tsv
和
.txt
)
-
Parquet
(
.parquet
)
-
GeoParquet
(
.geoparquet
)
-
JSON
(例如,包含格式化为 JSON 的数据的
.json
或
.txt
文件)
-
GeoJSON
(例如,包含格式化为 GeoJSON 的数据的
.json
、
.geojson
或
.txt
文件)
-
Shapefile
(
.shp
)
-
文件地理数据库
(
.gdb
)
-
ORC
(
.orc
)
-
如果指定了
CSV 或分隔格式
选项,则可以使用以下数据集定义参数:
-
分隔符
- 用于分割字段(或列)和记录(或行)值的分隔符。 默认为逗号分隔 (,)。 其他常见的分隔符格式包括但不限于制表符 (\t)、分号 (;)、竖线 (|) 以及正斜线与反斜线(/ 和 \)。
-
具有标题行
- 指定数据集是否包含标题行。 默认为 true。 如果设置为 false,则将数据集的第一行视为一条记录。
-
包含多行数据
- 指定数据集是否具有包含换行符的记录。 默认为 false。 如果设置为 true,将正确读取和格式化包含多行数据的数据。
-
字符编码
- 指定用于读取指定数据集的编码类型。 默认值为
UTF-8
。 您可以从可用的编码选项中进行选择,或指定一种编码类型。 编码值不支持空格。 例如,指定 ISO 8859-8 值是无效的,必须指定为 ISO-8859-8。
-
当数据格式值为
CSV 或分隔值
时,可以使用
字段
来配置字段名称和类型。
配置方案
按钮可打开一个对话框,其中包含数据集字段,并提供以下选项:
-
包括或删除字段 - 可以通过选中字段旁边的复选框来移除字段。 默认情况下,包含所有字段。
-
字段名称
- 字段在
Data Pipelines
中将使用的名称。 可以编辑此值。 默认情况下,此值将与源数据集中的字段相同,除非源名称包含无效字符或为保留字。 无效字符将替换为下划线 (_),保留字将以下划线 (_) 为前缀。
-
字段类型
- 将在
Data Pipelines
中使用的字段类型。 可以编辑此值。
下表介绍了可用字段类型:
字段类型
|
描述
|
字符串
|
字符串字段支持文本字符串。
|
短整型
|
小整型字段支持介于 -32768 和 32767 之间的整数。
|
整型
|
整型字段支持介于 -2147483648 和 2147483647 之间的整数。
|
大整数
|
大整型字段支持介于 -9223372036854776000 和 9223372036854776000 之间的整数。
|
浮点型
|
浮点型字段支持介于大约 -3.4E38 和 3.4E38 之间的小数。
|
双精度
|
双精度型字段支持介于大约 -2.2E308 和 1.8E308 之间的小数。
|
日期
|
日期字段支持格式为
yyyy-MM-dd HH:mm:ss
的值,例如
2022-12-31 13:30:30
为有效值。 如果日期值以其他格式存储,则使用
创建日期时间
工具计算日期字段。
|
布尔
|
布尔字段支持
True
和
False
值。 如果字段包含布尔值的整数表示(0 和 1),请使用
更新字段
工具将整数转换为布尔值。
|
-
如果指定了
JSON
格式选项,则可以使用
根属性
参数。 可使用此参数在 JSON 中指定要从中读取数据的属性。 可通过在每个属性之间使用小数点分隔符引用嵌套属性,例如
property.subProperty
。 默认将读取整个 JSON 文件。
-
如果指定了
GeoJSON
格式选项,则可以使用
Geometry
类型参数。 设置此参数属于可选操作。 默认情况下,将使用 GeoJSON 文件中的几何类型。 如果 GeoJSON 文件包含多个几何类型,则必须指定此参数值。 不支持混合几何类型,仅可使用指定的类型。 选项包含
点
、
多点
、
折线
和
面
。 包含 GeoJSON 数据位置的几何字段将自动计算并添加到输入数据集中。 几何字段可用作空间操作的输入或在输出结果上启用几何。
-
如果指定
文件地理数据库
格式选项,则
要素类或表名称
参数可用。 使用此参数可指定您希望用作输入的要素类或表的名称。 仅支持点、多点、折线以及面要素类和表。 诸如栅格、镶嵌、轨迹等数据集不受支持。 诸如几何网络要素等高级要素类型不受支持。
-
为了提高读取输入数据集的性能,请考虑以下选项:
-
使用
使用缓存
参数存储数据集的副本。 仅在至少已连接一个打开并显示编辑器的浏览器选项卡时,缓存副本才会保留。 这样可以提高在处理过程中访问数据的速度。 如果源数据自缓存后已更新,请取消选中此参数并再次预览或运行该工具。
-
在配置输入数据集之后,可以配置以下工具之一,以限制数据处理量:
连接到
Amazon S3
要使用存储在
Amazon S3
中的数据,请完成以下步骤以在
Data Pipelines
编辑器中创建数据存储项目。
-
在
Data Pipelines
编辑器工具栏中,单击
输入
,然后选择
Amazon S3
。
-
选择
添加新数据存储
。
-
单击
下一步
。
-
提供从
Amazon Web Services (AWS)
账户获得的访问密钥 ID 和相应的保密访问密钥。
-
提供存储段存在的区域并键入存储段的名称。
-
或者,提供容器内文件夹的路径以进行注册。
-
单击
下一步
。
-
为新的数据存储项目提供标题。
该标题将显示在您的内容中。 您还可以将项目存储在特定文件夹中,并提供项目标签或摘要。
-
单击
创建连接
以创建数据存储项目。
随即将
Amazon S3
元素添加至画布,您可以为特定数据集配置该元素。
局限性
以下为已知局限性:
-
您的凭据必须至少具有
s3:ListBucket
、
s3:GetBucketAcl
和
s3:GetObject
权限。 这些权限允许访问以读取指定存储段及其中的数据集。
-
如果指定相应文件夹,其中包含代表单个数据集的多个文件,则
Amazon S3
文件夹中标识的所有文件必须具有相同的方案和几何类型。
-
压缩文件 (
.zip
) 不受支持。
-
不支持
Esri
JSON 文件 (
.esrijson
)。
-
如果数据集包含带空格或无效字符的字段名称,名称会自动更新为使用下划线。 例如,名为
Population 2022
的字段将重命名为
Population_2022
,名为
%Employed
的字段将重命名为
_Employed
。
-
要使用数据存储项连接到外部数据源,您必须为数据存储项的所有者。 不支持将与您共享的数据存储项目作为输入。
许可要求
需要以下许可和配置:
-
Creator
或
Professional
用户类型
-
发布者、服务商或管理员角色,或等效的自定义角色
有关
Data Pipelines
要求的详细信息,请参阅
要求
。