Dataproc 提供初始化操作,可用于在集群实例上安装自定义软件。要创建初始化操作,需要提供引导脚本。该脚本必须存储在可从 Dataproc 集群访问的 URI 上的 Google 云存储中。有关 QueryGrid 组件的兼容性信息,请参阅 Teradata QueryGrid 兼容性列表。
所需的脚本 (TDQG_DEPLOYMENT.sh) 打包在节点包 tdqg-node-version.tar.gz 中。
此过程假定已具备以下先决条件:
- 您具有配置 Dataproc 集群和访问存储在 Google 云存储中的脚本所需的权限。
- 应在要安装 QueryGrid 的所有节点上安装了 cURL 工具。
请注意初始化操作的以下注意事项:
- 只能在集群配置期间提供
- 在集群配置后无法修改
- 创建后始终保留,所有未来的 Dataproc 节点都将运行初始化操作
- 添加一个系统,并下载由 QueryGrid 管理器生成的 tdqg-node.json 令牌文件。有关下载 tdqg-node.json 的信息,请参阅手动添加节点。
- 执行以下操作之一:
选项 操作 在 Google Cloud Dataproc 上安装 Teradata QueryGrid - 下载节点包。
有关更多信息,请参见下载必需的软件包。
- 解压缩包:
tar -xvzf tdqg-node-version.tar.gz
TDQG_DEPLOYMENT.sh 脚本在路径 qgdeployment/dataproc 中,名为 TDQG_DEPLOYMENT.sh。
- 将 QueryGrid 部署脚本上载到 Google 云存储。
- 在 Dataproc 的创建一个集群屏幕中,执行以下操作:
- 在初始化操作中,提供部署脚本的路径。
- 在元数据中,使用 tdqg_node_json 作为键,并使用文件的内容作为数据。
在现有节点上安装 QueryGrid 要运行初始化操作脚本,用户必须具有 sudo 权限。 - 对于集群中的每个节点,请运行以下命令:
./TDQG_DEPLOYMENT.sh --tdqg_node_json_file 'input'
其中,input 可以是以下内容之一:- (推荐)tdqg_node_json_file 的路径。
- tdqg_node_json 的文件内容。
在新节点上安装 QueryGrid 新节点上的初始化操作取决于在配置 Dataproc 集群时运行 TDQG_DEPLOYMENT.sh 脚本的方式。 - 如果将脚本作为 Dataproc 的Initialization Action进行部署,则脚本会自动在新节点上运行。
- 如果未将脚本作为 Initialization Action 运行,请在新节点上运行该脚本,就像将其安装在现有节点上一样。
- 下载节点包。