Hive 连接器和链接属性 - Teradata QueryGrid

Teradata® QueryGrid™ 安装和用户指南

Product
Teradata QueryGrid
Release Number
2.19
Published
2022 年 7 月
Language
中文 (简体)
Last Update
2022-08-23
dita:mapPath
zh-CN/jpf1654813554544.ditamap
dita:ditavalPath
ft:empty
dita:id
lxg1591800469257
Product Category
Analytical Ecosystem
QueryGrid 门户组件中创建链接和相关属性时,将创建配置名称值对 (NVP)。NVP 将执行以下操作:
  • 指定目标连接器组件的行为
  • 配置数据的转换方式
  • 配置基础链接数据传输层
  • 影响发起程序连接器的执行方式

链接是包括发起连接器和目标连接器的命名配置。如果为链接和连接器设置了相同的属性,则链接设置将覆盖连接器设置。

属性可能仅用于发起连接器、仅目标连接器或两者。

“基本”选项卡

Hive 连接器
名称 缺省 说明 可覆盖?

属性名称

连接器类型
服务器 作为 JDBC 连接字符串的一部分,用于连接到目标数据库。此为目标主机的 IP 地址或 DNS 名称。   目标
端口 10000 Hiveserver 2 的有效值范围为 1026-65535。   目标
数据库名称 缺省 连接器的数据库名称(如果未在用户查询中提供)。

最大名称长度为 255 个字符。

  目标
配置文件路径 /etc/hadoop/conf/,

/etc/hive/conf/

core-site.xmlhive-site.xml 路径的逗号分隔列表。

如果 Hiveserver2 hive-site.xml 和 LLAP hive-site.xml 同时存在,则 LLAP hive-site.xml 的优先级更高,两个文件均存在但包含不同的值时将使用它。

这是必需的设置。

  目标

“安全”选项卡

Hive 连接器
名称 缺省 说明 可覆盖?

属性名称

连接器类型
身份验证机制 目标数据源上使用的身份验证机制。

有效值为 None、Kerberos、Trusted Kerberos、Kerberos SSO 和 HS2Only。

这是必需的设置。

对于 HDInsight 集群,当使用 Enterprise Security Package (ESP) 时,请选择 Kerberos。

  目标
用户名 Hive 用户的名称。为连接器或目标连接器链接添加的用户名必须包含在“允许的操作系统用户”中。

最大长度为 255 个字符。

该 NVP 会保存在 Teradata QueryGrid 管理器配置中,如果发起程序不支持提供用户凭据的机制,则必须使用该 NVP。该用户名还可用于连接诊断检查。

  目标
密码 用户密码。

最大长度为 255 个字符。

仅在使用 Kerberos、Trusted Kerberos 或 HS2Only 安全性时才使用。

  目标
密钥表 Kerberos keytab 文件的绝对路径。只有在用户未提供用户名和密码的情况下,QueryGrid 才会用它进行身份验证。   目标
Hive Kerberos 主体 x/y@z 格式的 HiveServer2 主体。覆盖从 HiveServer2 的 hive-site.xml 读取的主体。

在 CDH 或 CDP 上使用 Kerberos 时需要此属性。

  目标
角色支持 False 对目标系统启用用户角色支持。

如果设置为 true,则发起程序或目标中的用户角色将根据角色映射(如果有)应用于目标系统。如果集群配置为支持角色,则会将错误返回给用户。如果集群未配置为支持角色,则不应用用户角色。

如果设置为 false,则不对目标系统应用角色。

roleSupport

目标
Knox 网关主机 Knox 网关主机。使用此属性表示正在使用 Knox。   目标
Knox 网关端口 8443 Knox 网关端口号。

有效值范围为 1024-65535。

只有在使用 Knox 时才需要此属性。

  目标
Knox 上下文路径 gateway/default/hive HS2 的 Knox 上下文路径,例如,gateway/mycluster/hive

只有在使用 Knox 时才需要此属性。

  目标
Knox 可信存储路径 Knox 网关可信存储路径。

只有在使用 Knox 时才需要此属性。

  目标
Knox 可信存储密码 Knox 网关可信存储密码。

只有在使用 Knox 时才需要此属性。

  目标
Knox 连接用户名 Knox 连接的用户名。

只有在使用 Knox 时才需要此属性。

  目标
Knox 连接密码 Knox 连接的密码。

只有在使用 Knox 时才需要此属性。

  目标
SSL 信任库路径 指定在连接到启用了 SSL 的 hiveserver2 时的信任库文件路径。
  • 如果未设置此 SSL 信任库路径,并且 Java 没有设置信任库路径,则 Hive 连接器将尝试使用 hive-site.xml 中的密钥库路径和密码。
  • CDH 或 CDP 上的 SSL 要求设置此 NVP 或在 Java 中设置此信任库信息。
  目标
SSL 信任库密码 指定在为 hiveserver2 启用了 SSL 时的 SSL 信任库密码。   目标

“查询引擎”选项卡

Hive 连接器
名称 缺省 说明 可覆盖?

属性名称

连接器类型
Hive 执行引擎 mr 要使用的 Hive 执行引擎。

可能值为 mr、tez 或 spark。并非所有值都受到所有 Hive 实施的支持。

hiveEngine

发起程序、目标
映射器数 3 * 数据节点数 集群上的映射器(等效于容器)数量。它定义了每次查询每个集群的最大并行处理能力。

当使用 Teradata 到 Hive 导出将数据导出到 Hive,或使用 Hive 到 Teradata 导入将数据导入 Hive 时,此属性适用。

以下值用作保守起始值:
  • Hadoop 集群中的数据节点数乘以 3。
根据 Hadoop 集群上的可用资源以及正在执行的查询的特性,请考虑大幅增加这些数量。对于 Hive-on-Spark,如果未指定值,则使用系统缺省值。

numMappers

发起程序、目标
队列名称 提交 MR、Tez 或 Spark 作业的队列的名称。

queueName

发起程序、目标
已启用 HiveServer2 HA False 指示是否在 JDBC 连接字符串中使用 Zookeeper HA 选项。如果要连接到 Zookeeper 服务器进行负载平衡,则设置为 true。

isHS2HAEnabled.

目标
Hadoop 库路径 缺省 Hadoop 库路径 如果 hadoop 使用自定义安装路径而不是缺省的 hadoop 路径,或者有任何 hadoop .jar 文件保存在缺省 hadoop 库之外,则需要指定此属性。请以逗号分隔列表的形式输入路径。请参阅配置 Hive 连接器以与自定义 Hadoop 库路径或自定义 JAR 路径搭配使用

如果没有可用的自定义信息,则使用缺省 Hadoop 库路径。

  目标
自定义 JAR 路径 指定未在 Hadoop JAR 文件中列出的 .jar 文件要使用的路径。以逗号分隔列表的形式输入路径。请参阅配置 Hive 连接器以与自定义 Hadoop 库路径或自定义 JAR 路径搭配使用   目标
Hadoop 属性 指定用户会话的 Hadoop 环境属性。属性以列表的形式提供。在每个属性与其值之间使用 =(name=value, name=value, name=value),并使用逗号作为属性之间的分隔符,逗号后面可加空格,也可不加空格。

例如:

mapred.job.queue.name=abcdef,mapreduce.task.timeout=3600000,mapreduce.map.speculative=false

如果未选择 Hadoop 属性,则使用缺省的 Hadoop 环境属性。

hadoopProperties

目标
压缩编解码器 System Default 导出到 Hive 表时要使用的压缩类型。有效值为系统缺省、Deflate、BZip2、Gzip、LZ4 和 Snappy。

compressionCodec

目标
每个执行器的核心数 仅适用于 Hive-on-Spark。控制执行器可以运行的并发任务数。如果未指定值, 则使用系统缺省。

numExecutorCores

发起程序、目标

“高级”选项卡

Hive 连接器
名称 缺省 说明 可覆盖?

属性名称

连接器类型
临时数据库名称 缺省 用于存储临时表和视图的临时数据库名称。

tempDbName

目标
启用日志记录 INFO 连接器或链接属性的日志记录级别。用户级别的日志设置可以在 QueryGrid 门户组件的添加或编辑链接页面中显式设置。

此设置适用于发起连接器和目标连接器;但是,如果连接器设置不同,将优先应用链接中发起连接器的日志记录级别。

有效值:NONE、WARN、INFO 和 DEBUG。

  发起程序、目标
16.20+ LOB 支持 True 在 Teradata 系统 16.20 及更高版本中,Hive 上的 STRING 和 BINARY 列会缺省映射到 CLOB 和 BLOB。请取消选择此选项以将 STRING 和 BINARY 列分别映射到 VARCHAR 和 VARBYTE。

如果 Hive 表中有大量 STRING/BINARY 列,请禁用此选项。

lobSupport

目标
缺省字符串大小 32000 个字符 VARCHAR 截断大小。

从字符串列导入或导出至字符串列的数据将在该大小处截断。该值表示要导入的最大 Unicode 字符数,缺省值为 32000 个字符。如果在 defaultStringSize 中设置的缺省值小于实际列大小,Teradata QueryGrid 会在此缺省值处截断字符串列。

有效值为 1-1048544000 个字符。

此属性适用于 Teradata 到 Hive 链接,并由目标 Hive 连接器使用,如果发起 Teradata 系统不支持对 QueryGrid 使用 CLOB 数据类型,则可以使用此属性。如果支持 CLOB,则不会使用此缺省字符串大小。

defaultStringSize

目标
缺省二进制大小 64000 字节 VARBINARY 类型的缺省截断大小。

有效值为 1-2097088000 字节。

此属性适用于 Teradata 到 Hive 链接,并由目标 Hive 连接器使用,如果发起 Teradata 系统不支持对 QueryGrid 使用 BLOB 数据类型,则可以使用此属性。如果支持 BLOB,则不会使用此缺省二进制大小。

defaultBinarySize

目标
禁用下推 False 设置为 true 时,将对目标系统禁用所有查询条件的下推。

某些系统级别、会话级别和列级别查询属性(如大小写特定)可能会影响字符串的比较结果。这些属性可能会由于目标系统上的不正确行筛选而返回不正确的结果。

为了避免在发起系统上的设置与目标系统上的设置不匹配的情况下条件下推导致结果不正确,您可以对目标系统禁用所有条件下推。

如果将此属性指定为“可覆盖”,则只能在会话级别将其从 false 更改为 true(表示要禁用下推),但不能将其从 true 更改为 false。

disablePushdown

发起程序
收集近似活动计数 False 显示导出至目标数据源的近似行数。

如果设置为 false,则活动计数将显示 1。如果设置为 true,则会返回一个近似活动计数。如果设置为 true,则将同步作为主服务来运行。如果未指定,则缺省为 false。

collectActivityCount

目标
支持 Hive 任务重试 False 如果设置为 true,则会启用网络结构以支持 Hive 任务重试。启用后,当重试 Hive 任务时,网络结构不会经历查询失败。相反,它会放弃从失败的任务尝试中收到的数据,并继续处理来自重试尝试的任务数据。
仅当 Hive 作为数据源(即 Hive 将数据导入为目标或导出为发起程序)且执行引擎为 mrtez 时,才支持此功能。
  发起程序、目标
Spool 文件路径 /var/opt/teradata/tdqg/fabric/data/ 启用网络结构以支持 Hive 任务重试时,用于 spool 文件的本地路径。
指定自定义路径时,指定的目录必须存在于 QueryGrid 集群中所配置的全部 Hadoop 数据节点上。该目录必须具有读取、写入和执行权限,以便为 QueryGrid 操作系统组和 tdqg 操作系统用户创建、读取和写入文件及子目录。
  发起程序、目标
链接缓冲区计数 4 单通道上同时可用的最大写入缓冲区数量。
链接缓冲区计数将覆盖内部网络结构属性 shmDefaultNumMemoryBuffers 的缺省值。

有效值范围为 4-8。

linkBufferCount

发起程序、目标
链接缓冲区大小 1048576 为行处理和消息交换分配的写入缓冲区的最大大小。

有效值范围为 73728-10485760 个字节。

linkBufferSize

发起程序
响应超时 86400000 等待目标查询完成的毫秒数,随后目标查询超时并停止操作。网络结构停止并释放持续时间超过目标链接属性或目标连接器属性中设置的值相关联的所有资源。当网络结构的响应超过响应超时值时,连接器超时。

有效值为 300000-172800000。

responseTimeout

发起程序、目标
连接最大空闲时间 86400 秒 连接缓存对象的最大空闲时间,超过该时间之后,该对象将关闭并从缓存中移除。如果系统上运行着多个并发用户和查询,可能导致连接对象匮乏,请使用此属性。

有效值为 1-86400 秒。

  目标
连接池大小 100 连接池中可存储的最大连接对象数。在获取新连接时,连接器将检查池中的可用空间。如果连接池中可用空间不足,则连接将在 5 分钟后失败。仅允许为每个连接器配置提供一个连接池和用户名。

有效值为 1-10000。

  目标
连接逐出频率 30 分钟 逐出检查的频率。如果某个连接对象的空闲时间(当前时间-上次使用时间)超过连接最大空闲时间设置,则会检查、关闭并移除池中的连接对象。

如果存在多个运行查询的并发用户,请缩短此检查间隔时间,以便更频繁地清除连接。

有效值为 1-1440 分钟。

  目标