2.09 - Hive 连接器和链接属性 - Teradata QueryGrid

Teradata® QueryGrid™ 安装和用户指南

prodname
Teradata QueryGrid
vrm_release
2.09
created_date
2019 年 5 月
category
安装
用户指南
管理
配置
featnum
B035-5991-059K-CHS
QueryGrid 门户组件中创建链接和相关属性时,将创建配置名称值对 (NVP)。NVP 将执行以下操作:
  • 指定目标连接器组件的行为
  • 配置数据的转换方式
  • 配置基础链接数据传输层
  • 影响发起程序连接器的执行方式

链接是包括发起连接器和目标连接器的命名配置。如果为链接和连接器设置了相同的属性,则链接设置将覆盖连接器设置。

属性可能仅用于发起连接器、仅目标连接器或两者。
名称 缺省 说明 可覆盖?

属性名称

连接器类型
16.20+ LOB 支持 True 在 Teradata Database 版本 16.20 及更高版本中,Hive 上的 STRING 和 BINARY 列缺省映射至 CLOB 和 BLOB。取消选择此选项可将 STRING 和 BINARY 列分别映射至 VARCHAR 和 VARBYTE。

如果 Hive 表中有大量 STRING/BINARY 列,请禁用此选项。

lobSupport

目标
身份验证机制 None 目标数据源上使用的身份验证机制。

有效值为 None、Kerberos 和 HS2Only。

这是必需的设置。

对于 HDInsight 集群,当使用 Enterprise Security Package (ESP) 时,请选择 Kerberos。

  目标
收集近似活动计数 False 显示导出至目标数据源的近似行数。

如果设置为 false,则活动计数将显示 1。如果设置为 true,则会返回一个近似活动计数。如果设置为 true,则将同步作为主服务来运行。如果未指定,则缺省为 false。

collectActivityCount

目标
压缩编解码器 System Default 导出到 Hive 表时要使用的压缩类型。有效值为系统缺省、Deflate、BZip2、Gzip、LZ4 和 Snappy。

compressionCodec

目标
配置文件路径 /etc/hadoop/conf/,

/etc/hive/conf

core-site.xmlhdfs-site.xmlhive-site.xml 路径的逗号分隔列表。

如果 Hiveserver2 hive-site.xml 和 LLAP hive-site.xml 同时存在,则 LLAP hive-site.xml 的优先级更高,两个文件均存在但包含不同的值时将使用它。

这是必需的设置。

  目标
连接逐出频率 30 分钟

逐出检查的频率。如果某个连接对象的空闲时间(当前时间-上次使用时间)超过连接最大空闲时间设置,则会检查、关闭并移除池中的连接对象。

如果存在多个运行查询的并发用户,请缩短此检查间隔时间,以便更频繁地清除连接。

有效值为 1-1440 分钟。

  目标
连接最大空闲时间 86400 秒

连接缓存对象的最大空闲时间,超过该时间之后,该对象将关闭并从缓存中移除。如果系统上运行着多个并发用户和查询,可能导致连接对象匮乏,请使用此属性。

有效值为 1-86400 秒。

  目标
连接池大小 100

连接池中可存储的最大连接对象数。在获取新连接时,连接器将检查池中的可用空间。如果连接池中可用空间不足,则连接将在 5 分钟后失败。仅允许为每个连接器配置提供一个连接池和用户名。

有效值为 1-10000。

  目标
自定义 JAR 路径 None 指定未在 Hadoop JAR 文件中列出的 .jar 文件要使用的路径。以逗号分隔列表的形式输入路径。请参阅配置 Hive 连接器以与自定义 Hadoop 库路径或自定义 JAR 路径搭配使用   目标
数据库名称 缺省 连接器的数据库名称(如果未在用户查询中提供)。

最大名称长度为 255 个字符。

databaseName

目标
缺省二进制大小 64000 字节 VARBINARY 类型的缺省截断大小。

有效值为 1-2097088000 字节。

此属性适用于 Teradata 到 Hive 链接,并由目标 Hive 连接器使用,如果发起 Teradata Database 不支持对 QueryGrid 使用 BLOB 数据类型,则可以使用此属性。如果支持 BLOB,则不会使用此缺省二进制大小。

defaultBinarySize

目标
缺省字符串大小 32000 个字符 VARCHAR 截断大小。

从字符串列导入或导出至字符串列的数据将在该大小处截断。该值表示要导入的最大 Unicode 字符数,缺省值为 32000 个字符。如果在 defaultStringSize 中设置的缺省值小于实际列大小,Teradata QueryGrid 会在此缺省值处截断字符串列。

有效值为 1-1048544000 个字符。

此属性适用于 Teradata 到 Hive 链接,并由目标 Hive 连接器使用,如果发起 Teradata Database 不支持对 QueryGrid 使用 CLOB 数据类型,则可以使用此属性。如果支持 CLOB,则不会使用此缺省字符串大小。

defaultStringSize

目标
禁用下推 False 设置为 true 时,将对目标系统禁用所有查询条件的下推。

某些系统级别、会话级别和列级别查询属性(如大小写特定)可能会影响字符串的比较结果。这些属性可能会由于目标系统上的不正确行筛选而返回不正确的结果。

为了避免在发起系统上的设置与目标系统上的设置不匹配的情况下条件下推导致结果不正确,您可以对目标系统禁用所有条件下推。

如果将此属性指定为“可覆盖”,则只能在会话级别将其从 false 更改为 true(表示要禁用下推),但不能将其从 true 更改为 false。

disablePushdown

发起程序
启用日志记录 INFO 连接器或链接属性的日志记录级别。用户级别的日志设置可以在 QueryGrid 门户组件的添加或编辑链接页面中显式设置。

此设置适用于发起连接器和目标连接器;但是,如果设置不同,将优先应用链接中发起连接器的日志记录级别。

有效值:NONE、WARN、INFO 和 DEBUG。

  发起程序、目标
Hadoop 库路径 缺省 Hadoop 库路径 如果 hadoop 使用自定义安装路径而不是缺省的 hadoop 路径,或者有任何 hadoop .jar 文件保存在缺省 hadoop 库之外,则需要指定此属性。请以逗号分隔列表的形式输入路径。请参阅配置 Hive 连接器以与自定义 Hadoop 库路径或自定义 JAR 路径搭配使用

如果没有可用的自定义信息,则使用缺省 Hadoop 库路径。

  目标
Hadoop 属性 None 指定用户会话的 Hadoop 环境属性。属性以列表的形式提供。在每个属性与其值之间使用 =(name=value, name=value, name=value),并使用逗号作为属性之间的分隔符,逗号后面可加空格,也可不加空格。

例如:

mapred.job.queue.name=abcdef,mapreduce.task.timeout=3600000,mapreduce.map.speculative=false

如果未选择 Hadoop 属性,则使用缺省的 Hadoop 环境属性。

hadoopProperties

目标
Hive 执行引擎 mr 要使用的 Hive 执行引擎。

有效值为 mr、tez 或 spark。

hiveEngine

发起程序、目标
Hive Kerberos 主体 None 覆盖 hive-site.xml 中的主体名称。   目标
已启用 HiveServer2 HA False 指示是否启用 HS2 高可用性。   目标
密钥表 None Kerberos keytab 文件的绝对路径。只有在用户未提供用户名和密码的情况下,QueryGrid 才会用它进行身份验证。   目标
Knox 连接密码 None Knox 连接的密码。   目标
Knox 连接用户名 None Knox 连接的用户名。   目标
Knox 上下文路径 None HS2 的 Knox 上下文路径,例如,gateway/mycluster/hive

仅在使用 Knox 时才需要。

  目标
Knox 网关主机 None Knox 网关主机。使用此属性指示已启用 Knox。

仅在使用 Knox 时才需要。

  目标
Knox 网关端口 8443 Knox 网关端口号。

有效值范围为 1024-65535。

仅在使用 Knox 时才需要。

  目标
Knox 可信存储路径 None Knox 网关可信存储路径。

仅在使用 Knox 时才需要。

  目标
Knox 可信存储密码 None Knox 网关可信存储密码。

仅在使用 Knox 时才需要。

  目标
链接缓冲区计数 4 单通道上同时可用的最大写入缓冲区数量。
链接缓冲区计数将覆盖内部网络结构属性 shmDefaultNumMemoryBuffers 的缺省值。

有效值范围为 4-8。

linkBufferCount

发起程序、目标
链接缓冲区大小 1048576 为行处理和消息交换分配的写入缓冲区的最大大小。

有效值范围为 73728-10485760 个字节。

linkBufferSize

发起程序
链接握手超时 30000 链接通道设置的握手超时(以毫秒为单位)。

有效值范围为 60000-86400000。

  发起程序、目标
链接检测信号时间间隔 3600000 连接器和网络结构实例之间的通道上用于指示运行状况检查状态的检测信号的最大间隔(以毫秒为单位)。
此时间间隔应大于链接握手超时。

有效值范围为 60000-86400000。

  发起程序、目标
每个执行器的核心数 None 仅适用于 Hive-on-Spark。控制执行器可以运行的并发任务数。如果未指定值, 则使用系统缺省。

numExecutorCores

发起程序、目标
映射器数 None 将数据导出或导入到 Hive 时使用的并行处理单元。此属性为集群上映射器(相当于容器)的数量。用于定义每个集群上每个查询的最大并行处理数。

使用 TargetConnector 到 Hive 导出或 Hive 到 TargetConnector 导入(其中 TargetConnector 是任意类型的连接器)将数据导出或导入 Hive 时,此属性适用。

以下值用作保守起始值:
  • Hive 作为发起程序或目标:Hadoop 集群中的数据节点数乘以 3
根据 Hadoop 集群上的可用资源以及正在执行的查询特征,请考虑大幅增加这些数量。对于 "火花" 单元, 如果未指定值, 则使用系统缺省。

numMappers

发起程序、目标
密码 None 用户密码。

最大长度为 255 个字符。

仅在使用 Kerberos 或 HS2-only 安全性时才使用。

  目标
端口 10000 Hiveserver 2 的有效值范围为 1026-65535。   目标
队列名称 None 提交 MR、Tez 或 Spark 作业的队列的名称。

queueName

发起程序、目标
读取超时 3600000 导入数据消息时,在不同数据包之间读取时等待的毫秒数。

有效值范围为 300000-86400000。

readTimeout

发起程序、目标
响应超时 86400000 所有数据已传输时,等待最终数据执行响应的毫秒数。

有效值范围为 1800000-172800000。

responseTimeout

发起程序、目标
角色支持 False 对目标系统启用用户角色支持。

如果设置为 true,则发起程序或目标中的用户角色将根据角色映射(如果有)应用于目标系统。如果集群配置为支持角色,则会将错误返回给用户。如果集群未配置为支持角色,则不应用用户角色。

如果设置为 false,则不对目标系统应用角色。

roleSupport

目标
服务器 None 作为 JDBC 连接字符串的一部分,用于连接到目标数据库。此为目标主机的 IP 地址或 DNS 名称。   目标
Spool 文件路径 /var/opt/teradata/tdqg/fabric/data/ 启用网络结构以支持 Hive 任务重试时,用于 spool 文件的本地路径。
指定自定义路径时,指定的目录必须存在于 QueryGrid 集群中所配置的全部 Hadoop 数据节点上。该目录必须具有读取、写入和执行权限,以便为 QueryGrid 操作系统组和 tdqg 操作系统用户创建、读取和写入文件及子目录。
  两者
SSL 信任库密码 None 指定在为 hiveserver2 启用 SSL 时的信任库密码。
  • 对于 CDH,必须提供 SSL 密码。
  • 其他情况下,Hive 连接器从 hive-site.xml 加载 SSL 密码。可以使用此属性指定不同的密码。
  目标
SSL 信任库路径 None 用于指定在为 hiveserver2 启用 SSL 时存储 SSL 用户名和密码的信任库路径。
  • 对于 CDH,必须提供 SSL 路径。
  • 其他情况下,Hive 连接器从 hive-site.xml 加载 SSL 路径。可以使用此属性指定不同的路径。
  目标
支持 Hive 任务重试 False 如果设置为 true,则会启用网络结构以支持 Hive 任务重试。启用后,当重试 Hive 任务时,网络结构不会经历查询失败。相反,它会放弃从失败的任务尝试中收到的数据,并继续处理来自重试尝试的任务数据。
仅当 Hive 作为数据源(即 Hive 将数据导入为目标或导出为发起程序)且执行引擎为 mrtez 时,才支持此功能。
  两者
临时数据库名称 缺省 用于存储临时表和视图的临时数据库名称。

tempDbName

目标
用户名 hive 用户的名称。为连接器或目标连接器链接添加的用户名必须包含在“允许的操作系统用户”中。

最大长度为 255 个字符。

该 NVP 会保存在 Teradata QueryGrid 管理器配置中,如果发起程序不支持提供用户凭据的机制,则必须使用该 NVP。该用户名还可用于连接诊断检查。

  目标
写入超时 3600000 导出数据消息时,在不同数据包之间写入时等待的毫秒数。

有效值范围为 300000-86400000。

writeTimeout

发起程序、目标