2.09 - Spark SQL 连接器和链接属性 - Teradata QueryGrid

Teradata® QueryGrid™ 安装和用户指南

prodname
Teradata QueryGrid
vrm_release
2.09
created_date
2019 年 5 月
category
安装
用户指南
管理
配置
featnum
B035-5991-059K-CHS
QueryGrid 门户组件中创建链接和相关属性时,将创建配置名称值对 (NVP)。NVP 执行以下操作:
  • 指定目标连接器组件的行为
  • 配置数据的转换方式
  • 配置基础链接数据传输层
  • 影响发起程序连接器的执行方式

链接是包括发起连接器和目标连接器的命名配置。如果为链接和连接器设置了相同的属性,则链接设置将覆盖连接器设置。

属性可能仅用于发起连接器、仅目标连接器或两者。
名称 缺省 说明 可覆盖?

属性名称

连接器类型
16.20+ LOB 支持 True 在 Teradata Databases 版本 16.20 及更高版本上,Spark SQL 上的 STRING 和 BINARY 列缺省映射至 CLOB 和 BLOB。取消选择此选项可将 STRING 和 BINARY 列分别映射至 VARCHAR 和 VARBYTE。

如果 Spark 表中有大量 STRING/BINARY 列,请禁用此选项。

lobSupport

目标
身份验证机制 None 集群的整体安全机制。

对于 HDInsight 集群,当使用 Enterprise Security Package (ESP) 时,请选择 Kerberos。

  目标
收集近似活动计数 False 显示导出至目标数据源的近似行数。

如果设置为 false,则活动计数将显示 1。如果设置为 true,则会返回一个近似活动计数。如果设置为 true,则将同步作为主服务来运行。如果未指定,则缺省为 false。

collectActivityCount

目标
压缩编解码器 System Default 导出到 Spark 目标表时要使用的压缩类型。有效值为 System Default、Deflate、BZip2、GZip、LZ4 和 Snappy。

compressionCodec

目标
配置文件路径 /etc/hadoop/conf/,

/etc/spark2/conf

core-site.xmlhdfs-site.xmlhive-site.xml(如果可用)路径的逗号分隔列表。   目标
连接逐出频率 30 分钟

逐出检查的频率。如果某个连接对象的空闲时间(当前时间-上次使用时间)超过连接最大空闲时间设置,则会检查、关闭并移除池中的连接对象。

如果存在多个运行查询的并发用户,请缩短此检查间隔时间,以便更频繁地清除连接。

有效值为 1-1440 分钟。

  目标
连接最大空闲时间 86400 秒

连接缓存对象的最大空闲时间,超过该时间之后,该对象将关闭并从缓存中移除。如果系统上运行着多个并发用户和查询,可能导致连接对象匮乏,请使用此属性。

有效值为 1-86400 秒。

  目标
连接池大小 100

连接池中可存储的最大连接对象数。在获取新连接时,连接器将检查池中的可用空间。如果连接池中可用空间不足,则连接将在 5 分钟后失败。仅允许为每个连接器配置提供一个连接池和用户名。

有效值为 1-10000。

  目标
数据库名称 缺省 连接器的数据库名称(如果未在用户查询中提供)。

最大名称长度为 255 个字符。

databaseName

目标
缺省二进制大小 64000 字节 VARBINARY 类型的缺省截断大小。

有效值为 1-2097088000 字节。

该有效值适用于 Teradata 到 Spark 链接,由目标 Spark 连接器使用,当发起 Teradata Database 不支持 QueryGrid 的 BLOB 数据类型时适用。在 BLOB 支持下,不使用缺省二进制大小。

defaultBinarySize

目标
缺省字符串大小 32000 个字符 VARCHAR 截断大小。从字符串列导入或导出至字符串的数据等于该大小时将被截断。该值表示要导入的最大 Unicode 字符数,缺省值为 32000 个字符。Teradata QueryGrid 会在 defaultStringSize 中设置的缺省值处截断字符串列。

有效值为 1-1048544000 个字符。

该有效值适用于 Teradata 到 Spark 链接,由目标 Spark 连接器使用,当发起 Teradata Database 不支持 QueryGrid 的 CLOB 数据类型时适用。在 CLOB 支持下,不使用缺省字符串大小。

defaultStringSize

目标
禁用下推 False 设置为 true 时,将对目标系统禁用所有查询条件的下推。

某些系统级别、会话级别和列级别查询属性(如大小写特定)可能会影响字符串的比较结果。这些属性可能会由于目标系统上的不正确行筛选而返回不正确的结果。

为了避免在发起系统上的设置与目标系统上的设置不匹配的情况下条件下推导致结果不正确,您可以对目标系统禁用所有条件下推。

如果将此属性指定为“可覆盖”,则只能在会话级别将其从 false 更改为 true(表示要禁用下推),但不能将其从 true 更改为 false。

disablePushdown

发起程序
启用日志记录 INFO 运行启用了调试模式的查询。

有效值:NONE、WARN、INFO 和 DEBUG。

  发起程序、目标
Hadoop 属性 None 指定用户会话的 Hadoop 环境属性。属性以列表的形式提供。在每个属性与其值之间使用 =(name=value, name=value, name=value),并使用逗号作为属性之间的分隔符,逗号后面可加空格,也可不加空格。

例如:

mapred.job.queue.name=abcdef,mapreduce.task.timeout=3600000,mapreduce.map.speculative=false

如果未选择 Hadoop 属性,则使用缺省的 Hadoop 环境属性。

hadoopProperties

目标
密钥表 None Kerberos 密钥表文件的绝对路径。如果未提供用户名和密码,QueryGrid 将仅使用 keytab 文件进行身份验证。   目标
链接缓冲区计数 4 单通道上同时可用的最大写入缓冲区数量。
链接缓冲区计数将覆盖内部网络结构属性 shmDefaultNumMemoryBuffers 的缺省值。

有效值范围为 2–16。

linkBufferCount

发起程序、目标
链接缓冲区大小 1048576 为行处理和消息交换分配的写入缓冲区的最大大小。

有效值范围为 73728-10485760 个字节。

linkBufferSize

发起程序、目标
链接握手超时 30000 共享存储通道设置的握手和 ACK 超时(以毫秒为单位)。

有效值范围为 60000-86400000。

  发起程序、目标
链接检测信号时间间隔 3600000 连接器和网络结构实例之间的通道上用于指示运行状况检查状态的检测信号的最大间隔(以毫秒为单位)。仅在诊断时可调。
将此间隔设置为大于链接握手超时。

有效值范围为 60000-86400000。

  发起程序、目标
数字执行器 None 将数据导出或导入 Spark SQL 时的并行处理能力单位。

numExecutors

发起程序、目标
密码 None 用户或服务帐户的密码。   目标
端口 10016 Spark 连接器的有效值范围为 1026–65535。   目标
队列名称 None 提交 Spark 作业的队列名称。仅限 Spark 应用程序模式。

queueName

目标
读取超时 3600000 导入数据消息时,在不同数据包之间读取时等待的毫秒数。

有效值范围为 300000-86400000。

readTimeout

发起程序、目标
响应超时 86400000 所有数据已传输时,等待最终数据执行响应的毫秒数。

有效值范围为 1800000-172800000。

responseTimeout

发起程序、目标
服务器 None 作为 JDBC 连接字符串的一部分,用于连接到目标数据库。此为目标主机的 IP 地址或 DNS 名称。   目标
Spark 资源管理器 YARN Spark 平台使用的资源管理器。可能的值为 YARN 和独立。   两者
Spark 监控 REST 服务器 localhost:8080 Spark 监控 REST 服务器的一个或多个“主机/IP:端口”组合。   发起程序
Spark 主路径 /usr/hdp/current/spark2-client/ /jars 子目录所在的 Spark 主目录的文件路径,其中包含所有 Spark 库 .jar 文件。   目标
Spark 执行机制 Spark Thrift 服务器 目标连接器用于向 Spark 提交查询的机制。可能的值为 Spark Thrift 服务器和 Spark 应用程序。   目标
SSL 信任库密码 None 启用 SSL 时,Spark Thrift 服务器上用于进行身份验证的 SSL 信任库或密钥库密码。   目标
SSL 信任库路径 None 启用 SSL 时,Spark Thrift 服务器上用于进行身份验证的 SSL 信任库或密钥库路径。   目标
临时数据库名称 缺省 用于存储临时表和视图的临时数据库名称。

tempDbName

目标
用户名 hive 用户的名称。为连接器或目标连接器链接添加的用户名必须包含在“允许的操作系统用户”中。

最大长度为 255 个字符。

该 NVP 会保存在 Teradata QueryGrid 管理器配置中,如果发起程序不支持提供用户凭据的机制,则必须使用该 NVP。该用户名还可用于连接诊断检查。

  目标
写入超时 3600000 导出数据消息时,在不同数据包之间写入时等待的毫秒数。

有效值范围为 300000-86400000。

writeTimeout

发起程序、目标