16.20 - Compatibilidad con Hadoop - Teradata Data Mover

Teradata® Data Mover Guía del usuario

Product
Teradata Data Mover
Release Number
16.20
Published
Noviembre de 2021
Content Type
Guía del usuario
Publication ID
B035-4101-107K-ESN
Language
Español (España)

Data Mover admite la copia de tablas y datos devueltos por vistas entre Teradata Database y Hadoop. Puede copiar datos de vista en tablas Hadoop, pero no se admite la copia de las definiciones de vista en Hadoop.

Componentes de Hadoop

Data Mover requiere los siguientes servicios de Hadoop:
Servicio Descripción
Hive Servicio de acceso a datos mediante un lenguaje similar a SQL. Apache Hive proporciona resúmenes de datos y consultas ad hoc. Data Mover admite el movimiento de tablas desde Teradata a Hive y desde Hive a Teradata mediante Hiveserver2 para ejecutar consultas.
Solo se admite el valor binary para la propiedad hive.server2.transport.mode.
HttpFS y WebHDFS Servicio REST que proporciona una puerta de enlace HTTP para admitir todas las operaciones del sistema de archivos HDFS.
WebHCAT Servicios de integración de datos de API REST que se deben habilitar para HCatalog. Se usan para reunir DDL de la tabla de Hive.
Oozie Sistema programador de flujos de trabajo para administrar, enviar y supervisar trabajos de Hadoop. El servicio se utiliza para ejecutar trabajos de TDCH.

Utilidades

Data Mover puede utilizar TDCH o QueryGrid para mover datos entre Teradata y Hadoop.
UTILIDAD Descripción
TDCH Conector de línea de comandos que proporciona un conjunto de API y herramientas que permiten el movimiento bidireccional de datos de alto rendimiento, en paralelo entre sistemas Teradata y el ecosistema de productos de Hadoop. Para obtener más información, consulte Conector de Teradata para Hadoop en Teradata Developer Exchange.
QueryGrid QueryGrid es un software de Teradata que permite importar y exportar datos entre Teradata y Hadoop. En Data Mover, se debe especificar QueryGrid T2H como un servidor externo para que pueda estar disponible para su uso.
En Data Mover, T2H admite los conectores QueryGrid 2.x para Hadoop y Teradata.
Si TDCH y QueryGrid están disponibles, Data Mover utiliza QueryGrid. Si no se especifica ningún servidor externo, Data Mover utiliza TDCH.

Al copiar datos de vista a tablas Hadoop, Data Mover utiliza QueryGrid. TDCH no admite la copia de datos de vista.

Compatibilidad con JSON

Si la tabla de destino en Teradata tiene un tipo de columna JSON, solo se pueden copiar datos de Hadoop a Teradata Database si se cumplen las siguientes condiciones:
  • T2H se utiliza para copiar datos de Hadoop a Teradata.
  • Se ha especificado un servidor externo en la definición del trabajo.

Con Data Mover podrá mover con columnas JSON mediante los formatos de almacenamiento BSON o UBJSON cuando mueva tablas entre instancias de Teradata Database versión 15.10 o posterior. Al mover tablas de Teradata Database 15.0 a Teradata Database 15.10 o posterior, se utiliza el formato de almacenamiento de texto predeterminado para columnas JSON.

Restricciones
  • No se puede utilizar TDCH para copiar datos a un tipo de columna JSON.
  • Data Mover no admite la copia de un tipo de columna JSON de Teradata Database a Hadoop.

Seguridad

Puede copiar tablas entre Teradata y Hadoop con los siguientes ajustes:
  • El usuario de Hive especificado en el trabajo de Data Mover debe tener permisos de lectura, escritura y ejecución en los archivos y la carpeta subyacentes de HDFS de la tabla de Hive.
  • Oozie debe ser capaz de suplantar al usuario de Hive para ejecutar el trabajo de TDCH.

El conector de Teradata para Hadoop también permite transferir datos entre Teradata Database y sistemas Hadoop compatibles protegidos con Kerberos. Para obtener más información, póngase en contacto con los servicios de atención al cliente de Teradata.

Restricciones en la compatibilidad con objetos

  • Data Mover solo permite copiar tablas y datos devueltos por las vistas entre Teradata y Hadoop. No es posible copiar otros objetos como vistas, índices o una base de datos completa entre Teradata y Hadoop.
  • Si un usuario especifica información de columna para una tabla, como el nombre o el tipo, y la tabla de destino ya existe, la información de la columna se utiliza para comparar el DDL de las tablas de origen y de destino. Si la tabla de destino no existe, Data Mover utiliza la información de la columna para crear la tabla de destino. Si no especifica la información de columna, los metadatos de la tabla de origen se utilizan para el tipo o el nombre de columna. Data Mover no elimina ninguna tabla de destino para la compatibilidad con Hadoop. Para obtener más información, consulte Objetos admitidos durante los movimientos entre bases de datos.

Limitaciones

Data Mover permite limitar el número de tareas de T2H y del conector de Hadoop que se ejecutan simultáneamente. Cada tabla que se mueve con el conector de Hadoop o T2H se encapsula como una tarea única respectivamente.

Se puede limitar el número de tareas del conector de Hadoop que se ejecutan simultáneamente si define un valor para la propiedad hadoop.connector.max.task.slot mediante el comando save_configuration. También se puede limitar el número de tareas de T2H que se ejecutan simultáneamente al establecer un valor para la propiedad sqlh.max.task.slot mediante el comando save_configuration.

El valor predeterminado para hadoop.connector.max.task.slot y sqlh.max.task.slot es 2.

Problemas conocidos

  • Si no puede recuperar metadatos de WebHCAT y ve error 143 en dmDaemon.log, puede aumentar el valor del tiempo de espera del parámetro templeton.exec.timeout de WebHCAT.
  • Si el número de trabajos de Oozie iniciados simultáneamente es mayor que el número de asignadores del clúster de Hadoop, los trabajos de Oozie entran en un punto muerto. La solución consiste en evitar que los trabajos de Oozie se inicien de forma simultánea agregando un tiempo de espera entre cada trabajo de Oozie. La propiedad hadoop.task.throttle, que se encuentra en agent.properties, agrega un tiempo de espera (en segundos) entre dos trabajos. Utilice esta propiedad si experimenta problemas de punto muerto relacionados con Oozie.
  • Ajuste T2H en Teradata Database para garantizar un manejo correcto de las consultas T2H simultáneas. Si el número de consultas T2H simultáneas es superior al configurado en Teradata Database, T2H puede volverse inestable y provocar errores, como una excepción PermGen o la detención de una consulta T2H, lo cual requiere el reinicio del proceso del servidor UDF. Puede regular el número máximo de consultas T2H que Data Mover ejecuta de forma simultánea usando la propiedad sqlh.max.task.slot en la configuración de Data Mover.