DataConnectorオペレータを使用したHadoopファイルおよびテーブルの読み取り - Parallel Transporter

Teradata® Parallel Transporter ユーザー ガイド

Product
Parallel Transporter
Release Number
16.20
Published
2019年9月
Language
日本語
Last Update
2020-01-29
dita:mapPath
ja-JP/uah1527114222342.ditamap
dita:ditavalPath
ja-JP/uah1527114222342.ditaval
dita:id
B035-2445
Product Category
Teradata Tools and Utilities

フラット ファイルの読み取りとアクセス モジュールとのインターフェースに加え、DataConnectorオペレータはHadoopファイルおよびテーブルを読み取ることもできます。 次のテーブルでは、Hadoopファイルおよびテーブルからデータをデータ ストリームに、最終的にはTeradata Databaseに移動するためにDataConnectorオペレータが使用できる2つのインターフェースについて簡単に説明し、比較します。

インターフェース 説明
HDFS API HDFS API (Hadoop Distributed File System Application Programming Interface)を介したHadoopファイルへのアクセスを提供します。 HDFSは、いくつかの小さな制限をともなうPOSIX互換ファイル システムです。 ファイル更新はサポートされておらず、切り捨てモードまたは追加モードでのファイルの書き込みのみサポートされています。 HadoopソフトウェアはJavaで記述され、HDFS APIはJava JNIインターフェースで、 C++プログラムによってHDFSファイルを直接読み取りおよび書き込むため、想定されている標準posixファイル システム インターフェースをすべて示します。 Data Connectorプロデューサおよびコンシューマは更新され、HDFS APIを使用してHDFSファイル システムに直接アクセスできるようになりました。 すべての標準Data Connectorファイル システム機能がサポートされています。
TDCH-TPT Teradata Connector for HadoopまたはTDCHを介したHadoopファイルおよびテーブルへのアクセスを提供します。 TDCHはMapReduceフレームワークの分散型の性質を利用して、大量のデータを同時にHadoopファイルおよびテーブルからDataConnectorオペレータに転送します。 TDCHには、様々なHadoop固有形式で格納されたHDFSファイル、Hiveテーブル、Hcatテーブルを読み込み、書き込む機能があります。 このインターフェースはデータの読み取りと書き込みをTDCHに依存しているため、TDCH-TPTインターフェースの使用時は、従来のDataConnector属性の多くはサポートされません。

詳細については、<Teradata Parallel Transporterリファレンス、B035-2436>の「hadoop ファイルとテーブルの処理」を参照してください。

GZIPファイルとZIPファイルはHadoop/HDFSではサポートされていません。
HDFS処理を有効にするには、以下の属性をData Connectorコンシューマまたはプロデューサに追加するだけです。HadoopHost = 'default’