17.10 - スケーラブルなパフォーマンスに対応できるジョブ スクリプトの記述 - Parallel Transporter

Teradata® Parallel Transporter ユーザー ガイド

Product
Parallel Transporter
Release Number
17.10
Release Date
2021年6月
Content Type
ユーザー ガイド
Publication ID
B035-2445-061K-JPN
Language
日本語 (日本)

スケーラビリティを考慮したマルチ オペレータ インスタンスの利用

並列でスケーラブルなフレームワークを活用したマルチ プロセス アプリケーションTeradata PTでは、余裕のあるCPU処理能力を活かして、ロード プロセスの時間を短縮し、ジョブ全体の実行時間を削減します。 ジョブ スクリプトで使用するオペレータ インスタンス数をユーザーが指定できます。 そのため、データ ロード プロセスのスケーラビリティやパフォーマンスをユーザーが制御できます。

さらにTeradata PTでは、データの抽出とロードを相互に完全に非同期に実行できます。 これにより並列処理のフレームワークが広がって、パフォーマンスをさらに強化することができます。

FastLoad、MultiLoad、Tpumpなど従来のTeradataスタンドアロン ユーティリティでは、データ抽出とデータ ロードを1つのシステム プロセスで実行していますが、シングル プロセスでは、CPUの処理速度の増加では対応できない限界に達し、それが重大な制限因子となります。

並列ファイル ロードのためのディレクトリ スキャンの使用

Teradata PTにはディレクトリ スキャンという機能があります。このディレクトリ スキャンでは、ロード プロセスの一環として、ディレクトリ内のデータ ファイルを並列にスケーラブルに処理できます。 また、複数のディスクに複数のディレクトリが分散している場合、UNION ALLというTeradata PTの特殊機能を利用すれば、これらのファイル ディレクトリを並列処理でき、複数のディスクによるスループット増を達成できます。 下記の「UNION ALLによるマルチ ソースの結合」を参照してください。

ディレクトリ スキャンには、処理するファイルを、ファイル名でユーザーが選択できるオプションもあり、この機能ではワイルドカードによる指定もできます。 DataConnectorオペレータには、複数のファイルに対して、ロード バランシングを考慮したスケーラブルで並列処理可能なアクセス機能もあります。 ロード バランシングにより、オペレータ インスタンス間に、ファイル サイズを基準にできるだけ均等にファイルを分散させます。

FastLoad、MultiLoad、Tpumpなど、Teradataのスタンドアロン ユーティリティでは、一度に1つのファイルしか処理できません。

ディレクトリ スキャン機能は、Hadoopファイルの処理にHDFS APIインターフェースを使用している場合にサポートされますが、Hadoopのファイルおよびテーブルの処理にTDHC-TPTインターフェースを使用している場合はサポートされません。詳細については、<Teradata® Parallel Transporterリファレンス, B035-2436>の「Hadoopのファイルとテーブルの処理」を参照してください。

UNION ALLによるマルチ ソースの結合

複数のUNION互換テーブルを結合できるUNION ALL動作と同じく、Teradata PT UNION ALL機能でも同種データ ソースや異種データ ソースを、並列的にスケーラブルに処理できるシングル ソースに結合できます。 この動作により、ロードの入力として複数のデータ ソースを手動でマージする必要もなくなりました。

次の図にあるように、DataConnectorオペレータの複数のインスタンスで、アクセス モジュールの複数のコピーを立ち上げて、同じメッセージ キューまたは異なるメッセージ キューからトランザクション データを読み取ることができます。 データを並列処理できるこの並列方式で、データ抽出のパフォーマンスを大幅に強化できます。