単一データソースの並列読み取り

単一データソースの並列読み取り - Parallel Transporter

Teradata® Parallel Transporter ユーザーガイド

Product

Parallel Transporter

Release Number

17.10

Published

2022年2月

Language

日本語

Last Update

2022-02-11

dita:mapPath

ja-JP/kyx1608578396289.ditamap

dita:ditavalPath

ja-JP/tvt1507315030722.ditaval

dita:id

B035-2445

Product Category

Teradata Tools and Utilities

今日、最も一般的なロードシナリオの1つは、単一データソースのデータをデータウェアハウスにロードすることです。この単一データソースには、ファイル、ODBCテーブル、メッセージキュー(MSMQなど)、名前付きパイプのデータなどが含まれます。

Teradata PTは、その並列かつスケーラブルなアーキテクチャにより、データをロードするための追加のCPU電力を利用し、複数のデータストリームをデータ抽出処理の並列化に使用できるようにすることができます。このアーキテクチャは、並列かつスケーラブルな方法で単一データソースを読み取るためのData ConnectorオペレータおよびODBCオペレータなどのProducerオペレータの基盤を提供します。

Data Connectorの複数のインスタンスでファイルを読み取るように指定するには、“MultipleReaders"属性を“Yes"に設定します。 Teradata PT 15.0以前では、“MultipleReaders"のサポートには各インスタンスが同じファイルを読み取り、ファイルの行のサブセットを処理する必要があります。これによりデータが同時に読み取られスケーラブルなパフォーマンスが実現されますが、I/OおよびCPUのサイクルが過剰になり、インスタンスが相互に同期化されない場合は、I/Oの遅延(一部のインスタンスがその他のインスタンスより先に実行するなど)が発生する可能性があります。この“非同期"の問題が発生した場合、データブロックの読み取りはI/Oシステムのファイルキャッシュから実行されないことがあるため、複数のインスタンスによる同じデータブロックの複数の読み取りによるI/Oオーバーヘッドが発生します。

Teradata PT 15.0では、メインインスタンスが、ファイルを読み取ってワーカーインスタンスにデータ行を分配する唯一のインスタンスになるように、DataConnectorオペレータが強化されました。その結果、データブロックごとの読み取りが1回のみになり、過剰なI/Oやディスクの競合の問題が発生することなく、複数のワーカーインスタンスで各データブロックを処理できるようになっています。

メインインスタンスは、1つのバッファがデータ行で満杯になると、そのバッファをワーカーインスタンスに送信します。複数のワーカーインスタンスがバッファからのデータを並列に処理している間に、メインインスタンスは別のバッファへの入力を始めます。すべてのインスタンスがデータバッファの読み取りまたは処理を完了すると、メインインスタンスとワーカーインスタンスはバッファを入れ替えます。データソースからすべてのデータ行が読み取られるまで同じプロセスが繰り返されます。

ただし、スループットパフォーマンスを最大化するには、Teradata PTジョブのニーズに合うように以下のパラメータを調整する必要があります。

RecordsPerBuffer属性
インスタンスの数
共有メモリのサイズ

RecordsPerBuffer属性は、メインインスタンスが各ワーカーインスタンスのデータバッファに格納できるレコード数をユーザーが定義するための属性です。このデータバッファは、インスタンス間で共有できるように、共有メモリから割り当てられます。データ取得フェーズ中に、DataConnectorオペレータは、行サイズとRecordPerInstance属性の値に基づいて、同じサイズの3つの共有メモリバッファを割り当てます。メインインスタンスは、これらのバッファを使用して、並列的にワーカーインスタンスにデータ行を送ります。これらの共有メモリバッファを使用するために、"MultipleReaders"機能を使用しているジョブでは、"MultipleReaders"機能を使用していないTPTジョブで必要な共有メモリに加えて、デフォルトではデータバッファサイズの6倍以上の共有メモリが必要になります。そのため、メモリ割り当てエラーが発生した場合は、tbuild -hランタイムパラメータを利用して、そのジョブで予約されている共有メモリ量を増やす必要があります。tbuild -hオプションの使用については、<Teradata® Parallel Transporterリファレンス, B035-2436>の「Teradata PTユーティリティコマンド」を参照してください。

RecordsPerBuffer属性の最適な値を得るには、行のサイズ、インスタンス数、および共有メモリのサイズに基づいて、その値を調整する必要があります。この値が小さすぎると、メインインスタンスとワーカーインスタンスの間でバッファの過剰な入れ替えによりパフォーマンスが低下します。この値が大きすぎると、ジョブの共有メモリの上限を超える可能性があります。この属性の使用の詳細については、<Teradata® Parallel Transporterリファレンス, B035-2436>の「DataConnectorオペレータ」を参照してください。

スケーラビリティと並列処理を向上させるため、APPLY-SELECT文のオペレータのインスタンス数を調整することができます。インスタンスの数が多ければ通常はスループットパフォーマンスが向上しますが、必要以上のインスタンスを使用した場合はCPU、セマフォ、共有メモリなどのシステムリソースを消費するため、パフォーマンスが低下する可能性があります。オペレータに対し最適なインスタンス数を選択する方策については、ベストプラクティスのジョブレベルにおけるシステムリソースの使用状況の判定を参照してください。

Data Connectorオペレータと同様に、ODBCオペレータもユーザーが複数のインスタンスを含む単一ODBCテーブルからデータを抽出できるようにします。 Data ConnectorオペレータとODBCオペレータの唯一の違いは、前者が単一ファイルを読み取り、後者が単一ODBCテーブルを読み取ることです。両方のオペレータは共有メモリバッファ並列処理を使用してデータソースのシーケンシャル読み取り速度を最大化します。 Data ConnectorのスループットパフォーマンスはファイルシステムのI/O効率性によって制限され、ODBCオペレータのスループットパフォーマンスは単一のODBC “取り出し" 操作でODBCテーブルから抽出可能な行の最大数によって異なります。

"フェッチ"の効率を向上させるために、ODBCオペレータでは、ODBCの1回の"フェッチ"操作でテーブルから最大の行数を抽出できるように、ユーザーが最適なバッファサイズを設定できるDataBlockSize属性が提供されています。DataBlockSize属性は、DataConnectorオペレータのRecordsPerBuffer属性とまったく同じように機能します。ODBCオペレータは、DataBlockSizeの値を使用して、メインインスタンスがワーカーインスタンスに並列的にデータ行を送信するための共有メモリバッファを割り当てます。

DataBlockSizeの値が小さすぎると、メインインスタンスとワーカーインスタンスの間でバッファの過剰な入れ替わりが発生します。DataBlockSizeの値が大きすぎると、ジョブの共有メモリの上限を超える可能性があります。デフォルトでは、ODBCオペレータは各共有メモリバッファに2MBを割り当てます。この属性の使用の詳細については、<Teradata® Parallel Transporterリファレンス, B035-2436>の「ODBCオペレータ」を参照してください。