バッチ ディレクトリ スキャンは、複数のDataConnectorオペレータ インスタンスを使用して、フラット ファイルの外部ディレクトリをスキャンし、FileName属性のワイルドカードの指定に一致するファイルを検索します。
スキャンが完了すると、DataConnectorは、次のジョブ ステップでConsumerオペレータによって使用されるデータ ストリームにデータを配置します。 それ以上のスキャンは行なわれず、スキャンの後にフラット ファイルに追加されたすべてのデータは、次回ジョブが実行されるまで取得されません。
方策
バッチ ディレクトリ スキャンをセットアップする場合は、次の戦略を使用します。
- DataConnectorオペレータ属性のDirectoryPathを使用してスキャンするディレクトリの名前を指定します。
- 次のように、FileName属性にワイルドカード文字( * )を使用します。
- DataConnectorオペレータがディレクトリ内のすべてのファイルをスキャンおよびロードするように指示するためには、"*"と指定します。
- DataConnectorオペレータが指定された文字列で開始するファイル名を持つディレクトリ内のすべてのファイルをスキャンするように指示するためには、"abc.*"と指定します。
- アーカイブ ディレクトリを指定するためには、ArchiveDirectoryPath属性を使用します。 特定のバッチ ジョブに対するスキャンが完了すると、スキャンされたファイルはアーカイブ ディレクトリに移動されます。 これにより、「スキャン中」のディレクトリ内で古いデータがビルドされるのを防ぎ、次の実行時にこの古いデータがジョブによって参照されなくなります。
- Teradata PTへの単一のソースとして表示されますが、入力として使用可能なファイルの数の制限はありません。 オペレータの複数のインスタンスを指定して、データ取得プロセスを高速化できます。
このジョブに対応するサンプル スクリプトについては、sample/userguideディレクトリの以下のスクリプトを参照してください。
PTS00014:バッチ ディレクトリ スキャン。
バッチ ディレクトリ スキャン機能は、Hadoopファイルの処理にHDFS APIインターフェースを使用するときにサポートされますが、 Hadoopファイルおよびテーブルの処理にTDCH-TPTインターフェースを使用するときはサポートされません。 詳細については、<Teradata Parallel Transporterリファレンス、B035-2436>のDataConnectorオペレータ セクションの「Processing Hadoop Files and Tables(Hadoopファイルおよびテーブルの処理)」を参照してください。