この手順は、外部ファイルからデータをインポートして新しいHadoopテーブルを作成する場合に使用します。
- データ ソース エクスプローラで、Hadoopシステム内のテーブルを右クリックします。
- を選択します。
- ソース タイプで、外部ファイル(スマート ロード)を選択します。
- 起動をクリックします。
- 入力ファイルに、テーブルの構築に使用するデータが格納されているファイルのディレクトリ パスおよび名前を入力します。ファイルを参照することもできます。
- (オプション)データの最初の行を新規テーブルの列ラベルとして使用するように指定するには、先頭行の列ラベルを選択します。このオプションはClouderaシステムでは使用できません。
- 列の区切り文字で、入力ファイル内のデータ区切りに使用する区切り記号を選択します。
オプション 説明 カンマ 入力ファイルのデータをカンマ(,)で区切ります。 セミコロン 入力ファイルのデータをセミコロン(;)で区切ります。 スペース 入力ファイルのデータを空白スペースで区切ります。 タブ 入力ファイルのデータをタブで区切ります。 - 行セパレータで、データのインポート元のオペレーティング システムに基づいて次のいずれかのオプションを選択します。このオプションでは、キャリッジ リターン(CR)のみ、ライン フィード(LF)のみ、またはキャリッジ リターンとライン フィード(CRとLF)の両方を持つファイルをインポートできます。
- Windows OS(CRとLF)
- Mac OS X v10.0より前(CR)
- Unix、Linux、Mac OS X v10.0以降(LF)
- ファイル エンコーディングで、データのエンコードに使用する文字セットを選択します。オプションは、UTF-8、UTF-16、ISO-8859-1、UTF-16BE、UTF-16LE、US-ASCB、およびCp1252です。
- 次へをクリックします。
- テーブル名で、ロードしたデータから取得するテーブルの名前を入力します。
- テーブル ファイル形式で、テーブル内のデータの形式を選択します。サポートされているテーブル ファイル形式のタイプは、TEXT (デフォルト)、SEQUENCE、RC、およびORCです。ORCはHortonworksでのみ使用できます。 Clouderaシステムでテーブル ファイル形式にRCまたはSEQUENCEが選択されている場合、ウィザードはHive JDBCプロパティを要求します。Hiveホスト名フィールドにはImpalaホスト名が事前に入力されています。Hiveホスト名が異なる場合は、このフィールドを正しいホスト値に変更します。
- 特定の列のデータ型を編集するには、列ヘッダーの(省略記号)をクリックします。
- 次のいずれかを選択します。
オプション 説明 次へをクリックします 新規テーブルを作成するSQL/DDLコードをプレビューします。エディタに表示をクリックして、生成されたSQLテキスト領域でSQL文を編集できます。SQLエディタを開く場合は、スマート ロード ウィザードが閉じます。SQLエディタからSQLクエリー文を実行してテーブルを作成することができます。 終了をクリックします テーブルを作成し、ファイルからデータをインポートします。