変数格納形式
各DATASETを使用するには格納形式を指定する必要があります。STORAGE FORMAT構文はDATASETデータ型をサポートできるように拡張されました。VantageにはDATASETデータ型用の組み込み格納形式があらかじめ用意されています。
格納形式の仕様は、必ずしもディスク上のデータ フォーマットには影響しませんが、特定のデータをよく知られている形式に関連付けます。
組み込み格納形式
Vantageは、ApacheのAvroとCSVの仕様に基づいているDATASETデータ型に、AvroとCSVの格納形式を提供します。各インスタンスには、仕様に準拠したスキーマが含まれます。CSV格納形式では、スキーマは常に省略可能です。スキーマはインスタンスごとまたは列レベルで解釈されます。
格納形式の用語
用語 | 説明 |
---|---|
スキーマ | AVRO格納形式の場合、スキーマはバイナリ エンコードされたAvro値形式を記述するJSON文書です。VARBYTEまたはBLOBデータ型を使用したUTF-8エンコード文字により、JSONテキストで指定します。 CSVの場合、JSON文書では、フィールドやレコードの区切り記号、列名、またはヘッダー情報などの拡張CSVオプションについて記述します。これはサポートされている任意のJSON形式で指定できます。これは、インスタンス レベルのDATASET値のCSVデータ型と同じ文字セットで格納され、列レベルDATASET値のデータ ディクショナリに格納される場合は、UTF-8でエンコードされたUNICODEテキストとして格納されます。 |
バイナリ コード化されたAvro値 | スキーマによって記述されたスキーマに従ってコード化された実際のAvroデータ。 |
CSV値 | ラテン語またはUnicode文字セットのCSV値。 |
JSONエンコード値 | スキーマによって記述されたデータのJSONテキスト表現。 |
変換形式または キャスト形式 |
格納形式AVROの場合、直後にバイナリ コード化値が続く、NULLで終わるUTF-8コード化スキーマ。 CSVの場合、変換およびキャスト形式では、元のCSV値が使用されます。スキーマがCSV値に指定されている場合、キャストまたは変換には含まれません。 |