このドキュメントでは、文字に対してUnicodeの命名規則を使用します。例えば、英小文字の'a'をより正式に指定すると、「ラテン文字の英大文字A」または「U+0041」となります。「U+xxxx」の表記は、Unicode標準の特定のコード ポイントを参照し、xxxxは標準で定義されている16ビット値の16進数表現を表わします。
ドキュメントの一部では、特殊文字、または特定の文字のクラスを表現するために記号を使用すると便利です。これは特に、次の日本語文字のエンコーディングについて述べる場合に当てはまります。
- KanjiEBCDIC
- KanjiEUC
- KanjiShift-JIS
これらのエンコーディングは、<Teradata Vantage™ NewSQLエンジンの国際文字セット サポート、B035-1125>で詳細に説明しています。
文字シンボル
記号は、使用される文字セットに従って、次のテーブルのように定義されています。
記号 | エンコーディング | 意味 |
---|---|---|
|
いずれか | 任意の1バイトのラテン文字(ローマ字)または数字。 |
|
いずれか | 任意の全角のラテン文字(ローマ字)または数字。 |
< | KanjiEBCDIC | シフトアウト[SO] (0x0E)。 KanjiEBCDICのシングルバイト文字からマルチバイト文字への移行を示します。 |
> | KanjiEBCDIC | シフトイン[SI] (0x0F)。 KanjiEBCDICのマルチバイト文字からシングルバイト文字への移行を示します。 |
T | いずれか | 任意のマルチバイト文字。 エンコーディングは、現在の文字セットに依存します。 KanjiEUCの場合、コードセット3文字の前にss3が常に出現します。 |
I | いずれか | 1バイトの半角カタカナ文字 KanjiEUCでは、ss2が先に出現して、個別のマルチバイト文字を形式設定しなければなりません。 |
Δ | いずれか | グラフィックの空白を表わします。 |
Δ | いずれか | 状況に応じて、1バイトまたはマルチバイトの埋め込み文字を表わします。 |
ss 2 | KanjiEUC | EUCコード セット2と識別子(0x8E)を表わします。 |
ss3 | KanjiEUC | EUCコード セット3の接頭部(0x8F)を表わします。 |
例えば、各文字を全角とする文字列"TEST"は、TESTと表現します。エンコーディングが重要な場合には、16進数表現が使用されることもあります。
例えば、次の、KanjiEBCDIC文字セットの1バイト文字 / マルチバイト文字が混在したデータがあるとします。
LMN<TEST>QRS
これは、次のように表現されます。
D3 D4 D5 0E 42E3 42C5 42E2 42E3 0F D8 D9 E2
埋込み文字
次のテーブルに、各種文字データ型のスペース文字をリストします。
サーバー文字セット | 埋込み文字の名前 | 埋込み文字の値 |
---|---|---|
LATIN | SPACE | 0x20 |
UNICODE | SPACE | U+0020 |
GRAPHIC | IDEOGRAPHIC SPACE | U+3000 |
KANJISJIS | ASCII SPACE | 0x20 |
KANJI1 | ASCII SPACE | 0x20 |