二元度数分布表とも呼ばれる分割表は、頻度数のカテゴリデータを表わすために統計で使用される2行2列以上の表形式のメカニズムです。
分割表では、2つの変数について観測された頻度が行と列に配置されています。分割表の行と列の交点をセルといいます。
例えば、セル数nijは、行iと列jの交点の発生回数を表わします。iは1~r (行の総数)の値、jは2~c (列の総数)の値です。
この例の分割表は、次のように解釈できます。
- 第1列は第1カテゴリの「性別」を表わし、2つの行で表わされる2つのラベル(femaleおよびmale)を含みます。
- 第2カテゴリである習慣には、2番目と3番目の列で表わされる2つのラベル(smokersおよびnon-smokers)が含まれています。
第2カテゴリには、最大2,046個の一意のラベルを含めることができます。この関数では、テーブル内のNULL値は無視されます。
ラベルの最大長は、category_1の場合は64,000、他のすべての列の場合は128です。
有効なテスト出力を得るには、分割表で観測された各頻度の値が5以上である必要があります。
分割表スキーマ
列 | データ型 | 説明 |
---|---|---|
Name of categorical column 1 | any | 列に1つまたは複数のラベルを付けることができます。有効な値は、整数、LATIN、UTF8コードのいずれかです。 |
category_2_label_1 | INTEGER、SMALLINT、BYTEINT、またはBIGINT | カテゴリ1のラベルiとカテゴリ2のラベル1の結合部分の発生頻度。iは1~rの値です。 |
category_2_label_2 | INTEGER、SMALLINT、BYTEINT、またはBIGINT | カテゴリ1のラベルiとカテゴリ2のラベル2の結合部分の発生頻度。iは1~rの値です。 |
. . . . |
||
category_2_label_c | INTEGER、SMALLINT、BYTEINT、またはBIGINT | (列は0回以上表示されます。) カテゴリ1のラベルiとカテゴリ2のラベルcの結合部分の発生頻度。iは1~rの値です。 |