17.10 - TD_ChiSq - Advanced SQL Engine - Teradata Database

Teradata Vantage™ - Advanced SQL Engine分析関数

Product
Advanced SQL Engine
Teradata Database
Release Number
17.10
Release Date
2021年7月
Content Type
プログラミング リファレンス
Publication ID
B035-1206-171K-JPN
Language
日本語 (日本)

TD_ChiSqは、独立性を調べるピアソンのカイ二乗(χ2)検定を実行して、分割表(別名: クロス集計)の1つ以上のカテゴリの予測頻度と観測頻度の間に統計的に有意な差があるかどうかを判別します。

検定タイプ

  • 片側検定(上側)
  • One-sample
  • 対応なし

計算方法

カイ二乗検定は、カテゴリ変数間の統計的に有意な関連性を検出します。この検定によって、カテゴリ変数が統計的に独立しているかどうかが判別されます。

分析用のデータは、分割表と呼ばれるテーブルに編成されます。双方向分割表は、r行とc列で構成されます。次のようになります。
  • 行は、r個のカテゴリで構成される変数1に対応します
  • 列は、c個のカテゴリで構成される変数2に対応します

分割表の各セルは、変数1と変数2の特定のレベルの組み合わせが発生した回数です。

例えば、次の双方向分割表には、2つのレベル(Male、Female)があるカテゴリ変数Genderと、2つのレベル(Smokers、Non-smokers)があるカテゴリ変数Affiliationが示されています。

Gender Affiliationテーブル
Gender Affiliation
Smokers Non-Smokers
Male n11 n12
Female n21 n22

セル数nij (iとjはそれぞれ1、2)は、GenderとAffiliationのレベルがそれぞれithおよびjthになる組み合わせの発生回数です。独立性のχ2検定に対応する帰無仮説H0と対立仮説H1は、次のとおりです。

H0: 2つのカテゴリ変数は独立しています

H1: 2つのカテゴリ変数は独立していません

上記のテーブルを使用して、予測されるセル数が計算されます。

e11 = n11 + n21

e12 = n11 + n12

e21 = n21 + n22

e22 = n12 + n22

χ2検定統計量は、次のように計算されます。


Chi-square_test-statistic.png

χ2統計は、r-1およびc-1の自由度を持つカイ二乗分布に従います。Gender Affiliationテーブルでは、r=2およびc=2になります。χ2stat > χ2r-1,c-1,αの場合、帰無仮説H0は棄却されます(α ϵ {0.10, 0.05, 0.01})。

クラメールのV統計は、次の式を使用して計算されます。


cramerV_stat
条件
  • φはファイ係数です
  • χ2はピアソンのカイ二乗検定から取得されます
  • nは結果の総計です
  • cは列数です
  • rは行数です
次のルールは、仮説の結論を計算するために使用されます。
  • カイ二乗統計が臨界値より大きい場合、帰無仮説は棄却されます。
  • カイ二乗統計が臨界値以下の場合、帰無仮説の棄却は失敗します。