履歴間隔から得られる統計の信頼性の判断 - Teradata Database - Teradata Vantage NewSQL Engine

Teradata Vantage™ SQLリクエストおよびトランザクション処理

Product
Teradata Database
Teradata Vantage NewSQL Engine
Release Number
16.20
Published
2019年3月
Language
日本語
Last Update
2019-10-29
dita:mapPath
ja-JP/arh1512079329802.ditamap
dita:ditavalPath
ja-JP/arh1512079329802.ditaval
dita:id
B035-1142
Product Category
Software
Teradata Vantage

Teradata Databaseは、履歴デモグラフィックの線形傾向分析(線形回帰)を実行して、サンプル統計への格下げ、しきい値テクニックの適用、および古い統計の外挿に関する信頼性要因を判断します。信頼性の要因は、さまざまな安定要因と一貫性要因を組み合わせて導き出します。

Teradata Databaseは、履歴レコードを保持し、収集した統計のカーディナリティの傾向における変化を分析します。最適化ルーチンは、各統計とそのカーディナリティ傾向との間の線形関係を探します。信頼できる線形関係が見つかると、その関係を一次関数としてモデル化します。Teradata Databaseは、特定の時点での現在の統計のカーディナリティを見積もるために作成した一次関数を使用します。最適化ルーチンは、信頼できる傾向を見つけられない場合には、統計のカーディナリティを見積もるために試行錯誤を行います。統計の履歴変化の傾向が最近の変化と一致しない場合、Teradata Databaseは過去の統計を自動的に除去します。

この方法では、統計の現在および今後の変化は最近の変化と同様になると仮定しています。この仮定が明らかに有効ではない場合(新たに追加または更新したデータが、最後に挿入、削除、または更新したデータと大きく異なる場合など)は、統計を再収集する必要があります。

統計値の見積もりにおける傾向線の使用

統計の履歴は履歴レコードのセットです。Teradata Databaseでは、次の種類の統計履歴レコードを保持します。

  • タイムスタンプとカーディナリティに基づく統計履歴レコード
  • 統計値とカーディナリティに基づく統計履歴レコード

Teradata Databaseが保持する履歴統計値には、固有値の個数、NULLの個数、高い頻度度数、最小値、および最大値があります。

Teradata Databaseが、使用可能な傾向線候補の中から最適な傾向線を1つ選択するために使用する条件は、次のとおりです。

  • 傾向線は、最新の履歴レコードから導き出すこと
  • 傾向線は安定していること
  • 傾向線は一貫していること

見積もられた統計値の信頼性は、重み関数によって決まります。0~1の範囲にある値を持つ信頼性重み関数は、線形回帰方式を使用して計算した統計の信頼度を表わします。

Teradata Databaseは、最新の傾向について見積もった安定性と一貫性から導き出した情報に基づいて信頼性を計算します。安定性しきい値を指定すると、傾向分析は指定した安定性しきい値を満たす最近の傾向をすべて探し出します。

傾向線が安定していることを示すルールに基づいて、0~1の範囲にあるその安定性値が指定したしきい値より大きい場合、Teradata Databaseは履歴レコードが最大数になる傾向を選択します。

次のグラフが示す傾向分析は、信頼性値が0.9より大きくなる安定性しきい値を満足させる履歴間隔が少なくとも10個あることを傾向線が示しています。


Layer_1 工作表.1 工作表.2 工作表.3 工作表.4 工作表.5 工作表.6 工作表.7 工作表.8 工作表.9 工作表.10 工作表.11 工作表.12 工作表.13 工作表.14 工作表.15 工作表.16 工作表.17 工作表.18 工作表.19

線形回帰を使用した統計値の見積もり

履歴データが使用可能な場合、Teradata Databaseは線形回帰を使用して統計値を外挿または内挿します。

例えば、Teradata Databaseは線形回帰を使用して、さまざまな値の測定を見積もり、それらを組み合わせて統計値を見積もります。