古い統計情報 - Advanced SQL Engine

古い統計情報 - Advanced SQL Engine - Teradata Database

Teradata Vantage™ - SQLリクエストおよびトランザクション処理

Product

Advanced SQL Engine

Teradata Database

Release Number

17.10

Published

2021年7月

Language

日本語

Last Update

2021-09-23

dita:mapPath

ja-JP/uqf1592445067244.ditamap

dita:ditavalPath

ja-JP/wrg1590696035526.ditaval

dita:id

B035-1142

Product Category

Software

Teradata Vantage

古い統計とは、最初に統計を収集した列のセットの内容を正確に表現しなくなってしまった間隔ヒストグラム統計のことです。

間隔ヒストグラム統計は、結合カーディナリティ、値ごとの行数、スキュー調整、および正確な問合わせ最適化に必要なその他の情報の見積もりに使用する、最適化ルーチン用の列デモグラフィック情報の最初の情報源です。

最適化ルーチンは、複数列統計を使用した列相関の導出、各バイナリ結合が実行された後の固有値の個数の調整や伝搬などのような、統計の使用に関する動的な方法も採用しています。この方法は、最適化ルーチン全体にわたって首尾一貫した方法で開発および一般化されています。

コストとカーディナリティの見積もりの公式と列相関を導出するための戦略は、最適な計画を生成するために利用できる統計の正確性により異なります。ソフトウェアは、その統計の入力が正確でない場合、合理的な計画を生成しない場合があります。統計が正確でない最も一般的な原因は、統計が古いことです。

最適化ルーチンが必要な統計が古いと判断したときにその統計を検出しデータ値を外挿するプロセス(古い統計を置き換えるための外挿の使用を参照)は、統計を収集または再収集する頻度を減らすことを目的として設計されています。

古い統計の検出

テーブルの見積もりカーディナリティは、Vantageが古いヒストグラムを検出し、外挿をアクティブ化するために必要になる重要な情報です。

あらゆるヒストグラムには、統計収集時のテーブル内の行数に基づくカーディナリティ値が含まれています。データベースは、ヒストグラムの行数と新たに計算されたテーブルカーディナリティの見積もりとを比較して、ヒストグラムが古いかどうかを判断します。最適化ルーチンがヒストグラムが古いと判断すると、選択的な見積もりを実行するときに外挿テクニックを適用します。

派生統計を使用した古い統計の補正

以下の方式のどちらかまたは両方を使用して、データベースによる統計の再収集の実行をCOLLECT STATISTICSリクエストで指定された制限を超えた場合に限定することができます。詳細については、統計を収集または再収集するための最適なタイミングと統計の再収集の最適化を参照してください。

詳細については、<Teradata Vantage™ - SQLデータ定義言語-構文規則および例、B035-1144>のCOLLECT STATISTICS (最適化ルーチン形式)に関する情報を参照してください。

再収集しきい値の設定
THRESHOLDオプションを使用すれば、データベースに対して、最後の統計収集以降のデータ変更または統計の存在期間が最初の統計収集時に指定されたしきい値を下回った場合は統計の再収集をスキップするように指示できます。

詳細については、しきい値オプションを使用した統計再収集の最適化を参照してください。
全統計ではなくサンプル統計の収集
サンプリングデフォルトを確認するための次の方法が存在します。
- データベースで使用されるサンプリングパーセンテージを指定できます。
- データベースに対して、選択された一連の基準に基づいて使用するサンプリングパーセンテージを決定するように指示できます。
  データベースはサンプリングパーセンテージを決定するときに、統計収集を100%サンプリングから再収集を特定の列またはインデックスセットに最適化するために選択したサンプリングレートに格下げする方法を使用します。
  
  詳細については、サンプリングを使用した統計再収集の最適化を参照してください。

データベースがサンプリングデフォルトを判断するために使用するサンプリングパーセンテージを指定できます。

カーディナリティ見積もりサブシステムが古い統計の問題を扱う際の、4通りの基本的な方法について説明します。

総カーディナリティの調整
最適化ルーチンは、テーブルレベルのSUMMARY統計を使用してテーブルの拡大を判断します。これを判断するために、現在の動的AMPサンプルから見積もられるカーディナリティと、残余テーブルレベル統計から見積もられるカーディナリティを比較します。その後で、最適化ルーチンは、見積もられた拡大分をSUMMARY統計から見積もったカーディナリティに加え、テーブルの現在のカーディナリティを見積もります。
- プライマリインデックスにひずみがない場合、およびサンプルと間隔ヒストグラム行数の偏差が、デフォルトのパーセンテージより大きい場合は、サンプル行数がテーブルのカーディナリティになります。ひずみは、間隔ヒストグラムに格納されている高い頻度度数値から特定できます。
- 利用できるSUMMARY統計がない場合は、現在の最適化ルーチンソフトウェアの動作と同様に、サンプリングされた行数がテーブルのカーディナリティになります。
固有値の個数の調整
インデックスでは、カーディナリティは、インデックス付きの列の固有値の総数として見積もられます。この場合、固有値の数は、総カーディナリティの調整と同じ方法で調整されます。
調整したテーブルの行数が、インデックス付きでない列のヒストグラム行数と比べて、定義済みのパーセンテージよりも大きく異なる場合、結合カーディナリティおよびコスト計算関連公式に入力される基本値である定数値の個数は、次のシナリオで増減されます:
- ヒストグラムがDATE列にある。
- ヒストグラムが、DATE列構成要素がある複数列にある。
- ヒストグラムが固有インデックス上にある。
- ヒストグラムがゆるやかな固有列にある。ゆるやかな固有性とは、間隔ヒストグラム統計が、固有値の個数がテーブルの総カーディナリティに近いことを示す場合をいいます。
スケール設定操作では、値ごとに一定の行数が想定されます。例えば、テーブルのカーディナリティは、動的AMPサンプルから100行であると見積もられます。列x1について、行数が50で、固有値の数が25であることをヒストグラムが示している場合、つまり値ごとの行数が2であることを示している場合、固有値の数は
まで増加します。
値のスケール設定は、増減に関係なく、すべての列に対して無条件には実行できません。

例えば、product_id、business_unit_idのような列に、新しい調整値を追加することはできません。これは、新しい調整値を追加する意味がないためです。それらに任意の値を設定したり、それらをカーディナリティにすることもできません。したがって、特にこの場合は、それらの値に数学的操作を実行することは意味がありません。
統計収集のタイムスタンプの考慮
親の基本テーブルが単一テーブルの非スパース結合またはハッシュインデックスから統計を継承する間、またはその逆の継承の間、統計が継承元と継承先の両方の間隔ヒストグラムの列で利用可能な場合、システムはタイムスタンプを比較することによって決定される2つのうちの新しい方の統計を使用します。
信頼度レベルの調整
利用可能なヒストグラムがサンプリングされた統計から作成された場合、システムは常にその信頼度レベルを下げます。

ひずみのある列とインデックスに対して、統計を常に新しく保つ必要があります。

単一テーブル列見積もりの古い統計の処理は、さまざまな外挿法を使用して実行されます。