NGramSplitter Syntax構文要素 - Advanced SQL Engine - Teradata Database
Teradata Vantage™ - Advanced SQL Engine分析関数
- Product
- Advanced SQL Engine
- Teradata Database
- Release Number
- 17.05
- 17.00
- Published
- 2020年6月
- Language
- 日本語
- Last Update
- 2021-03-30
- dita:mapPath
- ja-JP/mld1565890109978.ditamap
- dita:ditavalPath
- ja-JP/mld1565890109978.ditaval
- dita:id
- B035-1206
- Product Category
- Software
- Teradata Vantage
- TextColumn
- 入力テキストを含んでいる列の名前を指定します。この列にはSQL文字列データ型が必要です。
- Grams
- 各n-gramの長さ(つまりnの値)を語数単位で指定します。value_rangeの構文はinteger1-integer2です。ここでinteger1 <= integer2です。n、integer1、およびinteger2の値は正でなければなりません。
- OverLapping
- [オプション]関数がn-gramの重複を許可するかどうかを指定します。
- デフォルト: 'true'(各文の各単語はn-gramで開始します。ただしこれは、同じ文で十分な語数がそれに続き、指定サイズのn-gram全体を形成する場合です。文の詳細については、Reset構文要素の説明を参照してください。)
- ConvertToLowerCase
- [オプション]関数が入力テキストのすべての文字を小文字に変換するかどうかを指定します。
- デフォルト: 'true'
- Reset
- [オプション]文字列で、文を終了できる文字を指定します。文末では、関数は部分的なn-gramを破棄し、次の文の冒頭で次のn-gramを検索します。n-gramは複数の文にまたがることはできません。
- デフォルト: '.,?!'
- Punctuation
- [オプション]文字列で、入力テキストを評価する前に削除する関数の区切り文字を指定します。
- 句読点文字にはUnicodeとLatin文字の両方の文字セットを使用できます。
- デフォルト: '`~#^&*()-'
- Delimiter
- [オプション]入力テキスト内の単語を区切る文字または文字列を指定します。
- デフォルト: ' '(スペース)
- OutputTotalGramCount
- [オプション]Grams構文要素で指定された各長さnについて、関数が文書内(つまり行内)のn-gram合計数を返すかどうかを指定します。'true'を指定すると、TotalCountColName構文要素はこれらの合計数を含んでいる出力テーブル列の名前を決定します。
- n-gramの合計数は、必ずしも固有のn-gramの数とは限りません。
- デフォルト: 'false'
- TotalCountColName
- [オプション]OutputTotalGramCount構文要素の値が'true'の場合に表示される出力テーブル列の名前を指定します。
- デフォルト: 'totalcnt'
- Accumulate
- [オプション]n-gramごとの出力テーブルにコピーする入力テーブル列の名前を指定します。これらの列にはNGramColName、GramLengthColName、TotalCountColNameの各構文要素で指定されたものと同じ名前を指定できません。
- デフォルト: n-gramごとのすべての入力列
- NGramColName
- [オプション]作成されたn-gramを包含する出力テーブル列の名前を指定します。
- デフォルト: 'ngram'
- GramLengthColName
- [オプション]n-gramの長さ(語数単位)を包含する出力テーブル列の名前を指定します。
- デフォルト: 'n'
- FrequencyColName
- [オプション]固有のn-gramごとのカウント(つまり、それぞれの固有のn-gramが文書に現われる回数)を包含する出力テーブル列の名前を指定します。
- デフォルト: 'frequency'