NGramSplitter引数 - Teradata Database - Teradata Vantage NewSQL Engine

Teradata Vantage™ - NewSQL Engineの分析関数

Product
Teradata Database
Teradata Vantage NewSQL Engine
Release Number
16.20
Published
2019年3月
Language
日本語
Last Update
2019-10-29
dita:mapPath
ja-JP/pqk1526318183991.ditamap
dita:ditavalPath
ja-JP/pqk1526318183991.ditaval
dita:id
B035-1206
Product Category
Software
Teradata Vantage
TextColumn
入力テキストを含んでいる列の名前を指定します。この列にはSQL文字列データ型が必要です。
Delimiter
(オプション)入力テキスト内の単語を区切る文字または文字列を指定します。
デフォルト: ' '(スペース)
Grams
n-gramの長さ(つまりnの値)を語数単位で指定します。value_rangeの構文はinteger1-integer2です。ここでinteger1 <= integer2です。ninteger1、およびinteger2の値は正でなければなりません。
OverLapping
(オプション)関数がn-gramの重複を許可するかどうかを指定します。
デフォルト: 'true'(各文の各単語はn-gramで開始します。ただしこれは、同じ分で十分な語数がそれに続き、指定サイズのn-gram全体を形成する場合です。文の詳細については、Reset引数の説明を参照してください。)
ConvertToLowerCase
(オプション)関数が入力テキストのすべての文字を小文字に変換するかどうかを指定します。
デフォルト: 'true'
Punctuation
[オプション]文字列で、入力テキストを評価する前に削除する関数の区切り文字を指定します。
句読点文字にはUnicodeとLatin文字の両方の文字セットを使用できます。
デフォルト: '`~#^&*()-'
Reset
(オプション)文字列で、文を終了できる文字を指定します。文末では、関数は部分的なn-gramを破棄し、次の文の冒頭で次のn-gramを検索します。n-gramは複数の文にまたがることはできません。
デフォルト: '.,?!'
OutputTotalGramCount
(オプション)Grams引数で指定された各長さnについて、関数が文書内(つまり行内)のn-gram合計数を返すかどうかを指定します。'true'を指定すると、TotalCountColName引数はこれらの合計数を含んでいる出力テーブル列の名前を決定します。
n-gramの合計数は、必ずしも固有のn-gramの数とは限りません。
デフォルト: 'false'
TotalCountColName
(オプション)OutputTotalGramCount引数の値が'true'の場合に表示される出力テーブル列の名前を指定します。
デフォルト: 'totalcnt'
Accumulate
(オプション)n-gramごとの出力テーブルにコピーする入力テーブル列の名前を指定します。これらの列にはNGramColName、GramLengthColName、TotalCountColNameの各引数で指定されたものと同じ名前を指定できません。
デフォルト: n-gramごとのすべての入力列
NGramColName
[オプション]作成されたn-gramを包含する出力テーブル列の名前を指定します。
デフォルト: 'ngram'
GramLengthColName
(オプション)n-gramの長さ(語数単位)を包含する出力テーブル列の名前を指定します。
デフォルト: 'n'
FrequencyColName
(オプション)固有のn-gramごとのカウント(つまり、それぞれの固有のn-gramが文書に現われる回数)を包含する出力テーブル列の名前を指定します。
デフォルト: 'frequency'