NGramSplitterの目的 - Teradata Database - Teradata Vantage NewSQL Engine

Teradata Vantage™ - NewSQL Engineの分析関数

Product

Teradata Database

Teradata Vantage NewSQL Engine

Release Number

16.20

Published

2019年3月

Language

日本語

Last Update

2019-10-29

dita:mapPath

ja-JP/pqk1526318183991.ditamap

dita:ditavalPath

ja-JP/pqk1526318183991.ditaval

dita:id

B035-1206

Product Category

Software

Teradata Vantage

NGramSplitter関数tokenizesは、テキストの入力ストリームを(分割)し、指定された区切り記号とリセットパラメータに基づいて n multigram (n-gramと呼ばれる)を出力します。NGramSplitterには、テキスト分析の実行において標準のトークン化よりも柔軟性があります。多くの2語の語句は、1つの単語のトークンがキャプチャしない重要な意味(「machine learning(機械学習)」など)を含んでいます。これは、別の分析手法と組み合わせて、センチメント分析、トピックの識別、文書の分類を実行するのに便利です。

NGramSplitterは、各入力行を1つの文書と見なし、各文書内の固有のn-gramごとに1つの行を返します。またNGramSplitterは、ドキュメントごとに各n-gramのカウントとn-gramの合計数を返します。

この関数には、UTF8クライアント文字セットが必要です。
この関数はパススルー文字(PTC)をサポートしていません。
PTCについての詳細は、<Teradata Vantage™ NewSQL Engine国際文字セットサポート、B035-1125>を参照してください。