NGramSplitter (SQL Engine) - Advanced SQL Engine - Teradata Database

Teradata Vantage™ - Advanced SQL Engine分析関数

Product
Advanced SQL Engine
Teradata Database
Release Number
17.10
Published
2021年7月
Language
日本語
Last Update
2021-09-23
dita:mapPath
ja-JP/wnd1589838592459.ditamap
dita:ditavalPath
ja-JP/ayr1485454803741.ditaval
dita:id
B035-1206
Product Category
Software
Teradata Vantage

NGramSplitter関数tokenizesは、テキストの入力ストリームを(分割)し、指定されたReset、Punctuation、およびDelimiter構文要素に基づいてn マルチグラム (n-gramと呼ばれる)を出力します。NGramSplitterは最初に文を分割し、次に句読点文字を削除し、最後に単語をn-gramに分割します。

NGramSplitterには、テキスト分析の実行において標準のトークン化よりも柔軟性があります。多くの2語の語句は、1つの単語のトークンがキャプチャしない重要な意味(「machine learning(機械学習)」など)を含んでいます。これは、別の分析手法と組み合わせて、センチメント分析、トピックの識別、文書の分類を実行するのに便利です。

NGramSplitterは、各入力行を1つの文書と見なし、各文書内の固有のn-gramごとに1つの行を返します。またNGramSplitterは、ドキュメントごとに各n-gramのカウントとn-gramの合計数を返します。

  • この関数には、UNICODEデータに設定されたUTF8クライアント文字セットが必要です。
  • この関数はパス スルー文字(PTC)をサポートしていません。

    PTCについての詳細は、<Teradata Vantage™ - Advanced SQL Engine国際文字セット サポート、B035-1125>を参照してください。