1.0 - 8.00 - TextTokenizer Example 1: Chinese Tokenization - Teradata Vantage

Teradata® Vantage Machine Learning Engine Analytic Function Reference

Product
Teradata Vantage
Release Number
1.0
8.00
Release Date
May 2019
Content Type
Programming Reference
Publication ID
B700-4003-098K
Language
English (United States)

Input

Input Table: cn_input
id txt
t1 我从小就不由自主地认为自己长大以后一定得成为一个象我父亲一样的画家, 可能是父母潜移默化的影响。
t2 中华人民共和国 辽宁省 铁岭市 靠山屯 村支书 赵本山。
dict: cn_dict
txt
辽宁省铁岭市靠山屯村
赵本山

SQL Call 1

SELECT * FROM TextTokenizer (
  ON cn_input AS "input" PARTITION BY ANY
  ON cn_dict AS dict DIMENSION
  USING
  InputLanguage ('zh_CN')
  OutputDelimiter (' ')
  OutputByWord ('false')
  Accumulate ('id')
  TextColumn ('txt')
) AS dt ORDER BY id;

Output 1

id token
t1 我 从小 就 不由自主 地 认为 自己 长大 以后 一定 得 成为 一个 象 我 父亲 一样 的 画家 , 可能 是 父母 潜移默化 的 影响 。
t2 中华人民共和国 辽宁省 铁岭市 靠山屯 村支书 赵本山 。

SQL Call 2

SELECT * FROM TextTokenizer (
  ON cn_input AS "input" PARTITION BY ANY
  ON cn_dict AS dict DIMENSION
  USING
  InputLanguage ('zh_CN')
  OutputByWord ('true')
  Accumulate ('id')
  TextColumn ('txt')
) AS dt ORDER BY id;

Output 2

id sn token
t1 1
t1 2 从小
t1 3
t1 4 不由自主
... ...
t2 1 中华人民共和国
t2 2 辽宁省
... ... ...