TextTokenizer Example 1: Chinese Tokenization - Teradata Vantage

Machine Learning Engine Analytic Function Reference

Product
Teradata Vantage
Release Number
8.00
1.0
Published
May 2019
Language
English (United States)
Last Update
2019-11-22
dita:mapPath
blj1506016597986.ditamap
dita:ditavalPath
blj1506016597986.ditaval
dita:id
B700-4003
lifecycle
previous
Product Category
Teradata Vantage™

Input

Input Table: cn_input
id txt
t1 我从小就不由自主地认为自己长大以后一定得成为一个象我父亲一样的画家, 可能是父母潜移默化的影响。
t2 中华人民共和国 辽宁省 铁岭市 靠山屯 村支书 赵本山。
dict: cn_dict
txt
辽宁省铁岭市靠山屯村
赵本山

SQL Call 1

SELECT * FROM TextTokenizer (
  ON cn_input AS "input" PARTITION BY ANY
  ON cn_dict AS dict DIMENSION
  USING
  InputLanguage ('zh_CN')
  OutputDelimiter (' ')
  OutputByWord ('false')
  Accumulate ('id')
  TextColumn ('txt')
) AS dt ORDER BY id;

Output 1

id token
t1 我 从小 就 不由自主 地 认为 自己 长大 以后 一定 得 成为 一个 象 我 父亲 一样 的 画家 , 可能 是 父母 潜移默化 的 影响 。
t2 中华人民共和国 辽宁省 铁岭市 靠山屯 村支书 赵本山 。

SQL Call 2

SELECT * FROM TextTokenizer (
  ON cn_input AS "input" PARTITION BY ANY
  ON cn_dict AS dict DIMENSION
  USING
  InputLanguage ('zh_CN')
  OutputByWord ('true')
  Accumulate ('id')
  TextColumn ('txt')
) AS dt ORDER BY id;

Output 2

id sn token
t1 1
t1 2 从小
t1 3
t1 4 不由自主
... ...
t2 1 中华人民共和国
t2 2 辽宁省
... ... ...