1.1 - 8.10 - TextTokenizer Example: Chinese Tokenization - Teradata Vantage

Teradata Vantage™ - Machine Learning Engine Analytic Function Reference

Product
Teradata Vantage
Release Number
1.1
8.10
Release Date
October 2019
Content Type
Programming Reference
Publication ID
B700-4003-079K
Language
English (United States)

To run queries that include non-Latin characters, you must set SESSION CHARSET to UTF-8. For more information, see Basic Teradata® Query Reference, B035-2414.

Input

Input Table: cn_input
id txt
t1 我从小就不由自主地认为自己长大以后一定得成为一个象我父亲一样的画家, 可能是父母潜移默化的影响。
t2 中华人民共和国 辽宁省 铁岭市 靠山屯 村支书 赵本山。
Dict: cn_dict
txt
辽宁省铁岭市靠山屯村
赵本山

SQL Call 1

SELECT * FROM TextTokenizer (
  ON cn_input PARTITION BY ANY
  ON cn_dict AS dict DIMENSION
  USING
  InputLanguage ('zh_CN')
  OutputDelimiter (' ')
  OutputByWord ('false')
  Accumulate ('id')
  TextColumn ('txt')
) AS dt ORDER BY id;

Output 1

 id |                                                          token                                                           
----+--------------------------------------------------------------------------------------------------------------------------
 t1 | 我 从小 就 不由自主 地 认为 自己 长大 以后 一定 得 成为 一 个 象 我 父亲 一样 的 画家 , 可能 是 父母 潜移默化 的 影响 。
 t2 | 中华人民共和国 辽宁省 铁岭市 靠山 屯 村 支 书 赵本山 。
(2 rows)

SQL Call 2

SELECT * FROM TextTokenizer(
  ON cn_input PARTITION BY ANY
  ON cn_dict AS dict DIMENSION
  USING
  InputLanguage('zh_CN')
  OutputDelimiter(' ')
  OutputByWord('true')
  Accumulate('id')
  TextColumn('txt')
) AS dt ORDER BY id;

Output 2

 id sn token   
 -- -- ------- 
 t1  1 我      
 t1  2 从小     
 t1  3 就      
 t1  4 不由自主   
 t1  5 地      
 t1  6 认为     
 t1  7 自己     
 t1  8 长大     
 t1  9 以后     
 t1 10 一定     
 t1 11 得      
 t1 12 成为     
 t1 13 一      
 t1 14 个      
 t1 15 象      
 t1 16 我      
 t1 17 父亲     
 t1 18 一样     
 t1 19 的      
 t1 20 画家     
 t1 21 ,      
 t1 22 可能     
 t1 23 是      
 t1 24 父母     
 t1 25 潜移默化   
 t1 26 的      
 t1 27 影响     
 t1 28 。      
 t2  1 中华人民共和国
 t2  2 辽宁省    
 t2  3 铁岭市    
 t2  4 靠山     
 t2  5 屯      
 t2  6 村      
 t2  7 支      
 t2  8 书      
 t2  9 赵本山    
 t2 10 。

Download a zip file of all examples and a SQL script file that creates their input tables from the attachment in the left sidebar.