TextTokenizer Example: Chinese Tokenization | Teradata Vantage - TextTokenizer Example: Chinese Tokenization - Teradata Vantage

Machine Learning Engine Analytic Function Reference

Product
Teradata Vantage
Release Number
9.02
9.01
2.0
1.3
Published
February 2022
Language
English (United States)
Last Update
2022-02-10
dita:mapPath
rnn1580259159235.ditamap
dita:ditavalPath
ybt1582220416951.ditaval
dita:id
B700-4003
lifecycle
previous
Product Category
Teradata Vantage™

To run queries that include non-Latin characters, you must set SESSION CHARSET to UTF-8. For more information, see Basic Teradata® Query Reference, B035-2414.

Input

Input Table: cn_input
id txt
t1 我从小就不由自主地认为自己长大以后一定得成为一个象我父亲一样的画家, 可能是父母潜移默化的影响。
t2 中华人民共和国 辽宁省 铁岭市 靠山屯 村支书 赵本山。
Dict: cn_dict
txt
辽宁省铁岭市靠山屯村
赵本山

SQL Call 1

SELECT * FROM TextTokenizer (
  ON cn_input PARTITION BY ANY
  ON cn_dict AS dict DIMENSION
  USING
  InputLanguage ('zh_CN')
  OutputDelimiter (' ')
  OutputByWord ('false')
  Accumulate ('id')
  TextColumn ('txt')
) AS dt ORDER BY id;

Output 1

 id |                                                          token                                                           
----+--------------------------------------------------------------------------------------------------------------------------
 t1 | 我 从小 就 不由自主 地 认为 自己 长大 以后 一定 得 成为 一 个 象 我 父亲 一样 的 画家 , 可能 是 父母 潜移默化 的 影响 。
 t2 | 中华人民共和国 辽宁省 铁岭市 靠山 屯 村 支 书 赵本山 。
(2 rows)

SQL Call 2

SELECT * FROM TextTokenizer(
  ON cn_input PARTITION BY ANY
  ON cn_dict AS dict DIMENSION
  USING
  InputLanguage('zh_CN')
  OutputDelimiter(' ')
  OutputByWord('true')
  Accumulate('id')
  TextColumn('txt')
) AS dt ORDER BY id;

Output 2

 id sn token   
 -- -- ------- 
 t1  1 我      
 t1  2 从小     
 t1  3 就      
 t1  4 不由自主   
 t1  5 地      
 t1  6 认为     
 t1  7 自己     
 t1  8 长大     
 t1  9 以后     
 t1 10 一定     
 t1 11 得      
 t1 12 成为     
 t1 13 一      
 t1 14 个      
 t1 15 象      
 t1 16 我      
 t1 17 父亲     
 t1 18 一样     
 t1 19 的      
 t1 20 画家     
 t1 21 ,      
 t1 22 可能     
 t1 23 是      
 t1 24 父母     
 t1 25 潜移默化   
 t1 26 的      
 t1 27 影响     
 t1 28 。      
 t2  1 中华人民共和国
 t2  2 辽宁省    
 t2  3 铁岭市    
 t2  4 靠山     
 t2  5 屯      
 t2  6 村      
 t2  7 支      
 t2  8 书      
 t2  9 赵本山    
 t2 10 。

Download a zip file of all examples and a SQL script file that creates their input tables.