To run queries that include non-Latin characters, you must set SESSION CHARSET to UTF-8. For more information, see Basic Teradata® Query Reference, B035-2414.
Input
id | txt |
---|---|
t1 | 我从小就不由自主地认为自己长大以后一定得成为一个象我父亲一样的画家, 可能是父母潜移默化的影响。 |
t2 | 中华人民共和国 辽宁省 铁岭市 靠山屯 村支书 赵本山。 |
txt |
---|
辽宁省铁岭市靠山屯村 |
赵本山 |
SQL Call 1
SELECT * FROM TextTokenizer ( ON cn_input PARTITION BY ANY ON cn_dict AS dict DIMENSION USING InputLanguage ('zh_CN') OutputDelimiter (' ') OutputByWord ('false') Accumulate ('id') TextColumn ('txt') ) AS dt ORDER BY id;
Output 1
id | token ----+-------------------------------------------------------------------------------------------------------------------------- t1 | 我 从小 就 不由自主 地 认为 自己 长大 以后 一定 得 成为 一 个 象 我 父亲 一样 的 画家 , 可能 是 父母 潜移默化 的 影响 。 t2 | 中华人民共和国 辽宁省 铁岭市 靠山 屯 村 支 书 赵本山 。 (2 rows)
SQL Call 2
SELECT * FROM TextTokenizer( ON cn_input PARTITION BY ANY ON cn_dict AS dict DIMENSION USING InputLanguage('zh_CN') OutputDelimiter(' ') OutputByWord('true') Accumulate('id') TextColumn('txt') ) AS dt ORDER BY id;
Output 2
id sn token -- -- ------- t1 1 我 t1 2 从小 t1 3 就 t1 4 不由自主 t1 5 地 t1 6 认为 t1 7 自己 t1 8 长大 t1 9 以后 t1 10 一定 t1 11 得 t1 12 成为 t1 13 一 t1 14 个 t1 15 象 t1 16 我 t1 17 父亲 t1 18 一样 t1 19 的 t1 20 画家 t1 21 , t1 22 可能 t1 23 是 t1 24 父母 t1 25 潜移默化 t1 26 的 t1 27 影响 t1 28 。 t2 1 中华人民共和国 t2 2 辽宁省 t2 3 铁岭市 t2 4 靠山 t2 5 屯 t2 6 村 t2 7 支 t2 8 书 t2 9 赵本山 t2 10 。
Download a zip file of all examples and a SQL script file that creates their input tables.