1.0 - 8.00 - TextTokenizer Example 2: Japanese Tokenization - Teradata Vantage

Teradata® Vantage Machine Learning Engine Analytic Function Reference

Product
Teradata Vantage
Release Number
1.0
8.00
Release Date
May 2019
Content Type
Programming Reference
Publication ID
B700-4003-098K
Language
English (United States)

Input

Input Table: jp_input
id txt
t1 総務省は28日、全国の主要51市を対象に2013年の物価水準を比較した消費者物価地域差指数を発表した。
t2 ソチ五輪6位の浅田真央(23)=中京大=はSP女子世界最高の78・66点で首位に立った。
dict: jp_dict
word
地域差指数,地域差指数,チイキサシスウ,カスタム名詞

User dictionary file user_dict_jp.txt:

SP女子,SP女子,エスピージョシ,カスタム名詞

SQL Call 1

SELECT * FROM TextTokenizer (
  ON jp_input AS "input" PARTITION BY any
  ON jp_dict AS dict DIMENSION
  USING
  InputLanguage ('jp')
  OutputByWord ('false')
  Accumulate ('id')
  TextColumn ('txt')
  UserDictionaryFile ('user_dict_jp.txt')
) AS dt ORDER BY id;

Output 1

id token
t1 総務省/は/28日/、/全国/の/主要/51市/を/対象/に/2013年/の/物価水準/を/比較/し/た/消費者/物価/地域差指数/を/発表/し/た/。
t2 ソチ五輪/6位/の/浅田真央/(/23/)/=/中京大/=/は/SP女子/世界最高/の/78・66点/で/首位/に/立っ/た/。

SQL Call 2

SELECT * FROM TextTokenizer (
  ON jp_input AS "input" PARTITION BY any
  ON jp_dict AS dict DIMENSION
  USING
  InputLanguage ('jp')
  OutputByWord ('true')
  Accumulate ('id')
  TextColumn ('txt')
) AS dt ORDER BY id;

Output 2

id sn token
t1 1 総務省
t1 2
t1 3 28日
t1 4
... ... ...
t2 12 SP女子
t2 13 世界最高
... ... ...