TextTokenizer Example 2: Japanese Tokenization

TextTokenizer Example 2: Japanese Tokenization - Teradata Vantage

Machine Learning Engine Analytic Function Reference

Product

Teradata Vantage

Release Number

8.00

1.0

Published

May 2019

Language

English (United States)

Last Update

2019-11-22

dita:mapPath

blj1506016597986.ditamap

dita:ditavalPath

blj1506016597986.ditaval

dita:id

B700-4003

lifecycle

Product Category

Teradata Vantage™

Input

Input Table: jp_input
id	txt
t1	総務省は28日、全国の主要51市を対象に2013年の物価水準を比較した消費者物価地域差指数を発表した。
t2	ソチ五輪６位の浅田真央（２３）＝中京大＝はＳＰ女子世界最高の７８・６６点で首位に立った。

dict: jp_dict
word
地域差指数,地域差指数,チイキサシスウ,カスタム名詞

User dictionary file user_dict_jp.txt:

ＳＰ女子,ＳＰ女子,エスピージョシ,カスタム名詞

SQL Call 1

SELECT * FROM TextTokenizer (
  ON jp_input AS "input" PARTITION BY any
  ON jp_dict AS dict DIMENSION
  USING
  InputLanguage ('jp')
  OutputByWord ('false')
  Accumulate ('id')
  TextColumn ('txt')
  UserDictionaryFile ('user_dict_jp.txt')
) AS dt ORDER BY id;

Output 1

id	token
t1	総務省/は/28日/、/全国/の/主要/51市/を/対象/に/2013年/の/物価水準/を/比較/し/た/消費者/物価/地域差指数/を/発表/し/た/。
t2	ソチ五輪/６位/の/浅田真央/（/２３/）/＝/中京大/＝/は/ＳＰ女子/世界最高/の/７８・６６点/で/首位/に/立っ/た/。

SQL Call 2

SELECT * FROM TextTokenizer (
  ON jp_input AS "input" PARTITION BY any
  ON jp_dict AS dict DIMENSION
  USING
  InputLanguage ('jp')
  OutputByWord ('true')
  Accumulate ('id')
  TextColumn ('txt')
) AS dt ORDER BY id;

Output 2

id	sn	token
t1	1	総務省
t1	2	は
t1	3	28日
t1	4	、
...	...	...
t2	12	ＳＰ女子
t2	13	世界最高
...	...	...