Input
Input Table: jp_input
id |
txt |
t1 |
総務省は28日、全国の主要51市を対象に2013年の物価水準を比較した消費者物価地域差指数を発表した。 |
t2 |
ソチ五輪6位の浅田真央(23)=中京大=はSP女子世界最高の78・66点で首位に立った。 |
dict: jp_dict
word |
地域差指数,地域差指数,チイキサシスウ,カスタム名詞 |
User dictionary file user_dict_jp.txt:
SP女子,SP女子,エスピージョシ,カスタム名詞
SQL Call 1
SELECT * FROM TextTokenizer (
ON jp_input AS "input" PARTITION BY any
ON jp_dict AS dict DIMENSION
USING
InputLanguage ('jp')
OutputByWord ('false')
Accumulate ('id')
TextColumn ('txt')
UserDictionaryFile ('user_dict_jp.txt')
) AS dt ORDER BY id;
Output 1
id |
token |
t1 |
総務省/は/28日/、/全国/の/主要/51市/を/対象/に/2013年/の/物価水準/を/比較/し/た/消費者/物価/地域差指数/を/発表/し/た/。 |
t2 |
ソチ五輪/6位/の/浅田真央/(/23/)/=/中京大/=/は/SP女子/世界最高/の/78・66点/で/首位/に/立っ/た/。 |
SQL Call 2
SELECT * FROM TextTokenizer (
ON jp_input AS "input" PARTITION BY any
ON jp_dict AS dict DIMENSION
USING
InputLanguage ('jp')
OutputByWord ('true')
Accumulate ('id')
TextColumn ('txt')
) AS dt ORDER BY id;
Output 2
id |
sn |
token |
t1 |
1 |
総務省 |
t1 |
2 |
は |
t1 |
3 |
28日 |
t1 |
4 |
、 |
... |
... |
... |
t2 |
12 |
SP女子 |
t2 |
13 |
世界最高 |
... |
... |
... |