Stanford Word Segmenter

1.download from here : https://nlp.stanford.edu/software/segmenter.shtml

2.place it to nltk tokenize folder.

3.also add a word segmenter interface (already attached in the latest version)
http://www.nltk.org/_modules/nltk/tokenize/stanford_segmenter.html

result:

位於 意大利 西西里島 , 同時 是 歐洲 最高 活火山 的 埃特納 火山 ( M o u n t E t n a ) 突然 爆發 , 波及 英國廣播公司 B B C 的 團隊 及 一些 遊客 。 他們 全部 及 時獲 拯救 隊送離 現場,無 人命 傷亡 , 但 有 大約 8 人 受傷 。 目擊者 形容 , 當時 人人 都 在逃 跑 , 但 蒸氣 令 人 眼前 一 片 白霧 , 根本 無法 望到 前方 , 幸好 有 車輛 接 載他們 離開 現場

mmseg

just for concept reveal

1.find all the three-word chunk with maximum length

2.four ambiguity resolution rules

reference: http://technology.chtsai.org/mmseg/

a word puzzle

awesome!!
target