中文斷詞:斷句不要悲劇

Tech Talk回顧

05/24
(三)

中文斷詞:斷句不要悲劇   會後簡報

中文斷詞在中文自然語言處理上是非常重要的前置處理工作,如果中文斷詞能夠正確地將最小有意義的詞辨識出來,才有辦法進行更高層次的自然語言分析,因此中文斷詞的正確性影響了許多自然語言處理應用的成敗,例如,問答系統、自動摘要、文件檢索、機器翻譯、語音辨識等。

本次講題將介紹中文斷詞的概念以及面臨的難題,然後說明現在最有名的開源中文斷詞程式結巴的核心演算法及隱馬可夫模型(HMM)如何處理中文斷詞。了解演算核心之後進一步介紹結巴斷詞系統的使用,並以實際展示方式幫助理解。最後實作一個歌詞推薦模型來幫助了解中文斷詞如何延伸應用在文字探勘上。

本回 Tech Talk 講師

林志傑 Fukuball

KKBOX 幕僚工程師、前 iNDIEVOX 技術長、CodeTengu 碼天狗技術週刊作者群之一。

使用 PHP 及 Python,最近對機器學習感到興趣,空閒時開發了著名的中文斷詞程式 Jieba 的 PHP 版本,近期也開源了一個易於使用的機器學習套件 fuku-ml,希望能幫助對機器學習有興趣的人能夠快速上手。

iThome Tech Talk-與 IT 人一起探索新知的技術講座

許多想像中的未來,快速成為我們眼前的現代,背後無窮無盡的技術更迭,常常以繁複龐大的身影,化成滔滔不斷的知識之流。
知識必須由理性去拆解、認識,但又是什麼東西驅動人類的理性呢?
iThome Tech Talk 認為,好奇心就是那個答案。
我們希望透過一場又一場的精彩講座,一位接著一位的資訊征服者,啟動你的好奇心,為你準備好下一場知識冒險所需的強大動力。

相關報導