Skip to content
Discussion options

You must be logged in to vote

因為jieba在簡體字會斷的比較好,而未來如果用NLTK,通常也都得轉簡體,所以取tokenized的時候我有轉簡體。
影片教學應該有討論到這件事。由於簡體斷詞結果會和繁體不同,但斷詞完後在計算關鍵字量的時候,我就把簡體轉為回繁體,所以自然會看到這兩個結果不太一樣。這去年有同學問說為何不一樣,但我還留著這個問題,主要是有個提醒作用是,一般來講,我們看到的前十大熱門詞,若不小心處理,搞不好A的前十大和B的前十大都會不太一樣。

另外,未來要去資訊公司工作的話,專題用什麼方法斷詞也是可能會被問到的題目。通常不會問你為何用jieba而不用B,而是會延伸問你,斷詞沒斷好可能會產生什麼樣的情形。

Replies: 1 comment

Comment options

You must be logged in to vote
0 replies
Answer selected by jirlong
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
2 participants