AS06_tokenized 結果是繁體字 #49
Answered
by
jirlong
lucyyyychen
asked this question in
Q&A: Assignments
-
請問這樣是正常的嗎? 經濟四 陳沛妤 |
Beta Was this translation helpful? Give feedback.
Answered by
jirlong
Nov 24, 2021
Replies: 1 comment
-
|
因為jieba在簡體字會斷的比較好,而未來如果用NLTK,通常也都得轉簡體,所以取tokenized的時候我有轉簡體。 另外,未來要去資訊公司工作的話,專題用什麼方法斷詞也是可能會被問到的題目。通常不會問你為何用jieba而不用B,而是會延伸問你,斷詞沒斷好可能會產生什麼樣的情形。 |
Beta Was this translation helpful? Give feedback.
0 replies
Answer selected by
jirlong
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
因為jieba在簡體字會斷的比較好,而未來如果用NLTK,通常也都得轉簡體,所以取tokenized的時候我有轉簡體。
影片教學應該有討論到這件事。由於簡體斷詞結果會和繁體不同,但斷詞完後在計算關鍵字量的時候,我就把簡體轉為回繁體,所以自然會看到這兩個結果不太一樣。這去年有同學問說為何不一樣,但我還留著這個問題,主要是有個提醒作用是,一般來講,我們看到的前十大熱門詞,若不小心處理,搞不好A的前十大和B的前十大都會不太一樣。
另外,未來要去資訊公司工作的話,專題用什麼方法斷詞也是可能會被問到的題目。通常不會問你為何用jieba而不用B,而是會延伸問你,斷詞沒斷好可能會產生什麼樣的情形。