AS06_tokenized 結果是繁體字 #49

lucyyyychen · 2021-11-24T05:08:20Z

lucyyyychen
Nov 24, 2021

AS06第一題的 output sample 的 tokenized是簡體字，但我自己試的結果是繁體字
第二題 count top 30 的結果也不一樣

請問這樣是正常的嗎？
謝謝

經濟四陳沛妤

Answered by jirlong

Nov 24, 2021

因為jieba在簡體字會斷的比較好，而未來如果用NLTK，通常也都得轉簡體，所以取tokenized的時候我有轉簡體。
影片教學應該有討論到這件事。由於簡體斷詞結果會和繁體不同，但斷詞完後在計算關鍵字量的時候，我就把簡體轉為回繁體，所以自然會看到這兩個結果不太一樣。這去年有同學問說為何不一樣，但我還留著這個問題，主要是有個提醒作用是，一般來講，我們看到的前十大熱門詞，若不小心處理，搞不好A的前十大和B的前十大都會不太一樣。

另外，未來要去資訊公司工作的話，專題用什麼方法斷詞也是可能會被問到的題目。通常不會問你為何用jieba而不用B，而是會延伸問你，斷詞沒斷好可能會產生什麼樣的情形。

View full answer

jirlong · 2021-11-24T06:32:14Z

jirlong
Nov 24, 2021
Maintainer

因為jieba在簡體字會斷的比較好，而未來如果用NLTK，通常也都得轉簡體，所以取tokenized的時候我有轉簡體。
影片教學應該有討論到這件事。由於簡體斷詞結果會和繁體不同，但斷詞完後在計算關鍵字量的時候，我就把簡體轉為回繁體，所以自然會看到這兩個結果不太一樣。這去年有同學問說為何不一樣，但我還留著這個問題，主要是有個提醒作用是，一般來講，我們看到的前十大熱門詞，若不小心處理，搞不好A的前十大和B的前十大都會不太一樣。

另外，未來要去資訊公司工作的話，專題用什麼方法斷詞也是可能會被問到的題目。通常不會問你為何用jieba而不用B，而是會延伸問你，斷詞沒斷好可能會產生什麼樣的情形。

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

AS06_tokenized 結果是繁體字 #49

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 1 comment

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Select a reply

Uh oh!

AS06_tokenized 結果是繁體字 #49

Uh oh!

Uh oh!

lucyyyychen Nov 24, 2021

Replies: 1 comment

Uh oh!

Uh oh!

jirlong Nov 24, 2021 Maintainer

lucyyyychen
Nov 24, 2021

jirlong
Nov 24, 2021
Maintainer