AS06_ YT06 Filter words 結果詢問 #50
Unanswered
KHsuan
asked this question in
Q&A: Assignments
Replies: 1 comment 7 replies
-
|
這題其實是要各位嘗試做簡繁互轉來提示各位斷詞結果的精準度未來可能會成為某些資料分析的瓶頸。 從教學影片所說來看,為何要轉簡體是為了希望用jieba斷詞時比繁體準一些;為何要轉回來繁體,是因為畢竟原始文本就是繁體,不轉回繁體沒道理。所以,印出來的東西當然應該全部繁體,但因為轉回繁體的過程,可能會因為簡繁互轉的原因轉錯,不應給使用者看到這樣的bug,所以必須要把轉錯的給取代回來。jieba若不轉成簡體以繁體直接斷,看到斷錯的就增加保留字,那大概要養很大的詞彙庫,才會比較精準。但未來會遇到有些套件就是不轉簡體完全沒辦法用。例如spacy的部分功能、NLTK。當然用ckip-transformer是很準,但如果你有一百萬篇文章,大概就不會考慮用ckipt-transformer。 各位如果有耐心想知道差異,也寫一個直接斷繁體的、再寫一個轉簡體再轉繁體的,比較看看這兩個斷詞結果有什麼差異。不過這種網路上有人比較過,可以直接看看就好。 |
Beta Was this translation helpful? Give feedback.
7 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
老師好,
我有點不懂題目:「請列印出你所跑出來的前30大關鍵字,你跑出來的結果應該會跟以下不同,但不應該會和以下一樣,會有「颱灣」的字樣,這是因為這個範例程式先把文字轉簡體後用jeiba斷詞,再轉回繁體後,把「台」全部翻為「颱」之故。」的意思。
所以印出來的東西應該是全部繁體還是簡體?還是斷字前不需要轉簡體?
不好意思有點不懂題意。
謝謝老師
Beta Was this translation helpful? Give feedback.
All reactions