jieba.dt.total下面通過「吳國忠臣伍子胥」這個例子來理解一下分詞過程:python> print(.join(jieba.cut(吳國忠臣伍子胥)))吳國忠臣伍子胥顯而易見,本次 Jieba
的分詞是有問題的,為什么沒有分詞為「吳國忠臣」呢?
P(臣) > P(吳國) * P(忠臣)」,所以出現了錯誤的結果。
的詞頻:python> jieba.add_word(忠臣, 456)python> print(.join(jieba.cut(吳國忠臣伍子胥)))吳國忠臣伍子胥說明:456 是怎么來的?
舉例說明:現在各大門戶網站的頭版頭條永遠都是某大大的豐功偉績,所以可以推定某大大從 TF-IDF 的角度看沒有太大的價值。TextRank 則和 PageRank 基本是一個路子:臨近的詞語互相打分。