tf idf

本贴最后更新于 2268 天前,其中的信息可能已经渤澥桑田

if idf

image
image
image

应用场景

  1. 文本分类
  2. 文本相似度匹配

代码

# tfidf
from sklearn.feature_extraction.text import TfidfVectorizer
import jieba

def cut():
    """
    jieba分词  :return:词数组
    """
    con1 = jieba.cut("晚上,和老妈一起看电视。 老妈盯着我看了半会,突然问 : “咱家是愚公的后代吧?”我一脸懵逼。老妈骄傲的挺挺胸 : “咱家祖传的两座大山,传你这终于给铲平了啊!” 我.........")
    con2 = jieba.cut(""你吃过鼻屎吗?""那么咸的东西!我怎么可能会去吃!"")
    con3 = jieba.cut("孙刘抗曹魏时,诸葛和周瑜谈画,周瑜说“你有何武器?诸葛大叫“有核武器?有核武器我还找你”")

    # 转换成列表
    content1 = list(con1)
    content2 = list(con2)
    content3 = list(con3)

    # 转换成字符串
    c1 = ' '.join(content1)
    c2 = ' '.join(content2)
    c3 = ' '.join(content3)

    return c1, c2, c3

if __name__ == "__main__":
    c1, c2, c3 = cut()

    tf = TfidfVectorizer()

    data = tf.fit_transform([c1, c2, c3])

    print(tf.get_feature_names())

    print(data.toarray())

运行结果

['一脸', '一起', '东西', '两座', '刘抗曹', '半会', '可能', '后代', '周瑜', '咱家', '大叫', '大山', '怎么', '愚公', '挺胸', '晚上', '有何', '核武器', '武器', '看电视', '祖传', '突然', '终于', '老妈', '诸葛', '谈画', '那么', '铲平', '骄傲', '魏时', '鼻屎']
[[0.18898224 0.18898224 0.         0.18898224 0.         0.18898224
  0.         0.18898224 0.         0.37796447 0.         0.18898224
  0.         0.18898224 0.18898224 0.18898224 0.         0.
  0.         0.18898224 0.18898224 0.18898224 0.18898224 0.56694671
  0.         0.         0.         0.18898224 0.18898224 0.
  0.        ]
 [0.         0.         0.4472136  0.         0.         0.
  0.4472136  0.         0.         0.         0.         0.
  0.4472136  0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.4472136  0.         0.         0.
  0.4472136 ]
 [0.         0.         0.         0.         0.23570226 0.
  0.         0.         0.47140452 0.         0.23570226 0.
  0.         0.         0.         0.         0.23570226 0.47140452
  0.23570226 0.         0.         0.         0.         0.
  0.47140452 0.23570226 0.         0.         0.         0.23570226
  0.        ]]

视频

相关帖子

回帖

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...