商务服务
NLP(五):关键词提取补充(语料库和向量空间)
2024-11-03 13:56

一、将语料库转化为向量(gensim)

NLP(五):关键词提取补充(语料库和向量空间)

在对语料库进行基本的处理后(分词,去停用词),有时需要将它进行向量化,便于后续的工作。

 

我们利用gensim.corpora.dictionary.Dictionary类为每个出现在语料库中的单词分配了一个独一无二的整数编号。doc2bow函数主要用于让编了号的语料库变为bow词袋模型,对每个不同单词的出现次数进行了计数,然后以稀疏向量的形式返回结果。上述代码的corpus就是语料库的词袋模型,其中,每一个子列表都表示一篇文章。

基于这个处理好了的含有三篇文章的训练文档,我们可以训练一个TFIDF模型,就是下面代码的第四步;

然后经过第五步,我们将上述用词频表示文档向量表示为一个用tf-idf值表示的文档向量

前面有说TFIDF可以用来做关键词提取,因为它认为tfidf值越大的词就越能够体现它对这篇文章的重要性。但TF-IDF也可用于查找相似文章、对文章进行摘要提取、特征选择(重要特征的提取)工作。如果说接下来是要对sentenses和语料库的三篇文章进行相似度比较的话,接下来的代码为:

https://blog.csdn.net/Lau_Sen/article/details/80436819

代码中的tfidf,和sen_tfidf结果分别是语料库和新句子的tfidf向量化表示。很多模型就是基于tf-idf来做的,比如lsi,lda等。现在每个句子就变成了[(词id号,idf值),(词id号,idf值)....]这样的稀疏表示形式。

然后,基于这个用tfidf值表示的向量,我们又可以训练一个lsi模型,有了这个lsi模型,我们就可以将文档映射到一个二维的topic空间中,代码如下:

    以上就是本篇文章【NLP(五):关键词提取补充(语料库和向量空间)】的全部内容了,欢迎阅览 ! 文章地址:http://nhjcxspj.xhstdz.com/news/296.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 物流园资讯移动站 http://yishengsujiao.xhstdz.com/ , 查看更多   
最新新闻
小店随心推凸显三大优势 直击抖音电商用户投放痛点助力经营成长
  近年来,以直播、短视频为代表的电商新业态迅速崛起,在为实体经济赋能赋值的同时,自身也展现出强劲的生命力。其中,抖音电
抖音小店怎么查看收入总额多少
抖音小店是一种通过抖音平台进行销售的电商模式,众多店家在平台上售卖各种商品,通过短视频、直播等方式吸引粉丝,实现销售收入
抖音严审赛道,2个月极速引流增客,登上好评榜top3!
1个月内从0-1打通线上到线下获客核销的全链路2个月时间登上好评榜top3产后康复赛道,究竟如何这样迅速崛起?01产后康复赛道的线
2014网络最有实力的十大红人与网络十大红人资料(全网公正)全网转载!
  第一:网络红人龚心逸龚心逸,福建龙岩人,其2007至2011年一度带领杀马特家族走向网络颠峰。引导中国网络
发出重农强农强烈信号!三个关键词解读2023年中央一号文件
  央广网北京2月14日消息(记者王晶)2月13日,《中共中央 国务院关于做好2023年全面推进乡村振兴重点工作的意见》(以下简称
抖音AI写作作品发布攻略:如何高效展示创作才华
抖音AI写作作品发布攻略:如何高效展示创作才华在数字化时代,人工智能的崛起为创作领域带来了前所未有的变革。抖音作为一款流行
八大类主流工业仿真平台【心累指数】终极评测(上)
有一个神奇的小盒子,只要把各种参数和设定往里面一扔,你想要的仿真结果数据就会自动掉落。——这可能是亿万仿真研发工程师的梦
国家统计局:2024年一季度国内生产总值初步核算结果
原标题:国家统计局:2024年一季度国内生产总值初步核算结果根据有关基础资料和国内生产总值(GDP)核算方法,经初步核算,我国2
北京协和医院:患者APP开启“互联网+”就医新体验
一、案例概要为深入贯彻落实习近平主席新时代中国特色社会主义思想和党的十九大精神,推进实施健康中国战略,提升医疗卫生现代化
五大关键词 解读政策利好(图)
漫画:牛力5月,省政府出台首批支持中小微企业发展的15条财政措施。措施一经发布,立即在社会上引起广泛关注。这些措施出台的背
本企业新闻