推荐系统技术之文本相似性计算(三)
发布时间:2021-03-07 12:39:23 所属栏目:大数据 来源:网络整理
导读:今天这篇也比较长,但中间有部分是代码,7,8,9最后三节的信息我认为较为有用。 前面说了两篇了,推荐系统技术之文本相似性计算(一)和推荐系统技术 --- 文本相似性计算(二)分别介绍了 TFIDF 和向量空间的相关东西,然后介绍了 主题模型 ,这一篇我们就
副标题[/!--empirenews.page--]
0. 工具准备chrome 爬取纯JS单页面网站爬取,也支持代理池,如果大家感兴趣我也可以说说爬虫相关的东西,分布式的哦,可以随便加机器增加爬取能力。好了,爬了两个网站,中途各种坑就不表了,可以开始干活了,爬两个类型的网站是为了说明后面LDA主题模型,大家就有个认识了。2. 数据清理
|