基于搜狗微信入口的微信爬虫程序。 由基于phantomjs的python实现。 使用了收费的动态代理。 采集包括文章文本、阅读数、点赞数、评论以及评论赞数。 效率:500公众号/小时。 根据采集的公众号划分为多线程,可以实现并行采集。
☆232Jun 13, 2018Updated 7 years ago
Alternatives and similar repositories for wechat_spider
Users that are interested in wechat_spider are comparing it to the libraries listed below
Sorting:
- 基于搜狗微信的公众号文章爬虫☆230Nov 23, 2023Updated 2 years ago
- 微信公众号文章爬虫☆103Jan 7, 2017Updated 9 years ago
- 微信公众号爬虫☆3,302Aug 10, 2021Updated 4 years ago
- 基于搜狗微信搜索的微信公众号爬虫接口☆6,186Nov 15, 2023Updated 2 years ago
- 采集已关注的微信公众号新发布的文章,发送到指定服务器,示例=》☆29Mar 6, 2019Updated 6 years ago
- 使用“代理”的方式来抓取微信公众账号文章,可以抓取阅读数、点赞数,基于 anyproxy。☆954Sep 4, 2020Updated 5 years ago
- 微信公众号爬虫 (只需设置代理, 一键可以爬取所有历史文章)☆143Apr 9, 2018Updated 7 years ago
- 用于批量爬取微信公众号所有文章☆638Dec 19, 2023Updated 2 years ago
- 数据平台(DataPlateform),最初的设计想法是:当今大数据横行,我们也不能落后。所以就想着写一个这样的平台系统。此项目集爬虫、搜索、Hadoop、Dwr推送、Quartz定时任务于一体的平台,其目的是想通过抓取互联网数据,通过大数据推测人或者某一事物的下一行为。C…