ChenZixinn / news_spiderLinks

项目基于Scrapy实现，爬取新闻网站主要新闻，通过gen库提取内容，存储到mysql中。实现定时爬取和增量爬取。已爬取：、湖南在线、四月、四川新闻、广州日报大洋网、光明网、四川在线、东南网、中青在线、中评网、北晚在线、中国消费网、中国科技网、中国经济网、中国日报、中国交通新闻网、中国经济新闻网、中华网、文明网、南方网、中国新闻网

☆12

Alternatives and similar repositories for news_spider

Users that are interested in news_spider are comparing it to the libraries listed below

Sorting:

cyhleo / JinRiTouTiaoNews
scrapy+pyppeteer，爬取今日头条中新闻及热门评论信息。
☆12Updated 5 years ago
flicck / CninfoDistributedSpider
针对巨潮资讯网上市公司公告的分布式爬虫，采用scrapy和kafka的分布式架构。可以爬取爬取指定上市公司列表、指定时间段内的所有公告并保存PDF。后续会加入搜索引擎功能
☆19Updated 5 years ago
Randy-whiteSugar / LagouSpider_Scrapy
使用Scrapy编写的拉勾网爬虫，添加了代理IP池、增量爬取机制
☆11Updated 2 years ago
dataaug / zhihu-spider
知乎爬虫，用于爬取问题和对应的回答
☆28Updated 2 years ago
ljk99 / fangchan
房产语料库
☆26Updated 7 years ago
yanfeng9507 / TianYanChaCrawler
天眼查网站批量查询工具
☆49Updated last year
china-data / xwlb
新闻联播开放数据
☆28Updated this week
xiucaicoder / douyin-spider
抖音无水印视频爬虫
☆11Updated 5 years ago
who0sy / geetest
全国组织结构统一社会信用代码服务中心滑块验证码破解
☆16Updated 2 years ago
PengchuanC / news_collect
主要财经媒体新闻爬虫
☆11Updated 4 years ago
cs-magic-open / scrapy-spiders
使用Scrapy爬取主流网站的项目集合，持续更新。
☆10Updated 7 months ago
biodog / land_china
中国土地市场网(landchina.com)爬虫,反爬虫,字体反爬虫
☆8Updated 4 years ago
IshtarTang / weibo_spider-scrapy
微博的爬虫，从个人主页开始爬博文和评论，用的scrapy 框架
☆30Updated 3 months ago
OliverFoh / zhaobiao_spider
招投标网站数据采集
☆20Updated 5 years ago
CooperMin / qichacha
企查查企业分类信息采集
☆43Updated 5 years ago
sph116 / zhongxin_search
中国新闻网爬虫（全站增量爬虫，可用时间至2019.7）
☆17Updated 5 years ago
xinxinliang / ksDjango
关于快手视频的django项目，之前使用爬虫，可以获取快手视频网站的视频，输入用户主页地址，就可以获取用户的视频地址、粉丝数、点赞数等。现在这个项目准备实现：随机获取用户id并且去重，然后根据id获取主页视频信息，将获取的内容展示到网页上。后期还可以开发用户注册登录系统，可…
☆21Updated 4 years ago
taogogo / weixin_spider
最新的自动爬取微信公众号的实时更新文章、历史文章的爬虫，可以设置爬取关键词黑名单和白名单，支持对公众号的自动评论、点赞、转发。
☆13Updated last year
rufeng-h / CrackJS
JS逆向分析
☆10Updated 2 years ago
perpetually2014 / Official_Accounts
公众号
☆11Updated last year
brady-chen / tbNews
金融新闻增量式聚焦爬虫
☆21Updated 7 years ago
VcSpace / News-M
提取财经新闻标题、链接整合排列后写入表格
☆49Updated 3 months ago
realzhengyiming / newsSpier_scrapy
news spider wrote by scrapy ,now it can crawl the news in sina ,and continue to update it.这个是多新闻的增量爬虫版本，爬取腾讯，网易，搜狐的每日新闻 scrapy 实现的版本
☆13Updated 5 years ago
xianhu / PSpiderDemos
demos based on PSpider
☆17Updated 6 years ago
orangeMask / spider
抖音,淘宝系,常见新闻爬虫
☆13Updated 3 years ago
AEXLORD / taobaoAnalysis
一个不成熟的半自动淘宝商品评论爬取、清洗、分析、生成报表工具
☆21Updated 4 years ago
STHSF / EventsParser
金融财经类新闻文本主题事件提取
☆53Updated 2 years ago
xiaoxiong74 / Spiders
微博关键词搜索爬虫、微博爬虫、链家房产爬虫、新浪新闻爬虫、腾讯招聘爬虫、招投标爬虫
☆38Updated 6 years ago
touuki / colymer-acquirers
各种爬虫（目前支持Instagram、Weibo、Twitter）Miscellaneous crawlers (currently including instagram, twitter, weibo etc.).
☆33Updated last year
Allenyep / baidu_hor_rank_crawler
每小时抓取一次百度热搜
☆12Updated this week