"奇伢爬虫"是基于sprint boot 、 WebMagic 实现 微信公众号文章、新闻、csdn、info等网站文章爬取,可以动态设置文章爬取规则、清洗规则,基本实现了爬取大部分网站的文章。
☆323Sep 3, 2017Updated 8 years ago
Alternatives and similar repositories for javaCrawling
Users that are interested in javaCrawling are comparing it to the libraries listed below
Sorting:
- 微信公众号文章爬虫☆44Sep 1, 2022Updated 3 years ago
- 一个基于webmagic框架二次开发的java爬虫框架实战,已实现能爬取腾讯,搜狐,今日头条(单独集成功能)等资讯内容,配合elasticsearch框架用法,实现了自动爬虫,已投入线上生产使用。☆343Nov 16, 2022Updated 3 years ago
- 基于webmagic + springboot + mybatis的Java爬虫,使用Echarts进行数据可视化分析,提供了从爬虫获取数据到数据持久化、数据可视化分析以及构建简单的代理池等一整套解决方案模板。☆368Oct 26, 2017Updated 8 years ago
- java爬虫,反爬虫策略、ETL清洗数据,以及spark离线和实时分析新闻并存入ES☆20Nov 26, 2018Updated 7 years ago
- 一个简单、敏捷、分布式的支持SpringBoot的Java爬虫框架;An agile, distributed crawler framework.☆1,994Nov 25, 2024Updated last year
- 基于Map/Reduce爬虫,可抽取各 大新闻网站的新闻正文并进行分类和聚类☆74Jan 5, 2014Updated 12 years ago
- 处理视频,通过修改视频文件达到变更文件md5,从而使视频变唯一,不在秒传,不在被封杀。☆10Dec 2, 2015Updated 10 years ago
- 天气爬虫(全国城镇天气自动定时抓取更新,并开放RESTful查询接口),附带代理IP池定时更新并检测其可用性☆367Jun 25, 2018Updated 7 years ago