wycm / zhihu-crawlerView external linksLinks
zhihu-crawler是一个基于Java的高性能、支持免费http代理池、支持横向扩展、分布式爬虫项目
☆917Apr 2, 2019Updated 6 years ago
Alternatives and similar repositories for zhihu-crawler
Users that are interested in zhihu-crawler are comparing it to the libraries listed below
Sorting:
- 基于 webmagic 的 Java 爬虫应用☆2,782Jan 8, 2022Updated 4 years ago
- 一个简单、敏捷、分布式的支持SpringBoot的Java爬虫框架;An agile, distributed crawler framework.☆1,994Nov 25, 2024Updated last year
- Easy to use lightweight web crawler(易用的轻量化网络爬虫)☆2,516Jan 23, 2026Updated 3 weeks ago
- 一个基于webmagic框架二次开发的java爬虫框架实战,已实现能爬取腾讯,搜狐,今日头条(单独集成功能)等资讯内容,配合elasticsearch框架用法,实现了自动爬虫,已投入线上生产使用。☆343Nov 16, 2022Updated 3 years ago
- A scalable web crawler framework for Java.☆11,697Dec 20, 2025Updated last month
- 知乎爬虫/可以爬出关注关系的爬虫☆307Jun 7, 2025Updated 8 months ago
- 新浪微博爬虫,采用Java语言开发,基于HTTPClient 4.0,采用MySQL存储爬取数据,支持多进程并发执行。功能包括:爬取微博、评论、转发、关注列表(层次)。根据数据需求,持续更新...☆355Feb 27, 2014Updated 11 years ago
- Java无框架实现爬取知乎用户信息、图片和知乎推荐内容并下载到本地或数据库中☆388Jan 21, 2017Updated 9 years ago
- 知乎爬虫,基于webmagic框架 .A java web spider base on webmagic.☆69May 26, 2016Updated 9 years ago
- "奇伢爬虫"是基于sprint boot 、 WebMagic 实现 微信公众号文章、新闻、csdn、info等网站文章爬取,可以动态设置文章爬取规则、清洗规则,基本实现了爬取大部分网站的文章。☆324Sep 3, 2017Updated 8 years ago
- Open Source Web Crawler for Java☆4,628Nov 4, 2021Updated 4 years ago
- java知乎爬虫☆104Nov 22, 2019Updated 6 years ago
- 一个基于微博用户数据的Java爬虫项目☆319Aug 18, 2020Updated 5 years ago
- WebCollector is an open source web crawler framework based on Java.It provides some simple interfaces for crawling the Web,you can setup …☆3,091Sep 5, 2025Updated 5 months ago
- github: https://github.com/kanwangzjm/funiture, spring项目,权限管理、系统监控、定时任务动态调整、qps限制、sql监控(邮件)、验证码服务、短链接服务、动态配置等☆1,874Nov 15, 2023Updated 2 years ago
- A configurable web spider with a easy-to-use web console☆998Aug 21, 2018Updated 7 years ago
- 基于Spring+SpringMVC+Mybatis分布式敏捷开发系统架构,提供整套公共微服务服务模块:集中权限管理(单点登录)、内容管理、支付中心、用户管理(支持第三方登录)、微信平台、存储系统、配置中心、日志分析、任务和通知等,支持服务治理、监控和追踪,努力为中小型企业…☆16,715Dec 16, 2022Updated 3 years ago
- 使用java+httpclient+httpcleaner,多线程、分布式爬去电商网站商品信息,数据存储在hbase上,并使用solr对商品建立索引,使用redis队列存储一个共享的url仓库;使用zookeeper对爬虫节点生命周期进行监视等。☆233Nov 6, 2020Updated 5 years ago
- DistributeCrawler的Maven版☆10Jun 20, 2022Updated 3 years ago
- 一个简单易用的爬虫框架,内置代理管理模块,灵活设置多线程爬取☆62Feb 23, 2017Updated 8 years ago
- spring cloud + vue + oAuth2.0全家桶实战,前后端分离模拟商城,完整的购物流程、后端运营平台,可以实现快速搭建企业级微服务项目。支持微信登录等三方登录。☆9,893Oct 9, 2023Updated 2 years ago
- 🐝 Web vertical crawler framework for fun☆192Dec 16, 2023Updated 2 years ago
- 1、支持网页爬虫 2、多线程、线程池 3、支持全文搜索 4、支持Hadoop分布式平台、HDFS/MapReduce、Zookeeper、HBase 5、支持redis分布式缓存 6、集成微信公众号开发 7、Spring4新特性 8、ActiveMQ 9、Nginx详细配置…☆16Nov 16, 2022Updated 3 years ago
- 天气爬虫(全国城镇天气自动定时抓取更新,并开放RESTful查询接口),附带代理IP池定时更新并检测其可用性☆367Jun 25, 2018Updated 7 years ago
- NetDiscovery 是一款基于 Vert.x、RxJava 2 等框架实现的通用爬虫框架/中间件。☆646Nov 28, 2020Updated 5 years ago
- Apache Nutch is an extensible and scalable web crawler☆3,125Updated this week
- 旨在打造在线最佳的 Java 学习笔记,含博客讲解和源码实例,包括 Java SE 和 Java Web☆4,287Jan 8, 2022Updated 4 years ago
- 给爬虫使用的代理IP池☆566Sep 6, 2019Updated 6 years ago
- 实现定时爬取与IP代理池☆150Apr 11, 2018Updated 7 years ago
- 拉勾网数据爬虫☆32Sep 22, 2017Updated 8 years ago
- Strom 实时风控统计☆21Nov 30, 2017Updated 8 years ago
- 【大厂面试专栏】一份Java程序员需要的技术指南,这里有面试题、系统架构、职场锦囊、主流中间件等,让你成为更牛的自己!☆14,696Jul 21, 2025Updated 6 months ago
- 基于WebMagic写的一个csdn博客小爬虫☆91Jun 7, 2018Updated 7 years ago
- 微信开发 Java SDK ,支持包括微信支付,开放平台,小程序,企业微信,视频号,公众号等的后端开发☆32,553Updated this week
- 模仿国内知名B2C网站,实现的一个分布式B2C商城 使用Spring Boot 自动配置 Dubbox / MVC / MyBatis / Druid / Solr / Redis 等。使用Spring Cloud版本请查看☆2,137Dec 5, 2022Updated 3 years ago
- 👨🎓 Java Core Sprout : basic, concurrent, algorithm☆27,029May 21, 2024Updated last year
- Lightning fast and elegant mvc framework for Java8☆5,886Dec 15, 2025Updated 2 months ago
- Java资源大全中文版,包括开发库、开发工具、网站、博客、微信、微博等,由伯乐在线持续更新。☆15,716Jan 31, 2024Updated 2 years ago
- 一个基于Spring Boot & MyBatis的种子项目,用于快速构建中小型API、RESTful API项目~☆9,714Dec 17, 2023Updated 2 years ago