使用java+httpclient+httpcleaner,多线程、分布式爬去电商网站商品信息,数据存储在hbase上,并使用solr对商品建立索引,使用redis队列存储一个共享的url仓库;使用zookeeper对爬虫节点生命周期进行监视等。
☆233Nov 6, 2020Updated 5 years ago
Alternatives and similar repositories for spider
Users that are interested in spider are comparing it to the libraries listed below
Sorting:
- a simple distributed spider in Java. Java编写的一个简单分布式爬虫☆159Jun 18, 2013Updated 12 years ago
- 新浪微博爬虫,采用Java语言开发,基于HTTPClient 4.0,采用MySQL存储爬取数据,支持多进程并发执行。功能包括:爬取微博、评论、转发、关注列表(层次)。根据数据需求,持续更新...☆355Feb 27, 2014Updated 12 years ago
- 各大电商网站数据抓取分析☆32Sep 17, 2013Updated 12 years ago
- excel 公用导出组件☆13Jan 28, 2016Updated 10 years ago
- 使用kafka实现log4j日志集中管理☆14Jan 6, 2021Updated 5 years ago
- 轻量级的事件驱动和异步框架☆39Sep 1, 2024Updated last year
- 基于Map/Reduce爬虫,可抽取各大新闻网站的新闻正文并进行分类和聚类☆74Jan 5, 2014Updated 12 years ago
- 抓取各报社报纸信息-采用配置文件形式实现的一个简单的可定制爬虫☆11Sep 1, 2022Updated 3 years ago
- springboot-dubbox后台管理☆195Feb 11, 2017Updated 9 years ago
- 并发编程☆29Mar 18, 2024Updated last year
- 一个基于webmagic框架二次开发的java爬虫框架实战,已实现能爬取腾讯,搜狐,今日头条 (单独集成功能)等资讯内容,配合elasticsearch框架用法,实现了自动爬虫,已投入线上生产使用。☆343Nov 16, 2022Updated 3 years ago
- 开源基础后台开发框架,基于springmvc+spring+hibernate搭建,前端采用angular js+sea js +bootstrap展现。☆11Jun 16, 2016Updated 9 years ago
- 基于dubbo的一个分布式项目demo☆102Apr 16, 2017Updated 8 years ago
- 爬虫项目源码整理,使用redis进行url缓存,hbase进行详细信息的存储 。使用zookeeper进行爬虫线程的状态监控。☆19Oct 7, 2015Updated 10 years ago
- 分布式在线聊天系统☆10Sep 17, 2014Updated 11 years ago
- ActiveMQ Sample for Java.☆16Dec 6, 2011Updated 14 years ago
- 基于spring mvc+redis+logback+elk的日志demo☆12Feb 23, 2017Updated 9 years ago
- 《Java多线程编程实战指南(设计模式篇)》源码☆664Mar 16, 2020Updated 5 years ago
- 一个使用dubbo分布式事务开发的简易支付系统☆52Aug 26, 2016Updated 9 years ago
- 一个为spark批量导入数据到hbase的库☆42Nov 18, 2016Updated 9 years ago
- 淘宝商品评价的爬虫☆26Feb 29, 2016Updated 10 years ago
- 分布式数据源分表分库、读写分离应用层框架☆55Nov 5, 2015Updated 10 years ago
- 基于spark streaming和kafka,hbase的日志统计分析系统☆265Sep 5, 2017Updated 8 years ago
- 基于netty的分布式聊天服务器。整合zookeeper☆74Jun 25, 2022Updated 3 years ago
- 利用WebMagic框架进行58同城数据的抓取☆12Oct 13, 2014Updated 11 years ago
- API服务基础脚手架搭建,采用spring-boot\spring-session\mybatis\redis\quartz等,支持集群部署☆56Mar 18, 2019Updated 6 years ago
- 基于SpringMVC+spring+Mybatis的校园o2o电商项目的后台和管理平台☆375Jun 21, 2022Updated 3 years ago
- 分布式脚手架框架(总结整理 )☆15Aug 27, 2015Updated 10 years ago
- This shows how to embedd Hystrix in a non invasive manner into existing Spring applications.☆24May 5, 2014Updated 11 years ago
- 提供Java中的一些分布式远程调用的ShowCase,包括RMI、CXF、Burlap、Hessian、HttpInvoker、JMS、REST、MetaQ、Dubbo。☆98Aug 30, 2014Updated 11 years ago
- 乐视集团支付订单 系统分库分表开源实现☆123Feb 23, 2017Updated 9 years ago
- 基于springMVC4构建的seed项目,提供统一的rest接口响应、异常处理、参数校验等☆28Oct 9, 2014Updated 11 years ago
- 电商平台☆50Dec 25, 2016Updated 9 years ago
- 分布式可靠消息组件☆93Aug 3, 2021Updated 4 years ago
- ID生成服务器,多种高性能ID生成策略☆17Mar 22, 2017Updated 8 years ago
- zookeeper官方提供的分布式锁,选举master,和分布式队列实现☆16Mar 11, 2014Updated 11 years ago
- zhihu-crawler是一个基于Java的高性能、支持免费http代理池、支持横向扩展、分布式爬虫项目☆918Apr 2, 2019Updated 6 years ago
- 模仿国内知名B2C网站,实现的一个分布式B2C商城 使用Spring Boot 自动配置 Dubbox / MVC / MyBatis / Druid / Solr / Redis 等。使用Spring Cloud版本请查看☆2,138Dec 5, 2022Updated 3 years ago
- java 分布式数据库访问框架,可以结合任何使用PreparedStatement操作的框架。在java jdbc api层实现 分表分库 路由解析的 框架 可以单独或者与用hibernate ibatis spring-jdbc 等框架结合使用,屏蔽api层使用差异,能实…☆83Nov 24, 2022Updated 3 years ago